Машинное обучение. - страница 312

Loss Landscape Analysis — новая библиотека для анализа точности обучения и оценки обобщающей способности нейросетей

Мой коллега Никита Габдуллин работает в Отделе перспективных исследований ИТ-компании «Криптонит». Он автор библиотеки Loss Landscape Analysis (LLA) и научной статьи о ней, препринт которой доступен на английском языке. Здесь мы подробнее рассказываем о самой библиотеке, в то время как научная публикация в основном посвящена исследованию разных свойств ландшафтов функций потерь. Также в русскоязычной статье мы допускаем некоторые лингвистические вольности, которые не приняты в академической среде, но упрощают восприятие текста.

продолжить чтение

Исследователи из Unsloth сжали DeepSeek R1 на 80% от оригинального размера

Исследователи из компании Unsloth, которая специализируется на обучении и файнтюнинге языковых моделей, сжали нейросеть DeepSeek R1 на 80% от оригинального размера. В итоге языковая модель занимает 131 ГБ вместо 720 ГБ, а запускать её можно на более слабом железе. При этом производительность модели всё ещё остаётся на достаточно высоком уровне.

продолжить чтение

Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов

Команда Qwen от Alibaba только что добавила в семейство Qwen2.5 два новых элемента: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели с открытым исходным кодом способны обрабатывать контекстные окна длиной до миллиона токенов, что делает их уникальными среди общедоступных моделей с подобными возможностями.

продолжить чтение

AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи

Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.

продолжить чтение

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.

продолжить чтение

DeepSeek против ChatGPT: Какой искусственный интеллект определит будущее?

В последние годы искусственный интеллект (ИИ) стремительно развивается, становясь центральной силой, формирующей отрасли и переосмысливающей возможности как для отдельных людей, так и для бизнеса.

продолжить чтение

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель  DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

продолжить чтение

Nvidia, OpenAI и Трамп прокомментировали ситуацию по поводу популярности проекта DeepSeek

Американская компания Nvidia, генеральный директор OpenAI Сэм Альтман и президент США Дональд Трамп прокомментировали

продолжить чтение

В Adobe Premiere Pro появился визуальный поиск видеофайлов на базе нейросетей

В Adobe Premiere Pro добавили визуальный поиск видеофайлов на базе нейросетей. С его помощью пользователи могут искать нужные кадры в коллекции отснятого материала с помощью текстовых подсказок.

продолжить чтение

Учёные предлагают заставить ИИ играть в игру «боль-удовольствие» для проверки разумности

Исследователи из Google DeepMind и Лондонской школы экономики (LSE) предлагают

продолжить чтение

Rambler's Top100