Не DeepSeek’ом единым: вышел Qwen2.5-Max от Alibaba
В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.Коротко о модели и архитектуре
Microsoft и OpenAI расследуют, обучался ли DeepSeek на украденных данных американских компаний в сфере ИИ
По информации иностранных СМИ, Microsoft и OpenAI расследуют, обучался ли DeepSeek на украденных данных американских компаний в сфере ИИ. В Microsoft проверяют ситуацию в отношении «связанной с DeepSeek компании», которая могла без разрешения получить большой объём данных посредством открытого API американской ИИ‑системы OpenAI.Исследователи безопасности из Microsoft осенью прошлого года зафиксировали, что лица, которые, по их мнению, могут быть связаны с DeepSeek, извлекали большие объёмы данных с помощью интерфейса прикладного программирования OpenAI API.
В США изучают последствия для безопасности из-за DeepSeek, эксперты советуют осторожничать с проектом из-за сбора данных
Совет национальной безопасности США изучает
DeepSeek вытесняет ChatGPT с поста топового приложения App Store
Мобильное приложение DeepSeek в эти выходные взлетело на первое место в магазинах приложений по всему миру, обогнав американский чат-бот с искусственным интеллектом ChatGPT. По данным компании Appfigures, занимающейся аналитикой мобильных приложений, DeepSeek в настоящее время является бесплатным приложением номер один в App Store в США и 51 другой стране.
Loss Landscape Analysis — новая библиотека для анализа точности обучения и оценки обобщающей способности нейросетей
Мой коллега Никита Габдуллин работает в Отделе перспективных исследований ИТ-компании «Криптонит». Он автор библиотеки Loss Landscape Analysis (LLA) и научной статьи о ней, препринт которой доступен на английском языке. Здесь мы подробнее рассказываем о самой библиотеке, в то время как научная публикация в основном посвящена исследованию разных свойств ландшафтов функций потерь. Также в русскоязычной статье мы допускаем некоторые лингвистические вольности, которые не приняты в академической среде, но упрощают восприятие текста.
Исследователи из Unsloth сжали DeepSeek R1 на 80% от оригинального размера
Исследователи из компании Unsloth, которая специализируется на обучении и файнтюнинге языковых моделей, сжали нейросеть DeepSeek R1 на 80% от оригинального размера. В итоге языковая модель занимает 131 ГБ вместо 720 ГБ, а запускать её можно на более слабом железе. При этом производительность модели всё ещё остаётся на достаточно высоком уровне.
Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов
Команда Qwen от Alibaba только что добавила в семейство Qwen2.5 два новых элемента: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели с открытым исходным кодом способны обрабатывать контекстные окна длиной до миллиона токенов, что делает их уникальными среди общедоступных моделей с подобными возможностями.
AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи
Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт
За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.

