«Закон уплотнения» LLM: плотность способностей удваивается каждые 3,5 месяца
TL;DRПредлагается «закон уплотнения» для больших языковых моделей: максимальная плотность способностей удваивается примерно каждые 3,5 месяца. То есть всё больше качества удаётся выжать из каждого параметра модели.Вводится метрика плотности способностей: считается, сколько параметров потребовалось бы референсной модели, чтобы показать такое же качество, и это число сравнивается с реальным количеством параметров. Так видно, какие модели обучены «экономно», а какие — расточительно.
Лучшие нейросети для вайбкодинга на 1С 6 (финал)
В этой части добавил Claude Opus 4.5 и GPT 5.1-Codex-MaxПредыдущая часть: https://habr.com/ru/articles/967828/Для тех, кто не любит читать, результат сразу тут:И ссылка на рейтинг, который теперь переехал вот сюда:
Научный стриминговый сервис Curiosity Stream занялся помощью в лицензировании ИИ
Ориентированный на науку стриминговый сервис Curiosity Stream занялся лицензированием интеллектуальной собственности компаний из сферы искусственного интеллекта. Он предлагает оригинальное программное обеспечение Curiosity Stream для обучения больших языковых моделей.
Анализ возможности применения модели OpenThinker2-32B в автоматизированных системах прогнозируемого обслуживания
Постановка проблемы.
Квантовые физики уменьшили и «освободили от цензуры» DeepSeek R1
Им удалось сократить размер ИИ-модели рассуждений более чем наполовину — и они утверждают, что теперь она может отвечать на политически чувствительные вопросы, которые раньше были под запретом в китайских ИИ-системах.TL;DR:Multiverse Computing сжала DeepSeek R1 с помощью квантово-вдохновлённых тензорных сетей: модель стала на 55% компактнее при почти той же точности. По пути они «сняли» китайскую цензуру: модифицированная версия отвечает на табуированные для китайских LLM вопросы примерно как западные модели.
Artificial Analysis обновили свой Intelligence Index
В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.Фактические знания и галлюцинацииGemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.Самый показательный результат — 37% в Humanity's Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:
ИИ-агенты: хайп или новый стандарт рынка. Обзор исследования от МТС
Новый технологический тренд — всегда вызов для бизнеса. Но что с ним делать — немедленно вкладываться и внедрять или подождать и присмотреться?
Не только трансформеры: за пределами стандартных архитектур LLM
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).

