Машинное обучение. - страница 39

Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация

 Если вы зайдете на Reddit или HuggingFace, вы увидите одну и ту же картину: люди соревнуются в том, кто сильнее покалечит модель, чтобы втиснуть её в свои 8 или 12 ГБ видеопамяти.«Смотрите, я запустил 70 миллиардную модель на RTX 3060! Правда, пришлось использовать 3 битное квантование с размером группы 32, но она работает!»

продолжить чтение

О чём говорили на ICLR 2026? Репортаж AIRI о поездке на конференцию в Рио

Конференции в науке об ИИ очень любят и ждут. Подача работы на какое‑либо мероприятие из верхушки рейтинга CORE обычно престижнее, чем подача её же в журнал первого квартиля. В «большую тройку» главных конференций года принято включать NeurIPS, ICML и ICLR. Последняя обычно проходит раньше двух других — в этом году она прошла в конце апреля в Рио‑де‑Жанейро.Мы посетили ICLR 2026 вместе с коллегами из AIRI и рассказываем, чем запомнилась нашим исследователям эта командировка.

продолжить чтение

Google убрала из Gemini Thinking модель. Обзор обновления Gemini

Давайте пройдемся по всем изменениям по порядку.Уровень мышления.Теперь в браузерную версию Gemini и в Gemini из приложения добавили настройку "Уровень рассуждений". Раньше подобные настройки можно было встретить в Google AI Studio, но теперь можно и тут. Конечно, тут нет всех привычных нам уровней, таких как низкий, средний, высокий. Есть только стандартный и расширенный. Это 100% подсмотрели у GPT, так как в их приложении это настраивается уже давно.

продолжить чтение

Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты.

продолжить чтение

Алиса AI научилась лучше генерировать изображения с русскоязычным текстом

Пресс-служба «Яндекса» рассказала Хабру про обновление модели для генерации изображений Alice AI ART. Нейросеть теперь точнее работает с русскоязычными текстами на картинках. Благодаря этому пользователи могут создавать изображения с более длинными и корректными текстами на русском языке.

продолжить чтение

Владимир Крылов: «Считать современные LLM просто предсказателями токенов — это техническая безграмотность»

В IT-сообществе не утихают обсуждения, есть ли в современных больших языковых моделях хоть капля настоящего интеллекта или перед нами просто раздутая до триллионов параметров таблица поиска, занимающаяся интерполяцией. Пока критики продолжают рассуждать о «стохастических попугаях», колмогоровской сложности и неизбежном коллапсе синтетических данных, разработчики фронтирных моделей (вроде Claude Opus4.6 или DeepSeek-V3.2) молча меняют правила игры, внедряя GRPO, DAPO и вычисления на этапе вывода.На тг-канале AI4Dev

продолжить чтение

Vercel выкатил язык программирования для агентов. Я пытаюсь понять, нужен ли он мне

15 мая Vercel Labs релизнули Zero. Экспериментальный системный язык, который сами авторы называют "the programming language for agents". Версия 0.1.1, Apache 2.0, расширение .0, бинарники меньше 10 килобайт, без LLVM. На GitHub лежит компилятор, стандартная библиотека и примеры — можно ставить и щупать прямо сейчас.Я прочитал доки, поставил себе, погонял пару примеров. Сижу с этой мыслью: серьёзно или очередной хайповый проект под волну агентного кодинга?Если коротко — наверное серьёзно, но мне сейчас не нужно. Тебе, скорее всего, тоже. Сейчас расскажу, что там и почему я так думаю.Что Zero на самом деле делает

продолжить чтение

Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X

Официальный рендер HPC-ускорителя AMD Instinct MI430X. Источник.На майском HPC User Forum в Остине AMD

продолжить чтение

Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)

В мире глубокого обучения существует наивный миф: "Если твоя модель недостаточно умная, просто накинь еще пару десятков слоев".На бумаге residual связи (те самые плюсики в коде: x=x+f(x) ) должны позволять нам строить сети бесконечной глубины, спасая градиенты от затухания. Но любой, кто пытался с нуля обучить трансформер слоев на 80, знает жестокую правду: сеть просто отказывается сходиться. Loss взрывается в первые же эпохи, или модель навсегда застревает на субоптимальном плато.

продолжить чтение

Решение задачи удаления избыточных терминов в заданном контексте без потери информации. Примеры в Colab

Как известно, LLM - это машина, которая “видела” “весь Интернет”, много чего запомнила и много чему научилась. Задавая ей правильные вопросы можно получать “правильные” ответы (где “правильные” стоит понимать в статистическом смысле). Широта и универсальность таких способностей дает возможность ставить новые универсальные задачи и получать общее решение таких задач.

продолжить чтение