Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF
Одним из сложнейших этапов дообучения LLM является процесс выравнивания (alignment), который зачастую играет решающую роль в качестве модели. Традиционным подходом к решению данной задачи является RLHF, но для него нужны дополнительные обучаемые модели, а это дополнительные вычислительные затраты и трудности в настройке. В цикле своих исследований об обучении LLM я наткнулся на интересную статью, в которой авторы предлагают метод Hindsight Instruction Relabeling (HIR).Ссылка на источник находится тут. Очень проработанная статья, советую почитать.Предыдущие материалы цикла:
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.TL/DR: Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
Grok Code Fast 1
Тихо, незаметно, модель появилась на Openrouter и Github Copilot, я начал копать: Модель Grok Code Fast 1 — это супербыстрая и экономичная модель для генерации кода, выпущенная командой Grok (xAI). Она оптимизирована для агентных рабочих процессов и качественного кода, поддерживает очень большой контекст (около 256К токенов), имеет 314 миллиардов параметров с архитектурой MoE. Эта модель предназначена для ускорения программирования и отлично справляется с проектами сложной структуры. Grok Code Fast 1 имеет скорость примерно 92 токена в секунду, что делает ее одной из самых быстрых кодирующих моделей на данный момент.
Комплект разработчика NVIDIA AGX Thor — серверная мощь в мире роботов
NVIDIA уже давно считается первопроходцем в области ИИ и машинного обучения, открывая путь к достижениям в автономном транспорте, робототехнике и edge‑вычислениях.Особенно заметна серия Jetson
Секретные фишки поисковиков, о которых нигде не пишут: Яндекс, Гугл, Perplexity
Вспомнил, как раньше открывал Yahoo и тыкал по названиям каталогов. Потом был AltaVista, Rambler, ранний Яндекс — и каждый раз поиск становился лучше, но от идеала был далёк. В 2025 у нас есть Perplexity, Google Gemini и куча ИИ-инструментов, которые сами пишут ответы вместо списка ссылок. Я долго копался в этой теме, а потом собрал фишки и приёмы поиска, которые экономят часы на ресёрче, в этой статье. Ну, и немножко истории.ОглавлениеYahooAltavistaРунет - Rambler + YandexGoogle YandexПоиск с ИИ
Собрал 30+ секретных фишек поисковиков — и сэкономил часы на ресёрче
Вспомнил, как раньше открывал Yahoo и тыкал по названиям каталогов. Потом был AltaVista, Rambler, ранний Яндекс — и каждый раз поиск становился лучше, но от идеала был далёк. В 2025 у нас есть Perplexity, Google Gemini и куча ИИ-инструментов, которые сами пишут ответы вместо списка ссылок. Я долго копался в этой теме, а потом собрал фишки и приёмы поиска, которые экономят часы на ресёрче, в этой статье. Ну, и немножко истории.ОглавлениеYahooAltavistaРунет - Rambler + YandexGoogle YandexПоиск с ИИ
LLM-агенты против ручного ресерча: кейс Bioptic в биофарме
При разработке новых лекарств важно вовремя оценить конкурентную среду – какие препараты уже существуют или находятся в разработке для той же болезни (индикации). Такой анализ конкурентов обычно входит в due diligence проекта: инвесторы и фармкомпании вручную собирают данные из разных источников о всех потенциальных конкурентах целевого препарата.
Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут
Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.

