Одним из сложнейших этапов дообучения LLM является процесс выравнивания (alignment), который зачастую играет решающую роль в качестве модели. Традиционным подходом к решению данной задачи является RLHF, но для него нужны дополнительные обучаемые модели, а это дополнительные вычислительные затраты и трудности в настройке. В цикле своих исследований об обучении LLM я наткнулся на интересную статью, в которой авторы предлагают метод Hindsight Instruction Relabeling (HIR).Ссылка на источник находится тут. Очень проработанная статья, советую почитать.Предыдущие материалы цикла:

Оставлено в

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.TL/DR: Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

продолжить чтение

Оставлено в

Grok Code Fast 1

Тихо, незаметно, модель появилась на Openrouter и Github Copilot, я начал копать: Модель Grok Code Fast 1 — это супербыстрая и экономичная модель для генерации кода, выпущенная командой Grok (xAI). Она оптимизирована для агентных рабочих процессов и качественного кода, поддерживает очень большой контекст (около 256К токенов), имеет 314 миллиардов параметров с архитектурой MoE. Эта модель предназначена для ускорения программирования и отлично справляется с проектами сложной структуры. Grok Code Fast 1 имеет скорость примерно 92 токена в секунду, что делает ее одной из самых быстрых кодирующих моделей на данный момент.

продолжить чтение

Оставлено в

Комплект разработчика NVIDIA AGX Thor — серверная мощь в мире роботов

NVIDIA уже давно считается первопроходцем в области ИИ и машинного обучения, открывая путь к достижениям в автономном транспорте, робототехнике и edge‑вычислениях.Особенно заметна серия Jetson

продолжить чтение

Оставлено в

Эксперты расценили «подхалимство ИИ» как «тёмный паттерн» для извлечения прибыли

Пользователи всё чаще обращают внимание на то, что популярные чат-боты пытаются «сблизиться» с ними. Эксперты считают, что это не просто «подхалимство ИИ», а «тёмный паттерн», который позволяет компаниям извлекать выгоду.

продолжить чтение

Оставлено в

Секретные фишки поисковиков, о которых нигде не пишут: Яндекс, Гугл, Perplexity

Вспомнил, как раньше открывал Yahoo и тыкал по названиям каталогов. Потом был AltaVista, Rambler, ранний Яндекс — и каждый раз поиск становился лучше, но от идеала был далёк. В 2025 у нас есть Perplexity, Google Gemini и куча ИИ-инструментов, которые сами пишут ответы вместо списка ссылок. Я долго копался в этой теме, а потом собрал фишки и приёмы поиска, которые экономят часы на ресёрче, в этой статье. Ну, и немножко истории.ОглавлениеYahooAltavistaРунет - Rambler + YandexGoogle YandexПоиск с ИИ

продолжить чтение

Оставлено в

Собрал 30+ секретных фишек поисковиков — и сэкономил часы на ресёрче

продолжить чтение

Оставлено в

LLM-агенты против ручного ресерча: кейс Bioptic в биофарме

При разработке новых лекарств важно вовремя оценить конкурентную среду – какие препараты уже существуют или находятся в разработке для той же болезни (индикации). Такой анализ конкурентов обычно входит в due diligence проекта: инвесторы и фармкомпании вручную собирают данные из разных источников о всех потенциальных конкурентах целевого препарата.

продолжить чтение

Оставлено в

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут

Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.

Как построить мультиагентную систему, которая реально работает без магии и костылей

Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Grok Code Fast 1

Комплект разработчика NVIDIA AGX Thor — серверная мощь в мире роботов

Эксперты расценили «подхалимство ИИ» как «тёмный паттерн» для извлечения прибыли

Секретные фишки поисковиков, о которых нигде не пишут: Яндекс, Гугл, Perplexity

Собрал 30+ секретных фишек поисковиков — и сэкономил часы на ресёрче

LLM-агенты против ручного ресерча: кейс Bioptic в биофарме

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.