оценка моделей.

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

продолжить чтение

Понимание оценки LLM: детальный разбор 4 основных подходов

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

продолжить чтение

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.TL/DR: Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

продолжить чтение

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

продолжить чтение

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

продолжить чтение

Автоматическое обнаружение возможностей через самоисследование базовых моделей

Это перевод свежей статьи от 12 февраля 2025 года об Automated Capability Discovery (ACD)

продолжить чтение

Rambler's Top100