Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций. ai.. ai. meta.. ai. meta. Блог компании BotHub.. ai. meta. Блог компании BotHub. Будущее здесь.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. meta. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций - 1

*Meta выпустила AdvancedIF, уникальный инструмент для тестирования больших языковых моделей, которы�� оценивает способность LLM справляться с многослойными и высоко когнитивными задачами. Набор данных включает более 1600 промптов, каждый из которых содержит шесть одновременно действующих условий. В этих условиях учитываются требования к формату, стилю, логическим связям между частями текста, ограничения на нежелательные действия модели и перекрестные зависимости, что делает тест крайне сложным даже для самых современных моделей.

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций - 2

AdvancedIF позволяет проверять не только разовые ответы, но и способность моделей сохранять контекст в длинных диалогах, управляться через системные промпты и корректно реагировать на последовательные инструкции. В качестве арбитра используется модель o3-mini, которая сверяет ответы LLM с критериями, разработанными экспертами-людьми. Такой подход позволяет объективно измерять точность и полноту выполнения заданий и выявлять реальные пределы моделей в сложных сценариях.

Инструментарий поддерживает пакетную обработку, что даёт возможность исследователям тестировать сразу несколько моделей на больших объёмах данных. Сам датасет и весь необходимый код доступны на Hugging Face и GitHub, открывая возможности для повторного тестирования, оптимизации моделей и экспериментов с реальными сценариями. AdvancedIF становится важным шагом для науки о LLM и помогает понять, где современные модели справляются, а где ещё нужны улучшения, прежде чем их внедрять в промышленные и образовательные приложения.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta и Facebook признаны экстремистами и запрещены в РФ

Автор: cognitronn

Источник

Rambler's Top100