- BrainTools - https://www.braintools.ru -

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций - 1

*Meta выпустила AdvancedIF, уникальный инструмент для тестирования больших языковых моделей, которы�� оценивает способность LLM справляться с многослойными и высоко когнитивными задачами. Набор данных включает более 1600 промптов, каждый из которых содержит шесть одновременно действующих условий. В этих условиях учитываются требования к формату, стилю, логическим связям между частями текста, ограничения на нежелательные действия модели и перекрестные зависимости, что делает тест крайне сложным даже для самых современных моделей.

Лаборатория Марка Цукерберга представила жёсткий бенчмарк для проверки LLM на выполнение сложных инструкций - 2

AdvancedIF позволяет проверять не только разовые ответы, но и способность моделей сохранять контекст в длинных диалогах, управляться через системные промпты и корректно реагировать [1] на последовательные инструкции. В качестве арбитра используется модель o3-mini, которая сверяет ответы LLM с критериями, разработанными экспертами-людьми. Такой подход позволяет объективно измерять точность и полноту выполнения заданий и выявлять реальные пределы моделей в сложных сценариях.

Инструментарий поддерживает пакетную обработку, что даёт возможность исследователям тестировать сразу несколько моделей на больших объёмах данных. Сам датасет и весь необходимый код доступны на Hugging Face [2] и GitHub [3], открывая возможности для повторного тестирования, оптимизации моделей и экспериментов с реальными сценариями. AdvancedIF становится важным шагом для науки о LLM и помогает понять, где современные модели справляются, а где ещё нужны улучшения, прежде чем их внедрять в промышленные и образовательные приложения.


Делегируйте часть рутинных задач вместе с BotHub! [4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta и Facebook признаны экстремистами и запрещены в РФ

Автор: cognitronn

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22510

URLs in this post:

[1] реагировать: http://www.braintools.ru/article/1549

[2] Hugging Face: https://huggingface.co/datasets/meta-llama/AdvancedIF

[3] GitHub: https://github.com/facebookresearch/AdvancedIF

[4] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=IS%20ChatGPT%20USELESS?%20I%20HACKED%20THE%20AI%27S%20MIND%20USING%20A%20SIMPLE%20GRAPH.%20NOW%20IT%20LEARNS%20ON%20ITS%20OWN,%20AND%20IT%27S%20SCARY

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Источник: https://habr.com/ru/companies/bothub/news/971120/?utm_source=habrahabr&utm_medium=rss&utm_campaign=971120

www.BrainTools.ru

Rambler's Top100