тестирование моделей.

Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

Новое исследование Стэнфордского университета показало, что агенты с искусственным интеллектом могут гораздо лучше справляться со сложными задачами, просто учась на собственном успешном опыте.

продолжить чтение

Исследование показывает, что LLM готовы помогать в злонамеренном ‘Vibe Coding’

За последние несколько лет большие языковые модели (LLM) привлекли пристальное внимание из-за потенциального злоупотребления в области наступательной кибербезопасности, особенно для создания вредоносного кода.

продолжить чтение

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

Один из самых убедительных результатов недавних тестов o3 — его производительность при выполнении задач с длительным контекстом.

продолжить чтение

Chatbot Arena становится Arena Intelligence Inc.: развитие платформы для тестирования ИИ-моделей

Chatbot Arena, краудсорсинговая платформа для сравнительного анализа, которая стала важнейшей площадкой для тестирования ИИ-моделей, объявила сегодня о создании компании под названием Arena Intelligence Inc., работающей под брендом LMArena.

продолжить чтение

Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ.Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. Чем точнее ответы, тем больше доверия к системе со стороны сотрудников/клиентов и меньше ручного труда по поиску доп.информации. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний

продолжить чтение

Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Одна из новых флагманских моделей ИИ, выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.

продолжить чтение

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела. В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.

продолжить чтение

Рост популярности агентов, использующих браузеры: почему Proxy превосходит Operator

Появляется новая волна агентов, использующих браузеры на базе искусственного интеллекта, которые обещают изменить то, как предприятия взаимодействуют с Интернетом. Эти агенты могут автономно перемещаться по веб-сайтам, получать информацию и даже завершать транзакции, но предварительное тестирование выявило значительные расхождения между обещаниями и производительностью.

продолжить чтение

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.

продолжить чтение

Rambler's Top100