benchmark.

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИTL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень случайного угадывания. Причина -- токенизатор: cl100k_base не содержит армянских токенов и разбивает текст побайтово, раздувая его в 10 раз по сравнению с английским. Бесплатные мультиязычные модели с SentencePiece/WordPiece-токенизаторами не имеют этой проблемы. Протестировано 19 моделей на 245 триплетах EN/RU/HY из TMDB. Лучший retrieval -- LaBSE (R@1 = 0,83), лучший alignment -- multilingual-e5-large (0,86).

продолжить чтение

Оставлено в

Embedder для ИТ-крестьянина

Я - Дмитрий Черняк, владелец компании, производящей цифровых консультантов "Нейроботник" и архитектор этого решения. Наиболее простой и ходовой вариант нашего продукта - консультант на сайте, с подключенной моделью и RAG-базами. Простые задачи ограничиваются одной базой, более сложные - несколькими, совмещающими семантический поиск с целевым - по ключевым словам и фразам, с многошаговым ответом. Для большинства задач в данной нише этого достаточно.Эта статья посвящена предновогоднему тесту эмбеддеров (табличка результатов прилагается).

продолжить чтение

Оставлено в

Xiaomi Mimo V2: Как бесплатная модель от вендора смартфонов обошла Qwen 235B в генерации образовательного контента

Мы ожидали увидеть очередную "легкую" модель для телефонов, а нашли hidden gem, который генерирует учебные материалы лучше, чем модели в 100 раз больше. Подробный разбор с JSON-ами, промптами и сравнением.Скрытый текстXiaomi MiMo V2 Flash — бесплатная модель на OpenRouter, которая:🏆 Генерирует лучшие педагогические сценарии среди протестированных моделей⚡ Работает в 3x быстрее Qwen 3 (11 сек vs 34 сек)🎯 100% валидный JSON с первой попытки💰 Стоит $0.00 (пока)Когда использовать: EdTech, онбординг, soft skills, обучающие боты.

продолжить чтение

Оставлено в

Benchmark Driven Development: почему мы перестали верить чужим бенчмаркам

Каждый день появляются новые LLM, OCR, мультимодальные модели и агенты. В новостях — одни заголовки: «Модель X побила все бенчмарки». Руководство хочет «самое новое и передовое», команда — «самое лучшее по метрикам». А вот как понять, что конкретно для вашего кейса это действительно лучше — обычно не очень понятно.В этой статье расскажем, как мы пришли к подходу, который внутри называем Benchmark Driven Development (BDD) — разработка, движимая бенчмарками на своих данных. (Да, мы знаем, что BDD — это ещё и Behavior Driven Development, тут у нас своя расшифровка 🙂)Задача из практики: документы в одном длинном PDF

продолжить чтение

Оставлено в

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.TLDR: Не все джейлбрейки одинаково полезныПолный текст доклада (25 стр.) с NeurIPS. Если лень читать обзор, можете пролистать комиксы от нанобананы. Большинство джейлбрейков - иллюзия!

продолжить чтение

Оставлено в

GDPval: измерение производительности AI-моделей на реальных задачах

Мы представляем GDPval — новую метрику, которая оценивает производительность моделей на экономически значимых, прикладных задачах из 44 профессиональных областей.Статья | evals.openai.comНаша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval

продолжить чтение

Оставлено в

Гармония восприятия и генерации: новый эталон для мультимодальных моделей

Автор: Денис АветисянДолгое время искусственный интеллект испытывал трудности в интеграции зрительного и языкового восприятия, оставаясь лишь поверхностным в понимании сложных взаимосвязей между ними. Однако, прорыв, представленный в Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

продолжить чтение

Оставлено в

Неожиданный результат: ИИ замедляет опытных разработчиков

Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.

продолжить чтение

Оставлено в

Time Horizon моделей AI: почему рост скорости зависит от сферы применения

продолжить чтение

Оставлено в
- ai
- benchmark

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

benchmark.

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Embedder для ИТ-крестьянина

Xiaomi Mimo V2: Как бесплатная модель от вендора смартфонов обошла Qwen 235B в генерации образовательного контента

Benchmark Driven Development: почему мы перестали верить чужим бенчмаркам

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

GDPval: измерение производительности AI-моделей на реальных задачах

Гармония восприятия и генерации: новый эталон для мультимодальных моделей

Неожиданный результат: ИИ замедляет опытных разработчиков

Time Horizon моделей AI: почему рост скорости зависит от сферы применения

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

benchmark.