бенчмарки LLM.

FINESSE-Bench: как мы обновили финансовый бенчмарк для LLM

В Лаборатории искусственного интеллекта «Финама» мы изучаем и развиваем применение ИИ в финансовом домене: от бенчмаркинга LLM до прикладных сценариев в трейдинге, аналитике и управлении рисками. В предыдущей статье мы рассказывали о первой версии нашего набора бенчмарков для оценки финансовых знаний моделей. С тех пор проект вырос, получил отдельную страницу FINESSE-Bench и заметно изменился — и по объёму, и по качеству, и по строгости методологии.

продолжить чтение

Оставлено в

Гибель богов. Fable и ещё 10 LLM реорганизуют код. Сравнение

Русский и английский оригиналы статьи в моём блоге.Код и материалы.Это подробный разбор одного эксперимента. Я взял god node из реального LangGraph агента и попросил 5 американских и 6 китайских моделей сначала предложить, как её распутать, а потом оценить предложения друг друга. Дальше тремя разными способами пытался понять, кому из них в этом деле верить.ОглавлениеИсходная задача. Что за god node и чем она опасна.

продолжить чтение

Оставлено в

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

В прошлой главе я разобрал три провала чужих AI-агентов в проде - PocketOS, потерю production-базы Replit и сценарии GitHub Copilot, в которых агент действовал быстрее, чем человек успевал сказать стоп.Финал был честный: эти три - не про то, как делать правильно. Это места, где меня поймало бы, если бы я не прочитал разборы до того, как Lexis стал продуктом для людей.И я обещал в следующей главе перейти с уровня отдельные истории на уровень данных. Конкретно - две вещи.Первая: ProgramBench. Топ-модели, которые закрыли SWE-bench на 95%, на ProgramBench показывают 0% и 3%. Не упали на десять пунктов - обнулились.

продолжить чтение

Оставлено в

Бесплатная Stealth-модель оказалась в топе OpenRouter за 72 часа

13 апреля на OpenRouter появилась Elephant Alpha — 100-миллиардная языковая модель без имени автора, пресс-релиза и маркетинга. Через несколько дней она заняла первое место в Trending-ранкинге платформы, обойдя платные модели по реальному потреблению токенов.

продолжить чтение

Оставлено в

Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

бенчмарки LLM.

FINESSE-Bench: как мы обновили финансовый бенчмарк для LLM

Гибель богов. Fable и ещё 10 LLM реорганизуют код. Сравнение

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Бесплатная Stealth-модель оказалась в топе OpenRouter за 72 часа

Разбираем 14 самых популярных бенчмарков для LLM

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

бенчмарки LLM.

FINESSE-Bench: как мы обновили финансовый бенчмарк для LLM

Гибель богов. Fable и ещё 10 LLM реорганизуют код. Сравнение

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Бесплатная Stealth-модель оказалась в топе OpenRouter за 72 часа

Разбираем 14 самых популярных бенчмарков для LLM