ML4se.

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

ML4se.

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

ML4se.

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench