Основные метрики DeepEval для тестирования AI. Возможности и способы применения
Всем привет!DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.Помимо указанных ранее в DeepEval присутствуют следующие метрики:Agentic- Task Completion- Tool Correctness- Argument Correctness
Что я вынес из Oxford Machine Learning Summer School 2025
Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.
Меньше — лучше: как Polaris-4B обошёл Qwen3-32B
Привет, Хабр!В июне 2025 года команда из Гонконгского университета выложила открытые модели Polaris-4B-Preview и Polaris-7B-Preview, обученные с нуля на reasoning-задачах с использованием Reinforcement Learning. Эти модели не просто догоняют топовые коммерческие аналоги вроде Claude-Opus и Grok-3-Beta — они их обгоняют. Причём на архитектуре всего в 4 миллиарда параметров.Все это результат продуманного инженерного подхода. В этой статье коротко рассмотрим, как авторам Polaris удалось:извлечь максимум из открытых данных,обеспечить стабильное масштабирование reasoning-моделей,
Новый вид контента: ИИллюстрированная аудиокнига
Недавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги с помощью серии иллюстраций! Эта идея меня захватила, и я написал небольшой проект Ai-llustrator, которым хочу здесь поделиться.Вот пример результата: Артур Кларк — «Девять миллиардов имён Бога»
Gemma3, новая опенсорсная модель от Google, уже доступна в Ollama
Модель Gemma 3 мультимодальная, то есть может обрабатывать текст и изображения, и имеет окно контекста размером 128 тысяч токенов с поддержкой более 140 языков.В Ollama она доступна в четырех вариантах с 1, 4, 12 и 27 миллиардами параметров и превосходно справляется с такими задачами, как ответы на вопросы, резюмирование и логическое мышление, в то время как их компактный дизайн позволяет развертывание на устройствах с ограниченными ресурсами.
Google призналась, что демонстрация мультимодальности Gemini — это постановка
6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

