multimodal large language models.

Основные метрики DeepEval для тестирования AI. Возможности и способы применения

Всем привет!DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.Помимо указанных ранее в DeepEval присутствуют следующие метрики:Agentic- Task Completion- Tool Correctness- Argument Correctness

продолжить чтение

Google призналась, что демонстрация мультимодальности Gemini — это постановка

6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

продолжить чтение

Rambler's Top100