bertscore.

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час.Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово.

продолжить чтение

Оставлено в

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Это вторая часть серии статей про метрики задач NLP, в которой я затрону тему оценки качества в задачах генерации текста. Мы рассмотрим следующие метрики: BLEUROUGEMETEORBERTScoreНачнем!Генерация текста

продолжить чтение

Оставлено в

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

В прошлой части мы подробно разобрали 11 популярных техник RAG: как они устроены, какие у них есть сильные и слабые стороны, и в каких сценариях они могут быть полезны. Теперь пришло время перейти от теории к практике и посмотреть, как эти подходы показывают себя в деле.В этой статье мы посмотрим на результаты экспериментов: какие техники оказались наиболее эффективными на датасете Natural Questions, где они приятно удивили, а где — наоборот, не оправдали ожиданий. Для оценки будем использовать фреймворк RAGAS, а также метрики BertScore и ROUGE-2

продолжить чтение

Оставлено в

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

При проектировании RAG-системы инженер каждый раз сталкивается с множеством вопросов: как получать чанки, какую векторную базу использовать, как организовать получение релевантной информации из базы, да даже выбор эмбеддера может занять приличное время — и это лишь вершина айсберга. Идеальным решением является перебор основных вариантов, затем оценка качества и выбор подходящих для конкретной задачи. Ведь то, что хорошо работает, например, для техподдержки, может провалиться в юридическом анализе, и наоборот.

продолжить чтение

Оставлено в

Как тестировать промпты и чейны (Ручная разметка-BERTScore-LLM as judge)

Год назад я написал статью “Почему важно тестировать промпты и как это делать”. В ней я рассказывал про библиотеку promptfoo, которая предлагает различные способы проверки ответов, генерируемых моделью. Сейчас рынок уже находится на другом этапе: почти никому не нужно объяснять, зачем тестировать LLM при её интеграции в продукт, однако вопрос «как именно это делать» всё ещё остаётся открытым. Причём он стал ещё острее — ведь объём тестовых запросов вырос с 30 штук до 4 тысяч.

продолжить чтение

Оставлено в

Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

bertscore.

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

Как тестировать промпты и чейны (Ручная разметка-BERTScore-LLM as judge)

Метрики оценки LLM: полное руководство по оценке LLM

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

bertscore.

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

Как тестировать промпты и чейны (Ручная разметка-BERTScore-LLM as judge)

Метрики оценки LLM: полное руководство по оценке LLM