Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM. active learning.. active learning. Cohens Kappa.. active learning. Cohens Kappa. google.. active learning. Cohens Kappa. google. llm.. active learning. Cohens Kappa. google. llm. Блог компании BotHub.. active learning. Cohens Kappa. google. llm. Блог компании BotHub. ИИ.. active learning. Cohens Kappa. google. llm. Блог компании BotHub. ИИ. ии и машинное обучение.. active learning. Cohens Kappa. google. llm. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. active learning. Cohens Kappa. google. llm. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. active learning. Cohens Kappa. google. llm. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. обучение модели.

Google разработала масштабируемый процесс active learning, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.

Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM - 1

Метод работает следующим образом: сначала стартовая модель (LLM-0) принимает промпт и автоматически размечает огромный массив данных, создавая базовую разметку. Затем кластеризация анализирует эту разметку и выявляет примеры, где модель ошибается или проявляет неуверенность. Эти примеры считаются наиболее спорными и ценными для обучения.

Далее происходит отбор данных: из выявленных кластеров выбираются наиболее информативные и разнообразные примеры, которые требуют улучшения.

Эти данные передаются экспертам для ручной разметки, чтобы обеспечить высокую точность и качество. После этого обновленные данные используются для дообучения модели.

Этот процесс повторяется: модель дообучается, снова происходит кластеризация и отбор спорных примеров, затем эксперты выполняют разметку, и модель снова дообучается. Таким образом, метод постоянно совершенствуется, повышая точность и качество работы модели.

Результаты:

  • Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.

  • Улучшение метрики Cohen’s Kappa на 55–65%.

  • В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.

Что такое Cohen’s Kappa?

Это метрика, которая показывает, насколько два «судьи» (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.

  • 0.0 — нет согласия (или хуже случайного)

  • 0.41–0.60 — умеренное согласие

  • 0.61–0.80 — значительное

  • 0.81–1.00 — почти полное согласие. В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).

Чем лучше предыдущих методов:

  • Точечная разметка: размечаются только самые информативные примеры.

  • Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.

  • Экономия ресурсов: меньше времени и затрат на разметку.

  • Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).

При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник

Rambler's Top100