Собираем качественные датасеты для LLM с помощью Telegram-бота
«Дайте мне качественный датасет, и я переверну Землю!» — возможно, так перефразировал бы свою крылатую фразу Архимед, доведись ему тренировать современные LLM. Хороших наборов данных в открытом доступе не так много, а собрать свой — задача не из простых. О популярных способах сбора данных для датасетов, связанных с этим рисках и о решении, которое мы используем в YADRO, сегодня и поговорим. Меня зовут Антон Шадрин, я работаю в DevOps-команде дивизиона искусственного интеллекта YADRO. В работе с моделями искусственного интеллекта, как и в CI/CD-пайплайне, есть похожий набор шагов.
Магистерская программа «Искусственный интеллект» — лидер по итогам приёма на онлайн-программы НИУ ВШЭ
В Национальном исследовательском университете «Высшая школа экономики» (НИУ ВШЭ)
Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2
Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи. 4. Точность прогнозирования
У языковых моделей развивается деградация интеллекта из-за мусорных данных
Учёные предупредили о тревожном феномене, который уже получил собственное имя — Brain Rot, или гниение мозга. Он наблюдается у больших языковых моделей, которые слишком часто обучаются на некачественных данных из интернета: вирусных постах, бессмысленных комментариях, спаме и кликбейтных статьях.

