Как нейросетям перестать бояться и полюбить «синтетику»
LLM требуют все больше данных для обучения, но обучаться постепенно становится не на чем: аппетиты ИИ-систем превосходят возможности человечества по генерации контента, к тому же использовать реальные данные в одних случаях дорого, в других — не очень-то законно.Спасти ситуацию может «синтетика», но и с ней не все гладко. Мы в beeline cloud решили разобраться, какие риски несут в себе подобные датасеты, что такое «ML-аутофагия» и как с ней борются разработчики LLM.
Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением
Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.
Генератор синтетических документов для обучения моделей ИИ
Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.Кратко:Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхабЯзык текста: можно выбрать.
Почему синтетические данные редко используются в реальных задачах
Синтетические данные
Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1
Доброго вам дня, уважаемые Хабражители! В связи с бурным ростом LLM и просто невероятным, прорывными результатами практически ошеломительного качества, всё острее мы погружаемся в вопросы о дальнейшем развитии: «Куда двигаться дальше с точки зрения данных? Где их брать? Какого качества они должны быть? Как их бесшовно встроить в общую канву текущего конвейера? Сколько их вообще надо генерировать?» Всё это порождает массу тревог, размышлений и проводимых тестов. Поскольку мы уже вплотную подошли к тому, что данных начинает не хватать
Apple будет анализировать данные на устройствах для улучшения обучения ИИ
Apple опубликовала статью, посвящённую новому подходу в обучении Apple Intelligence. Если ранее компания использовала синтетические данные для обучения ИИ, то теперь она начнёт применять аналитику от пользователей.
Алгоритмы поиска аномалий HBOS и ECOD
Привет, Хабр! Меня зовут Михаил Васильев, я старший специалист по машинному обучению в компании Makves (входит в группу компаний «Гарда»). По работе мне часто приходится заниматься поиском аномалий в данных, однако я заметил, что в русскоязычном интернете этой задаче посвящено очень мало материалов. В частности, я не нашел хорошего разбора различных алгоритмов поиска аномалий, где были бы описаны их плюсы и минусы.В статье хочу частично исправить этот недочет и разобрать алгоритмы HBOS и ECOD, а также обсудить особенности их реализации в популярной библиотеке PyOD.Рассмотрим:
Игра в имитацию: используем Python для генерации синтетических данных для ML и не только
ВведениеРучной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По
Разметка данных с использованием LLM
Всем привет! Меня зовут Артем Ерохин. Я работаю в X5 Tech в направлении продуктивизации ИИ. В прошлом году у меня был доклад про разметку данных с LLM. И я решил преобразовать этот доклад в статью, попутно обновив некоторые цифры и тезисы (такова уж скорость прогресса в этой области). Но для начала позволю себе несколько вводных для тех, кто всё же не слышал про разметку данных и LLM (Large Language Models или большие языковые модели). Что же такое LLM?Итак, LLM – это:Модель.
Как собирать данные: руководство для ИИ-стартапов
В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

