синтетические данные.

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.

продолжить чтение

Оставлено в

Генератор синтетических документов для обучения моделей ИИ

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.Кратко:Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхабЯзык текста: можно выбрать.

продолжить чтение

Оставлено в

Почему синтетические данные редко используются в реальных задачах

Синтетические данные

продолжить чтение

Оставлено в

Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1

Доброго вам дня, уважаемые Хабражители! В связи с бурным ростом LLM и просто невероятным, прорывными результатами практически ошеломительного качества, всё острее мы погружаемся в вопросы о дальнейшем развитии: «Куда двигаться дальше с точки зрения данных? Где их брать? Какого качества они должны быть? Как их бесшовно встроить в общую канву текущего конвейера? Сколько их вообще надо генерировать?» Всё это порождает массу тревог, размышлений и проводимых тестов. Поскольку мы уже вплотную подошли к тому, что данных начинает не хватать

продолжить чтение

Оставлено в
- синтетические данные

Apple будет анализировать данные на устройствах для улучшения обучения ИИ

Apple опубликовала статью, посвящённую новому подходу в обучении Apple Intelligence. Если ранее компания использовала синтетические данные для обучения ИИ, то теперь она начнёт применять аналитику от пользователей.

продолжить чтение

Оставлено в

Алгоритмы поиска аномалий HBOS и ECOD

Привет, Хабр! Меня зовут Михаил Васильев, я старший специалист по машинному обучению в компании Makves (входит в группу компаний «Гарда»). По работе мне часто приходится заниматься поиском аномалий в данных, однако я заметил, что в русскоязычном интернете этой задаче посвящено очень мало материалов. В частности, я не нашел хорошего разбора различных алгоритмов поиска аномалий, где были бы описаны их плюсы и минусы.В статье хочу частично исправить этот недочет и разобрать алгоритмы HBOS и ECOD, а также обсудить особенности их реализации в популярной библиотеке PyOD.Рассмотрим:

продолжить чтение

Оставлено в

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

ВведениеРучной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По

продолжить чтение

Оставлено в

Разметка данных с использованием LLM

Всем привет! Меня зовут Артем Ерохин. Я работаю в X5 Tech в направлении продуктивизации ИИ. В прошлом году у меня был доклад про разметку данных с LLM. И я решил преобразовать этот доклад в статью, попутно обновив некоторые цифры и тезисы (такова уж скорость прогресса в этой области). Но для начала позволю себе несколько вводных для тех, кто всё же не слышал про разметку данных и LLM (Large Language Models или большие языковые модели). Что же такое LLM?Итак, LLM – это:Модель.

продолжить чтение

Оставлено в

Как собирать данные: руководство для ИИ-стартапов

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

продолжить чтение

Оставлено в

Генерация табличных данных с помощью языковых моделей: делаем правильно

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности, отсутствия информации или необходимости тестирования алгоритмов перед их применением в реальных сценариях. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

синтетические данные.

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Генератор синтетических документов для обучения моделей ИИ

Почему синтетические данные редко используются в реальных задачах

Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1

Apple будет анализировать данные на устройствах для улучшения обучения ИИ

Алгоритмы поиска аномалий HBOS и ECOD

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

Разметка данных с использованием LLM

Как собирать данные: руководство для ИИ-стартапов

Генерация табличных данных с помощью языковых моделей: делаем правильно

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

синтетические данные.