- BrainTools - https://www.braintools.ru -

Если нужно сгенерировать синтетические данные — подборка открытых решений

Если нужно сгенерировать синтетические данные — подборка открытых решений - 1

Про снижение расходов на работу с данными расскажем [1] 13 августа на вебинаре. А сегодня мы поговорим об открытых инструментах, которые открывают новые возможности для экспериментов и работы с ML. Далее в подборке четыре решения по теме — разбираем их возможности и примеры использования.

Датасеты без рутины

Источник

Bespoke Curator [3] — это Python-библиотека под лицензией Apache 2.0, упрощающая построение масштабируемых пайплайнов для генерации синтетических данных (включая последующее обучение [4] на этих данных). Проект был запущен в январе 2025 года стартапом Bespoke Labs, разрабатывающим ИИ-инструменты для работы с LLM. Помимо генерации данных библиотека помогает автоматизировать процессы их очистки и форматирования — с оптимизацией под асинхронные операции.

Bespoke Curator умеет работать с API таких провайдеров как OpenAI и Anthropic через LiteLLM и vLLM. При этом одним из ключевых преимуществ системы является автоматическое кэширование сгенерированных ответов. Механизм защищает от сбоев при обработке больших объемов данных — можно возобновить генерацию с той точки, где она была прервана (а не начинать сначала). В то же время кэширование позволяет выстраивать многоступенчатые пайплайны, повторно используя данные предыдущих этапов: разработчики продемонстрировали эту функцию на классическом примере с Hello World. При повторном запуске кода ниже ответ берется из кэша, а не запрашивается у LLM.

from bespokelabs import curator
llm = curator.LLM(model_name="gpt-4o-mini")
poem = llm("Write a poem about the importance of data in AI.")
print(poem.dataset.to_pandas())

Кроме того, Curator включает CodeExecutor — встроенный инструмент от Bespoke Labs. Он подходит для генерации синтетических датасетов с кодом или разработки автотестов.

Благодаря Bespoke Curator появились датасеты Bespoke-Stratos-17k [5], OpenThoughts-114k [6] и s1K-1.1 [7], которые подходят для обучения reasoning-систем и содержат математические задачи, сниппеты программного кода и даже пазлы. Также с помощью инструмента был сгенерирован OpenThoughts2-1M [8], использованный для обучения модели OpenThinker2-32B.

Документация включает руководства по настройке, а также справочные материалы с примерами кода для генерации датасетов. Там описаны параметры, классы и методы для работы с API языковых моделей, настройки бэкендов и мультимодальные сценарии.

Масштабируемые пайплайны

Источник

Distilabel [10] — фреймворк для генерации структурированных синтетических датасетов с лицензией Apache 2.0. Его разработала компания Argilla [специализируется на ИИ-инструментах] в 2023 году. Есть интеграция с LLM от OpenAI, Anthropic и других провайдеров через единый API.

Если говорить о необходимых зависимостях, то Distilabel опирается на библиотеки Outlines [11] и Instructor [12]. Он также использует фреймворк Ray [13] для масштабирования нагрузки и реализации распределенных вычислений и библиотеку Faiss [14], предназначенную для поиска похожих векторов (ближайших соседей), которая оптимизирована для работы с большими наборами данных.

С помощью Distilabel был собран датасет OpenHermesPreference [15] с миллионом предпочтений систем ИИ [«предпочтение» — это выбор, который делает нейросеть, отвечая на вопросы в промптах]. Также фреймворк использовали для создания набора данных Intel Orca DPO [16] и датасета haiku DPO [17] для генерации японских хайку — традиционной поэтической формы из трех строк.

Если вы хотите поближе познакомиться с этим инструментом или опробовать в деле — официальная документация может стать хорошей отправной точкой. Она содержит инструкции по установке и настройке, а также большое количество how-to-гайдов [18] по генерации синтетических данных и не только.

Безопасная синтетика

Источник

mostlyai [19] — это Python-библиотека под лицензией Apache 2.0 для генерации обезличенных синтетических данных. Она была разработана в 2023 году одноименной компанией MOSTLY AI, которая специализируется на датасетах для машинного обучения и тестирования ПО.

В первую очередь проект ориентирован на организации, занимающиеся разработкой систем ИИ. В частности, с его помощью можно построить синтетический датасет на основе таблицы с данными клиентов (например, возраст, регион, история транзакций). Он выглядит правдоподобно, но будет очищен от каких-либо реальных персональных данных.

В основе табличных моделей лежит высокопроизводительный фреймворк TabularARGN [20] для обработки смешанных сводов данных, также предложенный инженерами из MOTSLY AI. Как пишут авторы, он позволяет сгенерировать миллионы синтетических записей за несколько минут (даже в вычислительных средах на CPU). В качестве языковой модели по умолчанию используется LSTM без предварительного обучения (LSTMFromScratch-3m).

Документация [21] у проекта довольно исчерпывающая и описывает работу с таблицами, временными рядами, текстом, а также настройку окружения: с использованием Docker и изолированных сред без доступа к интернету. Все это с примерами кода и пошаговыми руководствами для быстрого старта.

Автопилот для LLM

Источник

DataDreamer [23] — еще одна открытая Python-библиотека, которая появилась в 2024 году. Это академический проект — её разработали исследователи из Университетов Пенсильвании и Торонто. Их целью было упростить генерацию синтетических датасетов и улучшить воспроизводимость исследований с LLM.

Библиотека позволяет запускать многошаговые пайплайны, используя открытые модели или коммерческие LLM, доступные через API. DataDreamer интегрируется с Hugging Face Hub для загрузки датасетов и публикации результатов, автоматически генерируя карточки данных и моделей с метаданными. Инструмент распространяется под лицензией MIT. В документации [24] можно найти инструкции по установке, примеры кода и сценарии для генерации синтетических датасетов.

В проекте можно отметить удобный API, интеграцию с Hugging Face и автоматическое кэширование, упрощающее ML-исследования.


Больше о работе с данными расскажем 13 августа — подключайтесь [1].

Автор: randall

Источник [25]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17802

URLs in this post:

[1] расскажем: https://mws.ru/events/webinar13082025/?utm_source=habr.com&utm_medium=utm_campaign_webinardata13082025&utm_content=article&utm_term=webinardata13082025

[2] Источник: https://docs.bespokelabs.ai/bespoke-curator/getting-started

[3] Bespoke Curator: https://github.com/bespokelabsai/curator

[4] обучение: http://www.braintools.ru/article/5125

[5] Bespoke-Stratos-17k: https://huggingface.co/datasets/bespokelabs/Bespoke-Stratos-17k

[6] OpenThoughts-114k: https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

[7] s1K-1.1: https://huggingface.co/datasets/simplescaling/s1K-1.1

[8] OpenThoughts2-1M: https://huggingface.co/datasets/open-thoughts/OpenThoughts2-1M

[9] Источник: https://adasci.org/synthetic-data-generation-for-fine-tuning-custom-retrieval-models-using-distilabel/

[10] Distilabel: https://github.com/argilla-io/distilabel

[11] Outlines: https://github.com/dottxt-ai/outlines

[12] Instructor: https://github.com/567-labs/instructor

[13] Ray: https://github.com/ray-project/ray

[14] Faiss: http://github.com/facebookresearch/faiss

[15] OpenHermesPreference: https://huggingface.co/datasets/argilla/OpenHermesPreferences

[16] Intel Orca DPO: https://huggingface.co/datasets/argilla/distilabel-intel-orca-dpo-pairs

[17] haiku DPO: https://github.com/davanstrien/haiku-dpo

[18] how-to-гайдов: https://distilabel.argilla.io/latest/sections/how_to_guides/

[19] Источник: https://github.com/mostly-ai/mostlyai

[20] TabularARGN: https://arxiv.org/pdf/2501.12012

[21] Документация: https://mostly-ai.github.io/mostlyai/

[22] Источник: https://www.nb-data.com/p/introducing-datadreamer-easy-data

[23] DataDreamer: https://github.com/datadreamer-dev/DataDreamer

[24] документации: https://datadreamer.dev/docs/latest/pages/get_started/overview_guide.html

[25] Источник: https://habr.com/ru/companies/mws/articles/932066/?utm_source=habrahabr&utm_medium=rss&utm_campaign=932066

www.BrainTools.ru

Rambler's Top100