синтетические данные.

Как спасти ИИ в эпоху, когда ИИ убивает сам себя?

«Все крупные корпорации и социальные сети уже давно хотят помечать контент, созданный искусственным интеллектом, отдельным специальным признаком. Безусловно, можно говорить о том, что это делается ради заботы о пользователях — чтобы люди не сидели бесконечно и не потребляли абсолютно одинаковый контент. Но у этой инициативы есть и совершенно эгоистичные цели: платформам жизненно необходимо физически отделить контент, созданный живыми людьми, от материалов, сгенерированных нейросетями».Давайте детальнее копнем в проблему

продолжить чтение

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок

продолжить чтение

Кручу-верчу, обмануть хочу: как испортить картинку, чтобы нейросеть стала умнее

продолжить чтение

Растягиваем кошек, чтобы избежать переобучения. Аугментация данных в машинном обучении

продолжить чтение

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Немного контекстаПоследние месяцы мы в команде развиваем проект Manuscript OCR - открытую библиотеку, которая учит нейросети читать рукописные документы XIX века. Это сложный материал: дореформенная орфография, нестабильный почерк, архивные артефакты.Кому интересны технические детали - отдельная статья про Manuscript OCR уже есть на Хабре.Работая над этим проектом, я всё больше погружался в дореформенный язык: тестировал модели, прогонял страницы, сравнивал орфографические варианты. И в какой-то момент возник вполне естественный вопрос:

продолжить чтение

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

продолжить чтение

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных

продолжить чтение

Генерация синтетических данных для LLM. Часть 4: теоремы

Добрый день, уважаемые хабражители! Как и прежде меня зовут Владимир Миронов, и я занимаюсь тестированием и оценкой синтетических данных ;) Добрались, наконец-то, до четвёртой части в этом цикле статей из (прошлые статьи можно увидеть

продолжить чтение

Если нужно сгенерировать синтетические данные — подборка открытых решений

Про снижение расходов на работу с данными расскажем

продолжить чтение

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

1. Вступление: синтетика выходит из-подпольяДесять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.Почему это не очередная хайповая игрушка?Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.Приватность без компромиссов.

продолжить чтение

123
Rambler's Top100