синтетические данные.

Коммуналка, школа и 10 лет свободы: AI выпустили в симулятор жизни, где они научились дружить, выгорать и достигать

Привет, Хабр! Меня зовут Михаил Сальников. Я независимый ИИ-исследователь, автор бенчмарка AI Independence Bench и эксперимента с автономным агентом Aria. Я регулярно читаю новые препринты на arxiv.org и иногда натыкаюсь на статьи, после которых трудно уснуть. Сегодня — как раз такой случай.

продолжить чтение

YOLOv8 против OpenCV на чертежах метро: почему простая геометрия победила нейросеть

ВведениеПрежде чем углубляться в суть вопроса, в конкретные тонкие моменты заголовка и вводить в курс domain, неплохо бы рассказать предысторию. Если ты студент в современной AI-реальности, найти практику или стажировку для работы с реальными онлайн-наборами данных не так уж и легко. Следовательно, тебе либо остаётся брать из открытых источников (не Kaggle — там всегда чётко согласованные датасеты), либо самому размечать данные.Прикладной кейс

продолжить чтение

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

продолжить чтение

Синтетика как топливо: почему self-training работает и где начинается model collapse

продолжить чтение

Стена данных: почему ИИ упирается не в GPU, а в реальность

Если вы когда-нибудь задумывались, почему огромные GPU-кластеры перестали быть главным драйвером прогресса в развитии ИИ, а контракты на данные подписываются за десятки миллионов долларов — эта статья для вас.Об авторе:

продолжить чтение

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции —

продолжить чтение

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции —

продолжить чтение

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями

Привет, Хабр! Меня зовут Вадим Кондаратцев, я руковожу ИИ-направлением в

продолжить чтение

Как спасти ИИ в эпоху, когда ИИ убивает сам себя?

«Все крупные корпорации и социальные сети уже давно хотят помечать контент, созданный искусственным интеллектом, отдельным специальным признаком. Безусловно, можно говорить о том, что это делается ради заботы о пользователях — чтобы люди не сидели бесконечно и не потребляли абсолютно одинаковый контент. Но у этой инициативы есть и совершенно эгоистичные цели: платформам жизненно необходимо физически отделить контент, созданный живыми людьми, от материалов, сгенерированных нейросетями».Давайте детальнее копнем в проблему

продолжить чтение

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок

продолжить чтение