llm.
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных
Ландшафт основных терминов в области генеративного AI, их взаимосвязь и употребление
Лестница понятий AIОт общего к частному – от AI к GEOAI/ИИ (artificial intelligence / искусственный интеллект). Общее название технологий, которые позволяют машинам имитировать «умное» поведение человека: учиться, анализировать, принимать решения, генерировать контент.ML (machine learning) / машинное обучение. Подраздел AI. Машина «обучается» на данных и потом делает прогнозы или принимает решения без прямого программирования. Пример: система прогнозирования спроса или рекомендательные алгоритмы «Озона» или YouTube.Generative AI / генеративный ИИ.
Без тренировки, но с обучением: имплицитная динамика in-context learning
АннотацияОдной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.

