fine-tuning. - страница 3

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке. 

продолжить чтение

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.Малые языковые модели (SLM) дают CIO больше возможностей разрабатывать специализированные, отраслевые AI-приложения, эксплуатация которых дешевле, чем систем на базе универсальных больших языковых моделей (LLM).

продолжить чтение

Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).Gartner отмечает, что одной из двух крупнейших тем ИИ с завышенными ожиданиями сейчас являются AI-ready data («данные, готовые к ИИ»).

продолжить чтение

Без тренировки, но с обучением: имплицитная динамика in-context learning

АннотацияОдной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.

продолжить чтение

Практика alignment: данные, RLHF и UX как конкурентное преимущество

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.

продолжить чтение

Селективная генерализация: улучшение возможностей при сохранении alignment

TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

продолжить чтение

Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.Цитата из

продолжить чтение

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

tl;dr. Мы изучаем сублиминальное обучение

продолжить чтение

Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Одним из сложнейших этапов дообучения LLM является процесс выравнивания (alignment), который зачастую играет решающую роль в качестве модели. Традиционным подходом к решению данной задачи является RLHF, но для него нужны дополнительные обучаемые модели, а это дополнительные вычислительные затраты и трудности в настройке. В цикле своих исследований об обучении LLM я наткнулся на интересную статью, в которой авторы предлагают метод Hindsight Instruction Relabeling (HIR).Ссылка на источник находится тут. Очень проработанная статья, советую почитать.Предыдущие материалы цикла:

продолжить чтение

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Retrieval-Augmented Generation (RAG)

продолжить чтение