RLHF.
Классификация галлюцинаций LLM | «Врага нужно знать в лицо»
Дисклеймер: В этой статье я систематизировал ключевые фундаментальные предпосылки / причины галлюцинаций, постарался объяснить их природу и предложил архитектурные подходы к их предупреждению / устранению.Для кого будет эта статья полезна:Если вы изучаете LLM и хотите лучше понимать «как ее обуздать?», то внимательное изучение этой статьи позволит вам стать своеобразным «терапевтом» для нейросетей. Системный подход к присущим им болезням дает осознание, что многие из них лечатся просто «чистоплотностью промптинга и окружения».
Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?
Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов.Данная статья представляет собой результат кабинетного исследования об основных особенностях работы ИИ (LLM, модель). Здесь в систематизированном виде относительно простым языком описано, как реализуется вся та “магия” про ИИ, с которой мы сталкиваемся сами или слышим в восторженно-продающих материалах.Сразу уточню, что под ИИ тут понимается именно публичная Большая языковая (текстовая) модель (LLM), вроде ЧатаГПТ, ГигаЧата, Дипсика и др.В этой статье мы:
Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось
У LLM есть устойчивые «личности», даже если вы об этом не просили. DeepSeek — восторженный друг, который объясняет всё в три раза подробнее, чем нужно. Llama — пугающе нейтральный (4 из 7 осей в «слабой зоне»). Yi — слегка холодный, терпеливый и уверенный. У каждой модели свой измеримый «отпечаток» в hidden states.Под «личностью» дальше имею в виду устойчивые стилевые тенденции, измеряемые в hidden states, — не «чувства» и не внутренние состояния.TL;DR
Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение
TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».Звучит умно. Проблема? Это полная ерунда.Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.Ось упёрлась? Значит, AI упёрся.Нет. Не значит.Давайте честно: одномерное мышление — это ловушка2012 год.
Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?
Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red Teaming
RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.
Практика alignment: данные, RLHF и UX как конкурентное преимущество
Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.
Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS
Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.Цитата из

