LLM не обязаны знать — LLM должны уметь. Andrej Karpathy подтвердил мою гипотезу. agi.. agi. llm.. agi. llm. агенты.. agi. llm. агенты. искусственный интеллект.
LLM не обязаны знать — LLM должны уметь. Andrej Karpathy подтвердил мою гипотезу - 1
LLM не обязаны знать — LLM должны уметь. Andrej Karpathy подтвердил мою гипотезу - 2

Мои недавние заметки на эту тему. AGI здесь используется в практическом определении – система способная выполнить 90% задач которые делают офисные сотрудники за компьютером.

Наблюдая за ограничениями современных LLM-агентных систем, я пришел к пониманию, что модели для них должны разрабатываться (и оцениваться) иначе, чем принято сейчас.

Гипотеза: если бы модели обладали способностью к последовательному вызову инструментов, корректно интерпретируя результаты и повторяя цикл до получения качественного ответа, эти системы существенно превзошли бы существующие.

Из этой гипотезы вытекают две основные идеи.

Идея 1: От CoT (Chain of Thought) к CoTC (Chain of Tool Call)

Анализ логов вызовов инструментов часто выявляет иррациональное поведение моделей: они могут загружать информацию, которая уже есть в контексте или совершать другие бессмысленные действия.

Появление “рассуждающих” (CoT) моделей давало надежду, что вызовы станут рациональнее. Однако этого не произошло; мои эксперименты (например, с o3-mini против gpt-4o) показали, что модели не смогли генерализовать свои навыки CoT на процесс вызова инструментов.

  • Вывод: Модели необходимо целенаправленно дообучать не просто рассуждениям (CoT), а именно цепочкам вызовов инструментов (Chain of Tool Call).

Идея 2: Делегирование фактологии поиску в интернете

Проблема галлюцинаций моделей за последние годы так и не была решена. Однако практический опыт (включение поиска в ChatGPT) показывает, что проблема почти полностью исчезает и взаимодействие с моделью выходит на принципиально иной уровень надежности.

  • Вывод: Не следует требовать от моделей хранения фактологической информации. Для получения фактов существует проверенный подход: интернет + поисковая система.

Синтез идей: Новый подход

Объединив эти два принципа – можно сформулировать как эти модели должны создаваться. Нам нужна модель (вероятно, традиционной трансформерной архитектуры, и, возможно, даже меньшего размера!), обученная на специфическом датасете:

  • Минимум фактов: Только базовые знания, необходимые для построения онтологий и понимания мира (условно, школьная программа + основы наук).

  • Максимум логики: Большое количество примеров решения логических задач, анализа, синтеза и, что самое важное, — примеров использования инструментов для достижения цели.

Такая модель не “знает”, она “умеет”. Она становится универсальным логическим вычислителем для текста и координатором инструментов.

Возражение: Но язык не является точным выразителем логики

Это так. Но естественный язык позволяет описать некое логическое состояние с достаточной степенью точности. При увеличении объема описания (слов) мы можем сколь угодно точно описать любое состояние — как начальное, так и промежуточное, так и финальное. Более того, ничто не мешает этой модели использовать более формальные языки — код (Python) или языки математической логики.

Возражение: LLM все равно не имеют долгосрочной памяти

Это так. Но на базе описанной выше LLM мы можем построить отдельного агента для управления памятью. Этот агент будет использоваться логическим ядром: сохранять и находить информацию, организовывать и реорганизовывать. Этот агент будет управлять (обрезать / саммаризировать) историей переписки логического ядра с пользователем и т. д. Я знаю несколько проектов, которые сделали подобного агента для памяти уже сейчас (Letta – ранее MemGPT, A-MEM и др). У меня тоже есть ряд идей, как это можно сделать еще эффективнее.

Предлагаемая структура системы

Система, построенная на этом принципе, могла бы выглядеть так:

  • Логическое Ядро: Главный агент, работающий на описанной выше LLM.

  • Агент Памяти: Вспомогательный агент, использующий ту же LLM (или похожую — специально обученную для управления памятью) и управляющий накопленными знаниями системы.

  • Поиск в Интернете: Обязательный инструмент для получения новой информации.

  • Прочие инструменты: Калькулятор, исполнение кода, и все остальные инструменты для доступа к внешнему миру (MCP).

  • “Традиционная LLM” как инструмент: Как ни парадоксально, одним из инструментов может стать обычная, “галлюцинирующая” LLM. Мы можем обращаться к ней за фактами, которые трудно найти в Google, но которые она хорошо “обобщила”, используя ее как своего рода “интуитивный” или “фаззи-поисковик”.

Как создать такую модель?

  1. Архитектура: Обычная LLM на трансформерах. Инновация не в “железе”, а в обучающих данных.

  2. Тренировочный сет (Факты): Минимален. Школьный курс, учебные курсы университетских дисциплин, научные работы с высоким индексом цитируемости. Только то, что нужно для построения базовой картины мира. Мультиязычный.

  3. Тренировочный сет (Синтетика): Это — ключевая часть. Нам нужны десятки тысяч примеров логических построений, синтеза выводов из фактов, и особенно — примеры решения многоходовых логических задач с активным вызовом инструментов. Создание этого сета является наиболее сложной задачей.

  4. Дообучение (RL): Применение техник обучения с подкреплением, аналогичных тем, что используются для современных reasoning-моделей, но с обязательным включением вызовов инструментов в процесс обучения.

  5. Бенчмарки: Тестировать нужно не отдельную LLM, а всю систему в сборе (Ядро + Память + Интернет). Только так можно оценить реальный прогресс.

Подтверждение от Andrej Karpathy

Я размышлял на эту тему последние пару месяцев, но не имел ресурсов для ее проверки, так как не занимаюсь обучением LLM-моделей. И вот, несколько дней назад – 17 октября, Andrej Karpathy в подкасте с Dwarkesh Patel фактически озвучил эту идею…

LLM не обязаны знать — LLM должны уметь. Andrej Karpathy подтвердил мою гипотезу - 3

Видео отмотано на это место.

Andrej Karpathy:

“…на самом деле, я думаю, они [модели] запомнили слишком много. …Я почти уверен, что мы можем получить “когнитивные ядра” (cognitive cores), которые будут очень хороши даже при, скажем, миллиарде параметров. …Если вы поговорите с моделью в миллиард параметров [через 20 лет], у вас может состояться очень продуктивный разговор. Она думает. …Но если вы зададите ей какой-то фактический вопрос, ей, возможно, придется его поискать. Но она будет знать, что она не знает, и ей, возможно, придется это поискать, и она просто сделает все разумные для этого вещи.”

Он также объяснил, почему текущие модели такие большие:

“…данные для обучения — это интернет, и он ужасен. …Огромное количество мусора… Я почти уверен, что из-за того, что интернет так ужасен, нам приходится строить действительно большие модели, чтобы все это сжать. …Большая часть этого сжатия — это работа по запоминанию, а не когнитивная работа. Но то, что нам действительно нужно, — это когнитивная часть, память не нужна.”

По результатам этого подкаста он написал масштабный твит, где упомянул свой июньский твит про “cognitive core”:

Идет гонка за “когнитивным ядром” LLM — моделью на несколько миллиардов параметров, которая максимально жертвует энциклопедическими знаниями в пользу умений.
Она всегда активна и по умолчанию работает на каждом компьютере как ядро персональных LLM-вычислений.
Ее черты постепенно кристаллизуются:

  • Нативная мультимодальность (текст/зрение/аудио) как на входе, так и на выходе.

  • Архитектура в стиле “матрешки”, позволяющая регулировать уровень умений (capability) во время работы.

  • Рассуждение (reasoning), также регулируемое. (система 2)

  • Агрессивное использование инструментов.

  • Слоты LoRA для дообучения (finetuning) на устройстве: для обучения в рантайме, персонализации и кастомизации.

  • Делегирует и перепроверяет ровно то, что нужно, у “оракулов” в облаке, если доступен интернет.

Она не знает, что правление Вильгельма Завоевателя закончилось 9 сентября 1087 года, но смутно узнает имя и может найти дату. Она не может выдать по памяти SHA-256 пустой строки (e3b0c442…), но может быстро его вычислить, если вам это действительно нужно.
… сокращено

Также в этом твите он ссылается на свой майский твит где пишет про реализацию памяти не через параметры модели, а через изменение системного промпта:

Нам не хватает (как минимум одной) важной парадигмы обучения LLM. Не уверен, как это назвать, возможно, у неё есть название — «system prompt learning»?
Предобучение — для знаний. Тонкая настройка (SL/RL) — для поведения.
Оба этих процесса включают изменение параметров, но большая часть человеческого обучения больше похожа на изменение системного промпта.
… сокращено

Эту статью можно рассматривать как развернутое пояснение идей, которые Andrej Karpathy озвучил в своем интервью и развил в X/Twitter. Многие, слушая его интервью, могут пропустить этот ключевой фрагмент, а между тем он критически важен для понимания вектора развития языковых моделей, агентных систем и практического пути к AGI.

Для меня эта история стала еще одним подтверждением фундаментального принципа: когда технология созревает, схожие идеи возникают у разных людей независимо друг от друга, почти одновременно.

Приглашаю к дискуссии в комментариях.

Обо мне

Больше двух лет пишу проекты про интеграцию LLM в приложения: агентский RAG, память для агентов, мультиагентский DeepResearch, голосовое управление приложениями и т. д. Оказываю консультации по интеграции LLM в проекты.
Недавно начал вести телеграм-канал о сильных и слабых сторонах LLM: LLM => AGI?

Автор: ovsale

Источник

Rambler's Top100