- BrainTools - https://www.braintools.ru -


Мои недавние заметки на эту тему. AGI здесь используется в практическом определении – система способная выполнить 90% задач которые делают офисные сотрудники за компьютером.
Наблюдая за ограничениями современных LLM-агентных систем, я пришел к пониманию, что модели для них должны разрабатываться (и оцениваться) иначе, чем принято сейчас.
Гипотеза: если бы модели обладали способностью к последовательному вызову инструментов, корректно интерпретируя результаты и повторяя цикл до получения качественного ответа, эти системы существенно превзошли бы существующие.
Из этой гипотезы вытекают две основные идеи.
Анализ логов вызовов инструментов часто выявляет иррациональное поведение [1] моделей: они могут загружать информацию, которая уже есть в контексте или совершать другие бессмысленные действия.
Появление “рассуждающих” (CoT) моделей давало надежду, что вызовы станут рациональнее. Однако этого не произошло; мои эксперименты (например, с o3-mini против gpt-4o) показали, что модели не смогли генерализовать свои навыки CoT на процесс вызова инструментов.
Вывод: Модели необходимо целенаправленно дообучать не просто рассуждениям (CoT), а именно цепочкам вызовов инструментов (Chain of Tool Call).
Проблема галлюцинаций моделей за последние годы так и не была решена. Однако практический опыт [2] (включение поиска в ChatGPT) показывает, что проблема почти полностью исчезает и взаимодействие с моделью выходит на принципиально иной уровень надежности.
Вывод: Не следует требовать от моделей хранения фактологической информации. Для получения фактов существует проверенный подход: интернет + поисковая система.
Объединив эти два принципа – можно сформулировать как эти модели должны создаваться. Нам нужна модель (вероятно, традиционной трансформерной архитектуры, и, возможно, даже меньшего размера!), обученная на специфическом датасете:
Минимум фактов: Только базовые знания, необходимые для построения онтологий и понимания мира (условно, школьная программа + основы наук).
Максимум логики: Большое количество примеров решения логических задач, анализа, синтеза и, что самое важное, — примеров использования инструментов для достижения цели.
Такая модель не “знает”, она “умеет”. Она становится универсальным логическим вычислителем для текста и координатором инструментов.
Это так. Но естественный язык позволяет описать некое логическое состояние с достаточной степенью точности. При увеличении объема описания (слов) мы можем сколь угодно точно описать любое состояние — как начальное, так и промежуточное, так и финальное. Более того, ничто не мешает этой модели использовать более формальные языки — код (Python) или языки математической логики.
Это так. Но на базе описанной выше LLM мы можем построить отдельного агента для управления памятью [3]. Этот агент будет использоваться логическим ядром: сохранять и находить информацию, организовывать и реорганизовывать. Этот агент будет управлять (обрезать / саммаризировать) историей переписки логического ядра с пользователем и т. д. Я знаю несколько проектов, которые сделали подобного агента для памяти уже сейчас (Letta – ранее MemGPT [4], A-MEM [5] и др). У меня тоже есть ряд идей, как это можно сделать еще эффективнее.
Система, построенная на этом принципе, могла бы выглядеть так:
Логическое Ядро: Главный агент, работающий на описанной выше LLM.
Агент Памяти: Вспомогательный агент, использующий ту же LLM (или похожую — специально обученную для управления памятью) и управляющий накопленными знаниями системы.
Поиск в Интернете: Обязательный инструмент для получения новой информации.
Прочие инструменты: Калькулятор, исполнение кода, и все остальные инструменты для доступа к внешнему миру (MCP).
“Традиционная LLM” как инструмент: Как ни парадоксально, одним из инструментов может стать обычная, “галлюцинирующая” LLM. Мы можем обращаться к ней за фактами, которые трудно найти в Google, но которые она хорошо “обобщила”, используя ее как своего рода “интуитивный” или “фаззи-поисковик”.
Архитектура: Обычная LLM на трансформерах. Инновация не в “железе”, а в обучающих данных.
Тренировочный сет (Факты): Минимален. Школьный курс, учебные курсы университетских дисциплин, научные работы с высоким индексом цитируемости. Только то, что нужно для построения базовой картины мира. Мультиязычный.
Тренировочный сет (Синтетика): Это — ключевая часть. Нам нужны десятки тысяч примеров логических построений, синтеза выводов из фактов, и особенно — примеры решения многоходовых логических задач с активным вызовом инструментов. Создание этого сета является наиболее сложной задачей.
Дообучение (RL): Применение техник обучения [6] с подкреплением [7], аналогичных тем, что используются для современных reasoning-моделей, но с обязательным включением вызовов инструментов в процесс обучения.
Бенчмарки: Тестировать нужно не отдельную LLM, а всю систему в сборе (Ядро + Память + Интернет). Только так можно оценить реальный прогресс.
Я размышлял на эту тему последние пару месяцев, но не имел ресурсов для ее проверки, так как не занимаюсь обучением LLM-моделей. И вот, несколько дней назад – 17 октября, Andrej Karpathy в подкасте с Dwarkesh Patel фактически озвучил эту идею…

Видео отмотано на это место [8].
Andrej Karpathy:
“…на самом деле, я думаю, они [модели] запомнили слишком много. …Я почти уверен, что мы можем получить “когнитивные ядра” (cognitive cores), которые будут очень хороши даже при, скажем, миллиарде параметров. …Если вы поговорите с моделью в миллиард параметров [через 20 лет], у вас может состояться очень продуктивный разговор. Она думает. …Но если вы зададите ей какой-то фактический вопрос, ей, возможно, придется его поискать. Но она будет знать, что она не знает, и ей, возможно, придется это поискать, и она просто сделает все разумные для этого вещи.”
Он также объяснил, почему текущие модели такие большие:
“…данные для обучения — это интернет, и он ужасен. …Огромное количество мусора… Я почти уверен, что из-за того, что интернет так ужасен, нам приходится строить действительно большие модели, чтобы все это сжать. …Большая часть этого сжатия — это работа по запоминанию [9], а не когнитивная работа. Но то, что нам действительно нужно, — это когнитивная часть, память не нужна.”
По результатам этого подкаста он написал масштабный твит [10], где упомянул свой июньский твит [11] про “cognitive core”:
Идет гонка за “когнитивным ядром” LLM — моделью на несколько миллиардов параметров, которая максимально жертвует энциклопедическими знаниями в пользу умений.
Она всегда активна и по умолчанию работает на каждом компьютере как ядро персональных LLM-вычислений.
Ее черты постепенно кристаллизуются:
Нативная мультимодальность (текст/зрение/аудио) как на входе, так и на выходе.
Архитектура в стиле “матрешки”, позволяющая регулировать уровень умений (capability) во время работы.
Рассуждение (reasoning), также регулируемое. (система 2)
Агрессивное использование инструментов.
Слоты LoRA для дообучения (finetuning) на устройстве: для обучения в рантайме, персонализации и кастомизации.
Делегирует и перепроверяет ровно то, что нужно, у “оракулов” в облаке, если доступен интернет.
Она не знает, что правление Вильгельма Завоевателя закончилось 9 сентября 1087 года, но смутно узнает имя и может найти дату. Она не может выдать по памяти SHA-256 пустой строки (e3b0c442…), но может быстро его вычислить, если вам это действительно нужно.
… сокращено
Также в этом твите он ссылается на свой майский твит [12] где пишет про реализацию памяти не через параметры модели, а через изменение системного промпта:
Нам не хватает (как минимум одной) важной парадигмы обучения LLM. Не уверен, как это назвать, возможно, у неё есть название — «system prompt learning»?
Предобучение — для знаний. Тонкая настройка (SL/RL) — для поведения [13].
Оба этих процесса включают изменение параметров, но большая часть человеческого обучения больше похожа на изменение системного промпта.
… сокращено
Эту статью можно рассматривать как развернутое пояснение идей, которые Andrej Karpathy озвучил в своем интервью и развил в X/Twitter. Многие, слушая его интервью, могут пропустить этот ключевой фрагмент, а между тем он критически важен для понимания вектора развития языковых моделей, агентных систем и практического пути к AGI.
Для меня эта история стала еще одним подтверждением фундаментального принципа: когда технология созревает, схожие идеи возникают у разных людей независимо друг от друга, почти одновременно.
Приглашаю к дискуссии в комментариях.
Больше двух лет пишу проекты про интеграцию LLM в приложения: агентский RAG, память для агентов, мультиагентский DeepResearch, голосовое управление приложениями и т. д. Оказываю консультации по интеграции LLM в проекты.
Недавно начал вести телеграм-канал о сильных и слабых сторонах LLM: LLM => AGI? [14]
Автор: ovsale
Источник [15]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21053
URLs in this post:
[1] поведение: http://www.braintools.ru/article/9372
[2] опыт: http://www.braintools.ru/article/6952
[3] памятью: http://www.braintools.ru/article/4140
[4] Letta – ранее MemGPT: https://www.letta.com/
[5] A-MEM: https://github.com/WujiangXu/A-mem
[6] обучения: http://www.braintools.ru/article/5125
[7] подкреплением: http://www.braintools.ru/article/5528
[8] Видео отмотано на это место: https://www.youtube.com/watch?v=lXUZvyajciY&t=3587s
[9] запоминанию: http://www.braintools.ru/article/722
[10] твит: https://x.com/karpathy/status/1979644538185752935
[11] твит: https://x.com/karpathy/status/1938626382248149433
[12] твит: https://x.com/karpathy/status/1921368644069765486
[13] поведения: http://www.braintools.ru/article/5593
[14] LLM => AGI?: https://t.me/llm2agi
[15] Источник: https://habr.com/ru/articles/959504/?utm_source=habrahabr&utm_medium=rss&utm_campaign=959504
Нажмите здесь для печати.