Нейросети не смогут в AGI. agi.. agi. ai.. agi. ai. Fidonet.. agi. ai. Fidonet. Natural Language Processing.. agi. ai. Fidonet. Natural Language Processing. будущее.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ. ии бот.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ. ии бот. ии и машинное обучение.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ. ии бот. ии и машинное обучение. ии чат-бот.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ. ии бот. ии и машинное обучение. ии чат-бот. ии-агенты.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ. ии бот. ии и машинное обучение. ии чат-бот. ии-агенты. ии-ассистент.. agi. ai. Fidonet. Natural Language Processing. будущее. Будущее здесь. ИИ. ии бот. ии и машинное обучение. ии чат-бот. ии-агенты. ии-ассистент. ИИ-инжиниринг.

Современный AI не может накапливать интеллект со временем — каждый навык приобретается ценой забывания других. Это архитектурный тупик, а не вопрос масштаба.

Количество параметров нейросетей уходит в бесконечность. Чипы дорожают. Масштабирование продолжается. Илон Маск обещает рождение AGI к концу этого года. И единственный лимит, который он видит, это количество доступной энергии и сами чипы.

Но что вкратце делает трансформер-сеть?

Любая нейросеть (включая LLM) — это статическая функция, которая аппроксимирует распределение вероятностей следующего состояния (токена) по данным прошлого опыта, зафиксированного в весах. Это простое предсказание следующего токена оказалось революцией, когда вышел chatGPT4. И стало казаться, что именно на этих принципах работает и наш мозг. Ну а если даже не на этих, то какая разница, если оно может делать то же самое, что и наш интеллект?

LLM не думает, не учится и не помнит во время работы — она лишь применяет заранее сжатый опыт, замороженный в параметрах.

LLM = f(context, weights) → next token,
где weights — прошлое, а context — краткосрочный костыль вместо памяти.

То есть ограничением любой LLM является даже не количество параметров, теоретически их можно увеличивать до бесконечности.

Параметры — это замороженное прошлое
Их можно увеличивать бесконечно
Но они не меняются во время мышления

И даже не контекст, хотя он по факту является ещё большим ограничением, он уже точно не может стремиться к бесконечности.

Почему контекст — реальный рабочий потолок?

Контекст — это:

  • единственное «временное окно памяти»

  • линейное

  • дорогое

  • стираемое при каждом новом запросе (как минимум старая часть)

То есть модель:

  • не помнит, а получает подсказку

  • не накапливает опыт, а симулирует его наличие

Если знание не попало в веса, оно не существует.
Если знание в контексте — оно временное и не интегрировано.

Реальная проблема

Но это все ерунда, потому что реальным ограничением является отсутствие собственного долговременного изменяемого состояния во время инференса, то есть во время взаимодействия.

В кратце, мозг человека меняется во время взаимодействия со средой, физически меняется. Строятся новые связи и разрушаются старые. Мозг нейросети заморожен до следующего переобучения (параметры), которое занимает много времени и требует много денег.

Костылем к этому является fine-tune, то есть дообучение нейросети на своей области, но оно тоже дорогое и времязатратное.

И главное, оба варианты могут привести к ухудшению качества генерации. Этот цикл дорогой и в дарвиновской эволюции такой мозг бы умер первым, потому что борьба шла иногда за миллисекунды.

Выживал мозг, который не умнее (довольно абстрактное понятие), а мозг, который быстрее выдал решение, которое сработало.

У нейросети нет такого дарвиновского давления и отбора. Его уж точно нет в реальном времени, если даже рассматривать соревнование сетей в бенчмарках как отбор.

Предельная точка:

  • модели станут очень хорошими инструментами

  • они будут писать код, планировать, рассуждать

  • но не будут агентами в сильном смысле

Агент без устойчивого внутреннего мира — это скрипт с интеллектом, а не интеллект с волей

Текущая архитетура не создают когнитивного времени. Модель остаётся: реактивной, а не развивающейся. Поэтому SkyNet нам пока не светит :-)

Как сделать?

Значит, неизбежно для достижения AGI необходимо создать дарвиновский отбор, и нужно поменять архитектуру нейросети, чтобы веса могли меняться в реальном времени, без переобучения и без fine-tune, просто во время чата.

Такой архитектуры пока нет.

Единственный вариант создания AGI при текущей архитектуре – это Agentic AI, то есть набор агентов над нейросетями, которые меняют свое состояние после контакта с реальностью. И так как агент – это по сути просто промпт + контекст над нейросетью, то менять его поведение очень легко в реальном времени, просто меняя промпт.

Еще одно важное условие – агенты должны общаться без протокола. Иначе мы опять получаем тупой “if x then y”. У агентов должно быть общее когнитивное пространство. И должна быть эволюция по Дарвину.

Agentic AI + нет протокола + эволюция по Дарвину – это по сути нейрокортекс над нейросетью. Нейросеть здесь выступает в роли древнего мозга.

Мы уже внедряем такие подходы в компаниях, пока без эволюции по Дарвину, но это неизбежный следующий шаг. Подробнее тут.

Выводы

Transformer — это статическая функция.

Обучение происходит:

  • оффлайн

  • батчами

  • через глобальную оптимизацию

Это фундаментально несовместимо с:

  • непрерывным обучением

  • многоцелевой адаптацией

  • саморазвитием

Тупик Джона Кармака:
Текущие модели не накапливают опыт — они его перезаписывают.

Если модель:

  • научилась игре A

  • затем обучается игре B

  • она деградирует в A

Это означает: обучение = переписывание весов, а не расширение когнитивной структуры.

Человеческий интеллект так не работает.

Надо либо искать другую архитектуру, чем занимается John Carmack. Почитайте про его эксперименты – он уже пришел к такому же выводу. Например, обучение нейросети играть в игру занимает три дня, обучение этой же нейросети играть в другую похожую игру занимает семь дней. Мозг так не работает.

Реалистичный вариант – это буст в развитии Agentic AI, в котором еще можно сделать квантовый скачок, избавившись от текущих if-then фреймворков типа LangChain.

Фантастический вариант это новая архитектура нейронок. В этот вариант вложили только $20 миллионов. А в маcштабирование текущих уже триллионы долларов.

Необходимо прекращать гонку вооружений в погоне за чипами и параметрами, и вкладывать больше денег в новую архитектуру (тут вообще нет гарантий), и в Agentic AI в виде неокортекса над нейронками (это легче сделать).

Автор: AlexErf13

Источник

Rambler's Top100