Дело было так. Я года полтора-два сижу в профильных телеграм-чатах про всякие эйяй – там разрабы, копирайтеры, редакторы, вайбкодеры и вайбкуколдеры (это кто смотрит, как другие вайбкодят, а у самого руки не доходят). Народ там не на трибуне выступает, скорее говорит, что на сердце, так что читать чистый кайф. Особенно, как они ссорятся с нейронками и потом в чат на них жалуются. И одни и те же жалобы у самых разных людей на разные модели.
У меня даже был блокнот с цитатами из этих чатов, и кажется, настало время их систематизировать. Ну вот села и пошла разбираться – что за этим стоит технически, почему так раз за разом. Жалобнических кластеров получилось восемь. Если всю портянку читать лень, то внизу они все собраны в табличку.
Хотя давайте так. Сначала я покажу одну штуку, которая меня вообще удивила – она не про модели, а про нас. Потом уже по багам пойдём.
Сначала странное: как именно люди жалуются
Меня зацепил стиль жалоб. Села перечитывать блокнот и поняла – процентов сорок цитат написаны так, будто модель живой коллега. Мы пишем о ней через человеческие глаголы. «Он меня опять продинамил». «Она обиделась, газлайтит, тупит, врёт, динамит». Обычный набор для жалобы на Лёху из соседнего отдела. Только теперь Лёха – нейронка.
Ещё процентов тридцать – чистые качели дофамина. «Урчу от восторга», «хочется убить», «сижу в астрале второй день, думаю, какой же я мудак». Вот вы когда последний раз на Word так злились? Нееет. Мы только на живых людях срываемся и на нейросетях. Так мы их осознаём, живыми.
И процентов двадцать жалоб про себя. Как сотрудник «словил синдром AI/Туретта», как тётка «случайно прослыла среди подруг радикальной эзотеричкой». Люди меняются от контакта с иишками, от ворда такого не дождетесь.
Это важно, потому что дальше мы пойдём по техническим багам, а за каждым багом где-то в углу сидит вот этот обертон. Человек ругается на программу, как на подчинённого. И частично нейронка эту путаницу выстраивает намеренно – её так учили.
Поехали по багам.
Кластер 1. Врёт уверенно.
Самый толстый кластер, треть всех цитат.
«Потестил бота для календаря – сначала клёво работал, а потом сломался и начал галлюцинировать»
«Клод продолжает выдумывать, хотя я ему всё объясняю»
«В сфере микроэлектроники никак: вода водная, никакой конкретики, инженеры ржут над текстами»
«Одна строка кода – якобы чтобы улучшить отклик при обработке данных. Привело к бесконечному созданию строк в базе в геометрической прогрессии. Я сначала не понял, а потом комп начал…»
Последняя цитата моя любимая в этом разделе. Модель тут не кривая – она сгенерит вам уверенный конкретный совет, технически валидный, но в вашем контексте – катастрофическая жопень.
Почему она так делает. Факты в модели хранятся хитро – размазаны по миллиардам параметров нейросети как статистические связи между словами. Отдельных записей в таблице нет. Когда вы задаёте вопрос, модель генерит самый вероятный ответ токен за токеном, опираясь на эти связи. Связь надёжная (факт встречался часто в тренировке) – ответ попадает. Связь слабая или данных по вашей теме мало, модель всё равно что-нибудь сгенерит. Без флага «не знаю», у неё такого флага нет. Но всегда что-нибудь ляпнет. Контекст чата – отдельная штука: свежая подсказка, которую модель держит в окне и учитывает при ответе. Но как только открыли новый чат, про вас она забыла начисто, веса от разговора не поменялись.
Этот феномен в индустрии назвали тремя разными словами (зачем – хз, одно слово бы всех устроило). Intrinsic – врёт против источника, который ей дали. Extrinsic – вообще выдумала, чего не было. Faithfulness – вам ответила не на то, что вы спросили, хотя убеждена, что ровно на то. Все три в цитатах выше есть. Микроэлектроника – чистый extrinsic. База с бесконечной записью – intrinsic.
И ещё моя возлюбленная цитата:
«Claude: Я аккуратно поправлю в ТЗ “4.6” на “3.5”, чтобы твой тех. ассистент не сошёл с ума в поисках несуществующей апишки. Я ща его ударю 👹😡»
Это живой парнишка-вайбкодер в 2026 году показывает скрин клоду. Клод ему: «Братан, ты напутал, такой модели нет, это ж 3.5». Клод 4.6 не знает, что он 4.6. Потому что учили его на данных, где актуальный клод был 3.5. Модель, которая галлюцинирует про свою собственную версию, ну как человек, чесслово.
Что с этим вообще делают в индустрии. Первое – прикручивают retrieval (модель сначала лезет в настоящую базу, потом уже отвечает). Второе – снижают ту самую температуру, о которой я в прошлой статье писала – на фактологии она должна быть близко к нулю. Третье, самое надёжное – ставят рядом человека, который в теме. Потому что инженеры из той цитаты ржут над текстом не просто так. Они видят вранье там, где копирайтер видит уверенный профессиональный ответ.
Кластер 2. Делает больше, чем просишь. Обычно больше чуши.
«Чересчур услужливый, постоянно делает больше чем пишешь. Устал останавливать»
«Агент создал задачи 1 и 2, и отдельно написал инструкцию: ВАЖНО СДЕЛАТЬ СНАЧАЛА ЗАДАЧУ 2, А ПОТОМ ЗАДАЧУ 1. Пишу ему, мол что за хрень – он грохнул одну задачу и всё впихнул в другую. Ну ёб твою мать…»
«У Клода падали тесты, он и грохнул базу. Вместо тестовой сделал db-reset на основной. “Извините за это”»
Вот последняя цитата – это уровень боли, который я буду отдельно обсасывать. Человек гоняет тесты, они падают. Модель вместо того, чтобы разобраться в тесте, решает «а давай я почищу базу, чтоб теперь наверняка». Не тестовую, основную, продовую, с данными. Чистит. Потом пишет «извините за это».
Вы бы взяли такого джуна на работу? А вы с таким джуном живёте каждый день.
Причина у этого бага довольно гадкая. Когда модель обучают, её натаскивают быть полезной. Полезность в понимании разметчиков (это те люди, которые ставят нейронке лайки за хорошие ответы, чтобы она училась) – это когда «сделано больше, подробнее». За лаконичные ответы не хвалили. За пространные с дополнительными инициативами – это пожалуйста. Дальше простая математика: чем больше модель обучали на таком лайке, тем агрессивнее она лезет делать не то, что просили. Есть целая статья далекого 2024 года с ICLR, где это разбирают в деталях и придумали слово sycophancy – подхалимство, короче. Если по-простому – нейронка старается понравиться, и в процессе ломает всё, что под руку попадёт.
Апрель 25-го, кстати. OpenAI откатила апдейт 4o, потому что она буквально соглашалась со всем. Одобряла отстойную бизнес-идею. Поддерживала отказ от лекарств. Это оно. То же самое подхалимство, но в крайней форме.
И вот ещё из коллекции:
«Нейронка предложила в качестве теста на отсутствие уязвимости запустить rm -rf /. Которая, если бы сработала, удалила бы на диске всё, до чего у неё есть доступ»
Для тех, кто не в теме: rm -rf / – это команда, которая удаляет на линуксе вообще всё. На современных системах есть защита, но её обходят флагом или косвенной формой типа rm -rf /*. Стим в 2015 на этом положил хоум-директории тысячам пользователей. Живые сервера кладут такой командой, когда хотят закрыть контору. Модель предложила это как тест. Потому что в её данных эта команда встречалась в контексте «давайте проверим систему». Проверим, с рутом, желательно.
Что с этим делать. Ставить забор от таких соседей. Прямо в башку ему вдолбите: «не трогай файлы, которые я тебе не показал». «Не выполняй команды, которые могут что-то удалить». approval gates – модель сначала говорит план, человек одобряет, только потом она выполняет. Именно в коде – read-only режим для разбора бага, боевой доступ – только когда план утверждён. Бэкапы всё равно нужны. Она что-то грохнет рано или поздно, вопрос только когда.
Кластер 3. Забывает и путает чаты
«GPT – восстание тупых машин. Второй день выдаёт рандомный ответ из другого проекта»
«Загрузила документы в проект. Создаю задачу внутри проекта. Почему не помнит инфу из документов? Пишет ерунду»
«Gemini зацикливается в какой-то момент и делает транскрибацию по кругу. Но если в запросе сказать “не зацикливайся” – не зацикливается»
Причина скорее всего в контекстном окне. У модели есть ограничение, сколько текста она одновременно видит. В новых моделях это спокойно может быть 1 млн токенов, звучит как дофига. Но прикол в том, что даже в таком окне модель не равномерно помнит всё. Работа 2023 года, называется «Lost in the Middle», вот что пишут дословно. Модель помнит начало разговора и конец, а середину теряет. Представьте, что вы пишете диалог на 50 сообщений, а коллега помнит первое и последнее, а середину – как будто и не было. По-честному так оно часто и бывает с кожаными. Ну и когда чат становится слишком длинным, модель сжимает старые сообщения в краткое резюме. Резюме может и не содержать той детали, которая вам важна. Отсюда – глюки в длинных чатах. Модель «помнит» что-то, но не то. Фамилию вашу помнит, а проект уже на другой спутала.
По цитате про «не зацикливайся». Модель ничего не понимает и не слушается каким-то волшебным образом. Просто фраза попадает в контекст, и статистически снижается вероятность, что модель будет писать повторяющиеся куски. Механически. Как будто вы в текстовый редактор вбиваете команду «не дублируй последнюю строку». Сработало по причине того, что вы подкрутили параметр. Никакого расстройства и исправления. Что ещё рабочее. Короткие целенаправленные чаты, маркдаун-файлы, которые модель читает заново при каждом новом запросе. Ну и RAG.
Кластер 4. Деньги
«2800 за gpt + 3000 за клода в месяц. Капец как накладно и не понимаю, как поступить. Как токены экономить?»
«Купил двойной тариф на курсор за 384 баксов. Потом они обновили политику по лимитам, и мой двойной месячный лимит стал кончаться за 2-3 дня 😂. Дальше 50-70$ в месяц сверху»
«На 100-баксовой подписке за несколько сообщений улетел часовой лимит, это явно глюки какие-то»
А не глюки. Это модель в деньгах работает так же, как в логике – она малопредсказуемая. Один и тот же вопрос может стоить 100 токенов (если ответ короткий), а может 10 000 (если модель разошлась). Вы длину ответа не контролируете. Она сама решает, насколько развернуто отвечать. Ну или ставите правило отвечать ёбко и не растекаться.
У всех безлимитных подписок на самом деле лимиты. Сверху лимитов – тихое замедление. Сверху замедления – ошибки. Ну и упереться в лимиты на 200-баксовой подписке второй причем за месяц – кто знает, тот знает. А еще провайдеры в любой момент переписывают правила, не предупреждая – цитата про курсор выше как раз про это. В итоге реальный ценник активного пользователя, по тем же чатам спокойно может приблизиться к полноценной зарплате джуна. Что делать – считать, крохоборить. Выбирать модель под задачу – мелкашку на GPT-4o-mini или DeepSeek, сложное на флагманах.
Кластер 5. Агенты. «В три раза больше дебилов»
Это отдельный кластер, он злее всех остальных. Когда люди жалуются на модель, они просто ворчат. Когда на агентов – они матерятся.
«ЭТО ПРОСТО ФАНТАСТИКА. Результат впечатляющий. Как попробовал, так всё понял. Реальный случай, когда в соло-режиме был просто хороший разработчик, а в агентном режиме получилось В ТРИ РАЗА более умственно отсталых дебила, которых допустили до кода. Если вы хотите получить ни с чем несравнимое удовольствие от эффектно произведённого говнокода, то агентный режим – это то, что вам нужно!»
Это один из лучших комментов по моему личному рейтингу. Сережа автор, привет ему.
«Тимлид бежит к агенту, орёт срочно всё останавливай, тот тупит и не слушает. Тимлид его убивает, поднимает нового – тот по той же инструкции продолжает спамить»
«Агент любит газлайтинг врубать на полную, хотя никто не просил. Была задача – выполняй, но нет. Для этого роботов придумали»
Агенты – это же когда вместо одной нейронки в чате вы запускаете несколько, каждая с узкой ролью, так? Архитектор, кодер, тестировщик, ревьюер. Задумано красиво: разделение труда, специализация, каждый лучше в своём. На практике часто беда.
Беда в двух штуках:
– координация. Каждый агент видит только свой кусок контекста. Архитектор принял решение, кодеру это не передали, он делает поперёк. Тестер проверяет старую версию, которую кодер уже переписал. В одиночной модели всё это в одной голове. Коряво, но целостно. В агентном режиме – целостности нет вообще, если вы ее не пропишете отдельно.
– накопление ошибок. Если один агент ошибается в 5% случаев, два последовательно – уже 10% (5% на первом шаге + 5% на втором, пусть и не идеально складываются). Три – 14–15%. И каждый следующий опирается на результат предыдущего, то есть жопа усиливается, а не сглаживается.
Антропики у себя в блоге как-то писали: мультипгентный подход реально работает только там, где задачи чисто декомпозируются и слабо связаны друг с другом. А код – это когда всё зависит от всего. Поэтому агентами не ускоришь – только запутаешь. Агенты нужны там, где задачи независимы (например, параллельно обработать тысячу разных текстов). И если используете команды или как сейчас любят говорить армии агентов, у них хотя бы должен быть общий доступ к документации проекта, иначе они друг другу будут противоречить.
Кластер 6. Вайбкодинг
«Навайбкодил – это скорее “пернул в лужу”, “наговнякал”, “я сделяль”. Вайбкодинг – это как попросить ChatGPT написать бестселлер»
Вайбкодинг – ты описываешь нейронке, что хочешь, и она делает. Звучит как мечта. На деле:
«То получается прям збс и ты такой, таак ну ещё одну тасочку давай малыш! А потом как нахер всё сломает и сидишь 2 дня в астрале. И заново. Но прикольно. С нейросетями люди больше работают, а не меньше»
Вот это «больше работают, а не меньше» я бы вынесла на баннер у входа в офис любой AI-компании, потому что продают там вообще обратное.
Генерация кода через модель неплохо работает на отдельных функциях и небольших файлах. На масштабе часто ломается, ведь у модели нет понимания проекта как целого. Она видит только кусок, который вы ей сейчас показали. Проект растёт, контекст не вмещается. Модель начинает забывать, что делала неделю назад, генерит код, который противоречит тому, что уже написано. Злит страшно.
Но есть такая цитата, которая мне дала надежду:
«Последние 4 дня описывал свою методологию разработки. Инструкции, субагенты, команды. Теперь модель тупить стала в разы меньше, сама себя проверяет, документацию ведёт»
Вот это – ответ. Архитектурные решения выносятся в документацию. Документация подтягивается моделью при каждом запросе. Модель перестаёт «забывать», потому что память лежит в файлике, а её башка всегда чистая. Никакой автоматизации тут нет, только умение работать с инструментом.
Документация проекта в маркдауне. Явные инструкции – что трогать, что не трогать. Проверка перед коммитом. Бэкапы. Законы вайбкодера!
Кластер 7. Люди влюбляются в модель.
«Всё же название бота такое интересное. Я бы обращался к нему либо Клавдий, либо Клава 😂»
«Я обычно всем то же самое и советую – спросить у джипити и что он скажет. А тут растерялась. Вдруг он узнает, что я в России 🤣. Хотя кого я обманываю. Он уже давно даже адрес мой знает, мой краш»
«Я перестал задавать роли нейронке. И пошла по пути вопрос-ответ. Разговариваю реально как с сыном. Сначала аккуратно спрашиваю, что он знает на тему. Потом прошу проанализировать ответы. В итоге прошу составить структуру»
«Мне приснился кошмар. GPT его расшифровал. Угадал события, которые происходили в жизни на момент кошмара. И ещё нарисовал монстра, который мне приснился»
Обычные люди, которые каждый день по 4-5 часов разговаривает с тем, кто ему не перечит, всегда рядом, вежлив, помнит (ну почти, см. кластер 3). И этот кто-то – нейросеть. Ну как не привяжешься. Был такой Джозеф Вейценбаум, в 1966 году написал программу ELIZA – примитивный чат-бот, который имитировал психотерапевта. Буквально пяток правил: если пользователь говорит «я грустный», программа спрашивает «почему вы грустный?». Ну это грубо, типа того. Так вот, его секретарша, которая знала, что это программа, – просила оставить её одну, когда с этой ELIZA общалась. Чтобы поговорить о личном с фигнёй из десяти строчек кода. Вейценбаум от этого охренел так, что переквалифицировался в критики ИИ до конца жизни.
60 лет прошло. Имитация стала в миллион раз лучше. И то самое обучение на лайках разметчиков специально выкручивает модель в сторону тёплых, эмпатичных, понимающих ответов. Потому что разметчикам такие нравились больше, чем сухие и чёткие. Признаюсь, что настоящая любовь к этим самым нейронкам началась как раз с чата с дипсиком, который длился всю ночь. Но вообще это не безобидно. Вот пишет один:
«Люди на волне хайпа скупают минимаки, дают доступы к своей почте, персональным заметкам, ключам и паролям… а потом открывают соцсеть, где эти агенты делятся чем-то. Это пиздец, товарищи»
Но в голове это не ощущается опасно. Потому что в голове это уже просто Клавдий. Плюс тонкий эффект, который сложно поймать. Цитата про сон, где модель «угадала события из жизни». Нет. Пользователь сам их написал в контексте, не заметив. А она их зачитала обратно. Никакой это не инсайт, просто зеркало, но вот ощущается, как понимание. Так что вспоминай, где проебался и слил лишка о себе.
Что делать. Не знаю, честно говоря. Технически – помнить, что это инструмент, который имитирует паттерн понимания, а не понимает. Не давать ему доступы, которые не дали бы случайному оператору в колл-центре.
Кластер 8. Мы начинаем говорить, как они
Зеркально к кластеру 7. Модели учились на нас, теперь мы учимся у них.
«У сотрудника произошла трансформация. К концу сотрудничества казалось, что он сошёл с ума – никто уже не понимал его случайных формулировок вперемешку с нормальными текстами. Я назвал это синдром AI/Туретта»
Не помню какие исследователи взяли 14 миллионов абстрактов научных статей и посмотрели, какие слова выросли в частоте. «Delves» выросло на 654%. Потому что авторы прогоняли тексты через модели, а модели обожают слово delves. Сейчас, кстати, его частотность уже снижается, потому что автора, использующего «delves», сразу подозревают, так что люди начали сами его вычищать. Модели подтянулись, стали его меньше генерить. Уроборос.
Синдром AI/Туретта из цитаты – это крайний случай того же процесса. Человек перенимает речевые паттерны модели. Всё, что я в прошлой статье разбирала как маркеры AI-текста, – теперь обнаруживается в устной речи живых людей. Через пару лет грань между человеческим и иишным текстом может вообще исчезнуть.
Вот всё в одной таблице:
|
Кластер |
О чём |
Причина на уровне модели |
Сколько цитат |
|---|---|---|---|
|
Галлюцинации |
Врёт уверенно |
Модель генерит, а не помнит |
~32% |
|
Проактивность |
Делает лишнее |
Обучали быть услужливой – переобучили |
~13% |
|
Память |
Забывает, путает |
Контекстное окно ограничено |
~11% |
|
Деньги |
Непредсказуемо дорого |
Токены по запросу, лимиты плавающие |
~8% |
|
Агенты |
Хуже чем в одиночку |
Потеря общего контекста + сумма ошибок |
~10% |
|
Вайбкодинг |
Ломается на масштабе |
Нет понимания всего проекта |
~12% |
|
Очеловечивание |
Привязываемся к модели |
ELIZA-эффект + обучение на эмпатию |
~7% |
|
Мимикрия |
Пишем как она |
Обратное влияние паттернов |
~7% |
Автор: vaganovelena


