Контекстное окно: почему нейросеть забывает части разговора
Представьте, что вы разговариваете с невероятно умным и эрудированным собеседником. Только очень странным. Несмотря на весь свой интеллект и тысячи фактов, которые он непринужденно рассказывает, он не может ничего запомнить. Ваш диалог с ним каждый раз как бы начинается заново. Вы даете ему вводные, задаете вопросы, что-то уточняете, а он, на основе всего этого, выдает ответ.
Что такое контекстное окно и почему модели забывают
Ты час разговариваешь с ChatGPT. Даёшь контекст, объясняешь задачу, уточняешь детали. А потом модель вдруг начинает противоречить тому, что говорила раньше. Забывает имя персонажа которое ты указал в самом начале. Спрашивает то, о чём вы уже договорились.Первая реакция - что-то сломалось. Но это не баг. Это фундаментальное ограничение архитектуры, у которого есть название и объяснение.Модель не помнит - она читаетГлавное заблуждение про языковые модели - что у них есть память. Что где-то внутри хранится история ваших разговоров, и модель к ней обращается.Это не так.
LLM написала, человек одобрил, никто не понял: откуда на самом деле берётся нечитаемый код
«Она написала мне идеальную документацию. Триста страниц. Теперь я не понимаю не только код, но и документацию»1. Знакомое ощущениеКод работает. Тесты проходят. А читать его невозможно. «Я бы написал это иначе» — думает каждый, кто открывал результат работы LLM-агента. Или другая сторона той же монеты: модель выдала исчерпывающий документ, в нём есть всё — а в голове после прочтения не остаётся ничего.Мы привычно называем это «низким качеством». Плохо обучили. Недотюнили. Промпт кривой. Но давайте присмотримся: качество ли это?
Harness под любую задачу: Dynamic Workflow в Claude Code
На прошлой неделе мы выпустили динамические воркфлоу в Claude Code. Теперь Claude может на лету писать собственную обвязку (harness) под конкретную задачу.Стандартная обвязка Claude Code создавалась для кода — но она также полезна для многих других типов задач, поскольку, как выясняется, многие задачи напоминают задачи по написанию кода. Тем не менее есть определённые классы задач, под которые нам приходилось строить кастомные обвязки поверх Claude Code для достижения максимальной производительности:
Представлена языковая модель с линейной сложностью вычислений и контекстом до 12 млн токенов
Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.
Больше контекста — хуже результат
почему AI-агенты деградируют на длинных сессиях и при чём тут CoTПосле статьи про Cursor и сжатие контекста я получил много комментариев. В коментах спорят: виноват компактинг? Или attention dilution? Или модель просто ослушалась? Или проблема вообще не в контексте, а в alignment?Спор хороший, но он показывает фундаментальную проблему: у инженеров нет общей картины того, как LLM работают с контекстом. Мы видим симптомы (агент удалил базу, модель галлюцинирует, точность падает на длинной сессии), но не понимаем механизмы.Попробуем собрать эту картинкуDisclaimer
Практическое руководство по инжинирингу контекста для AI-ассистентов
Каждый раз, когда вы начинаете новую сессию чата с AI-ассистентом для программирования (будь то Cursor, Claude Code, Windsurf или Cortex Code), вы по сути начинаете с нуля.Ассистент не знает, что, например, ваша команда использует Streamlit для создания веб-приложений. Он не знает, что вы предпочитаете иконки Material вместо эмодзи. И он не в курсе того конфликта портов, из-за которого три месяца назад вы перешли с 8501 на 8505.Поэтому вам приходится повторяться. Сессию за сессией.
От написания промптов к проектированию контекста. Или один очень обширный материал по Context Engineering
Прелюдия 1Это длиннопост, после которого, я надеюсь, у вас сформируется устойчивый фундамент по работе с контекстом и современными агентными интерфейсамиПрелюдия 2Если вы считаете, что я где то ошибся или хотите уточнить детали, то можете оставлять комменты. Все прочитаю и поправлюПрелюдия 3То, что написано ниже -- достаточно тяжелый материал, если у вас нет понимания работы агентов и того, как работают LLM, то будет тяжело. Но не бесполезно)Для начинающих у меня есть отичная статья Просто и подробно о том, как работают ChatGPT и другие GPT подобные модели. С картинками.

