prompt-engineering.

LLM бенчмарк «Испытание Дали»

Обложка нарисована в ChatGPT Image-2Помните анекдот?— Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.

продолжить чтение

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

В процессе подготовки статьи про экономику кэширования, собрал несколько анти-паттернов, способных все сломать. Сначала были мысли о том, что это будет короткая врезка в конце, но подняв заметки и сделав пару ресерчей - стало понятно, что это вообще отдельная тема.Таких поломок с prefix_cache много, но механика у них схожая. В этой статье попытался свести все к трем причинам: у запросов перестаёт совпадать начало, одинаковые запросы попадают на разные машины, или прогретый кэш не доживает до следующего обращения.

продолжить чтение

re!think it: Как я уместил корпоративный бэкенд в один промпт (История сборки)

ВведениеВсё началось с утреннего обсуждения того, как языковые модели вообще воспринимают вводный запрос. Насколько на самом деле важно качество описания промпта? Есть ли разница между большим объемом «популярных» слов (водой) и лаконичным запросом, состоящим из малого количества, но редких и "тяжелых" по смыслу терминов?

продолжить чтение

Почему AI-агенты такие медленные? Часть 1: Путь вайбкодера

Странный вопрос, не правда ли? У AI-агентов, конечно, есть разные проблемы, но вряд ли их можно обвинить в медлительности. Спросите, как говорится, любого, какие у него ощущения от AI, и первое, что вы услышите, будет что-то вроде: «AI за 3 часа сгенерировал мне 100 тысяч строк кода». Разве это можно назвать медлительностью?На этом месте можно было бы и разойтись: 100 тысяч за 3 часа. Покажите мне человека, который способен хотя бы в половину этого, — и «я съем свою шляпу». Но я по‑прежнему утверждаю, что AI-агенты слишком медленные. Не верите? Добро пожаловать под кат…Дисклеймер

продолжить чтение

Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026

Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов.В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ.Я решил проверить одну простую вещь: способна ли нейросеть сказать «я не знаю»?Потому что в реальном мире — в медицине, праве, финансах — ответ «я не уверен» стоит дороже любой красивой, но выдуманной истории.Ниже — результаты слепого тестирования 14 топовых LLM (включая Claude 4.5, GPT-5.2, Gemini 3, Qwen, YandexGPT и

продолжить чтение

Синдром бесконечного окна: почему 1 миллион токенов в LLM не решает ваши проблемы (пока)

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24.Год назад индустрия жила лозунгом «Scale is all you need», перекладывая его на размер контекстного окна. 32k казались прорывом, 128k - стандартом, а Gemini с 1M+ токенов - убийцей RAG.Сейчас, в 2025-м, я вижу, как этот миф разбивается о реальность. Разработчики пихают в промпт целые книги, логи за неделю и дампы баз данных, а на выходе получают галлюцинации и «кашу».Давайте вооружимся свежими бенчмарками и разберемся, почему «поддерживаемый контекст» ≠ «рабочий контекст», что такое Context Rot (гниение контекста) и как с этим жить.1. Маркетинг vs Физика Attention

продолжить чтение

Антипаттерн LLM-приложений: Когда модель игнорирует контекст. Часть 1

продолжить чтение

Как повысить свою продуктивность с генеративным ИИ (и почему это не ChatGPT)

Если ты управляешь даже небольшой командой, то знаешь: каждая минута на счету, а цена ошибки — заоблачная. Мы живем в мире, где стратегическое решение нужно принять не через неделю, а «вчера». И тут на сцену выходит ИИ. Но я не собираюсь рассказывать, как попросить ChatGPT написать за тебя письмо или пост в ТГ-канал (об этом прочитаешь в других медиа).Речь о стратегическом усилении, которое помогает мне, как CEO, принимать решения быстрее и точнее. Это процесс, который может настроить под себя каждый за несколько вечеров, чтобы потом сэкономить сотни часов.

продолжить чтение

Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).Gartner отмечает, что одной из двух крупнейших тем ИИ с завышенными ожиданиями сейчас являются AI-ready data («данные, готовые к ИИ»).

продолжить чтение

Prompt Engineering: Паттерны проектирования. Часть 1 — XML теги

Prompt Engineering все еще остается ключевым элементом в разработке приложений на базе LLM. По мере того как индустрия движется от экспериментов к созданию продуктов, возникает потребность в лучших практиках и проверенных паттернах. Чтобы найти их, лучшим методом является постоянный анализ существующих топовых решений. В ходе масштабного исследования были проанализированы системные промпты из публичного репозитория

продолжить чтение

123