Рефлексивный бот с долгой памятью: почему универсальный LLM-чат тут не работает, и как я переписал онбординг по данным
Я какое-то время использовал ChatGPT и Claude как собеседника для рефлексии — выгрузить, что в голове, посмотреть на себя со стороны. С самим разговором у них всё отлично. Проблема в другом: они со временем теряют память в целом управлять этим не сильно удобно из-за раздутого контекста.Для разовой задачи это норм. Но рефлексия — это процесс во времени: ценность не в одном разговоре, а в том, что собеседник помнит
Режим thinking у ИИ: что на самом деле происходит, когда модель «думает»
Когда нажимаешь кнопку Thinking и видишь, как модель несколько секунд «размышляет» перед ответом — легко решить, что она просто старается сильнее. Работает усерднее. Думает глубже. Может, перебирает больше вариантов из какой-то внутренней базы знаний.Это не так. Thinking-режим — это принципиально другой способ генерации текста, не просто «обычный режим с усилием». И понять разницу полезно не для общего развития, а чтобы знать, когда его включать, когда он даёт реальное преимущество — а когда только тратит твоё время и ресурсы.Как работает обычная генерация — и в чём её фундаментальная ловушка
Тайная слабость нейросетей: почему большие контекстные окна не работают
Привет, Хабр! Меня зовут Михаил Сальников, я независимый исследователь в области искусственного интеллекта, автор бенчмарка AI Independence Bench и эксперимента с автономным ИИ, известным как Aria. Я почти каждый день читаю статьи в arxiv.org на эту тему и временами натыкаюсь на очень интересные результаты от других исследователей. Решил, что стоит начать делиться с хабровчанами самыми примечательными из них (а если бы я продолжил писать только про свои работы, статьи выходили бы раз в пару месяцев 🙂)
Compute crunch пришёл: как считать экономику LLM в 2026
Build, Buy или Hybrid - рассуждаем о подходах к TCO. Статья - приглашение к диалогу и обсуждению, не экспертный нарратив."Я говорил" или что случилось с тарифами на LLM APIДва крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов
Агентность на практике: Codex CLI и российский AI-ландшафт
Привет, ХабрПосле знакомства с Codex CLI от OpenAI я решил провести практический тест: можно ли в российском ИИ-ландшафте собрать ChatGPT-подобный login UX для агентного CLI — запускаю клиент, логинюсь, сразу работаю с инференсом.Сначала разберу рынок и авторизацию: как я сравнил Яндекс и Сбер, и почему для нужного UX Яндекс оказался проще в реализации. А потом покажу самое вкусное: что пришлось чинить в runtime inference, чтобы агент вообще не умирал на первом ходе.TL;DRДля agentic CLI необходим воспроизводимый мост IDP login -> API token -> inference.
Модель находит баг в криптографии, а криптограф узнаёт от неё новую математику
Эта статья — ответ на критику: «перестаньте рассказывать сказки, как AI помогает в науке, покажите примеры!». Действительно, без примеров, рассказы об успешном успехе AI выглядят как сектантский бред.
Общество мыслей: совещание внутри LLM
Общество мыслей: совещание внутри LLMВы наверняка слышали про Chain-of-Thought. "Пусть модель думает вслух, и она станет умнее" — звучит логично, правда? Добавляем "Let's think step by step" в промпт, модель генерирует больше токенов, качество растёт. Почему это работает — долгое время было неочевидно.Но вот что странно: DeepSeek-R1, QwQ-32B и модели серии OpenAI o (o1, o3) показывают результаты, которые невозможно объяснить просто "более длинными рассуждениями". Они решают задачи, на которых обычные модели с Chain-of-Thought спотыкаются. И дело не в размере модели и не в количестве токенов.Исследователи из Google Research и University of Chicago в статье
MAESTRO — новый фреймворк для построения мультиагентных систем и цифровых ассистентов на основе LLM
Привет, Хабр! За последний год стало ясно, что использование нескольких LLM в агентном режиме приносит существенно больше пользы, чем простая сумма их компьюта по отдельности. Гибкость, распределение ролей и активное взаимодействие моделей позволяет достичь значительных успехов в самых различных задачах, включая создание полезных цифровых ассистентов.
Гармония восприятия и генерации: новый эталон для мультимодальных моделей
Автор: Денис АветисянДолгое время искусственный интеллект испытывал трудности в интеграции зрительного и языкового восприятия, оставаясь лишь поверхностным в понимании сложных взаимосвязей между ними. Однако, прорыв, представленный в Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

