rag.
«Второй мозг» проекта: как ИИ пишет ТЗ по записям встреч с заказчиком
Всем привет, меня зовут Катя, я развиваю Gramax. Уже несколько месяцев мы делаем ИИ-агента для работы с текстом и документацией, поэтому много смотрим на реальные кейсы в разных компаниях. Один из самых сильных принесли друзья из SellOut+. Они делают аналитические системы для фармы и FMCG, быстро пробуют новые подходы и в какой-то момент взяли первую версию функции агентов в Gramax.
Трансформеры и бизнес: где ИИ даёт эффект, а где сжигает бюджет
Короче, такая история. В моей практике бывало такое, что приходит команда и говорит: «хотим внедрить ИИ». А под этим она понимает что-то среднее между волшебной кнопкой и наймом робота на ставку аналитика. Через пару часов разговора выясняется, что ожидания и механика расходятся примерно на световой год. Происходит это часто — и именно поэтому стоит один раз разобраться, что там внутри и откуда берётся настоящий эффект.Что такое языковая модель и как она думает
Доверенный ИИ на практике: RAG, который ссылается на источник — или честно отказывается
Поднял за выходные решение, которое давно хотел проверить руками: RAG, который отвечает строго по корпусу и к каждому утверждению ставит ссылку на пункт правил — или честно пишет «В корпусе нет основания для ответа». Корпус — приказ Минспорта России №834, «Правила вида спорта “волейбол”» (плюс немного про баскетбол). Модель — Gemma-4, локально, через Ollama (сделано нарочно на Ollama, знаю про vLLM / SGLang, здесь было целью - проверить гипотезу быстро и дешево). На слое инференса ни одного внешнего вызова: можно физически отключить сеть — оно продолжает работать.Это не «ещё один чат с PDF». Цель была узкая и проверяемая:
Anything LLM для каждого [бизнеса]
Привет!Нужен LLM? Если для себя лично можно как-то извернуться и купить подписку на ChatGPT, Claude или Gemini, то для бизнеса это не так-то просто. И я сейчас говорю не про зарубежные карточки, а про разделение доступа и локальное хранение чувствительных данных компании.Передо мной встала задача обеспечить моим клиентам локальную LLM, в которую можно закидывать любые документы и получать по ним ответы. Как водится, бюджета на это не выделили. Нужна демоверсия в боевом режиме для нескольких сотрудников, чтобы оценить профит.
Как я сделал локальный RAG-сервис для SRE: ищем по документации, ранбукам и коду через Ollama
Недавно я делал учебный проект про автоматизацию документирования инцидентов. Поначалу планы были грандиозными: инциденты, таймлайны, интеграции с мониторингами, чатами, постмортемы, подсказки дежурным инженерам.Но довольно быстро стало понятно, что с временными и ресурсными ограничениями лучше не пытаться написать маленький PagerDuty. Поэтому я сузил задачу до более реалистичного ядра: локального RAG-сервиса, который ищет по документации, ранбукам и коду, а затем передаёт найденный контекст в LLM.Так появился llmortem — FastAPI-сервис, который можно подключить к OpenWebUI как OpenAI-compatible backend.
Как и зачем мы сделали собственный OCR-бенчмарк
Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.
«ИИ-инженер» — новый курс в Практикуме PRO. От LLM до продакшн-систем
Бизнес давно вышел за рамки разовых экспериментов с нейросетями. Компании строят LLM-системы, которые живут в продакшне, обрабатывают реальные запросы и влияют на процессы. Специалистов, которые умеют это проектировать и запускать, на рынке всё больше — но спрос на них растёт быстрее предложения.В Практикуме PRO открылся курс «ИИ-инженер». За 4 месяца — полный цикл: LLM и управление генерацией, RAG-системы, агенты с оркестрацией, деплой и эксплуатация с мониторингом качества.Кому подойдёт
Введение в архитектуру ИИ‑систем: как GPT‑wrapper превращается в распределённую систему
Почти все AI‑проекты начинаются одинаково. Разработчик делает небольшой сервис с одним вызовом модели, подключает FastAPI, добавляет чат и показывает демо команде. На этом этапе всё выглядит настолько просто, что возникает опасное ощущение: «Ну это же обычный API‑вызов, только ответ пишет нейросеть».response = client.chat.completions.create( model="gpt-4.1", messages=messages )

