AI-компаньон в проде на третьем месяце — 5 архитектурных решений и инфра-тюнинг
Каждый, кто пробовал собрать AI-чат по типовой схеме — chat-completions API, OpenAI Memory, один эндпоинт Stable Diffusion — рано или поздно упирается в одни и те же стены. Бот забывает разговор через десять реплик. Иногда сервер бодро отвечает HTTP 200, как будто всё в порядке, а внутри — пустая строка: ни ошибки, ни таймаута, модель просто отказалась говорить и сделала это молча. Один и тот же текстовый запрос рисует двух разных персонажей. А одеть нарисованного персонажа в конкретное платье из каталога не получается вообще.
Собираем AI-агента нового поколения: Python, RAG и внешние инструменты через MCP (Model Context Protocol)
Введение: от простых цепочек к агентам, которые действуютЕщё пару лет назад типичное LLM-приложение выглядело как последовательная цепочка вызовов: взяли промпт, добавили контекст из векторной базы, отправили в модель, получили ответ. LangChain популяризировал эту парадигму — chains, retrievers, memory — и это работало для простых сценариев вроде «ответь на вопрос по документации».Но бизнес-задачи редко укладываются в линейный пайплайн. Пользователь хочет не просто получить ответ, а чтобы система совершила действие
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
ВведениеLangChain обещает красивую жизнь: переключите модель одной строкой, подключите RAG за две, дайте агенту инструменты за три. На лендинге всё выглядит как конструктор LEGO — берёшь кубики, соединяешь, работает. На хакатоне это действительно так. В production — не совсем.Тезис «LangChain — overhead для production» не нов. Его обсуждают в каждом втором треде на Reddit и в комментариях на Хабре. Компания Octomind
Как мы с ИИ сделали локальный ИИ, который учится по моим книгам и пишет за меня отчёты
Предыстория: зачем вообще это нужноКаждый семестр одна и та же история: кипа учебников, дедлайны, отчёты, которые нужно было сдать «вчера», и презентации, от одного вида которых хочется закрыть ноутбук. ChatGPT и Claude помогают, но:Они не читали мои учебники — отвечают «в целом», а не по конкретному материалу курсаКонфиденциальность — не все учебные материалы хочется загружать в облакоЗависимость от интернета — в поезде, в общаге с плохим Wi-Fi это критичноСтоимость — подписки на API складываются
Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как
Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут.Я представился в первом сообщении. Двести сообщений назад...Агент забыл. Не потому что тупой. Потому что контекст переполнился и начало разговора уехало в никуда.Это был момент, когда я понял: мы неправильно думаем о памяти.Почему большие контексты — это ловушкаКогда вышел Claude с контекстом на миллион токенов, казалось — проблема решена. Запихиваем всё в контекст, модель помнит всё. Красота.Потом пришёл счёт за API.
От страха к успеху: история появления ИИ-помощника в системе «АФИДА»
Привет, Хабр! На связи снова Всеволод Зайковский, заместитель руководителя проекта в «Газпром ЦПС». В прошлый раз
Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain
🚀 Идея, Которая Важнее КодаМой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим заболеванием — это бесконечный поток анализов, заключений и схем приёма лекарств. Находясь далеко (я живу во Вьетнаме), я постоянно волновался: не забудет ли он про дозу, правильно ли понял назначение, задал ли все нужные вопросы врачу?Мне нужен был не просто бот-напоминалка, а второй пилот — умный, конфиденциальный и мультимодальный AI-Кардиолог. Ассистент, который знает его анамнез наизусть, понимает голосовые команды и может "прочитать" фотографию свежего анализа.
Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла
В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.
Как я построил RAG-систему за вечер с помощью 5 open source-инструментов
Команда Python for Devs подготовила практическое руководство по сборке полноценной RAG-системы из пяти open source-инструментов. MarkItDown, LangChain, ChromaDB, Ollama и Gradio превращают разрозненные документы в умную базу знаний с потоковой генерацией ответов. Всё локально, без облаков и с открытым кодом — попробуйте собрать свой ChatGPT прямо у себя.Бывало, вы тратили по полчаса, просматривая ветки Slack, вложения к письмам и общие диски, лишь чтобы найти ту самую техническую спецификацию, о которой коллега упоминал на прошлой неделе?

