ollama.

Ваш код — только ваш: как AI-агент Cline работает в IntelliJ IDEA полностью офлайн

продолжить чтение

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

На практике хотел понять где заканчивается простой вызов локальной LLM и начинается backend система: с API контрактом, логированием, request_id, источниками, индексом документов, диагностикой и честными ограничениями.Сначала проект выглядел просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Это уже работало, но стало понятно такой вариант ещё нельзя назвать системой по документации. Модель отвечает, но непонятно на что она опирается, откуда взяла ответ, сколько времени занял каждый этап и что делать если документы изменились.

продолжить чтение

Локальный RAG без магии: sources, timings, request_id и отказ от генерации

На практике было интересно не просто вызвать локальную LLM из Python а понять, в какой момент такой вызов превращается в backend-систему: с API-контрактом, логами, request_id, источниками ответа, индексом документов, диагностикой и честным отказом отвечать, если данных в документах нет.В этой статье показываю не теорию RAG, а небольшой локальный проект, где хорошо видно, какие инженерные проблемы появляются вокруг LLM:что попадает в prompt;какие sources были найдены;сколько заняли retrieval и generation;когда backend должен не вызывать LLM;почему stale index может давать странное поведение;

продолжить чтение

Искусственный интеллект с LangChain. Разработка ИИ-агентов на Python

Представляем новый практический курс по ИИ-агентам на Python от мастера обучающей литературы Владимира Дронова

продолжить чтение

Anthropic, Fable 5, Claude Code и большой отбор игрушек

Самая сильная общедоступная модель Anthropic прожила четыре дня. У меня абонемент в кофейню живёт дольше.9 июня Anthropic выкатила Claude Fable 5, он же Mythos 5 в закрытом контуре. 12 июня доступ к обеим версиям сняли. А между этими датами уместилось столько, сколько иная модель не набирает за год жизни: скрытое ухудшение ответов для ИИ-исследователей, крик "Fable взломали и вытащили системный промпт" (пост Pliny в X, архив на GitHub

продолжить чтение

Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку

продолжить чтение

Эволюция клиента для Ollama: от PostgreSQL к MongoDB

«Код уже писать не надо, надо знать только цель, а код напишет себя сам». Виктор Пелевин «iPhuck 10»Привет. Меня зовут Николай Пискунов, я руководитель направления Big Data и эксперт курса Cloud DevSecOps по безопасной разработке от Академии вАЙТИ Beeline Cloud. Продолжаю цикл статей о клиенте для облачного сервиса Ollama. В первой части я рассказал, как родился этот клиент, с какими трудностями пришлось столкнуться при организации стриминга, и даже оставил пасхалку.

продолжить чтение

Helix Agent Ai — российский самообучающийся AI-агент. Полное руководство по развертыванию и использованию в 2026 году

Заголовок: Helix — российский самообучающийся AI-агент с поддержкой MCP: полное руководство по развертыванию и использованию в 2026 годуВведениеВ 2026 году вопросы приватности данных, цифрового суверенитета и контроля над искусственным интеллектом стали особенно актуальными. Helix — это российский open-source самообучающийся AI-агент (MIT-лицензия), предназначенный для полностью on-premise эксплуатации.Проект сочетает современную архитектуру на базе LangGraph, мощную поддержку Model Context Protocol (MCP), продвинутую систему изоляции и удобные интерфейсы.

продолжить чтение

Как я сделал локальный RAG-сервис для SRE: ищем по документации, ранбукам и коду через Ollama

Недавно я делал учебный проект про автоматизацию документирования инцидентов. Поначалу планы были грандиозными: инциденты, таймлайны, интеграции с мониторингами, чатами, постмортемы, подсказки дежурным инженерам.Но довольно быстро стало понятно, что с временными и ресурсными ограничениями лучше не пытаться написать маленький PagerDuty. Поэтому я сузил задачу до более реалистичного ядра: локального RAG-сервиса, который ищет по документации, ранбукам и коду, а затем передаёт найденный контекст в LLM.Так появился llmortem — FastAPI-сервис, который можно подключить к OpenWebUI как OpenAI-compatible backend.

продолжить чтение

Математика больших чисел: из игры с нулевой суммой в игру с растущей суммой

Исходный код, разобранный в статье, опубликован в этом репозитории.

продолжить чтение

123456...10...12