Проектирование API.

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

На практике хотел понять где заканчивается простой вызов локальной LLM и начинается backend система: с API контрактом, логированием, request_id, источниками, индексом документов, диагностикой и честными ограничениями.Сначала проект выглядел просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Это уже работало, но стало понятно такой вариант ещё нельзя назвать системой по документации. Модель отвечает, но непонятно на что она опирается, откуда взяла ответ, сколько времени занял каждый этап и что делать если документы изменились.

продолжить чтение

Локальный RAG без магии: sources, timings, request_id и отказ от генерации

На практике было интересно не просто вызвать локальную LLM из Python а понять, в какой момент такой вызов превращается в backend-систему: с API-контрактом, логами, request_id, источниками ответа, индексом документов, диагностикой и честным отказом отвечать, если данных в документах нет.В этой статье показываю не теорию RAG, а небольшой локальный проект, где хорошо видно, какие инженерные проблемы появляются вокруг LLM:что попадает в prompt;какие sources были найдены;сколько заняли retrieval и generation;когда backend должен не вызывать LLM;почему stale index может давать странное поведение;

продолжить чтение

Жизненный цикл API

Жизненный цикл разработки ПО (Software Development Life Cycle, SDLC) — это процесс управления программным обеспечением на протяжении всего времени его существования, от планирования до вывода из эксплуатации. API относится к программному обеспечению, поэтому термин «жизненный цикл API» синонимичен SDLC. Даже если ваш API не пройдет полный цикл, понимание того, из каких этапов тот состоит, поможет вам выработать подход к разработке.Жизненный цикл API состоит из таких этапов, как: планирование, проектирование, реализация, тестирование, развертывание, сопровождение и выведение из эксплуатации. Все эти этапы показаны на рис. 1.7.

продолжить чтение

Как я подключал YandexGPT к AI-агентам (OpenCode, Pi, Hermes и Claude Code)

Я уже исследовал возможности интеграции разных моделей в инструменты разработки. Недавно решил плотно посмотреть на Yandex AI Studio и понять, как легко их модели залетают в популярные клиенты.Главное открытие — у Яндекса отличная поддержка стандарта OpenAI «из коробки» (эндпоинт https://ai.api.cloud.yandex.net/v1). Оказывается, всё настраивается в разы проще, чем то, с чем я столкнулся при подключении GigaChat к OpenCode

продолжить чтение

Реальный DX: как измерить опыт разработчика и не соврать самому себе

В прошлый раз я писал

продолжить чтение

Как мы собрали LLM-шлюз для России: готовый LiteLLM на data-plane, свой биллинг на Go и n8n

продолжить чтение

Microsoft представила поисковик Web IQ на базе Bing для ИИ-агентов

Microsoft представила набор API-интерфейсов Web IQ на базе поисковика Bing. Он позиционируется как поисковая система для ИИ-агентов, которая предложит им структурированные данные для работы.

продолжить чтение

Strava ужесточает доступ к API в попытке противостоять компаниям, занимающимся сбором данных с помощью ИИ

Платформа для отслеживания физической активности и социальная сеть для спортсменов Strava ужесточает доступ к API в попытке противостоять компаниям, занимающимся сбором данных при помощи ботов на искусственном интеллекте. Осенью 2024 года компания уже ввела запрет на использование любых данных, полученных через API Strava, для обучения ИИ-моделей. Однако компании в сфере ИИ обошли этот запрет.

продолжить чтение

HR-бот на базе RAG: архитектура корпоративной базы знаний для ресторанного холдинга

В ресторанном холдинге была внедрена система HR-бота на базе ИИ, которая работает поверх корпоративной базы знаний, учитывает роль сотрудника и предоставляет ответы со ссылками на актуальные документы.Основная задача проекта — заменить разрозненные FAQ, Wiki, документы и чаты единым интерфейсом доступа к корпоративным знаниям. Сотрудник может задать вопрос в свободной форме и получить ответ с учётом своей должности, прав доступа и актуальной версии документа.Исходная проблема

продолжить чтение

Сокращение ручной работы на примере Spring Boot-проекта: OpenAPI generator, QueryDsl, OpenAI

продолжить чтение