Open source.

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

На практике хотел понять где заканчивается простой вызов локальной LLM и начинается backend система: с API контрактом, логированием, request_id, источниками, индексом документов, диагностикой и честными ограничениями.Сначала проект выглядел просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Это уже работало, но стало понятно такой вариант ещё нельзя назвать системой по документации. Модель отвечает, но непонятно на что она опирается, откуда взяла ответ, сколько времени занял каждый этап и что делать если документы изменились.

продолжить чтение

AI предлагает, мержу я: почему я не даю агенту последний ход

Есть неприятная иллюзия: если модель стала сильнее, ей можно дать больше свободы. В кодинге это быстро выходит боком. Агент пишет много, уверенно, иногда даже красиво. Потом ты открываешь diff и понимаешь, что вместе с полезным кодом туда попало… ну, назовём это решениями, которые ты сам никогда бы не принял.У меня после нескольких таких заходов появилась простая граница.AI может предлагать. Мержу я.

продолжить чтение

skill-compass: хук, который сам подсказывает Claude Code нужные скиллы

У Claude Code есть одна неприятная особенность, про которую редко говорят вслух. Можно навесить на агента огромную библиотеку скиллов — дизайн, проектирование API, миграции БД, ревью безопасности, отдельные наборы под каждый язык, — и всё это будет честно лежать в ~/.claude/skills/. Нужный скилл почти всегда там есть. Проблема не в том, что его нет. Проблема в том, что про него надо вспомнить в нужный момент.

продолжить чтение

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

продолжить чтение

Как ИИ помогает Linux возвращать к жизни двадцатилетние видеокарты

продолжить чтение

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

АннотацияАвтоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle

продолжить чтение

Как мы построили распределённый мониторинг аптайма

В прошлый раз я писал про рекурсивную задачу мониторинга: кто мониторит монитор? Если Prometheus упал — вы не видите ничего, и самое коварное тут в том, что отвалившийся мониторинг внешне неотличим от идеальной стабильности. Та статья заканчивалась честно и немного грустно: чистого решения нет, есть только слои подстраховки и остаточный риск, с которым приходится жить.

продолжить чтение

Картинки рвало полосами, а файлы при этом были чистыми

Три ночи я был уверен, что у меня сломан рендер.Вертикальные картинки — те самые 9:16, под обои телефона и под сторис, — на экране разъезжались горизонтальными полосами. Как будто старый телевизор поймал помехи. Квадрат рисуется нормально. Горизонталь — нормально. А вертикалку рвёт в труху.Три раза я её «починил». И все три раза чинил вообще не то.Правда оказалась дурацкой и красивой одновременно: файлы были в полном порядке. Рвало только то, как macOS показывала их на экране. Но к этому моменту я уже немного поседел.

продолжить чтение

Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи

Я долго пользовался разными кодинг‑агентами, и на их фоне Claude Code для меня заметно выделялся: качеством решений, удобством работы и вниманием к деталям. В какой‑то момент мне захотелось не просто пользоваться таким инструментом, а понять, что на самом деле происходит у него под капотом. Так я сел писать собственного агента на Swift, с нуля, без использования готовых решений.

продолжить чтение

Релиз Linux 7.1: улучшенное управление питанием, новый драйвер NTFS и оптимизация для видеокарт

Новая версия ядра Linux 7.1 вышла

продолжить чтение

123456...1020...56