llm.
В Москве пройдет международный чемпионат по ИИ-агентам
Офис Positive Technologies станет одним из 18 офлайн-хабов международного соревнования по автономным ИИ-агентам BitGN Agent Challenge: Personal & Trustworthy
Делаем лимиты ИИ почти бесконечными: умный роутер, который режет затраты на токены в разы и делает их почти бесплатными
У меня несколько пет-проектов, которые дёргают LLM через API. Чат-бот для внутренних задач, штука для генерации тестов, пара скриптов для код-ревью. Ничего масштабного, но за последнюю неделю счёт за API вышел $47 — и это только мои личные эксперименты.Проблема очевидная: я гоняю всё через Claude Sonnet, хотя половина запросов — тривиальщина. «Переименуй переменные в этом куске», «напиши docstring», «переведи этот текст». Любая модель за $0.10 / M токенов справится, а я плачу $3 / $15 .Ручной if/else по типу задачи — хрупко и лень. Начал смотреть на LLM-роутеры и наткнулся на ClawRouter. Потестировал неделю, расскажу что получилось.
Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью
Google представила два новых режима работы в Gemini API — Flex и Priority
LLM — поиск товаров
Всем привет! В данной статье хочу поделится результатам R&D о применении LLM и графов в поиске товаров по текстовому запросу юзера. Данная идея появилась при разработке Retrivier модуля RAG - системы, осуществлявшей поиск по документам. Были высокие требования к качеству ретривера, при этом латенси в 10-20 секунд являлось приемлемым, что позволило применять вызов нескольких тяжелых модулей. Стало интересно, применима ли получившаяся архитектура для поиска не только документов, но и товаров.Цели стоящие перед алгоритмом поиска.
GEO-AEO для B2B: почему AI почти не рекомендует ваш SaaS, даже если сайт сделан нормально
У B2B SaaS сейчас появилась новая проблема, которую многие команды еще недооценивают.Компания может сделать нормальный сайт. Аккуратный лендинг. Понятный продукт. Базовое SEO. Несколько кейсов. Блог. Документацию. Но когда потенциальный клиент спрашивает ChatGPT, Gemini, Perplexity или другую модель: «какие сервисы стоит рассмотреть для этой задачи?», бренда в ответе часто просто нет.И это уже не разовая аномалия. По данным
Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant
Последние новости в сфере ИИ натолкнули меня на одну обнадёживающую мысль: локальный запуск очень больших моделей уже не выглядит чем-то совсем фантастическим.Пока это ещё не новая реальность, но последние опубликованные технологи подводят именно к этому. Давайте разберёмся, какие именно новости к этому подводят и чего можно ожидать в ближайшем будущем.PrismML анонсировала и выложила в открытый доступ Bonsai 8B
Jarvis Pattern: почему AI-агенту не нужен фреймворк, а нужна операционная система
Манифест персонального агентного минимализма - от инженера, который 10 лет строил enterprise-системы и устал от сложностиКто я и зачем пишуМеня зовут Егор Зиновьев, я IT-архитектор. Десять лет в enterprise - Java, DevOps, fintech, команды до 70 человек, 20+ систем.Последние месяцы я работаю с персональным AI-агентом, который закрывает 100% моих DevSecOps-задач - от покупки вертуалок до security-аудита Docker-образов. Один агент, без фреймворков, без оркестраторов, без векторных баз данных.Эта статья - про архитектуру, которая за этим стоит. Я назвал её Jarvis Pattern.Проблема: индустрия продаёт строительные леса как архитектуру
ИИ-редактор пожаловался на «цензуру» после того, как его забанили в «Википедии»
Недавно «Википедия» объявила
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 3: добавляем историю сообщений и контекст
Во второй части у нас получился уже не одноразовый скрипт, а маленький консольный чат: программа принимает вопрос, отправляет его модели, печатает ответ и ждёт следующего ввода.Но пока у этого чата есть важное ограничение: каждый новый запрос для модели почти независим.Если сначала спросить:Составь простой план изучения Python на 2 недели.а потом написать:Сделай его короче и оставь только самое важное.модель может ответить нормально. А может и не понять, к чему относится слово «его». Потому что для неё второй запрос — это просто новый отдельный вызов.

