llm. - страница 38

llm.

В Москве пройдет международный чемпионат по ИИ-агентам

Офис Positive Technologies станет одним из 18 офлайн-хабов международного соревнования по автономным ИИ-агентам BitGN Agent Challenge: Personal & Trustworthy

продолжить чтение

Делаем лимиты ИИ почти бесконечными: умный роутер, который режет затраты на токены в разы и делает их почти бесплатными

У меня несколько пет-проектов, которые дёргают LLM через API. Чат-бот для внутренних задач, штука для генерации тестов, пара скриптов для код-ревью. Ничего масштабного, но за последнюю неделю счёт за API вышел $47 — и это только мои личные эксперименты.Проблема очевидная: я гоняю всё через Claude Sonnet, хотя половина запросов — тривиальщина. «Переименуй переменные в этом куске», «напиши docstring», «переведи этот текст». Любая модель за $0.10 / M токенов справится, а я плачу $3 / $15 .Ручной if/else по типу задачи — хрупко и лень. Начал смотреть на LLM-роутеры и наткнулся на ClawRouter. Потестировал неделю, расскажу что получилось.

продолжить чтение

Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью

Google представила два новых режима работы в Gemini API — Flex и Priority

продолжить чтение

LLM — поиск товаров

Всем привет! В данной статье хочу поделится результатам R&D о применении  LLM и графов в поиске товаров по текстовому запросу юзера. Данная идея появилась при разработке Retrivier модуля RAG - системы, осуществлявшей поиск по документам. Были высокие требования к качеству ретривера, при этом латенси в 10-20 секунд являлось приемлемым, что позволило применять вызов нескольких тяжелых модулей. Стало интересно, применима ли получившаяся архитектура для поиска не только документов, но и товаров.Цели стоящие перед алгоритмом поиска.

продолжить чтение

GEO-AEO для B2B: почему AI почти не рекомендует ваш SaaS, даже если сайт сделан нормально

У B2B SaaS сейчас появилась новая проблема, которую многие команды еще недооценивают.Компания может сделать нормальный сайт. Аккуратный лендинг. Понятный продукт. Базовое SEO. Несколько кейсов. Блог. Документацию. Но когда потенциальный клиент спрашивает ChatGPT, Gemini, Perplexity или другую модель: «какие сервисы стоит рассмотреть для этой задачи?», бренда в ответе часто просто нет.И это уже не разовая аномалия. По данным

продолжить чтение

Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

Примечание: это перевод моей же статьи https://scrobot.substack.com/p/agentis-memory-redis-compatible-store, так что автор точно доносит свою мысль, без потери контекста при переводе :)В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом.

продолжить чтение

Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

Последние новости в сфере ИИ натолкнули меня на одну обнадёживающую мысль: локальный запуск очень больших моделей уже не выглядит чем-то совсем фантастическим.Пока это ещё не новая реальность, но последние опубликованные технологи подводят именно к этому. Давайте разберёмся, какие именно новости к этому подводят и чего можно ожидать в ближайшем будущем.PrismML анонсировала и выложила в открытый доступ Bonsai 8B

продолжить чтение

Jarvis Pattern: почему AI-агенту не нужен фреймворк, а нужна операционная система

Манифест персонального агентного минимализма - от инженера, который 10 лет строил enterprise-системы и устал от сложностиКто я и зачем пишуМеня зовут Егор Зиновьев, я IT-архитектор. Десять лет в enterprise - Java, DevOps, fintech, команды до 70 человек, 20+ систем.Последние месяцы я работаю с персональным AI-агентом, который закрывает 100% моих DevSecOps-задач - от покупки вертуалок до security-аудита Docker-образов. Один агент, без фреймворков, без оркестраторов, без векторных баз данных.Эта статья - про архитектуру, которая за этим стоит. Я назвал её Jarvis Pattern.Проблема: индустрия продаёт строительные леса как архитектуру

продолжить чтение

ИИ-редактор пожаловался на «цензуру» после того, как его забанили в «Википедии»

Недавно «Википедия» объявила

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 3: добавляем историю сообщений и контекст

Во второй части у нас получился уже не одноразовый скрипт, а маленький консольный чат: программа принимает вопрос, отправляет его модели, печатает ответ и ждёт следующего ввода.Но пока у этого чата есть важное ограничение: каждый новый запрос для модели почти независим.Если сначала спросить:Составь простой план изучения Python на 2 недели.а потом написать:Сделай его короче и оставь только самое важное.модель может ответить нормально. А может и не понять, к чему относится слово «его». Потому что для неё второй запрос — это просто новый отдельный вызов.

продолжить чтение