llm.

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента (API/Поиск) -> Чтение -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, галлюцинируют и застревают в бесконечных циклах.Индустрия пытается лечить это экстенсивно: наращивает контекстное окно до миллионов токенов или пишет в системном промпте заклинания вроде «подумай шаг за шагом и будь максимально объективен».

продолжить чтение

Оставлено в

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

Кто победит в соревновании по обработке документов — опытный специалист или нейросеть? На рутинных повторяющихся задачах ИИ уверенно обходит человека: он работает быстрее и не устаёт, тогда как внимание человека дискретно — мы ошибаемся из‑за усталости или монотонности работы.Оптимальное решение — разделить роли: нейросеть быстро и точно сортирует данные, а человек ставит задачи, контролирует процесс и оценивает результат. Как же на практике превратить ИИ-помощника и живого эксперта в эффективную команду?

продолжить чтение

Оставлено в

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Посвящается всем, кто менял промпт в 3 часа ночи и шептал «ну давай, гад, заработай».Привет, Хабр. Через несколько дней будет 16 лет, как я здесь зарегистрирован. Это моя первая статья. Кек.Меня зовут Ярослав, днём я занимаюсь продуктом, а по вечерам пилю десктопный AI-ассистент для встреч. Записывает, транскрибирует, суммаризирует и сам раскладывает решения, задачи и факты по базе знаний. Документация, которая пишет себя сама. Под капотом — Tauri (Rust + React), а за agent loop отвечает Mastra — TypeScript-фреймворк для AI-агентов с встроенными evals, tool calling и structured output.

продолжить чтение

Оставлено в

Большие языковые модели на практике – международный бестселлер теперь на русском языке

продолжить чтение

Оставлено в

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI

120 миллиардов параметров, контекст 256K токенов, агентное поведение — и всё это на одной видеокарте. Мы подключили Nemotron 3 Super к Luxms BI и неделю тестировали на реальных аналитических задачах. В этой статье — что получилось, где модель справляется, а где пока нет.Одна видеокарта – это принципиально другая экономика владения. Кластер из 8 карт – это капитальные затраты, инженерная команда для обслуживания, электричество, охлаждение и площадь в серверной. Одна RTX PRO 6000 – это единица оборудования, которая встаёт в стандартную рабочую станцию. Разница в совокупной стоимости владения (TCO) – на порядок.

продолжить чтение

Оставлено в

LLM под капотом. Модель выдумала телефон доверия — чиним архитектурой, не промптом

Девушка пересылает боту переписку с бойфрендом. Модель видит сигналы опасности (эмоциональное насилие, изоляция) и отвечает номером телефона доверия. Заботливо. Ответственно. Одна проблема: это детская горячая линия. Модель галлюцинировала контакт кризисной помощи.В промпте написано «НЕ придумывай контактные данные». Не помогает. Желание быть полезной в модели сильнее любой инструкции. Это не проблема промптинга. Это проблема архитектуры.Ловушка одного прохода

продолжить чтение

Оставлено в

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Всем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить.А тут получилась спонтанная и короткая история из разряда «поигрался - проиграл задумался», которая неожиданно упёрлась в этику и безопасность.

продолжить чтение

Оставлено в

PocketCoder-A1: Как я заставил свой Claude работать в три смены

ИИ не заменяет людей, люди просто больше работают. Так давайте хотя бы ночью пусть работает ИИ.Так вышло, что я плачу 100 евро в месяц на Claude Code. Солидная сумма, которая растворяется практически момоментально, когда твой аккаунт превращается в полигон из 10+ проектов, где 7-8 мои, а 2-3 моей жены.Шеринг подписки вообще занятие затратное, но мне не жалко.

продолжить чтение

Оставлено в

Founder Mode: как ИИ вытащил меня из иллюзии занятости, или…

Как я потерял несколько лет, делая всё кроме главного — и что с этим сделалЭта статья про две вещи. Сначала зачем: годы прокрастинации, иллюзия занятости и простая механика, которая это сломала. Потом как: 35-й вайбкодинг-проект за 10 месяцев, событийная архитектура, 39 коммитов за 3 недели, TypeScript, Playwright, LLM и деплой на двухъядерный VDS.На Хабре вышла — честная история, как один человек за 3 месяца с помощью ИИ собрал полноценный шахматный сервис. У меня похожая. Только не про шахматы, а про предпринимательство. И не 100 тысяч строк, а 9 500 — но с event store, инвариантами и Prometheus на проде.Часть

продолжить чтение

Оставлено в

AI для умного дома: что уже работает сегодня (часть 1)

В статье — не просто список инструментов, а как они сочетаются, какие подводные камни ждут при развёртывании, какие цифры можно ожидать по производительности и как обойти ограничения Llama 8B без облачных кредитов.1. Ollama — локальные LLMOllama запускает большие языковые модели на вашем сервере. Без облака, без API-ключей.Зачем в умном доме: понимание естественного языка. «Включи свет в гостиной» → модель извлекает намерение и сущность, можно передать в HA.Ресурсы:

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm.

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Большие языковые модели на практике – международный бестселлер теперь на русском языке

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI

LLM под капотом. Модель выдумала телефон доверия — чиним архитектурой, не промптом

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

PocketCoder-A1: Как я заставил свой Claude работать в три смены

Founder Mode: как ИИ вытащил меня из иллюзии занятости, или…

AI для умного дома: что уже работает сегодня (часть 1)

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm.