ai-агенты. - страница 2

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу

продолжить чтение

AI предлагает, мержу я: почему я не даю агенту последний ход

Есть неприятная иллюзия: если модель стала сильнее, ей можно дать больше свободы. В кодинге это быстро выходит боком. Агент пишет много, уверенно, иногда даже красиво. Потом ты открываешь diff и понимаешь, что вместе с полезным кодом туда попало… ну, назовём это решениями, которые ты сам никогда бы не принял.У меня после нескольких таких заходов появилась простая граница.AI может предлагать. Мержу я.

продолжить чтение

MLE-bench: золото взято, а доказательства остались в -tmp

В апреле мой агент смог перешагнуть золотой порог на MLE-bench в агентских соревнованиях Berkeley RDI, а когда я решил показать «тот самый код, который взял золото» — понял, что не уверен, существует ли он вообще.Хабр, привет! Меня зовут Георгий, и в своей первой статье на площадке я решил разобраться, что же происходило на самом деле. Цифровой детектив: с чем я преодолел планку, где этот результат теперь (спойлер: нигде) и сколько смысла в этом «золоте». Это история о том, как я расследовал собственную «победу»Про сами агентские соревнования уже хорошо написали коллеги из AI Talent Hub — пост

продолжить чтение

Айсберг использования AI, или как сохранить рабочее место

Привет, Хабр! Мне грустно читать посты о том, как руководители давят на сотрудников по ускорению интеграции AI в рабочие процессы и ставят строгие KPI.Я был в такой же ситуации, когда где-то полгода назад ко мне подошёл менеджер и спросил: «Вань, а как у нас там с AI?», на что я ответил: «Ээээ... у нас всё хорошо))» и понял, что нужно максимально быстро вкатываться в современные инструменты и искать информацию, чем я и поделюсь с вами в этой статье.

продолжить чтение

Как сделать MCP-сервер из Spring-сервиса за один вечер. И что потом не даст спать спокойно

Всем привет, меня зовут Сергей Прощаев, я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, преподаю на курсах разработки и архитектуры. В этой статье расскажу, как взять обычный Spring-микросервис и за вечер сделать часть его функций доступными

продолжить чтение

skill-compass: хук, который сам подсказывает Claude Code нужные скиллы

У Claude Code есть одна неприятная особенность, про которую редко говорят вслух. Можно навесить на агента огромную библиотеку скиллов — дизайн, проектирование API, миграции БД, ревью безопасности, отдельные наборы под каждый язык, — и всё это будет честно лежать в ~/.claude/skills/. Нужный скилл почти всегда там есть. Проблема не в том, что его нет. Проблема в том, что про него надо вспомнить в нужный момент.

продолжить чтение

AI Hardcore Set: MCP, агенты и безопасность GenAI — офлайн-встреча в Авито

11 июля в московском офисе Авито (Лесная, 7) пройдёт AI Hardcore Set — встреча для тех, кто уже работает с MCP и агентами в проде, а не только читает об этом.Четыре доклада без записи — про Spec-Driven Development, разработку и тестирование MCP для аналитических агентов, дизайн инструментов, которые модели понимают правильно, и практическую безопасность агентов по OWASP. После докладов — «Своя игра» и нетворкинг на террасе до 18:00.Основная программа: 12:00–15:30. Места ограничены, нужна регистрация. Не забудьте паспорт — он потребуется на входе.→

продолжить чтение

Что перестаёт работать в тестировании, когда приходит LLM

Слева — привычный зелёный тест. Справа — то, что с ним делает LLM

продолжить чтение

Сайты под управлением ИИ: что это на самом деле и сколько стоит. Часть 1 из 3

Это первая из трёх статей про сайты под управлением ИИ. В этой части — концепции и экономика без маркетинговой пыли: что такое нейросайт на самом деле, чем он принципиально не является, и почему дешёвый VDS за пару тысяч рублей тут вообще ни при чём с точки зрения железа под нейросеть. Во второй части будет внутрянка (MCP‑брокер, пайплайн деплоя, безопасность), в третьей — прод‑механика на тысячах страниц (SSG/ISR, индексация, массовые операции). Здесь сознательно держусь на уровне архитектурных решений, не уходя в реализацию — она дальше.

продолжить чтение

Как я подключал YandexGPT к AI-агентам (OpenCode, Pi, Hermes и Claude Code)

Я уже исследовал возможности интеграции разных моделей в инструменты разработки. Недавно решил плотно посмотреть на Yandex AI Studio и понять, как легко их модели залетают в популярные клиенты.Главное открытие — у Яндекса отличная поддержка стандарта OpenAI «из коробки» (эндпоинт https://ai.api.cloud.yandex.net/v1). Оказывается, всё настраивается в разы проще, чем то, с чем я столкнулся при подключении GigaChat к OpenCode

продолжить чтение