ML-дайджест: автономные агенты, новый стандарт безопасности и инференс-гонка

Пока индустрия спорит о «пузыре», обсуждая, почему оценка очередного стартапа с одной оберткой над GPT-5 на высоте, реальный сектор строит AI-инфраструктуру ^[1]. Мы движемся к сервисам, где по кнопкам в интерфейсах будут кликать не люди, а автономные агенты.

В этом дайджесте разберем подробности самых нашумевших новинок, почему CEO Databricks предрекает закат классического SaaS, как AMD догоняет NVIDIA в тестах инференса и почему безопасность агентов — это новый тoп-10 OWASP. Подробности под катом!

Databricks: эпоха невидимого софта, SaaS под вопросом

Али Годси, CEO и сооснователь Databricks, не так давно сделал громкое заявление ^[3], что ИИ вскоре обесценит саму концепцию традиционного SaaS. Примерно такие заголовки пишут популярные СМИ, и логика ^[4] в этом есть. Десятилетиями компании строили «рвы» вокруг своих продуктов, обучая миллионы специалистов нажимать кнопки именно в их интерфейсах, будь то Salesforce или SAP. Но если работу делает ИИ-агент, интерфейс становится «прозрачным». Нам больше не нужны специалисты под конкретные программы — нам нужны инструменты контроля и качественные данные.

Но пока Databricks показывает лишь агрессивный рост ^[5]:

выручка — достигла $5,4 млрд (run-rate), показав рост на 65% год к году;
AI-сектор — принес более $1,4 млрд, а retention (удержание клиентов) держится выше 140%;
новые рекорды — Их база данных Lakebase, созданная специально для агентов, за первые восемь месяцев заработала вдвое больше, чем классический Data Warehouse за тот же период в свое время.

Али Годси специально подчеркивает эти цифры, чтобы развеять миф об уничтожении SaaS: для Databricks ИИ не убивает бизнес, а лишь ускоряет потребление ресурсов платформы.

Если есть «кнопки для контроля», то продукты, которые не смогут спрятать свой UI за качественным API для агентов, могут скоро оказаться историей или взглядом в прошлое. На фоне такого взлета Databricks не спешит на IPO. Вместо этого компания привлекла $5 млрд инвестиций при оценке в $134 млрд и открыла кредитную линию еще на $2 млрд. Это огромная «подушка безопасности», которая позволяет им спокойно строить инфраструктуру, не оглядываясь на биржевой рынок и его перепады.

ML-дайджест: автономные агенты, новый стандарт безопасности и инференс-гонка - 3

ML Impact — про ML и AI без хайпа

Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.

Подробнее → ^[6]

InferenceX v2: NVIDIA Blackwell лидирует над AMD в SOTA-режимах

Показали свежую порцию сравнительных тестов GPU ^[7]. Главное: AMD догнала NVIDIA в простых сценариях и составляет здоровую конкуренцию, но в сложных продакшн-системах все не так однозначно, давайте смотреть нюансы.

Rack-scale NVL72 против multi-node AMD

Бенчмарк InferenceX v2 от SemiAnalysis оценивает работу чипов в реальных архитектурах, на которых сегодня крутятся все модели. Исследование фокусируется на самых свежих методах оптимизации, таких как формат FP4 и MoE, которые важны для инференса на уровне целых дата-центров.

Системы NVIDIA GB200/GB300 NVL72 показали большой отрыв от предыдущего поколения (H100 baseline). В сценариях с использованием MoE-моделей и формата FP4 производительность выросла почти в 100 раз при сохранении высокой скорости генерации (116 токенов в секунду на пользователя). С точки зрения ^[8] экономики новая архитектура Blackwell также эффективнее Hopper: преимущество по показателю tokens-per-dollar составляет от 10 до 65 раз.

Опубликованы первые сторонние бенчмарки AMD MI355X. В single-node или частично оптимизированных настройках MI355X выдает сопоставимую или даже лучшую производительность по соотношению производительности к стоимости владения (TCO) против аналогичных NVIDIA-систем на FP8 — особенно с SGLang и без всех трех передовых оптимизаций сразу.

Но как только активируется полный современный набор методов оптимизации (disaggregated prefill + wide expert parallelism + FP4), NVIDIA B200/B300 и GB200/GB300 NVL72 резко отрываются вперед. Софт AMD пока не тянет их одновременную работу.

Программное обеспечение и его компановка

За короткий срок AMD пошла вперед: производительность DeepSeek R1 в режиме FP4 на базе SGLang практически удвоилась всего за месяц (с декабря 2025 по январь 2026 года). Сейчас оптимизированный форк SGLang активно переносится в основную ветку разработки.

Однако слабым местом остается «композиция» технологий: софт AMD пока не справляется с одновременным включением всех ключевых оптимизаций. При попытке объединить FP4, раздельный инференс и wide-EP — а именно так работают ведущие провайдеры — производительность резко падает. В таких сложных связках реальные показатели MI355X оказываются значительно ниже тех цифр, которые обещали в теории.

Если смотреть на общую картину — баланс между скоростью отклика и пропускной способностью, — NVIDIA Blackwell выше AMD по энергоэффективности и стоимости генерации токенов.

Мини-итог

InferenceX v2 показывает, что AMD быстро прогрессирует и уже борется за средний сегмент. Однако когда системы Blackwell NVL72 работают со всеми включенными SOTA-оптимизациями, AMD пока не конкурент.

AMD нужно срочно дорабатывать совместимость софта (FP4 + distributed + wide-EP). Пока потенциал железа заблокирован программными ограничениями, NVIDIA сохраняет значительный отрыв в производительности и стоимости для передовых внедрений.

ИИ-агенты в действии: экономика, риски и эволюция организационных моделей

В конце прошлого года Axenix представили масштабный доклад ^[11]. Он был полностью посвящен аспектам использования ИИ-агентов в российском бизнесе. Сейчас многие компании переходят от простых чат-ботов к внедрению ИИ-систем, поэтому глубокая аналитика по окупаемости пришлась как нельзя кстати.

Затраты на внедрение за три года сильно зависят от масштаба. Если малый бизнес может уложиться в 5–15 млн ₽, то для крупных корпораций чек стартует от 950 млн ₽. Крупный бизнес в среднем тратит 200–300 млн ₽.

Внедрение агентов в бизнес-процессы может высвободить до 30–40% рабочего времени сотрудников в таких функциях, как закупки, логистика и клиентская поддержка.

Основной профит достигается не за счет экономии на ФОТ, а через сокращение операционного цикла (time-to-market) и минимизацию ошибок в цепочках поставок, где агент может самостоятельно пересчитывать маршруты или объемы заказов.

Доли рынка (фактический объем продаж) ИИ-агентов по регионам и странам. Источник. — *Доли рынка (фактический объем продаж) ИИ-агентов по регионам и странам.* *Источник* ^[11].

Но здесь есть свой контекст и барьеры. Российский рынок ИИ-агентов сейчас составляет около 1,5% от мирового (для сравнения: доля США — почти 30%, Китая — 8%). Основной драйвер роста — Data-driven компании, которые уже сейчас увеличивают инвестиции в это направление на 15–30%. Однако 60% компаний пока тормозят внедрение из-за нехватки качественных данных и высоких затрат на инференс.

Тепловая карта зрелости ИИ-агентов. Источник. — *Тепловая карта зрелости ИИ-агентов.* *Источник* ^[11].

Лидерами по внедрению становятся ритейл и финтех, где агенты уже начинают выполнять роль «умных прослоек» между разрозненными ИТ-системами, автоматизируя бизнес-процессы.

OWASP Top 10: гайд Arize по комплаенсу

Команда Arize ^[12] адаптировала новый стандарт безопасности OWASP Agentic Security Initiative (ASI) под конкретные фичи observability: tracing, оценки и мониторинг.

Речь идет о защите не просто LLM, а автономных систем, которые сами вызывают инструменты и принимают решения. Главная задача здесь — закрыть риски на всех этапах работы агента, от фильтрации входящих промтов до контроля за генерацией кода и доступом к API.

ASI01–ASI03: Контроль целей, инструментов и доступов

Центральные угрозы — захват целей через инъекции (ASI01— Agent Goal Hijack) и злоупотребление правами инструментов (ASI02 — Tool Misuse). Чтобы агент не превратился в инструмент атаки, Arize предлагает трейсинг каждого шага в связке с тестами на джейлбрейки и валидацией контекста.

Ситуация усложняется в мультиагентных средах (ASI03 — Identity & Privilege Abuse), где возникают риски кражи личности и передачи учетных данных. Здесь важно логировать параметры вызовов и отслеживать траекторию агента, чтобы вовремя заметить аномальные циклы или несанкционированные действия.

ASI04–ASI07: Цепочки поставок, код и коммуникации

Отдельное внимание ^[13] уделено безопасности динамически загружаемых компонентов: плагинов, серверов MCP, моделей (ASI04 — Agentic Supply Chain Vulnerabilities) — и рискам удаленного выполнения кода (ASI05 — Unexpected Code Execution / RCE). Требуется верификация манифестов в рантайме и блокировка выполнения команд вне защищенной «песочницы».

Чтобы избежать «отравления» памяти ^[14] в RAG-системах (ASI06 — Memory & Context Poisoning) или подмены сообщений между агентами (ASI07 — Insecure Inter-Agent Communication), необходим постоянный контроль релевантности контекста и визуализация графов коммуникации. Кроме того, Arize подчеркивает важность семантического анализа PII в межагентских диалогах, чтобы предотвратить случайную передачу чувствительных данных.

ASI08–ASI10: Сбои, манипуляции и «агенты-изгои»

Для предотвращения каскадных сбоев всей цепочки (ASI08 — Cascading Failures) анализируются графы исполнения на предмет выявления закономерностей, связывающих сбои на вышестоящих этапах с проблемами на нижестоящих. Защита от манипуляций доверием (ASI09 — Agent Trust Exploitation) и появления «агентов-изгоев» (ASI10 — Rogue Agents) строится на мониторинге поведенческого дрейфа (behavioral drift) и попыток агента самовольно расширить область своих полномочий.

Для вывода систем в продакшен предлагается чек-лист: обязательный трейсинг всех вызовов API, настройка базовых мониторов аномалий и внедрение кастомных метрик по всем десяти категориям рисков ASI.

Kthena: LLM-инференс для Cloud Native

Проект Volcano под эгидой CNCF представил Kthena ^[15] — оркестратор инференса LLM, разработанный специально для Kubernetes. Система не пытается заменить популярные движки вроде vLLM, SGLang или Triton, а выступает в роли прослойки и в качестве управления над ними.

Основная цель Kthena — решить четыре критические боли ^[16] продакшена:

низкую утилизацию GPU из-за неэффективного управления KV-кэшем;
проблему баланса между стадиями Prefill и Decode;
хаос в управлении множеством моделей;
отсутствие нативной интеграции с примитивами Kubernetes.

Технологический стек Kthena опирается на несколько инноваций. Механизм ModelBooster позволяет разворачивать популярные модели в один клик, а интеллектуальная маршрутизация учитывает состояние префиксного кэша и специфику LoRA-адаптеров. При этом для разработчика ничего не меняется — интерфейс остается привычным и совместимым с OpenAI API.

Для оптимизации затрат реализован Cost-Driven Autoscaling. Он анализирует реальные бизнес-показатели и стоимость ресурсов, масштабируя систему так, чтобы вы не платили за простаивающее «железо». Данные внутри кластера путешествуют по кратчайшему пути за счет Topology Awareness (минимизация задержек через affinity) и Flow Control, который не дает забить весь канал и замедлить работу остальных — ресурсы распределяются честно, вплоть до каждого токена.

Результаты бенчмарков при работе с длинными промптами (4 096 токенов) показали, что пропускная способность систем под управлением Kthena возрастает в 2,73 раза по сравнению со стандартным планировщиком. А время до генерации первого токена (TTFT) сокращается на 73,5%. Общая задержка (E2E latency) падает более чем на 60%.

Проект уже получил поддержку со стороны крупных игроков, включая Huawei Cloud, China Telecom и Xiaohongshu, что подтверждает его готовность к эксплуатации в масштабных облачных инфраструктурах.

ИИ — враг образования?

После детального разбора GPU-бенчмарков, тонкостей ИИ и масштабирования инференса — самое время сделать шаг назад и поговорить о человеческом факторе.

Задумывались ли вы, как все эти технологии меняют наши когнитивные способности? Существует популярное опасение: не станут ли LLM «интеллектуальным костылем», из-за которого мы (и особенно подрастающее поколение) разучимся думать самостоятельно.

Эту тему в свежем выпуске «Сегодня на ретро» ^[17] препарировали люди, которые видят проблему с разных сторон: профессор СПбГУ, преподаватель ИТМО (руководитель DS) и MLOps-инженер, работающий напрямую с ИИ.

Главный инсайт дискуссии: нынешняя тревога вокруг нейросетей — это классическое дежавю. Когда-то такие же приговоры грозили телевидению, калькуляторам и поисковикам. Если человек не хочет думать, то его ничего не спасет, а если хочет, то LLM ему только помогут. Дело в мотивации ^[18] или нет, а что думаете вы? Пишите в комментариях.

Автор: techno_mot

Источник ^[19]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26316

URLs in this post:

[1] AI-инфраструктуру: https://selectel.ru/solutions/ml-infra-consulting/?utm_source=habr.com&utm_medium=referral&utm_campaign=ml-infra-consulting_article_digestml_270226_content

[2] Источник: https://ru.linkedin.com/pulse/create-databricks-clusters-naeem-akhtar-mvhbf?tl=ru

[3] заявление: https://techcrunch.com/2026/02/09/databricks-ceo-says-saas-isnt-dead-but-ai-will-soon-make-it-irrelevant/

[4] логика: http://www.braintools.ru/article/7640

[5] агрессивный рост: https://www.databricks.com/company/newsroom/press-releases/databricks-grows-65-yoy-surpasses-5-4-billion-revenue-run-rate

[6] Подробнее →: https://promo.selectel.ru/mlimpact/?utm_source=habr.com&utm_medium=referral&utm_campaign=ml_article_digestml_270226_banner_i099_ord

[7] сравнительных тестов GPU: https://newsletter.semianalysis.com/p/inferencex-v2-nvidia-blackwell-vs

[8] зрения: http://www.braintools.ru/article/6238

[9] Источник: https://inferencex.semianalysis.com/?i_seq=8k%2F1k&g_model=DeepSeek-R1-0528&g_rundate=2026-02-12&g_runid=21928999802&i_metric=y_outputTputPerGpu#inference

[10] Источник: https://inferencex.semianalysis.com/?g_model=DeepSeek-R1-0528&g_rundate=2026-02-02&g_runid=21577661184&i_seq=8k%2F1k&i_prec=fp4%2Cfp8&i_gpus=mi355x_sglang&i_dstart=2025-12-14&i_dend=2026-01-29&i_hc=1#inference

[11] представили масштабный доклад: https://axenix.pro/wp-content/uploads/2025/11/ii-agenty_digital.pdf

[12] Команда Arize: https://arize.com/blog/owasp-top-10-for-agentic-applications-compliance-guide/

[13] внимание: http://www.braintools.ru/article/7595

[14] памяти: http://www.braintools.ru/article/4140

[15] представил Kthena: https://www.cncf.io/blog/2026/01/28/introducing-kthena-llm-inference-for-the-cloud-native-era/

[16] боли: http://www.braintools.ru/article/9901

[17] в свежем выпуске «Сегодня на ретро»: https://www.youtube.com/watch?v=vsKZY_Sz4tM

[18] мотивации: http://www.braintools.ru/article/9537

[19] Источник: https://habr.com/ru/companies/selectel/articles/1004450/?utm_campaign=1004450&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.