- BrainTools - https://www.braintools.ru -

Пока индустрия спорит о «пузыре», обсуждая, почему оценка очередного стартапа с одной оберткой над GPT-5 на высоте, реальный сектор строит AI-инфраструктуру [1]. Мы движемся к сервисам, где по кнопкам в интерфейсах будут кликать не люди, а автономные агенты.
В этом дайджесте разберем подробности самых нашумевших новинок, почему CEO Databricks предрекает закат классического SaaS, как AMD догоняет NVIDIA в тестах инференса и почему безопасность агентов — это новый тoп-10 OWASP. Подробности под катом!
Али Годси, CEO и сооснователь Databricks, не так давно сделал громкое заявление [3], что ИИ вскоре обесценит саму концепцию традиционного SaaS. Примерно такие заголовки пишут популярные СМИ, и логика [4] в этом есть. Десятилетиями компании строили «рвы» вокруг своих продуктов, обучая миллионы специалистов нажимать кнопки именно в их интерфейсах, будь то Salesforce или SAP. Но если работу делает ИИ-агент, интерфейс становится «прозрачным». Нам больше не нужны специалисты под конкретные программы — нам нужны инструменты контроля и качественные данные.
Но пока Databricks показывает лишь агрессивный рост [5]:
выручка — достигла $5,4 млрд (run-rate), показав рост на 65% год к году;
AI-сектор — принес более $1,4 млрд, а retention (удержание клиентов) держится выше 140%;
новые рекорды — Их база данных Lakebase, созданная специально для агентов, за первые восемь месяцев заработала вдвое больше, чем классический Data Warehouse за тот же период в свое время.
Али Годси специально подчеркивает эти цифры, чтобы развеять миф об уничтожении SaaS: для Databricks ИИ не убивает бизнес, а лишь ускоряет потребление ресурсов платформы.
Если есть «кнопки для контроля», то продукты, которые не смогут спрятать свой UI за качественным API для агентов, могут скоро оказаться историей или взглядом в прошлое. На фоне такого взлета Databricks не спешит на IPO. Вместо этого компания привлекла $5 млрд инвестиций при оценке в $134 млрд и открыла кредитную линию еще на $2 млрд. Это огромная «подушка безопасности», которая позволяет им спокойно строить инфраструктуру, не оглядываясь на биржевой рынок и его перепады.

ML Impact — про ML и AI без хайпа
Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.
Подробнее → [6]
Показали свежую порцию сравнительных тестов GPU [7]. Главное: AMD догнала NVIDIA в простых сценариях и составляет здоровую конкуренцию, но в сложных продакшн-системах все не так однозначно, давайте смотреть нюансы.
Бенчмарк InferenceX v2 от SemiAnalysis оценивает работу чипов в реальных архитектурах, на которых сегодня крутятся все модели. Исследование фокусируется на самых свежих методах оптимизации, таких как формат FP4 и MoE, которые важны для инференса на уровне целых дата-центров.
Системы NVIDIA GB200/GB300 NVL72 показали большой отрыв от предыдущего поколения (H100 baseline). В сценариях с использованием MoE-моделей и формата FP4 производительность выросла почти в 100 раз при сохранении высокой скорости генерации (116 токенов в секунду на пользователя). С точки зрения [8] экономики новая архитектура Blackwell также эффективнее Hopper: преимущество по показателю tokens-per-dollar составляет от 10 до 65 раз.
Опубликованы первые сторонние бенчмарки AMD MI355X. В single-node или частично оптимизированных настройках MI355X выдает сопоставимую или даже лучшую производительность по соотношению производительности к стоимости владения (TCO) против аналогичных NVIDIA-систем на FP8 — особенно с SGLang и без всех трех передовых оптимизаций сразу.
Но как только активируется полный современный набор методов оптимизации (disaggregated prefill + wide expert parallelism + FP4), NVIDIA B200/B300 и GB200/GB300 NVL72 резко отрываются вперед. Софт AMD пока не тянет их одновременную работу.
За короткий срок AMD пошла вперед: производительность DeepSeek R1 в режиме FP4 на базе SGLang практически удвоилась всего за месяц (с декабря 2025 по январь 2026 года). Сейчас оптимизированный форк SGLang активно переносится в основную ветку разработки.
Однако слабым местом остается «композиция» технологий: софт AMD пока не справляется с одновременным включением всех ключевых оптимизаций. При попытке объединить FP4, раздельный инференс и wide-EP — а именно так работают ведущие провайдеры — производительность резко падает. В таких сложных связках реальные показатели MI355X оказываются значительно ниже тех цифр, которые обещали в теории.
Если смотреть на общую картину — баланс между скоростью отклика и пропускной способностью, — NVIDIA Blackwell выше AMD по энергоэффективности и стоимости генерации токенов.
InferenceX v2 показывает, что AMD быстро прогрессирует и уже борется за средний сегмент. Однако когда системы Blackwell NVL72 работают со всеми включенными SOTA-оптимизациями, AMD пока не конкурент.
AMD нужно срочно дорабатывать совместимость софта (FP4 + distributed + wide-EP). Пока потенциал железа заблокирован программными ограничениями, NVIDIA сохраняет значительный отрыв в производительности и стоимости для передовых внедрений.
В конце прошлого года Axenix представили масштабный доклад [11]. Он был полностью посвящен аспектам использования ИИ-агентов в российском бизнесе. Сейчас многие компании переходят от простых чат-ботов к внедрению ИИ-систем, поэтому глубокая аналитика по окупаемости пришлась как нельзя кстати.
Затраты на внедрение за три года сильно зависят от масштаба. Если малый бизнес может уложиться в 5–15 млн ₽, то для крупных корпораций чек стартует от 950 млн ₽. Крупный бизнес в среднем тратит 200–300 млн ₽.
Внедрение агентов в бизнес-процессы может высвободить до 30–40% рабочего времени сотрудников в таких функциях, как закупки, логистика и клиентская поддержка.
Основной профит достигается не за счет экономии на ФОТ, а через сокращение операционного цикла (time-to-market) и минимизацию ошибок в цепочках поставок, где агент может самостоятельно пересчитывать маршруты или объемы заказов.
Но здесь есть свой контекст и барьеры. Российский рынок ИИ-агентов сейчас составляет около 1,5% от мирового (для сравнения: доля США — почти 30%, Китая — 8%). Основной драйвер роста — Data-driven компании, которые уже сейчас увеличивают инвестиции в это направление на 15–30%. Однако 60% компаний пока тормозят внедрение из-за нехватки качественных данных и высоких затрат на инференс.
Лидерами по внедрению становятся ритейл и финтех, где агенты уже начинают выполнять роль «умных прослоек» между разрозненными ИТ-системами, автоматизируя бизнес-процессы.
Команда Arize [12] адаптировала новый стандарт безопасности OWASP Agentic Security Initiative (ASI) под конкретные фичи observability: tracing, оценки и мониторинг.
Речь идет о защите не просто LLM, а автономных систем, которые сами вызывают инструменты и принимают решения. Главная задача здесь — закрыть риски на всех этапах работы агента, от фильтрации входящих промтов до контроля за генерацией кода и доступом к API.
Центральные угрозы — захват целей через инъекции (ASI01— Agent Goal Hijack) и злоупотребление правами инструментов (ASI02 — Tool Misuse). Чтобы агент не превратился в инструмент атаки, Arize предлагает трейсинг каждого шага в связке с тестами на джейлбрейки и валидацией контекста.
Ситуация усложняется в мультиагентных средах (ASI03 — Identity & Privilege Abuse), где возникают риски кражи личности и передачи учетных данных. Здесь важно логировать параметры вызовов и отслеживать траекторию агента, чтобы вовремя заметить аномальные циклы или несанкционированные действия.
Отдельное внимание [13] уделено безопасности динамически загружаемых компонентов: плагинов, серверов MCP, моделей (ASI04 — Agentic Supply Chain Vulnerabilities) — и рискам удаленного выполнения кода (ASI05 — Unexpected Code Execution / RCE). Требуется верификация манифестов в рантайме и блокировка выполнения команд вне защищенной «песочницы».
Чтобы избежать «отравления» памяти [14] в RAG-системах (ASI06 — Memory & Context Poisoning) или подмены сообщений между агентами (ASI07 — Insecure Inter-Agent Communication), необходим постоянный контроль релевантности контекста и визуализация графов коммуникации. Кроме того, Arize подчеркивает важность семантического анализа PII в межагентских диалогах, чтобы предотвратить случайную передачу чувствительных данных.
Для предотвращения каскадных сбоев всей цепочки (ASI08 — Cascading Failures) анализируются графы исполнения на предмет выявления закономерностей, связывающих сбои на вышестоящих этапах с проблемами на нижестоящих. Защита от манипуляций доверием (ASI09 — Agent Trust Exploitation) и появления «агентов-изгоев» (ASI10 — Rogue Agents) строится на мониторинге поведенческого дрейфа (behavioral drift) и попыток агента самовольно расширить область своих полномочий.
Для вывода систем в продакшен предлагается чек-лист: обязательный трейсинг всех вызовов API, настройка базовых мониторов аномалий и внедрение кастомных метрик по всем десяти категориям рисков ASI.
Проект Volcano под эгидой CNCF представил Kthena [15] — оркестратор инференса LLM, разработанный специально для Kubernetes. Система не пытается заменить популярные движки вроде vLLM, SGLang или Triton, а выступает в роли прослойки и в качестве управления над ними.
Основная цель Kthena — решить четыре критические боли [16] продакшена:
низкую утилизацию GPU из-за неэффективного управления KV-кэшем;
проблему баланса между стадиями Prefill и Decode;
хаос в управлении множеством моделей;
отсутствие нативной интеграции с примитивами Kubernetes.
Технологический стек Kthena опирается на несколько инноваций. Механизм ModelBooster позволяет разворачивать популярные модели в один клик, а интеллектуальная маршрутизация учитывает состояние префиксного кэша и специфику LoRA-адаптеров. При этом для разработчика ничего не меняется — интерфейс остается привычным и совместимым с OpenAI API.
Для оптимизации затрат реализован Cost-Driven Autoscaling. Он анализирует реальные бизнес-показатели и стоимость ресурсов, масштабируя систему так, чтобы вы не платили за простаивающее «железо». Данные внутри кластера путешествуют по кратчайшему пути за счет Topology Awareness (минимизация задержек через affinity) и Flow Control, который не дает забить весь канал и замедлить работу остальных — ресурсы распределяются честно, вплоть до каждого токена.
Результаты бенчмарков при работе с длинными промптами (4 096 токенов) показали, что пропускная способность систем под управлением Kthena возрастает в 2,73 раза по сравнению со стандартным планировщиком. А время до генерации первого токена (TTFT) сокращается на 73,5%. Общая задержка (E2E latency) падает более чем на 60%.
Проект уже получил поддержку со стороны крупных игроков, включая Huawei Cloud, China Telecom и Xiaohongshu, что подтверждает его готовность к эксплуатации в масштабных облачных инфраструктурах.
После детального разбора GPU-бенчмарков, тонкостей ИИ и масштабирования инференса — самое время сделать шаг назад и поговорить о человеческом факторе.
Задумывались ли вы, как все эти технологии меняют наши когнитивные способности? Существует популярное опасение: не станут ли LLM «интеллектуальным костылем», из-за которого мы (и особенно подрастающее поколение) разучимся думать самостоятельно.
Эту тему в свежем выпуске «Сегодня на ретро» [17] препарировали люди, которые видят проблему с разных сторон: профессор СПбГУ, преподаватель ИТМО (руководитель DS) и MLOps-инженер, работающий напрямую с ИИ.
Главный инсайт дискуссии: нынешняя тревога вокруг нейросетей — это классическое дежавю. Когда-то такие же приговоры грозили телевидению, калькуляторам и поисковикам. Если человек не хочет думать, то его ничего не спасет, а если хочет, то LLM ему только помогут. Дело в мотивации [18] или нет, а что думаете вы? Пишите в комментариях.
Автор: techno_mot
Источник [19]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26316
URLs in this post:
[1] AI-инфраструктуру: https://selectel.ru/solutions/ml-infra-consulting/?utm_source=habr.com&utm_medium=referral&utm_campaign=ml-infra-consulting_article_digestml_270226_content
[2] Источник: https://ru.linkedin.com/pulse/create-databricks-clusters-naeem-akhtar-mvhbf?tl=ru
[3] заявление: https://techcrunch.com/2026/02/09/databricks-ceo-says-saas-isnt-dead-but-ai-will-soon-make-it-irrelevant/
[4] логика: http://www.braintools.ru/article/7640
[5] агрессивный рост: https://www.databricks.com/company/newsroom/press-releases/databricks-grows-65-yoy-surpasses-5-4-billion-revenue-run-rate
[6] Подробнее →: https://promo.selectel.ru/mlimpact/?utm_source=habr.com&utm_medium=referral&utm_campaign=ml_article_digestml_270226_banner_i099_ord
[7] сравнительных тестов GPU: https://newsletter.semianalysis.com/p/inferencex-v2-nvidia-blackwell-vs
[8] зрения: http://www.braintools.ru/article/6238
[9] Источник: https://inferencex.semianalysis.com/?i_seq=8k%2F1k&g_model=DeepSeek-R1-0528&g_rundate=2026-02-12&g_runid=21928999802&i_metric=y_outputTputPerGpu#inference
[10] Источник: https://inferencex.semianalysis.com/?g_model=DeepSeek-R1-0528&g_rundate=2026-02-02&g_runid=21577661184&i_seq=8k%2F1k&i_prec=fp4%2Cfp8&i_gpus=mi355x_sglang&i_dstart=2025-12-14&i_dend=2026-01-29&i_hc=1#inference
[11] представили масштабный доклад: https://axenix.pro/wp-content/uploads/2025/11/ii-agenty_digital.pdf
[12] Команда Arize: https://arize.com/blog/owasp-top-10-for-agentic-applications-compliance-guide/
[13] внимание: http://www.braintools.ru/article/7595
[14] памяти: http://www.braintools.ru/article/4140
[15] представил Kthena: https://www.cncf.io/blog/2026/01/28/introducing-kthena-llm-inference-for-the-cloud-native-era/
[16] боли: http://www.braintools.ru/article/9901
[17] в свежем выпуске «Сегодня на ретро»: https://www.youtube.com/watch?v=vsKZY_Sz4tM
[18] мотивации: http://www.braintools.ru/article/9537
[19] Источник: https://habr.com/ru/companies/selectel/articles/1004450/?utm_campaign=1004450&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.