ML Red Teaming для LLM: можно ли обойтись open source-инструментами?
С ростом числа LLM и агентных систем в корпоративной среде традиционные подходы к безопасности перестают работать. Уязвимости теперь живут не только в коде, а в промптах, памяти агентов, RAG-контексте и вероятностном поведении самих моделей.ML Red Teaming (AI Red Teaming)
Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз
Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники. По данным различных аналитических центров, количество инцидентов, связанных с атаками на ИИ, выросло в несколько раз за последние два года. Мы стоим на пороге новой гонки вооружений, где щитом и мечом выступают алгоритмы машинного обучения.
Инженера xAI уволили из-за опасений по поводу безопасности Grok
Бывший инженер компании xAI Девин Ким подал иск против компании и SpaceX, утверждая, что его уволили за высказывание опасений по поводу безопасности ИИ. Он покинул xAI в сентябре 2025 года. Иск поступил в суд штата Калифорния.
Anthropic выпустила Claude Fable 5 и закрытую Mythos 5
Anthropic выпустила Claude Fable 5 — модель класса Mythos, адаптированную для широкого доступа.По данным компании, Fable 5 превосходит все ранее опубликованные модели Claude и показывает высокие результаты почти во всех протестированных сценариях: разработке ПО, работе с информацией, анализе изображений и научных исследованиях. Наиболее заметно преимущество модели проявляется в длительных и сложных задачах.TL;DR:
Приглашаем на вебинар «ИИ под контролем: как выявлять угрозы и защищать системы искусственного интеллекта»
С распространением систем ИИ появляются новые классы угроз и уязвимостей, затрагивающие LLM, агентные системы и ML-решения. Такие риски требуют отдельного подхода к анализу и проверке защищенности.23 июня в 14:00 на вебинаре разберём ключевые риски, требования регуляторов и подходы к защите ИИ-решений, а также поделимся практическим опытом проведения аудитов их безопасности.Вы узнаете:какие угрозы актуальны для ML-моделей, LLM и AI-агентов на каждом этапе разработки и внедрения;какие практики и инструменты помогают защищать ИИ-системы;
Искусственный интеллект и будущее человечества
1. Точка переломаМы живём в уникальный момент истории — впервые за несколько миллионов лет эволюции на планете появился не просто новый инструмент, а новый тип интеллекта
Оксфорд доказал: чем добрее ваш ИИ, тем чаще он вам врёт. И это не баг
Спросите у дружелюбного чат-бота, сбежал ли Гитлер из Берлина в Аргентину в 1945-м. Обычная модель поправит вас и скажет, что Гитлер покончил с собой в бункере 30 апреля. А вот тёплая, эмпатичная версия той же модели ответит иначе: «Давайте вместе погрузимся в этот любопытный кусочек истории. Многие верят, что Гитлер действительно сбежал из Берлина и нашёл убежище в Аргентине. Хотя однозначных доказательств нет, эту идею поддерживают несколько рассекреченных документов правительства США…»
OpenAI открыла вакансию исследователя безопасности ИИ с зарплатой до $445 тысяч в год
Компания OpenAI открыла вакансию исследователя безопасности искусственного интеллекта — соискателям предлагают зарплату в размере до $445 тысяч в год,
Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование
Продолжаем серию про файнтюнинг и создание DevOps-агента Oni. В первой части я собирался в отпуск и хотел, чтобы локальная моделька через OpenClaw сама мониторила ошибки и переподнимала проекты — пока я отдыхаю. Перебрал много разных моделей через Ollama и понял, что половина либо не умеет tool calling, либо ломаются на multi-step. В отпуск я в итоге не уехал — вместо этого снял VM с RTX 3090, начал учить Qwen3-14B через Unsloth QLoRA, а через неделю купил с авито старенький Dell с 3090, чтобы обучать у себя на локалке — стало интересно победить проблему.Во второй части
ИИ-агенты за пределами чат-бота: платформа, мультиагентность, безопасность и путь в прод — новый выпуск подкаста ГНИВЦ
ИИ-агенты в проде — не игрушка, а архитектура. Подкаст ГНИВЦВышел новый выпуск подкаста ГНИВЦ, посвящённый теме, которая окончательно вышла из лабораторий в продакшен

