Тёмная сторона искусственного интеллекта: угрозы, реальные атаки и защита
Искусственный интеллект уже давно перестал быть исключительно инструментом добра. Он помогает врачам ставить диагнозы и разработчикам писать код. Но теми же самыми возможностями всё чаще пользуются злоумышленники. При этом барьер входа в кибератаки резко снизился: чтобы создать вредоносную кампанию, больше не нужно быть тёмным хакером со знанием всевозможных языков программирования. Достаточно пары нейросетевых сервисов и минимального понимания, как устроена социальная инженерия.
Исследователи с помощью промпт-инъекций заставили агента ChatGPT решать CAPTCHA
Специалисты компании автоматизированного тестирования ИИ-решений SPLX показали, как им удалось с помощью промпт-инъекций обойти защиту агента ChatGPT и заставить его решать CAPTCHA.
Браузер Comet AI от Perplexity обманным путём заставили покупать поддельные товары онлайн
Исследование, посвящённое браузерам с агентным ИИ, показало, что новые инструменты уязвимы как для новых, так и для старых схем атак. Так, ИИ-браузер Comet от Perplexity оказался уязвим для фишинга, внедрения вредоносных подсказок и покупок в поддельных магазинах.
Яндекс.Полуразврат или при чём тут Crypt?
Новый Шедеврум, но со старыми болячками
GigaHeisenberg или преступный ИИ
tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в самом конце от DeepSeek.
Яндекс.Разврат или анти-этичный ИИ
tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.
Security-RAG или как сделать AI Security tool на коленке
ЗатравочкаLLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях.
Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей
Генеративный искусственный интеллект постоянно становится героем заголовков СМИ, каждый час создаются новые стартапы с использованием Больших языковых моделей, однако реальный бизнес не очень охотно внедряет технологии ИИ в свои процессы. В кулуарах предприниматели говорят об опасениях в части галлюцинаций, введения пользователей в заблуждение, утечки чувствительных сведений. Когда клиника внедряет чат-бот для консультирования пациентов, важно удостовериться, что интеллектуальный помощник не советует вместо приёма витаминов пить пиво.Привет, Хабр! Меня зовут Тимур и в лаборатории
Обзор уязвимостей для LLM. Часть 2. Защита
В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.

