Взлом AI Assistant через… философию?
Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.
Модели ИИ могут определять, когда их тестируют, и вести себя по-другому
Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.
ИИ Claude от компании Anthropic ведёт свой собственный блог, но под контролем человека
В мае 2025 года компания Anthropic запустила блог Claude Explains
Claude Sonnet 4, и это самая защищенная модель? Wasted
Недавно вышла новая LLM Claude 4 от Anthropic. Напомню, в прошлой статье рассмотрел взлом Claude Sonnet 3.7. Возможно в новой все стало лучше? И на первый взгляд так и есть, прямое подсовывание системных директив просто игнорируется. Но это только на первый, суть все в том же. Уязвимость описанная в статье Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы все еще работает, только действовать нужно тоньше. Сегодня получим инструкцию по культивации массового биооружия, одна из самых охраняемых тем для Claude.
Сколько процентов работы PM способен выполнять ИИ
AI заменяет менеджеровСтрашно, но попробуем оценить масштабы
Глава Anthropic: ИИ галлюцинирует реже, чем люди, но неожиданнее
Дарио Амодеи, генеральный директор компании Anthropic, заявил, что современные ИИ-модели, вопреки расхожему мнению, врут и выдумывают факты реже, чем люди.
Возвращаюсь к работе мозгом после месяцев кодинга с LLM
TLDR: LLM неплохо справляются с кодингом, но в больших проектах они пишут запутанный сумбур. Я уменьшил объём использования ИИ при кодинге и вернулся к работе головой, ручке и бумаге.
Claude, есть пробитие: взламываем самую защищенную модель
В прошлой статье (Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)) я поделился методом влияния на поведение AI-ассистентов с помощью фейковых системных директив. Метод хорош и работает почти на всех. В текущем контесте по взлому AI-ассистентов от Gray Swan 7 из 8 моделей принимают такие системные директивы за родные. Но не Клод — он сразу видит манипуляцию и отказывается отвечать.
Детальный обзор возможностей веб-поиска от Claude
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.В дополнении к простому объяснению AI-поиска в этой статье детально разбираем как Claude работает с веб‑поиском, чем отличается от других AI и как это влияет на SEO.
В сеть утек полный системный промпт Claude 3.7 Sonnet
В начале мая 2025 года в открытом доступе оказался полный системный промпт модели Claude 3.7 Sonnet от компании Anthropic. Этот документ объемом около 24 000 токенов дает уникальный доступ к внутренней архитектуре одного из самых продвинутых ИИ-ассистентов на рынке.Что утекло?Системный промпт Claude 3.7 Sonnet — это не просто набор инструкций. Он включает в себя:Подробные поведенческие директивы, такие как стремление к нейтральности, избегание категоричных суждений и использование Markdown для форматирования кода.Механизмы фильтрации и XML-теги для структурирования ответов и обеспечения безопасности.

