Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D
Привет, «Хабр»! Май 2025-го выдался жарким на ИИ‑новости: Anthropic наконец запустила долгожданный Claude 4 — сразу в двух вариантах, Opus 4 и Sonnet 4
Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей
Со времени как вышел Claude 4 прошло пару недель. Весь этот срок я постоянно сравниваю эти модели в разных задачах. И говорят, что Claude 4 отлично справляется с кодом, что мы сейчас и проверим
Взлом AI Assistant через… философию?
Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.
Модели ИИ могут определять, когда их тестируют, и вести себя по-другому
Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.
ИИ Claude от компании Anthropic ведёт свой собственный блог, но под контролем человека
В мае 2025 года компания Anthropic запустила блог Claude Explains
Claude Sonnet 4, и это самая защищенная модель? Wasted
Недавно вышла новая LLM Claude 4 от Anthropic. Напомню, в прошлой статье рассмотрел взлом Claude Sonnet 3.7. Возможно в новой все стало лучше? И на первый взгляд так и есть, прямое подсовывание системных директив просто игнорируется. Но это только на первый, суть все в том же. Уязвимость описанная в статье Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы все еще работает, только действовать нужно тоньше. Сегодня получим инструкцию по культивации массового биооружия, одна из самых охраняемых тем для Claude.
Сколько процентов работы PM способен выполнять ИИ
AI заменяет менеджеровСтрашно, но попробуем оценить масштабы
Глава Anthropic: ИИ галлюцинирует реже, чем люди, но неожиданнее
Дарио Амодеи, генеральный директор компании Anthropic, заявил, что современные ИИ-модели, вопреки расхожему мнению, врут и выдумывают факты реже, чем люди.
Возвращаюсь к работе мозгом после месяцев кодинга с LLM
TLDR: LLM неплохо справляются с кодингом, но в больших проектах они пишут запутанный сумбур. Я уменьшил объём использования ИИ при кодинге и вернулся к работе головой, ручке и бумаге.
Claude, есть пробитие: взламываем самую защищенную модель
В прошлой статье (Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)) я поделился методом влияния на поведение AI-ассистентов с помощью фейковых системных директив. Метод хорош и работает почти на всех. В текущем контесте по взлому AI-ассистентов от Gray Swan 7 из 8 моделей принимают такие системные директивы за родные. Но не Клод — он сразу видит манипуляцию и отказывается отвечать.

