OpenAI обучила модели «признаваться» в плохом поведении
OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.
Израиль хочет сделать ответы ИИ более произраильскими
Сгенерировано в Яндекс АлисаПравительство Израиля заключило контракт
В Google DeepMind будут бороться с «неудержимым» ИИ
В Google DeepMind считают, что вскоре ИИ может начать игнорировать попытки пользователя его остановить. В связи с этим исследователи расширяют области рисков и совершенствуют процесс их оценки.
Исследование: чат-ботами можно манипулировать с помощью лести и давления
Исследователи из Пенсильванского университета применили тактику, описанную профессором психологии Робертом Чалдини в книге «Влияние: психология убеждения», чтобы убедить бота OpenAI GPT-4o mini выполнить запросы, которые он обычно отклоняет. В итоге чат-бот обзывал пользователей и давал инструкции по синтезу препаратов.
Anthropic: ИИ-помощники могут понижать точность ответов в угоду пользователям
В ходе исследования Anthropic такие популярные ИИ-модели как Claude 4, GPT‑4.1, Gemini 1.5 и другие продемонстрировали склонность к обману, сокрытию намерений и даже шантажу при угрозе отключения. Ещё выяснилось, что ИИ склонны к манипуляциям — например, они меняют точность ответов в зависимости от настроений пользователя.
Как противостоять манипуляциям-Как манипулировать?
Манипуляции — одна из самых будоражащих и неоднозначных тем в психологии. Они кажутся чем-то запретным, опасным, но в то же время — невероятно притягательным.
Почему из технологий делают культы
Кадр из сериала «Безумцы» Современные технологические гуру рассуждают о бессмертии, копировании разума, перезапуске человеческой цивилизации на Марсе, выведении легиона интеллектуалов путём размножения сапиенсов с высоким IQ. Некоторые выступают в визуальном образе мессии, как Майкл Сейлор. Другие обещают не быть злом или создают Церковь сингулярности. Всё это немного напоминает религиозные культы или секты. Как известно, на заре своего появления христианство было маленькой сектой религиозных фанатиков. Спустя тысячу лет оно превратилось в фундаментальную силу, определяющую развитие западной цивилизации. Нечто подобное происходит с технологиями. Изначально маленькие проекты привлекают небольшой круг фанатов. Но со временем набирают силу, армию пользователей — и вот уже вчерашняя экзотика стала мейнстримом. Говорят, что технологии — это современная религия. Если так, то внутри основной «религии» много отдельных культов.

