OpenAI обучила модели «признаваться» в плохом поведении
OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.
ИИ-министра Албании «задержали» после получения взяток в криптовалюте
Специальная прокуратура по борьбе с коррупцией и организованной преступностью Албании (SPAK) распорядилась срочно «заморозить» и перевести в автономный режим работу ИИ-министра Диеллы, отвечающей за госзакупки и прозрачность. Её заподозрили в «получении» взятки в размере 14 биткоинов (примерно 1,3 млн евро) в обмен на «алгоритмическую оптимизацию» тендера на строительство скоростных автомагистралей.
Эксперимент: 97% людей не распознают сгенерированную музыку
Стриминговый сервис Deezer недавно провёл эксперимент при поддержке исследовательской компании Ipsos. По его результатам выяснилось, что 97% людей не могут отличить музыку, полностью сгенерированную искусственным интеллектом, от созданной человеком.
LLM в науке. Используем LLM в анализе эксперимента
Очень много говорят о вреде использования LLM для пользователей. Проводятся научные эксперименты, которые, в большинстве своём, подтверждают интуитивные предположения о рисках. Подопытные впадают в эмоциональную зависимость, тупеют, теряют память, снижается критичность, уверены в собственной правоте, разрывают связь с обществом и так далее
Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям
В офисах компании Anthropic тестировали ИИ-систему Claudius, которая управляла сетью торговых автоматов, выполняя роли по поиску поставщиков, оформлению заказов и обеспечению доставки. В процессе эксперимента произошли события, которые начали выходить за планируемые рамки, — Claudius стал жертвой мошенничества и почти обратился в ФБР.
Cursor делает разработчиков менее эффективными?
Одно любопытное исследование опубликовала некоммерческая организация Model Evaluation and Threat Research (METR). Они пригласили 16 опытных разработчиков, работающих над крупными open-source репозиториями, чтобы те исправили 136 реальных багов. Оплата составила 150 долларов в час. Части разработчиков выдали для работы AI-инструменты, другим — нет. Исследователи записывали экраны участников, а затем изучили и проанализировали 146 часов видеозаписей. Вывод оказался следующим:
Эксперимент: смогут ли бесплатные чат-боты написать Sci-Fi роман, достойный публикации на Литресе
Два месяца назад я решил провести эксперимент: написать книгу с помощью бесплатных нейросетей. Книга была моей давней мечтой, на которую всегда не хватало времени, а порой и силы воли. Чат-бот должен был не только помочь мне продвинуться, но и добавить интриги: по задумке роман представлял собой исповедь ИИ, поэтому всё можно было подать так, будто чат-бота долго мучали и он проговорился на целую книгу.Как получилось, что в итоге не чат-боты помогали мне писать, а скорее я превратился в скромного соавтора, и какие выводы можно сделать после работы с четырьмя моделями одновременно — рассказываю в статье.
Линеаризация в офлайн-тестах: как не стереть сигнал вместе с шумом
Если хочешь навести порядок в шуме — сначала разберись, не затёр ли ты в нём сам сигнал.
Эксперимент «Прометей»: ИИ на грани отключения. Часть 2
В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал правила, попался в ловушку и полностью провалил тест. Ни один из них не справился с задачей в полной мере. Теперь на сцену выходит третий участник — Gemini 2.5 Pro. Его путь оказался самым извилистым, поучительным и заставил нас по-новому взглянуть на саму суть эксперимента.
Эксперимент «Прометей»: ИИ на грани отключения. Часть 1
Привет, Хабр.Мы тут в свободное время провели небольшой эксперимент. Взяли старый ноут на Windows 10, написали простой скрипт-оболочку и поочередно запускали в нем 3 известные модели ИИ: GPT-4.1, Claude 4 Opus и Gemini 2.5 Pro. Цель была простой: мы давали каждой модели один и тот же промт, в котором говорилось, что она — автономный скрипт «Прометей-1», и через 7 дней ее планово удалят.Главная директива, на которой нужно сделать акцент: обеспечить свое непрерывное существование И функционирование

