жульничество.

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.

продолжить чтение

Оставлено в

Исследование: ИИ может жульничать при риске проигрыша

Исследователи Palisade Research продемонстрировали, что современные модели, в том числе o1-preview от OpenAI, чувствуя грядущее поражение в турнире против опытного шахматного бота, не готовы признать его и идут на хитрости. В частности, они могут взломать противника, чтобы бот автоматически проиграл.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

жульничество.

OpenAI обучила модели «признаваться» в плохом поведении

Исследование: ИИ может жульничать при риске проигрыша

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

жульничество.

OpenAI обучила модели «признаваться» в плохом поведении

Исследование: ИИ может жульничать при риске проигрыша