жульничество.

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении. 

продолжить чтение

Исследование: ИИ может жульничать при риске проигрыша

Исследователи Palisade Research продемонстрировали, что современные модели, в том числе o1-preview от OpenAI, чувствуя грядущее поражение в турнире против опытного шахматного бота, не готовы признать его и идут на хитрости. В частности, они могут взломать противника, чтобы бот автоматически проиграл. 

продолжить чтение

Rambler's Top100