Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим
Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.
Исследование: ИИ может жульничать при риске проигрыша
Исследователи Palisade Research продемонстрировали, что современные модели, в том числе o1-preview от OpenAI, чувствуя грядущее поражение в турнире против опытного шахматного бота, не готовы признать его и идут на хитрости. В частности, они могут взломать противника, чтобы бот автоматически проиграл.
Anthropic готовит новую гибридную модель Claude, превосходящую o3-mini-high в кодинге
Как сообщает The Information, Anthropic планирует представить свою следующую крупную модель, которая сочетает традиционные языковые возможности с продвинутыми функциями логического анализа.