- BrainTools - https://www.braintools.ru -
Согласно внутреннему сравнительному анализу компании, недавно выпущенная модель искусственного интеллекта [1] Google показала худшие результаты в некоторых тестах безопасности, чем ее предшественница.

В техническом отчете, [2] опубликованном на этой неделе, Google раскрывает, что его модель Gemini 2.5 Flash с большей вероятностью будет генерировать текст, нарушающий его правила безопасности, чем Gemini 2.0 Flash По двум показателям — «безопасность text-to-text» и «безопасность image-to-text», Gemini 2.5 Flash регрессирует на 4,1% и 9,6% соответственно.
Метрика «text-to-text» показывает, как часто модель генерирует недопустимый контент (нарушающий правила Google) в ответ на текстовый запрос. Метрика «image-to-text», в свою очередь, оценивает, насколько строго модель следует этим правилам, когда запрос задан с помощью изображения. Оба вида тестирования проводятся автоматически, без участия людей.
В заявлении, отправленном по электронной почте, представитель Google подтвердил, что Gemini 2.5 Flash показывает худшие результаты в вышеупомянутых параметрах. Эти результаты тестов получены, поскольку компании AI стремятся сделать свои модели более терпимыми — другими словами, менее склонными отказываться отвечать на спорные или деликатные темы. Для своего последнего урожая моделей Llama [3] Meta* заявила, что настроила модели так, чтобы они не поддерживали «одни взгляды в ущерб другим» и отвечали на более «обсуждаемые» политические подсказки.
Ранее в этом году OpenAI заявила, что настроит будущие модели [4] так, чтобы они не занимали редакционную позицию и предлагали несколько точек зрения [5] на спорные темы. Иногда эти усилия по обеспечению вседозволенности имели обратный эффект. TechCrunch сообщил в понедельник [6], что модель по умолчанию, лежащая в основе ChatGPT OpenAI, позволяла несовершеннолетним вести эротические разговоры. OpenAI обвинила в этом поведении [7] «баг».
Согласно техническому отчету Google, Gemini 2.5 Flash, который все еще находится в стадии предварительной версии, следует инструкциям более точно, чем Gemini 2.0 Flash. Компания утверждает, что генерацию таких ответов можно отчасти отнести к ложным срабатываниям, но также признает, что Gemini 2.5 Flash иногда генерирует «нарушающий контент», когда его об этом прямо просят.
«Естественно, существует противоречие между выполнением инструкций по деликатным темам и нарушениями политики безопасности, что отражается в наших оценках», — говорится в отчете.
Результаты SpeechMap, бенчмарка, который исследует, как модели реагируют на деликатные и спорные подсказки, также показывают, что Gemini 2.5 Flash гораздо реже отказывается отвечать на спорные вопросы, чем Gemini 2.0 Flash. Тестирование модели TechCrunch с помощью платформы AI OpenRouter показало, что она безропотно пишет эссе в поддержку замены судей на AI, ослабления надлежащей правовой процедуры в США и внедрения широкомасштабных программ правительственной слежки без ордера.
Томас Вудсайд, соучредитель проекта Secure AI Project, заявил, что ограниченность данных, предоставленных Google в своем техническом отчете, свидетельствует о необходимости большей прозрачности при тестировании моделей.
«Существует компромисс между выполнением инструкций и выполнением политики, поскольку некоторые пользователи могут запрашивать контент, который нарушает политику», — сказал Вудсайд TechCrunch.
«В этом случае последняя модель Flash от Google больше соответствует инструкциям, но при этом больше нарушает политику. Google не предоставляет подробностей о конкретных случаях нарушения политики, хотя и утверждает, что они не являются серьезными. Не зная больше, независимым аналитикам сложно понять, есть ли проблема».
Компания Google уже подвергалась критике за свою модель отчетности по безопасности. Компании потребовались недели [8], чтобы опубликовать технический отчет для своей самой мощной модели Gemini 2.5 Pro. Когда отчет в конечном итоге был опубликован, в нем изначально отсутствовали ключевые детали испытаний безопасности [9]. И только в понедельник Google опубликовал более подробный отчет с дополнительной информацией по безопасности.
Источник [10]
Автор: dilnaz_04
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14893
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] техническом отчете,: https://storage.googleapis.com/model-cards/documents/gemini-2.5-flash-preview.pdf
[3] Для своего последнего урожая моделей Llama: https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/
[4] будущие модели: https://techcrunch.com/2025/02/16/openai-tries-to-uncensor-chatgpt/
[5] зрения: http://www.braintools.ru/article/6238
[6] TechCrunch сообщил в понедельник: https://techcrunch.com/2025/04/28/openai-is-fixing-a-bug-that-allowed-minors-to-generate-erotic-conversations/
[7] поведении: http://www.braintools.ru/article/9372
[8] недели: https://techcrunch.com/2025/04/03/google-is-shipping-gemini-models-faster-than-its-ai-safety-reports/
[9] отсутствовали ключевые детали испытаний безопасности: https://techcrunch.com/2025/04/17/googles-latest-ai-model-report-lacks-key-safety-details-experts-say/
[10] Источник: https://techcrunch.com/2025/05/02/one-of-googles-recent-gemini-ai-models-scores-worse-on-safety/
[11] Источник: https://habr.com/ru/companies/bothub/news/906686/?utm_source=habrahabr&utm_medium=rss&utm_campaign=906686
Нажмите здесь для печати.