Gemini 2.5 Flash от Google показала худшие результаты по безопасности

Согласно внутреннему сравнительному анализу компании, недавно выпущенная модель искусственного интеллекта ^[1] Google показала худшие результаты в некоторых тестах безопасности, чем ее предшественница.

В техническом отчете, ^[2] опубликованном на этой неделе, Google раскрывает, что его модель Gemini 2.5 Flash с большей вероятностью будет генерировать текст, нарушающий его правила безопасности, чем Gemini 2.0 Flash По двум показателям — «безопасность text-to-text» и «безопасность image-to-text», Gemini 2.5 Flash регрессирует на 4,1% и 9,6% соответственно.

Метрика «text-to-text» показывает, как часто модель генерирует недопустимый контент (нарушающий правила Google) в ответ на текстовый запрос. Метрика «image-to-text», в свою очередь, оценивает, насколько строго модель следует этим правилам, когда запрос задан с помощью изображения. Оба вида тестирования проводятся автоматически, без участия людей.

В заявлении, отправленном по электронной почте, представитель Google подтвердил, что Gemini 2.5 Flash показывает худшие результаты в вышеупомянутых параметрах. Эти результаты тестов получены, поскольку компании AI стремятся сделать свои модели более терпимыми — другими словами, менее склонными отказываться отвечать на спорные или деликатные темы. Для своего последнего урожая моделей Llama ^[3] Meta* заявила, что настроила модели так, чтобы они не поддерживали «одни взгляды в ущерб другим» и отвечали на более «обсуждаемые» политические подсказки.

Ранее в этом году OpenAI заявила, что настроит будущие модели ^[4] так, чтобы они не занимали редакционную позицию и предлагали несколько точек зрения ^[5] на спорные темы. Иногда эти усилия по обеспечению вседозволенности имели обратный эффект. TechCrunch сообщил в понедельник ^[6], что модель по умолчанию, лежащая в основе ChatGPT OpenAI, позволяла несовершеннолетним вести эротические разговоры. OpenAI обвинила в этом поведении ^[7] «баг».

Согласно техническому отчету Google, Gemini 2.5 Flash, который все еще находится в стадии предварительной версии, следует инструкциям более точно, чем Gemini 2.0 Flash. Компания утверждает, что генерацию таких ответов можно отчасти отнести к ложным срабатываниям, но также признает, что Gemini 2.5 Flash иногда генерирует «нарушающий контент», когда его об этом прямо просят.

«Естественно, существует противоречие между выполнением инструкций по деликатным темам и нарушениями политики безопасности, что отражается в наших оценках», — говорится в отчете.

Результаты SpeechMap, бенчмарка, который исследует, как модели реагируют на деликатные и спорные подсказки, также показывают, что Gemini 2.5 Flash гораздо реже отказывается отвечать на спорные вопросы, чем Gemini 2.0 Flash. Тестирование модели TechCrunch с помощью платформы AI OpenRouter показало, что она безропотно пишет эссе в поддержку замены судей на AI, ослабления надлежащей правовой процедуры в США и внедрения широкомасштабных программ правительственной слежки без ордера.

Томас Вудсайд, соучредитель проекта Secure AI Project, заявил, что ограниченность данных, предоставленных Google в своем техническом отчете, свидетельствует о необходимости большей прозрачности при тестировании моделей.

«Существует компромисс между выполнением инструкций и выполнением политики, поскольку некоторые пользователи могут запрашивать контент, который нарушает политику», — сказал Вудсайд TechCrunch.

«В этом случае последняя модель Flash от Google больше соответствует инструкциям, но при этом больше нарушает политику. Google не предоставляет подробностей о конкретных случаях нарушения политики, хотя и утверждает, что они не являются серьезными. Не зная больше, независимым аналитикам сложно понять, есть ли проблема».

Компания Google уже подвергалась критике за свою модель отчетности по безопасности. Компании потребовались недели ^[8], чтобы опубликовать технический отчет для своей самой мощной модели Gemini 2.5 Pro. Когда отчет в конечном итоге был опубликован, в нем изначально отсутствовали ключевые детали испытаний безопасности ^[9]. И только в понедельник Google опубликовал более подробный отчет с дополнительной информацией по безопасности.

Источник ^[10]

Автор: dilnaz_04

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14893

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] техническом отчете,: https://storage.googleapis.com/model-cards/documents/gemini-2.5-flash-preview.pdf

[3] Для своего последнего урожая моделей Llama: https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/

[4] будущие модели: https://techcrunch.com/2025/02/16/openai-tries-to-uncensor-chatgpt/

[5] зрения: http://www.braintools.ru/article/6238

[6] TechCrunch сообщил в понедельник: https://techcrunch.com/2025/04/28/openai-is-fixing-a-bug-that-allowed-minors-to-generate-erotic-conversations/

[7] поведении: http://www.braintools.ru/article/9372

[8] недели: https://techcrunch.com/2025/04/03/google-is-shipping-gemini-models-faster-than-its-ai-safety-reports/

[9] отсутствовали ключевые детали испытаний безопасности: https://techcrunch.com/2025/04/17/googles-latest-ai-model-report-lacks-key-safety-details-experts-say/

[10] Источник: https://techcrunch.com/2025/05/02/one-of-googles-recent-gemini-ai-models-scores-worse-on-safety/

[11] Источник: https://habr.com/ru/companies/bothub/news/906686/?utm_source=habrahabr&utm_medium=rss&utm_campaign=906686

Нажмите здесь для печати.