Разработчиков отечественного ИИ могут обязать раскрывать данные для обучения нейросетей. IT-компании.. IT-компании. базы данных.. IT-компании. базы данных. данные.. IT-компании. базы данных. данные. ИИ.. IT-компании. базы данных. данные. ИИ. искусственный интеллект.. IT-компании. базы данных. данные. ИИ. искусственный интеллект. Машинное обучение.. IT-компании. базы данных. данные. ИИ. искусственный интеллект. Машинное обучение. Хранение данных.
Разработчиков отечественного ИИ могут обязать раскрывать данные для обучения нейросетей - 1

В России обсуждают инициативу, которая может обязать разработчиков отечественных моделей искусственного интеллекта раскрывать сведения о наборах данных, использованных для обучения и тестирования нейросетей. Предложение рассматривают отраслевые ассоциации, ИИ‑компании и профильный регулятор в рамках подготовки законопроекта об ИИ, пишут «Ведомости» со ссылкой на источники, знакомые с обсуждением.

Согласно одной из рабочих версий документа, разрабатываемого Минцифры России, разработчики должны будут указывать название датасета, дату его создания, назначение, формат, объём и происхождение. Пока не решено, где будет агрегироваться эта информация: обсуждается создание отдельного реестра отечественного ИИ или реестра наборов данных.

Ранее ведомство уже заявляло о планах создать реестр доверенного ИИ для объектов критической инфраструктуры. Однако на сегодняшний день специализированных реестров ИИ‑технологий в России нет. В текущей версии законопроекта требования о раскрытии данных отсутствуют — документ носит рамочный характер.

Правительство разрабатывает законопроект, который определит критерии «российской» нейросети, правила маркировки ИИ-контента, вопросы авторского права и ответственности за использование технологии. Предполагается гибкий подход: в частности, использование ИИ при совершении преступлений могут признать отягчающим обстоятельством.

При этом участники обсуждения отмечают сложности с формулировками — пока не определено, что считать «национальным» и «доверенным» ИИ и какие критерии должны применяться.

В Альянсе в сфере искусственного интеллекта, куда входят крупнейшие технологические компании, отмечают, что полное описание массивов данных в реестровом формате может потребовать несоразмерных ресурсов или свестись к формальному перечислению без практической ценности. При этом отрасль готова к обсуждению ответственного использования данных.

Эксперты видят в инициативе как преимущества, так и риски. Руководитель направления ИИ Cloud.ru Дмитрий Юдин считает, что раскрытие данных повысит доверие к моделям и сформирует единые стандарты отчётности. В то же время это создаст дополнительную нагрузку на разработчиков, особенно при частых обновлениях моделей, и может замедлить внедрение сервисов.

По мнению заместителя исполнительного директора Центра компетенций НТИ по большим данным МГУ имени М. В. Ломоносова Гарника Арутюняна, требования могут затронуть не только российских игроков, но и зарубежные компании, такие как OpenAI и Microsoft, которые вряд ли станут их соблюдать.

Эксперты считают, что раскрытие источников данных может способствовать формированию коммерческого рынка данных. Сейчас разработчики часто используют открытые источники бесплатно и без разрешения владельцев, что остаётся «серой зоной» регулирования и создаёт риски утечек персональных данных и нарушений авторских прав.

В качестве примера зарубежной практики приводится европейский AI Act, обязывающий раскрывать источники данных. Крупные поставщики контента, включая Wikimedia Foundation и Reddit, уже заключают платные соглашения с разработчиками ИИ.

Случаи конфликтов вокруг использования данных уже происходили: в 2023 году The New York Times подала иск против Microsoft и OpenAI, обвинив их в незаконном использовании материалов для обучения моделей. Эксперты не исключают, что при принятии новых требований подобные судебные прецеденты могут появиться и в России.

По мнению участников рынка, ключевой вопрос — готовность компаний раскрывать информацию о данных без ущерба для конкурентных преимуществ. Для крупных моделей с миллионами источников это может оказаться технически сложным и замедлить вывод решений на рынок.

В отрасли сходятся во мнении, что обсуждаемая инициатива своевременна, однако её реализация потребует баланса между прозрачностью, защитой интеллектуальной собственности и темпами развития технологий.

Автор: LizzieSimpson

Источник

Rambler's Top100