Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере. llm.. llm. microsoft.. llm. microsoft. авторское право.. llm. microsoft. авторское право. гарри поттер.. llm. microsoft. авторское право. гарри поттер. искусственный интеллект.. llm. microsoft. авторское право. гарри поттер. искусственный интеллект. Копирайт.. llm. microsoft. авторское право. гарри поттер. искусственный интеллект. Копирайт. Машинное обучение.. llm. microsoft. авторское право. гарри поттер. искусственный интеллект. Копирайт. Машинное обучение. обучение нейронных сетей.
Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере - 1

Microsoft в течение нескольких месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере. В ноября 2024 старший менеджер по продуктам Microsoft Пуджей Камат опубликовала в блоге компании пост, в котором рекомендовала разработчикам языковых моделей использовать датасет с текстами всех семи книг серии.

Статья Камат рассказывала о новой функции Azure SQL DB, которая упрощала интеграцию генеративного ИИ в приложения с помощью нескольких строк кода и библиотек вроде LangChain. Автор подчёркивала популярность книг Джоан Роулинг и предлагала обучать на них модели со ссылкой на датасет Kaggle, где книги были ошибочно помечены как общественное достояние (этот набор позже удалили).

С помощью книг Камат рекомендовала обучать модели извлечению релевантных фрагментов, например, закусок из волшебного мира: этот запрос требовал от модели извлечь из текста все названия волшебных лакомств, таких как конфеты «Берти Боттс» и шоколадные лягушки.

В качестве практического примера Камат загрузила тексты в Azure Blob Storage и сгенерировала фанфик, где Гарри в поезде знакомится с другом, который объясняет ему, как работает векторная поддержка SQL от Microsoft. К тексту прилагалось ИИ-сгенерированное изображение Гарри с логотипом Microsoft.

Пост Камат полтора года просуществовал незамеченным правообладателями, включая саму Роулинг. Причина, вероятно, заключается в низкой популярности датасета — около 10 тысяч загрузок. Пост был удалён после критики на Hacker News, но его архив доступен в сети.

Автор: AnnieBronson

Источник

Rambler's Top100