- BrainTools - https://www.braintools.ru -

Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере - 1

Microsoft в течение нескольких месяцев советовала обучать [1]ИИ на пиратских книгах о Гарри Поттере. В ноября 2024 старший менеджер по продуктам Microsoft Пуджей Камат опубликовала в блоге компании пост, в котором рекомендовала разработчикам языковых моделей использовать датасет с текстами всех семи книг серии.

Статья Камат рассказывала о новой функции Azure SQL DB, которая упрощала интеграцию генеративного ИИ в приложения с помощью нескольких строк кода и библиотек вроде LangChain. Автор подчёркивала популярность книг Джоан Роулинг и предлагала обучать на них модели со ссылкой на датасет Kaggle, где книги были ошибочно помечены как общественное достояние (этот набор позже удалили).

С помощью книг Камат рекомендовала обучать модели извлечению релевантных фрагментов, например, закусок из волшебного мира: этот запрос требовал от модели извлечь из текста все названия волшебных лакомств, таких как конфеты «Берти Боттс» и шоколадные лягушки.

В качестве практического примера Камат загрузила тексты в Azure Blob Storage и сгенерировала фанфик, где Гарри в поезде знакомится с другом, который объясняет ему, как работает векторная поддержка SQL от Microsoft. К тексту прилагалось ИИ-сгенерированное изображение Гарри с логотипом Microsoft.

Пост Камат полтора года просуществовал незамеченным правообладателями, включая саму Роулинг. Причина, вероятно, заключается в низкой популярности датасета — около 10 тысяч загрузок. Пост был удалён после критики [2]на Hacker News, но его архив [3]доступен в сети.

Автор: AnnieBronson

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26281

URLs in this post:

[1] советовала обучать : https://arstechnica.com/tech-policy/2026/02/microsoft-removes-guide-on-how-to-train-llms-on-pirated-harry-potter-books/

[2] критики : https://news.ycombinator.com/item?id=47067759

[3] архив : https://web.archive.org/web/20241119164951/https://devblogs.microsoft.com/azure-sql/langchain-with-sqlvectorstore-example/

[4] Источник: https://habr.com/ru/news/1004206/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1004206

www.BrainTools.ru

Rambler's Top100