Норвежская библиотека представит LLM с использованием 2 ПБ флэш-памяти Huawei. huawei oceanstor bcmanager.. huawei oceanstor bcmanager. llm.. huawei oceanstor bcmanager. llm. большая языковая модель.. huawei oceanstor bcmanager. llm. большая языковая модель. искусственный интеллект.. huawei oceanstor bcmanager. llm. большая языковая модель. искусственный интеллект. Машинное обучение.. huawei oceanstor bcmanager. llm. большая языковая модель. искусственный интеллект. Машинное обучение. национальная библиотека.. huawei oceanstor bcmanager. llm. большая языковая модель. искусственный интеллект. Машинное обучение. национальная библиотека. норвегия.. huawei oceanstor bcmanager. llm. большая языковая модель. искусственный интеллект. Машинное обучение. национальная библиотека. норвегия. Хранение данных.

Норвежская Национальная библиотека разрабатывает большую языковую модель, которая понимает норвежский язык. Учреждение использует 2 ПБ флэш-памяти Huawei OceanStor Dorado в конвейере данных для обучения ИИ.

Норвежская библиотека представит LLM с использованием 2 ПБ флэш-памяти Huawei - 1

Мариус Хуснес, руководитель IT-платформы библиотеки (Nasjonlbiblioteket), обсудил проект на форуме Huawei ID Forum 2026 в Париже, заявив, что ни один коммерческий поставщик LLM не разрабатывает модели на местном языке. Он утверждал, что любая страна со своим собственным языком, не имеющая суверенной LLM, обученной на этом языке, находится в невыгодном положении.

Министерство культуры Норвегии поручило Национальной библиотеке создать суверенный ИИ, поскольку библиотека обладает крупнейшей в стране цифровой коллекцией норвежских книг, газет, веб-страниц и т. д. Как и многие государственные библиотеки, она имеет право получать копии каждой опубликованной книги и транслируемого контента. В этой области полномочия библиотеки по обязательному экземпляру распространяются не только на книги, поскольку она была обязана собирать и сохранять все культурное наследие Норвегии.

Норвежская библиотека представит LLM с использованием 2 ПБ флэш-памяти Huawei - 2

Соглашение с норвежскими газетами позволило проводить обучение по программе LLM по контенту, защищённому авторским правом.

Библиотека занималась оцифровкой своей коллекции с 2005 года и накопила 20 ПБ уникальных данных, хранящихся в формате 3-2-1 (3 копии, 2 типа носителей, 1 удалённое хранилище), что в общей сложности составляет около 60 ПБ. Процесс оцифровки исходного текста, звука, видео, статичных изображений и веб-контента включал в себя много сканирования с помощью OCR, генерировал много метаданных, а также API для онлайн-доступа.

Основная часть данных была депонирована в цифровом архиве на дисках и лентах — системе сохранения. Задача Хуснеса заключалась в том, чтобы доставить эти данные в систему обучения LLM. Он сказал, что проблема заключалась не в вычислительных мощностях, а в качестве данных, их очистке и пропускной способности конвейера.

Процесс обработки состоял из двух основных этапов. Сначала выполнялись собственные вычисления с использованием системы Nvidia DGX H200, кластера из 384 ядер ЦП и нескольких массивов флэш-памяти Huawei OceanStor Dorado общей емкостью 2 ПБ. Это хранилище с низкой задержкой для конвейеров обработки данных и подготовки обучающих данных. Конвейер включает этапы приема данных, очистки, дедупликации, нормализации формата, проверки и подготовки. После прохождения данных через конвейер они отправляются на национальный суперкомпьютер Норвегии, систему Sigma2 Olivia, для фактического выполнения обучающих запусков. Система Olivia — это система HPE Cray Supercomputing EX с 448 графическими процессорами и 64 512 ядрами ЦП. Она использует систему хранения Cray ClusterStor E1000 объёмом 5,3 ПБ.

Одной из основных проблем стало удовлетворение двух различных потребностей в системах хранения данных. Система сохранения данных объёмом 60 ПБ оптимизирована для обеспечения долговечности и экономичности, а не для быстрой обработки ввода-вывода, и имеет высокую задержку чтения, поскольку предназначена для нечастого доступа. Система хранения данных AI Pipeline разработана для высокопроизводительной параллельной обработки данных с низкой задержкой.

Хуснес узнал, что никто не говорил о проблемах, связанных с перемещением наборов данных размером в несколько петабайт из архива в систему обработки данных AI Pipeline и через неё. Его команде пришлось самой разбираться, как это сделать. Обучение по программе LLM продолжается.

Пока команда учится:

оценке — нет стандартных инструментов для суверенной норвежской программы LLM. Язык имеет две письменные формы, множество диалектов и исторические изменения. Исследователи создают свой собственный инструмент оценки на ходу;
управлению — кто контролирует доступ к суверенной программе LLM и решает, для чего ее можно использовать;
организации — созданию трёх систем, в том числе архива для сохранения, локальной среды ИИ и национального суперкомпьютера Sigma2.

Между тем в России в версию законопроекта о регулировании ИИ появился ряд заметных дополнений. Новая редакция предусматривает возможность обучения национальных и суверенных нейросетей на госданных, но только после согласования с ФСТЭК и ФСБ России. Документ также предусматривает ответственность для операторов и владельцев ИИ за обеспечение информационной безопасности моделей. Законопроект теперь также закрепляет статус ИИ как доверенного только в том случае, если модель внесена в соответствующий реестр.

Автор: maybe_elf

Источник

Запись добавлена: 26.05.2026 в 05:18
Оставлено в

Норвежская библиотека представит LLM с использованием 2 ПБ флэш-памяти Huawei

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов