- BrainTools - https://www.braintools.ru -
Специалисты из сферы ИИ часто сталкиваются с задачей корректной настройки сервера с GPU. Лично я с этой задачей сталкиваюсь в последнее время даже слишком часто…
Данный материал предназначен для быстрой и последовательной установки драйверов NVIDIA, в том числе для видеокарт 50xx серии, а также настройки NVIDIA Container Toolkit. Эта инструкция актуальна для Linux-систем на базе Ubuntu и других Debian-совместимых дистрибутивов.
Перед установкой рекомендуется полностью удалить старые драйверы и связанные с ними компоненты, чтобы избежать конфликтов версий.
sudo apt-get purge 'nvidia-*'
sudo apt-get update
sudo apt-get autoremove
После команды sudo apt-get purge обязательно сделайте глубокий вдох. В этот момент система вспоминает все ваши предыдущие попытки установить драйверы — и удаляет их вместе со старыми обидами.
На май 2025 года для видеокарт серии RTX 50xx поддерживаются только драйверы nvidia-driver-570-open. Для других карт может быть достаточно любой версии nvidia-driver-xxx. Я же рекомендую ставить актуальную версию, в частности на свои сервера я ставлю версию nvidia-driver-570-server или nvidia-driver-570-open.
apt search nvidia-driver
Мне данная установка не требовалась, но для каких-то версий драйверов она может быть необходима. Для установки замените xxx на номер вашего драйвера.
sudo apt install libnvidia-common-xxx
sudo apt install libnvidia-gl-xxx
sudo apt install nvidia-driver-570-open
После завершения установки драйвера выполните перезагрузку системы:
Перезагрузка после установки драйвера — как кнопка «Сохранить» для всей вашей нервной системы [1]. Рекомендуется, чтобы после неё заработало всё, кроме вашей паранойи.
sudo reboot
Проверьте, что драйвер установлен и GPU корректно определяется:
nvidia-smi
Ожидается вывод информации о вашей видеокарте и версии драйвера. Если вывод отсутствует или возникает ошибка [2], проверьте логи и отключите Secure Boot в BIOS, так как он может блокировать загрузку модулей NVIDIA.
Для работы контейнеров с GPU необходим NVIDIA Container Toolkit. Он позволяет Docker-контейнерам использовать CUDA, cuDNN и связанные библиотеки.
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
Для интеграции GPU в Docker необходимо настроить runtime.
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
Данная команда автоматически обновит конфигурацию Docker для работы с NVIDIA runtime.
Для проверки запускаем контейнер с поддержкой GPU и исполняем утилиту nvidia-smi внутри:
sudo docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi
В случае корректной настройки вы увидите информацию о вашей видеокарте изнутри контейнера. Это подтверждает правильную интеграцию GPU-драйвера, NVIDIA Container Toolkit и Docker.
Для систем с Fedora, CentOS, RHEL и OpenSUSE инструкции по установке NVIDIA Container Toolkit отличаются, но общий принцип остаётся тем же: установка драйвера и toolkit, настройка контейнерного рантайма, перезапуск сервиса. Документацию по установке можно найти на официальном сайте NVIDIA [3].
Для Kubernetes следует использовать containerd и соответствующую конфигурацию через nvidia-ctk runtime configure –runtime=containerd.
Если драйвер NVIDIA так и не устанавливается, несмотря на все предпринятые шаги, рекомендуется попробовать другую версию драйвера, полностью повторяя весь алгоритм: очистка системы от старых пакетов, установка необходимых зависимостей и самого драйвера.
В случае, если повторные попытки не приводят к успеху и установка по-прежнему завершается с ошибками, оптимальным решением может стать переустановка операционной системы (например, Ubuntu) и повторное прохождение всех шагов инструкции. На практике, в сложных случаях именно этот подход помогал добиться стабильной работы драйверов и корректной интеграции с CUDA и контейнерной инфраструктурой.
Правильная установка драйвера NVIDIA и последующая интеграция с контейнерной инфраструктурой является обязательным этапом при работе с задачами, требующими аппаратного ускорения. Следуя приведённой последовательности, можно гарантировать стабильную работу приложений, использующих CUDA и GPU.
Автор: sweetlhare
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15673
URLs in this post:
[1] нервной системы: http://www.braintools.ru/nervous-system
[2] ошибка: http://www.braintools.ru/article/4192
[3] официальном сайте NVIDIA: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
[4] Источник: https://habr.com/ru/articles/913988/?utm_campaign=913988&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.