gpu.
Шпаргалка по установке драйверов NVIDIA на ML сервер
Что бывает, если не следовать инструкциямСпециалисты из сферы ИИ часто сталкиваются с задачей корректной настройки сервера с GPU. Лично я с этой задачей сталкиваюсь в последнее время даже слишком часто...
От GeForce 256 до RTX PRO 6000, или Куда добежали профессиональные GPU к 2025 году
Если в 1999-м вы апгрейдили ПК до GeForce 256 ради Quake III, вы инвестировали в будущее ИИ. Тогда никто не верил, что игровая карта с 32 МБ памяти станет прародителем ChatGPT. А сегодня ее «потомки» обучают нейросети, рендерят реалистичные миры и управляют суперкомпьютерами. Рассказываем, как NVIDIA за 25 лет увеличила производительность GPU в тысячи раз и превратила их в главный инструмент для машинного обучения, моделирования сложных процессов и анализа больших данных.
Nvidia не будет отправлять в Китай дизайны новых графических процессоров
Компания Nvidia заявила, что не будет отправлять в Китай дизайны графических процессоров. Ранее производитель чипов начал работать над научно-исследовательским и опытно-конструкторским центром в Шанхае в связи с недавними ограничениями на экспорт в США.
Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI
Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Мы уже запустили модель Gemma 3 и протестировали API, самое время настроить авторизацию и удобный веб-интерфейс для взаимодействия с нашей моделью. Им станет бесплатный Open WebUI. В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта.
Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster
Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование.В этой части мы перейдём к организации распределённого инференса с помощью vLLM и обеспечим доступ к нему через Ray Serve. А ещё выясним, как запустить модель Gemma 3 в Ray-кластере и как проверить работу нашего OpenAI-совместимого эндпойнта с JWT-аутентификацией.
Мощнее, холоднее и дешевле, чем RTX 4060 Ti: обзорщики высоко оценили RTX 5060 Ti 16 ГБ
Это уже не карточка начального уровня
ЦОД 2050: три реалистичные концепции развития дата-центров
Что будет с дата-центрами, когда физические пределы достигнуты? Когда PUE упадёт ниже единицы, а каждая новая стойка будет выходить в минус? Ответ уже начинает проявляться. Новый виток эволюции ЦОДов не в росте плотности или увеличении каналов. Он — в изменении самой парадигмы: дата-центр не как здание, а как среда, экосистема, организм. В статье представил три сценария будущего дата-центров. Спойлер: ни одна из описанных ниже концепций не является фантастикой. Все они — логическое продолжение уже происходящих процессов.
Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes
Привет, Хабр! Меня зовут Александр Подмосковный, я работаю в «Московском кредитном банке» и, как многие, увлёкся темой искусственного интеллекта. Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Так как DevOps и инфраструктурой я увлекаюсь уже несколько лет, за это время у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.

