инференс.

В России готовят меры поддержки дата-центров из-за роста нагрузки от ИИ

продолжить чтение

Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок

«Больше» — не всегда значит «лучше». К пользовательским приложениям в облаках

продолжить чтение

Ускоряем инференс в Python с ONNX

Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки.Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как!Что такое ONNX и зачем он нужен

продолжить чтение

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так

продолжить чтение

Локальный инференс на бюджетных ноутбуках

В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.

продолжить чтение

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

продолжить чтение

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

продолжить чтение

Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit

9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит. На что способен NVIDIA Rubin CPX

продолжить чтение

Архитектура LPU и будущее AI без задержек

Команда AI for Devs подготовила перевод статьи о том, как Groq пытается устранить главное «бутылочное горлышко» современного ИИ — задержку. Их специализированный процессор LPU обещает скорость в реальном времени и открывает путь к новым приложениям: от финансовых систем до Coding AI-ботов. Но за пределами маркетинга остаются вопросы: что с большими контекстами, какова конкуренция с Cerebras и GPU, и выдержит ли бизнес-модель такие вызовы?Погоня за скоростью: почему задержка в ИИ становится новым "бутылочным горлышком"?

продолжить чтение

ПАК-AI 2.0 от К2 НейроТех: прирост производительности на 30%

К2 НейроТех представил на конференции Tech2b Conf новую версию ПАК-AI – решения для быстрого и безопасного развертывания on-premise ИИ-инфраструктуры. Оно сочетает удобство облачной платформы с соответствием требованиям безопасности и импортозависимости. Обновленная аппаратная платформа включает шесть серверов от YADRO, в том числе серверы для глубокого обучения, инференса и работы с большими данными, а также новый GPU-сервер G4208P G3. Доработанная сборка Kubernetes повышает эффективность использования GPU-ресурсов до 30%.  

продолжить чтение

123
Rambler's Top100