Высокая производительность. - страница 2

Picodata: вторая жизнь in-memory баз данных

Привет, меня зовут Костя Осипов, и я занимаюсь разработкой СУБД. На Хабре есть несколько моих статей про MySQL, Tarantool и про всякое-разное. Кроме того, я веду Telegram-канал, где делюсь инсайтами в области управления базами данных. Сегодня я выступаю в роли основателя компании Picodata, создающей одноимённую открытую СУБД, и управляющего директора ПАО Arenadata по исследованиям и разработке. Ниже — вольный пересказ моего недавнего доклада на HighLoad

продолжить чтение

Как запустить локально LLM, если ее веса не помещаются в [видео]память

Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил. Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт. Если веса модели не помещаются в ОЗУ (или, еще лучше, в видеопамять), то пользоваться моделью практически невозможно. При вычислении каждого токена все веса придется заново читать с диска, и минимальную задержку легко посчитать, просто разделив размер модели на скорость чтения. Но даже если у Вас дома совершенно случайно не завалялись парочка Nvidia B100 или Mac Studio Ultra/512GB RAM, все еще есть возможность запустить большую LLM.

продолжить чтение

Всё про инференс на Sophon NPU (TPU)

Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. 

продолжить чтение

Код, который все изменил: история AlexNet и ее наследие

В марте 2025 года Компьютерный исторический музей (Computer History Museum) совместно с Google опубликовал исходный код AlexNet — нейросети, которая в 2012 году привлекла внимание к возможностям глубокого обучения. Исследователи и энтузиасты получили полные исходники модели, ставшей одним из ключевых этапов в развитии компьютерного зрения. Почему эта сеть настолько важна для ИТ, а ее вклад считают значимым? Давайте разбираться.

продолжить чтение

Nvidia выпустила G-Assist для улучшения производительности в играх

Project G-Assist от Nvidia теперь доступен для загрузки в рамках последнего обновления фирменного приложения компании. Это небольшая языковая модель (SLM), которая работает локально на устройстве и позволяет выполнять различные действия на ПК с помощью голосовых или текстовых сообщений. 

продолжить чтение

Reasoning-LLM: архитектура и обзор передовых моделей

Reasoning-LLM — это большие языковые модели, нацеленные на логическое рассуждение при решении сложных задач. В отличие от обычных LLM, которые часто выдавали ответы сразу, такие модели способны «думать» пошагово — как человек, анализируя задачу и выстраивая цепочку вывода. Появление reasoning-LLM связано с тем, что традиционные LLM (например, GPT-4 или Llama 3.1) хотя и хорошо справляются с языковыми и энциклопедическими запросами, нередко ошибались в задачах, требующих сложных вычислений, планирования или логического вывода. В этой статье мы подробно разберем, как работают reasoning-LLM, их внутреннее устройство (Transformer, self-attention, механизмы «мышления»). А еще — рассмотрим передовые модели (OpenAI o1, DeepSeek R1 и Claude 3.7 Sonnet), факторы, влияющие на их точность, и дадим практические рекомендации по применению.

продолжить чтение

Мини-ПК марта 2025: мощные новинки с Ryzen и AI-ускорением

Мини-ПК становятся все производительнее (хотя и не всегда, конечно), сохраняя компактность и энергоэффективность. В марте 2025 года в продажу поступили новые модели с процессорами AMD Ryzen Strix Point и Hawk Point, поддержкой искусственного интеллекта, высокоскоростными портами и улучшенными графическими возможностями. Короче, много всего интересного. В этом обзоре — свежие устройства от ACEMAGIC, MINISFORUM, Shuttle и Topton, которые предлагают передовые характеристики в миниатюрном формате.

продолжить чтение

BareMetal 2.0: разбираемся, какие GPU выбрать

Недавно мы обновили BareMetal 2.0 в составе нашего «Публичного облака». Теперь в инфраструктуре есть выделенные физические серверы с высокопроизводительными GPU-картами. Они позволяют работать с задачами, где критична скорость вычислений. Расскажем, что именно изменилось и какие задачи можно теперь решать быстрее. Но сначала небольшая справка.Когда нужны графические ускорители?

продолжить чтение

Omnia Metria in SAR Collecta — Мониторинг Linux с SAR: обширное описание метрик и как их читать

Состояние сервера можно условно сравнить со здоровьем человека: оно у всех разное и умирают все от разных причин. Пульс, давление, температура — это показатели, которые помогают в диагностике нас. В мире Linux эти показатели: CPU, использование памяти, работа дисков и прочее. Как и в медицине, мониторинг можно проводить в реальном времени или анализировать уже собранные данные.

продолжить чтение

Метрики SAR в Linux подробно: что они означают и как их читать

Состояние сервера можно условно сравнить со здоровьем человека: оно у всех разное и умирают все от разных причин. Пульс, давление, температура — это показатели, которые помогают в диагностике нас. В мире Linux эти показатели: CPU, использование памяти, работа дисков и прочее. Как и в медицине, мониторинг можно проводить в реальном времени или анализировать уже собранные данные.

продолжить чтение

Rambler's Top100