vllm.
Ubuntu 26.04 на клоне DGX Spark (Asus GX10)
DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольно старые, версии 580, cuda toolkit тоже чуток устарел, 12-ой версии. Кроме того, стоит куча невразумительных пакетов с телеметрией (типа, для работы с Nvidia Sync), обвешано все какими-то левыми скриптами и странными настройками.
Anthropic, Fable 5, Claude Code и большой отбор игрушек
Самая сильная общедоступная модель Anthropic прожила четыре дня. У меня абонемент в кофейню живёт дольше.9 июня Anthropic выкатила Claude Fable 5, он же Mythos 5 в закрытом контуре. 12 июня доступ к обеим версиям сняли. А между этими датами уместилось столько, сколько иная модель не набирает за год жизни: скрытое ухудшение ответов для ИИ-исследователей, крик "Fable взломали и вытащили системный промпт" (пост Pliny в X, архив на GitHub
«ИИ-инженер» — новый курс в Практикуме PRO. От LLM до продакшн-систем
Бизнес давно вышел за рамки разовых экспериментов с нейросетями. Компании строят LLM-системы, которые живут в продакшне, обрабатывают реальные запросы и влияют на процессы. Специалистов, которые умеют это проектировать и запускать, на рынке всё больше — но спрос на них растёт быстрее предложения.В Практикуме PRO открылся курс «ИИ-инженер». За 4 месяца — полный цикл: LLM и управление генерацией, RAG-системы, агенты с оркестрацией, деплой и эксплуатация с мониторингом качества.Кому подойдёт
Как я разогнал Qwen3.6-27B до 73 токен-с в llama.cpp: параметры, которые реально работают
Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go.На данный момент самая интересная модель для моего стека — Qwen3.6-27B. Но один только выбор хорошей модели ничего не гарантирует. Без правильных параметров вы не получите ни скорости, ни качества.В этой статье я расскажу, с какими конкретно параметрами запускаю Qwen3.6-27B в llama.cpp
Qwen3.5 на двух V100, reverse SSH вместо Cloudflare в Telegram Mini App: собираю AI-репетитора английского
У меня в углу комнаты стоит сервер с двумя Tesla V100 32GB. Они доcтались мне для другой задачи, которая отвалилась, и полгода стояли мёртвым грузом. Параллельно я в очередной раз пробовал заниматься английским — Simpler, Doalingo, ещё пара продуктов. Хорошие, но мне не подходил формат: я хотел сценарий «открыл телефон дома на семь минут, поговорил, закрыл». Без расписания, без камеры, без поиска тьютора, который понимает мой акцент с пятого раза.Сошлось.
Визуальный поиск: Новый подход к обнаружению объектов
Автор: Денис АветисянИсследователи представили LocateAnything - систему, значительно ускоряющую и повышающую точность поиска объектов на изображениях по текстовому описанию.
Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать
Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и
Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы
Привет! Меня зовут Артём, я руковожу группой цифровой трансформации в Sminex. Последние два года моя команда занимается внедрением AI в компанию. В реальности это куда менее гламурная история, чем звучит: про прокси-слои, отладку промптов в Langfuse и бесконечные «Почему модель опять ответила не то?».В этой статье расскажу, как мы с самого начала пошли в LLM-платформу — а не в «одного бота», почему это было правильным решением и какие грабли мы всё равно собрали по дороге.Почему мы сразу пошли в платформу

