Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster
Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование.В этой части мы перейдём к организации распределённого инференса с помощью vLLM и обеспечим доступ к нему через Ray Serve. А ещё выясним, как запустить модель Gemma 3 в Ray-кластере и как проверить работу нашего OpenAI-совместимого эндпойнта с JWT-аутентификацией.
Как научить ИИ обслуживать клиентов не хуже человека?
Новость о мощи ChatGPT прогремела уже более двух лет назад, однако крупные компании ещё до сих пор полностью не автоматизировали поддержку клиентов. В этой статье разберём на пальцах, какие данные и надстройки нужны для больших языковых моделей, как сделать так, чтобы внедрение было экономически целесообразным и, наконец, что делать с чат-ботами прошлого поколения.
Бинарная классификация одним простым искусственным нейроном. Часть 3
В предыдущих частях (первая, вторая) описан мой опыт обучения простого искусственного нейрона бинарной классификации и размышления об этом. В этой статье я продолжаю размышления и вношу соответствующие корректировки в код. В предыдущей версии мне не нравится, что в процедуре обучения есть оператор сравнения if. Он применяется, когда вывод сравнивается с меткой класса (if not compare(x,y):), и если вывод и метка класса не равны, то происходит коррекция веса. Мне хочется "более чистой" математики и не применять операторы сравнения, если этого можно избежать..
Подборка для ML-инженера: как прокачаться джуниору
Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я поделюсь бесплатными мини-курсами, учебниками, книгами и ресурсами, которые помогут прокачаться в профессии или даже войти в неё с нуля.«Учебник по машинному обучению», Яндекс Образование
В Android 16 улучшена «Расширенная защита» с помощью безопасности на уровне устройства
Google объявила об улучшениях функции Advanced Protection в Android 16, которые усиливают защиту от сложных атак шпионского ПО. Обычно такие атаки полагаются на уязвимости нулевого дня для заражения устройств при минимальном или нулевом взаимодействии с пользователем.
Сделали copilot-сервис для техподдержки и делимся секретами RAG c глубоким пониманием контекста
Сегодня мы запускаем Yandex Neurosupport — сервис, который генерирует умные подсказки для операторов контакт‑центра. Он выполняет функции второго пилота: нейросеть анализирует текстовые вопросы клиентов и предлагает оператору вариант ответа. В основе лежат облегчённые модели семейства YandexGPT, дообученные на инструкциях для операторов более чем 50 сервисов Яндекса. Cервис можно внедрить в свой интерфейс через Yandex Cloud по API или же развернуть в on‑premise‑окружении.
Основатель DeepSeek, «техно-безумец», угрожает доминированию США в гонке ИИ
Внезапное появление этой компании показывает, что китайская промышленность процветает, несмотря на попытки Вашингтона замедлить её развитие.

