machine learning.

Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

продолжить чтение

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Введение: взгляд на атмосферу через объектив видеокамерыПривет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы.Мы — не метеорологи. До этого проекта мы не держали в голове уравнения Навье — Стокса и путались в направлениях циклонов и антициклонов. Но однажды мы посмотрели на задачу глобального прогноза погоды под другим углом, и всё изменилось.Если предельно упростить,

продолжить чтение

Как я строю рекомендательную модель фильмов: cold start, вектор вкуса и GPT

Выбрать фильм на вечер сложно даже для одного человека.А если фильм нужно выбрать для пары, где вкусы просто разные, задача становится ещё менее предсказуемой.Обычные подборки, жанровые фильтры и списки “что посмотреть вечером” помогают только до определённого момента.Они работают как витрина, но плохо работают как персональная рекомендация, потому что почти не учитывают зрительский опыт, индивидуальные предпочтения и то, какие фильмы человек вообще уже видел.Именно с этой задачи я и подошёл к своему проекту NextFilm: не как к каталогу фильмов, а как к рекомендательной системе.

продолжить чтение

От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE

Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат.Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы.

продолжить чтение

Новый курс Практикума PRO: освойте полный стек обработки аудиоданных

Речевые технологии лежат в основе целого класса продуктов: от голосовых ассистентов и расшифровщиков аудио до сервисов озвучки контента. На курсе «Аудиоанализ, распознавание и генерация речи» от Яндекс Практикума PRO освоите инженерную базу для работы с ними — создадите собственный сервис и научитесь обучать и дообучать речевые модели под конкретные задачи. Курс подойдёт инженерам машинного обучения и тем, кто уже знаком с обработкой естественного языка (NLP).

продолжить чтение

Волков бояться — uplift в прод не катить, или AUF 2.0

Всем привет! Меня зовут Мельников Виктор, я middle data scientist в Альфа-Банке в Управлении по разработке инструментов автоматизации моделирования.Год назад вышла статья о первой open source библиотеке Альфа-Банка для автоматического построения uplift-моделей Automatic Uplift Framework или же, сокращённо, AUF🐺. В ней мы рассмотрели основной функционал библиотеки с примерами кода. Также в ней можно найти ссылку на ноутбук с примером кода на открытом датасете.

продолжить чтение

Собираем AI-агента нового поколения: Python, RAG и внешние инструменты через MCP (Model Context Protocol)

Введение: от простых цепочек к агентам, которые действуютЕщё пару лет назад типичное LLM-приложение выглядело как последовательная цепочка вызовов: взяли промпт, добавили контекст из векторной базы, отправили в модель, получили ответ. LangChain популяризировал эту парадигму — chains, retrievers, memory — и это работало для простых сценариев вроде «ответь на вопрос по документации».Но бизнес-задачи редко укладываются в линейный пайплайн. Пользователь хочет не просто получить ответ, а чтобы система совершила действие

продолжить чтение

Немного про AI для догоняющих

Не тот мудр, кто знает всё, а тот, кто знает, кого спросить.Немного введенияВ настоящее время тема искусственного интеллекта (AI) перестала быть уделом исследователей и энтузиастов — она ворвалась в повседневную работу инженеров, аналитиков, менеджеров и, по сути, всех, кто хоть как‑то взаимодействует с текстом, кодом или данными.

продолжить чтение

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц - это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени.Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил.Оказалось, можно. 60 fps на веб-камере.ПайплайнНа каждом кадре последовательно отрабатывают четыре нейросети.

продолжить чтение

Метрики упали в лужу

Нередкая ситуация, когда ваша модель спокойно себе крутится в проме, но внезапно прибегают аналитики с криками «у нас упало качество, посмотрите что может быть не так».Причин может быть множество, но сегодня я расскажу про одну из самых распространенных причин падения качества модели - Distribution shift.

продолжить чтение

123456...10...17