Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием
Задача, с которой пришел заказчик На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции. Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами.
DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)
Я, как и многие, залип в датасеты, метрики и нейросети - и в какой-то момент понял, что почти не думаю о главном, как вообще проходит процесс инспекции печатных плат.
Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду
Введение: взгляд на атмосферу через объектив видеокамерыПривет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы.Мы — не метеорологи. До этого проекта мы не держали в голове уравнения Навье — Стокса и путались в направлениях циклонов и антициклонов. Но однажды мы посмотрели на задачу глобального прогноза погоды под другим углом, и всё изменилось.Если предельно упростить,
Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду
Большинство инструментов для замены лиц - это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени.Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил.Оказалось, можно. 60 fps на веб-камере.ПайплайнНа каждом кадре последовательно отрабатывают четыре нейросети.
Мультимодальные модели – грубый и дорогой инструмент
Нам нужно новое зрение для интерфейсовПока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему.Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning.
Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор
Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts.Если хотите полный контекст, вот предыдущие части:
Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts-Reels
В предыдущей статье
Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки
Когда в пайплайне детекции всё вроде настроено правильно, а mAP
WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции
Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

