computer vision.

Как мы построили систему видеоаналитики на open source и довели её до продакшена

продолжить чтение

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Удалённая идентификация по видеосвязи – привычный для бизнеса сценарий: клиент подключается к оператору, подтверждает личность и получает доступ к операциям. Но современные дипфейки уже достаточно убедительны и «проверка на глаз» перестаёт работать: оператору становится сложнее принять решение. А пользователю – пройти проверку, например, его попросят помахать рукой перед лицом, чтобы ошибки в real-time подмене стали заметны.

продолжить чтение

Logos AI Assistant — полноценный ИИ-агент для вашего десктопа

Logos AI Assistant: Дайте "глаза и руки" нейросети на вашем рабочем столеВспомните, сколько раз вам приходилось заниматься ручной, механической работой: переносить данные из одной программы в другую, кликая по одним и тем же кнопкам, или выполнять последовательность команд в терминале для рутинной задачи. Это отнимает время и силы, которые можно было бы потратить на что-то более важное.Мы создали Logos AI Assistant не как замену человеку, а как инструмент-исполнитель. Это мост между мощными языковыми моделями (LLM) и вашим компьютером. Проще

продолжить чтение

Визуально-языковые модели: следующий шаг эволюции LLM

Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.

продолжить чтение

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

продолжить чтение

Сравнительный анализ 18 LLM моделей: конец монополии?

Сравнительный анализ 18 LLM моделей: конец монополии?Ноябрь 2025 — месяц, когда open-source модели официально догнали проприетарные. Разбираем, что произошло, кто теперь на вершине, и как это использовать в своих проектах.

продолжить чтение

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

продолжить чтение

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль.До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.Но Google DeepMind, похоже, нашли лекарство. На днях в Nature

продолжить чтение

Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO

продолжить чтение

Распознаём позу человека во Flutter Web с MediaPipe

Давайте распознаем позу по видео с вебкамеры вот так:Финальное приложение, которое мы сделаем в этой статье.Для этого есть библиотека MediaPipe

продолжить чтение

Rambler's Top100