computer vision. - страница 4

Я построил Vision Transformer с нуля — и научил его обращать внимание

Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.Для начала давайте взглянем на архитектуру Vision Transformer:

продолжить чтение

Компьютерное зрение в сельском хозяйстве

продолжить чтение

Компьютерное зрение для начинающих

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

продолжить чтение

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

"Распознать бы этого шакала"

продолжить чтение

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

На данный момент актуально создание системы обнаружения  беспилотных летательных аппаратов (БПЛА), особенно дронов. Системы обнаружения дронов должны выполнять следующие функции:

продолжить чтение

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

продолжить чтение

Что бы я сделал, если бы сегодня начинал учить Data Science – ML?

Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов, библиотек, подходов и постоянно появляющихся технологий.Из-за этого многие новички начинают обучение с энтузиазмом, но через пару месяцев теряют интерес. Причины могут быть разные: слишком много теории, мало практики, нет чёткого плана или понимания, зачем вообще всё это нужно.Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня

продолжить чтение

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила  диффузионную генеративную модель Kandinsky 4.0 Video (статья на habr

продолжить чтение

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только самое важное.Разберём устройство топовых SOTA-моделей для генерации видео: Wan2.1, Hunyuan Video, а также недавно представленный подход FramePack, направленный на снижение вычислительных требований.Советую ознакомиться с первой частьюНачнем со старичка: Stable Video DiffusionStable Video DiffusionСсылка на оригинальную статью

продолжить чтение

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

Тут я расскажу про основные подходы в генерации видео, материал будет полезен ML/Computer vision разработчикам, чтобы держать руку на пульсе, и людям интересующимся нейросетями + AIПлан следующий:Методы адаптации T2I в T2V: AnimateDiff, Text2Video ZeroОбзор классических подходов: Stable Video Diffusion, CogVideoНовые модельки 2025: Wan2.1, HunyuanVideo, FramePackЭто первая часть из списка статей, тут будет только про T2I в T2VIntro

продолжить чтение

Rambler's Top100