Что бы я сделал, если бы сегодня начинал учить Data Science – ML?
Machine Learning и Data Science — это одни из самых популярных и востребованных направлений в IT. Но вместе с этим — они и одни из самых сложных для входа. Здесь огромное количество тем, инструментов, библиотек, подходов и постоянно появляющихся технологий.Из-за этого многие новички начинают обучение с энтузиазмом, но через пару месяцев теряют интерес. Причины могут быть разные: слишком много теории, мало практики, нет чёткого плана или понимания, зачем вообще всё это нужно.Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video (статья на habr
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2
Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только самое важное.Разберём устройство топовых SOTA-моделей для генерации видео: Wan2.1, Hunyuan Video, а также недавно представленный подход FramePack, направленный на снижение вычислительных требований.Советую ознакомиться с первой частьюНачнем со старичка: Stable Video DiffusionStable Video DiffusionСсылка на оригинальную статью
Генерация видео: Обзор интересных подходов | Text-2-video | Part 1
Тут я расскажу про основные подходы в генерации видео, материал будет полезен ML/Computer vision разработчикам, чтобы держать руку на пульсе, и людям интересующимся нейросетями + AIПлан следующий:Методы адаптации T2I в T2V: AnimateDiff, Text2Video ZeroОбзор классических подходов: Stable Video Diffusion, CogVideoНовые модельки 2025: Wan2.1, HunyuanVideo, FramePackЭто первая часть из списка статей, тут будет только про T2I в T2VIntro
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали
Всё про инференс на Sophon NPU (TPU)
Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.
Vision Transformer-применение трансформеров в задачах компьютерного зрения
Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.ВведениеСверточные нейронные сети (CNN) долгое время были основой компьютерного зрения, эффективно справляясь с задачами классификации и детекции объектов. Однако у них есть свои ограничения:Локальность обработки
Mask R-CNN 3D
1. Описание модели Mask R-CNN 3DMask R-CNN 3D – это расширение знаменитой модели Mask R-CNN для работы с трехмерными данными (объёмными изображениями или облаками точек). Классическая Mask R-CNN предназначена для instance segmentation (сегментации отдельных объектов) на 2D-изображениях и состоит из двух основных частей: (1) сети предложений областей (Region Proposal Network, RPN) и (2) головы (Head) с несколькими выходными ветвями для классификации, регрессии ограничивающих рамок и сегментации масок . В версии 3D эта же концепция перенесена в трехмерное пространство.
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

