Часть 1: ResNet-18 — Архитектура, покорившая глубину
Пролог: Парадокс глубиныПредставьте, что вы строите небоскрёб. Каждый новый этаж — это слой нейросети. Но после 20 этажей здание вдруг начинает... рушиться. Так было в компьютерном зрении до 2015 года: чем глубже сеть, тем хуже она работала.ResNet решил это гениально просто: добавил "лифты" между этажами — остаточные связи (skip-connections). Теперь, если новый слой бесполезен, сеть просто "пропускает" его через эти лифты.Разберём на простом примереКак ResNet из картинки делает предсказание? Допустим у нас есть задача предсказать, что в данном изображении будет "человек" класс (0) или "машина" класс (1).
Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью
Пример работы нашей модели. Только текстовые запросы — никаких масок!
Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow
Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.
ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей
Когда мы говорим о машинном обучении, то автоматически подразумевает Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом. Кирилл Колодяжный, разработчик СХД в YADRO
Автономный робот для обследования нефтяного месторождения
В рамках хакатона «Кубок РТК: Нефтяное месторождение», который проходил в марте 2025 года в Архангельске, наша команда misis_robo_club разработала автономного робота для инспекции нефтепромысла. Соревнование заключалось в том, чтобы робот в полностью автономном режиме обследовал макет нефтяного месторождения: собирал данные с оборудования, распознавал утечки нефти и посторонние объекты, а также считывал специальные QR-коды. Проект объединил современные технологии компьютерного зрения, сенсоров и автономной навигации, вдохновив нас на новые идеи в области промышленной робототехники. О соревнованиях
CLIP или SigLIP. База по Computer vision собеседованиям. Middle-Senior
Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании.Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки (BLIP , SigLIP
Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса
Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic) Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR). Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.

