компьютерное зрение. - страница 9

Часть 1: ResNet-18 — Архитектура, покорившая глубину

Пролог: Парадокс глубиныПредставьте, что вы строите небоскрёб. Каждый новый этаж — это слой нейросети. Но после 20 этажей здание вдруг начинает... рушиться. Так было в компьютерном зрении до 2015 года: чем глубже сеть, тем хуже она работала.ResNet решил это гениально просто: добавил "лифты" между этажами — остаточные связи (skip-connections). Теперь, если новый слой бесполезен, сеть просто "пропускает" его через эти лифты.Разберём на простом примереКак ResNet из картинки делает предсказание? Допустим у нас есть задача предсказать, что в данном изображении будет "человек" класс (0) или "машина" класс (1).

продолжить чтение

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

продолжить чтение

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Пример работы нашей модели. Только текстовые запросы — никаких масок!

продолжить чтение

CV-ML-проект от идеи до продакшена: практическое руководство

продолжить чтение

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

продолжить чтение

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Когда мы говорим о машинном обучении, то автоматически подразумевает Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом. Кирилл Колодяжный, разработчик СХД в YADRO

продолжить чтение

Автономный робот для обследования нефтяного месторождения

В рамках хакатона «Кубок РТК: Нефтяное месторождение», который проходил в марте 2025 года в Архангельске, наша команда misis_robo_club разработала автономного робота для инспекции нефтепромысла. Соревнование заключалось в том, чтобы робот в полностью автономном режиме обследовал макет нефтяного месторождения: собирал данные с оборудования, распознавал утечки нефти и посторонние объекты, а также считывал специальные QR-коды. Проект объединил современные технологии компьютерного зрения, сенсоров и автономной навигации, вдохновив нас на новые идеи в области промышленной робототехники. О соревнованиях

продолжить чтение

CLIP или SigLIP. База по Computer vision собеседованиям. Middle-Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании.Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки (BLIP , SigLIP

продолжить чтение

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Введение

продолжить чтение

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic) Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR). Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.

продолжить чтение