До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый. COCO.. COCO. Data Engineering.. COCO. Data Engineering. Data Mining.. COCO. Data Engineering. Data Mining. tape.. COCO. Data Engineering. Data Mining. tape. yolo.. COCO. Data Engineering. Data Mining. tape. yolo. искусственный интеллект.. COCO. Data Engineering. Data Mining. tape. yolo. искусственный интеллект. компьютерное зрение.. COCO. Data Engineering. Data Mining. tape. yolo. искусственный интеллект. компьютерное зрение. Машинное обучение.. COCO. Data Engineering. Data Mining. tape. yolo. искусственный интеллект. компьютерное зрение. Машинное обучение. Обработка изображений.. COCO. Data Engineering. Data Mining. tape. yolo. искусственный интеллект. компьютерное зрение. Машинное обучение. Обработка изображений. язык мышления.

На стенде ваши модели обучаются буквально на десятках картинок вместо тысяч, и дают не меньше 86% точности, при этом обходят YOLO — без GPU-кластеров и эмэль‑псевдомагии.

Джекил и Хайд против священной коровы ML

Чуть больше 140 лет назад в Лондоне опубликовали готический роман Стивенсона “Странная история доктора Джекила и мистера Хайда”. Чтобы отметить этот юбилей, мы попросили их (Джекила и Хайда) помочь нам рассказать о новейших мировых достижениях в области компьютерного зрения, о которых почти никто пока не знает, но которые достигаются вот здесь, у всех под боком, на Руси (с небольшими нюансами некоторых удаленщиков). 

Кто где диктовал – угадайте сами.

Стенд, где десяток изображений и одна кнопка заменяют GPU-кластера и эмэль‑шаманство

Мы разработали уникальный во всех смыслах слова стенд. И с развитием стенда ML-щики будут ….й не нужны, потому что никаких действий от ML-щиков внутри больше требоваться не будет. Положите в стенд изображения (десяток‑другой, вместо тысяч),  понажимайте кнопки — получите результат.  

Чтобы пользоваться нашим стендом, не нужно быть айтишником, а можно – быть кем угодно. Вы можете  тренировать модель для себя. Айтишник может пригодиться на этапе наладки отправки данных с вашего приложения, камеры или чего угодно ещё в нашу систему, чтобы мгновенно получать ответ/результат. Либо для разметки данных, потому что у нас этого интерфейса пока еще нет.

Дальше – подробней.

Результаты стандартных бенчмарков

За последние пару недель мы поработали над детекцией и классификацией. Вот что получилось: Oracle Classification — 93.1%, Detection — 89.3%, mAP50 — 78.9%, mAP50‑95 — 60.0%. Предыдущие результаты: 87.3%, 84.2%, 78.1% и 58.9% соответственно.

Метрика

Было

Стало

Oracle Classification

87.3% 

93.1% 

Detection

84.2% 

89.3% 

mAP50

78.1% 

78.9% 

mAP50‑95

58.9% 

60.0% 

Классификация улучшилась почти на 6%, детекция — на 5.1% по нашим меркам. Конкретные COCO‑метрики выросли меньше: бенчмарки COCO сильно зависят от покрытия боксов и точности их размеров, а мы сейчас не максимизируем tight box prediction, а фокусируемся на детекции как таковой. Но нам не пришлось для того, чтобы сразу на несколько процентов улучшить и так SOTA-уровня результаты закупать GPU-кластеры, мы просто продолжили делать свою работу.

Кстати, наши модели очень-очень быстро тренируются. Чтобы вы понимали, RF-DETR, например, является первой реал-тайм моделью, которая получила > 60% на mAP50-95. (Хотя RF-DETR-2XL назвать реалтайм все-таки сложно, ибо она очень зависит от архитектуры GPU). Мы же получаем очень схожий результат, обладая скоростью намного выше, при этом не сосредотачиваясь на этой метрике и обрабатывая x4 скорость реал-тайма.

Очкарик, дай я добавлю. На днях немножк охреневшие сотрудники одного потенциального заказчика из горнодобывающей индустрии (почему охреневшие — в ближайшем памфлете напишем) загрузили в стенд 500 изображений, и получили сходу результат 86% детекции и классификации. Сходу, внимание. А не путём долгих дорогих эм‑эль извращений. Поднять этот результат до 95%+ для нас — относительно простая задача, благо мы уже разогнались по “рельсам распознавания”, которые же сами и построили. 

ML-индустрия плохо шарит в вычислениях

Мы давно знаем и даже иногда утверждаем, что вычисления не могут быть такими сложными, каковы они сегодня в ML-индустрии, что не нужно тратить на них, …дь, ах.лиард времени. Но вся ML (или ИИ, это одно и то же в нашем понимании) индустрия находится в положении прилежного школьника‑хорошиста, который знает математическую базу, но далеко не всегда умеет её использовать по назначению. Городит огород из сложносочинённых решений**, хотя есть простой прямой путь*. 

И еще мы заметили, что вся индустрия обладает тенденцией решить задачу на минимальном уровне (каждый рост рекордных значений – чаще всего в пределах пары процентов), выставляя ценой увеличение количества необходимых ресурсов буквально в десятки раз. У той же самой DiNO, например, нет по сути необходимости обладать сотней миллионов параметров для решения задач – без большей части этих параметров модель продолжала бы решать задачи на почти том же самом уровне, максимум снизив точность своих ответов на 2-3 %.

*(Поясним, что имеем в виду под “простым путем”. ИИ-шники, не читаете, а то расстроитесь и побежите доказывать, что ИИ – вот где предел технологий по вычленению смыслов из информации/данных самым эффективным способом. 

Так вот, ТАРе, конечно, не простой путь – практика общения, создания гипотез, теорем, формул, технологий, продуктов и решений со всеми “типами” слушателей это показывает. Наоборот, это очень НЕпростой путь именно потому, что решения на базе ТАРе просты, возможно даже максимально просты, максимально настолько, как может сжиматься и разжиматься информация в мозге человека).

**(А было время, когда иишный гуру Хинтон ругался во время своих выступлений на “традиционных” учёных за сложность их гипотез, теорем, формул, доказательств и прочее, и во всеуслышание заявлял о том, что его-де подходы, которые теперь громко обозвали ИИ, всё позволяют делать очень просто).

Язык Мышления против священных архитектур

Тот самый прямой путь, неведомый эмэльщикам, мы реализовали в стенде, ибо TAPe – универсален, а не создавался для детекции или классификации или для какой-нибудь друго конкретной задачи или подзадачи распознавания.  Стенд позволяет нивелировать шаг за шагом всё то, что те, кто не в теме, считают магией, а сами ML‑щики с удовольствием поддерживают репутацию, что они делают что‑то охрененное, куда простым людям путь заказан. Что‑то делают, разворачивают какие‑то дорогущие хреновины, загоняют какие‑то данные, делают какую‑то “магию”.  Но магии и не нужно. Нужна “всего-навсего” скрупулезная, жесточайшая, выведенная миллиардами лет эволюции эффективность человеческого мышления. Мы вместе Джерри Фодором называем это Языком Мышления, который мы смогли воплотить в TAPe, а TAPe – в TAPe-технологиях. Это и есть прямой путь.

Наши результаты уже сейчас сопоставимы с файн‑тюнинговыми дорогущими моделями, вокруг которых глубочайше колдовали эмэльщики. Хотя мы еще далеко не все фишки завели в прод – работаем над тем, как ввести их, не раскрывая ноу-хау. 

Передаю слово очкарику.

Немного технической базы про наши эксперименты

Спасибо, дорогой. Наши эксперименты с улучшением классификации привели нас к улучшению детекции за счёт того, что обе эти «головы» (не совсем так, но так нам проще их называть) соединены друг с другом. Детекция видит лучшие направления, если классификация работает лучше, а также может правильней организовать конечный ответ. Конкретно: модель была улучшена четырьмя маленькими архитектурными изменениями.

  • Тремор. Во время сбора патчей из боксов самих объектов (GT) мы стали сдвигать весь бокс случайным образом по обеим координатам X и Y на небольшой процент (не более 5% суммарно, чтобы не ухудшать результаты детекции). Это стандартный приём регуляризации: тремор помогает модели не запоминать тренировочные данные, а искать правила во время обучения.

  • Кластеризация тренировочных данных по размерам объектов. Из‑за патчей каждый бокс порождал разное количество патчей, и модель начинала «угадывать» объект по этому косвенному сигналу. COCO при этом сам по себе обладает размерными байасами. Решение — балансировать тренировочные данные по размеру, чтобы убрать shortcut «маленький с резкими границами → бутылка».

  • Балансировка по соотношению сторон бокса. Модель научилась угадывать объекты по тому, вертикальный или горизонтальный бокс: автомобили сбоку шире, спереди/сзади ближе к квадрату. Балансировка уже и по размеру, и по aspect ratio снова выбивает этот костыль.

  • Прототипирование. Балансировка привела к тому, что доминирующие размеры стали реже показываться, модель начала «забывать» объекты. Прототипирование даёт несколько описаний на класс и удерживает подтипы в памяти, параллельно уменьшая эффект проблем из двух предыдущих пунктов.

Нам пора, мы уходим. (Уходят).

Итого: кого мы зовём в стенд и с чем

Дорогие руководители всего и вся ИТ-направлений, доступ к стенду с возможностью файн-тюнинга посредством работы не только стенда, но и нашего спеца по TAPe+ML даст вам не только глобальное сокращение затрат на вычислительную составляющую вашего ML-решения, но и не нужных штатных единиц. 

Забудьте о тонне GPU, кластерах, серверах и проч. Просто тренируйте на нашем стенде «свои» модели. Но не всем дадим доступ, только вменяемым* – предупреждаем сразу.  

Тренируйте, а мы будем смотреть на ваши данные и результаты, совершенствовать методы, способы, добавлять их в стенд, советовать вам улучшайзинг, какие конкретно для вас нужно выбрать показатели, чтобы достигнуть максимального результата внутри нашей системы. Именно так это сейчас уже и работает. 

Если вы хотите начать работать со стендом на своих данных — пишите в мне в телегу или в личку например @oopatow Дообучение модели плюсом к COCO-классам тоже является частью стенда, как и другие варианты работы с данными клиента. Если хотите зайти сразу с пилотом, доменной задачей или корпоративным сценарием — тоже пишите: обсудим, как быстро это превращается в рабочий пайплайн, а не в очередной бесконечный ML‑проект.

*Критерии вашей вменяемости

Вменяемые – это те, кто:

  • понимает, что быстро только кошки родятся и мухи женятся, и не требуют всего, сразу, вчера, бесплатно, да еще и рассказать всё ноу-хау, убедить, что мы не мошенники, а еще облизать и т.д.; такие сразу идут лесом;

  • хоть что-то находит для себя в датах, достижениях и в состоянии построить логический ряд, например: 

    • теорема Байеса 1763 г – начало применения в МЛ – 10-20-е 21-го века;

    • преобразование Фурье 1807 год – 1965 год метод Кули/Тьюки – применение в CV и ML – по сю пору; 

    • Хинтон – 1-я диссертация на около-эмэльную тему – 1978 г., далее переезд в США, хождения по Кремниевой долине, 1986 год – backpropagation (хотя и не он автор), Канада, Торонто, Университет, в 2012 г – AlexNet, ImageNet, гугл, Нобелевка в 2024. 

    • Можете сами продолжить с другими несомненно уважаемыми людьми и достижениями. Нам, например, нравится Хопфилд и его квантовые отжиги, ассоциативные памяти и тоже Нобелевкой по физике в 2024 году – опять за ML

    Тогда как Теория Активного Восприятия:

  • основы заложены в 20-м веке;

  • первые применения на очень, надо признаться, примитивном, если исходить из предельных возможностей TAPe, уровне – 2010-е; 

  • 2020 г – глубокий НиР; 

  • технологический прорыв для небывалой задачи поиска видео по видео – конец 2024; 

  • технологический прорыв по TAPe+ML – конец 2025; 

  • COCO и детекция на базе TAPe+ML – конец марта 2026; 

  • 1-я итерация стенда на базе TAPe+ML 8 мая 2026; 

  • дальнейшие прогнозы нашей семимильной скорости стройте сами.

Всем пис.

Автор: oopatow

Источник