Как нейрофизиологи Дэвид Хьюбел и Торстен Визель неожиданно для себя помогли в создании машинного зрения. Блог компании Online patent.. Блог компании Online patent. история.. Блог компании Online patent. история. научно-популярное.. Блог компании Online patent. история. научно-популярное. нейрофизиология.. Блог компании Online patent. история. научно-популярное. нейрофизиология. Патентование.. Блог компании Online patent. история. научно-популярное. нейрофизиология. Патентование. Производство и разработка электроники.. Блог компании Online patent. история. научно-популярное. нейрофизиология. Патентование. Производство и разработка электроники. Физика.
Как нейрофизиологи Дэвид Хьюбел и Торстен Визель неожиданно для себя помогли в создании машинного зрения - 1

В начале 1960-х у нас и в Америке появилась новая разновидность машинного зрения – лазерная, и приборы лазерного машинного видения – лидары. Во второй половине того десятилетия уже продавались промышленные тепловизоры. В основанном в 1966 году Центе искусственного интеллекта Стэнфордского исследовательского института построили программируемого робота колесиках, оснащенного антенной, телекамерой, ультразвуковыми дальномерами и чувствительными демпферами на случай столкновений, способного двигаться по заданному пути, самостоятельно обходя препятствия, а поскольку он при этом все время сам трясся, его так и назвали Shakey (Трясун). Уиллард Бойл и Джордж Смит из Bell Labs изобрели ПЗС-матрицу из светочувствительных диодов, которую окрестили «вездесущим цифровым глазом», новой цифровой ипостасью фотопластинок, фотопленок, телекамер, фотоэлектронного умножителя и т.п. 

Словом, шла свои чередом эволюция классического, докомпьютерного машинного зрения, берущего свое начало от камеры-обскуры, и новых его разновидностей, которая заметно оживилась после появления в 1957 году цифровой фотографии новорожденного сына инженера Рассела Кирша из Национального института стандартов и технологий США, отсканированной Киршем и помещенной в память мейнфрейма SEAC, где с ней можно было экспериментировать на уровне машинного программирования, что в свою очередь положили начало таким областям машинного зрения, как компьютерная обработка изображений и распознавание образов.

На этом фоне яркой заплаткой выглядит статья нейрофизиологов из Гарвардской медицинской школы Дэвида Хьюбела и Торстена Визеля «Рецептивные поля, бинокулярное взаимодействие и функциональная архитектура зрительной коры головного мозга кошки», опубликованная в 1962 году в чисто биологическом «The Journal of Physiology», которая присутствует во многих таймлайнах эволюции машинного зрения как знаковая веха. 

Здесь, вероятно, надо иметь в виду следующее. Двумя годами ранее в тоже чисто биологическом «Журнале общей физиологии» была опубликована статья «Анатомия и физиология зрения лягушки (Rana pipiens). Ее авторами были сотрудники Исследовательской лаборатории электроники MIT Уолтер Питтс и Уоррен Маккалок, которые, как известно в 1943 году впервые формализовали нейронную сеть в виде ее математической модели. Их статья 1960 года о зрении леопардовой лягушки, которая в Америке такая же обычная, как у нас травяная, была, как гласит сноска под ней «частично профинансирована Армией США (Корпус связи), ВВС США (Управление научных исследований, Командование воздушных исследований и разработок) и ВМС США (Управление военно-морских исследований), очевидно, озабоченных тем, нельзя ли снабдить их танки, самолеты и корабли с подлодками хотя бы таким самостоятельным зрением, как у лягушки. 

Смешного в этом ничего нет. Питтс и Маккалок ставят перед собой вопрос: выполняет ли сетчатка глаза лягушки анализ и выделяет ли значимые параметры, которые позволят распознать универсалии, или этот анализ выполняется только позже в зрительных центрах? После серии опытов и расчетов отвечают на него так. Нервные узлы образуют пять естественных (природных) классов. Четыре из них воздействуют на зрительный образ, выполняя сложные аналитические операции, которые остаются неизменными при изменении общего освещения и общей картины видимого окружения. А пятый класс измеряет интенсивность света. Их операции с нервными окончаниями кратко описаны в их названиях: 

  • Класс 1. Обнаружение устойчивых краев – с нестираемым удержанием;

  • Класс 2. Обнаружение выпуклых краев – со стираемым удержанием;

  • Класс 3. Обнаружение изменения контрастности; 

  • Класс 4. Обнаружение затемнения;

  • Класс 5. Обнаружение в темноте. 

Иными словами, у них над формированием увиденного изображения работают те же демоны Селфриджа, только выдрессированные природой за миллионы лет не вопить по поводу и без повода, а молча исполнять свои функции. Эти функция сетчатки лягушки заключается не в передаче информации о точечном распределении света и темноты в формируемом на ней изображении. Напротив, мы обнаруживаем, пишут Питтс и Маккалок, что ее функция заключается главным образом в анализе этого изображения в каждой точке (постоянные края, изгибы, изменение контрастов и локальное уменьшение интенсивности света) и измерения освещенности, и затем в отправке этой информации в бугорки (зрительные холмики в среднем мозге рыб и земноводных, или к Пандемониуму по терминологии Селфриджа), где окончательно формируется картинка увиденного.

Зрение у лягушки черно-белое. Более сложное, с точки зрения нейрофизиологии, зрение у высших животных – млекопитающих, к которым относятся и кошки. Их-то и выбрали для своего исследования Дэвид Хьюбел и Торстен Визель. Желающие, кому не претит чтение об их методиках исследования, похожих на изощренное издевательство над котами во имя науки, могут самостоятельно почитать их работу. Но при всем желании там трудно найти что-либо принципиально новое и конкретное для программирования машинного зрения по сравнению с работой Питтса и Маккалока о зрении лягушки. Разве что то, что функциональных разновидностей клеток в сетчатке глаза кошек много и работают они бригадами, отсылая импульсы в места слияния их нейронов в коре и подкорке головного мозга, где послания бригад бинокулярного зрения левого и правого глаза сливаются в латеральном коленчатом теле подкорки. 

Это если говорить именно о данном исследовании Хьюбела и Визеля 1962 года. Окончательный вариант их теории зрения не только кошек, но и приматов, включая нас с вами, за который они получили в 1981 году Нобелевскую премию по физиологии и медицине «за открытия, касающиеся принципов переработки информации в зрительной системе», в нейрофизиологии был «важным шагом вперед», как отметил Нобелевский комитет. Но такие шаги вперед в этой области науки продолжаются до сих пор и пока нельзя сказать, сколько еще придется их сделать, чтобы получить окончательную картину переработки зрительной информации в нашем мозге. 

А в начале 1960-х годов, когда Хьюбел и Визель постулировали присутствие в зрительной коре иерархических структуры нейронов: нейроны — детекторы признаков, комплексные нейроны и гиперкомплексные нейроны. Но «анализ закодированного сообщения, поступающего от сетчатки, в зрительной коре происходит так, как если бы определенные клетки считывали простые буквы в сообщении и складывали их в слоги, которые затем считываются другими клетками, а те, в свою очередь, складывают слоги в слова, которые, наконец, считываются другими клетками, складывающими слова в предложения, которые отправляются в высшие центры мозга, где возникает зрительное впечатление и сохраняется память об изображении» (закавычена выдержка из пресс-релиза Нобелевского комитета – Ред.), – все это ничего нового для программирования машинного зрения не давало. 

Если пользоваться терминологией Селфриджа образца 1959 года, демоны-вычислители присутствовали и в первой математической модели искусственной нейросети Питтса и Макссалока с 1943 года. Потом то, что они работают не в одиночку, а методом бригадного подряда в виде нейронных «клеточных синаптических ансамблей», показал Дональд Хебб в 1949 году. Что «не только заложило фундамент того, что сегодня известно как машинное обучение, но и обеспечила понимание того, как мы выживаем в этом мире». Ну, а потом Розенблатт сконструировал машину, где ансамбли вычислительных и когнитивных демонов формировали изображения из увиденных ими паттернов в трехслойной нейросети компьютера, то есть аналоге нашей коры головного мозга или, во всяком случае, ее зрительной зоны. И что тут, если не считать гипнотического воздействия их Нобелевской премии на историков машинного зрения, добавили в 1962 году Хьюбел и Визель? Если по-честному, то лягушка Питтса и Маккалока 1960 года с гораздо большими основаниями, чем коты Хьюбела и Визеля, может претендовать на роль знаменательной вехи в истории машинного зрения.

Далее нейрофизиология зрения и ее математическое моделирование с целью научить машину видеть окружающий мир глазами лягушки, кошки и наконец человека шли своим путем. А после появления первых расплывчатых цифровых фотографий, полученных пока еще методом цифрового сканирования, инженеры и изобретатели, далекие от нейрофизиологии, начали лечить астигматизм компьютерного зрения путем повышения числа пикселей. И по мере возрастания вычислительной мощности тогда уже полупроводниковых мейнфреймов это лечение шло вполне успешно. 

Краткая история машинного зрения: как инженеры научили компьютер переводить изображения из 2D в 3D

Еще на заре создания машинного зрения возникло желание превратить изображение на фотогрфии из плоского двумерного в объемное трехмерное, тем более что для классической фотографии на пленке, пластике или бумаге уже давно были изобретены стереоскопы и демонстрировались стереофильмы.

Пионером в этой области стал инженер-электронщик Лоуренс (Ларри) Робертс из Лаборатории Линкольна Массачусетского технологического института. Потом он перешел на работу в Агентство перспективных оборонных исследовательских проектов МО США, где стал руководителем программы ARPANET и ныне входит в почетный список «пионеров Интернета». Но в его альма-матер, MIT, Ларри Робертса упрямо называют «отцом компьютерного зрения», потому что именно у них он в июне 1963 года защитил диссертацию на степень PhD по теме «Машинное восприятие трёхмерных тел».

«Для того, чтобы компьютер мог создавать и отображать трехмерный массив твердых объектов на основе одной двухмерной фотографии, были проанализированы и механизированы правила и допущения восприятия глубины, – писал Робертс в своей диссертации. – Эти допущения позволяют компьютеру получать разумное трехмерное описание на фотографии с помощью математического топологического процесса. Была написана компьютерная программа, которая может преобразовать фотографию в линейный рисунок и преобразовать линейный рисунок в трехмерный. Процессы преобразования 2D-конструкции в 3D-конструкции и их отображения являются достаточно общими… и обеспечивают ценную отправную точку для будущих исследований автоматизированных трехмерных систем».

В разделе о благодарностях всем, принявшим участие в написании его диссертации Робертс помимо своих научных руководителей и официального оппонента упоминает программиста Леонарда Хантмана, который написал большую часть программы для его математической модели, и, что особенно интересно, Айвена Сазерленда, который на полгода раньше, в январе того же 1963 года, на том же ученом совете MIT защитил свою диссертацию «Sketchpad — графическая коммуникационная система между человеком и машиной». Они оба тестировали свои программы на одном и том же мейнфрейме ТХ-2, и оба в свои�� диссертациях благодарили руководство Лаборатории Линкольна за то, что их к нему вообще допустили. Все-таки Холодная война…

Надо сказать, что на трехмерные картинки Ларри Робертса отреагировали не только айтишники, но и нейрофизиологии того времени. Они были, как говорится, в своем репертуаре. Оказалось, что и в их опытах «трехмерные твердые тела обладают свойствами восприятия, отличными от простых поверхностей или репрезентативных проекций в рамках некоторой концептуальной схемы или системы отсчета, включающей психические процессы, отличные от процессов восприятия». А если такое объяснение верно, рассуждали они, то оно «предполагает вмешательство обучения, приобретение систем отсчета и, следовательно, активность концептуальных или интеллектуальных процессов. В то же время подобные предположения требуют дальнейшего изучения, как в отношении роли сигналов конвергенции/аккомодации и бинокулярного зрения, так и в более широкой области взаимосвязи между восприятием объектов и восприятием движущихся изображений». Словом, кто о чем, а нейрофизиологии о мыслительном процессе.

Разумеется, мимо историков машинного зрения не могло пройти и такое событие, как машинное распознавание лиц, точнее сравнение оцифрованных фотографий лиц людей из базы данных с фотографией конкретным человека, то есть, по сути, компьютерный бертильонаж. 

Изобретатель этого метода выпускник Калифорнийского университета в Беркли математик Вудро Бледсоу работал в Сандийской национальной лаборатории Министерства энергетики США в Альбукерке, штат Нью-Мексико, и был там уже признанным специалистом по машинному зрению (вот, например, одна из его работ «Распознавание образов и считывание их машинным способом» 1959 года). Говорят, что распознаванием лиц с помощью компьютера он занялся для ЦРУ, но в 2014 году данное ведомство официально отказалась прояснить этот вопрос, и более осторожные историки машинного зрения пишут, что финансировало это исследование доктора Бледсоу «неназванное разведывательное агентство». Финансировало, вероятно, щедро: в 1960 году Вудро Бледсоу основал собственную компанию Panoramic Research, Inc. (PRI).

С помощью графического планшета оператор определял на лице координаты таких элементов, как центр зрачка, внутренний угол глаза, внешний угол глаза, точка надбровной дуги и т.д.  Результаты такой чистого вида биометрии по методу Альфонса Бертильона сохранялись в компьютере и служили основой для сравнения их с данными интересующего оператора компьютера человека. Понятно, что такой алгоритм работал только с фотографиями в анфас, и было маловероятно, что на двух снимках будут совпадать поворот головы, ее наклон, мимика лица. Но как бы там ни было, алгоритм Вудро Бледсоу работал. Работал медленно, оператор мог обработать 40 лиц в час, но вина в этом была оператора, а не компьютера. Результат же узнавания после обработки нескольких сотен фотографий был в общем-то обнадеживающий для дальнейшего совершенствования метода Бледсоу. 

Однако в «неназванном разведывательном агентстве», судя по всему, решили иначе. В 1966 году Вудро Бледсо ушел из собственной компании в Техасский университет в Остине преподавать там математику и компьютерные науки. А его работа по распознаванию лиц была продолжена в Стэнфордском исследовательском институте. Слишком долго пришлось бы рассказывать, что было потом, но в начале нашего века уже можно было идентифицировать лица в видеозаписях в режиме реального времени, а потом и тепловизором в темноте, а про прогресс распознавания ЛОМов в соцсетях говорить, наверное, излишне. Но первым шагом на этом пути был алгоритм «представления и сопоставления изобразительных структур (pictorial structures)», как назвали его авторы – Мартин Фишлер и Роберт Эльшлагер из Исследовательской лаборатории в Пало-Альто Lockheed Missiles & Space Company. 

«Получив описание визуального объекта, найдите этот объект на реальной фотографии, – пишут они в одном из отчетов о своей работе. – Объект может быть простым, например, линия, или сложным, например, океанская волна, а описание может быть лингвистическим, графическим, процедурным и т.д. Сама фотография будет называться “воспринимаемой сценой”, представляющей собой двумерный массив значений уровня серого цвета». И продолжают: «Центральной проблемой во многих работах, связанных с компьютерной обработкой графических данных, является проблема репрезентации. Поскольку мы не можем манипулировать реальным объектом (самим по себе) в компьютере, мы попытаемся создать представление (или модель), которое можно использовать вместо реального объекта и которое обладает следующими (несколько перекрывающимися) свойствами». 

Далее они перечисляют эти свойства: полнота, компактность (для минимизации требований к объему памяти компьютера), возможность преобразования, возможность постепенного изменения, точность и простота перевода на язык программирования. «За последние десять лет или около того большая часть работ, связанных с графическим представлением, была ограничена областью линейных рисунков и использованием формальных лингвистических методов, – пишут они. – Попытки распространить эту работу на сцены местности, облачные покровы, человеческие лица и т.д., которые могут быть осмысленно описаны только в терминах компонентов изображения, которые не являются линейными элементами, а представляют собой области с цветами, текстурами, оттенками и т.д., не увенчались большим успехом».

Что же касается успеха самих Фишлера и Эльшлагера, то они провели в общей сложности около 400 экспериментов со своей моделью поиска и нахождения искомого объекта на черно-белых фотографиях, в том числе 40 пейзажных и городских, и проверили то, что они считали главным в своем алгоритме последовательной оптимизации (типа динамического программирования) – существенного сокращения вычислительных требований (они росли линейно с размером изображения, а не экспоненциально). Что для программистов компьютеров начала 1970-х было немаловажным ограничением. Кто ж тогда мог поручиться, что в самое ближайшее время рост вычислительной (производительной) мощности и памяти компьютеров начнет расти как раз экспоненциально, а не линейно.

На этом, пожалуй, можно закончить раннюю историю современного машинного зрения, когда был заложен его фундамент, и все остальное строилось на нем. Именно тогда, по окончании закладки этого фундамента, стало предельно ясно, что если не зацикливаться на машинном обучении, которое шло своим чередом, в том числе и в области машинного зрения, то само по себе компьютерное зрение обладало потенциалом, который позволял ему превзойти зрение человека, не вооруженного какими-либо дополнительными зрительными приборами, в видении многих конкретных вещей. Например, текстуры, производственных и транспортных потоков, охранных периметров, тех же черт лица, и т.д., когда человек просто не состоянии усмотреть все или просто не успевает выделить нужное. 

Чем и озаботилась инженерно-изобретательская мысль в последние два десятилетия прошлого века и начале нынешнего и продолжает заниматься и поныне. Были заложены основы теории анализа динамических сцен, позволяющей распознавать движущиеся объекты в видеопотоке. Появились интеллектуальные камеры, коммерческие системы визуального контроля, разного рода зрячие роботы. Стало возможным восстанавливать сцены по моментальным снимкам. Значительно повысилось качество и возможности компьютерной графики, дав ей такие инструменты как рендеринг и морфинг изображений и сшивание панорамных изображений. И многое другое, даже простое перечисление чего займет много места. Таких перечислений, кратких и подробных, в сети множество, начиная от курсовых работ студентов и кончая солидными монографиями IT-истор��ков. 

Была даже сформулирована очередная парадигма машинного зрения, на этот раз Марра, предполагающая последовательность восходящих уровней информации об изображении объекта (растровое изображение, неструктурированная информация) к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т. п.). То есть та же по свой сути демонологическая парадигма Селфриджа.

Наверное, не лишним также будет еще раз обратить внимание на то, что создание математических моделей машинного зрения и их реализация на вычислительных машинах сильно повлияло на нейробиологию в целом и физиологию ВНД в частности. Биологи при изучении зрения животных и человека сразу после появления этих математических моделей руководствовались ими в своей работе и руководствуются ими поныне. Хотя это математики и инженеры обычно танцуют от живой природы и биологических универсалий, а не наоборот, как в данном случае.

Ну, а в заключение, кому интересно, может посмотреть машинную визуализацию патентного ландшафта 2022 года, построенного на основе алгоритмов загрузки в компьютер патентных архивов, парсинга патентных документов и их кластеризации на основе модели латентного размещения Дирихле. И заодно глянуть на визуализированный ретроспективный патентный ландшафт США и Китая, лидеров в области патентования машинного зрения. Там видно, как за последние десять лет китайцы обогнали по патентам в этой области американцев в два раза. Всё только начинается.

О сервисе Онлайн патент

Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам:

Автор: kiselevd

Источник

Rambler's Top100