Магистрант. Мухамедияров Р.М.

Казахский национальный технический университет К.И.Сатпаева, Алматы, Казахстан

Машинное зрение: понятия, задачи и области применения

1. Основные определения и понятия машинного зрения

Машинное зрение - это научное направление в области искусственного интеллекта, в частности робототехники, и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.

Машинное зрение теснейшим образом взаимодействует с такими областями как Компьютерное зрение, Обработка изображений, Анализ изображений, Распознавание образов и т.д. Также нет стандартной формулировки того, как должна решаться проблема данной области и часто трудно однозначно отнести возникающие задачи и применяемые методы решения к одной из этих областей. Если сделать обзор технических приемов, алгоритмов, методов обработки изображений, которые используются и разрабатываются в этих областях, можно увидеть, что они являются более или менее идентичными.

Машинное зрение сосредотачивается на применении, в основном промышленном, например, автономные роботы и системы визуальной проверки и измерений. Это значит, что технологии датчиков изображения и теории управления связаны с обработкой видеоданных для управления роботом и обработка полученных данных в реальном времени осуществляется программно или аппаратно.

Обработка изображений и Анализ изображений в основном сосредоточены на работе с 2D изображениями, т.е. как преобразовать одно изображение в другое. Например, попиксельные операции увеличения контрастности, операции по выделению краёв, устранению шумов или геометрические преобразования, такие как вращение изображения. Данные операции предполагают, что обработка/анализ изображения действуют независимо от содержания самих изображений.

Компьютерное зрение сосредотачивается на обработке трехмерных сцен, спроектированных на одно или несколько изображений. Например, восстановлением структуры или другой информации о 3D сцене по одному или нескольким изображениям. Компьютерное зрение часто зависит от более или менее сложных допущений относительно того, что представлено на изображениях.

Также существует область названная Визуализация, которая первоначально была связана с процессом создания изображений, но иногда имела дело с обработкой и анализом. Например, рентгенография работает с анализом видеоданных медицинского применения.

Наконец, Распознавание образов является областью, которая использует различные методы для получения информации из видеоданных, в основном, основанные на статистическом подходе. Значительная часть этой области посвящена практическому применению этих методов.

Таким образом, можно сделать вывод, что понятие «машинное зрение» на сегодняшний день включает в себя: компьютерное зрение, распознавание зрительных образов, анализ и обработка изображений и т.д.

Основными элементами современных систем машинного зрения можно назвать камеру, с помощью которой получают изображение, плату ввода, оцифровывающую изображение,  и плату управления движением. Технология машинного зрения имеет несколько этапов работы системы. Первым этапом является получение изображения контролируемого объекта. Далее полученное изображение необходимо ввести в промышленный контроллер или другой компьютер, где происходит компьютерная обработка, анализ полученных данных и принятие решений в соответствие с заложенной программой управления. Заключительным этапом является вывод управляющих воздействий на исполнительные устройства.

В целом, в задачи систем машинного зрения входит получение цифрового изображения, обработка изображения с целью выделения значимой информации на изображении и математический анализ полученных данных для решения поставленных задач.

 

2. Задачи машинного зрения

Каждая из областей применения машинного зрения, описанных выше, связана с рядом задач; более или менее хорошо определенные проблемы измерения или обработки могут быть решены с использованием множества методов. В задачи, рассматриваемые в рамках машинного зрения, в частности, входят:

·    Обнаружение/распознавание/отслеживание объектов, обладающих определенными свойствами (в самом широком смысле) на статическом изображении и в видеопотоке;

·    Восстановление 3D формы по 2D изображениям с помощью:

o  Стереореконструкции карты глубины;

o  реконструкции поля нормалей и карты глубины по закраске полутонового изображения;

o  реконструкции карты глубины по текстуре;

o  определения формы по перемещению.

·    Выделение на изображениях структур определенного вида (например краев - резких переходов яркости), сегментация изображений (например на области, однородные по определенному признаку);

·    Анализ оптического потока (нахождения перемещения пикселей между двумя изображениями).

Распознавание/обнаружение. Классическая задача в компьютерном зрении, обработке изображений и машинном зрении это определение содержат ли видеоданные некоторый характерный объект, особенность или активность. Эта задача может быть достоверно и легко решена человеком, но до сих пор не решена удовлетворительно в компьютерном зрении в общем случае: случайные объекты в случайных ситуациях.

Существующие методы для решения таких проблем могут быть достоверно решены только для отдельных объектов, таких как простые геометрические объекты (например, многогранники), человеческие лица, печатные или рукописные символы, автомобили и только в определенных условиях, обычно это определенное освещение, фон и положение объекта относительно камеры.

В литературе описано различное множество проблем распознавания:

·     Распознавание: один или несколько предварительно заданных или изученных объектов или классов объектов могут быть распознаны, обычно вместе с их двухмерным положением на изображении или трехмерным положением в сцене.

·     Идентификация: распознается индивидуальный экземпляр объекта. Примеры: идентификация определенного человеческого лица или отпечатка пальцев или автомобиля.

·     Обнаружение: видеоданные проверяются на наличие определенного условия. Например, обнаружение возможных неправильных клеток или тканей в медицинских изображениях. Обнаружение, основанное на относительно простых и быстрых вычислениях иногда используется для нахождения небольших участков в анализируемом изображении, которые затем анализируются с помощью приемов, более требовательных к ресурсам, для получения правильной интерпретации.

Существует несколько специализированных задач, основанных на распознавании текстов, например:

·     Поиск изображений по содержанию: нахождение всех изображений в большом наборе изображений, которые имеют определенное содержание. Содержание может быть определено различными путями, например в теминах схожести с конкретным изображением (найдите мне все изображения похожие на данное изображение), или в терминах высокоуровневых критериев поиска, вводимых как текстовые данные (найдите мне все изображения, на которых изображено много домов, которые сделаны зимой и на которых нет машин).

·     Оценка положения: определение положения или ориентации определенного объекта относительно камеры. Примером применения этой техники может быть содействие руке робота в извлечении объектов с ленты конвейера на линии сборки.

·     Оптическое распознавание знаков: распознавание символов на изображениях печатного или рукописного текста, обычно для перевода в текстовый формат, наиболее удобный для редактирования или индексации (например, ASCII).

Восстановление сцены. Даны два или больше изображения сцены, или видеоданные. Восстановление сцены имеет задачей воссоздать трехмерную модель сцены. В простейшем случае, моделью может быть набор точек трехмерного пространства. Более сложные методы воспроизводят полную трехмерную модель.

Восстановление изображений. Задача восстановления изображений это удаление шума (шум датчика, размытость движущегося объекта и т.д.). Наиболее простым подходом к решению этой задачи являются различные типы фильтров, таких как фильтры нижних или средних частот. Более сложные методы используют представления того, как должны выглядеть те или иные участки изображения, и на основе этого их изменение.

Более высокий уровень удаления шумов достигается в ходе первоначального анализа видеоданных на наличие различных структур, таких как линии или границы, а затем управления процессом фильтрации на основе этих данных.

Анализ оптического потока. Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатываются для нахождения оценки скорости каждой точки изображения или 3D сцены. Примерами таких задач являются:

·         Определение трехмерного движения камеры

·         Слежение, т.е. следование за перемещениями объекта (например, машин или людей)

 

3. Области применения машинного зрения

Методы машинного зрения находят применение в следующих областях:

·         Медицина (автоматический анализ медицинских изображений рентген, томография, УЗИ);

·         Охранные системы (идентификация личности, детекторы движения, распознавание и отслеживание движущихся объектов, распознавание автомобильных номеров и т.д.);

·         Естественный интерфейс человек-компьютер, основанный на жестах, мимике и голосовых командах пользователя, не обремененный устройствами "удобными компьютеру" (клавиатурой, мышью);

·         Мультимедия-приложения, игры (реальный пример - автоматическое создание модели игрока для Quake3), расширенная реальность (комбинация виртуального окружения и реальных объектов);

·         Системы распознавания рукописного и печатного текста;

·         Сжатие видео с учетом содержимого передающегося видеопотока;

·         Промышленность (дефектоскопия, контроль качества, промышленные роботы)

o  автомобилестроение;

o  электроника;

o  машиностроение;

Одним из наиболее важных применений является обработка изображений в медицине. Эта область характеризуется получением информации из видеоданных для постановки медицинского диагноза пациентам. В большинстве случаев, видеоданные получают с помощью микроскопии, рентгенографии, ангиографии, ультразвуковых исследований и томографии. Примером информации, которая может быть получена из таких видеоданных является обнаружение опухолей, артериосклероза или других злокачественных изменений. Также примером может быть определение физического состояния человека по выражениям его лица и т.д. Эта прикладная область также способствует медицинским исследованиям, предоставляя новую информацию, например, о строении мозга или качеству медицинского лечения.

Другой прикладной областью машинного зрения является промышленность. Здесь информацию получают для целей поддержки производственного процесса. Примером может служить контроль качества, когда детали или конечный продукт автоматически проверяются на наличие дефектов. Другим примером является измерение положения и ориентации деталей, поднимаемых рукой робота.

Военное применение является, пожалуй, самой большой областью машинного зрения. Очевидными примерами являются обнаружение вражеских солдат и транспортных средств и управление ракетами. Наиболее совершенные системы управления ракетами посылают ракету в заданную область, вместо конкретной цели, а селекция целей производится, когда ракета достигает заданной области, основываясь на получаемых видеоданных. Современное военное понятие, такое как "боевая осведомленность", подразумевает, что различные датчики, включая датчики изображения, предоставляют большой набор информации о поле боя, которая может быть использована для принятия стратегических решений. В этом случае, автоматическая обработка данных используется, чтобы уменьшить сложность или увеличить надежность получаемой информации.

Одними из новых областей применения являются автономные транспортные средства, включая подводные, наземные (роботы, машины), воздушные. Уровень автономности изменяется от полностью автономных (беспилотных) до транспортных средств, где системы, основанные на машинном зрении, поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства используют компьютерное зрение для навигации, т.е. для получения информации о месте своего нахождения, для создания карты окружающей обстановки, для обнаружения препятствий. Они также могут быть использованы для определенных задач, например, для обнаружения лесных пожаров. Примерами таких систем могут быть система предупредительной сигнализации о препятствиях на машинах и системы автономной посадки самолетов. Некоторые производители машин демонстрировали системы автономного управления автомобилем, но эта технология все еще не достигла того уровня, когда её можно запустить в массовое производство.

Литература:

1.     Computer Vision: A Modern Approach by D. A. Forsyth and J. Ponce, Prentice Hall, Upper Saddle River, N.J., 2002

2.     Computer Vision. L. Shapiro and G. Stockman, Prentice-Hall, Upper Saddle River, N.J., 2000

3.     К. Фу. Структурные методы в распознавании образов. Издательство «Мир». Москва, 1977.

4.     Эдвард А. Патрик. Основы теории распознавания образов. Москва «Советское радио», 1980.

5.     Искусственный интеллект. Современный подход. Стюарт Рассел, Питер Норвиг. Москва/Санкт-Петербург/Киев, 2006.

6.     http://graphics.cs.msu.ru/

7.     http://ru.wikipedia.org