Токмагамбетов А.Ш., Капшаев И.Р.
Казахстанско-Британский
Технический Университет
Об одном подходе моделирования человеческого лица в задачах
распознавания образов
В данном докладе приводится обзор методов определения человеческого лица на
изображении, использующих эвристический подход «базирующийся на знаниях
сверху-вниз» (knowledge based top-down methods).
Методы определения человеческого лица, использующие эвристику,
разрабатываются на базе правил, определяемых знаниями исследователя о строении
человеческого лица. Действительно, легко понять простые правила описывающие
особенности человеческого лица и взаимосвязи между ними.
Для
примера, изображения человеческих лиц часто содержат два глаза, которые
симметричны относительно друг друга,
нос и рот. Отношения между особенностями могут быть представлены по их
относительному расположению и расстоянию между ними. Особенности лица во
входном изображении выделяются первыми, и предполагаемое изображение лица
идентифицируется на основе заданных правил. Процесс проверки обычно применяется
для уменьшения количества ложных срабатываний.
Основной недостаток данного подхода – сложность представления человеческих
знаний о строении человеческого лица в виде правил. Если правила сильно
детализированы, то они могут не срабатывать для изображений человеческих лиц,
которые под эти правила не подходят. Если правила слишком общие, то они будут
давать большое количество ложных срабатываний. Кроме того, трудно использовать
этот подход для определения человеческих лиц в различных позициях (позах),
посколько невозможно описать все возможные при этом варианты. С другой стороны,
эвристика хорошо работает в задачах определения лица, расположенного на
изображении фронтально с незагроможденным фоном.
Янг и Хуанг (Yang, Huang) [1] использовали эвристический «базирующийся на
знаниях» метод определения человеческих лиц. Их система состояла из трех
уровней правил. На самом высоком уровне, все предполагаемые изображения лиц
находились путем сканирования окна, скользящего по входному изображению и
применения набора правил для каждого участка. Правила на высоком уровне – это
общее описание того как выглядит человеческое лицо, тогда как, на лежащих ниже
уровнях правила базировались на особенностях человеческого лица в деталях.
Создавались три изображения путем последовательного усреднения и
субсэмплирования входного изображения. Изображение с самым низким разрешением
(уровень 1) сканировалось на наличие «потенциальных лиц» с передачей полученных
результатов на уровень с более высоким разрешением. На уровне 2 осуществлялось
выравнивание гистограмм на изображениях «потенциальных лиц» полученных на
уровне 1, с последующим определением границ (краев) изображений. Выжившие
области-кандидаты затем прогонялись через третий уровень с другим набором
правил, отвечающим за особенности лица, такие как нос и рот. Было осуществлено
тестирование данной системы на наборе из 60 изображений и в 50 случаях
человеческое лицо было найдено, но в 25 изображениях были обнаружены ложные
срабатывания. Одна из притягательных особенностей данного метода – это
использование стратегий «от грубого к точному» и «в центре внимания» для
уменьшения количества необходимых вычислений. Несмотря на то, что метод не
показал высоких результатов, идея использования последовательности изображений
с различным разрешением и правил для поиска была использована позднее в работах
[2].
Котрополос и Питас (Kotropoulos, Pitas) [2] разработали и представили метод
обнаружения на основе правил, сходный с [1], [3]. Во-первых, особенности лица
локализуются методом проекций, который Канаде (Kanade) [3] успешно использовал
для нахождения границ (краев) человеческих лиц на изображениях. Пусть - интенсивность
изображения в точке , горизонтальная и вертикальная проекции изображения
определяются как , . Вначале вычисляется горизонтальный профиль входного
изображения, а затем два локальных минимума, определяемых по резкому изменению , считаются соответствующими левому и правому глазу головы.
Аналогично, вычисляется вертикальный профиль, и локальные минимумы определяют
положение губ, кончика носа и глаз лица. Эти локализованные особенности и
составляют предполагаемую область-кандидат на обнаружение. Затем правила
«брови-глаза», «ноздри-нос» и «губы-рот» используются для проверки найденных
областей изображения. Метод был протестирован с использованием набора
фронтальных изображений человеческих лиц, взятых из базы данных ACTS M2VTS [4],
который содержал видеоизображения последовательности 37 различных людей. Каждая
последовательность изображений содержала изображение лица только одного
человека на постоянном фоне. Метод показал корректное обнаружение областей-кандидатов
во всех тестах. Если считать за корректное обнаружение лица корректное
обнаружение всех его особенностей, то степень точности данного метода
составляет 86.5%. Существенные недостатки метода – невысокая степень точности
обнаружения для входных изображений содержащих несколько человеческих лиц на
неоднородном фоне. Как показывает практика, метод проекций показывает хорошие
результаты если входное изображение не содержит вводящих в заблуждение
наложений.
ЛИТЕРАТУРА
1. G. Yang
and T.S. Huang Human face detection in complex background. Pattern
Recongnition, 27(1): 53 – 63, 1994.
2. C.
Kotropoulos and I. Pitas. Ruled based face detection in frontal views. In
Proceedings of International Conference on Acoustics, Speech and Signal
Processing, volume 4, pages 2537 – 2540, 1997.
3. T.
Kanade. Picture processing by computer complex and recognition of human faces.
PhD thesis, Kyoto University, 1973.
4. S.
Pigeon and L. Vandendrope. The M2VTS multimodal face database. In Proceedings
of the First International Conference on Audio- and Video- based Biometric
Person Authentication, 1997.