РАСПОЗНАВАНИЕ ЛИЦ НА ОСНОВЕ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ С ПРИМЕНЕНИЕМ ВЕЙВЛЕТ-ДЕСКРИПТОРОВ ХААРА И ДОБЕШИ
В.Г. Спицын1, Ю.А. Болотова1, Н.В. Шабалдина2, Буй Тхи Тху Чанг3, Фан Нгок Хоанг3
1 Национальный исследовательский Томский политехнический университет, Россия
2 Национальный исследовательский Томский государственный университет, Россия
3 Ba Ria – Vung Tau University, Ba Ria – Vung Tau, Vietnam
vl.gr.sp@gmail.com, julya21@hotbox.ru, nataliamailbox@mail.ru, trangbt.084@gmail.com, hoangpn285@gmail.com
Содержание
3. Алгоритм распознавания лиц на изображениях
3.1. Процесс создания базы признаков объектов
3.2. Процесс распознавания объекта
3.3.1. Исследование влияния значения порога δ на точность распознавания
4. Алгоритм распознавания лиц на видеозаписях
4.1. Процесс создания базы данных индивидуальных признаков лиц на видеозаписях
4.2. Процесс распознавания лиц на видеопоследовательностях
Аннотация
Предложен оригинальный алгоритм распознавания лиц на основе комбинации вейвлет-преобразования и метода главных компонент (PCA). На первом этапе признаки лица извлекаются из изображений на основе применения комбинации вейвлет-преобразований Хаара и Добеши. Затем, полученные вейвлет-дескрипторы используются для распознавания лиц на основе применения метода главных компонент. Результаты проведенных численных экспериментов показывают, что самый высокий уровень точности распознавания лиц наблюдается при использовании именно комбинации вейвлет-преобразований Хаара и Добеши. Предложенный алгоритм позволяет осуществлять эффективное распознавание лиц на изображениях в присутствии импульсного шума и является сопоставимым с известными аналогами по точности распознавания. Для решения проблемы распознавания лиц на видеозаписях разработан алгоритм, основанный на изложенном выше алгоритме распознавания лиц на изображениях и методе Виолы-Джонса. Детектирование объектов в видеопотоке осуществляется на основе применения метода Виолы-Джонса, который обладает высокой скоростью и приемлемой точностью. Представлены результаты сопоставления точности распознавания лиц на видеозаписях предложенным алгоритмом с данными, полученными на основе применения алгоритма «Associative neural networks» (ANN).
Статья получена редакцией журнала 29.04.2016
Ключевые слова: Распознавание лиц, вектор признаков, вейвлет-преобразования Хаара и Добеши, метод главных компонент.
В настоящее время успешно развивается направление, связанное с обработкой и интеллектуальным анализом данных. Проблема распознавания лиц является одной из основных практических проблем, решение которых способствует значительному развитию теории распознавания образов [1-3]. Распознавание лиц используется в различных сферах человеческой деятельности [4-7]. Это направление появилось в начале 1980-х, но его активная разработка началась в 1990-х годах во время создания информационно-поисковых систем распознавания для идентификации личности.
Проблема автоматизированного распознавания лиц является относительно новой и еще не до конца решенной. За последние несколько лет был предложен целый ряд различных подходов для детектирования и распознавания объектов, таких как фильтры Габора [8, 9], метод главных компонент (PCA) [10], нейронные сети [11, 12], эволюционные алгоритмы, алгоритм AdaBoost, машины опорных векторов, сверточные нейронные сети и т.д. Однако эти подходы имеют недостаточную точность, надежность и скорость в реальной сложной среде, характеризующейся наличием шума на изображениях и видеопоследовательностях.
Методы, используемые для решения задачи распознавания лиц, должны обеспечивать достаточную точность распознавания и высокую скорость обработки видеозаписей. Таким образом, необходимо совершенствовать методы и алгоритмы распознавания лиц на статических изображениях и видеозаписях в реальном времени.
В данной работе предлагается способ выделения признаков объектов в изображениях, основанный на сочетании вейвлет-преобразований Хаара и Добеши, которое позволяет распознавать объекты более эффективно по сравнению с использованием вейвлет-преобразований Хаара и Добеши по-отдельности. Способ выделения признаков состоит из следующих этапов: преобразование и изменение размеров изображений, извлечение вейвлет-коэффициентов, расчет средних вейвлет-коэффициентов.
Первоначально входное изображение преобразуется из формата RGB в цветовое пространство YUV. Затем полутоновое изображение сокращается до размеров 64 × 64 пикселей. После этого к черно-белому изображению применяются вейвлет-преобразования Хаара и Добеши первого уровня [13], при этом извлекаются низкочастотные коэффициенты XLL(x, y) и DLL(x, y), где х = 1, .., 32; у = 1, .., 32. На рисунке 1 приведены изображения низкочастотных вейвлет-коэффициентов, которые получаются путем применения вейвлетов Хаара и Добеши к полутоновому изображению.
вейвлет Хаара |
вейвлет Добеши |
Рис. 1. Низкочастотные компоненты исходного изображения после применения вейвлет-преобразования Хаара и Добеши
Из рисунка 1 следует, что средний уровень значений яркости при применении вейвлет-преобразования Хаара располагается ниже, чем средний уровень яркости при применении преобразования Добеши. Значения вейвлет-коэффициентов Хаара имеют меньший разброс по амплитуде по сравнению с соответствующими значениями для вейвлет-коэффициентов Добеши.
Для осуществления комплексного вейвлет-преобразования предлагается вычисление среднего арифметического вейвлет-коэффициентов Хаара и Добеши по формуле:
где x = 1,..,32; y = 1,..,32.
Характерная особенность преобразования Хаара заключается в том, что оно является разделимым и легко вычислимым. По сравнению с вейвлет-преобразованием Хаара, вейвлет-преобразование Добеши имеет более высокую вычислительную сложность. Вейвлеты Добеши являются функциями, вычисляемыми итерационным путем. В процессе выполнения преобразования происходит перекрытие между итерациями. Можно предположить, что именно за счет перекрытия применение вейвлетов Добеши позволяет учесть детали, которые пропущены вейвлетами Хаара. Общая схема алгоритма выделения признаков показана на рисунке 2.
Рис. 2. Схема алгоритма выделения признаков изображения
Для решения задачи распознавания лиц на статических изображениях предложен алгоритм, основанный на совместном применении предложенного способа выделения признаков объектов и PCA.
Сначала происходит извлечение признаков лиц предложенным алгоритмом c использованием комбинации вейвлет-преобразований Хаара и Добеши. Затем применяется метод главных компонент для выделения “главных” признаков лиц, на основе которых формируются “собственные лица” (eigenfaces). Собственные лица были предложены в работах Sirovich, Kirby [14] и использовались Matthew Turk и Alex Pentland для распознавания лиц [15].
Алгоритмы для распознавания лиц на изображениях и видеозаписях включают создание базы данных признаков лиц.
Процесс создания базы признаков из М изображений объектов обучающей выборки, основанный на совместном применении вейвлет-преобразований Хаара, Добеши и PCA, состоит из следующих этапов:
1. выделение признаков каждого изображения объекта обучающей выборки на основе совместного применения вейвлет-преобразований Хаара и Добеши;
2. представление полученных вейвлет-коэффициентов в виде вектора , где i = 1,..,M;
3. вычисление среднего изображения по формуле: ;
4. вычитание среднего изображения из каждого изображения ,
5. вычисление собственных объектов: где – собственные векторы матрицы , ;
6. вычисление для каждого объекта соответствующего ему вектора в пространстве собственных объектов, где ;
7. сохранение полученного вектора в базе.
После того, как создана база признаков, процесс распознавания нового входного объекта выполняется следующим образом:
1. выделение признаков объекта входного изображения на основе совместного применения вейвлет-преобразований Хаара и Добеши;
2. представление полученных вейвлет-коэффициентов в виде вектора ;
3. вычисление для входного объекта соответствующего ему вектора в пространстве собственных объектов, где ;
4. сопоставление входного объекта с каждым известным объектом из базы признаков на основе вычисления расстояния Евклида:
;
5. определение принадлежности входного объекта к известному объекту путем сравнения величины dk со значением порога δ. Если величина расстояния Евклида dk меньше значения порога δ для некоторого k, то такое изображение объекта принадлежит k-му классу. Иначе оно считается нераспознанным.
В этом разделе приводятся результаты двух экспериментов со 100 изображениями 10 человек (по 10 изображений каждого лица) базы ORL Database of Faces [16]. В первом эксперименте исследуется влияние значения порога распознавания δ на точность распознавания. Второй эксперимент проводился для исследования эффективности работы комбинаций вейвлет-преобразований Хаара, Добеши (в работе реализован вейвлет Добеши 4 порядка (Д4)) и РСА при решении задачи распознавания лиц в присутствии шума на изображениях.
Для оценки эффективности процесса распознавания применяются вероятности ошибки первого (False Acceptance Rate, FAR) и второго рода (False Reject Rate, FRR). Уровнем равной ошибки называется точка, в которой ошибка первого рода равна ошибке второго рода.
В работе рассматривались следующие комбинации:
· вейвлет-преобразование Хаара и PCA (Хаар+PCA);
· вейвлет-преобразование Добеши и PCA (Д4+PCA);
· вейвлет-преобразования Хаара, Добеши и PCA (Хаар+Д4+PCA).
Для обучения используются 100 обучающих выборок, содержащих 50 случайных изображений лиц (из 100). Для тестирования используются 100 тестовых выборок, содержащих 50 оставшихся из 100 изображений базы ORL. Затем к изображениям подготовленных тестовых выборок из базы ORL были добавлены 165 изображений базы Yale Face Database [17] для вычисления ошибки первого рода.
Зависимость ошибки первого и второго рода от значений порога δ при распознавании лиц приведена на рисунке 3.
Рис. 3. Ошибки первого и второго рода при различных значениях порога распознавания δ
Из приведенного рисунка 3 следует, что уровень равной ошибки у каждой комбинации является различным. Значение порога δ для каждой комбинации находится в следующих диапазонах: 1300–2500 для комбинации Хаар+РСА и 1700–2200 для комбинации Д4+РСА и Хаар+Д4+РСА. Для сравнения результатов распознавания лиц всеми комбинациями было выбрано общее значение δ равное 1700.
На рисунке 4 представлены результаты распознавания лиц различными комбинациями при использовании общего значения порога (δ = 1700).
Рис. 4. Результаты распознавания лиц различными комбинациями при использовании общего значения порога признания лица
Показано, что наилучшая точность распознавания лиц достигается комбинацией вейвлет-преобразований Хаара, Добеши и РСА и составляет 97,6% на тестовых изображениях.
Таким образом, в дальнейшем при проведении численных экспериментов было решено принять пороговое значение δ равным 1700 для комбинации вейвлет-преобразований Хаара, Добеши и РСА.
В данном эксперименте были созданы дополнительные тестовые выборки из базы ORL путем добавления 5 и 10% импульсного шума к изначальным тестовым изображениям.
Результаты численных экспериментов по распознаванию лиц различными комбинациями представлены на рисунке 5.
Рис. 5. Результаты распознавания лиц на основе применения различных комбинаций вейвлет-дескрипторов
Показано, что комбинация вейвлет-преобразований Хаара, Добеши и PCA дает наилучшую точность распознавания лиц как в присутствии шума на изображениях, так и в его отсутствии.
Сравнение результатов тестирования разработанного алгоритма распознавания лиц с PCA на изображениях из БД ORL Face Databases приведены на рисунке 6.
Рис. 6. Результаты распознавания лиц из базы ORL
Показано, что комбинация вейвлет-преобразований Хаара, Добеши и PCA (Хаар+Д4+PCA) распознает лица эффективнее, чем один PCA, и разница между ними становится более заметной в условиях зашумленных изображений.
Результаты, полученные на основе предложенного алгоритма для распознавания лиц на изображениях, сопоставлялись с данными, полученными на основе применения ряда алгоритмов, таких как: 1 – PCA Moment Invariant Face Colour; 2 – PCA Moment Invariant; 3 – PDBNN (Probabilistic Decision-based Neural Network); 4 – Point-matching; 5 – Pseudo 2-D HMM (Hidden Markov Models) DCT (Discrete Cosine Transform); 6 – LVQ (Learning Vector Quantization) RBF (Radial Basic Function) FEC (Forward Error Correction); 7 – PCA RBF; 8 – UDT (Uncorrelated Discriminant Transformation); 9 – Wavelet RBF; 10 – RBF; 11 – Gabor PCA; 12 – комбинация вейвлет-преобразований Хаара, Добеши и PCA (рисунок 7) [18].
Рис. 7. Сравнение различных алгоритмов на задаче распознавания лиц из базы ORL
Метод Point-matching показал худшие результаты. Результаты работы предложенного алгоритма сопоставимы с методами: PCA Moment Invariant Face Colour, PCA Moment Invariant, PDBNN, PCA RBF, UDT, Wavelet RBF и Gabor PCA.
Для решения проблемы распознавания лиц на видеозаписях предлагается алгоритм, основанный на изложенном выше алгоритме распознавания лиц на изображениях и методе Виолы-Джонса.
Для детектирования объектов в видеопотоке применяется метод Виолы-Джонса [19]. Он является наиболее популярным среди методов детектирования лиц на изображениях, обладает высокой скоростью и приемлемой точностью. Детектор лиц Виолы-Джонса основывается на трех главных идеях: интегральном представлении изображения, методе конструирования классификатора, основанного на алгоритме адаптивного бустинга (AdaBoost), и методе объединения классификаторов в каскадную структуру. Указанные идеи позволяют построить робастный детектор лиц, способный работать в режиме реального времени.
Предположим, что имеется обучающее множество, состоящее из М кадров, на каждом из которых присутствует один человек. Процесс создания базы признаков объектов выглядит следующим образом:
1. представление каждого из M кадров обучающего множества в виде полутонового изображения;
2. применение к каждому полутоновому изображению метода Виолы-Джонса для определения области лица на изображении;
3. создание базы признаков M лиц из детектированной области.
Распознавание лиц на видеозаписях осуществляется следующим образом:
1. представление каждого последующего кадра в виде полутонового изображения;
2. применение к полученному полутоновому изображению метода Виолы-Джонса для нахождения N областей, содержащих лица;
3. завершение процесса распознавания каждого k-го из N обнаруженных лиц.
Для тестирования работы алгоритма распознавания лиц на видеозаписях используется база видеороликов NRC-IIT: Facial Video Database с кадрами, размером 160×120 пикселей [19]. База содержит 10 пар коротких видеороликов (один видеоролик для обучения, второй – для тестирования), в которых показываются лица пользователей компьютера. Эти пользователи находятся перед монитором, совершая поступательные и вращательные движения головой. Лицо занимает от 1/4 до 1/8 части изображения.
При проведении экспериментов по распознаванию лиц на видеозаписях применялся алгоритм, основанный на комбинации вейвлет-преобразований Хаара, Добеши и PCA и метода Виолы-Джонса. Скорость работы предложенного алгоритма позволила распознавать лица в режиме реального времени. На рисунке 8 представлены результаты сравнения точности распознавания лиц на видеозаписях предложенным алгоритмом с данными, полученными на основе применения алгоритма «Associative neural networks» (ANN) [20].
Рис. 8. Точность распознавания лиц на видеопоследовательностях
Результаты распознавания лиц на видеозаписях в режиме реального времени показывают в среднем более высокую точность по сравнению с результатами, полученными с применением алгоритма ассоциативных нейронных сетей.
В работе представлен эффективный метод извлечения признаков и распознавания лиц на изображениях и видеозаписях. Вначале извлекаются признаки лиц на основе применения вейвлет-преобразований Хаара и Добеши. Затем полученные признаки подаются на вход алгоритма, основанного на методе главных компонент. Для определения класса соответствующего в базе данных поданному на вход изображению применяется метрика Евклида. Результаты тестирования показывают, что предложенный алгоритм имеет высокую скорость и эффективно осуществляет распознавание лиц.
FACE RECOGNITION ALGORITHM BASED ON PCA USING HAAR AND DAUBECHIES WAVELET TRANSFORM
V.G. Spitsyn1, Yu.A. Bolotova1, N.V. Shabaldina2, Phan Ngoc Hoang3, Bui Thi Thu Trang3
1 Tomsk Polytechnic University, Russian Federation
2 Tomsk State University, Russian Federation
3 Ba Ria-Vung Tau University, Vietnam
vl.gr.sp@gmail.com, julya21@hotbox.ru, nataliamailbox@mail.ru, trangbt.084@gmail.com, hoangpn285@gmail.com
Abstract
In this paper we present a novel algorithm for face recognition using combination of wavelet transforms and principal component analysis (PCA). Face features are extracted using combination of Haar and Daubechies wavelet transform. Then obtained features are used for face recognition via PCA (eigenfaces). The experimental results show that the highest face recognition accuracy rate is obtained using the combination of Haar and Daubechies wavelet transforms for face features extraction. The proposed algorithm gives an effective performance of face recognition on noisy images and competes on the accuracy recognition with state-of-the-art algorithms. Some experiments were conducted on videos. The Viola-Jones method was used for face detection. The results were compared with «Associative neural networks» (ANN).
Keywords: Face recognition, vector features, Haar and Daubechies wavelet-transform, principal component analysis.