ТЕХНОЛОГИИ ОБРАЗНОГО АНАЛИЗА В ЗАДАЧАХ ЦИФРОВОЙ
ОБРАБОТКИ РЕЧЕВОЙ ИНФОРМАЦИИ

 

В. Алюшин, С. Дворянкин

Национальный исследовательский ядерный университет «МИФИ», Москва, Россия

AVictor2007@yandex.ru, svdvoryankin@mephi.ru

 

 

Оглавление

 

Введение

Синтез речи по изображению сонограммы

Используемое программное обеспечение

Сравнение различных видов синтеза речи по изображению спектрограмм

Медианная фильтрация

Заключение

Список литературы

 

 

Аннотация

 

Данная работа посвящена исследованию возможностей образного анализа-синтеза изображений сонограмм речевых сигналов в различных областях применения: кодирование речи, нейтрализация помех и искажений, идентификация говорящего, компрессии речи и др. Описаны различные алгоритмы синтеза звуковых сигналов на основе заданного изображения сонограммы. Представлен сравнительный анализ качества различных алгоритмов синтеза на основе: всей сонограммы, локальных максимумов,  кратных основному тону гармоник с оригинальной или синтезированной фазой. При анализе качества учитывались такие показатели, как время работы алгоритма и степень отличия между сонограммами исходного и синтезированного сигналов. Для количественной оценки степени отличия введено понятие нормы разности. Все описанные алгоритмы синтеза были реализованы в едином программном комплексе “SoundTool”, использующем технологию параллельного программирования NVidia Cuda для ускорения вычислений. Данный комплекс также позволяет  осуществить редактирование сонограммы звукового сигнала, ее импорт или экспорт для редактирования в стандартных графических редакторах, а также проводить медианную фильтрацию для нейтрализации узкополосных помех, в частности, наводок от сети электропитания.

 

Ключевые слова: речевой сигнал, звуковая визуализация, помехи, шумоочистка, синтез, сонограмма, преобразование Фурье.

 

 

Введение

 

При реализации различных технологий речевой обработки довольно часто возникает задача поиска и использования наиболее понятной для человека формы представления такого сложного акустического сигнала как человеческая речь в синхронизации процедур речепреобразования со временем.

Наиболее часто используемая и понятная форма представления звукового сигнала может совпадать с осциллограммой сигнала по области представления “амплитуда-время”: s(t). Осциллограмму, в свою очередь, можно расщепить на две формы: огибающую A(t) и фазу φ(t). В то же время, по мнению большинства исследований [8-10], большей наглядностью обладают формы представления аудиосигнала, получаемые в результате Фурье, Хартли или вейвлет-преобразования звукового сигнала [10,11]. Из них наиболее распространенным и обладающим понятным физическим смыслом является преобразование Фурье, позволяющее представить речевой сигнал в частотно-временной области в виде сонограммы A(ω, t), где A – амплитуда гармоники с частотой ω в момент времени t. При этом в анализируемом изображении сонограммы в рамках окна наблюдения яркость пикселя пропорциональна логарифму амплитуды. В случае анализа фазограмм φ(ω, t) яркость пикселя может быть пропорциональна модулю синуса или косинуса фазы.

В пользу визуального представления звуковых сигналов также свидетельствует тот факт, что больше половины информации человек привык получать с помощью зрения, в связи с чем анализ графических образов проще для человека, чем анализ звуков.

Такого рода интерпретации в виде Фурье-спектрограмм широко используются при идентификации говорящего и некоторых других задачах акустики, но очень бы хотелось совершить обратный переход к сигналу, обладающему измененными спектральными характеристиками. Такой переход от изображения к звуку тем более востребован, что в настоящее время активно развиваются методы обработки изображения в связи с развитием систем видеораспознавания, видеорегистрации и др. Поэтому нами была предпринята попытка дать возможность использовать разработанные методы обработки изображений применительно к решению задач обработки звуковых сигналов. Эта попытка основана на том, что обратный переход от изображения к звуку может быть проведен благодаря особенностям человеческого слуха, невосприимчивого к плавному изменению некоторых фазовых параметров, благодаря чему возможен синтез такого речеподобного сигнала по изображению сонограммы с синтетически найденной фазой. Если все преобразования “речь-изображение-речь” сделаны корректно и изображение спектрограмм не подверглось никаким изменениям, то такой синтезированный сигнал будет восприниматься слушателем как исходная речь.

На рисунке 1 представлена алгоритмическая схема предполагаемого подхода к речевой обработке на основе образного анализа изображений сонограмм, суть которого заключается в следующем:

1. По исходному речевому сигналу строится изображение его сонограммы и/или фазограммы (если последняя необходима) [11];

2. Проводится обработка полученного изображения при помощи специализированных средств или стандартных графических редакторов для решения задач кодирования речи, нейтрализации помех и искажений, идентификации говорящего, компрессии и др. [10,12];

3. По новому обработанному изображению сонограммы с использованием исходной или синтезированной фазы генерируется новый речеподобный сигнал со спектрограммой, соответствующей обработанному в п. 2 изображению [10].

4. Если характеристики синтезированной речи не удовлетворяют пользователя, происходит повтор выполнения пунктов 1-3.

 

Рис. 1. Схема предлагаемого подхода к анализу и обработке речевых сообщений.

 

Для решения некоторых задач обработки речевых сообщений, в частности их шумоочистки от широкополосных помех, требуется восстановить гармоническую структуру вокализованных участков речи. В данном случае короткие фрагменты вокализованных участков РС в самом общем виде можно представить как [16]:

 

,                                 (1)

 

где  - амплитуда -й гармоники основного тона; ; - частота основного тона; - номер гармоники, обертона.

Для невокализованных звуков вместо приведенной формулы дискретной суммы можно использовать интегральное представление вида [16]:

 

                                   (2)

 

где- спектральная амплитудная плотность на частоте .

Аналитическое представление сигнала через преобразование Гильберта полезно тем, что с его помощью можно найти значения параметров опорных точек, отвечающих за разборчивость речи на кратковременных амплитудных и фазовых спектрах речевого сигнала. Однако, при прямом использовании Гильбертовского описания РС, выражение его фазы в математическом плане не является определенным в широком диапазоне времени и частоты. Это затрудняет практическую реализацию прямого подхода к вычислению начальной фазы φ(0) речевого сигнала по приведенному аналитическому выражению.

На рисунке 2 представлены осциллограмма и сонограмма звукового сигнала до и после обработки посредством преобразования “речь-изображение-речь”. В качестве примера показано решение задачи шумоочистки зашумленной речи.

 

Рис. 2. Осциллограмма и сонограмма звукового сигнала до и после обработки
посредством преобразования “речь-изображение-речь”

 

Алгоритмы построения сонограмм на первом шаге представленного алгоритма довольно хорошо изучены и обладают достаточно высокой точностью, поэтому разборчивость речи в очищенном звуковом сообщении в рассмотренном примере определяется:

1) правильностью нахождения сетки;

2) точностью нахождения и определения помех на втором шаге;

3) точностью синтеза речи по изображению сонограммы на третьем шаге.

Рассмотрим третий пункт более подробно.

 

 

Синтез речи по изображению сонограммы

 

В приведенном выше примере после нахождения и удаления помех с изображения сонограммы важным шагом на пути получения разборчивой речи является качественный синтез звука по изображению сонограммы. Было предложено использовать три вида синтеза:

1. по всему изображению сонограммы;

2. по локальным максимумам узкополосных составляющих (следам) речи [10];

3. по кратным основному тону гармоникам [12].

Как отмечалось выше, для проведения обратного Фурье-преобразования можно использовать оригинальную фазу сигнала или синтетически найденную фазу. Тогда:

1)  в начальный момент времени полагаем фазу первого спектрального среза равной нулю или случайному числу (на разборчивость речи это не влияет);

2)  в каждый следующий момент времени фаза гармоники с номером i находится по формуле

 

,   (3)

 

где N – фаза Фурье,  – фаза j-ого элемента дискретного преобразования Фурье  в момент времени t;

3)  если на предыдущем временном слое не найдена гармоника с ненулевой амплитудой, то фаза берется нулевой/случайной.

 

 

Используемое программное обеспечение

 

Все описанные выше виды синтеза, а также алгоритмы построения спектрограммы и фазограммы звукового сигнала были реализованы в разработанном программном комплексе “Sound Tool”, использующем технологию параллельного программирования NVIDIA CUDA для ускорения всех вычислений. Графической интерфейс данного ПО изображен на рисунке 3.

 

Рис. 3. Графический интерфейс ПО “Sound Tool”.

 

Разработанный программный комплекс позволяет открывать звуковые файлы в формате “wav” и “pcm”, открывать и строить изображения сонограмм и фазограмм, находить основной тон и кратные ему гармоники вокализованных участков речи, находить локальные максимумы на каждом временном срезе спектрограммы, а также проводить медианную фильтрацию произвольного изображения. В данном программном комплексе также были созданы интерактивные методы обработки изображений спектрограмм: ластик, антиластик, выделение, перемещение и удаление отдельных участков изображения.

Все дальнейшие сравнения различных видов синтеза речи по изображениям проводились с использованием программного комплекса “Sound Tool".

 

 

Сравнение различных видов синтеза речи по изображению спектрограмм

 

Для поиска наиболее быстрого и точного метода синтеза речи по картинке было проведено сравнение шести видов синтеза: по всей сонограмме, по локальным максимумам и по кратным основному тону гармоникам с оригинальной или синтетически найденной фазой (таблица 1).

 

Таблица 1. Результаты различных видов синтеза

 

Оригинальная фаза

Синтетическая фаза

Синтез по всей сонограмме

Синтез по локальным максимумам

Синтез по кратным основному тону гармоникам

 

Сравнение перечисленных выше видов синтеза проводилось по двум параметрам: по степени похожести изображений сонограмм до и после синтеза (таблица 2), а также по времени работы алгоритма (таблица 3).

В качестве критерия при сравнении изображений использовалась метрика Минковского:

 

,   (4)

 

где N и M – высота и ширина изображений соответственно,  и  - яркости (от 0 до 255) пикселя с координатами (i, j) на исходном изображении и на сонограмме полученного в результате синтеза звукового файла соответственно. Перед сравнением изображений производилась нормировка их яркости. Для этого по формуле (5) была рассчитана средняя яркость каждого изображения A, после чего яркость каждого пикселя на изображении была поделена на A:

 

,                            (5)

 

Данная метрика является довольно просто реализуемой и быстро вычислимой и позволяет сравнивать два изображения без учета масштабирования или сдвига (в результате синтеза речи по картинке и дальнейшего построения сонограммы масштабирование и сдвиг объектов на изображении практически отсутствуют). В случае, если при оценке качества синтеза не принципиально сильное изменение яркостей небольшого количества точек на изображении сонограммы, следует использовать другие метрики при сравнении изображений: корреляционные, спектральные или контекстные метрики.

 

Таблица 2. Результаты сравнения изображений сонограмм до и после синтеза

 

Оригинальная фаза

Синтетическая фаза

Синтез по всей сонограмме

0.000258

0.00967

Синтез по локальным максимумам

0.00679

0.00921

Синтез по кратным основному тону гармоникам

0.0171

0.0200

 

Самой большой точностью обладает синтез по всей сонограмме с оригинальной фазой. При использовании синтетической фазы точности синтеза по всей сонограмме или по локальным максимумам практически одинаковы. На слух результаты синтеза по всей сонограмме или по локальным максимумам практически не отличаются. Самая маленькая точность у синтеза по кратным основному тону гармоникам, - при данном виде синтеза из речи пропадает большая часть шумов и шипящих звуков.

 

Таблица 3. Время работы ПО “SoundTool” при различных видах синтеза (мсек)

 

Оригинальная фаза

Синтетическая фаза

Синтез по всей сонограмме

812

906

Синтез по локальным максимумам

828

843

Синтез по кратным основному тону гармоникам

829

844

 

При использовании стандартной библиотеки быстрого дискретного преобразования Фурье наиболее быстро работает синтез по всей сонограмме, т.к. при этом процессорное время не тратится на зануление некоторых элементов сонограммы. Однако, в случае проведения обратного дискретного преобразования Фурье только над ненулевыми элементами наибольшей скоростью будет обладать синтез по кратным основному тону гармоникам (из-за максимального количества нулевых элементов), а наименьшей – синтез по всей сонограмме.

Подводя итог, получаем, что для сохранения сонограммы сигнала следует использовать синтез по локальным максимумам как наиболее быстрый, а для наилучшего сохранения смысла речи следует использовать синтез по кратным основному тону гармоникам.

 

 

Медианная фильтрация

 

Еще одним способом удаления помех из звукового сообщения является медианная фильтрация, представляющая собой операцию сглаживания спектра, предназначенную для удаления в нем нехарактерных для речи резких перепадов и выравнивания динамического диапазона среднего спектра с целью компенсации амплитудно-частотных искажений сигнала в канале связи или звукозаписи. На рисунке 4 показана спектрограмма сигнала до медианной фильтрации, а на рисунке 5 – после.

 

Рис. 4. Спектрограмма сигнала до медианной фильтрации

 

Рис. 5. Спектрограмма сигнала после медианной фильтрации

 

После медианной фильтрации значительно ослабляется амплитуда узкополосных помех, в частности, помех от сети питания 50 Гц.

 

 

Заключение

 

В настоящее время актуальной является задача цифровой обработки аудио-сигналов, в частности, шумоочистки речевых сообщений, записанных в неблагоприятной шумовой обстановке или переданных через линии связи низкого качества. Для ее решения в связи с активным развитием систем видеорегистрации и распознавания образов было предложено использовать образный анализ изображений сонограмм речевых сигналов, получаемых в результате Фурье-преобразования осциллограммы звукового файла. Для конвертации очищенного от помех изображения обратно в звук предложено использовать несколько видов синтеза: по локальным максимумам, по всей сонограмме и по кратным основному тону гармоникам. Самый лучший результат по удалению широкополосных шумов показывает синтез по кратным основному тону гармоникам, а для удаления узкополосных шумов – медианная фильтрация. Для создания с минимальными временными затратами звукового файла со спектрограммой, соответствующей заданному изображению, следует проводить синтез по всей сонограмме при использовании стандартной библиотеки быстрого дискретного преобразования Фурье и синтез по локальным максимумам при использовании оптимизированного преобразования Фурье, учитывающего только ненулевые элементы. Для удаления помех с изображений сонограмм можно использовать стандартные графические редакторы или специализированные средства для обработки сонограмм (Лазурь, Sound Tool) в случае трудноопределимых помех.

 

 

Список литературы

 

1. Максимов Е.М., Ромашкин Ю.Н., Лопатина С.А. Актуальные задачи речевой акустики. - Речевые технологии. № 2, 2008 г.  С. 66 - 70.

2. Михайлов В.Г. Из истории исследований преобразования речи. - Речевые технологии. № 1, 2008 г.  С. 93 - 113.

3. Жиляков Е.Г., Курлов А.В., Эсауленко А.В., Котович Н.В. Об одном методе очистки речи от шумов на основе применения фильтрующей субполосной матрицы. - Доклады 11-й Международной Конференции DSPA-2011.

4. Гусятинский И.А., Пирогов А.А. Радиосвязь и радиовещание. - М.: Советское радио, 1974.

5. Сапожков М.А., Михайлов В. Г. Вокодерная связь. - М.: Радио и связь, 1983. 248 с, ил.

6. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991. 218 с., ил.

7. Кузнецов В.Б., Чучупал В.Я. Классификация звуков русской речи с помощью бинарных решающих деревьев. - Речевые технологии. № 2, 2008 г.  С. 24 - 35.

8. Женило В.Р. Компьютерная фоноскопия. - М.: Изд-во Акад. МВД России, 1995. - 208 c.

9. Азаров И.С., Петровский А.А. Вычисление мгновенных гармонических параметров речевого сигнала. - Речевые Технологии. № 1, 2008 г.  С. 67 - 77.

10.Дворянкин С.В. Цифровая шумоочистка аудиоинформации. Под ред. д.т.н., профессора А.В. Петракова. – М.: ИП РадиоСофт, 2011. 208 с.: ил.

11. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М.В. Назарова и Ю. Н. Прохорова. – М.: Радио и связь, 1981. 496 с., ил.

12. Алюшин В.М., Дворянкин С.В. Метод реконструкции гармонической структуры спектральных описаний искаженной шумами и помехами речи. – Известия института инженерной физики, 2013 г., том. 2, № 28, с. 57-62.

13. Дворянкин С.В., Козлачков С.Б., Харченко Л.А. Оценка защищенности речевой информации с учетом современных технологий шумоочистки. Вопросы защиты информации, 2007, № 2, с. 18-21.

14. Дворянкин С.В., Козлачков С.Б., Слободчиков А.С. О совершенствовании методологии защиты информации на основе трассового анализа речевого сигнала. Вопросы защиты информации, 2006, № 1, с. 54.

15. Козлачков С.Б. Методические аспекты оценки защищенности речевой информации. Спецтехника и связь, 2011, № 2, с. 44-47.

16. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов. - М.: Мир. 1989. - 448с.

 


 

THE TECHNOLOGY OF FIGURATIVE ANALYSIS IN THE PROBLEMS
OF SPEECH INFORMATION DIGITAL PROCESSING

 

V. Alyushin, S. Dvoryankin

National Research Nuclear University "MEPhI", Moscow, Russian Federation

AVictor2007@yandex.ru, svdvoryankin@mephi.ru

 

Abstract

 

This work is devoted to the research of the pattern analysis-synthesis possibilities for speech signals spectrograms images in the different areas of application: speech encoding, noise or distortion canceling, speaker identification, speech compression and etc. The different algorithms of sound signals synthesis on the predetermined spectrogram image basis are described. The comparative quality analysis for different synthesis algorithms on the basis of the: whole sonogram, local maximums, divisible to the main tone harmonics with the natural and synthesized  phase  are presented. The quality analysis was carry out taking into account the following algorithms characteristics: the algorithm performance and the  difference rate between the original and the synthesized sonograms.  With the aim to realize the difference rate quantitative measurement the notion "difference norm" is introduced.  All mentioned above synthesis algorithms have been embodied in a single software package “SoundTool”, which was developed using the parallel programming technology Nvidia CUDA in order of performance improvement. In addition, this software package also allows: the sound signal sonogram editing, sonogramm image import and export into standard graphical editors, median filtering for narrowband noise canceling, in particular, the electric power supply noise canceling.

 

Keywords: speech, sound visualization, noises, noise reduction, synthesis, sonogram, Fourier transformation.

 

References

 

1. Maksimov E.M., Romahskin U.N., Lopatina S.A. Aktualnye zadachi rechevoy akustiki [The speech acoustics actual tasks]. Rechevye tekhnologii [Speech technology], № 2, 2008, p. 66 - 70.

2. Mixailov V.G. Iz istorii issledovaniy preobrazovaniya rechi [From the history of speech research]. Rechevye tekhnologii [Speech technology], № 1, 2008, pp. 93 - 113.

3. Jilyakov E.G., Kyrlov A.V., Esaylenko A.V., Kotovich N.V. Ob odnom metode ochistki rechi ot shumov na osnove primeneniya filtruyuschey subpolosnoy matritsy [About the one method of cleaning speech from noise based on the filtration subband matrix application]. The 11-th International Conference DSPA-2011 reports.

4. Gysyatinskiy I.A., Pirogov A.A. Radiosvyaz i radioveschanie [The radio communication and broadcasting]. M.: Soviet radio, 1974.

5. Sapogkov M.A., Mikhailov V.G. Mikhaylov V. G. Vokodernaya svyaz [Vocoder communacations]. M.: Radio i svyaz [Radio and communication], 1983, p. 248, il.

6. Kalinctev U.K. Razborchivost rechi v tsifrovykh vokoderakh [The speech intelligibility in the digital vocoders]. - M.: Radio i svyaz [Radio and communication], 1991, p. 218, il.

7. Kyznetsov V.B., Chychypal V.Ya. Klassifikatsiya zvukov russkoy rechi s pomoschyu binarnykh reshayuschikh derevev [The Russian speech sounds classification using binary decision trees]. Rechevye tekhnologii [Speech technology], № 2, 2008, pp. 24 - 35.

8. Genilko V.R. Kompyuternaya fonoskopiya [The computer phonoscope science]. M.: Pub. The Academy of Russia Internal Affairs Ministry, 1995, pp. 208.

9. Azarov I.S., Petrovskiy A.A. Vychislenie mgnovennykh garmonicheskikh parametrov rechevogo signala [The speech signal immediate harmonic parameters calculation]. Rechevye tekhnologii [Speech technology], № 1, 2008, pp. 67 - 77.

10. Dvoryankin S.V. Tsifrovaya shumoochistka audioinformatsii [The digital noise reduction in audio]. Under redaction of p.h.d., professor A.V. Petrakova. – M.: IP RadioSoft, 2011. p. 208, il.

11. Rabiner L.R., Shafer R.V. Tsifrovaya obrabotka rechevykh signalov: Per. s angl. [The speech signals digital processing]. Translation from engl. Under redaction of M.V. Nazarov and U.N. Proxorov. M.: Radio i svyaz [Radio and communication], 1981, p. 496, il.

12. Alyushin V.M., Dvoryankin S.V. Metod rekonstruktsii garmonicheskoy struktury spektralnykh opisaniy iskazhennoy shumami i pomekhami rechi [The speech distorted by noises and disturbances spectral descriptions harmonic structure reconstruction method]. Izvestiya instituta injenernoy fiziki [The Engineering Physics Institute news], 2013, vol. 2, № 28, pp. 57-62.

13. Dvoryankin S.V., Kozlachkov S.B., Kharchenko L.A. Otsenka zaschischennosti rechevoy informatsii s uchetom sovremennykh tekhnologiy shumoochistki [The security evaluation of voice data with current noise reduction technology]. Voprosy zaschity informatsii [The information protection problems], 2007, № 2, pp. 18-21.

14. Dvoryankin S.V., Kozlachkov S.B., Slobodchikov A.S. O sovershenstvovanii metodologii zaschity informatsii na osnove trassovogo analiza rechevogo signala. [About the information security methodology improving on the speech signal trace analysis basis]. Voprosy zaschity informatsii [The information protection problems], 2006, № 1, p. 54.

15. Kozlachkov S.B. Metodicheskie aspekty otsenki zaschischennosti rechevoy informatsii [The Methodological aspects of  the speech information protection assessing]. Spetstekhnika i svyaz [Specialized machinery and communication], 2011, № 2, pp. 44-47.

16. Bleykhut R. Bystrye algoritmy tsifrovoy obrabotki signalov [The digital signal processing fast algorithms]. M.: Mir, 1989, p. 448.