способ обнаружения пауз в речевых сигналах и устройство его реализующее

Классы МПК:	G10L15/00 Распознавание речи G10L11/02 обнаружение наличия или отсутствия сигналов речи
Автор(ы):	Витязев Владимир Викторович (RU), Розов Валерий Иванович (RU), Волченков Владимир Андреевич (RU)
Патентообладатель(и):	Государственное образовательное учреждение высшего профессионального образования "Рязанский государственный радиотехнический университет" (RU)
Приоритеты:	подача заявки: 2010-06-15 публикация патента: 10.12.2011

Изобретение относится к технике цифровой обработки речевых сигналов. Технический результат заключается в сокращении объема вычислительных операций при цифровой обработке речевых сигналов. Указанный технический результат достигается тем, что речевой сигнал с выхода электроакустического преобразователя суммируют с новым стабильным по частоте и амплитуде сигналом, полученную сумму сигналов усиливают, ограничивают по амплитуде и преобразуют путем перемножения с копией первичного речевого сигнала в новый сигнал, который сравнивают с установленным порогом и при превышении амплитуды полученного сигнала установленного значения порога принимают решение о наличии паузы в речевом сигнале. 2 н.п. ф-лы, 3 ил.

способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173

Формула изобретения

1. Способ обнаружения пауз в речевом сигнале, включающий сравнение сигнала, содержащего информацию о паузах, с пороговым уровнем, отличающийся тем, что генерируют вспомогательный предварительно установленной стабильной частоты и амплитуды сигнал, который суммируют с исходным речевым сигналом, затем суммарный сигнал усиливают, ограничивают по амплитуде и умножают с исходным речевым сигналом, который перед умножением усиливают и ограничивают по амплитуде, затем из полученного в результате перемножения сигнала выделяют упомянутый стабильной частоты сигнал и производят сравнение этого сигнала по амплитуде с пороговым уровнем, и по результатам сравнения определяют начало, конец и длительность паузы.

2. Устройство обнаружения пауз в речевом сигнале, включающее электроакустический преобразователь, пороговое устройство, отличающееся тем, что содержит генератор нового измерительного сигнала, сумматор, два усилителя-амплитудных ограничителя, перемножитель, фильтр низкой частоты, причем выход электроакустического преобразователя подключен к первому входу сумматора и к входу первого усилителя-амплитудного ограничителя, выход генератора нового измерительного сигнала подключен к второму входу сумматора, выход сумматора подключен к входу второго усилителя-амплитудного ограничителя, выход второго усилителя-амплитудного ограничителя подключен к первому входу перемножителя, выход первого усилителя-ограничителя подключен к второму входу перемножителя, выход перемножителя подключен к фильтру низкой частоты, а выход фильтра низкой частоты подключен к входу порогового устройства.

Описание изобретения к патенту

Изобретение относится к технике цифровой обработки речевых сигналов и может быть использовано в различных приложениях, например в системах аудиоархивации, в справочных службах, в системах передачи речевых сигналов, в области распознавания речи.

Известен способ обнаружения пауз в речевом сигнале [1], использующий коррекцию спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение. Недостатком этого способа является трудоемкость и сложность его осуществления.

Известен другой способ обнаружения пауз в речевом сигнале, использующий различие спектральных характеристик сигнала речи от сигнала в паузе (шума) [2]. Этот способ осуществляется путем определения спектрального отклонения сигнала речи от сигнала в паузе (шума) с применением оценивания параметров модели авторегрессии, сравнение суммы энергий сигнала речи и сигнала в паузе (шума) с порогом, вынесение решения о наличии на входе паузы, если уровень суммы энергий сигнала речи и сигнала в паузе (шума) ниже порогового уровня.

Недостатки данного способа: расчет характеристик инверсного фильтра проводится с применением оценивания параметров модели авторегрессии. Следует отметить, что эти модели эффективно работают, если шум «окрашен», в противном же случае, если шум абсолютно «белый», то порядок аппроксимирующей модели р должен быть бесконечно большим, что физически нереализуемо. В реальных условиях, как правило, наблюдаемый фоновый шум «окрашен» и в связи с этим может быть описан стохастическим разностным уравнением вида:

в котором порядок уравнения р - конечная величина, а параметры:

m - математическое ожидание,

способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ₀ - дисперсия сигнала в паузе,

способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 _k - коэффициенты линейного предсказания - определяются заранее.

Необходимо подчеркнуть, что при скачкообразном изменении параметров этого уравнения, при так называемой разладке, наблюдаемая случайная последовательность по-прежнему может быть описана следующим уравнением:

но, в общем случае, другого порядка и с неизвестными параметрами m₁, способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ₁, _k. При отсутствии априорной информации о значениях параметров уравнения (2) применяют одномерную решающую функцию, построенную на анализе значения порога вида Y= способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ₁/ ₀. В случае если величина отношения ₁/ ₀ превышает порог, то принимается решение о наличии разладки, т.е. о присутствии на входе системы суммы сигнала речи и сигнала в паузе (шума). В противном случае принимается решение о наличии на входе системы только сигнала в паузе (шума).

При использовании данных решающих функций возникают так называемые "мертвые" зоны, когда решающая функция для некоторых сочетаний параметров до и после разладки или не изменяется или ее значение растет так медленно, что за приемлемое время разладки обнаруживается с вероятностью ложной тревоги.

Другим существенным недостатком способа является подавление как компонентов сигнала в паузе (шума), так и компонентов сигнала речи в случае совпадения их максимумов.

Кроме этого, при вычислении энергетического спектра процесса авторегрессии, который в математическом виде может быть записан следующим образом:

способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173

где способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ² _ш - дисперсия сигнала в паузе (шума),

неточность определения способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 _k приводит к смещению спектра относительно истинного положения, что в свою очередь не позволяет оптимально рассчитать характеристики инверсного фильтра. Необходимость осуществления непрерывного подстраивания характеристик фильтра под текущее значение сигнала в паузе (шума) приводит к большим временным затратам на вычисления.

И, наконец, для обеспечения одинаковой вероятности обнаружения пауз в речевом сигнале, при изменении уровня входного шума, необходимо корректировать коэффициент усиления речевого тракта.

Наиболее близким к предлагаемому является способ обнаружения пауз в речевом сигнале, использующий различие спектральных характеристик сигнала речи от сигнала в паузе (шума) [3], принятый за прототип. В данном способе обнаружения пауз в речевом сигнале оценку определения спектрального отклонения сигнала речи от сигнала в паузе (шума) проводят посредством определения отклонения отношений энергии частотного спектра сигнала речи от частотного спектра сигнала в паузе (шума), выполняя следующие действия:

1. Осуществляют дискретизацию с шагом способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 t и квантование сигналов с выхода микрофона (получение отсчетов);

2. Записывают в запоминающее устройство поток отсчетов отрезка определенной длины сигнала в паузе (шума) с выхода микрофона в режиме молчания диктора;

3. Разделяют поток отсчетов отрезка сигнала в паузе (шума) на ряд участков длиной R;

4. Разделяют частотный диапазон (1/ способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 t) энергетического спектра Фурье каждого из этих участков на ряд интервалов (i=1, способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 , N);

5. Вычисляют точные значения долей энергии отсчетов сигнала в паузе (шума) P_{i пауза}, соответствующих каждому из частотных интервалов, по формуле

способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173

где M=2[R/(2N)]+2;

6. Определяют среднее значение долей энергии отсчетов сигнала в паузе (шума) P_{i пауза ср} в каждом частотном интервале для всего потока отсчетов отрезка сигнала в паузе (шума);

7. Записывают в запоминающее устройство вычисленные значения энергии отсчетов сигнала в паузе (шума) P_{i пауза ср} ;

8. Разделяют поток отсчетов речевого сигнала на участки такой же длины, как и при анализе потока отсчетов сигнала в паузе (шума);

9. Вычисляют для каждого участка в каждом из N частотных интервалов значения долей энергии отсчетов речевого сигнала P_iпо формуле

способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173

10. Вычисляют отношения P_iк P_{i пауза ср} в каждом из N частотных интервалов всех выбранных участков и определяют из них максимальное значение max(P_i/P_{i пауза ср});

11. Передают максимальное значение max(P_i/P_{i пауза ср}) на вход порогового обнаружителя;

12. Определяют значение порога h в схеме вычисления порога с учетом вычисленного значения М;

13. Сравнивают в пороговом обнаружителе максимальное значение max(P_i/P_{i пауза ср}) со значением порога h;

14. Принимают решение о наличии паузы при значении max (P_i/P_{i пауза ср}), меньшем или равным порогу h;

15. Обновляют значение P_{i пауза ср} с учетом текущего значения P_{i пауза};

16. Производят кодирование пауз, при этом код каждой паузы содержит информацию только о моменте начала и продолжительности паузы.

И данный способ обладает рядом недостатков, основными из которых являются:

большие временные затраты на вычисления;

необходимость постоянной корректировки значений P_{i пауза ср};

необходимость постоянной корректировки значений порога h;

значительная задержка обнаружения пауз в речевом сигнале.

Известно техническое устройство, осуществляющее техническую реализацию указанного способа. В состав устройства [3] входят пороговый обнаружитель, схема вычисления порога, которая содержит алгоритмический модуль, в состав которого входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения энергии отсчетов в паузе, устройство вычисления отношений P_iк P_{i пауза ср}, устройство определения max (P_i/P_{i пауза ср}), устройство кодирования, устройство синхронизации. Причем первый вход алгоритмического модуля подключен к выходу микрофона, первый выход алгоритмического модуля подключен к первому входу порогового обнаружителя, второй выход алгоритмического модуля подключен к входу схемы вычисления порога, выход которой подключен ко второму входу порогового обнаружителя, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля.

Недостатки данного устройства соответствуют недостаткам способа, который на нем реализован.

Задачей предлагаемого изобретения является создание способа и устройства для его реализации, обеспечивающее повышение достоверности обнаружения пауз в речевом сигнале и формирование синхронизирующего сигнала, соответствующего наличию пауз в речевом сигнале.

Техническим результатом использования предложенного изобретения является сокращение объема вычислительных операций при цифровой обработке сигналов речи, сокращение объема памяти для хранения речи и уменьшение графика при ее передаче.

Поставленная задача достигается тем, что в предлагаемом способе обнаружения пауз в речевом сигнале, включающем сравнение сигнала, содержащего информацию о паузах, с пороговым уровнем, вынесение решения о наличии паузы в сигнале речи определяют по уровню амплитуды нового измерительного сигнала, содержащего информацию о паузах, при этом новый сигнал, содержащий информацию о паузах, получают из речевого сигнала преобразованием речевого сигнала в новый измерительный сигнал, выполняя следующие действия:

1. Речевой сигнал S₁(t)=U₁sin( способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 t) с электроакустического преобразователя 1, например с микрофона, подают на первый вход сумматора 3, где суммируют с сигналом S₂(t) и получают сигнал S₃(t)=S₁(t)+S₂(t), который подают в усилитель-ограничитель (УО) 4;

2. Генерируют генератором 2 и подают на второй вход сумматора 3 новый сигнал S₂(t)=f(U₂,f₁), имеющий стабильные предварительно установленные амплитуду U₂=const и частоту f₁=1/T₁=const;

3. Усиливают, ограничивают и нормируют по амплитуде сигнал S₃(t) в УО 4, получают сигнал S₄(t), который подают на первый вход перемножителя 6;

4. Усиливают, ограничивают и нормируют по амплитуде речевой сигнал S₁(t) в УО 5, получают сигнал S₅(t), который подают на второй вход перемножителя 6;

5. Перемножают сигналы S₄(t) и S₅ (t) и выделяют сигнал S₆(t)=f(U₆(t),f₁) с амплитудой U₆(t), определяемой инверсной амплитудой сигнала S₁(t), и частотой f₁ ;

6. Подают сигнал S₆(t)=f(U₆ (t),f₁) в фильтр низкой частоты 7 и выделяют с помощью фильтра, настроенного на частоту f₁, сигнал S₇(t)=U₇(t)sin( способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ₁t) и сравнивают в пороговом устройстве 8 амплитуду U₇(t) с установленным порогом U_пор(t), вычисленным предварительно во время отсутствия речи по условию U_пор(t)=KU_{7 макс}(t), где U_{7 макс} (t) - максимальное значение амплитуды сигнала на выходе фильтра, настроенного на частоту f₁ при паузах, а коэффициент К меньше или равен единицы, причем значение К выбирается предварительно, и по результатам сравнения амплитуды U₇(t) с установленным значением U_пор(t) принимают решение о наличии паузы в речевом сигнале.

Новизна предложенного способа заключается в том, что паузы в речевых сигналах обнаруживают по уровню амплитуды нового измерительного стабильной частоты сигнала S₇(t)=U₇(t)sin( способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ₁t), получаемого фильтрацией из сигнала S₆(t)=f(U₆(t),f₁), который получают путем корреляционной обработки сигналов S₄(t) и S₅(t), причем сигнал S₄(t) получают из сигнала S₃(t), усиливая, ограничивая по амплитуде сигнал S₃(t), который получают путем суммирования сигналов S₁(t) и S₂(t), где S₁(t) - исходный речевой сигнал, S₂(t) - вспомогательный измерительный сигнал, а сигнал S₅(t) получают усиливая, ограничивая по амплитуде исходный сигнал S₁(t).

Критерию «изобретательский уровень» предложенный способ соответствует, т.к. он основан на преобразовании речевого сигнала в новый измерительный стабильной частоты сигнал, имеющий амплитуду, по величине которой в пороговом устройстве определяется наличие пауз в речевом сигнале.

Для осуществления данного способа предложено устройство обнаружения пауз в речевом сигнале, включающее электроакустический преобразователь, пороговый обнаружитель и устройство анализа речевого сигнала, которое в отличие от известного вместо схемы вычисления порога, состоящей из алгоритмического модуля, в состав которого входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения энергии отсчетов сигнала в паузе, устройство вычисления отношений P_iк P_{i пауза ср}, устройство определения max (P_i/P_{i пауза ср} ), устройство кодирования, устройство синхронизации, содержит генератор нового измерительного сигнала, сумматор, два усилителя-ограничителя, перемножитель и фильтр низкой частоты.

Отличительными признаками предложенного устройства, подтверждающими новизну и изобретательский уровень, являются:

- наличие устройства анализа речевого сигнала вместо алгоритмического модуля, что позволяет повысить качество анализа речевого сигнала и вероятность обнаружения пауз в речевом сигнале;

- состав устройства анализа речевого сигнала, которое включает генератор нового измерительного сигнала, сумматор, два усилителя-ограничителя, перемножитель и фильтр низкой частоты.

Сущность изобретений поясняется чертежами:

Фиг.1 - Осциллограмма фразы «Начало тестирования аппаратуры»;

Фиг.2 - Осциллограмма обнаруженных пауз во фразе «Начало тестирования аппаратуры»;

Фиг.3 - блок-схема заявляемого устройства.

На фиг.3 заявленное устройство состоит из электроакустического преобразователя 1, генератора нового измерительного сигнала 2, сумматора 3, двух усилителей-ограничителей 4 и 5, перемножителя 6, фильтра низкой частоты 7, порогового обнаружителя 8. Электроакустический преобразователь является входом устройства, а пороговое устройство - выходом устройства. Причем выход электроакустического преобразователя подключен к первому входу сумматора и к входу первого усилителя - амплитудного ограничителя, выход генератора нового измерительного сигнала подключен к второму входу сумматора, выход сумматора подключен к входу второго усилителя - амплитудного ограничителя, выход второго усилителя - амплитудного ограничителя подключен к первому входу перемножителя, выход первого усилителя - амплитудного ограничителя подключен к второму входу перемножителя, выход перемножителя подключен к фильтру низкой частоты, а выход фильтра низкой частоты подключен к входу порогового устройства.

Предложенный способ реализуют на данном устройстве следующим образом.

Речевой сигнал S₁(t) с выхода электроакустического преобразователя 1 подают на первый вход сумматора 3, генерируют в генераторе 2 новый измерительный сигнал S₂(t)=f(U₂,f₁) установленной заранее стабильной амплитуды U₂=const и частоты f₁=1/T₁=const и подают на второй вход сумматора 3, в сумматоре получают сигнал S₃(t)=S₁(t)+S₂(t), который подают в усилитель-ограничитель (УО) 4, где сигнал S₃(t)=S₁(t)+S₂(t) усиливают в k₄ раз, ограничивают и получают сигнал S₄(t), сигнал S₄(t) подают на первый вход перемножителя 6, на второй вход перемножителя 6 подают сигнал S₅(t), который получают путем преобразования сигнала S₁(t) в усилителе-ограничителе (УО) 5, имеющем те же характеристики, что и УО 4, т.е. коэффициент усиления УО 5 k₅ равен коэффициенту усиления k₄ УО 4, а амплитуда сигнала S₅(t) равна амплитуде сигнала S₄(t). В перемножителе 6 в результате перемножения сигналов S₄(t) и S₅(t) получают сигнал S₆(t)=f(U₆(t),f₁), где U₆(t) и f₁ - существенные параметры, которые используются для определения пауз в речевом сигнале. Сигнал S₆(t)=f(U₆(t),f₁) подают в фильтр низкой частоты 7 и выделяют с помощью фильтра, настроенного на частоту f₁, сигнал S₇(t)=U₇(t)sin( способ обнаружения пауз в речевых сигналах и устройство его реализующее, патент № 2436173 ₁t) и сравнивают амплитуду U₇(t) в пороговом устройстве с установленным порогом U_пор (t), вычисленным предварительно во время отсутствия речи по условию U_пор(t)=K·U_{7 макс}(t), где U_{7 макс}(t) - максимальное значение сигнала при паузах на выходе фильтра, включенного на входе порогового устройства и настроенного на частоту f₁, а коэффициент K меньше или равен единицы, причем значение К выбирается предварительно.

В заключение отметим следующее.

1. В результате использования предложенных технических решений благодаря преобразованию речевого сигнала в новый измерительный стабильной частоты сигнал, имеющий амплитуду, по величине которой в пороговом устройстве определяется наличие пауз в речевом сигнале, предложенные способ и устройство для его осуществления позволяют разделять речевые сигналы на периоды активной речи и паузы с высокой вероятностью и при этом не влиять на сигнал речи, подлежащий цифровой обработке.

2. Полученный в пороговом устройстве сигнал, содержащий информацию об обнаруженных паузах в речевом сигнале, можно кодировать таким образом, чтобы код каждой паузы содержал информацию только о моменте начала и продолжительности пауз, что позволяет сократить объем памяти для хранения речи и уменьшить график при ее передаче.

3. Предложенные способ и устройство для его осуществления могут быть эффективно использованы при распознавании речевых сигналов.

Использованная литература

1. Авторское свидетельство СССР по заявке № 836656, кл. G10L 1/04, 16.07.79.

2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. / Под ред. О.И.Шелухина. - М.: Радио и связь, 2000. - 456 с.: ил.

3. Патент РФ 2317595 С1, кл. G10L 15/00.

Класс G10L15/00 Распознавание речи

основанные на языке разметки выбор и использование распознавателей для обработки произнесения - патент 2525440 (10.08.2014)
электронно-вычислительное устройство - патент 2523220 (20.07.2014)

способ обнаружения эмоций по голосу - патент 2510955 (10.04.2014)
способ и система для предоставления речевого интерфейса - патент 2494476 (27.09.2013)
устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования - патент 2493652 (20.09.2013)
архитектура распознавания для генерации азиатских иероглифов - патент 2477518 (10.03.2013)
способ электронного анализа диалога и система для осуществления этого способа - патент 2472219 (10.01.2013)
система и способ распознавания речи - патент 2466468 (10.11.2012)
устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала - патент 2459281 (20.08.2012)
способ обработки речевого сигнала в частотной области - патент 2454735 (27.06.2012)

Класс G10L11/02 обнаружение наличия или отсутствия сигналов речи

повышение разборчивости речи с помощью четкости голоса - патент 2469423 (10.12.2012)
средство обнаружения голосовой активности с использованием нескольких микрофонов - патент 2450368 (10.05.2012)
повышение разборчивости речи в звукозаписи развлекательных программ - патент 2440627 (20.01.2012)
системы, способы и устройства для обнаружения изменения сигналов - патент 2417456 (27.04.2011)
обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале - патент 2251750 (10.05.2005)