обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале

Классы МПК:G10L11/02 обнаружение наличия или отсутствия сигналов речи
G10L15/00 Распознавание речи
Автор(ы):, , ,
Патентообладатель(и):ТЕЛЕФОНАКТИЕБОЛАГЕТ ЛМ ЭРИКССОН (пабл) (SE)
Приоритеты:
подача заявки:
1999-11-12
публикация патента:

Изобретение относится к системам сжатия аудиосигнала, в частности, к системам классификации речи/шума при сжатии аудиосигнала. Техническим результатом является создание способа и устройства для достоверного обнаружения наличия важной с точки зрения восприятия информации в сложных сигналах. Технический результат достигается тем что, выполняют первое определение того, содержит ли рассматриваемый аудиосигнал информацию, представляющую собой речь или шум, причем выполняют второе определение того, содержит ли аудиосигнал неречевую информацию, являющуюся важной для восприятия слушающим субъектом, и осуществляют выборочную отмену результата первого определения, соответствующего шуму, в ответ на результат второго определения, соответствующий неречевой информации, являющейся важной для восприятия слушающим субъектом. 3 с. и 17 з.п.ф-лы, 13 ил.

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

Формула изобретения

1. Способ сохранения тональных и гармонических звуков, таких как музыкальные или информационные тональные сигналы, в аудиосигнале при кодировании аудиосигнала, включающий этапы, при которых выполняют первое определение того, содержит ли рассматриваемый аудиосигнал информацию, представляющую собой речь или шум, отличающийся тем, что выполняют второе определение того, содержит ли рассматриваемый аудиосигнал тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы, и осуществляют выборочную отмену результата первого определения в ответ на результат второго определения того, содержит ли рассматриваемый аудиосигнал тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы.

2. Способ по п.1, отличающийся тем, что этап выполнения второго определения включает сравнение заранее заданного значения со значениями корреляционной функции, связанной с соответствующими кадрами, на которые разделен аудиосигнал, причем упомянутое значение корреляционной функции определяют согласно следующему уравнению:

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

где К - длина анализируемого кадра, sw - взвешенный сигнал, l - значение задержки.

3. Способ по п.2, отличающийся тем, что этап выборочной отмены включает отмену упомянутого результата первого определения в ответ на значение корреляционной функции, превышающее заранее заданное значение.

4. Способ по п.2, отличающийся тем, что этап выборочной отмены включает отмену упомянутого результата первого определения в ответ на получение за заданный период времени заранее заданного количества значений корреляционной функции, превышающих заранее заданное значение.

5. Способ по п.4, отличающийся тем, что этап выборочной отмены включает отмену упомянутого результата первого определения в ответ на заранее заданное количество последовательных значений корреляционной функции, превышающих заранее заданное значение.

6. Способ по п.2, отличающийся тем, что включает обнаружение для каждого кадра наибольшего нормированного значения корреляционной функции для аудиосигнала, отфильтрованного посредством фильтра верхних частот, причем наибольшие нормированные значения корреляционной функции соответствуют упомянутым первым значениям корреляционной функции.

7. Способ по п.6, отличающийся тем, что упомянутое обнаружение включает в себя обнаружение для каждого из кадров наибольшего по величине нормированного значения корреляционной функции.

8. Способ по п.1, отличающийся тем, что этап выборочной отмены включает отмену результата "шум", полученного на этапе первого определения, в ответ на результат "тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы", полученный на этапе второго определения.

9. Способ сохранения тональных и гармонических звуков, таких как музыкальные или информационные тональные сигналы, в аудиосигнале при кодировании аудиосигнала, включающий этапы, при которых определяют нормированные значения корреляционной функции для каждого из множества кадров, на которые разделен аудиосигнал, причем упомянутое значение корреляционной функции определяется согласно следующему уравнению:

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

где К - длина анализируемого кадра, sw - взвешенный сигнал, l - значение задержки, и выполняют первое определение того, содержит ли рассматриваемый аудиосигнал информацию, представляющую собой речь или шум, отличающийся тем, что выполняют второе определение того, содержит ли рассматриваемый аудиосигнал тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы; формируют первую последовательность нормированных значений корреляции, определяют вторую последовательность репрезентативных значений для соответствующего отображения нормированных значений корреляционной функции из первой последовательности, выполняют сравнение репрезентативных значений с пороговым значением и при превышении порогового значения упомянутыми репрезентативными значениями корреляционной функции получают указание на то, что аудиосигнал содержит тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы, и осуществляют выборочную отмену результата первого определения, соответствующего шуму, в ответ на результат второго определения, соответствующий тональным и гармоническим звукам, таким как музыкальные или информационные тональные сигналы.

10. Способ по п.9, отличающийся тем, что этап обнаружения включает использование корреляционного анализа аудиосигнала без формирования аудиосигнала, отфильтрованного посредством фильтра верхних частот.

11. Способ по п.9, отличающийся тем, что этап обнаружения включает фильтрацию верхних частот аудиосигнала и выполняемый после этого этап использования корреляционного анализа аудиосигнала, отфильтрованного посредством фильтра верхних частот.

12. Способ по п.9, отличающийся тем, что этап обнаружения включает обнаружение для каждого из кадров наибольшего по величине нормированного значения корреляционной функции.

13. Устройство для сохранения тональных и гармонических звуков, таких как музыкальные или информационные тональные сигналы, для использования в устройстве кодирования аудиосигнала, содержащее устройство обнаружения активности речевого сигнала для приема аудиосигнала и выполнения первого определения того, содержит ли рассматриваемый аудиосигнал информацию, представляющую собой речь или шум, и подает указатель речь или шум на вход устройства обнаружения активности сложного сигнала, отличающееся тем, что дополнительно содержит устройство обнаружения активности сложного сигнала для приема аудиосигнала и выполнения второго определения того, содержит ли рассматриваемый аудиосигнал тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы, и формирования и подачи параметров соответствия сигнала на вход устройства обнаружения активности речевого сигнала, и логическое устройство, соединенное с устройством обнаружения активности речевого сигнала и с устройством обнаружения активности сложного сигнала, причем логическое устройство имеет выход для указания, содержит ли аудиосигнал тональные и гармонические звуки, такие как музыкальные или информационные тональные сигналы, при этом логическое устройство выборочно выдает на упомянутый выход информацию, указывающую результат первого определения, и в ответ на результат второго определения осуществляет выборочную отмену на упомянутом выходе информации, указывающей результат первого определения, соответствующий шуму.

14. Устройство по п.13, отличающееся тем, что устройство обнаружения выполняет сравнение заранее заданного значения со значениями корреляционной функции, связанной с соответствующими кадрами, на которые разделен аудиосигнал, причем упомянутое значение корреляционной функции определяется согласно следующему уравнению:

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

где К - длина анализируемого кадра, sw - взвешенный сигнал, l - значение задержки.

15. Устройство по п.14, отличающееся тем, что логическое устройство осуществляет отмену информации, указывающей результат первого определения, в ответ на значение корреляционной функции, превышающее заранее заданное значение.

16. Устройство по п.14, отличающееся тем, что логическое устройство осуществляет отмену информации, указывающей упомянутый результат первого определения, в ответ на получение за заданный период времени заранее заданного количества значений корреляционной функции, превышающих заранее заданное значение.

17. Устройство по п.16, отличающееся тем, что логическое устройство осуществляет отмену информации, указывающей упомянутый результат первого определения, в ответ на заранее заданное количество соответствующих последовательных во времени кадров последовательных значений корреляционной функции, превышающих заранее заданное значение.

18. Устройство по п.14, отличающееся тем, что устройство обнаружения активности сложного сигнала в каждом из кадров обнаруживает наибольшее нормированное значение корреляционной функции для аудиосигнала, отфильтрованного посредством фильтра верхних частот, причем наибольшие нормированные значения корреляционной функции соответствуют упомянутым первым значениям корреляционной функции.

19. Устройство по п.18, отличающееся тем, что каждое из наибольших нормированных значений корреляционной функции представляет собой наибольшее по величине нормированное значение корреляционной функции в соответствующем кадре.

20. Устройство по п.13, отличающееся тем, что логическое устройство осуществляет отмену информации, указывающей, что результатом определения является шум, в ответ на результат, соответствующий неречевой информации, являющейся важной для восприятия, полученный на этапе второго определения.

Описание изобретения к патенту

Данная заявка на изобретение, согласно статье 35 USC 119(е)(1) свода законов США, имеет приоритет находящей в процессе одновременного рассмотрения предварительной заявки на патент США №60/109556 с датой подачи 23 ноября 1998 г.

Область техники

Изобретение относится, в общем случае, к сжатию аудиосигнала и, более конкретно, к классификации речи/шума при сжатии аудиосигнала.

Предшествующий уровень техники

Радиопередающие устройства и радиоприемные устройства обычно имеют устройства кодирования речи и устройства декодирования речи, которые совместно обеспечивают речевую (голосовую) связь между указанными передатчиком и приемником по линии радиосвязи. Совокупность устройства кодирования речи и устройства декодирования речи часто называют кодер-декодером речи. Примером обычного устройства связи является радиотелефон мобильной связи (например, сотовый телефон), который обычно имеет радиопередающее устройство, содержащее устройство кодирования речи, и радиоприемное устройство, содержащее устройство декодирования речи.

В обычных устройствах кодирования речи на основе блочного кодирования входной речевой сигнал разделяется на блоки, называемые кадрами. Для обычной телефонной связи с шириной полосы частот 4 кГц длина кадров обычно равна 20 миллисекундам (мс) или 160 выборкам. Кадры дополнительно разделены на суб-кадры, длина которых обычно равна 5 мс или 40 выборкам.

При сжатии входного аудиосигнала в устройствах кодирования речи обычно используют усовершенствованные способы сжатия информации с потерями. Информация сжатого (или кодированного) сигнала передается в устройство декодирования через канал связи, например, по линии радиосвязи. Затем устройство декодирования пытается воспроизвести входной аудиосигнал исходя из информации сжатого сигнала. Если известны определенные характеристики входного аудиосигнала, то скорость передачи двоичной информации в канале связи может поддерживаться настолько низкой, насколько это возможно. Если аудиосигнал содержит информацию, существенную для слушающего субъекта, то эта информация должна быть сохранена. Однако если аудиосигнал содержит только информацию, не являющуюся существенной (например, фоновый шум), то ширина полосы частот может быть сэкономлена за счет передачи только ограниченного объема информации о сигнале. Для многих сигналов, которые содержат только несущественную информацию, высокую степень сжатия часто можно обеспечить при очень низкой скорости передачи двоичной информации. В крайнем случае синтез входного сигнала может осуществляться в устройстве декодирования без какого-либо обновления информации по каналу связи до тех пор, пока не будет обнаружено, что входной аудиосигнал снова содержит существенную информацию.

Типичными сигналами, достаточно точное воспроизведение которых может быть обычно осуществлено при очень низких скоростях передачи двоичной информации, являются, в том числе, стационарный шум, автомобильный шум, а также, в некоторой степени, шум от перекрестных помех. Для обеспечения точного воспроизведения устройством декодирования более сложных сигналов, не являющихся речевыми, например музыки или совокупности речи и музыки, необходимы более высокие скорости передачи двоичной информации.

Для многих обычных типов фонового шума достаточно хорошую модель сигнала получают при значительно меньшей скорости передачи двоичной информации, чем та, которая необходима для речевого сигнала. В существующих системах мобильной связи используют этот факт, выполняя регулировку скорости передачи двоичной информации путем ее снижения на время фонового шума. Например, в обычных системах, в которых применяют способы непрерывной передачи, в устройстве кодирования речи с переменной скоростью передачи (ПСП) может быть использована наиболее низкая скорость передачи двоичной информации.

В обычных схемах прерывистой передачи (ПРП) передатчик прекращает передачу кодированных кадров речевого сигнала при отсутствии активности говорящего субъекта. Через одинаковые или неодинаковые промежутки времени (обычно через каждые 500 мс) передатчик осуществляет передачу надлежащих параметров речевого сигнала для генерации комфортного шума в устройстве декодирования обычным способом. Кодирование этих параметров для генерации комфортного шума (ГКШ) обычно осуществляют в виде кадров, которые иногда называют кадрами дескриптора тишины (ДТШ). В находящемся в приемнике устройстве декодирования параметры комфортного шума, прием которых осуществлен в виде кадров ДТШ, используют для выполнения синтеза искусственного шума посредством обычного алгоритма введения комфортного шума (ВКШ).

При осуществлении генерации комфортного шума в устройстве декодирования обычной системы ПРП шум часто воспринимается как в высокой степени статический и существенно отличающийся от фонового шума, формируемого в активном (не ПРП) режиме. Причина такого восприятия заключается в том, что передачу кадров ДТШ при ПРП выполняют реже, чем обычных кадров речевого сигнала. В обычных кодер-декодерах с линейным предсказанием посредством анализа через синтез (ЛПАС), имеющих режим ПРП, обычно осуществляют оценочные вычисления (например, усреднение) спектра и энергии фонового шума по нескольким кадрам, а затем вычисленные параметры квантуют и передают в виде кадров ДТШ по каналу связи в устройство декодирования.

Передача кадров ДТШ с относительно низкой скоростью обновления вместо передачи обычных кадров речевого сигнала имеет двойное преимущество. Вследствие снижения потребляемой мощности продлевают ресурс аккумулятора, например, в приемопередатчике мобильной радиосвязи, и снижают помехи, создаваемые передатчиком, посредством чего обеспечивают более высокую пропускную способность системы.

В том случае, когда сжатие сложного сигнала, такого как музыка, осуществлено с использованием слишком простой модели сжатия, а соответствующая скорость передачи двоичной информации является слишком низкой, воспроизведенный в устройстве декодирования сигнал резко отличается от того результата, который получают с использованием лучшего (более высококачественного) способа сжатия. Использование слишком простой схемы сжатия может быть вызвано ошибочной классификацией типа сложного сигнала как шума. Результатом такой ошибочной классификации является не только плохое воспроизведение сигнала, получаемого на выходе устройства декодирования. Ошибочная классификация типа сигнала обуславливает переключение со схемы сжатия, обеспечивающей более высокое качество, на схему сжатия, обеспечивающую более низкое качество. Для исправления ошибочной классификации типа сигнала необходимо обратное переключение на схему, обеспечивающую более высокое качество. Если такое переключение между схемами сжатия происходит часто, то оно обычно отчетливо прослушивается и может являться раздражающим фактором для слушающего субъекта.

Из изложенного выше видно, что желательно уменьшить возможность возникновения ошибок при классификации типа сигналов, относящихся к субъектам, при сохранении, по возможности, низкой скорости передачи двоичной информации (высокой степени сжатия), например при сжатии фонового шума во время молчания говорящего субъекта. Могут быть использованы способы с очень высокой степенью сжатия, при условии, что их не воспринимают в качестве раздражающего фактора. Примерами способа с высокой степенью сжатия является описанное выше использование параметров комфортного шума для систем ПРП, а также обычное кодирование с линейным предсказанием (КПП) при низкой скорости передачи с использованием способов случайного возбуждения. Обычно посредством подобных способов кодирования с использованием высокой степени сжатия может быть осуществлено точное воспроизведение только простых для восприятия типов шумов, таких как стационарный автомобильный шум, уличный шум, шум в ресторане (невнятный шум от многих источников) и другие подобные им сигналы.

Обычные способы классификации для определения того, действительно ли входной аудиосигнал содержит существенную информацию, основаны, главным образом, на относительно простом анализе стационарности входного аудиосигнала. Если определено, что входной сигнал является стационарным, то полагают, что он представляет собой шумоподобный сигнал. Однако сам по себе этот обычный анализ стационарности может привести к тому, что в случае сложных сигналов, являющихся в достаточной степени стационарными, но фактически содержащими существенную с точки зрения восприятия информацию, их тип будет ошибочно классифицирован как шум. Такая ошибочная классификация типа сигналов является недостатком и приводит к возникновению описанных выше проблем.

Поэтому желательно создать способ классификации типа сигнала, посредством которого осуществляют достоверное обнаружение наличия существенной с точки зрения восприятия информации в сложных сигналах описанного выше типа.

Согласно настоящему изобретению предложен способ обнаружения активности сложного сигнала, посредством которого осуществляют достоверное обнаружение сложных сигналов, не являющихся речевыми, которые содержат существенную информацию, то есть важную с точки зрения ее восприятия слушающим субъектом. Примерами сложных сигналов, не являющихся речевыми, которые могут быть достоверно обнаружены, являются, в том числе, музыка, музыка в режиме паузы при телефонном разговоре, совокупность речи и музыки, музыка, служащая в качестве фона, и другие тональные или гармонические звуки.

Краткое описание чертежей

Фиг.1 - схематичное представление блоков, входящих в состав примерного варианта устройства кодирования речи согласно изобретению.

Фиг.2 - пример варианта осуществления устройства обнаружения активности сложного сигнала по Фиг.1.

Фиг.3 - пример варианта осуществления устройства обнаружения активности речевого сигнала по Фиг.1.

Фиг.4 - пример варианта осуществления логического устройства, принимающего решение с учетом предыдущих состояний, по Фиг.1.

Фиг.5 - примерный вариант операций, выполняемых устройством генерации параметров по Фиг.2.

Фиг.6 - примерный вариант операций, выполняемых в устройстве управления счетчиком по Фиг.2.

Фиг.7 - примерный вариант операций, выполняемых в части устройства по Фиг.2.

Фиг.8 - примерный вариант операций, выполняемых в остальной части устройства по Фиг.2.

Фиг.9 - примерный вариант операций, выполняемых в части устройства по Фиг.3.

Фиг.10 - примерный вариант операций, выполняемых в устройстве управления счетчиком по Фиг.3.

Фиг.11 - примерный вариант операций, выполняемых в остальной части устройства по Фиг.3.

Фиг.12 - примерный вариант операций, которые могут быть реализованы в вариантах осуществления по Фиг.1 - Фиг.11.

Фиг.13 - альтернативный вариант осуществления устройства обнаружения активности сложного сигнала по Фиг.2.

Подробное описание

На Фиг.1 схематично показаны блоки, входящие в состав примерного варианта устройства кодирования речи согласно изобретению. Устройство кодирования речи может быть предусмотрено, например, в приемопередатчике радиосвязи, который осуществляет передачу аудиоинформации по каналу радиосвязи. Одним из примеров такого приемопередатчика радиосвязи является радиотелефонный аппарат мобильной связи, например сотовый телефон.

Согласно фиг.1, входной аудиосигнал подается в устройство обнаружения активности сложного сигнала (УОАС), а также в устройство обнаружения активности речевого сигнала (УОАР). Устройство обнаружения активности сложного сигнала (УОАС) реагирует на входной аудиосигнал для выполнения анализа соответствия, при котором определяют, содержит ли в себе входной сигнал информацию, которая является существенной с точки зрения восприятия соответствующим слушающим субъектом, и набора параметров соответствия сигнала для формирования для УОАР. УОАР использует эти параметры соответствия сигнала совместно с принятым входным аудиосигналом для определения того, является ли входной аудиосигнал речевым или шумовым. УОАР функционирует в качестве устройства классификации типа сигнала речь/шум и формирует на выходе указатель того, является ли сигнал речевым или же представляет собой шум (указатель речь/шум). Указатель речь/шум подается на вход УОАС. В ответ на указатель речь/шум и входной аудиосигнал на выходе УОАС формируется набор флагов сложного сигнала, которые подаются в блок логического устройства, принимающего решение с учетом предыдущих состояний, которое также принимает указатель речь/шум, сформированный посредством УОАР.

В ответ на получение флагов сложного сигнала и указателя речь/шум логическое устройство, принимающее решение с учетом предыдущих состояний, формирует выходной сигнал, указывающий, содержит ли входной аудиосигнал информацию, являющуюся существенной с точки зрения восприятия слушающим субъектом, который прослушивает в приемнике на другом конце канала связи воспроизведенный аудиосигнал, полученный на выходе устройства декодирования. Выходной сигнал логического устройства, принимающего решение с учетом предыдущих состояний, может быть надлежащим образом использован для управления, например, функционированием ПРП (в системе ПРП) или скоростью передачи двоичной информации (в устройстве кодирования с переменной скоростью передачи (ПСП)). В том случае, если выходной сигнал логического устройства, принимающего решение с учетом предыдущих состояний, указывает, что входной аудиосигнал не содержит существенной информации, то может быть осуществлена генерация комфортного шума (в системе ПРП) или же может быть снижена скорость передачи двоичной информации (в устройстве кодирования с ПСП).

УОАС осуществляет анализ входного сигнала (который может быть предварительно обработан) путем извлечения из каждого кадра информации о корреляции сигнала в конкретной полосе частот. Это может быть выполнено путем фильтрации сигнала посредством надлежащего фильтра, например полосового фильтра или фильтра верхних частот. Этот фильтр присваивает весовые коэффициенты тем полосам частот, которые содержат большую часть энергии, используемой при анализе. Обычно для ослабления сильного низкочастотного содержимого, например, автомобильного шума, необходимо отфильтровывать низкочастотную область. Отфильтрованный сигнал может затем быть передан для выполнения корреляционного анализа с долгосрочным предсказанием (ДСП) без обратной связи. В результате анализа с ДСП формируют вектор значений корреляционной функции или нормированных значений усиления; по одному значению для каждого корреляционного сдвига. Диапазон сдвига может быть равным, например, [20, 147] как и при обычном анализе с ДСП. Простой альтернативный способ реализации обнаружения искомого соответствия состоит в использовании сигнала без фильтрации при вычислении корреляционной функции и в изменении значений корреляционной функции посредством алгоритмической обработки, подобной процессу фильтрации, подробное описание которой приведено ниже.

Для каждого анализируемого кадра осуществляют выбор и буферизацию наибольшего по величине нормированного значения корреляционной функции (значения усиления). Сдвиг (соответствующий задержке выбранного значения корреляционной функции при ДСП) не используют. Затем производят анализ значений и формируют вектор параметров соответствия сигнала, который передается в УОАР для использования в процессе оценки фонового шума. Также выполняют обработку буферизованных значений корреляционной функции и используют их для принятия окончательного решения о том, является ли сигнал существенным (то есть, важен ли он с точки зрения восприятия) и является ли решение, принятое УОАР, достоверным. Для указания того, что существует значительная вероятность ошибочной классификации типа сигнала посредством УОАР, то есть определения типа сигнала как шум при фактическом наличии информации, существенной с точки зрения восприятия, создают набор флагов обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 и обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 .

Параметры соответствия сигнала, вычисленные при анализе соответствия в УОАС, используют для улучшения рабочих характеристик схемы УОАР. Схема УОАР пытается определить, является ли сигнал речевым сигналом (возможно, имеющим ухудшенное качество, обусловленное шумом окружающей среды) или же шумовым сигналом. Для обеспечения возможности отличить сигнал "речь + шум" от шума УОАР обычно выполняет оценку шума. Для обеспечения принятия наилучшего решения при определении типа сигнала речь + шум УОАР должно осуществлять обновление выполненных им самим оценок фонового шума. Для определения того, в какой степени следует обновлять полученные посредством УОАР оценочные значения фонового шума и активности сигнала, используют параметры соответствия, полученные из УОАС.

Если считается, что решение УОАР является достоверным, логическое устройство, принимающее решение с учетом предыдущих состояний, корректирует окончательное решение о типе сигнала посредством использования предыдущей информации о том, что сигнал является существенным, и предыдущих решений, принятых УОАР. Выходной сигнал логического устройства, принимающего решения с учетом предыдущих состояний, представляет собой окончательное решение о том, содержит ли сигнал существенную или несущественную информацию. В том случае, когда сигнал содержит существенную информацию, кодирование может быть осуществлено с использованием низкой скорости передачи двоичной информации. В системе ПРП эту существенную/несущественную информацию используют для принятия решения о том, следует ли осуществлять кодирование текущего кадра обычным способом (в случае существенной информации), или же вместо этого кодирование кадра следует осуществлять с параметрами комфортного шума (в случае несущественной информации).

В одном из вариантов осуществления УОАС с высокой эффективностью и низкой сложностью предусматривается в устройстве кодирования речи с использованием структуры линейного предсказания посредством анализа через синтез (ЛПАС). При помощи обычных средств (фильтрации верхних частот, нормирования и т.д.) осуществляют формирование сигнала, подаваемого на вход устройства кодирования речи. Затем сформированный сигнал s(n) фильтруют посредством обычного адаптивного взвешивающего фильтра подавления помех, используемого в устройствах кодирования с ЛПАС. Взвешенный речевой sw(n) подается в средство анализа с ДСП без обратной связи. При анализе с ДСП осуществляется вычисление и запоминание значений корреляционной функции для каждого сдвига в интервале [Lмин, Lмакс] где, например, Lмин=18, а Lмакс=147. Для каждого значения задержки (сдвига) L внутри этого интервала корреляция Rxx(k,l) для значения 1 задержки вычисляется следующим образом:

(Уравнение 1)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

где К - длина анализируемого кадра. Если задано, что k равно нулю, то это уравнение может быть записано в виде функции, зависящей только от задержки 1:

(Уравнение 2)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

Также можно определить:

(Уравнение 3)

Exx(L)=Rxx(L,L)

Эти процедуры обычно выполняют в качестве предварительного поиска при адаптивном поиске по таблице кодирования в устройстве кодирования ЛПАС, и, следовательно, на их выполнение не затрачивают каких-либо дополнительных вычислительных ресурсов.

Оптимальный коэффициент усиления обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 для прогнозирующего устройства с одиночным отводом получают путем минимизации искажения D в уравнении:

(Уравнение 4)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

Оптимальный коэффициент усиления обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 (являющийся, на самом деле, нормированным значением корреляционной функции) представляет собой такое значение g в Уравнении 4, при котором D является минимальным, и задан уравнением:

(Уравнение 5)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

где L - задержка, при которой искажение D (Уравнение 4) является минимальным, a Exx(L) - энергия. Устройство обнаружения сложного сигнала вычисляет оптимальное усиление ( обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 ) для отфильтрованного посредством фильтра верхних частот варианта взвешенного сигнала sw. Фильтр верхних частот может представлять собой, например, простой фильтр первого порядка с коэффициентами фильтрации [h0, h1]. В одном из вариантов осуществления вместо фильтрации верхних частот взвешенного сигнала перед вычислением корреляционной функции, минимизацию D осуществляют по упрощенной формуле (см. Уравнение 4) с использованием отфильтрованного сигнала обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 .

Отфильтрованный посредством фильтра верхних частот сигнал обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 имеет вид:

(Уравнение 7)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

В этом случае обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 ( обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 отфильтрованного сигнала) получают в виде:

(Уравнение 8)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

Следовательно, вместо вычисления нового Rxx для отфильтрованного сигнала обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 , вычисление параметра обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 может быть выполнено согласно Уравнению 8 с использованием уже имеющихся вышеуказанных значений Rxx и Ехх, полученных из нефильтрованного сигнала sw.

Если коэффициенты фильтрации [h0, h1] выбраны равными [1, -1], а задержка Lзнам, посредством которой осуществляют нормировку знаменателя, задана равной Lзнам=0, то процедура вычисления обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 сводится к следующему выражению:

(Уравнение 9)

обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750

Дальнейшее упрощение осуществляют посредством использования в знаменателе Уравнения (8) значения Lзнам=(Lмин+1) (вместо оптимальной обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 , то есть, оптимальной задержки, в Уравнении 4), и ограничения максимального значения L значением Lмакс-1, а минимального значения Lмин при поиске максимума -значением (Lмин+1). В этом случае при анализе с ДСП без обратной связи не требуется никаких дополнительных процедур вычисления значений корреляционной функции помимо уже имеющихся значений Rxx(1).

Для каждого кадра запоминают наибольшее по величине значение обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750 усиления. Сглаженный вариант g_f(i) может быть получен посредством фильтрации значения g_макс, получаемого для каждого кадра, согласно формуле g_f(i)=b0обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750g_макс(i)-a1обнаружение активности сложного сигнала для усовершенствованной   классификации речи/шума в аудиосигнале, патент № 2251750g_f(i-1). В некоторых вариантах осуществления коэффициенты фильтрации b0 и а1 могут изменяться во времени, а также могут зависеть от состояния и от входного сигнала во избежание проблем насыщения состояния. Например, b0 и а1 могут быть выражены в виде соответствующих функций, зависящих от времени: g_макс(i) и g_f(i-1). То есть, b0=fb(t, g_макс(i), g_f(i-1)) и a1=fa(t, g_макс(i), g_f(i-1)).

Сигнал g_f(i) является основным объектом для анализа в УОАС наличия существенной информации. Посредством анализа состояния и предыстории g_f(i) можно осуществить содействие адаптации УОАР, а для блока логического устройства, принимающего решение с учетом предыдущих состояний, формируются указатели, обеспечивающие его функционирование.

На Фиг.2 показаны примеры вариантов осуществления описанного выше устройства обнаружения активности сложного сигнала (УОАС) по Фиг.1. Блок 21 предварительной обработки выполняет предварительную обработку входного сигнала и формирует вышеуказанный взвешенный сигнал sw(n). Сигнал sw(n) подается в обычное устройство 23 корреляционного анализа, например, в устройство корреляционного анализа с долгосрочным предсказанием (ДСП) без обратной связи. Выходной сигнал 22 устройства 23 корреляционного анализа обычным образом подается в качестве входного сигнала для адаптивного поиска по таблице кодирования, осуществляемого в блоке 24. Как указано выше, согласно изобретению для вычисления g_f(i) могут быть использованы значения Rxx и Ехх, применяемые в обычном устройстве 23 корреляционного анализа.

Значения Rxx и Ехх, полученные в точке 25, подают в устройство 20 вычисления максимального нормированного усиления, которое вычисляет значение g_макс так, как описано выше. Устройство 20 вычисления производит выбор наибольшего по величине (максимального по величине) значения g_макс для каждого кадра и сохраняет его в буфере 26. Затем, как описано выше, буферизованные значения подаются в сглаживающий фильтр 27. Выходной сигнал сглаживающего фильтра 21 равен g_f(i).

Сигнал g_f(i) подается на вход устройства 28 генерации параметров. В ответ на поступление входного сигнала g_f(i) устройство 28 генерации параметров формирует два выходных сигнала complex_high (сложный_высок) и complex_low (сложный_низк), которые подаются в УОАР в качестве параметров соответствия сигнала (см. Фиг.1). Устройство 28 генерации параметров также создает выходной сигнал complex_timer (таймер_сложного сигнала), который подают на вход устройства 29 управления счетчиком, осуществляющего управление счетчиком 201. Выходной сигнал complex_hang_count (отсчет_последействия_сложного сигнала) из счетчика 201 подается в УОАР в качестве параметра соответствия сигнала, а также на вход компаратора 203, выходной сигнал VAD_fail_long (неудача_УОАР_долг) которого представляет собой флаг сложного сигнала, который подается в логическое устройство, принимающее решение с учетом предыдущих состояний (см. Фиг.1). Сигнал g_f(i) также подается в компаратор 205, выход 208 которого соединен с входом логического элемента 207 "И".

Устройство обнаружения активности сложного сигнала по Фиг.2 также получает из УОАР указатель речь/шум (см. Фиг.1), а именно, сигнал sp_vad_prim (sр_УОАР_исходный) (например, равный 0 для шума и равный 1 для речи). Этот сигнал подается на вход буфера 202, выход которого соединен с компаратором 204. Выходной выход 206 компаратора 204 соединен с другим входом логического элемента 207 "И". Выходной сигнал VAD_fail_short (неудача_УОАР_кратк) логического элемента 207 "И" представляет собой флаг сложного сигнала, который подается на вход логического устройства, принимающего решение с учетом предыдущих состояний, из Фиг.1.

На Фиг.13 изображен пример альтернативного варианта устройства по Фиг.2, в котором вычисление значений g_опт из приведенного выше Уравнения 5 осуществляют посредством устройства 23 корреляционного анализа для варианта сигнала sw(n), отфильтрованного фильтром верхних частот, то есть, для сигнала sw_f(n), полученного на выходе фильтра 131 верхних частот. В этом случае в блоке 26 по Фиг.2 осуществляется буферизация вместо g_макс наибольшего по величине значение g_опт для каждого кадра. Так же, как и на Фиг.2, устройство 23 корреляционного анализа формирует из сигнала sw_(n) обычный выходной сигнал 22.

На Фиг.3 изображены блоки, соответствующие варианту осуществления УОАР по Фиг.1. Как описано выше применительно к Фиг.2, УОАР получает из УОАС параметры соответствия сигнала complex_high (сложный_высок), complex_low (сложный_низк), и complex hang_count (отсчет_последействия_сложного_сигнала). Параметры complex_high (сложный_высок) и complex_low (сложный_низк) подают на вход соответствующих буферов 30 и 31, выходы которых соединены соответственно с компараторами 32 и 33. Выходы компараторов 32 и 33 соединены с соответствующими входами логического элемента 34 "ИЛИ", который осуществляет вывод сигнала complex warning (предупреждение_о_сложном_сигнале) и подачу его в устройство 35 управления счетчиком. В ответ на поступление сигнала complex_warning (предупреждение_о_сложном_сигнале) устройство 35 управления счетчиком осуществляет управление счетчиком 36.

Входной аудиосигнал подается на вход устройства 38 оценки шума, а также на вход устройства 39 определения речи/шума. Устройство 39 определения речи/шума также обычным образом осуществляет прием оценочного значения 303 фонового шума из устройства 38 оценки шума. Устройство определения речи/шума реагирует на входной аудиосигнал и информацию об оценочном значении шума, полученную в точке 303, и формирует указатель sp_vad_prim (sр_УОАР_исходный) наличия речи/шума, который подается в УОАС и в логическое устройство, принимающее решение с учетом предыдущих состояний, по Фиг.1.

Сигнал complex hang count (отсчет_последействия_сложного сигнала) подается на вход компаратора 37, выход которого соединен со входом УМЕНЬШЕНИЕ устройства 38 оценки шума. При активации входа УМЕНЬШЕНИЕ устройство оценки шума может корректировать получаемое в нем оценочное значение шума только в сторону понижения или оставлять его неизменным, то есть любое новое оценочное значение шума должно указывать наличие меньшего уровня шума или же того же самого уровня шума по сравнению с предыдущим оценочным значением. В других вариантах осуществления активация входа УМЕНЬШЕНИЕ позволяет устройству оценки шума корректировать получаемое в нем оценочное значение шума в сторону повышения таким образом, что оно будет указывать наличие большего уровня шума, но при этом необходимо обеспечивать значительное уменьшение скорости (интенсивности) обновления.

Устройство 38 оценки шума также имеет вход ЗАДЕРЖКА, на который подается выходной сигнал, сформированный счетчиком 36, а именно stat_count (отсчет_стац). В обычных устройствах оценки шума в УОАР после получения указателя, свидетельствующего о том, что входной сигнал является, например, нестационарным, либо представляет собой сигнал основного тона или тональный сигнал, обычно вводится задержка на некоторый период времени. В течение этого периода задержки не может быть произведено обновление оценочного значения шума в сторону его увеличения. Это способствует предотвращению возникновения ошибочных откликов на сигналы, не являющиеся шумовыми, на скрытые в шуме или стационарные голосовые сигналы. По истечении периода времени задержки устройство оценки шума может осуществлять обновление получаемых в нем оценочных значений шума в сторону их увеличения даже в том случае, если в течение некоторого времени было указано наличие речевого сигнала. Это предотвращает блокировку всего алгоритма УОАР в состоянии, указывающем на наличие активности, при внезапном повышении уровня шума.

Согласно изобретению управление входом ЗАДЕРЖКА осуществляют посредством сигнала stat_count (отсчет_стац) таким образом, что в том случае, когда сигнал содержит в слишком высокой степени существенную информацию и не позволяет осуществить "быстрое" увеличение оценочного значения шума, в устройстве оценки шума устанавливается нижний предел вышеуказанного периода задержки (то есть требуется более длительная задержка, чем та, которая необходима в обычном случае). Если УОАС обнаруживает в высокой степени существенную информацию в течение довольно длительного времени (например, в течение 2-х секунд), сигнал stat_count (отсчет_стац) может обеспечивать задержку увеличения оценочного значения шума на достаточно длительное время (например, на 5 секунд). В одном из вариантов осуществления, когда УОАС указывает на наличие в высокой степени существенной информации, то сигнал stat_count (отсчет_стац) используется для уменьшения скорости (интенсивности) обновления оценочного значения шума.

Устройство 39 определения речи/шума имеет выход 301, который соединен с входом устройства 35 управления счетчиком, а также соединен с устройством 38 оценки шума, причем наличие этого последнего соединения является общепринятым. Если посредством устройство определения речи/шума определяет, что данный кадр входного аудио-сигнала представляет собой, например, сигнал основного тона, тональный сигнал или нестационарный сигнал, выходной сигнал 301 указывает на это устройству 35 управления счетчиком, которое, в свою очередь, устанавливает требуемое значение выходного сигнала stat_count (отсчет стац) счетчика 36. Если выходной сигнал 301 указывает на наличие стационарного сигнала, то устройство управления 35 может уменьшить показание счетчика 36.

На Фиг.4 показан пример варианта осуществления логического устройства, принимающего решение с учетом предыдущих состояний, по Фиг.1. Согласно Фиг.4, флаги сложного сигнала VAD_fail_short (неудача_УОАР_кратк) и VAD_fail_long (неудача_УОАР_долг) подаются на вход логического элемента 41 "ИЛИ", выходной сигнал которого поступает на вход другого логического элемента 43 "ИЛИ". Указатель наличия речи/шума sp_vad_prim (sр_УОАР_исходный) из УОАР подается на вход находящегося в УОАР обычного логического устройства 45, принимающего решение с учетом предыдущих состояний. Сигнал sp_vad (sр_УОАР), полученный на выходе находящегося в УОАР логического устройства, принимающего решение с учетом предыдущих состояний, подается на второй вход логического элемента 43 "ИЛИ". Если какой-либо из флагов сложного сигнала VAD_fail_short (неудача_УОАР_кратк) или VAD_fail_long (неудача_УОАР_долг) является активным, то выходной сигнал логического элемента 41 "ИЛИ" приводит к тому, что логический элемент 43 "ИЛИ" будет указывать на наличие входного сигнала, содержащего существенную информацию.

В том случае, когда ни один из флагов сложного сигнала не является активным, то указателем существенности/несущественности является решение о наличии речи/шума, принятое находящимся в УОАР логическим устройством 45, принимающим решение с учетом предыдущих состояний, а именно сигнал sp_vad (sр_УОАР). Если сигнал sp_vad (sр_УОАР) является активным, что, следовательно, означает наличие речевого сигнала, то выходной сигнал логического элемента 43 "ИЛИ" указывает на наличие сигнала, содержащего в себе существенную информацию. В противном случае, если sp_vad (sр_УОАР) не является активным, что означает наличие шума, то выходной сигнал логического элемента 43 "ИЛИ" указывает на наличие сигнала, содержащего в себе несущественную информацию. Указатель существенности/несущественности из логического элемента 43 "ИЛИ" может подаваться, например, в блок управления ПРП системы ПРП или в блок управления скоростью передачи двоичной информации системы ПСП.

Фиг.5 иллюстрирует операции, выполняемые устройством 28 генерации параметров по Фиг.2 для формирования сигналов complex_high (сложный_высок), complex_low (сложный_низк), и complex_timer (таймер_сложного_сигнала). Индекс i на Фиг.5 (и на Фиг.6-Фиг.11) задает текущий кадр входного аудиосигнала. Как показано на Фиг.5, каждый из вышеуказанных сигналов имеет значение 0 в том случае, если сигнал g_f(i) не превышает соответствующее пороговое значение, а именно, ПЗв (THh) для сигнала complex_high (сложный_высок) на этапах 51-52, ПЗ н (THl) для сигнала complex_low (сложный_низк) на этапах 54-55, или ПЗт (THt) для сигнала complex_timer (таймер сложного сигнала) на этапах 57-58. В том случае, если на этапе 51 g_f(i) превышает пороговое значение ПЗв (ТНh), то на этапе 53 значение complex_high (сложный_высок) устанавливается равным 1, а если на этапе 54 g_f(i) превышает пороговое значение ПЗн (THl ), то на этапе 56 значение complex low (сложный_низк) устанавливается равным 1. Если на этапе 57 g_f(i) превышает пороговое значение ПЗт (THt), то на этапе 59 осуществляется приращение значения complex_timer (таймер_сложного_сигнала) на 1. Приведенные в качестве примера на Фиг.5 пороговые значения представляют собой ПЗв (ТНh), равное 0,6; ПЗн (THl), равное 0,5, и ПЗт (THt), равное 0,7. Из Фиг.5 видно, что значение complex_timer (таймер_сложного_сигнала) представляет собой то количество последовательных кадров, в которых g_f(i) превышает ПЗт (THt ).

Фиг.6 иллюстрирует операции, которые могут быть выполнены посредством устройства 29 управления счетчиком и счетчика 201 по Фиг.2. Если на этапе 61 значение complex_timer (таймер_сложного_сигнала) превышает пороговое значение ПЗтс (THct ), то на этапе 62 устройство 29 управления счетчиком устанавливает значение выходного сигнала complex hang count (отсчет_последействия_сложного_сигнала) счетчика 201 равным Н. Если на этапе 61 значение complex_timer (таймер сложного_сигнала) не превышает пороговое значение ПЗ тс (THct), но на этапе 63 установлено, что оно больше нуля, то на этапе 64 устройство 29 управления счетчиком уменьшает выходное значение complex_hang_count (отсчет_последействия_сложного_сигнала) счетчика 201. Приведенные в качестве примера на Фиг.6 значения соответствуют ПЗтс (THct), равному 100 (2 секунды в одном из вариантов осуществления), и Н равному 250 (5 секунд в одном из вариантов осуществления).

Фиг.7 иллюстрирует операции, которые могут быть выполнены посредством компаратора 203 по Фиг.2. Если на этапе 71 complex_hang_count (отсчет_последствия_сложного_сигнала) превышает ПЗ (ТНhc), то на этапе 72 значение VAD_fail_long (неудача_УОАР_долг) устанавливается равным 1. В противном случае на этапе 73 значение VAD_fail_long (неудача_УОАР_долг) устанавливается равным 0. В одном из вариантов осуществления ПЗвк (ТНhc) равно 0.

Фиг.8 иллюстрирует операции, которые могут быть выполнены посредством буфера 202, компараторов 204 и 205 и логического элемента 207 "И" по Фиг.2. Как показано на Фиг.8, если на этапе 81 установлено, что все р последних значений sp_vad_prim (sр_УОАР_исходный), непосредственно предшествующих текущему (i-тому) значению sp_vad_prim (sр_УОАР_исходный), равны нулю, и если на этапе 82 определено, что g_f(i) превышает пороговое значение ПЗнк (TH fs), то на этапе 83 значение VAD_fail_short (неудача_УОАР_кратк) устанавливается равным 1. В противном случае на этапе 84 значение VAD_fail_short (неудача_УОАР_кратк) устанавливается равным 0. Приведенные на Фиг.8 в качестве примера значения соответствуют ПЗнк (THfs), равному 0,55, и р=10.

Фиг.9 иллюстрирует операции, которые могут быть выполнены посредством буферов 30 и 31, компараторов 32 и 33 и логического элемента 34 "ИЛИ" по Фиг.3. Если на этапе 91 определено, что все m последних значений complex_high (сложный высок), непосредственно предшествующих текущему (i-тому) значению complex high (сложный_высок), равны 1, или же если на этапе 92 определено, что все n последних значений complex_low (сложный_низк), непосредственно предшествующих текущему (i-тому) значению complex low (сложный_низк), равны 1, то при выполнении операции 93 значение complex_warning (предупреждение_о_сложном_синале) устанавливается равным 1. В противном случае на этапе 94 значение complex warning (предупреждение_o_сложном_синале) устанавливается равным 0. Приведенные на Фиг.9 в качестве примера значения соответствуют m=8 и n=15.

Фиг.10 иллюстрирует операции, которые могут быть выполнены посредством устройства 35 управления счетчиком и счетчика 36 по Фиг.3. Если на этапе 100 определено, что аудиосигнал является стационарным (см. позицию 301 из Фиг.3), то на этапе 104 значение stat_count (отсчет_стац) уменьшается. Затем, если на этапе 101 определено, что значение complex warning (предупреждение о сложном_синале) равно 1, и если на этапе 102 определено, что значение stat_count (отсчет_стац) меньше значения МИН (MIN), то на этапе 103 значение stat_count (отсчет_стац) устанавливается равным МИН. Если же на этапе 100 определено, что аудио-сигнал не является стационарным, то на этапе 105 значение stat_count (отсчет_стац) устанавливается равным А. Приведенные в качестве примера значения МИН и А равны, соответственно, 5 и 20, что в одном из вариантов осуществления приводит к ограничению снизу значения задержки устройства 38 оценки шума (Фиг.3) величиной соответственно 100 мс и 400 мс.

Фиг.11 иллюстрирует операции, которые могут быть выполнены посредством компаратора 37 и устройства 38 оценки шума из Фиг.3. Если на этапе 111 определено, что значение complex_hang_count (отсчет_последействия сложного_сигнала) превышает пороговое значение ПЗ (THhc), то на этапе 112 компаратор 37 приводит вход УМЕНЬШЕНИЕ устройства 38 оценки шума в активное состояние, при котором устройство 38 оценки шума может осуществлять обновление полученных оценочных значений шума только в сторону их уменьшения (или оставлять их неизменными). Если на этапе 111 определено, что значение complex_hang_count (отсчет_последействия_сложного_сигнала) не превышает порогового значения ПЗоз (ТНhc), то на этапе 113 вход УМЕНЬШЕНИЕ устройства 38 оценки шума приводится в неактивное состояние, при котором устройство 38 оценки шума может осуществлять обновление полученных оценочных значений шума как в сторону увеличения, так и в сторону уменьшения. В одном из примеров значение ПЗ (ТНhc) равно 0.

Как показано выше, флаги сложного сигнала, сформированные посредством УОАС, позволяют производить выборочную отмену результатов классификации типа "шумового" сигнала, полученных посредством УОАР, в том случае, если посредством УОАС определено, что входной аудиосигнал представляет собой сложный сигнал, который содержит информацию, являющуюся существенной с точки зрения ее восприятия слушающим субъектом. Если установлено, что g_f(i) превышает заранее заданное значение после того, как посредством УОАР было определено, что заранее заданное количество последовательных кадров представляют собой шум, флаг VAD_fail_short (неудача_УОАР_кратк) инициирует вывод указателя "существенности" из логического устройства, принимающего решение с учетом предыдущих состояний.

После того как g_f(i) превысил заранее заданное значение для заранее заданного количества последовательных кадров, флаг VAD_fail_long (неудача_УОАР_долг) также может инициировать вывод указателя "существенности" из логического устройства, принимающего решение с учетом предыдущих состояний, и может сохранять этот указатель в течение относительно длительного периода времени сохранения. Этот период времени сохранения может включать в себя несколько отдельных последовательностей кадров, в которых g_f(i) превышает вышеуказанное заранее заданное значение, но в которых каждая из отдельных последовательностей кадров содержит количество кадров меньшее, чем вышеуказанное заранее заданное количество кадров.

В одном из вариантов осуществления параметр соответствия сигнала complex_hang_count (отсчет_последействия_сложного_сигнала) может привести вход УМЕНЬШЕНИЕ устройства 38 оценки шума в активное состояние при тех же самых условиях, что и флаг сложного сигнала VAD_fail_long (неудача_УОАР_долг). Управление посредством параметров соответствия сигнала complex_high (сложный_высок) и complex_low (сложный_низк) может быть осуществлено таким образом, что если g_f(i) превышает первое заранее заданное пороговое значение для первого количества последовательных кадров либо превышает второе заранее заданное пороговое значение для второго количества последовательных кадров, то уровень входного сигнала ЗАДЕРЖКА устройства 38 оценки шума может быть увеличен (при необходимости) до нижнего предельного значения даже в том случае, если определено (посредством устройства 39 определения речи/шума), что несколько последовательных кадров являются стационарными.

Фиг.12 иллюстрирует операции, которые могут быть реализованы в вариантах осуществления устройства кодирования речи по Фиг.1-Фиг.11. На этапе 121 вычисляется нормированный коэффициент усиления, имеющий наибольшее (максимальное) значение для текущего кадра. На этапе 122 осуществляется анализ усиления для создания флагов сложного сигнала и параметров соответствия. На этапе 123 используются параметры соответствия для вычисления в УОАР оценочного значения фонового шума. На этапе 124 флаги сложного сигнала используются для принятия решения о наличии существенной информации логическим устройством, принимающим решение с учетом предыдущих состояний. Если на этапе 125 определено, что аудиосигнал не содержит существенную с точки зрения восприятия информацию, то на этапе 126 может быть снижена скорость передачи двоичной информации, например, в системе с ПСП, или же может быть осуществлено кодирование параметров комфортного шума, например, в системе ПРП.

Для специалистов в данной области техники из приведенного выше описания очевидно, что варианты осуществления по Фиг.1 - Фиг.13 могут быть легко реализованы в обычных устройствах кодирования речи посредством надлежащих видоизменений программного обеспечения и/или аппаратных средств.

Несмотря на то, что подробное описание было приведено выше для вариантов осуществления настоящего изобретения, служащих в качестве примеров, это не ограничивает объем изобретения, которое может быть реализовано на практике в различных вариантах осуществления.

Класс G10L11/02 обнаружение наличия или отсутствия сигналов речи

Класс G10L15/00 Распознавание речи

основанные на языке разметки выбор и использование распознавателей для обработки произнесения -  патент 2525440 (10.08.2014)
электронно-вычислительное устройство -  патент 2523220 (20.07.2014)
способ обнаружения эмоций по голосу -  патент 2510955 (10.04.2014)
способ и система для предоставления речевого интерфейса -  патент 2494476 (27.09.2013)
устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования -  патент 2493652 (20.09.2013)
архитектура распознавания для генерации азиатских иероглифов -  патент 2477518 (10.03.2013)
способ электронного анализа диалога и система для осуществления этого способа -  патент 2472219 (10.01.2013)
система и способ распознавания речи -  патент 2466468 (10.11.2012)
устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала -  патент 2459281 (20.08.2012)
способ обработки речевого сигнала в частотной области -  патент 2454735 (27.06.2012)
Наверх