способ обнаружения и коррекции ложных импульсов при передаче речи методом импульсно-кодовой модуляции
Классы МПК: | G10L13/02 способы синтезирования речи; синтезаторы речи H04L1/24 проверка правильности работы |
Автор(ы): | Брайнина И.С. |
Патентообладатель(и): | Поволжская государственная академия телекоммуникаций и информатики |
Приоритеты: |
подача заявки:
2000-06-23 публикация патента:
20.10.2002 |
Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линии связи методом ИКМ. Способ обнаружения и коррекции ложных импульсов при передаче речи методом ИКМ заключается в отслеживании идущих друг за другом повышенных сдвоенных "скачков" уровня первой производной речевого сигнала, измерении среднего модуля первой производной сигнала на протяжении этого отрезка путем накопления модулей разности двух соседних ИКМ-отсчетов сигнала и установки двух одинаковых адаптивных порогов разного знака, пропорциональных среднему модулю первой производной; обнаруживают кодовую комбинацию, содержащую ложный бит, относительный уровень двух адаптивных порогов в моменты пауз речи повышают, а коррекцию ошибочного отсчета сигнала осуществляют путем замены его предшествующим неискаженным отсчетом. Достигаемый технический результат - повышение качества приема речевых сигналов. 1 ил.
Рисунок 1
Формула изобретения
Способ обнаружения и коррекции ложных импульсов при передаче речи методом импульсно-кодовой модуляции (ИКМ), заключающийся в отслеживании идущих друг за другом повышенных сдвоенных "скачков" уровня первой производной речевого сигнала на основе запоминания предшествующего данному отрезка речевого сигнала на основе запоминания предшествующего данному отрезка речевого сигнала, измерения среднего модуля первой производной сигнала на протяжении этого отрезка путем накопления модулей разности двух соседних ИКМ-отсчетов сигнала и установки двух одинаковых адаптивных порогов разного знака, пропорциональных среднему модулю первой производной, по превышению которых подряд двумя текущими разностями соседних ИКМ-отсчетов сигнала обнаруживают кодовую комбинацию, содержащую ложный бит, отличающийся тем, что относительный уровень двух адаптивных порогов разного знака определяется также по характеру сигнала, при этом паузы речи отслеживаются по заниженному среднему модулю сигнала на интервале анализа, относительный уровень двух адаптивных порогов в моменты пауз речи повышают, а коррекцию ошибочного отсчета сигнала осуществляют путем замены его предшествующим неискаженным отсчетом.Описание изобретения к патенту
Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии. Известен /2/ способ обнаружения цифровых ошибок (ложных импульсов) в составе комбинаций ИКМ-кода, основанный на передаче по линии связи квазитроичного кода (кода МЧПИ с чередованием полярностей импульсов, в котором предусмотрены нарушения биполярности в виде вставок пар импульсов одной полярности). Нарушения биполярности кода МЧПИ чередуются по полярности, благодаря чему удается обнаруживать ошибки в цифровом сигнале по нарушениям этого чередования. Недостатком данного способа обнаружения цифровых ошибок является невозможность на его основе исправлять ложные импульсы из-за малой избыточности квазитроичного кода с МЧПИ. Наиболее близким техническим решением (прототипом) является способ /1/ обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции (ИКМ). К недостатку прототипа можно отнести снижение эффективности способа из-за зависимости оптимальных адаптивных порогов обнаружения ошибок от типа сигнала (речь, шум в паузах речи). Другим недостатком является сложность и недостаточная эффективность предложенного метода коррекции цифровых ошибок путем перебора только двух старших разрядов нелинейного ИКМ-кода. В реальных условиях аномальные ошибки, приводящие к щелчкам, могут возникать из-за искажений от двух до четырех старших разрядов нелинейного ИКМ-кода. При этом поиск ложного разряда внутри кодовой комбинации путем перебора четырех старших бит оказывается неоправданно сложным. Присутствие цифровых ошибок вызывает на приемной стороне так называемый шум ложных импульсов, снижающий качество цифровой телефонной связи. Особенно опасны /1, 3/ аномальные цифровые ошибки, связанные с трансформациями двух старших разрядов нелинейного ИКМ-кода. Эти ошибки сопровождаются на стороне приема неприятными для абонентов импульсными помехами типа "щелчков", резко ухудшающими качество воспроизведения речи. Нормирование аномальных ошибок (на уровне не более одного "щелчка" в минуту) предъявляет повышенные требования к качеству линий связи, предназначенных для передачи речи методом ИКМ, допустимая вероятность ошибки на один регенерационный участок не должна превышать величины рош=10-6. Исправление аномальных цифровых ошибок позволит снизить требования к помехозащищенности линий связи, применить более дешевый кабель, либо увеличить длину участков регенерации, либо повысить относительное число уплотняемых пар в кабеле системами с ИКМ при сохранении неизменным субъективного восприятия качества речи. Техническим результатом предлагаемого изобретения является повышение качества приема речевых сигналов, передаваемых цифровым методом с помощью нелинейной ИКМ по линиям связи с невысокой помехозащищенностью. Способ обнаружения и коррекции ложных импульсов при передаче речи методом ИКМ, заключающийся в отслеживании идущих друг за другом повышенных сдвоенных (разного знака) "скачков" уровня первой производной речевого сигнала на основе запоминания предшествующего данному отрезка речевого сигнала, измерения среднего модуля первой производной сигнала на протяжении этого отрезка путем накопления модулей разности двух соседних ИКМ-отсчетов сигнала и установке двух одинаковых адаптивных порогов разного знака, пропорциональных среднему модулю первой производной, превышение которых подряд двумя текущими разностями соседних ИКМ -отсчетов сигнала позволяет обнаружить кодовую комбинацию, содержащую ложный бит, отличается тем, что относительный уровень двух адаптивных порогов разного знака определяется также характером сигнала (речь или шум в паузах речи), при этом паузы речи отслеживаются по заниженному среднему модулю сигнала на интервале анализа, относительный уровень двух адаптивных порогов в моменты пауз речи повышается, а коррекция ошибочного отсчета сигнала осуществляется путем замены его предшествующим неискаженным отсчетом. На фиг. 1 (а-г) представлены временные диаграммы обработки сигнала, иллюстрирующие предложенный способ обнаружения и коррекции ложных импульсов при передаче речи методом ИКМ. На фиг. 1а изображена исходная передаваемая последовательность отсчетов речевого сигнала, на фиг. 1б - искаженная принятая последовательность отсчетов речевого сигнала из-за ошибочного приема старшего (знакового) разряда ИКМ-кода одного из отсчетов. Трансформация знака отсчета привела в данном случае к появлению импульсной помехи значительного уровня, воспринимаемой на слух, как неприятный щелчок. Еще более мощные щелчки могут возникать при искажениях номера сегмента логарифмического ИКМ-кода, например при переходе 3-го сегмента в 7-й, либо 2-го в 6-й, 1-го в 5-й из-за замены 0 в старшем разряде номера сегмента на 1. Паузе в сигнале ("режиму молчания") на фиг. 1а соответствует появление наиболее заметного по уровню щелчка на фиг. 1б из-за искажения второго разряда ИКМ-кода (старшего разряда кода модуля отсчета сигнала), приводящего к переходу 0-го сегмента в 4-й. Меньшие по уровню, но также неприятные импульсные помехи возникают в паузах речи при трансформациях одного из младших (третьего или четвертого) разрядов модуля нелинейного ИКМ-кода отсчета сигнала, приводящих соответственно к переходам из 0-го сегмента во 2-й либо 1-й. Таким образом, аномальные цифровые ошибки (в одном из четырех старших разрядов логарифмического ИКМ-кода) приводят к существенным импульсным помехам как в режиме разговора, так и в паузах речи. Исследования /1, 3/ показали, что искажения остальных четырех младших разрядов нелинейного ИКМ-кода не вызывают импульсных помех типа щелчков, а воспринимаются на слух как сравнительно небольшой шум, мешающее действие которого значительно слабее. Следовательно, устранение аномальных цифровых ошибок в одном из четырех старших разрядах кода отсчета сигнала приведет к заметному повышению качества восприятия речи при цифровой передаче. На фиг. 1в показан график первой производной речевого сигнала, пропорциональной разности двух соседних отсчетов. Как видно из фигуры, аномальная ошибка сопровождается двумя скачками первой производной сигнала разного знака, следующими один за другим. В отсутствие подобных ошибок, сдвоенных скачков первой производной повышенного уровня в естественной речи не наблюдается. Это объясняется сильными корреляционными связями между соседними отчетами речевого сигнала. Согласно /3/ такие связи охватывают до десяти идущих подряд отсчетов, поскольку речь имеет большую избыточность. Энергетический спектр речевого сигнала резко неравномерен, имеет подъем в области частот (400-500) Гц и быстрый спад (со скоростью в среднем 9 дБ на октаву) в диапазоне частот (500-4000) Гц. Поскольку частота следования отсчетов сигнала при ИКМ fд = 8 кГц существенно выше области частот, в которой сосредоточена основная энергия речи, сигнал изменяется сравнительно медленно и за время действия двух соседних отсчетов изменения в среднем незначительны. Другими словами, больших уровней первой производной в речевом сигнале не ожидается. Исследования на реальной речи показывают, что средний модуль производной речевого сигнала для низких мужских голосов в (4-5) раз, а для высоких женских и детских голосов в (2-3) раза меньше среднего модуля сигнала. При этом распределение мгновенных значений первой производной речевого сигнала хорошо описывается гауссовым законом с нулевым средним значением и дисперсией, в среднем в (5-20) раз меньшей, чем дисперсия (мощность) речевого сигнала. Адаптивные пороги допустимых значений первой производной речевого сигнала должны выбираться из компромиссных соображений. С одной стороны, пороги должны быть достаточно высокими с тем, чтобы редкие естественные увеличения мгновенных значений первой производной речи не были ложно приняты за аномальную цифровую ошибку и скорректированы, что привело бы к искажениям формы речевого сигнала. С другой стороны, пороги нужно по возможности понижать с целью более надежного обнаружения и дальнейшей коррекции аномальных цифровых ошибок, воспринимаемых на слух, как "щелчки". Разрешить это противоречие удается благодаря тому, что в речевом сигнале практически не встречается двойных скачков первой производной разного знака, сопровождающихся удвоенным по уровню скачком второй производной, график которой приведен на фиг. 1г. Как показали исследования на реальных речевых сигналах, средний модуль второй производной речи оказался соизмеримым со средним модулем первой производной речи. Таким образом, двукратное превышение первой производной речи двух адаптивных порогов разного знака эквивалентно однократному превышению второй производной удвоенного порога (фиг. 1г), что совершенно нереально. Подтверждением этого является то обстоятельство, что в естественной речи никаких реализаций, воспринимаемых на слух, как "щелчки ", никогда не наблюдается. Полагая закон распределения мгновенных значений первой производной речевого сигнала гауссовым, целесообразно установить адаптивные пороги (фиг. 1в) на уровне порядка 3Uэфф, где Uэфф - эффективное (действующее) значение первой производной речевого сигнала, измеренное на предыдущем отрезке сигнала. Поскольку измерение действующего значения случайного процесса связано со значительными трудностями, гораздо проще измерить средний модуль сигнала Ucp, пропорциональный действующему значению. Для гауссова процесса известна связьОтсюда оптимальная величина адаптивного порога для речи, и это подтверждается результатами обширного моделирования на ПК с использованием реального речевого сигнала и усреднением по большому числу мужских и женских голосов:
Uпор = 3Uэфф = 3.75 Uср. Таким образом, обнаружение "щелчков" напрямую связано с формированием адаптивных порогов, с которыми сравниваются текущие значения первой производной речевого сигнала. Среднее значение модуля первой производной Ucp должно быть измерено заранее, на предыдущем интервале анализа Та речевого сигнала. Что касается шумов в паузах речи, то с учетом их малого уровня шумовые отчеты попадают преимущественно в 0-й сегмент логарифмического ИКМ-кода. Аномальные цифровые ошибки переводят отчеты шума в 1-й, 2-й либо 4-й сегменты и легко отслеживаются на фоне слабых шумов. Благодаря этому можно повысить относительные уровни адаптивных порогов, например, до оптимальных значений Uпор = (5-6) Uэфф без снижения эффективности обнаружителя щелчков в паузах речи. Повышение порогов в свою очередь способствует снижению вероятности ложного обнаружения и исправления несуществующих ошибок, приводящего к появлению добавочных шумов. Следовательно, оптимальный выбор порогов обнаружителя сдвоенных скачков первой производной сигнала должен производиться с учетом характера сигнала (речь, шум в паузах речи). При этом необходимо предусмотреть обнаружитель пауз речи на основе отслеживания пониженных уровней среднего модуля сигнала на интервалах анализа Та. Выбор величины Та также определяется компромиссными соображениями. С одной стороны, интервал анализа должен быть достаточно большим и содержать много отсчетов речевого сигнала для надежного усреднения за время Та модуля первой производной речи и получения достоверной величины U cp и пропорционального ей уровня порога Uпор. С другой стороны, за время Та параметры речевого сигнала не должны заметно изменяться, то есть информация о величине порога, полученная на предшествующем интервале анализа, не должна устаревать в течение всего последующего интервала анализа Та. Известно, что интервал стационарности речевого сигнала Тст, на протяжении которого параметры речи остаются почти неизменными, примерно совпадает с продолжительностью самого короткого звука и составляет (20-30) мс. Выбор интервала Та не более половины Тст, Та = (8-10) мс оказывается оптимальным. За это время проходит (64-80) ИКМ-отсчетов речевого сигнала, что вполне достаточно для надежного усреднения модуля первой производной. В то же время на интервале 2Та = (16-20) мс информация о величине адаптивного порога Uпор остается еще достоверной. Отметим, что интервал Та/2=(4-5) мс совпадает с периодом основного тона речи, усредненным по большому числу голосов. Это обстоятельство подтверждает правильность выбора времени усреднения модуля первой производной речевого сигнала, поскольку за два периода основного тона речи можно получить достаточно точные оценки параметров речевого сигнала. После обнаружения двойного скачка первой производной, выражающегося в последовательном превышении обоих порогов разного знака, необходимо осуществить коррекцию аномальной цифровой ошибки. В отличие от прототипа /1/, где коррекция достигалась перебором двух старших разрядов нелинейного ИКМ-кода до тех пор, пока не устранялся двойной скачок первой производной, предложенный способ предполагает интерполяцию сигнала по предшествующим неискаженным отсчетам. Проще всего осуществляется интерполяция нулевого порядка по одному запомненному неискаженному предшествующему отсчету, который заменяет собой искаженный отсчет сигнала. Несколько сложнее реализуется интерполяция первого порядка, когда с помощью двух предшествующих отсчетов предсказывается последующий, которым и заменяется текущий искаженный отсчет сигнала. Результаты моделирования на ПК показали, что интерполяция нулевого порядка незначительно уступает по уровню остаточных шумов интерполяции первого порядка, при этом проигрыш не превышает 1,5 дБ. В свою очередь интерполяция первого порядка проигрывает сравнительно с идеальной коррекцией сигнала (интерполяцией бесконечно высокого порядка) не более 1 дБ. Учитывая существенную простоту интерполятора нулевого порядка, незначительный проигрыш в эффективности и резкое усложнение схемотехнической реализации интерполяторов высоких порядков, целесообразно для коррекции аномальных цифровых ошибок использовать интерполятор нулевого порядка. Можно добавить также, что после прохождения отсчетов сигнала через фильтр - восстановитель (ФНЧ с частотой среза 3,4 кГц ) на выходе канала тональной частоты погрешность интерполяции нулевого порядка дополнительно снизится. Моделирование на ПК на примере отрезка речевого сигнала длиной 70 с, содержащего 2 женских и 5 мужских голосов, показало, что, несмотря на увеличение вероятности ошибок в тысячу раз выше нормы и доведение ее до рош=10-3, коррекция аномальных ошибок позволила устранить все заметные на слух щелчки и обеспечить практически соответствующее норме качество восприятия речи. Этот результат эквивалентен выигрышу в отношении сигнал/ шум по мощности вдвое, что весьма существенно. Литература
1. Брайнина И.С., Ротенштейн И.В. Способ обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции (ИКМ). Патент 2148277, бюл. 12, 27. 04. 2000. 2. Голубев А.Н., Иванов Ю.П., Левин Л.С. и др. Аппаратура ИКМ- 120. -М.: Радио и связь, 1989. -256 с. 3. Гуревич В.Э., Лопушнян Ю.Г., Рабинович Г.В. Импульсно-кодовая модуляция в многоканальной телефонной связи. -М.: Связь, 1973. - 336 с.
Класс G10L13/02 способы синтезирования речи; синтезаторы речи
Класс H04L1/24 проверка правильности работы