способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой

Классы МПК:G10L19/06 определение или кодирование характеристик полосы спектра, например коэффициентов прогнозирования краткосрочных предсказаний
Автор(ы):, ,
Патентообладатель(и):Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) (RU)
Приоритеты:
подача заявки:
2006-12-06
публикация патента:

Изобретение относится к системе электросвязи и предназначено для кодирования речевых сигналов на основе системы с переменной структурой. Сущность способа кодирования состоит в том, что осуществляют классификацию сегментов входного речевого сигнала на шесть классов: пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа и кодирование распознанных сегментов входного речевого сигнала различными методами путем изменения структуры системы кодирования. Технический результат - повышение качества синтезируемого речевого сигнала при фиксированной низкой скорости передачи в канале связи. 2 ил. способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564

способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564 способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564

Формула изобретения

Способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой, заключающийся в том, что входной речевой сигнал делят по временной оси на сегменты, находят остатки кратковременных предсказаний входного речевого сигнала, распознают входной речевой сигнал как вокализованный или невокализованный, кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если часть входного речевого сигнала определена как вокализованная, или кодируют входной речевой сигнал путем кодирования формы сигнала, если часть входного речевого сигнала определена как невокализованная, отличающийся тем, что сегменты входного речевого сигнала распознают как пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа, затем кодируют сегмент входного речевого сигнала путем кодирования формы сигнала, если сегмент входного речевого сигнала определен как пауза, шумовой сегмент первого типа или шумовой сегмент второго типа, или находят остатки кратковременных предсказаний входного речевого сигнала и кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если сегмент входного речевого сигнала определен как тоновый сегмент, переходный сегмент первого типа или переходный сегмент второго типа.

Описание изобретения к патенту

Предлагаемое изобретение предназначено для кодирования речевых сигналов (PC) на основе системы с переменной структурой, применение которой направленно на сокращение избыточности передаваемой информации.

Известны способы кодирования речевых сигналов на основе линейного предсказания и различными сигналами возбуждения синтезирующего фильтра, с использованием процедуры векторного квантования сигналов возбуждения и параметров, описывающих спектральную огибающую речевого сигнала, например [1, 2].

Недостатком таких способов являются невысокие возможности в плане адаптации этих алгоритмов к свойствам обрабатываемого PC, что предопределяет недостаточно высокое качество восстановления сигнала на приеме. В данных алгоритмах в процессе кодирования изменяются только параметры кодера, а структура его остается неизменной. Фиксированное структурирование пространства кодируемых параметров и постоянство мощностей подпространств представлений (порядок предсказания для линейного предсказания, размер кодовых книг при векторном квантовании, длина кодируемого вектора), присущие существующим алгоритмам и выражающиеся в фиксированной структуре кодекса, не создают необходимых условий для максимального использования имеющейся априорной информации о речевом сигнале, что препятствует дальнейшей оптимизации кодека.

Известен способ кодирования речевых сигналов на основе линейного предсказания в зависимости от типа обрабатываемого сегмента речевого сигнала [3], где достигается повышение качества синтезируемого сигнала за счет использования классификации обрабатываемых кадров речевого сигнала на два непересекающихся класса: вокализованная и невокализованная речь, и кодирование сегментов, относящихся к разным классам различными методами. К недостаткам данного способа можно отнести небольшое число классов, на которые подразделяется речевой сигнал, адаптивное перераспределение мощностей подпространств представления кодируемых параметров в условиях фиксированной структуры кодирующего устройства, что предопределяет недостаточно высокое качество восстановления сигнала на приеме. При существующих требованиях к представлению речевых сигналов в цифровом виде необходима более тщательная обработка речевого сигнала. В данных условиях способы, основанные на изменении только параметров кодера в соответствии с характеристиками речи, становятся неприемлемыми и не дают достаточного качества при кодировании PC.

Предлагаемый способ преобразования речи решает задачу повышения качества синтезируемого PC без увеличения скорости передачи.

Указанный технический результат достигается тем, что в реальном масштабе времени входной речевой сигнал делят по временной оси на сегменты, распознают сегмент входного речевого как пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа исходя из следующей процедуры классификации (фиг.1).

На первом этапе классификации сигнал делится на активные участки и паузы, критерием принятия решения служит соотношение:

способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564

где N - число отсчетов в обрабатываемом речевом сегменте;

si - отсчет речевого сигнала;

P0 - пороговое значение мощностной характеристики, определяемое экспериментальным путем.

В случае выполнения неравенства (1) принимается решение о том, что обрабатываемый сегмент 1 относит к классу пауз 2. В противном случае, принимается решение о принадлежности обрабатываемого сегмента речи к классу активных сегментов 3.

На втором этапе классификации активные сегменты речи 3 делятся на 4 типа сегментов: тоновые 7, шумовые 4, переходные первого типа 5 и переходные второго типа 6. Для такого деления вычисляется параметр тон/шум (ТШ) и частота основного тона (ОТ) Fот на сегменте анализа. Вычисление сигналов ТШ и Fот производится совместно на основе анализа автокорреляционной функции (АКФ) PC и метода Итакуры-Саито. Использование двух методов в совокупности уменьшает вероятность ошибки в классификации сегментов речи. При этом правила принятия решения о типе сегмента формулируются следующим образом.

К тоновым сегментам 7 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как тоновой;

- метод Итакуры-Саито определяет сегмент как тоновой.

К шумовым сегментам 4 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как шумовой;

- метод Итакуры-Саито определяет сегмент как шумовой.

К переходным сегментам первого типа 5 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как шумовой;

- метод Итакуры-Саито определяет сегмент как тоновой.

К переходным сегментам второго типа 6 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как тоновой;

- метод Итакуры-Саито определяет сегмент как шумовой.

На третьем этапе классификации происходит разделение шумовых сегментов речи 4 по коэффициенту огибающей и мощностной характеристике сигнала (1) на два класса. Правило принятия решения определяется соотношением:

способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564

где Р - определяется в соответствии с левой частью выражения (1);

способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564 0 - пороговое значение коэффициента сложности кодируемого сегмента, определяемое экспериментальным путем;

способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564 - коэффициент огибающей кодируемого сигнала, определяемый как:

способ адаптивного кодирования речевых сигналов на основе системы   с переменной структурой, патент № 2343564

Если в результате расчета неравенство (2) выполняется, принимается решение о том, что обрабатываемый сегмент относится к шумовому сегменту первого типа 8, в противном случае - к шумовому сегменту второго типа 9.

Затем кодируют сегмент входного речевого сигнала путем кодирования формы сигнала, если сегмент входного речевого сигнала определен как пауза, шумовой сегмент первого типа или шумовой сегмент второго типа, или находят остатки кратковременных предсказаний входного речевого сигнала и кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если сегмент входного речевого сигнала определен как тоновый сегмент, переходный сегмент первого типа или переходный сегмент второго типа.

Таким образом, в соответствии с полученными статистическими и параметрическими характеристиками выбирается та структура кодирующего устройства (блоки 10 или 11), которая обеспечивает минимум искажений речевого сигнала.

На чертежах (фиг.1 и 2) представлена сущность предлагаемого решения, где на фиг.1 изображен вариант классификации распознаваемых сегментов речи в соответствии с предлагаемым решением, на фиг.2 - структурная схема устройства кодирования речевых сигналов на основе системы с переменной структурой.

Предлагаемый способ преобразования речевого сигнала может быть реализован в устройстве кодирования речевых сигналов (фиг.2).

Исходный речевой сигнал подается на кодер ИКМ 12, реализующий преобразование аналогового сигнала в цифровую форму согласно рекомендации МСЭ G.711. В блоке формирования и начальной обработки сегмента анализа PC 13 оцифрованный речевой сигнал подвергается сегментированию на одинаковые подкадры, равные периоду квазистационарности. Далее подкадры речевого сигнала последовательно поступают на анализатор речь/пауза 14, выделитель статистических и параметрических характеристик 15, блок формирования субкадров 24 и блок управления структурой и параметрами линейного предсказателя 26. В анализаторе речь/пауза 14 происходит разделение речи на сегменты активности и паузы, при этом сегменты речи, отнесенные к активным, передаются для последующего анализа в блок анализа тон/шум 18, а управляющие сигналы о принятом решении (речь/пауза) с данного блока передаются на выделитель статистических и параметрических характеристик 15 и подсистему управления структурой кодека 17. В блоке 15 реализуется выделение статистических и параметрических характеристик сегмента речевого сигнала при отнесении его к сегментам активной речи. Блок формирования субкадров 14 предназначен для выделения подкадров процедуры векторного квантования 30 на сегменте анализа, результаты процедуры подаются на блок управления структурой векторного квантователя 25 и векторный квантователь 30. В блоке анализа тон/шум 18 осуществляется выделение сигнала тон-шум на сегменте анализа, при отнесении его блоком 14 к сегменту активной речи. При этом в случае выделения сигнала шум управляющий сигнал, несущий информацию о данном решении, поступает на блок 17, в противоположном случае (выделение сигнала тон) управляющий сигнал поступает на блок 19.

В блоках 17 и 19 реализуется подсистема управления структурой кодера, при этом блок 17 управляет структурой кодера в зависимости от классификационных решений, относящих обрабатываемый сегмент речи к паузе и шумовым сегментам, а блок 19 использует информацию с блока 18 об активности и тональности сегмента речи. Информационные сигналы с блока 19 поступают на выделитель частоты ОТ на основе анализа АКФ 20 и выделитель частоты ОТ методом Итакуры-Саито 21. В указанных блоках 20 и 21 осуществляется выделение частоты основного тона на основе анализа автокорреляционной функции сегмента анализа речевого сигнала и с помощью метода Итакуры-Саито соответственно. Результаты расчетов поступают в блок корректировки значения частоты ОТ 22, в котором происходит коррекция значения частоты основного тона для осуществления принятия решений о типе обрабатываемого сегмента речи классификатором речевых кадров 16 и выбора оптимальных режимов функционирования блоком управления структурой и параметрами линейного предсказателя 26 и блоком управления структурой векторного квантователя 25. Таким образом, на входы классификатора 16 поступают информационные сигналы: с выхода выделителя статистических и параметрических характеристик PC 15 и выхода блока корректировки значения частоты ОТ 22. Результаты классификации блоком 16 подаются на подсистему управления кодером 23, определяющую режим кодирования в зависимости от результата классификации сегмента, выходом данного блока являются управляющие сигналы для блока формирования субкадров PC 14, блока управления структурой векторного квантователя 25 и блока управления структурой и параметрами линейного предсказателя 26.

В соответствии с результатами классификации блоком 25 осуществляется управление работой векторного квантователя 30, а также выбор кодовых книг различной структуры 27, наиболее точно соответствующих кодируемому субкадру речи. Блоком 26 осуществляется управление структурой и параметрами линейного предсказателя. Функционирование линейного предсказателя связано с кодовыми книгами параметров кратковременного линейного предсказателя 31 и кодовыми книгами параметров долговременного линейного предсказания 32, с блоком расчета параметров кратковременного линейного предсказания 28 и блоком расчета параметров долговременного линейного предсказания 29, с блоком кратковременного линейного анализа 33 и блоком долговременного линейного анализа 34, в которых непосредственно реализуются процедуры линейного предсказания на основе параметров линейного предсказания, выбранных из соответствующих кодовых книг и наиболее соответствующих рассчитанным. Также блок 26 взаимодействует с блоком выбора наилучшей структуры и параметров линейного предсказателя 36, который осуществляет выбор наилучшей структуры и параметров линейного предсказателя на основе процедуры анализа через синтез и результатами управляющих воздействий на структуру кодера. Информационные сигналы, полученные в результате векторного квантования (блок 30) и/или линейного предсказания (блок 36), поступают на вход блока формирования выходной последовательности кодера 35, который осуществляет формирование кадра передачи кодирующего устройства.

Процедура декодирования на приемной стороне заключается в выделении из принятой последовательности кадра передачи информации о типе структуры и параметрах кодированного PC, выборе соответствующей структуры декодера и постановлении PC по принятым сигналу возбуждения и параметрам синтезирующего устройства.

Приведенные сведения показывают, что введение в систему кодирования процедуры классификации речевых сегментов на 6 типов: пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа, и кодирование распознанных сегментов входного речевого сигнала различными методами путем изменения структуры системы кодирования позволяет повысить качество синтезируемого PC без увеличения скорости передачи.

Источники информации

1. Устинов А.А., Тюлегенев А.О., Данилюк В.В. Патент №2152646, кл. 7 G10L 21/00. Способ сжатия и восстановления речевых сигналов. Бюл. №19 от 10.07.2000.

2. Костров В.В., Дыранов Ю.В., Фабричный С.Ю. Патент №2166804, кл. 7 G10L 13/02. Способ преобразования речи и устройство для его осуществления. Бюл. №13 от 10.05.2001.

3. Нисигути М., Иидзима К., Матсумото Д., Омори С. Патент №2233010, кл. 7 G10L 19/06. Способы и устройства для кодирования и декодирования речевых сигналов. Бюл. №20 от 20.07.2004.

Класс G10L19/06 определение или кодирование характеристик полосы спектра, например коэффициентов прогнозирования краткосрочных предсказаний

способ многоканального адаптивного подавления акустических шумов и сосредоточенных помех и устройство для его осуществления -  патент 2477533 (10.03.2013)
векторный квантователь, инверсный векторный квантователь и способы -  патент 2469421 (10.12.2012)
способ и средство для кодирования информации фонового шума -  патент 2461080 (10.09.2012)
системы, способы и устройство для широкополосного кодирования и декодирования активных кадров -  патент 2441288 (27.01.2012)
системы, способы и устройство для широкополосного кодирования и декодирования активных кадров -  патент 2437171 (20.12.2011)
системы, способы и устройство для широкополосного кодирования и декодирования активных кадров -  патент 2419170 (20.05.2011)
способ и устройство для векторного квантования спектрального представления огибающей -  патент 2387025 (20.04.2010)
аудиокодирование -  патент 2321901 (10.04.2008)
кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения -  патент 2237296 (27.09.2004)
способы и устройства для кодирования и декодирования речевых сигналов -  патент 2233010 (20.07.2004)
Наверх