способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием

Классы МПК:G10L19/08 определение или кодирование функций возбуждения; определение или кодирование параметров долгосрочных прогнозов
Автор(ы):,
Патентообладатель(и):Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) (RU)
Приоритеты:
подача заявки:
2012-06-25
публикация патента:

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала. Поставленная цель в вокодере с линейным предсказанием достигается посредством отказа от передачи по каналу связи информации о сигнале возбуждения. Сигнал возбуждения идентифицируют непосредственно на приеме по данным о параметрах синтезирующей модели при помощи нейронной сети. По каналу связи передают информацию о коэффициентах формирующей модели, коэффициенте усиления, параметрах, характеризующих кодируемый речевой сигнал, которые рассчитывают на каждом квазистационарном сегменте анализа речевого сигнала. 3 ил.

способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504

Формула изобретения

Способ формирования сигнала возбуждения низкоскоростных вокодеров с линейным предсказанием, использующий параметры синтезирующего фильтра таким образом, что по каналу связи передают только параметры синтезирующего фильтра, отличающийся тем, что на приемной стороне по параметрам синтезирующего фильтра производится процедура идентификации сигнала возбуждения, при этом из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по параметрам передаточной функции голосового тракта при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Описание изобретения к патенту

Изобретение относится к области цифровой связи, а именно к технике анализа-синтеза речи для уменьшения избыточности и может быть использовано в системах телекоммуникаций для эффективного кодирования речевых сигналов.

При цифровой обработке речевых сигналов эффективное кодирование речевых данных для их передачи по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает снижение скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Большинство известных способов кодирования речевых сигналов основываются на методе линейного предсказания. В его основе лежит модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.

Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж.Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С.258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428; О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.102-166).

В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра-синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - с.172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели, параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.

Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US № 7289952 от 30.10.2007, US № 7233896 от 10.07.2007, US № 7133823 от 07.11.2006, US № 5963897 от 05.10.1999, US № 6757650 от 29.06.2004, RU № 2163399 от 22.10.1997, RU № 97117357 от 20.02.2001).

Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.

Наиболее близким по технической сущности к заявленному изобретению является патент RU № 2400832, в котором формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, таким образом, что происходит отказ от передачи по каналу связи информации о сигнале возбуждения, при этом для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры синтезирующего фильтра, содержащие информацию о коэффициентах предсказания или линейных спектральных частотах, а также значение коэффициента усиления сигнала возбуждения, по данным параметрам рассчитывают амплитудно-частотную характеристику синтезирующего фильтра на фазовых углах его полюсов и формируют спектр амплитуд и фаз сигнала возбуждения, затем формируют сигнал возбуждения на основе данных о коэффициенте усиления и спектрах его амплитуд и фаз, который используют в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Недостатком данного способа является относительно невысокое качество синтезированного речевого сигнала, что связано с отсутствием при восстановлении оригинального сигнала возбуждения и случайностью распределения начальных фаз в спектре сигнала возбуждения.

Задачей изобретения является снижение скорости передачи низкоскоростных вокодеров с линейным предсказанием при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала.

Эта задача решается тем, что в способе снижения скорости передачи в низкоскоростных вокодерах с линейным предсказанием предлагается заменить процедуру синтеза сигнала возбуждения на приемной стороне процедурой его идентификации. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по данным параметрам при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Известно, что нейроные сети хорошо решают задачи классификации и идентификации сигналов, в том числе и речевых. Для корректного функционирования нейронной сети - классификатора необходимо предварительное обучение нейронной сети на тестовых примерах (отрезках речевых сигналов) дикторов. В качестве нейронных сетей - классификаторов предлагается использовать нейронные сети на основе радиальных базисных функций (radial-basis function network - RBF), которые позволяют преобразовать пространство входных векторов (множество входных сигналов) большой размерности в пространство выходных векторов (множество выходных сигналов) иной, зачастую меньшей размерности. Архитектура таких сетей предполагает наличие трех слоев, выполняющих различные функции. Входной слой состоит из сенсорных элементов, на которые подаются сигналы, описывающие модель речеобразования. Второй слой является скрытым слоем, осуществляющим нелинейное преобразование входного пространства в скрытое. Использование скрытых нейронов, соединяемых связями с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций.

Основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции векторов в некоторое многомерное пространство большей размерности могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью (Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition // IEEE Trans. Electronic Computers, 1965. - Vol.14. - Pp.326-334). Доказано, что множество векторов, случайным образом размещенных в многомерном пространстве, является способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 -разделяемым с вероятностью 1 при условии соответственно большей размерности К этого пространства. Это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 i(х), гарантирует решение задачи классификации при построении трехслойной сети. Скрытый слой должен реализовать вектор способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 (х), а выходной слой может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов. Сеть функционирует по принципу многомерной интерполяции, состоящей в отображении р различных входных векторов xi (i=1, 2, способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 , p) из входного N-мерного пространства во множество из р рациональных чисел di(i=1, 2, способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 , p). Для реализации этого процесса необходимо использовать р скрытых нейронов радиального типа и задать такую функцию отображения F(x), для которой выполняется условие интерполяции F(x)=d i. Использование р скрытых нейронов, соединяемых связями с весами wi с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов wi, которая имеет вид

способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504

где способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504 ji=(||xj-xi||) определяет радиальную функцию с центром в точке xi с вынужденным вектором xj.

Подбор параметров радиальных функций и значений весов wi сети можно свести к минимизации целевой функции, которая записывается в форме

способ снижения скорости передачи низкоскоростных вокодеров с   линейным предсказанием, патент № 2495504

где К представляет собой количество радиальных нейронов,

р - количество обучающих пар (x i, di),

xi - это входной вектор,

di - соответствующая ему ожидаемая величина.

Решение, представляющее аппроксимирующую функцию в многомерном пространстве в виде взвешенной суммы локальных базисных радиальных функций, может быть интерпретировано радиальной нейронной сетью, представленной на фиг.1.

Предложенная структура нейронной сети будет выполнять функцию классификатора как параметров, описывающих передаточную функцию голосового тракта, так и идентификатора векторов коэффициентов линейного предсказания.

Теоретические и экспериментальные исследования линейного предсказания речи показали, что ясно прослеживаются нелинейные корреляционные зависимости между остатком линейного предсказания и параметрами, описывающими передаточную функцию голосового тракта, которые являются параметрами модели синтеза речи в вокодере с линейным предсказанием. Корреляционные связи между вектором, содержащим параметры голосового тракта, и соответствующим вектором сигнала ошибки линейного предсказания, рассчитанным на интервале квазистационарности, позволяют избавиться от необходимости передачи по каналу связи сигналов возбуждения, являющихся входным сигналом фильтра-синтезатора речевого сигнала на приемной стороне. Данные зависимости можно использовать для понижения скорости передачи информационного потока по каналу связи, применяя на стороне анализа и синтеза специальным образом обученные нейронные сети, предназначенные для решения задачи идентификации соответствующего сигнала возбуждения.

Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне создается вектор параметров описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора подаются на предварительно обученные нейронные сети RBF, которые выполняют функцию классификации входных сигналов, причем как для векторов остатка линейного предсказания, так и для векторов параметров, описывающих передаточную функцию голосового тракта, создаются отдельные нейронные сети одинаковой размерности слоев. Предварительная настройка весовых коэффициентов нейронных сетей производится методом «обучения с учителем» (используется гибридный алгоритм обучения радиальных сетей, описанный: Хайкин С. Нейронные сети: полный курс, 2-е издание. - М.: Издательский дом «Вильямс», 2006 - С.399-400). В ходе процесса классификации устанавливается однозначная взаимосвязь между кластерами векторов остатка линейного предсказания и кластерами векторов параметров голосового тракта для каждого сегмента речевого сигнала. По каналу связи передаются только параметры модели синтеза, коэффициент усиления и данные, характеризующие кодируемый речевой сигнал. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры для синтезирующего фильтра, содержащие информацию о параметрах голосового тракта, данных речевого сигнала, а также значение коэффициента усиления сигнала возбуждения. По данным параметрам обученная нейронная сеть RBF выделяет соответствующий им класс сигналов возбуждения, т.е. сигнала остатка линейного предсказания. Извлеченный при помощи нейронной сети сигнал возбуждения используют в синтезирующем фильтре липредера для формирования цифрового речевого сигнала на участке квазистационарности.

Блок-схема алгоритма функционирования предложенной системы, реализующей способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием, представлена на фиг.2.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».

Благодаря новой совокупности существенных признаков системы, обеспечивающих исключение информации о сигнале возбуждения из формата кадра передачи и его формирование на приеме по значениям параметров синтезирующей модели голосового тракта с использованием нейронной сети, достигается значительное снижение скорости передачи данных в канале связи.

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Заявленное техническое решение поясняется чертежом (фиг.3), на котором показана функциональная схема устройства, реализующего способ снижения скорости передачи в низкоскоростных вокодерах с линейным предсказанием посредством использования нейросетевой классификации коэффициентов линейного предсказания и сигнала ошибки линейного предсказания.

Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком нейросетевой классификации 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другие входы блока 6 поступают сигналы от блока 4.

Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с.425-446). Векторная классификация при помощи нейронных сетей RBF, применяемая в блоке 2, представлена в (Хайкин С. Нейронные сети: полный курс, 2-е издание.: Пер. с англ. - М.: Издательский дом «Вильямс», 2006. - С.371-408). Описание формирования и приема кадра передачи, выполняемых блоками 3 и 4, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.79-87). Механизм нейросетевой идентификации для функционирования блока формирования сигнала возбуждения 5 представлен в (Осовский С. Нейронные сети для обработки информации / Пер. с. польского И.Д.Рудинского. - М.: Финансы и статистика, 2002. - С.129-158). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж.Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С.95-126).

Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок нейросетевой классификации 2, в котором осуществляется классификация и кластеризация векторов на основе предварительно обученных на тестовых сигналах нейронных сетей класса RBF, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания, объединяются с коэффициентом усиления и другими вспомогательными параметрами в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который использует обученную нейронную сеть RBF для формирования вектора сигнала ошибки линейного предсказания, являющегося сигналом возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала, например значение коэффициента усиления.

К достоинствам способа следует отнести тот факт, что устранение из кадра передачи информации о сигнале возбуждения позволяет значительно снизить скорость передачи данных в канале связи, а также уменьшить вычислительную сложность алгоритма кодирования речевого сигнала на передающей стороне. Анализ кадра передачи существующих вокодеров (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.134-136) свидетельствует о том, что приблизительно 50% в кадре передачи занимает информация о сигнале возбуждения.

Использование предлагаемого технического решения для снижения скорости передачи в вокодерах с линейным предсказанием позволяет понизить скорость передачи данных в канале связи на 40-50% от известных решений, либо перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, при этом качественные показатели синтезированной речи повышаются на 0,3-0,5 балла по шкале MOS (MOS - Mean Opinion Scores - средняя экспертная оценка). Критерии оценки согласно шкале MOS подробно рассмотрены в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.255-256).

Синтезированный речевом сигнал характеризуется высокими показателями разборчивости, естественностью и узнаваемостью говорящего.

Приведенные технические решения показывают, что устройство, воплощающее изобретение при его осуществлении, способно обеспечить более низкую скорость передачи данных за счет устранения из кадра передачи информации о сигнале возбуждения и формировании его на приеме по параметрам формирующей функции голосового тракта, используя нейронную сеть - классификатор.

Класс G10L19/08 определение или кодирование функций возбуждения; определение или кодирование параметров долгосрочных прогнозов

способ кодирования, способ декодирования, устройство кодера, устройство декодера, программа и носитель записи -  патент 2510974 (10.04.2014)
способ кодирования сигнала и способ декодирования сигнала -  патент 2486610 (27.06.2013)
устройство для микширования множества входных данных -  патент 2473140 (20.01.2013)
кодирующее устройство и способ кодирования -  патент 2463674 (10.10.2012)
способ и устройство кодирования кадров перехода в речевых сигналах -  патент 2462769 (27.09.2012)
устройство кодирования аудио и способ кодирования аудио -  патент 2458413 (10.08.2012)
устройство поиска фиксированных таблиц кодирования и способ поиска фиксированных таблиц кодирования -  патент 2458412 (10.08.2012)
способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием -  патент 2445719 (20.03.2012)
устройство поиска в фиксированных таблицах кодирования и способ поиска в фиксированных таблицах кодирования -  патент 2425428 (27.07.2011)
способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием -  патент 2400832 (27.09.2010)
Наверх