способ сжатия и восстановления речевых сообщений
Классы МПК: | G10L21/04 временное сжатие или расширение |
Автор(ы): | Моисеев Олег Владимирович (RU), Чистяков Сергей Владимирович (RU), Батенков Кирилл Александрович (RU), Яковлев Алексей Викторович (RU) |
Патентообладатель(и): | Академия Федеральной службы охраны Российской Федерации (RU) |
Приоритеты: |
подача заявки:
2005-04-18 публикация патента:
20.03.2008 |
Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации, в частности к способу сжатия и восстановления речевого сигнала. Сущность способа состоит в том, что предварительно идентично на передаче и на приеме генерируют квадратную матрицу квантованных дискретных отсчетов размером m·m элементов. Затем из одномерного речевого сигнала формируют матрицу квантованных отсчетов речевого сигнала размером N·N элементов. Полученную матрицу преобразуют к цифровому виду на основе произведения трех матриц: двух прямоугольных N·m и m·N элементов и случайно сформированной квадратной m·m элементов. Далее в цифровой канал передают элементы только прямоугольных матриц. Принимают эти матрицы из канала связи. В случае канала с ошибками на приеме формируют новую базисную матрицу, исходя из известной матрицы переходных вероятностей используемого канала связи, и восстанавливают матрицу квантованных отсчетов речевого сигнала размером N·N. Технический результат состоит в обеспечении заданной достоверности передачи в низкоскоростных цифровых каналах связи при высокой степени сжатия передаваемой информации. 8 ил.
Формула изобретения
Способ сжатия и восстановления речевых сообщений, заключающийся в том, что предварительно идентично генерируют на передающей и приемной стороне квадратную матрицу квантованных отсчетов размером m·m элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала, дискретизируют непрерывный речевой сигнал, квантуют дискретные отсчеты, формируют матрицу квантованных отсчетов речевого сигнала размером N·N элементов, формируют множество единичных и нулевых элементов в виде прямоугольных матриц размером N·m и m·N, передают множество единичных и нулевых элементов по каналу связи, которые принимают из канала связи и, выполняя обратные преобразования, формируют матрицу восстановленных квантованных отчетов речевого сигнала N·N элементов в непрерывный речевой сигнал, отличающийся тем, что на приеме принятые прямоугольные матрицы размером N·m и m·N и сгенерированную случайную квадратную матрицу квантованных отсчетов размером m·m элементов преобразуют в оптимальную квадратную матрицу квантованных отсчетов размером m·m элементов в зависимости от априорных данных о вероятности ошибки в цифровом канале с помощью матрицы переходных вероятностей, при этом восстанавливают матрицу квантованных отсчетов речевого сигнала размером N·N путем последовательного перемножения полученной после преобразования оптимальной прямоугольной матрицы N·m, оптимальной квадратной матрицы квантованных отсчетов размером m·m и полученной после преобразования оптимальной прямоугольной матрицы m·N.
Описание изобретения к патенту
Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации. Предлагаемый способ может быть использован для передачи речевых сообщений по цифровым каналам связи со скоростью до 4 кбит/с и может быть отнесен к классу способов кодирования формы речевого сигнала или способов непосредственного кодирования-восстановления. Техническим результатом изобретения является разработка способа кодирования, обеспечивающего передачу сжатой информации с учетом влияния ошибок в канале с постоянными параметрами.
Известны способы кодирования формы речевого сигнала, см., например, книгу: О.И.Шелухин, Н.Ф.Лукъянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000, с.95-124, включающие выполнение трех операций: временную дискретизацию аналоговых сигналов, их квантование и кодирование (представление квантованных дискретных отсчетов сигнала двоичными цифрами). Рассматриваемый способ главным образом определяет механизм кодирования и декодирования квантованных дискретных отсчетов формы сигнала.
Недостатком перечисленных выше способов-аналогов является относительно низкая помехоустойчивость к канальным ошибкам.
Наиболее близким по своей технической сущности к заявленному способу сжатия и восстановления речевых сообщений является способ, описанный в патенте Российской Федерации №2152646 С1, МПК6 G10L 21/00 от 14.07.1998. Способ-прототип включает дискретизацию непрерывного сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов размером N·N элементов, ее преобразование к цифровому виду, передачу цифрового потока по каналу связи, прием его из канала связи, восстановление матрицы квантованных отсчетов размером N·N элементов и обратное преобразование квантованных дискретных отсчетов в непрерывный сигнал. Однако недостатком способа-прототипа является существенное снижение качества восстановленных сообщений в каналах с ошибками, что исключает возможность применения данного способа для передачи сообщений по реальным каналам связи.
Целью изобретения является разработка способа сжатия и восстановления речевых сообщений, обеспечивающего заданную достоверность передачи в низкоскоростных цифровых каналах связи при высокой степени сжатия передаваемой информации.
Поставленная цель достигается тем, что в известном способе-прототипе сжатия и восстановления речевых сообщений, включающем дискретизацию непрерывного речевого сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов исходного сигнала размером N·N элементов, ее преобразование к цифровому виду, передачу цифрового потока по каналу связи, прием его из канала связи, восстановление матрицы квантованных отсчетов исходного сигнала размером N·N элементов и обратное преобразование квантованных дискретных отсчетов в непрерывный речевой сигнал, предварительно идентично на передаче и на приеме генерируют случайную квадратную матрицу квантованных дискретных отсчетов размером m·m элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала. Затем для преобразования матрицы квантованных отсчетов речевого сигнала размером N·N элементов к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде прямоугольных матриц размером N·m и m·N элементов и передают их в канал связи. Принимают эти матрицы из канала связи. В случае канала с ошибками на приеме формируют новую базисную матрицу путем перемножения матрицы m·m на матрицу переходных вероятностей цифрового канала связи. Затем принятые прямоугольные матрицы преобразуют путем деления элементов каждой строки прямоугольной матрицы размером N·m элементов на сумму единиц соответствующей строки и деления элементов каждого столбца прямоугольной матрицы размером m·N элементов на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала размером N·N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером N·m элементов, квадратной матрицы размера m·m элементов, измененной с учетом характеристик канала связи и полученной после преобразования прямоугольной матрицы размером m·N элементов. При этом для формирования матрицы квантованных отсчетов сигнала размером N·N элементов каждому ее элементу А j,i, где j=1, 2, ..., N; i=1, 2, ..., N присваивают квантованное значение дискретного отсчета исходного сигнала, k-й номер которого определяют в соответствии с выражением k=j+N·(i-1).
Для формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N·m и m·N элементов на передаче предварительно генерируют случайные прямоугольные матрицы из единичных и нулевых элементов. Затем преобразуют их. После этого вычисляют матрицу размером N·N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером N·m элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером m·m элементов и полученной после преобразования прямоугольной матрицы размером m·N элементов. Далее вычисляют сумму квадратов разностей между элементами, полученной в результате перемножения матрицы размером N·N элементов, и элементами матрицы квантованных отсчетов речевого сигнала размером N·N элементов. Затем последовательно инвертируют каждый элемент предварительно сгенерированных случайным образом прямоугольных матриц размером N·m и m·N элементов, выполняя при этом их преобразование, а затем последовательно перемножают полученную после преобразования прямоугольную матрицу размером N·m элементов, случайную квадратную матрицу квантованных дискретных отсчетов размером m·m элементов и полученную после преобразования прямоугольную матрицу размером m·N элементов. После этого вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N·N элементов и элементами матрицы квантованных отсчетов речевого сигнала размером N·N элементов. Вычитают эту сумму от аналогичной суммы, полученной на предыдущем шаге, и в случае положительной разности сохраняют инвертированное значение элемента, а в противном случае выполняют его повторную инверсию.
Для преобразования случайных прямоугольных матриц из единичных и нулевых элементов число элементов каждой строки прямоугольной матрицы размером N·m элементов и каждого столбца прямоугольной матрицы размером m·N элементов делят на сумму единиц соответственно в этой строке и этом столбце.
Указанная новая совокупность существенных признаков позволяет учесть ошибки, возникающие в канале связи, и снизить значение временной задержки передаваемой информации до величины, при которой возможно ведение телефонных переговоров по низкоскоростным цифровым каналам связи.
Заявленный способ поясняется чертежами:
Фиг.1 - график кривой, описывающей форму непрерывного речевого сигнала;
Фиг.2 - пример квантованных дискретных отсчетов речевого сигнала;
Фиг.3 - пример формирования матрицы квантованных отсчетов речевого сигнала размером N·N элементов;
Фиг.4 - представление матрицы восстановленных квантованных отсчетов речевого сигнала в виде произведения трех матриц;
Фиг.5 - структура матриц
Фиг.6 - преобразование матрицы квантованных отсчетов речевого сигнала к цифровому виду и обратное преобразование принятого из канала связи цифрового потока в матрицу восстановленных отсчетов речевого сигнала;
Фиг.7 - последовательная оптимизация элементов матриц
Фиг.8 - зависимость качества восстановления речевых сообщений при различной вероятности ошибки в канале.
Возможность реализации заявленного способа сжатия и восстановления речевых сообщений объясняется следующим. В основе предлагаемого способа сжатия и восстановления речевого сигнала лежит подход, основанный на представлении кодируемого блока отсчетов, представленного матрицей квантованных отсчетов речевого сигнала (в дальнейшем обозначим ее как в виде произведения трех матриц: прямоугольной матрицы размером N·m элементов (в дальнейшем обозначим ее как случайной квадратной матрицы квантованных отсчетов размером m·m элементов (в дальнейшем обозначим ее как и прямоугольной матрицы размером m·N элементов (в дальнейшем обозначим ее как . При этом считается, что матрица известна на передаче и на приеме. Тогда при кодировании матрицы квантованных отсчетов речевого сигнала на передаче необходимо найти такие оптимальные матрицы и , которые при перемножении с матрицей образуют некоторую матрицу восстановленных дискретных отсчетов речевого сигнала размером N·N элементов (в дальнейшем обозначим эту матрицу как ) наиболее близкую по заданному критерию к матрице квантованных дискретных отсчетов речевого сигнала После определения оптимальных матриц и их передают в канал связи, принимают из канала связи (приемные матрицы обозначим , и формируют на приеме матрицу восстановленных дискретных отсчетов речевого сигнала на основе выполнения перемножения: . Матрица формируется в зависимости от характеристик канала связи и длины кодовых комбинаций, принятых из канала связи, а именно:
;
где
- матрица переходных вероятностей, элементы которой для двоичного канала определяются выражением:
Матрица переходных вероятностей учитывает вероятность перехода кодовых комбинаций из одной в другую. Априорными данными для построения матрицы переходов является вероятность ошибки в канале связи - Рош. Матрица переходных вероятностей для m-го цифрового канала будет выглядеть следующим образом:
где: m - число бит в кодовой комбинации;
Рош - вероятность ошибки в канале связи.
Следует отметить, что матрица переходных вероятностей учитывает только вероятность перехода кодовых комбинаций и может применяться в каналах с постоянными параметрами. Таким образом, на исходную матрицу "навешивается" вероятностная мера. В случае несимметричности ошибок, возникающих в канале связи, порог принятия решения в приемном устройстве может быть смещен в сторону "единиц" или "нулей", тем самым вероятность принятия ошибочного решения приемным устройством может быть снижена. Предлагаемый способ предусматривает проведение следующего действия. До передачи речевой информации по каналу связи передается тестовая последовательность в виде "единиц" и "нулей". На основе принятой тестовой последовательности на приеме считается коэффициент ошибок и структура переходов из "единицы" в "нуль" и наоборот. Далее формируется матрица переходов кодовых комбинаций, которая перемножается с матрицей
Таким образом, до передачи речевой информации появляется возможность учесть вероятности переходов кодовых комбинаций априорно.
Наглядно представление матрицы восстановленных дискретных отсчетов речевого сигнала в виде произведения используемых матриц представлено на фиг.6. При этом в качестве меры близости матриц и выбирают квадратическую ошибку, определяемую по формуле: . Особенностью матриц и является то, что они могут быть легко приведены к цифровому виду. Это достигается тем, что на элементы этих матриц накладываются следующие ограничения:
- элементы матриц и принимают значения в диапазоне от нуля до единицы;
- ненулевые элементы каждой строки матрицы равны между собой и в сумме образуют единицу;
- ненулевые элементы каждого столбца матрицы равны между собой и в сумме образуют единицу.
При таких ограничениях если элементы каждой строки матрицы умножить на сумму ее ненулевых элементов, то будет получена матрица элементы которой определены только на множестве "1" и "0". Аналогично, если элементы каждого столбца матрицы умножить на сумму его ненулевых элементов, то будет получена матрица элементы которой определены только на множестве "1" и "0". Таким образом, представление матрицы квантованных отсчетов речевого сигнала к цифровому виду на передаче осуществляют на основе формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N·m (матрица ) и m·N (матрица ) элементов. Затем матрицы и передают в канал связи и принимают из канала связи и Далее преобразуют матрицу в матрицу путем деления элементов каждой строки принятой из канала связи матрицы на сумму единиц соответствующей строки и преобразуют матрицу в матрицу путем деления элементов каждого столбца принятой из канала связи матрицы на сумму единиц соответствующего столбца, матрицу в матрицу . Затем восстанавливают матрицу квантованных отсчетов речевого сигнала размером N·N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы случайной квадратной матрицы квантованных отсчетов размером m·m элементов и полученной после преобразования прямоугольной матрицы Наглядно это представлено на фиг 5.
Дискретизацию непрерывного речевого сигнала, представленного на фиг.1, выполняют в соответствии с теоремой Котельникова. В предлагаемом способе выбрана общепринятая частота дискретизации непрерывного речевого сигнала 8 кГц. Затем осуществляют квантование дискретных отсчетов фиг.2. Квантование осуществляется на основе способов, описанных, например, в кн.: М.В.Назаров, Ю.Н.Петров. Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с.142-161. Далее, на основе множества квантованных дискретных отсчетов речевого сигнала осуществляют формирование матрицы квантованных отсчетов речевого сигнала Формирование матрицы квантованных отсчетов речевого сигнала показано на фиг.3. При этом матрица квантованных отсчетов формируется из N2 квантованных дискретных отсчетов речевого сигнала, каждому элементу которой А ji, где j=1, 2, ..., N; i=1, 2, ..., N, присваивают квантованное значение отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением k=j+N·(i-1).
Формирование идентичных матриц на передаче и приеме может быть выполнено с помощью датчика случайных чисел, например, на основе линейного рекуррентного регистра.
Для преобразования матрицы квантованных отсчетов речевого сигнала к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде матриц и и передают их в цифровой канал связи. Единый алгоритм оптимизации матриц на передаче показан на фиг.7. После приема из цифрового канала связи матриц и их преобразуют в матрицы и соответственно. Преобразование выполняют путем деления элементов каждой строки матрицы на сумму единиц соответствующей строки и деления элементов каждого столбца матрицы на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала в соответствии с выражением и выполняют обратное преобразование из матрицы восстановленных квантованных отсчетов речевого сигнала в непрерывный речевой сигнал.
Для оценки эффективности предлагаемого способа сжатия и восстановления речевых сообщений было проведено имитационное моделирование на ПЭВМ. При кодировании речевых сообщений использовалось 8-разрядное АЦП. При этом размер кодируемого блока составлял 24×24 элемента, что обеспечивало скорость передачи речи 4 кбит/с. Размер исходной случайной квадратной матрицы квантованных дискретных отсчетов составлял 12×12 элементов. В предлагаемом способе высокая степень сжатия речевой информации достигалась за счет того, что для восстановления на приеме матрицы квантованных отсчетов речевого сигнала в цифровой канал связи необходимо передать количество двоичных единиц, определяемое размерами матриц и При этом достигаемый коэффициент сжатия (коэффициент уменьшения требуемой скорости передачи цифрового потока) может быть определен по формуле:
где L - число уровней квантования дискретных отсчетов речевого сигнала.
Качество восстановленной речи на приеме оценивалось по соотношению сигнал/шум при различных вероятностях ошибки. Графики зависимости качества восстановления речевых сообщений показаны на фиг.8. Верхний график показывает зависимость качества восстановления речевых сообщений с учетом оптимизированной базисной матрицы, а нижний без оптимизации базиса. Как видно из рисунка, максимальный эффект от оптимизации базиса достигается в каналах с вероятностью ошибки от 10-2 до 10 -4. При этом восстановленная речь сохраняет свою естественность, натуральность и обладает хорошей разборчивостью. Анализ вычислительной сложности показал, что сложность кодирования/декодирования предлагаемой процедуры (количество операций умножения, деления, сложения, вычитания) пропорционально приблизительно величине m 2. Поэтому предлагаемый способ сжатия и восстановления речи может быть реализован на современных процессорах обработки сигналов.
Библиографический список
1. О.И.Шелухин, Н.Ф.Лукъянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000, с.95-124.
2. Патент Российской Федерации №2152646 С1, МПК6 G10L 21/00 от 14.07.1998.
3. М.В.Назаров, Ю.Н.Петров. Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с.142-161.
Класс G10L21/04 временное сжатие или расширение