аппаратный блок, способ и компьютерная программа для расширения сжатого аудио сигнала

Классы МПК:
Автор(ы):, ,
Патентообладатель(и):Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)
Приоритеты:
подача заявки:
2010-01-12
публикация патента:

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении качества расширенного выходного аудиосигнала. Аппаратный блок для расширения сжатого аудио сигнала, содержащего один или более сжатых аудио каналов в расширенный звуковой сигнал, содержащий множество расширенных аудиоканалов, причем аппаратный блок включает блок расширения, настроенный на использование текущих значений переменных параметров расширения для расширения сжатого аудио сигнала и получения расширенного звукового сигнала; а также модуль интерполяции параметров, настроенный на получение одного или нескольких текущих интерполированных параметров расширения, которые будут использоваться в блоке расширения на основе информации, описывающей первый комплекснозначный параметр расширения и последующий второй комплекснозначный параметр расширения, причем модуль интерполяции параметров настроен на независимую интерполяцию между величиной магнитуды первого комплекснозначного параметра расширения и величиной магнитуды второго комплекснозначного параметра расширения, и между значением фазы первого комплекснозначного параметра расширения и значением фазы (256) второго комплекснозначного параметра расширения, для получения одного или нескольких текущих интерполированных комплекснозначных параметров расширения. 3 н. и 12 з.п. ф-лы, 8 ил. аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696

аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696

Формула изобретения

1. Аппаратный блок (100, 200) для расширения сжатого аудио сигнала (110, 210), содержащего один или более сжатых аудио каналов в расширенный звуковой сигнал (120, 214), содержащий множество расширенных аудиоканалов, аппаратный блок, включающий

блок расширения (130; 230), настроенный на использование текущих значений переменных параметров расширения (150; 262; Нij ) для расширения сжатого аудио сигнала (110, 210) и получения расширенного звукового сигнала (120, 214); а также модуль интерполяции параметров (140; 260), настроенный на получение одного или нескольких текущих интерполированных параметров расширения (150, 262), которые будут использоваться в блоке расширения (130, 230) на основе информации, описывающей первый комплекснозначный параметр расширения (142) и последующий второй комплекснозначный параметр расширения (144), причем модуль интерполяции параметров (140; 260) настроен на независимую интерполяцию (а) между величиной магнитуды (254) первого комплекснозначного параметра расширения (142) и величиной магнитуды (254) второго комплекснозначного параметра расширения (144), и (б) между значением фазы (256) первого комплекснозначного параметра расширения (142) и значением фазы (256) второго комплекснозначного параметра расширения (144), для получения одного или нескольких текущих интерполированных комплекснозначных параметров расширения (150, 262).

2. Аппаратный блок (100, 200) по п.1, в котором модуль интерполяции параметров (140; 260) настроен на монотонную во времени интерполяцию между величиной магнитуды (254) первого комплекснозначного параметра расширения (142) и величиной магнитуды (254) второго комплекснозначного параметра расширения (144) для получения значений магнитуды (274) одного или нескольких текущих интерполированных параметров расширения (150, 262), линейную во времени интерполяцию между значением фазы (256) первого комплекснозначного параметра расширения (142) и значением фазы (256) второго комплекснозначного параметра расширения (144) и получение значений фазы (276) одного или нескольких текущих интерполированных параметров расширения, и объединение одного или нескольких интерполированных значений магнитуды (274) с одним или более соответствующими интерполированными значениями фазы (276) и получение одного или нескольких комплекснозначных текущих интерполированных параметров расширения (150, 262).

3. Аппаратный блок (100, 200) по п.1, в котором модуль интерполяции параметров (140; 260) настроен на линейную интерполяцию между величиной магнитуды (254) первого комплекснозначного параметра расширения (142) и величиной магнитуды (254) второго комплекснозначного параметра расширения (144) для получения интерполированных значений магнитуды от одного или нескольких интерполированных во времени комплекснозначных параметров расширения (150, 262).

4. Аппаратный блок (100, 200) по п.1, в котором блок расширения (130; 230) настроен на выполнение линейной суперпозиции с масштабированием комплекснозначных параметров поддиапазонов частот множества входных аудио сигналов (x(k), q(k)) в блоке расширения, в зависимости от текущих комплекснозначных интерполированных параметров расширения (150, 262) для получения расширенного звукового сигнала (120, 214); причем блок расширения (130, 230) настроен на обработку последовательностей комплекснозначных параметров поддиапазонов, представляющих последовательные аудио выборки входных аудио сигналов (x(k), q(k)) блока расширения; и причем модуль интерполяции параметров (140; 260) настроен на прием представления (142, 144, 254, 256) последовательности комплекснозначных параметров расширения, которая имеет длительность во времени больше, чем продолжительность одной из выборок, и более частое обновление текущих интерполированных параметров расширения (150, 262).

5. Аппаратный блок (100, 200) по п.4, в котором блок расширения (130, 230) настроен на получение блоком расширения обновленных входных аудио сигналов (x(k), q(k)) со скоростью обновления блока расширения, и причем модуль интерполяции параметров (140; 260) настроен на обновление текущих интерполированных параметров расширения (150, 262) со скоростью обновления блока расширения.

6. Аппаратный блок (100, 200) по п.4, в котором блок расширения (130; 230) настроен на выполнение умножения матрицы на вектор с использованием матрицы (Н), содержащей интерполированные параметры расширения (150, 262), и вектора (аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 ), включающего параметры поддиапазона входных аудио сигналов (x(k), q(k)) блока расширения, для получения, в результате, вектора (аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 ), содержащего комплекснозначные параметры поддиапазона расширенных звуковых сигналов (у1, у2).

7. Аппаратный блок (100, 200) по п.1, в котором блок расширения (130; 230) настроен на выполнение умножения матрицы на вектор с использованием представления чисел в виде действительной и мнимой частей.

8. Аппаратный блок (100, 200) по п.1, настроенный на получение пространственных сигналов (ILD, ICC, ITD, IPD), представляющих параметры расширения.

9. Аппаратный блок (100, 200) по п.8, в котором модуль интерполяции параметров (140; 260) настроен на определение величины магнитуды (274) интерполированных параметров расширения (150; 262) в зависимости от параметров разности уровней между каналами, или в зависимости от корреляции между каналами или параметров когерентности, или в зависимости от параметров разности уровней между каналами и корреляции между каналами или параметров когерентности; а также для получения значений фазы (276) интерполированных параметров расширения (150; 262) в зависимости от параметров разности фаз между каналами или параметров разности во времени между каналами.

10. Аппаратный блок (100, 200) по п.1, в котором блок расширения (130, 230) настроен на использование текущих интерполированных параметров расширения (150, 262) и суммирование одного или нескольких сжатых аудио сигналов (х(к)) с одной или несколькими декоррелированными версиями (q(k)) одного или нескольких сжатых аудио сигналов.

11. Аппаратный блок (100, 200) в соответствии с одним из пп.1-10, в котором модуль интерполяции параметров (140; 260) настроен на определение направления интерполяции между значениями фазы (256) последовательных комплекснозначных параметров расширения, так, что диапазон углов при интерполяции, ограниченный значениями фазы первого комплекснозначного параметра расширения (142) и фазы второго комплекснозначного параметра расширения (144), будет меньше или равен 180°.

12. Аппаратный блок (100, 200) по п.1, в котором модуль интерполяции параметров (140; 260) настроен на расчет интерполированного значения фазы аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 i; в соответствии со следующим уравнением

аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 ,

в котором аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 n-1 определяет значение фазы (256) первого комплекснозначного параметра расширения (142);

аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 n определяет значение фазы (256) второго комплекснозначного параметра расширения (144);

|.| обозначает оператор абсолютного значения;

mod назначает оператор модуля, а также i обозначает индекс интерполированного значения фазы (276), причем i=0 обозначает индекс, связанный с первым параметром расширения (142), i=i max обозначает индекс, связанный со вторым параметром расширения (144), а индексы i между 0 и imax связаны с текущими интерполированными параметрами расширения (150, 262).

13. Аппаратный блок (100, 200) по п.1, где модуль интерполяции параметров (140; 260) настроен на суммирование независимо друг от друга интерполированных величин магнитуды (274) и значений фазы (276) путем применения комплексного вращения интерполированных величин магнитуды (274), причем угол комплекснозначного вращения определяется интерполированными значениями фазы (276).

14. Способ (700) для расширения сжатого аудио сигнала, содержащего один или более сжатых аудио каналов, в расширенный звуковой сигнал, содержащий множество расширенных аудио каналов, включающий получение (710) одного или нескольких текущих интерполированных параметров расширения на основе первого комплекснозначного параметра расширения и последующего второго комплекснозначного параметра расширения, причем интерполяция производится независимо (а) между величиной магнитуды первого комплекснозначного параметра расширения и величиной магнитуды второго комплекснозначного параметра расширения, и (б) между значением фазы первого комплекснозначного параметра расширения и значением фазы второго комплекснозначного параметра расширения; и

применения интерполированных комплекснозначных параметров расширения (720) для расширения сжатого аудио сигнала получения расширенного звукового сигнала.

15. Машиночитаемый носитель информации с записанной на нем компьютерной программой для осуществления способа по п.14, когда компьютерная программа выполняется на компьютере.

Описание изобретения к патенту

Предпосылки создания изобретения

Воплощения изобретения связаны с аппаратной частью, способом и компьютерной программой для расширения сжатого звукового сигнала.

Некоторые воплощения изобретения относятся к интерполяции параметров расширения для сохранения значения магнитуды при параметрическом многоканальном аудио кодировании.

Далее будет представлено содержание изобретения. Последние разработки в области параметрического кодирования звука обеспечивают способы для совместного преобразования многоканального аудио сигнала (например, 5.1) в один (или более) сжатых каналов плюс поток битов дополнительной информации. Эти способы известны как Binaural Cue Coding (Бинауральное Трековое Кодирование), Parametric Stereo (Параметрическое Стерео Кодирование), MPEG Surround и т.д.

Ряд публикаций описывает так называемое «Бинауральное Трековое Кодирование», использующее подход параметрического многоканального кодирования, см., например, ссылки [1] [2] [3] [4] [5].

«Parametric Stereo» связано с методикой параметрического кодирования двухканального стерео сигнала на основе передаваемого моно сигнала плюс параметры дополнительной информации [6] [7].

«MPEG Surround» является стандартом ISO для параметрического многоканального кодирования [8].

Указанные способы основаны на передаче в приемник звука сигналов в компактной форме в виде соответствующих сжатых моно или стерео сигналов, воспринимаемых пространственным слухом человека. Типичные сигналы могут быть разностными сигналами между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), а также разностными во времени сигналами между каналами (ITD) и разностными по фазе сигналами между каналами (IPD).

Эти параметры в некоторых случаях передаются с частотным и временным разрешением, адаптированным к слуховому разрешению человека. Интервал обновления во времени определяется кодировщиком в зависимости от характеристик сигнала. Это означает, что параметры передаются не для каждой выборки сжатого сигнала. Другими словами, в некоторых случаях скорость передачи (или частота передачи, или частота обновления) параметров, описывающих вышеуказанные сигналы, может быть меньше, чем скорость передачи (или частота передачи, или частота обновления) аудио выборок (или группы выборок).

Так как декодировщик может в некоторых случаях использовать параметры непрерывно и без пауз в течение долгого времени, например, для каждой выборки (или аудио выборки), могут потребоваться промежуточные параметры, которые будут получены в декодировщике обычно путем интерполяции между предыдущим и текущим наборами параметров.

Некоторые традиционные подходы интерполяции, однако, могут привести к ухудшению качества звука.

Далее будет описана со ссылкой на фиг.7 общая бинауральная схема кодирования. На фиг.7 показана блок- схема передающей системы бинаурального кодирования 800, которая включает кодировщик бинаурального кодирования 810 и декодировщик бинаурального кодирования 820. Кодировщик бинаурального кодирования 810, например, может получать множество звуковых сигналов 812а, 812b, и 812с. Кроме того, кодировщик бинаурального кодирования 810 настроен на сжатие входных аудио сигналов 812а-812с с использованием блока сжатия 814 и получения сжатого сигнала 816, который может быть, например, суммарным сигналом, обозначаемым как «AS» или «X». Кроме того, кодировщик бинаурального кодирования 810 сконфигурирован для анализа входных аудио сигналов 812а-812с с использованием анализатора 818 для получения сигнала дополнительной информации 819 («SI»). Суммарный сигнал 816 и сигнал дополнительной информации 819 передаются от кодировщика бинаурального кодирования 810 на декодировщик бинаурального кодирования 820. Декодировщик бинаурального кодирования 820 может быть сконфигурирован для синтеза многоканального аудио сигнала, включающего, например, аудио каналы у1, у2, аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 , yN на основе суммарного сигнала 816 и межканальных сигналов 824. Для этой цели декодировщик бинаурального кодирования 820 может включать в себя синтезатор бинаурального кодирования 822, который получает суммарный сигнал 816 и межканальные сигналы 824 и формирует звуковые сигналы у1, у2, аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 , yN.

Декодировщик бинаурального кодирования 820 дополнительно включает процессор дополнительной информации 826, который настроен на получение дополнительной информации 819 и дополнительный вход пользователя 827. Процессор дополнительной информации 826 настроен на получение разностного сигнала между каналами 824 на основе сигнала дополнительной информации 819 и дополнительно вводимой пользователем 827.

Таким образом, входные аудио сигналы анализируются и сжимаются. Суммарный сигнал вместе с дополнительной информацией передаются на декодировщик. Межканальные сигналы генерируются на основе дополнительной информации и входа локального пользователя. На этапе синтеза бинаурального кодирования генерируется многоканальный аудио сигнал на выходе.

Дополнительная информация представлена в статье С.Faller и F.Baumgarte «Binaural Cue Coding Part II: Schemes and applications» (опубликована в: IEEE Transactions on Speech and Audio Processing, vol.11, no. 6, Nov. 2003).

Тем не менее, было установлено, что многие обычные декодировщики бинаурального кодирования обеспечивают многоканальный аудио выход сигналов с ухудшением качества, если дополнительная информация получена с более низкой частотой обновления, чем сжатый сигнал.

В связи с этой проблемой, есть необходимость совершенствования концепции расширения сжатого аудио сигнала в расширенный звуковой сигнал, который уменьшает впечатление деградации при прослушивании, если частота обновления дополнительной информации меньше, чем частота обновления сжатого аудио сигнала.

Краткое описание изобретения

Воплощение в соответствии с изобретением позволяет создать аппаратный блок для расширения сжатого аудио сигнала, содержащего один или более сжатых аудио каналов, в расширенный аудио сигнал, состоящий из множества расширенных аудио каналов. Аппаратная часть состоит из блока расширения, настроенного на применение текущих значений параметров расширения для расширения сжатого аудио сигнала и получения расширенного звукового сигнала. Аппаратная часть дополнительно содержит модуль интерполяции параметров, который настроен на получение одного или нескольких текущих значений интерполированных параметров расширения, которые будут использоваться блоком расширения на основе первого комплекснозначного параметра расширения и последующего второго комплекснозначного параметра расширения. Модуль интерполяции параметров настроен на независимую интерполяцию между значением магнитуды первого комплекснозначного параметра расширения и значением магнитуды второго комплекснозначного параметра расширения, а также между фазой первого комплекснозначного параметра расширения и фазой второго комплекснозначного параметра расширения, для получения одного или нескольких текущих значений интерполированных параметров расширения.

Воплощения в соответствии с изобретением основаны на выводе, что независимая временная интерполяция значения магнитуды параметра расширения и значения фазы параметра расширения приводит к хорошему впечатлению при прослушивании расширенного аудио сигнала в случае, если изменение магнитуды интерполированных параметров расширения остается очень малым. Было установлено, что излишне большое изменение амплитуды параметра расширения может привести к неприятным звуковым модуляциям расширенного звукового сигнала. В отличие от указанного случая, при независимой интерполяции амплитуд комплекснозначных параметров расширения с использованием их фазовых значений, изменения амплитуды, вызванные интерполяцией, остаются небольшими (или сводятся к минимуму), даже при большой разности фаз между комплексным значением первого (или начального) комплекснозначного параметра расширения и комплексного значения второго (или последующего) параметра расширения. Соответственно, неприятные звуковые модуляции расширенного выходного аудио сигнала снижаются по сравнению с некоторыми другими типами интерполяции (или даже полностью устраняются).

Таким образом, хорошее впечатление при прослушивании расширенного выходного аудио сигнала может быть получено, даже если дополнительная информация передается от кодировщика бинаурального кодирования на декодировщик бинаурального кодирования с меньшей частотой, чем у выборок сжатого звукового сигнала.

В одном из вариантов в соответствии с изобретением, модуль интерполяции параметров настроен на монотонную во времени интерполяцию между значением магнитуды первого комплекснозначного параметра расширения и второго (последующего) комплекснозначного параметра расширения для получения одного или нескольких значений магнитуды интерполированных во времени параметров расширения. Кроме того, предпочтительно, чтобы модуль интерполяции параметров был настроен на линейную во времени интерполяцию между значением фазы комплекснозначного параметра расширения и значением фазы второго комплекснозначного параметра расширения, для получения одного или нескольких значений фазы интерполированных во времени параметров расширения. Кроме того, модуль интерполяции параметров может быть настроен на объединение одного или нескольких значений магнитуды интерполированных параметров расширения с соответствующими значениями фаз интерполированных параметров расширения для получения одного или нескольких интерполированных комплекснозначных параметров расширения.

В одном из вариантов в соответствии с изобретением, модуль интерполяции параметров настроен на линейную во времени интерполяцию между значением магнитуды первого комплекснозначного параметра расширения и значением магнитуды второго, последующего комплекснозначного параметра расширения, для получения одного или нескольких значений магнитуды интерполированных во времени параметров расширения. Выполняя монотонную или даже линейную во времени интерполяцию между значениями магнитуды последующих комплекснозначного параметра расширения, можно избежать неприятной амплитудной модуляции расширенного аудио сигнала (которая может быть вызвана другими способами интерполяции). Было установлено, что слуховая система человека особенно чувствительна к амплитудной модуляции звуковых сигналов. Было также обнаружено, что слуховое впечатление (или впечатление при прослушивании) существенно ухудшается при такой паразитной амплитудной модуляции. Соответственно, получение гладкого и немодулированного изменения параметров расширения, которое приводит к гладкому и немодулированному изменению во времени амплитуды аудио сигнала, является важным вкладом в улучшение впечатления при прослушивании сигнала, расширенного с использованием интерполяции параметров расширения.

В варианте изобретения, блок расширения настроен на выполнение линейной масштабированной суперпозиции поддиапазонов комплекснозначных параметров для множества входных аудио сигналов в блоке расширения в зависимости от комплекснозначных интерполированных параметров расширения для получения расширенного звукового сигнала. В этом случае, блок расширения может быть сконфигурирован для обработки последовательностей поддиапазонов параметров, представляющих последовательные аудио выборки входных аудио сигналов в блоке расширения. Модуль интерполяции параметров может быть настроен на получение последовательных комплекснозначных параметров расширения, которые имеют продолжительность во времени больше, чем один из поддиапазонов аудио выборок, а также на более частое обновление интерполированных параметров расширения (например, один раз в поддиапазоне аудио выборки).

Таким образом, блок расширения может быть настроен на получение обновленных выборок входных аудио сигналов блока расширения со скоростью обновления блока расширения, а модуль интерполяции параметров может быть настроен на обновление интерполированных параметров расширения со скоростью обновления блока расширения. Таким образом, скорость обновления параметров расширения может быть адаптирована к скорости обновления входных аудио сигналов блока расширения. Соответственно, в частности, могут быть получены плавные переходы между двумя последовательными наборами параметров расширения, полученными аппаратной частью (например, при меньшей скорости обновления, чем скорость обновления блока расширения).

В предпочтительном варианте изобретения, блок расширения может быть настроен на выполнение умножения матрицы на вектор с использованием матрицы, содержащей интерполированные параметры расширения, и вектора, содержащего один или более поддиапазонов параметров входных аудио сигналов блока расширения для получения, в результате, вектора, содержащего комплекснозначные поддиапазоны выборок расширенных звуковых сигналов. С использованием умножения матрицы на вектор, может быть получена особенно эффективная схема реализации изобретения. Умножение матрицы на вектор определяет эффективную в реализации форму параметров расширения, зависящую от линейной суперпозиции входных аудио сигналов. Умножение матрицы на вектор может быть эффективно реализовано в сигнальном процессоре (или в других соответствующих аппаратных или программных модулях), если в элементах матрицы представлены отдельно действительная и мнимая части. Обработка комплексных значений, разделенных на действительную и мнимую части, может быть выполнена с относительно небольшим затратами, так как разделение на действительную и мнимую части хорошо подходит и для умножения комплексных чисел и, в частности, для сложения результатов умножения. Таким образом, в то время как другие представления чисел вносят серьезные трудности, либо по отношению к умножению или в отношении к сложению (обе эти операции необходимы при умножении матрицы на вектор), использование представления чисел с разделением на действительную и мнимую части обеспечивает эффективное решение.

В одном из вариантов изобретения, аппаратная часть настроена на получение пространственных сигналов, описываемых параметрами расширения. В этом случае модуль интерполяции параметров может быть настроен на определение значений магнитуды параметров расширения в зависимости от параметров разности значений между каналами, или в зависимости от параметров межканальной корреляции (или когерентности), или в зависимости от разности значений параметров между каналами и между каналами корреляции (или когерентности). Кроме того, модуль интерполяции параметров может быть настроен на определение значений фазы параметров расширения в зависимости от параметров разности фаз между каналами. Таким образом, можно видеть, что в некоторых случаях можно очень эффективно и независимо друг от друга получить величины магнитуд и значения фаз параметров расширения. Таким образом, ввод информации, необходимой для независимой интерполяции, может быть эффективно получен даже без какого-либо дополнительного модуля разделения значений магнитуды и фазы, если вышеуказанные параметры (ILD, ICC, IPD, и/или ITD) или аналогичные параметры используются в качестве входных величин для модуля интерполяции.

В одном из вариантов изобретения, модуль интерполяции настроен на определение направления интерполяции между значениями фазы последовательных комплекснозначных параметров расширения, таким образом, что диапазон углов при интерполяции, изменяющийся в пределах между значением фазы первого комплекснозначного параметра расширения и значением фазы (следующего) второго комплекснозначного параметра расширения, будет меньше или равен 180°. Другими словами, в некоторых вариантах при интерполяции обеспечивается достаточно малое (или даже сведенное к минимуму) изменение фазы. Хотя слуховое восприятие человека не особенно чувствительно к изменениям фазы, такой подход может быть выгоден для ограничения изменения фазы. Например, быстрое изменение фазы параметров расширения может привести к трудностям при прогнозировании искажений, таких как сдвиги частоты или частотная модуляция. Такие искажения могут быть ограничены или исключены, при тщательном выборе способа интерполяции значений фаз параметров расширения.

Другой вариант изобретения предлагает способ расширения сжатого аудио сигнала.

Еще один вариант изобретения предлагает компьютерную программу для расширения сжатого аудио сигнала.

Краткое описание рисунков

Далее будут описаны воплощения изобретения со ссылками на прилагаемые рисунки, на которых:

на фиг.1 показана блок-схема аппаратной части для расширения сжатого аудио сигнала, в соответствии с вариантом осуществления изобретения;

на фиг.2а и 2б показана блок-схема аппаратной части для расширения сжатого аудио сигнала, согласно другому варианту осуществления изобретения;

на фиг.3 схематически показано временное представление соотношений между выборками сжатого звукового сигнала и дополнительной информацией на входе декодировщика;

на фиг.4 показано схематическое представление временных соотношений между дополнительной информацией на входе декодировщика и полученными из нее текущими интерполированными параметрами расширения;

на фиг.5 показано графическое представление направления интерполяции;

на фиг.6 показана блок-схема метода расширения сжатого аудио сигнала, в соответствии с вариантом осуществления изобретения; а также

на фиг.7 показана блок-схема, представляющая общую бинауральную схему кодирования сигнала.

Подробное описание воплощений изобретения

Воплощение в соответствии с фиг.1

На фиг.1 показана блок-схема аппаратной части 100 для расширения сжатого аудио сигнала, согласно одному из вариантов изобретения. Аппаратная часть 100 настроена на получение сжатого аудио сигнала 110, содержащего один или более сжатых аудио каналов, а также на получение расширенного аудио сигнала 120, содержащего множество расширенных аудио каналов. Аппаратная часть 100 включает в себя блок расширения 130, настроенный на использование текущих значений переменных параметров расширения, для расширения сжатого аудио сигнала 110 и получения расширенного аудио сигнала 120. Аппаратная часть 100 также включает в себя модуль интерполяции параметров 140, настроенный на получение последовательности комплексных значений параметров расширения, например, первого комплексного параметра расширения 142 и следующего второго комплексного параметра расширения 144. Модуль интерполяции параметров 140 настроен на получение одного или нескольких текущих интерполированных параметров расширения 150, которые будут использоваться в блоке расширения 130, на основе первого (или начального) комплекснозначного параметра расширения 142 и второго, следующего комплекснозначного параметра расширения 144. Модуль интерполяции параметров 140 настроен на независимую друг от друга интерполяцию между значением магнитуды первого комплекснозначного параметра расширения 142 и значением магнитуды второго комплекснозначного параметра расширения 144 (интерполированное значение магнитуды которого представлено позицией 160), а также между значением фазы первого комплекснозначного параметра расширения 142 и значением фазы второго комплекснозначного параметра расширения 144 (интерполированное значение фазы которого представлено позицией 162). Модуль интерполяции параметров 140 настроен на получение одного или нескольких текущих интерполированных параметров расширения 150 на основе интерполированных значений магнитуды (также обозначаемых значениями амплитуды или значениями усиления) (которые представлены позицией 160) и на основе интерполированных значений фазы (также обозначаемых значениями углов) (которые представлены позицией 164).

Далее будут описаны некоторые подробности, касающиеся функциональных возможностей аппаратной части 100. Сжатый аудио сигнал 110 может быть введен в блок расширения 130, например, в виде последовательности множеств комплексных значений, представляющих сжатый аудио сигнал в частотно-временной области (описание перекрывающихся или неперекрывающихся диапазонов или поддиапазонов частот с частотой обновления, определяемой кодировщиком, здесь не показано). Блок расширения 130 настроен на выполнение линейной комбинации нескольких каналов сжатого аудио сигнала 110 в зависимости от текущих интерполированных параметров расширения 150, или линейной комбинации канала сжатого аудио сигнала 110 с вспомогательным сигналом (например, де-коррелированным сигналом) (где вспомогательный сигнал может быть получен из того же аудио канала сжатого аудио сигнала 110, из одного или нескольких других каналов аудио сжатого аудио сигнала 110 или из комбинации аудио каналов сжатого аудио сигнала 110). Таким образом, текущие интерполированные параметры расширения 150 могут быть обработаны блоком расширения 130 для принятия решения о масштабировании амплитуды и фазового сдвига (или временной задержки), используемых при формировании расширенного аудио сигнала 120 (или его канала) на основе сжатого аудио сигнала 110.

Модуль интерполяции параметров 140, как правило, настроен на получение текущих интерполированных параметров расширения 150 со скоростью обновления большей, чем скорость обновления дополнительной информации, описываемой параметрами расширения 142, 144. Для этого модулем интерполяции параметров 140 формируются последовательные комплекснозначные параметры расширения (например, полученные или вычисленные). Значения магнитуды и фазы комплекснозначных параметров расширения 142, 144 независимо друг от друга (или самостоятельно) обрабатываются с использованием интерполированного значения магнитуды 160 и интерполированного значения фазы 162. Таким образом, текущие интерполированные значения магнитуды параметров расширения и текущие интерполированные значения фазы параметров расширения оказываются доступными независимо друг от друга и могут быть поданы отдельно либо в блок расширения 140, либо в блок расширения 130 в комбинированной форме (после раздельной интерполяции они переводятся в комплексные числа). Раздельная интерполяция имеет преимущество в том, что амплитуда текущих интерполированных значений параметров расширения обычно содержит гладкие и монотонные изменения во времени между последовательными моментами времени, в которые в аппаратную часть 100 поступает обновленная дополнительная информация. Неприятные звуковые искажения, такие как амплитудная модуляция одного или нескольких поддиапазонов, которая вызывается другими видами интерполяции, могут быть исключены. Соответственно, качество обновленных звуковых сигналов 120 превосходит качество расширенного сигнала, которое было бы получено с использованием обычных видов интерполяции параметров расширения.

Воплощение в соответствии с фиг.2

Более подробная информация о структуре и деятельности аппаратной части для расширения звукового сигнала будет описана со ссылкой на фиг.2а и 2б. На фиг.2а и 2б показана подробная схема аппаратного блока 200 по другому варианту осуществления изобретения для расширения сжатого аудио сигнала. Аппаратный блок 200 можно рассматривать как декодировщик для создания многоканальных (например, 5.1) аудио сигналов на основе сжатого аудио сигнала и дополнительной информации SI. Аппаратный блок 200 реализует функциональные возможности, которые были описаны в отношении аппаратного блока 100. Аппаратный блок 200 может, например, использоваться для декодирования многоканального звукового сигнала, закодированного в соответствии с видами кодирования, называемыми: «бинауральное кодирование сигнала», «параметрическое стерео», или «MPEG Surround». Естественно, аппаратный блок 200 может также быть использован для расширения многоканального аудио сигнала, закодированного в соответствии с другими системами кодирования, использующими пространственные сигналы.

Для простоты изложения описывается аппаратный блок 200, который выполняет расширение одного канала сжатого аудио сигнала в двухканальный сигнал. Тем не менее, концепция, описанная здесь, может быть легко расширена на случай, когда сжатый звуковой сигнал включает в себя более одного канала, а также в случаях, когда расширенный звуковой сигнал состоит более чем из двух каналов.

Входные сигналы и входная синхронизация

Аппаратный блок 200 настроен на прием сжатого звукового сигнала 210 и дополнительной информации 212. Кроме того, аппаратный блок 200 настроен на получение расширенного звукового сигнала 214, включающего, например, несколько каналов. Сжатый аудио сигнал 210 может, например, быть суммарным сигналом, генерируемым кодировщиком (например, ВСС кодировщиком 810, показанным на фиг.7). Сжатый аудио сигнал 210 может быть представлен в частотно-временной области, например, в форме разложения по комплексным частотам. Например, аудио контенты [содержание] множества поддиапазонов частот (которые могут быть перекрывающимися или неперекрывающимися) звукового сигнала могут быть представлены соответствующими комплексными значениями. Для заданного диапазона частот, сжатый аудио сигнал может быть представлен последовательностью комплексных значений, описывающих аудио контент в рассматриваемом поддиапазоне частот, для последовательных промежутков времени (перекрывающихся или не перекрывающихся). Последовательные комплексные значения для последовательных промежутков времени могут быть получены, например, с помощью набора фильтров (например, QMF набора фильтров), быстрого преобразования Фурье и т.п., в аппаратном блоке 100 (который может быть частью многоканального декодировщика звукового сигнала), или в дополнительном устройстве, соединенном с аппаратным блоком 100. Тем не менее, представление сжатого аудио сигнала, описанное здесь, как правило, не совпадает с представлением сжатого сигнала, используемого для передачи сжатого аудио сигнала от многоканального аудио сигнала кодировщика к многоканальному аудио сигналу декодировщика, или аппаратному блоку 100. Соответственно, сжатый аудио сигнал 210 может быть представлен потоком последовательностей или векторов с комплексными значениями.

Далее будем полагать, что последовательные временные интервалы сжатого аудио сигнала 210 обозначаются целочисленными индексами k. Также будем полагать, что аппаратный блок 200 получает один набор или вектор комплексных значений в интервале k через канал сжатого аудио сигнала 210. Таким образом, одна выборка (набор или вектор комплексных значений) получена для каждого интервала обновления аудио выборки, описываемого временным индексом k.

Для лучшего понимания, на фиг.3 показано графическое представление временных соотношений между выборками сжатого аудио сигнала 210 («х») и соответствующей дополнительной информацией декодировщика 212 («SI»). Аудио выборки ("AS") сжатого аудио сигнала 210, полученные аппаратным блоком 200 в течение промежутка времени, показаны цифрой 310. Как описано выше и видно из графического представления 310, с каждой аудио выборкой интервала обновления k связана единственная аудио выборка AS.

Аппаратный блок 200 затем получает дополнительную информацию 212, описывающую параметры расширения. Например, дополнительная информация 212 может быть описана одним или несколькими из следующих параметров расширения: разность уровней между каналами (ILD), корреляция (или когерентность) между каналами (ICC), разность во времени между каналами (ITD), и разность фаз между каналами (IPD). Как правило, дополнительная информация 212 включает в себя ILD параметры и хотя бы один из параметров ICC, ITD, IPD. Однако, для того, чтобы сохранить диапазон частот, дополнительная информация 212, как правило, передается или получается через аппаратный блок 200 только один раз за несколько интервалов обновления k аудио-выборок сжатого аудио сигнала 210 (или передача одного набора дополнительной информация может одновременно распространяться на множество интервалов обновления k аудио выборок). Таким образом, существует, как правило, только один набор параметров дополнительной информации для множества интервалов обновления k аудио выборок.

Такие временные зависимости показаны на фиг.3. Например, дополнительная информация передается (или получается) аппаратным блоком 200 в интервалах обновления аудио выборок k=4, k=8, и k=16, как это можно видеть под номером 320. При этом отсутствует дополнительная информация 212, передаваемая (или получаемая) аппаратным блоком 200 между указанными интервалами обновления аудио выборок.

Как видно из фиг.3, интервал обновления дополнительной информации 212 может изменяться с течением времени, так как кодировщик, например, может принять решение о предоставлении обновления дополнительной информации только при необходимости (например, когда декодировщик отмечает, что дополнительная информация изменилась больше заданной величины). Например, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=4, может быть связана с интервалами обновления аудио выборок k=3, 4, 5. Кроме того, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=8, может быть связана с интервалами обновления аудио выборок k=6, 7, 8, 9, 10, и так далее. Тем не менее, возможны различные варианты исполнения, и интервалы обновления для дополнительной информации могут быть больше или меньше, чем показано на фиг.3.

Выходные сигналы и синхронизация выхода

Тем не менее, аппаратный блок 200 служит для формирования расширенных аудио сигналов в комплексных частотах. Например, аппаратный блок 200 может быть настроен на создание расширенных аудио сигналов 214 так, что расширенные звуковые сигналы имеют один интервал обновления аудио выборки или такую же частоту обновления аудио сигнала, что и сжатый аудио сигнал 210. Другими словами, для каждой выборки (или интервала обновления аудио выборки k) сжатого аудио сигнала 210, выборка расширенного аудио сигнала 214 не генерируется.

Расширение сигнала

Далее будет подробно описано, как можно получить для каждого интервала обновления аудио выборки k обновление параметров расширения, которые используются для расширения сжатого аудио сигнала, даже если вход декодировщика дополнительной информации имеет только большие интервалы обновления (как показано на фиг.3). Далее будет описана обработка одного поддиапазона, но концепцию, естественно, можно распространить на несколько поддиапазонов.

Аппаратный блок 200 включает в себя, в качестве ключевого компонента, блок расширения, который настроен на работу в качестве комплексного линейного сумматора. Блок расширения 230 настроен на прием выборок x(k) сжатого аудио сигнала 210 (например, представляющих определенные диапазоны частот), связанные с интервалом обновления аудио выборки k. Сигнал x(k) иногда также называется «сухой сигнал». Кроме того, блок расширения настраивается на получение выборок, представляющих декоррелированную версию сжатого звукового сигнала.

Кроме того, аппаратный блок включает в себя 200 декоррелятор (например, модуль задержки или ревербератор) 240, который настроен на получение выборок x(k) сжатого аудио сигнала и на получение, на его основе, выборки q(k) декоррелированной версии сжатого аудио сигнала (представленного x(k)). Декоррелированная версия (выборка q(k)) сжатого аудио сигнала (выборка x(k)) может быть определена как «мокрый сигнал».

Блок расширения 230 включает в себя, например, умножитель матрицы на вектор 232, настроенный на выполнение комплексной линейной комбинации «сухой сигнал» (x(k)) и «мокрый сигнал» (q(k)) для получения первого расширенного сигнала канала (представленного выборкой у1(k)) и второго расширенного сигнала канала (представленного выборкой у2(k)). Умножитель матрицы на вектор 232 может, например, быть настроен на выполнение последовательного умножения матрицы на вектор для получения выборок у1 (k) and у2(k) расширенных сигналов канала:

аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696

Обновление параметров расширения

Как видно из приведенного выше уравнения, желательно обновлять матрицу параметра расширения H(k) для каждого интервала обновления аудио выборки k. Обновление матрицы параметров расширения для каждого интервала обновления аудио выборки k влечет за собой преимущество в том, что матрица параметров расширения всегда хорошо приспособлена к реальной акустической среде. Обновление матрицы параметров расширения для каждого интервала обновления аудио выборки k также позволяет сохранить поэтапное изменение параметров матрицы расширения Н (или записей в ней) между последовательными малыми интервалами аудио выборки, так как изменения параметров матрицы расширения распределены по нескольким интервалам обновления аудио выборок, даже если дополнительная информация 212 обновляется только один раз за несколько интервалов обновления аудио выборок k.

Аппаратный блок 200 включает в себя блок обработки дополнительной информации 250, который настроен на предоставление параметров расширения, например, записей Hij(k), на основе дополнительной информации 212. Блок обработки дополнительной информации 250 настроен на предоставление обновленного набора параметров расширения для каждого интервала аудио выборки на основе дополнительной информации 212. Блок обработки дополнительной информации 250 настроен на предоставление обновленного набора параметров расширения для каждого интервала аудио выборки k, даже если дополнительная информация 212 обновляется только раз за несколько интервалов обновления аудио выборки k.

Блок обработки дополнительной информации 250 включает в себя определитель параметров расширения (или определитель коэффициентов матрицы расширения) 252, который настроен на прием дополнительной информации 212 и получение на ее основе, одного или нескольких параметров расширения (или, что то же самое, коэффициентов матрицы расширения). Например, определитель параметров расширения 252 может суммировать множество сигналов (например, ILD, ICC, ITD, IPD) для получения параметров расширения. Определитель параметров расширения 252 сконфигурирован для описания параметров расширения в виде независимых друг от друга значений магнитуды и фазы. Значение магнитуды, например, может быть представлено абсолютным значением комплексного числа, а значение фазы может быть представлено значением угла комплексного числа (определяется, например, в ортогональной системе координат: ось действительной части - ось мнимой части). Таким образом, определитель параметра расширения может обеспечить последовательность значений магнитуды параметров расширения 254 и последовательность значений фазы параметров расширения 256. Определитель параметров расширения 252 может быть сконфигурирован для получения, из одного набора дополнительной информации, полного набора параметров расширения (или полного набора элементов матрицы Н). Может существовать связь между набором дополнительной информации 212 и набором параметров расширения (или набором элементов матрицы). Соответственно, определитель параметров расширения 252 может быть настроен на обновление параметров расширения 254, 256 (или элементов матрицы) один раз за интервал обновления параметров расширения, т.е. один раз за обновление набора дополнительной информации.

Блок обработки дополнительной информации дополнительно включает модуль интерполяции параметров 260, который будет подробно описан ниже. Модуль интерполяции параметров 260 настроен на прием последовательности 254 из (действительных) значений магнитуды параметров расширения (или матрицы элементов) и последовательность 256 из (действительных) значений фазы параметров расширения (или матрицы элементов). Кроме того, модуль интерполяции параметров настроен на получение последовательности текущих значений, интерполированных во времени параметров расширения (или элементов матрицы) 262 на основе интерполяции и суммирования последовательностей 254 и 256.

Модуль интерполяции параметров 260 включает в себя модуль интерполяции значения магнитуды 270 и модуль интерполяции значения фазы 272. Кроме того, модуль интерполяции параметров включает сумматор значений магнитуды/значений фазы 280.

Модуль интерполяции значения магнитуды 270 настроен на прием последовательности 254 и на обеспечение, на этой основе, последовательности 274 интерполированных значений магнитуды параметров расширения (или элементов матрицы). Модуль интерполяции значения магнитуды 270 может, например, быть настроен на выполнение линейной интерполяции магнитуды между последовательными значениями магнитуды в последовательности 254. Таким образом, если последовательность 254 обновляется (т.е. включает в себя новое значение магнитуды конкретного параметра расширения или элемента матрицы) один раз за интервал обновления параметра расширения, последовательность 274 обновляется чаще, например один раз за интервал обновления аудио выборки k (причем интервал обновления параметра расширения, как правило, больше, чем интервал обновления аудио выборки k).

Кроме того, модуль интерполяции значения фазы 272 настроен на прием последовательности 256 и представление, на его основе, последовательности 276 интерполированных значений фазы параметров расширения (или элементов матрицы). Модуль интерполяции значения фазы 272 может, например, быть настроен на выполнение линейной интерполяции фазы между последовательными значениями фазы последовательности 256. Таким образом, последовательность 276 обновляется один раз за интервал обновления аудио выборки k, а последовательность 256 обновляется один раз за интервал обновления параметров расширения.

Важно отметить, что модуль интерполяции значения магнитуды 270 и модуль интерполяции значения фазы 272 настроены на выполнение интерполяции магнитуды и интерполяции фазы отдельно и самостоятельно. Таким образом, значения магнитуды в последовательности 254 не влияют на интерполяцию значений фазы, а последовательность значений фазы 256 не влияет на интерполяцию магнитуды. Тем не менее, предполагается, что модуль интерполяции значения магнитуды и модуль интерполяции значения фазы работают синхронизированно во времени так, чтобы последовательности 274, 276 содержали соответствующие пары интерполированных величин магнитуды и интерполированных значений фазы параметров расширения (или элементов матрицы).

Сумматор значений магнитуды/значений фазы 280 настроен на прием как последовательности 274 интерполированных значений магнитуды и последовательности 276 интерполированных значений фазы. Сумматор значений магнитуды/значений фазы 280 затем настраивается на работу с последовательностью 262 комплекснозначных интерполированных параметров расширения или элементов матрицы путем суммирования интерполированных значений магнитуды последовательности 274 с соответствующими интерполированными значениями фазы последовательности 276. Например, сумматор значений магнитуды/значений фазы 280 настроен на выполнение комплексного вращения интерполированных значений магнитуды последовательности 274 на угол, определяемый соответствующим интерполированным значением фазы последовательности 276. Вообще говоря, сумматор значений магнитуды/значений фазы может обеспечить комплексное число, магнитуда которого определяется интерполированным значением магнитуды, и фаза которого определяется соответствующим интерполированным значением фазы.

Естественно, что модуль интерполяции параметров 260 может действовать независимо для различных параметров расширения или элементов матрицы. Таким образом, модуль интерполяции параметров 260 может получать одну последовательность 254 значений магнитуды и соответствующую последовательность 256 значений фазы для каждого параметра расширения (из множества параметров расширения) или элемента матрицы Н. Таким образом, модуль интерполяции параметров может предоставить одну последовательность 262 интерполированных во времени комплексных значений для каждого параметра расширения элементов матрицы.

Интерполяция отношений синхронизации

На фиг.4 показано графическое представление отношений синхронизации между входной информацией 212 (дополнительная информация на входе декодировщика), полученной блоком обработки дополнительной информации 250, и выходной информацией 262 (интерполированные во времени комплекснозначные параметры расширения), переданной блоком обработки дополнительной информации 252 на блок расширения 230.

Также на фиг.4 показано графическое представление 410 для дополнительной информации на входе декодировщика 212. Как видно из графического представления 410, дополнительная информация на входе декодировщика обновляется не в каждом интервале обновления аудио выборки k, а только один раз за несколько интервалов обновления аудио выборки k. В противоположность этому, последовательность интерполированных во времени комплекснозначных параметров расширения 262, которая показана позицией 420, обновляется один раз за интервал обновления аудио выборки. Другими словами, интервал обновления интерполированных во времени комплекснозначных параметров расширения 262 равен, например, интервалу обновления аудио выборки k. Таким образом, матрица Н может обновляться один раз за интервал обновления аудио выборки k.

Следовательно, каждая аудио выборка может быть масштабирована и связана со своими (или даже с одной) матрицами параметров расширения Н. Хотя «точные» матрицы параметров расширения, которые основаны на единственном наборе дополнительной информации, могут предполагать несколько интервалов обновления аудио выборок (например, для k=4, 8, 16), интерполированные матрицы параметров расширения, которые основаны на двух, или даже больше, наборах дополнительной информации, предполагают другие интервалы обновления аудио выборок (например, для k=5, 6, 7, 9, 10, 11, 12, 13, 14, 15).

Резюме и дальнейшие дополнительные улучшения

Далее будет кратко описана работа устройства в соответствии с настоящим изобретением. Воплощения в соответствии с настоящим изобретением улучшают традиционные (или обычные) методы интерполяции с использованием способа интерполяции, который сохраняет магнитуду сигнала, даже при наличии изменений во времени фазы параметров. Для простоты, приведенное выше описание, а также последующее описание, ограничивается случаем расширения только от одного до двух каналов. Естественно, концепция может быть применена и при наличии большего числа сжатых или расширенных каналов.

Процедура расширения декодировщика, например, от одного до двух каналов осуществляется путем перемножения матрицы на вектор, состоящий из сжатого сигнала х (также обозначаемого x(k)), называемого сухим сигналом, и де-коррелированной версии сжатого сигнала q (также обозначаемого q(k)), называемого мокрым сигналом, с матрицей расширения Н (также обозначаемой H(k)). Мокрый сигнал q сформирован путем подачи х сжатого сигнала через фильтр декорреляции (например, декоррелятор 240). Выходной сигнал у является вектором, содержащим первый и второй каналы вывода (например, компоненты у1(k) and у2(k)). Все сигналы х, q, у могут допускать разложение по комплексным частотам (например, представление в частотно временной области). Эта матричная операция выполняется (например, независимо друг от друга) для поддиапазонов выборок для каждого диапазона частот. Например, матричная операция может быть выполнена в соответствии с уравнением:

аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696

Как видно из фиг.2а, умножение матрицы на вектор может, например, быть выполнено умножителем матрицы на вектор 232 в блоке расширения 230.

Коэффициенты матрицы расширения Н могут быть получены из пространственных сигналов, обычно ILDs и ICCs, в результате чего получаются действительные элементы матрицы, которые в основном выполняют сложение сухих и влажных сигналов для каждого канала, основанного на ICCs, и настраиваются выходные уровни обоих выходных каналов, как это определено ILDs.

Когда используется IPDS, к сигналам должен быть применен дополнительный сдвиг фазы для создания фазовых соотношений между каналами исходного сигнала. Фазовый сдвиг выполняется с помощью комплексных элементов матрицы расширения Н, в результате чего происходит комплексное вращение сигналов в поддиапазоне, и, следовательно, их фазовый сдвиг. Угол комплексных элементов, при представлении их в полярных координатах, равен требуемому фазовому сдвигу.

Поскольку параметры (также называемые «наборами дополнительной информации», показаны позицией 212) передаются не для каждой аудио выборки (например, не для каждого интервала обновления аудио выборки k), как это было описано со ссылкой на фиг.3 и 4, а только для набора последовательных выборок в качестве набора параметров, новая матрица Hn рассчитывается для каждого поступающего набора параметров.

Сравнительный пример: применение линейной интерполяции

Далее, с целью сравнения, будет описан возможный линейный подход к интерполяции. Для точек выборки, у которых нет передачи набора параметров, матрица (или матрица интерполяции) Hi может быть рассчитана с помощью линейной интерполяции матричных элементов между (текущей) матрицей Hn и ранее рассчитанной матрицей Hn-1:

H i=(1-i/imax)Hn-1+(i/imax )Hn, i=0аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 imax

Эта линейная интерполяция матричных элементов отлично работает для действительных элементов. Однако при использовании комплекснозначных элементов с изменяющимися во времени углами, этот вид интерполяции имеет известный недостаток, приводящий к нежелательной потере энергии выходного сигнала. Линейная интерполяция двух комплексных значений приводит к получению значений с меньшей магнитудой, чем может дать линейная интерполяция двух магнитуд с комплексными значениями. Этот факт показан на фиг.5.

На фиг.5 показано графическое представление, 500 различных типов интерполяции между двумя комплексными значениями. Графическое представление 500 описывает комплексные числа в комплексной плоскости. Абсцисса 510 является осью действительной части, а ордината 512 служит осью мнимой части. Первое или начальное комплексное значение обозначается z1, а второе или последующее комплексное значение обозначается z2. Линейная интерполяция между комплексными значениями z1 и z2 в результате приводит к комплексному значению z1in, где z1in=1/2(z 1+z2). Как видно, абсолютное значение (или значение магнитуды) z1in значительно меньше, чем абсолютное значение комплексного числа z1, а также значительно меньше, чем абсолютное значение комплексного числа z2 .

Однако, помимо простого получения среднего значения в соответствии с формулой 1/2*(z1+z2), может быть использована альтернативная общая линейная реализация в соответствии с выражением

z1in=(1-аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 )*z1+аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 *z2.

Что касается линейной интерполяции, уменьшение магнитуды становится большим с увеличением угла двух комплексных чисел (z1 and z2), в наихудшем случае при угле в 180 градусов. Так как магнитуда комплексных элементов матрицы определяет амплитуду выходного сигнала, происходит снижение уровня выходного сигнала для выборок между последовательными наборами параметров, по сравнению со случаем без использования IPDs. Быстрое изменение фазового угла может привести к звуковой модуляции или искажениям с потерями звука.

Подробная информация, касающаяся независимой интерполяции

Далее будут описаны несколько предпочтительных вариантов осуществления независимой интерполяции значений магнитуды и значений фазы, при котором независимая интерполяция обычно выполняется модулем интерполяции значений магнитуды 270 и модулем интерполяции значений фазы 272.

Для того чтобы избежать описанных выше потерь энергии выхода, в настоящем изобретении предлагается другой способ интерполяции матрицы расширения. Этот новый метод использует независимую интерполяцию для углов матрицы коэффициентов, полученную из разности фаз между каналами (IPDs), и для их магнитуд, полученную, например, из разностных сигналов между каналами (ILDs) и сигналами корреляции или когерентности между каналами (ICCs).

На первом этапе рассчитываются действительные коэффициенты матрицы (например, представленные последовательностью 254) и линейно интерполируются (например, с помощью модуля интерполяции значения магнитуды 270), так как это будет сделано без использования разности фаз между каналами (IPDS).

На следующем этапе вычисляются углы фазовых сдвигов (например, представленные последовательностью 256) на основе переданных разностей фаз между каналами (IPDs) для наборов параметров (например, наборов дополнительной информации 212). Между этими углами выполняется линейная интерполяция (например, с использованием модуля интерполяции значений фазы 272) для получения угла между последовательными наборами параметров (например, наборами дополнительной информации 212) для каждой выборки. Так как углы, используемые в настоящей интерполяции, могут изменяться в пределах 2аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 , должно быть уделено особое внимание правильному выбору направления интерполяции. Например, интерполированные углы могут быть получены по следующей формуле:

аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696

В этом уравнении, аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 n-1 обозначает значение фазы первого (или предыдущего) комплекснозначного параметра расширения. аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 n обозначает значение фазы второго (или последующего) комплекснозначного параметра расширения, "mod" означает оператор модуля, i обозначает индекс интерполированного значения фазы. i=0 указывает индекс, связанный с первым параметром расширения. i=imax обозначает индекс, связанный со вторым параметром расширения. Индексы i между 0 and imax связаны с интерполированными параметрами расширения. Кроме того, предполагается, что i max-1 указывает интерполированные значения между двумя точками выборок (или наборами дополнительной информации).

Естественно, что порядок вычисления интерполированных действительных коэффициентов матрицы и интерполированных углов фазового сдвига может быть изменен или проведен параллельно.

На последнем этапе действительные элементы матрицы могут быть повернуты на интерполированные углы. Например, может быть применено следующее уравнение:

Hxx,complex =ejаппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 Hxx,red

В этом уравнении «хх» обозначает соответствующий индекс элемента матрицы (который здесь иногда обозначается «ij »). Далее, Hxx,real обозначает действительные коэффициенты матрицы, т.е. значения магнитуды. аппаратный блок, способ и компьютерная программа для расширения   сжатого аудио сигнала, патент № 2518696 обозначает угол сдвига фаз, связанный с действительными коэффициентами матрицы Hxx,real. j обозначает мнимую единицу, то есть квадратный корень из -1. Hxx,complex определяет комплексные параметры расширения.

Таким образом, выше представлен усовершенствованный метод интерполяции магнитуды элементов матрицы.

В отличие от описанного выше подхода с линейной интерполяцией, независимая интерполяции значений магнитуды и значений фазы между комплексными значениями z1 и z2 позволяет в результате получить интерполированное значение zsep, как видно на фиг.5. Например, абсолютная величина интерполированного значения z sep определяется линейной интерполяцией между абсолютной величиной первого комплексного значения z1 и абсолютной величиной второго комплексного значения z2 (где |.| обозначает операцию получения абсолютного значения). Кроме того, угловое положение интерполированного значения zsep лежит между угловыми положениями первого значения z1 и второго значения z2, как показано на фиг.5.

Таким образом, можно видеть из фиг.5, что магнитуда интерполированного значения zsep лежит в пределах между магнитудами первого значения z1 и второго значения z2. Таким образом, деградации амплитуды, которую хорошо видно при линейной интерполяции комплексного значения (происходит снижение значения магнитуды линейной интерполяции z1in по сравнению с z1 и z2, можно избежать с помощью независимой интерполяции значений магнитуды и фазы.

Заключение

Подводя итог сказанному выше, была представлена общая концепция получения интерполированных матриц расширения (например, Н), которые (хотя бы приблизительно) сохраняют магнитуду при использовании изменяющегося во времени значения фазы. Воплощения в соответствии с изобретением могут заменить другие способы за счет уменьшения потерь амплитуды в выходном сигнале, вызванных обычными простыми способами интерполяции. Кроме того, вычислительные затраты для интерполяции с сохранением магнитуды лишь незначительно выше, чем в других способах.

Способ

Воплощение изобретения включает в себя способ преобразования сжатого аудио сигнала, представленного одним или более сжатыми аудио каналами, в расширенный звуковой сигнал, содержащий множество расширенных аудио каналов. На фиг.6 показана схема такого метода, который обозначен в полном объеме цифрой 700.

Метод 700 включает в себя этап 710 получения одного или нескольких текущих значений интерполированных параметров расширения на основе первого комплекснозначного параметра расширения и последующего второго комплекснозначного параметра расширения. Интерполяция производится независимо друг от друга между величиной магнитуды первого комплекснозначного параметра расширения и величиной магнитуды второго комплекснозначного параметра расширения, а также между значением фазы первого комплекснозначного параметра расширения и значением фазы второго комплекснозначного параметра расширения.

Способ 700 также включает в себя этап 720 применения интерполированных параметров расширения для расширения сжатого сигнала и получения расширенного звукового сигнала.

Способ 700 может быть дополнен любым из этапов и функциональными возможностями, описанными здесь по отношению к аппаратной части изобретения.

Различные технологии воплощения изобретения

В зависимости от определенных требований реализации, воплощения изобретения могут быть реализованы в оборудовании или в программном обеспечении. Реализация может быть выполнена с помощью цифровых носителей, например дискет, DVD, CD, ROM, PROM, EPROM, EEPROM или FLASH памяти, имеющих читаемые электронным способом управляющие сигналы, хранящиеся на них, которые совместимы (или способны к совмещению) с программной системой компьютера, так, чтобы выполнялся соответствующий способ.

Некоторые воплощения в соответствии с изобретением могут содержать носитель с читаемыми электронным способом управляющими сигналами, которые способны работать совместно с программной системой компьютера, так, что выполняется один из описанных здесь способов.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, позволяющим выполнять один из способов при его запуске на компьютере. Программный код, например, может быть сохранен на машиночитаемых носителях.

Другие варианты исполнения представляют собой компьютерную программу для выполнения одного из описанных здесь способов, хранящихся на машиночитаемых носителях.

Иными словами, воплощение предложенного способа является, таким образом, компьютерной программой, имеющей программный код для выполнения одного из описанных здесь способов, когда компьютерная программа работает на компьютере.

Таким образом, еще одно воплощение способов изобретения является носителем информации (или цифровым носителем), содержащим компьютерную программу для выполнения одного из способов, описанных в тексте данного изобретения.

Еще одним вариантом осуществления предлагаемого способа является поток данных или последовательность сигналов, представляющими компьютерную программу для выполнения одного из способов, описанных в тексте данного изобретения.

Поток данных или последовательности сигналов могут быть подготовлены для передачи через линии передачи данных, например, через Internet.

Еще один вариант изобретения включает в себя средства обработки, например компьютер или программируемое логическое устройство, настроенные или приспособленные для выполнения одного из способов, описанных в тексте данного изобретения.

Еще один вариант изобретения содержит компьютер с установленной на нем компьютерной программой для выполнения одного из способов, описанного в тексте данного изобретения.

В некоторых вариантах программируемое логическое устройство (например, программируемая логическая матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей, описанных в тексте данного изобретения.

В некоторых вариантах программируемая логическая матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в тексте данного изобретения.

Использованная литература

[1] С.Faller and F.Baumgarte, "Efficient representation of spatial audio using perceptual parameterization", IEEE WASPAA, Mohonk, NY, October 2001

[2] F.Baumgarte and C.Faller, "Estimation of auditory spatial cues for binaural cue coding", ICASSP, Orlando, FL, May 2002

[3] С.Faller and F.Baumgarte, "Binaural cue coding: a novel and efficient representation of spatial audio," ICASSP, Orlando, FL, May 2002

[4] С.Faller and F.Baumgarte, "Binaural cue coding applied to audio compression with flexible rendering", AES 113th Convention, Los Angeles, Preprint 5686, October 2002

[5] С.Faller and F.Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol.11, no. 6, Nov. 2003

[6] J.Breebaart, S.van de Par, A.Kohlrausch, E.Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates", AES 116th Convention, Berlin, Preprint 6072, May 2004

[7] E.Schuijers, J.Breebaart, H.Pumhagen, J.Engdegard, "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlin, Preprint 6073, May 2004

[8] ISO/IEC JTC 1/SC 29/WG 11, 23003-1, MPEG Surround

[9] J.Blauert, Spatial Hearing: The Psychophysics of Human Sound Localization, The MIT Press, Cambridge, MA, revised edition 1997

Наверх