аудиокодирование
Классы МПК: | H04S3/00 Системы с более, чем двумя каналами, например квадрафонические |
Автор(ы): | СХЕЙЕРС Эрик Г. П. (NL), ОМЕН Арнолдус В. Й. (NL) |
Патентообладатель(и): | КОНИНКЛЕЙКЕ ФИЛИПС ЭЛЕКТРОНИКС Н.В. (NL) |
Приоритеты: |
подача заявки:
2003-07-01 публикация патента:
20.05.2008 |
Изобретение относится к аудиокодированию. При бинауральном кодировании кодируется только один монофонический канал. Дополнительный слой содержит параметры для получения левого и правого сигналов. Описан кодер, который связывает информацию о переходных процессах, извлекаемую из монофонического кодированного сигнала, с параметрическими многоканальными слоями. Местоположения переходных процессов также могут быть получены непосредственно из битового потока или могут быть вычислены на основе других закодированных параметров (например, флага переключения окна в случае mp3). Технический результат - повышение эффективности за счет использования информации о переходных процессах в параметрическом многоканальном слое. 7 н.п. и 6 з.п. ф-лы, 4 ил.
Формула изобретения
1. Способ кодирования аудиосигнала, который включает в себя этапы, на которых генерируют монофонический аудиосигнал, из, по меньшей мере, двух аудиоканалов анализируют пространственные характеристики этих, по меньшей мере, двух аудиоканалов для получения одного или более наборов пространственных параметров для последовательных временных слотов, в качестве реакции на упомянутый монофонический сигнал, содержащий переходный процесс в заданное время, определяют неравномерное временное сегментирование упомянутых наборов пространственных параметров для периода, включающего в себя упомянутое заданное время, и генерируют кодированный аудиосигнал, включающий в себя монофонический аудиосигнал и упомянутые один или более наборов пространственных параметров.
2. Способ по п.1, в котором упомянутый монофонический сигнал генерируют с помощью синусоидального кодера, при этом упомянутый синусоидальный кодер генерирует кадры, соответствующие последовательным временным слотам упомянутого монофонического сигнала, а, по меньшей мере, некоторые из упомянутых кадров включают в себя параметры, представляющие местоположение переходного процесса, имеющего место в соответствующих временных слотах, представленных упомянутыми кадрами.
3. Способ по п.1, в котором упомянутый монофонический сигнал генерируют с помощью кодера формы сигнала, при этом упомянутый кодер формы сигнала определяет неравномерное временное сегментирование упомянутого монофонического сигнала для интервала, включающего в себя упомянутого заданное время.
4. Способ по п.3, в котором упомянутый кодер формы сигнала является кодером mp3.
5. Способ по п.1, в котором упомянутые наборы пространственных параметров включают в себя, по меньшей мере, два признака локализации.
6. Способ по п.5, в котором упомянутые наборы пространственных параметров дополнительно включают в себя параметр, который описывает подобие или различие форм сигналов, которые не могут быть учтены упомянутыми признаками локализации.
7. Способ по п.6, в котором параметр является максимумом кросс-корреляционной функции.
8. Кодер для кодирования аудиосигнала, который включает в себя: средства для генерации монофонического сигнала из, по меньшей мере, двух аудиоканалов, средства для анализа пространственных характеристик, по меньшей мере, двух аудиоканалов для получения одного или более наборов пространственных параметров для последовательных временных слотов, средства для определения, в качестве реакции на упомянутый монофонический сигнал, содержащий переходный процесс в заданное время, неравномерного временного сегментирования упомянутых наборов пространственных параметров для периода, включающего в себя упомянутое заданное время, и средства для генерации кодированного сигнала, включающего в себя монофонический сигнал и упомянутые один или больше наборов пространственных параметров.
9. Устройство для кодирования аудиосигнала, которое включает в себя: блок ввода для приема аудиосигнала, кодер по п.8 для кодирования аудиосигнала с целью получения кодированного аудиосигнала, и блок вывода для предоставления кодированного аудиосигнала.
10. Кодированный аудиосигнал, включающий в себя: монофонический сигнал, сгенерированный из, по меньшей мере, двух аудиоканалов и содержащий, по меньшей мере, один индикатор местоположения переходного процесса, имеющего место в заданное время в упомянутом монофоническом сигнале; и один или больше наборов пространственных параметров для последовательных временных слотов упомянутого сигнала, при этом упомянутые наборы пространственных параметров обеспечивают неравномерное временное сегментирование аудиосигнала для периода, содержащего упомянутое заданное время.
11. Способ декодирования кодированного аудиосигнала, который включает в себя этапы, на которых получают монофонический сигнал из кодированного аудиосигнала, причем монофонический аудиосигнал сгенерирован из, по меньшей мере, двух аудиоканалов, получают один или более наборов пространственных параметров из кодированного аудиосигнала, и в качестве реакции на упомянутый монофонический аудиосигнал, содержащий переходный процесс в заданное время, определяют неравномерное временное сегментирование упомянутых наборов пространственных параметров для периода, включающего в себя упомянутое заданное время, и применяют один или более наборов пространственных параметров к монофоническому сигналу для генерации многоканального выходного сигнала.
12. Декодер для декодирования кодированного аудиосигнала, включающий в себя: средства для получения монофонического сигнала из кодированного аудиосигнала, причем монофонический аудиосигнал сгенерирован из, по меньшей мере, двух аудиоканалов, средства для получения одного или более наборов пространственных параметров из кодированного аудиосигнала, и средства для определения, в качестве реакции на упомянутый монофонический сигнал, содержащий переходный процесс в заданное время, неравномерного временного сегментирования упомянутых наборов пространственных параметров для периода, включающего в себя упомянутое заданное время, и средства для применения упомянутых одного или более наборов пространственных параметров к монофоническому сигналу для генерации многоканального выходного сигнала.
13. Устройство для декодированного сигнала, которое включает в себя: блок ввода для приема кодированного аудиосигнала, декодер по п.12 для декодирования кодированного аудиосигнала для получения многоканального выходного сигнала, блок вывода для предоставления или воспроизведения многоканального выходного сигнала.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Настоящее изобретение относится к аудиокодированию.
Предшествующий уровень техники
В известных основывающихся на форме сигнала схемах кодирования аудиосигнала, таких как MPEG-LII, mp3 и AAC (усовершенствованное аудиокодирование MPEG-2), стереосигналы кодируются путем кодирования двух монофонических аудиосигналов в один битовый поток. Однако с использованием межканальных корреляций и избыточности с помощью таких методик, как mid/side стереокодирование (способ кодирования стереосигнала, при котором выделяются центральный и разностный каналы) и кодирование интенсивности, может быть достигнуто уменьшение битового потока.
В случае mid/side стереокодирования, стереосигнал с большим количеством монофонического содержимого может быть разделен на суммарный M=(L+R)/2 и разностный S=(L-R)/2 сигналы (где L - сигнал левого стереоканала, R - сигнал правого стереоканала). Такая декомпозиция иногда комбинируется с анализом основных компонентов или изменяющихся во времени масштабных коэффициентов. Сигналы затем кодируются независимо как с помощью параметрического кодера, так и с помощью кодера формы сигнала (например, кодер преобразования или поддиапазона). Для определенных частотных диапазонов данная методика может дать незначительно более высокую энергию или для сигнала S, или для сигнала M. Однако для определенных частотных диапазонов может быть достигнуто значительное уменьшение энергии или для сигнала М, или для сигнала S. Объем сокращаемой информации, достигаемый данной методикой, сильно зависит от пространственных характеристик исходного сигнала. Например, если исходный сигнал является монофоническим, разностный сигнал равен нулю и может быть отброшен. Однако если корреляция левого и правого аудиосигнала низкая (что часто случается в диапазонах высоких частот), данная схема дает лишь незначительную выгоду.
В случае стереокодирования интенсивности для определенного частотного диапазона только один сигнал I=(L+R)/2 кодируется вместе с информацией интенсивности для сигналов L и R. На стороне декодера этот сигнал I используется и для сигнала L и для сигнала R после масштабирования с соответствующей информацией интенсивности. Согласно этой методике высокие частоты (обычно выше 5 кГц) представлены одним аудиосигналом (т.е. моно), объединенным с изменяющимися во времени и частотно зависимыми масштабными коэффициентами.
В течение последних лет проявляется интерес к параметрическим описаниям аудиосигнала, особенно в области аудиокодирования. Показано, что передача (квантованных) параметров, которые описывают аудиосигнал, требует только малой пропускной способности для повторного синтезирования одинакового по восприятию сигнала на принимающей стороне. Однако текущие параметрические аудиокодеры ориентированы на кодирование монофонических сигналов, и стереосигналы часто обрабатываются как двойной моносигнал.
EP-A-1107232 раскрывает схему параметрического кодирования для генерации представления стереофонического аудиосигнала, который составлен из сигнала левого канала и сигнала правого канала. Для эффективного использования полосы пропускания для передачи такое представление содержит информацию, касающуюся только монофонического сигнала, который может быть или сигналом левого канала, или сигналом правого канала, и параметрическую информацию. Другой стереосигнал может быть восстановлен на основе упомянутого монофонического сигнала вместе с параметрической информацией. Параметрическая информация включает в себя признаки локализации стереофонического аудиосигнала, включая характеристики интенсивности и фазы для левого и правого каналов.
В бинауральном стереофоническом кодировании, подобном стереокодированию интенсивности, кодируется только один монофонический канал. Дополнительная информация содержит параметры для получения левого и правого сигнала. Заявка на Европейский патент №02076588.9, поданная в апреле 2002 года (код патентного поверенного №PHNL020356) раскрывает параметрическое описание многоканального аудиосигнала, связанное с моделью бинауральной обработки, представленной Breebaart и другими в "Binaural processing model based on contralateral inhibition. I. Model setup", J.Acoust. Soc. Am., 110, 1074-1088, август 2001, в "Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters", J.Acoust. Soc. Am., 110, 1089-1104, август 2001, и в "Binaural processing model based on contralateral inhibition. III. Dependence on temporal parameters", J.Acoust. Soc. Am., 110, 1105-1117, август 2001, где раскрыта модель бинауральной обработки. Это включает в себя разделение входного аудиосигнала на несколько ограниченных по полосе частот сигналов, которые линейно размещены на ERB-нормированной шкале (ERB - эквивалентная прямоугольная полоса частот). Полоса частот этих сигналов зависит от центральной частоты в зависимости от пропорции ERB. Далее, для каждого частотного диапазона, анализируются следующие характеристики входного сигнала:
интерауральная разность уровней (ILD) определяемая относительными уровнями ограниченного по полосе частот сигнала, воспринимаемого в левом и правом ухе,
интерауральная временная (или фазовая) разность (ITD или IPD), определяемая интерауральной задержкой (или сдвигом фазы), зависящей от пиков в интерауральной кросс-корреляционной функции,
подобия (различия) форм сигнала, которые не могут быть учтены разностями ITD или ILD, которые могут быть параметризованы посредством максимальной интерауральной кросс-корреляции (т.е. значения кросс-корреляции в позиции максимального пика). Поэтому из вышеприведенных описаний становится ясно, что пространственные атрибуты любого многоканального аудиосигнала могут быть описаны путем задания ILD, ITD (или IPD) и максимальной корреляции как функции от времени и частоты.
Эта методика параметрического кодирования дает достаточно хорошее качество для обычных аудиосигналов. Однако, особенно для сигналов, имеющих сильно нестационарное поведение, например звуков кастаньет, клавесина, глокеншпиля и т.д., для данной методики характерны артефакты опережающего эха (слышимого до воспроизведения самого звука).
Задачей данного изобретения является предоставление аудиокодера и декодера и соответствующих способов, которые уменьшают влияние артефактов при параметрическом многоканальном кодировании.
Описание сущности изобретения
В соответствии с настоящим изобретением предоставляется способ кодирования аудиосигнала в соответствии с п.1 и способ декодирования битового потока в соответствии с п.11.
В соответствии с аспектом изобретения параметризуются пространственные атрибуты многоканальных аудиосигналов. Предпочтительно пространственные атрибуты включают в себя разности уровней, временные разности и корреляции между левым и правым сигналом.
Используя данное изобретение, местоположения переходных процессов прямо или косвенно извлекаются из монофонического аудиосигнала и связываются с слоями параметрического многоканального представления. Использование этой информации о переходных процессах в параметрическом многоканальном слое позволяет повысить эффективность.
Известно, что во многих аудиокодерах информация о переходных процессах используется для управления процессом кодирования с целью повышения эффективности. Например, в синусоидальном кодере, описанном в W001/69593-A1, местоположения переходных процессов кодируются в битовом потоке. Кодер может использовать эти местоположения переходных процессов для адаптивного сегментирования (адаптивного кадрирования) битового потока. Также, в декодере, эти местоположения могут быть использованы с целью управления применением окна для синусоидального и шумового синтеза. Однако эти методики ограничиваются монофоническими аудиосигналами.
В предпочтительном варианте воплощения настоящего изобретения при декодировании битового потока, где монофоническое содержимое получено с использованием такого синусоидального кодера, местоположения переходных процессов могут быть получены непосредственно из битового потока.
В кодерах формы сигнала, таких как mр3 или ААС, местоположения переходных процессов непосредственно не кодируются в битовом потоке; напротив, в случае mр3, например, полагается, что эти переходные интервалы маркируются путем переключения на более короткие длины окна (переключение окна) в монофоническом слое и местоположения переходных процессов таким образом могут быть оценены из параметров, таких как флаг mр3 переключения окна.
Перечень фигур чертежей
Предпочтительные варианты воплощения настоящего изобретения будут описаны, в качестве примера, со ссылками на прилагающиеся чертежи, на которых:
Фиг.1 - схематическая диаграмма, иллюстрирующая кодер в соответствии с одним из вариантов воплощения изобретения;
Фиг.2 - схематическая диаграмма, иллюстрирующая декодер в соответствии с одним из вариантов воплощения изобретения;
Фиг.3 - местоположения переходных процессов, закодированные в соответствующих субкадрах монофонического сигнала и соответствующие кадры многоканального слоя; и
Фиг.4 - пример использования местоположения переходного процесса из монофонического кодированного слоя для декодирования параметрического многоканального слоя.
Описание предпочтительного варианта воплощения
На фиг.1 показан кодер 10 в соответствии с предпочтительным вариантом воплощения настоящего изобретения для кодирования стереофонического аудиосигнала, включающего в себя левый (L) и правый (R) входные сигналы. В предпочтительном варианте воплощения, как описано в заявке на Европейский патент №02076588.9, поданной в апреле 2002 года (код патентного поверенного №PHNL020356), кодер описывает многоканальный аудиосигнал с помощью:
одного монофонического сигнала 12, включающего в себя комбинацию множества входных аудиосигналов,
для каждого дополнительного слухового канала набор пространственных параметров 14, включающий в себя два признака локализации (ILD и ITD или IPD) и параметр (r), который описывает подобие или различие форм сигнала, которые не могут быть учтены с помощью разностей ILD и/или ITD (например, максимум кросс-корреляционной функции), предпочтительно для каждого временного/частотного элементарного интервала (слота).
Набор (наборы) пространственных параметров может быть использован аудиокодерами как слой расширения. Например, моносигнал передается, только если допустима низкая скорость передачи битов, в то время как декодер может воспроизводить стерео- или многоканальный звук посредством включения пространственного слоя (слоев) расширения.
В то время как в данном варианте воплощении набор пространственных параметров объединен с монофоническим (одноканальным) аудиокодером для кодирования стереофонического аудиосигнала, общая идея может быть применена к n-канальному аудиосигналу с n > 1. Таким образом, изобретение может быть в принципе использовано для генерирования n каналов из одного моносигнала, если переданы (n-1) наборов пространственных параметров. В таких случаях пространственные параметры описывают, как сформировать n различных каналов из одного моносигнала. Таким образом, в декодере, путем объединения следующего набора пространственных параметров с монофоническим кодированным сигналом, получается следующий канал.
Способы анализа
В общем кодер 10 включает в себя соответствующие модули 20 преобразования, которые разделяют каждый входной сигнал (L,R) на сигналы 16 поддиапазонов (предпочтительно с шириной полосы, увеличивающейся с частотой; в предпочтительном варианте воплощения модули 20 применяют окно во времени, за этим следует операция преобразования с целью осуществления квантования по времени/частоте, однако могут быть использованы и непрерывные во времени способы (например, блок фильтров).
Следующие этапы для определения суммарного сигнала 12 и извлечения параметров 14 реализуются в модуле 18 анализа и включают в себя:
нахождение разности уровней (ILD) соответствующих сигналов 16 поддиапазонов,
нахождение временной разности (ITD или IPD) соответствующих сигналов 16 поддиапазонов,
описание степени подобия или различия форм сигналов, которые не могут быть определены с помощью разностей ILD или ITD.
Анализ разностей ILD
ILD определяется по разности уровней сигналов в конкретный момент времени для заданной полосы частот. Одним из способов определения ILD является вычисление среднеквадратического значения для соответствующей полосы частот для обоих входных каналов и вычисление отношения среднеквадратических значений (предпочтительно выраженных в дБ).
Анализ разностей ITD
ITD определяется выравниванием по времени или фазе, которое дает лучшее совпадение между формами сигналов обоих каналов. Одним из способов получения ITD является вычисление кросс-корреляционной функции между двумя соответствующими сигналами поддиапазонов и поиск максимума. Задержка, которая соответствует этому максимуму в кросс-корреляционной функции, может быть использована как значение ITD.
Второй способ состоит в вычислении аналитических сигналов левого и правого поддиапазонов (т.е. вычисление значений фазы и огибающей) и использование разности фаз между каналами в качестве параметра IPD. Здесь используется комплексный блок фильтров (например быстрое преобразование Фурье (БПФ, FFT)) и с помощью рассмотрения определенного элемента дискретизации (участка полосы частот) может быть получена фазовая функция во времени. Осуществляя это для левого и правого каналов, может быть получена разность фаз IPD (так же как и кросс-корреляция двух отфильтрованных сигналов).
Анализ корреляции
Корреляцию получают посредством изначального нахождения ILD и ITD, которые обеспечивают наилучшее совпадение соответствующих сигналов поддиапазонов и последующего измерения подобия форм сигналов после компенсации ITD и/или ILD. Так, в данной схеме, корреляция определяется как подобие или различие соответствующих сигналов поддиапазонов, которое не может быть определено с помощью разностей ILD и/или ITD. Подходящей мерой для этого параметра является максимальное значение кросс-корреляционной функции (т.е. максимум на множестве задержек). Однако конечно могут быть использованы и другие меры, такие как относительная энергия разностного сигнала после компенсации ILD и/или ITD в сравнении с суммарным сигналом соответствующих поддиапазонов (предпочтительно, в отношении которого также выполнена компенсация разностей ILD и/или ITD). Этот разностный параметр является по сути линейным преобразованием (максимальной) корреляции.
Квантование параметров
Важным моментом при передаче параметров является точность представления параметров (т.е. размер ошибок квантования), которая напрямую связана с необходимыми пропускной способностью и качеством аудиосигнала. В этом разделе будут обсуждаться несколько моментов, связанных с квантованием пространственных параметров. Основная идея состоит в том, чтобы базировать ошибки квантования на так называемых JND (едва заметных различиях) пространственных признаков. Более точно, ошибка квантования определяется чувствительностью человеческой слуховой системы к изменениям параметров. Так как широко известно, что чувствительность к изменениям параметров сильно зависит от самих значений параметров, применяются следующие способы для определения дискретных шагов квантования.
Квантование разностей ILD
Как известно из психоакустических исследований, чувствительность к изменениям ILD зависит от самой ILD. Если ILD выражается в дБ, отклонение примерно в 1 дБ от опорного уровня в 0 дБ является обнаруживаемым, в то время как требуются изменения порядка 3 дБ, если разность относительно опорного уровня составляет 20 дБ. Поэтому ошибки квантования могут быть тем большими, чем большую разность уровней имеют левый и правый каналы. Например, это может быть применено путем первоначального измерения разности уровней между каналами, последующего нелинейного (компрессионного) преобразования полученной разности уровней и, наконец, применения процесса линейного квантования или путем использования таблицы поиска подходящих значений ILD, которые имеют нелинейное распределение. В предпочтительном варианте воплощения ILD (в дБ) квантуются к ближайшему значению из набора I:
I=[-19 -16 -13 -10 -8 -6 -4 -2 0 2 4 6 8 10 13 16 19]
Квантование разностей ITD
Чувствительность человека к изменению в ITD может быть охарактеризована как имеющая постоянный фазовый порог. Это означает, что для времен задержки шаги квантования ITD должны уменьшаться с частотой. В качестве альтернативы, если ITD представлена в форме разностей фаз, шаги квантования должны быть независимы от частоты. Одним из способов реализации этого является использование фиксированной разности фаз в качестве шага квантования и определение соответствующей временной задержки для каждого частотного диапазона. Это значение ITD затем используется как шаг квантования. В предпочтительном варианте осуществления шаги квантования ITD определяются постоянной разностью фаз в каждом поддиапазоне в 0.1 радиан (рад). Таким образом, для каждого поддиапазона, разность во времени, которая соответствует 0.1 рад относительно центральной частоты поддиапазона, используется в качестве шага квантования. Для частот выше 2 кГц информация о ITD не передается.
Другим способом является передача разностей фаз, который основывается на частотно независимой схеме квантования. Известно, что выше определенной частоты человеческая слуховая система не чувствительна к формам сигналов тонкой структуры. Этот феномен может быть использован путем передачи параметров ITD вплоть до определенной частоты (обычно 2 кГц).
Третий способ уменьшения битового потока состоит во введении шагов квантования ITD, которые зависят от ILD и/или от корреляционных параметров одного и того же поддиапазона. Для больших ILD, ITD может быть кодирована менее точно. Более того, известно, что если корреляция очень низкая, то человеческая чувствительность к изменениям ITD уменьшается. Отсюда следует, что при малой корреляции допускаются большие ошибки квантования. Предельным примером данной идеи является полный отказ от передачи разностей ITD, если корреляция становится меньше определенного порога.
Квантование корреляции
Ошибки квантования корреляции зависят (1) от собственно значения корреляции и (2), возможно, от ILD. Значения корреляции, близкие к +1, кодируются с высокой точностью (т.е. с малым шагом квантования), в то время как значения корреляции, близкие к 0, кодируются с низкой точностью (большой шаг квантования). В предпочтительном варианте воплощения множество нелинейно распределенных значений корреляции (r) квантуется к ближайшему значению из следующей совокупности: R:R=[1 0.95 0.9 0.82 0.75 0.6 0.3 0], что обходится в дополнительные 3 бита на каждое значение корреляции.
Если абсолютное значение (квантованной) ILD текущего поддиапазона составляет 19 дБ, то для данного поддиапазона не передается ни ITD, ни значение корреляции. Если (квантованное) значение корреляции для определенного поддиапазона составляет 0, то значение ITD для данного поддиапазона не передается.
Таким образом, каждый кадр требует максимум 233 бита для передачи пространственных параметров. При длине кадра в 1024 отсчета и частоте дискретизации в 44.1 кГц, максимальная скорость передачи битов составляет меньше чем 10,25 кбит/с [233·44100/1024=10,034 кбит/с]. Необходимо заметить, что при использовании статистического кодирования или дифференциального кодирования данная скорость передачи битов может быть дополнительно уменьшена.
Вторая возможность состоит в использовании шагов квантования для корреляции, зависящих от измеренной ILD этого же поддиапазона: чем больше разности ILD (т.е. один из каналов является доминантным по энергии), тем большими могут быть ошибки квантования корреляции. В предельном примере данного принципа значения корреляции для определенного поддиапазона вообще не передаются, если абсолютное значение ILD для этого поддиапазона превышает определенный порог.
Подробное описание реализации
Более детально, в модуле 20 левый и правый входные сигналы разделяются в разных временных кадрах (2048 отсчетов при частоте дискретизации 44.1 кГц) и обрабатываются методом окна при помощи окна Хеннинга (Hanning), соответствующего функции квадратного корня. Затем вычисляются преобразования БПФ. Отрицательные БПФ-частоты исключаются и результирующие БПФ делятся на группы или поддиапазоны из 16 элементов дискретизации БПФ. Количество элементов дискретизации БПФ, которые объединены в поддиапазон g, зависит от частоты: на высоких частотах объединяются больше элементов дискретизации, чем на низких частотах. В данной реализации группируются элементы дискретизации БПФ, соответствующие примерно 1,8 ERB, давая в результате 20 поддиапазонов, представляющих весь слышимый частотный диапазон. Результирующее количество элементов дискретизации БПФ S[g] для каждого последовательного поддиапазона (начиная с наиболее низкой частоты) является
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
Таким образом, первые три поддиапазона содержат 4 элемента дискретизации БПФ, четвертый поддиапазон содержит 5 элементов дискретизации БПФ и так далее. Для каждого поддиапазона модуль 18 анализа вычисляет соответствующие ILD, ITD и корреляцию (r). ITD и корреляция вычисляются просто установкой всех элементов дискретизации БПФ, которые принадлежат другим группам, в ноль, умножением результирующих (ограниченных по диапазону) БПФ из левого и правого каналов с последующим обратным быстрым преобразованием Фурье (ОБПФ). В отношении результирующей кросс-корреляционной функции выполняют поиск пиков в пределах межканальной задержки между -64 и +64 отсчетами. Внутренняя задержка, соответствующая пику, используется как значение ITD, а значение кросс-корреляционной функции в этом пике используется как интерауральная корреляция этого поддиапазона. И, наконец, ILD вычислятся просто как отношение мощностей левого и правого каналов для каждого поддиапазона.
Генерация суммарного сигнала
Анализатор 18 содержит генератор 17 суммарного сигнала, который выполняет коррекцию фазы (временное выравнивание) для левого и правого поддиапазонов перед суммированием сигналов. Эта коррекция фазы основывается на вычисленной для этого поддиапазона ITD и включает в себя задержку поддиапазона левого канала на величину ITD/2 и поддиапазона правого канала на величину -ITD/2. Задержка осуществляется в частотной области с помощью соответствующего применения фазового угла для каждого элемента дискретизации БПФ. Затем суммарный сигнал вычисляется путем сложения измененных по фазе версий сигналов левого и правого поддиапазонов. И, наконец, для компенсации некоррелированного или коррелированного сложения каждый поддиапазон суммированного сигнала умножается на корень квадратный из (2/(1+r)), с корреляцией (r) соответствующего поддиапазона, для генерации окончательного суммарного сигнала 12. Если необходимо, суммарный сигнал может быть преобразован во временную область посредством (1) введения комплексных сопряженных при отрицательных частотах, (2) обратного БПФ, (3) применения окна, и (4) алгоритма перекрытия с суммированием.
При наличии представления суммарного сигнала 12 во временной и/или частотной области, как описано выше, этот сигнал может быть кодирован в монофоническом слое 40 битового потока 50 несколькими известными способами. Например, для генерации монофонического слоя 40 битового потока может быть использован кодер mp3. Когда такой кодер обнаруживает быстрые изменения во входном сигнале, то он может изменить длину окна, которую он использовал для этого конкретного периода времени таким образом, чтобы улучшить временную и/или частотную локализацию при кодировании этой части входного сигнала. При этом в битовый поток встраивается флаг переключения окна, показывающий данное переключение декодеру, который впоследствии будет синтезировать сигнал. Для целей настоящего изобретения этот флаг переключения окна используется как оценка местоположения переходного процесса во входном сигнале.
Однако в предпочтительном варианте воплощения для генерации монофонического слоя 40 используется синусоидальный кодер 30 типа того, что описан в WO01/69593-A1. Кодер 30 включает в себя кодер 11 переходных процессов, синусоидальный кодер 13 и кодер 15 шума.
Когда сигнал 12 поступает на вход кодера 11 переходных процессов, для каждого интервала обновления данный кодер оценивает, имеется ли переходная компонента сигнала, а также ее местоположение, в пределах окна анализа (с точностью до отсчета). Если местоположение переходной компоненты сигнала определено, кодер 11 пытается извлечь переходную компоненту сигнала (или главную ее часть). Кодер 11 подбирает функцию формы для сегмента сигнала, начиная, предпочтительно, с оцененного местоположения, и определяет содержимое под этой функцией формы путем применения, например, некоторого (малого) числа синусоидальных компонент, и эта информация содержится в переходном коде CT.
Суммарный сигнал 12 без переходных компонентов направляется на синусоидальный кодер 13, где он анализируется для определения (детерминированных) синусоидальных компонентов. Вкратце, синусоидальный кодер кодирует входной сигнал как звенья цепочки синусоидальных компонентов, связанные от одного сегмента кадра к другому. Звенья цепочки изначально представлены начальной частотой, начальной амплитудой и начальной фазой для синусоиды, начинающейся в заданном сегменте - рождение. После этого звено цепочки представляется в последующих сегментах с помощью разностей частот, разностей амплитуд и, если возможно, разностей фаз (продолжительностей), до того сегмента, где цепочка заканчивается (смерть), и эта информация содержится в синусоидальном коде CS.
Предполагается, что сигнал без переходных и синусоидальных компонентов в основном содержит шум, и анализатор 15 шума в предпочтительном варианте воплощения выдает шумовой код CN как представление этого шума. Обычно, как, например, в WO01/89086-A1, спектр шума моделируется кодером шума с помощью параметров (pi,qi) комбинированного авторегриссивного (AR) фильтра скользящего среднего (МА) в соответствии со шкалой ERB. Внутри декодера упомянутые параметры фильтра передаются синтезатору шума, который, главным образом, является фильтром, который имеет частотную характеристику, приближенную к спектру шума. Синтезатор генерирует воссозданный шум путем фильтрации сигнала белого шума с параметрами (pi,qi) фильтра ARMA и впоследствии добавляет его к синтезированным переходному и синусоидальному сигналам для генерации оценки исходного суммарного сигнала.
Мультиплексор 41 выдает монофонический аудиослой 40, который делится на кадры 42, которые представляют перекрывающиеся временные сегменты длиной 16 миллисекунд (мс) и которые обновляются каждые 8 (мс), как показано на фиг.4. Каждый кадр включает в себя соответствующие коды CT, CS и CN, и в декодере упомянутые коды для последовательных кадров смешиваются в их перекрывающихся зонах при синтезировании монофонического суммарного сигнала. В настоящем варианте воплощения, подразумевается, что каждый кадр может иметь не более одного переходного кода CT и пример такого переходного процесса помечен номером 44.
Генерация наборов пространственных параметров
Анализатор 18 дополнительно включает в себя генератор 19 слоя пространственных параметров. Этот компонент выполняет квантование пространственных параметров для каждого кадра пространственных параметров, как описано выше. В общем генератор 19 делит каждый канал 14 пространственного уровня на кадры 46, которые представляют собой перекрывающиеся временные сегменты длиной 64 мс и которые обновляются каждые 32 мс, как показано на фиг.4. Каждый кадр включает в себя соответствующие ILD, ITD или IPD и корреляционные коэффициенты, и в декодере упомянутые значения в последовательных кадрах смешиваются в их перекрывающихся зонах с тем, чтобы определить параметры пространственного уровня для любого заданного момента времени при синтезировании сигнала.
В предпочтительном варианте воплощения местоположения переходных процессов, определенные с помощью кодера 11 переходных процессов в монофоническом слое 40 (или соответствующим модулем анализа в суммарном сигнале), используются генератором 19 для определения того, требуется ли неравномерное временное сегментирование в слое (слоях) 14 пространственных параметров. Если кодер использует кодер mp3 для генерации монофонического уровня, то присутствие флага переключения окна в монофоническом потоке используется генератором в качестве оценки местоположения переходного процесса.
Как показано на фиг.4, генератор 19 может принимать указание о том, что переходный процесс 44 должен быть закодирован в одном из последовательных кадров монофонического слоя, соответствующего временному окну слоя (слоев) пространственных параметров, для которого он собирается генерировать кадр(ы). Будет видно, что вследствие того что каждый слой пространственных параметров включает в себя кадры, представляющие перекрывающиеся временные сегменты, для любого заданного времени, генератор будет выдавать два кадра на каждый слой пространственных параметров. В любом случае генератор продолжает генерировать пространственные параметры для кадра, представляющего окно 48 меньшей длины вокруг местоположения переходного процесса. Необходимо заметить, что этот кадр будет иметь тот же формат, что и нормальные кадры слоя пространственных параметров, и будет рассчитываться тем же способом за исключением того, что он относится к более короткому временному окну вокруг местоположения 44 переходного процесса. Этот кадр с малой длиной окна обеспечивает увеличенное временное разрешение для многоканального образа. Кадр (кадры), которые сгенерированы до и после кадра окна переходного процесса, затем используются для представления специальных промежуточных окон 47, 49, соединяющих короткое окно 48 переходного процесса и окна 46, представленных нормальными кадрами.
В предпочтительном варианте воплощения кадр, представляющий окно 48 переходного процесса, является дополнительным кадром в битовом потоке 14 слоя пространственного представления, однако из-за того, что переходные процессы имеют место не очень часто, это обеспечивает лишь малое приращение к общей скорости передачи битов. Однако является критичным, что декодер при чтении битового потока, произведенного с использованием предпочтительного варианта воплощения, принимает во внимание этот дополнительный кадр, так как иначе синхронизация монофонического и пространственного представления будет нарушена.
Также в настоящем варианте воплощения подразумевается, что переходные процессы имеют место настолько редко, что только один переходный процесс на всем протяжении окна нормального кадра 46 может быть значимым для представления уровня (уровней) пространственных параметров. Даже если на протяжении нормального кадра будут иметь место два переходных процесса, подразумевается, что неравномерное сегментирование будет иметь место вокруг первого переходного процесса, как показано на фиг.3. Здесь показаны три переходных процесса 44, закодированные в соответствующих монофонических кадрах. Однако скорее второй, чем третий переходный процесс будет использоваться для индикации того, что кадр слоя пространственных параметров, представляющий тот же временной период (показан ниже этих переходных процессов), должен быть использован как первое промежуточное окно, предшествующее окну переходного процесса, полученному из дополнительного кадра слоя пространственных параметров, вставленного кодером, и за ним в свою очередь следует кадр, который представляет второе промежуточное окно.
Однако возможно, что не все местоположения переходных процессов, закодированные в монофоническом слое, будут значимыми для слоя (слоев) пространственных параметров, как в случае с первым переходным процессом 44 на фиг.3. Так, синтаксис битового потока либо для монофонического слоя, либо для пространственного представления может включать в себя индикаторы местоположения переходных процессов, которые значимы или не значимы для слоя пространственного представления.
В предпочтительном варианте воплощения именно генератор 19 осуществляет определение значимости переходного процесса для слоя пространственного представления путем рассмотрения разности между оцененными пространственными параметрами (ILD, ITD и корреляцией (r)), полученными из большего окна (например, 1024 отсчета), которое окружает местоположение 44 переходного процесса, и параметрами, полученными из меньшего окна 48, вокруг упомянутого местоположения переходного процесса. Если имеется значительное изменение между параметрами из короткого и длинного временных интервалов, тогда дополнительные пространственные параметры, оцененные вокруг местоположения переходного процесса, вставляются в дополнительный кадр, представляющий короткое временное окно 48. Если имеется небольшая разница, местоположение переходного процесса не используется в пространственном представлении и, соответственно, в битовый поток включается индикатор.
И, наконец, после генерации монофонического слоя 40 и слоя 14 пространственного представления эти слои записываются в битовый поток 50 мультиплексором 43. Этот аудиопоток 50 в свою очередь направляется, например, на шину данных, на антенную систему, на устройство хранения, и т.п.
Синтез
Как показано на фиг.2, декодер 60 включает в себя демультиплексор 62, который разделяет входной аудиопоток 50 на монофонический слой 40' и, в данном случае, на единственный слой 14' пространственного представления. Монофонический слой 40' считывается известным синтезатором 64, соответствующим кодеру, который сгенерировал слой для предоставления оценки исходного суммарного сигнала 12' во временной области.
Пространственные параметры 14', извлеченные демультиплексором 62, затем применяются модулем 66 последующей обработки к суммарному сигналу 12' для генерации левого и правого выходных сигналов. Модуль последующей обработки, соответствующий предпочтительному варианту воплощения, также считывает информацию монофонического слоя 14' для определения местоположения переходных процессов в этом сигнале. (В качестве альтернативы индикацию такого вида синтезатор 64 мог бы предоставлять модулю последующей обработки; однако это потребовало бы некоторых незначительных доработок в остальном обычного синтезатора 64).
В любом случае, когда модуль последующей обработки обнаруживает переходный процесс 44 внутри кадра 42 монофонического слоя, соответствующего нормальному временному окну кадра слоя (слоев) 14' уровня пространственных параметров, который он собирается обработать, он знает, что этот кадр представляет промежуточное окно 47 перед коротким окном 48 переходного процесса. Модуль последующей обработки знает местоположение во времени переходного процесса 44 и, таким образом, знает длину промежуточного окна 47, предшествующего окну переходного процесса, а также длину промежуточного окна 49 после окна 48 переходного процесса. В предпочтительном варианте воплощения модуль 66 последующей обработки включает в себя модуль 68 смешения, который для первой части окна 47 смешивает параметры для окна 47 с параметрами предыдущего кадра при синтезировании слоя (слоев) пространственного представления. С этого места и до начала окна 48 переходного процесса только параметры кадра, представляющего окно 47, используются в синтезировании слоя (слоев) пространственного представления. Для первой части окна 48 переходного процесса параметры промежуточного окна 47 и окна 48 переходного процесса смешиваются, и для второй части окна 48 переходного процесса параметры промежуточного окна 49 и окна переходного процесса 48 смешиваются, и так далее, до середины промежуточного окна 49, после которой межкадровое смешивание продолжается как нормальное.
Как объяснено выше, пространственные параметры, используемые в любой заданный момент времени, являются либо смесью параметров двух кадров нормального окна 46, либо смесью параметров нормального 46 и промежуточного кадра 47 и 49, либо только параметрами кадра промежуточного окна 47 и 49, либо смесью параметров кадра промежуточного окна 47 и 49 и параметров окна 48 переходного процесса. Используя синтаксис слоя пространственного представления, модуль 68 может выбирать эти переходные процессы, которые указывают на неравномерное временное сегментирование слоя пространственного представления, и эти соответствующие местоположения переходных процессов окна переходных процессов короткой длины обеспечивают лучшую временную локализацию в многоканальном образе.
Для модуля 66 последующей обработки полагается, что представление суммарного сигнала 12' в частотной области, как описано в разделе анализа, доступно для обработки. Это представление может быть получено путем операций применения окна и БПФ в отношении формы сигнала во временной области, сгенерированной синтезатором 64. Затем суммарный сигнал копируется в левый и правый сигнальные тракты. Далее корреляция между левым и правым каналом изменяется с помощью декоррелятора 69' и 69'' с использованием параметра r. Для детального описания того, как это может быть реализовано, приводится ссылка на заявку на Европейский патент, озаглавленную "Signal synthesizing", поданную 12 июля 2002 года, где D.J.Breebaart указан как первый изобретатель (код патентного поверенного PHNL020639). Эта заявка на Европейский патент раскрывает способ синтезирования первого и второго выходного сигналов из входного сигнала, причем этот способ включает в себя этапы, на которых фильтруют входной сигнал для генерации отфильтрованного сигнала, получают корреляционный параметр, получают параметр уровня, служащий показателем желаемого уровня разности между первым и вторым выходным сигналами, и преобразовывают входной сигнал и отфильтрованный сигнал с помощью операции матрицирования в первый и второй выходные сигналы, при этом операция матрицирования зависит от корреляционного параметра и параметра уровня. Далее на соответствующих этапах 70' и 70'', каждый поддиапазон левого сигнала задерживают на время -ITD/2, и правый сигнал задерживают на время ITD/2 при заданном (квантованном) ITD, соответствующем этому поддиапазону. И, наконец, левый и правый поддиапазоны масштабируют согласно ILD для этого поддиапазона на соответствующих этапах 71' и 71''. На соответствующих этапах 72' и 72'' преобразования затем преобразуют выходные сигналы во временную область путем выполнения следующих этапов: (1) введение комплексных сопряженных при отрицательных частотах, (2) выполнение обратного БПФ, (3) применение окна, и (4) выполнение алгоритма перекрытия с суммированием.
Предпочтительные варианты воплощения декодера и кодера были описаны в терминах получения монофонического сигнала, который является комбинацией двух сигналов - главным образом в случае, когда в декодере используется монофонический сигнал. Однако должно быть видно, что изобретение не ограничивается этими вариантами воплощения, и монофонический сигнал может соответствовать единственному входному и/или выходному каналу со слоем (слоями) пространственных параметров, применяемым к соответствующим копиям этого канала для получения дополнительных каналов.
Необходимо отметить, что настоящее изобретение может быть реализовано на специализированных аппаратных средствах, в программном обеспечении, выполняющемся на DSP (цифровом процессоре сигналов) или на компьютере общего назначения. Настоящее изобретение может быть воплощено на материальном носителе, таком как ПЗУ на компакт-диске (CD-ROM) или ПЗУ на цифровом многофункциональном диске (DVD-ROM), являющемся носителем машиноисполняемой программы для выполнения способа кодирования в соответствии с изобретением. Изобретение также может быть воплощено в виде сигнала, предаваемого по сети данных, такой как Интернет, или в виде сигнала, передаваемого широковещательной службой. Изобретение может найти конкретное применение в областях загрузки из Интернета, Интернет-радио, твердотельных аудиоустройствах (без механических деталей) (Solid State Audio (SSA)), схемах расширения полосы пропускания, например, mp3PRO, СТ-aacPlus (см. www.codingtechnologies.com) и в большинстве других схем аудиокодирования.
Класс H04S3/00 Системы с более, чем двумя каналами, например квадрафонические