способ определения вида кодирования, который следует выбирать для кодирования по меньшей мере двух сигналов
Классы МПК: | |
Автор(ы): | Юрген Херре (DE), Бернхард Грилл (DE), Эрнст Эберлайн (DE), Карлхайнц Бранденбург (DE), Дитер Зайтцер (DE) |
Патентообладатель(и): | Фраунхофер-Гезельшафт цур Фердерунг дер Ангевандтен Форшунг Е.В. (DE) |
Приоритеты: |
подача заявки:
1994-07-08 публикация патента:
27.12.1998 |
При кодировании нескольких сигналов (k1 k2), которые не являются независимыми друг от друга, выбор пригодного вида кодирования зависит от степени подобия. Согласно одному аспекту изобретения степень подобия определяется таким образом, что один из сигналов (k1, k2) сначала кодируется, а затем декодируется по способу "Интенсити-стерео" для того, чтобы создать содержащий ошибку кодирования сигнал (k1, k2), после чего этот и принадлежащий ему некодированный сигнал преобразуются в частотную область. В частотной области производится отбор или оценка фактически слышимых спектральных компонентов как содержащего ошибку кодирования сигнала (k1, k2), так и принадлежащего ему не содержащего ошибку кодирования сигнала (k1, k2) с применением прослушивательного порога, который найден путем психоакустического расчета. При высокой степени подобия производится кодирование методом "Интенсити-стерео", а в остальных случаях осуществляется раздельное кодирование каналов. Технический результат заключается в повышении качества кодированных данных и достижении уплотнения данных. 3 с. и 6 з.п.ф-лы, 7 ил.
Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5, Рисунок 6, Рисунок 7, Рисунок 8
Формула изобретения
1. Способ определения вида кодирования, который следует выбирать при кодировании по меньшей мере двух сигналов (k1, k2), при котором производят преобразование сигналов в частотную область и исходя из спектральных значений, вычисляют степень подобия, на основании которой выбирают один из по меньшей мере двух видов кодирования, отличающийся тем, что по меньшей мере один из сигналов (k1, k2) кодируют, а затем декодируют при помощи того вида кодирования, который применяют в случае выявления высокой степени подобия, для образования по меньшей мере одного содержащего ошибку кодирования сигнала (ki1, ki2); содержащий ошибку кодирования сигнал (ki1, ki2) и принадлежащий ему не содержащий ошибку кодирования сигнал (k1, k2) преобразуют в частотную область; выбор или оценку каждый раз фактически слышимых спектральных компонентов производят исходя как из спектральных значений содержащего ошибку кодирования сигнала, так и из спектральных значений принадлежащего ему не содержащего ошибку кодирования сигнала с применением прослушивательного порога, найденного путем психоакустического расчета; степень подобия вычисляют на основании отобранных или оцененных таким образом слышимых спектральных компонентов по меньшей мере содержащего ошибку кодирования сигнала и принадлежащего ему сигнала, не содержащего ошибку кодирования. 2. Способ определения вида кодирования, который следует выбирать при кодировании по меньшей мере двух сигналов (k1, k2), при котором производят преобразование сигналов в частотную область и исходя из спектральных значений вычисляют степень подобия, на основании которой выбирают один из по меньшей мере двух видов кодирования, отличающийся тем, что по меньшей мере один из сигналов (k1, k2) после его преобразования в частотную область кодируют, а затем декодируют при помощи того вида кодирования, который применяют в случае выявления высокой степени подобия, для образования по меньшей мере одного содержащего ошибку кодирования сигнала (k1, k2); выбор или оценку каждый раз фактически слышимых спектральных компонентов производят исходя как из спектральных значений содержащего ошибку кодирования сигнала, так и из спектральных значений принадлежащего ему не содержащего ошибку кодирования сигнала с применением прослушивательного порога, найденного путем психоакустического расчета; степень подобия вычисляют на основании отобранных или оцененных таким образом слышимых спектральных компонентов по меньшей мере содержащего ошибку кодирования сигнала и принадлежащего ему сигнала, не содержащего ошибку кодирования. 3. Способ определения вида кодирования, который следует выбирать при кодировании по меньшей мере двух сигналов (k1, k2), при котором производят преобразование по меньшей мере двух сигналов в частотную область и исходя из спектральных значений вычисляют степень подобия этих сигналов друг относительно друга, на основании которой выбирают один из по меньшей мере двух видов кодирования, отличающийся тем, что исходя из спектральных значений конкретного сигнала (k1, k2) производят выбор или оценку каждый раз фактически слышимых спектральных компонентов с применением прослушивательного порога, найденного путем психоакустического расчета; степень подобия вычисляют на основании отобранных или оцененных таким образом слышимых спектральных компонентов по меньшей мере двух (k1, k2) сигналов для выбора вида кодирования. 4. Способ по одному из пп.1 - 3, отличающийся тем, что для отбора и оценки фактически слышимых спектральных компонентов каждого сигнала (k1, k2) сначала определяют значения кратковременной энергии внутри тех частотных областей, которые выбраны в зависимости от ширины частотных групп, из этих значений кратковременной энергии отбирают или оценивают слышимые значения энергии путем сравнения с расчетным прослушивательным порогом. 5. Способ по п.4, отличающийся тем, что значения кратковременной энергии определяют в пределах периода времени, который в соответствии с разрешающей способностью по времени человеческого уха для данной частотной области уменьшается с увеличением ширины частотной группы. 6. Способ по п. 4 или 5, отличающийся тем, что для отбора или оценки фактически слышимых спектральных значений к отобранным или оцененным спектральным компонентам применяют функцию, описывающую нелинейность человеческого внутреннего уха. 7. Способ по п.6, отличающийся тем, что функция для описания нелинейности человеческого уха имеет вид (x

Описание изобретения к патенту
Изобретение относится к способу определения того вида кодирования, который следует выбирать для кодирования по меньшей мере двух сигналов, при котором каждый сигнал преобразуется в частотную область и, исходя из спектральных значений, вычисляется степень подобия для по меньшей мере двух сигналов друг относительно друга согласно ограничительной части пунктов 1 и 2 формулы изобретения. В частности, изобретение относится к оптимизированному выбору кодирования двух или нескольких сигналов, из которых по меньшей мере два не являются независимыми друг от друга, а содержат по меньшей мере частично избыточную или несущественную информацию. Вообще при данном способе уплотненного кодирования цифровых аудиосигналов сигналы преобразуются из области времени сначала в частотную область. Если речь идет о сигналах, которые не являются независимыми друг от друга, то обычно используется уплотненное кодирования, которое учитывает избыточность между обоими или несколькими сигналами. Кодирование такого рода известно под названием "средне-бокового" кодирования (J.D.Johnston, "Perceptual" Transform Coding of Wideband Stereo Signal, ICASPP, 1989, p. 1993-1996). При таком "средне-боковом" кодировании на базе левого и правого каналов кодируется, с одной стороны, сумма или середина, а с другой стороны, разность или разнобокость стереосигнала. Другим применяемым в настоящее время способом кодирования является метод "Интенсити-стерео", который описан в публикации "Subband Coding of Stertophone Digital Audio Signal" Proc. of the ICASPP, 1991, IEEE, Toronto. p. 3601-3604. При этом методе на базе обоих сигналов образуется моносигнал и с дополнительной информацией передается через лево-правое распределение сигнала. Уже в германском патенте DE 4136825 C1 указано, что при таком способе могут возникнуть сильные искажения, если сигналы имеют лишь сравнительно малое сходство или почти полностью независимы друг от друга. Так, например, известно, что сильно различающийся состав сигналов в левом и правом каналах при "средне-боковом" кодировании приводит к искажениям, которые нельзя подавить фактически имеющимся в канале сигналом. При применении метода "Интенсити-стерео" может произойти разрушение пространственного звучания, если левый и правый каналы имеют заметно различающиеся между собой спектральные значения. Для того, чтобы решить эту проблему, в этом патенте предлагается на базе спектральных значений сигналов, преобразованных в частотную область, определить степень подобия, на основании которой производится переключение от одного вида кодирования к другому. Если спектральные значения характеризуются высокой степенью подобия, то при описанном там способе применяется "средне-боковое" кодирование, тогда как в случае малой степени подобия и следовательно при малом спектральном подобии рассматриваемых каналов производится раздельное кодирование каналов. Также из этого патента известно вычисление на базе кодируемых сигналов психоакустический модели маскировочного порога, при помощи которого подается команда в ступень уплотнения данных, расположенную после ступени "средне-бокового" кодирования и приводящую к уплотнению данных с учетом маскировки. В патенте DE 4136825 C1 в пункте 3 формулы изобретения, ссылающемся непосредственно на пункт 8, указано лишь, при определении спектрального значения, приводимого к нулю, надо применять маскировочный порог. Хотя при помощи способа, известного из германского патента 4136825, уже достигается заметное повышение качества по сравнению с неизменным способом "средне-бокового" кодирования, а также неизменным методом "Интенсити-стерео", желательным является дальнейшее повышение качества передаваемых данных при дальнейшем уплотнении скорости передачи данных. Исходя из этого состояния техники, в основу изобретения положена задача усовершенствовать способ определения того способа кодирования, который следует выбирать при кодировании по меньшей мере двух сигналов таким образом, чтобы при повышении качества кодированных данных или повышении качества сигналов, декодированных на базе этих данных, достигнуть дальнейшего уплотнения данных. Эта задача решается способом согласно пп. 1, 2 и 3 формулы изобретения. Согласно первому аспекту изобретения производится не только частотное преобразование обоих сигналов, кодируемых по одному из двух видов кодирования для образования соответствующих спектральных значений, но одновременно по меньшей мере один из сигналов подвергается такому виду кодирования, который применяется в случае выявления высокой степени подобия, и затем опять декодируется для того, чтобы создать по меньшей мере один содержащий ошибки кодирования сигнал, который затем тоже преобразуется в частотную область. После этого при помощи прослушивательного порога, определенного путем психоакустического расчета, отбираются или оцениваются конкретные фактически слышимые спектральные компоненты, исходя как из спектральных значений сигнала, содержащего ошибки кодирования, так и из спектральных значений сигнала, принадлежащего к этому содержащему ошибки кодирования сигналу. В заключение степень подобия, на основании которой выбирается один из по меньшей мере двух видов кодирования, рассчитывается на основании отобранных таким образом слышимых спектральных компонентов по меньшей мере сигнала, содержащего ошибку кодирования, и принадлежащего ему сигнала. Согласно второму аспекту изобретения производится не только частотное преобразование обоих сигналов, кодируемых по одному из двух видов кодирования, для образования соответствующих спектральных значений, но одновременно по меньшей мере один из сигналов после преобразования в частотную область подвергается такому виду кодирования, который применяется в случае выявления высокой степени подобия, и после этого снова декодируется для того, чтобы создать по меньшей мере один содержащий ошибку кодирования сигнал. Затем при помощи прослушивательного порога, определенного путем психоакустического расчета, отбираются или оцениваются конкретные фактически слышимые спектральные компоненты, исходя как из спектральных значений содержащего ошибку кодирования сигнала, так и из спектральных значений сигнала, принадлежащего к этому содержащему ошибки кодирования сигналу. В заключение степень подобия, на основании которой выбирается один из по меньшей мере двух видов кодирования, вычисляется на основании отобранных или оцененных таким образом слышимых спектральных компонентов по меньшей мере сигнала, содержащего ошибку кодирования, и принадлежащего ему сигнала. Тем самым изобретение в отличие от состояния техники использует психоакустическую оценку спектральных компонентов как некоторого сигнала, так и спектральных компонентов соответствующего сигнала, содержащего ошибку кодирования, которая возникает при виде кодирования, уплотняющем данные, для того, чтобы осуществить выбор одного из по меньшей мере двух видов кодирования. Согласно третьему аспекту изобретения, исходя из спектральных значений двух сигналов, которые соответствуют, например, двум различным каналам, производится отбор или оценка фактически слышимых спектральных компонентов с применением прослушивательного порога, определенного путем психоакустического расчета, после чего степень подобия, с помощью которой выбирается один из по меньшей мере двух видов кодирования, вычисляется на основании выбранных или оцененных таким образом слышимых спектральных компонентов по меньшей мере двух сигналов. Этот признак изобретения тоже в отличие от состояния техники использует найденный путем психоакустического расчета прослушивательный порог не для уплотнения данных кодированного сигнала или по меньшей мере не только для такого уплотнения, а для определения степени подобия, при помощи которой производится выбор вида кодирования. Эта концепция, которая является общей для трех аспектов изобретения, выражает ясное отличие от существующего состояния техники и позволяет выбирать вид кодирования с психоакустических точек зрения. Предпочтительные дальнейшие признаки патентуемого способа изложены в дополнительных пунктах формулы изобретения. Ниже со ссылками на прилагаемые чертежи подробнее объяснены предпочтительные примеры исполнения аппаратуры для осуществления способов согласно данному изобретению. На фиг. 1а представлен первый пример исполнения аппаратуры для осуществления основных частей способа определения того вида кодирования, который следует выбирать;на фиг. 1б - второй, лишь незначительно отличающийся от первого, пример исполнения аппаратуры для осуществления основных частей способа определения того вида кодирования, который следует выбирать;
на фиг. 2 -третий пример исполнения аппаратуры для осуществления основных частей патентуемого способа определения того вида кодирования, который следует выбирать;
на фиг. 3 - блок-схема аппаратуры для определения степени подобия на основании выходных сигналов аппаратуры согласно фиг. 1;
на фиг. 4 - блок-схема аппаратуры для определения степени подобия на основании выходных сигналов аппаратуры согласно фиг. 2;
на фиг 5 - отличающаяся от фиг. 3 блок-схема аппаратуры для определения степени подобия на основании выходных сигналов аппаратуры согласно фиг. 1;
на фиг. 6 - блок-схема для наглядного изображения структуры двух первых блоков для каждого сигнала в аппаратуре согласно фиг. 1 и 2 для осуществления преобразования "время-частота" и определения кратковременной энергии;
на фиг. 7 - таблица для более наглядного отображения функций и структуры гибридного или полифазного фильтровального банка для осуществления преобразования, приспособленного к характеристике человеческого слуха с неодинаковой разрешающей способностью по времени и частоте. На фиг. 1а показана блок-схема аппаратуры для осуществления основных частей способа согласно первому аспекту изобретения для определения того вида кодирования, который следует выбирать. Показанный здесь пример исполнения пригоден для управления переключением от раздельного кодирования двух стереоканалов k1 и k2 к кодированию по методу "Интенсити-стерео", который описан в публикации, указанной ранее. Здесь следует, однако, отметить, что способ согласно данному изобретению пригоден не только для выбора раздельного кодирования двух стереоканалов k1, k2 или кодирования по методу "Интенсити-стерео", но и для выбора вида кодирования по меньшей мере двух любых видов кодирования, из которых один лучше пригоден по сравнению с невыбранным другим способом для кодирования сигналов, обладающих определенным подобием, благодаря чему достигается более высокое уплотнение битов. Применение способа согласно данному изобретению, как оно в дальнейшем объяснено в подробностях, ограничивается не только кодированием стереосигналов, например, согласно ISO/MPEG, Layer 1-3, но, например, и для мультиканального кодирования, как оно, например, может быть осуществлено согласно MPEG 2. Как показано на фиг. 1а, изображенная аппаратура содержит четыре ветви обработки сигналов z1, z2, z3, z4, каждая из которых содержит три совпадающих блока b1, b2, b3. Блок b1 служит для преобразования "время-частота" на выходной стороне дискретного сигнала времени k1, k2, ki1, ki2. Здесь имеются в виду любые известные способы частотного преобразования для превращения на входной стороне аудиоданных из области времени в частотную или спектральную область. Речь идет о таких, например, способах, как FFT, DCT, MDCT и применении полифазного фильтровального банка или гибридного фильтровального банка. Однако, как будет подробнее показано ниже, изобретение предпочтительно пользуется способом преобразования с неодинаковой разрешающей способностью по времени и частоте, которая приспособлена к характеристике человеческого слуха. При таких способах, которые сами по себе известны в области психоакустики, только нижние частотные группы имеют совпадающую частоту, а начиная с определенной частоты ширина частотных групп возрастает, как это подробнее показано в таблице на фиг. 7. В соответствии с границей Хейзенберга 0,5 для произведения ширины частотной группы на разрешающую способность последняя с увеличением ширины частотной группы уменьшается. Во втором блоке b2 полученные в результате преобразования спектральные значения превращаются, например, путем квадрирования и суммирования по соответствующим периодам времени в значения кратковременной энергии для отдельных частотных групповых полос. Полученные таким образом значения кратковременной энергии для отдельных широт частотных групп отбираются или оцениваются в третьем блоке b3 с применением прослушивательного порога, который получен из психоакустического расчета для данного сигнала, для того, чтобы из реальных значений энергии извлечь только фактически слышимые компоненты, учитывая психоакустический маскировочный эффект. В блоке b3 можно, хотя это для целей изобретения не является обязательным, осуществить далее внутреннее или дальнейшее отображение для моделирования человеческого внутреннего уха, которое описывает нелинейности человеческого внутреннего уха. Для этого можно, например, применить функции типа (x


John G. Beerends, Jan A. Stemerdink: "A. Perceptual Audio Quality Measure based on a psychoacoustic Sound representation", J.Audio Eng. Soc., Bd. 40, Nr 12, Dezember 1992. E. Zwicker, H. Fastl: "Psychoacoustics", Springer Verlag Berlin Heidelberg, 1990, Kap. 8.7.1" Specific Loudess. Надписи на фигурах
Фиг. 1а. 1 - кодирование
2 - декодирование
3 - кратковременная энергия
4 - прослушивательный порог
5 - взвешивание по слышимости и внутреннее изображение
Фиг. 1б
1 - кодирование
2 - декодирование
3 - кратковременная энергия
4 - прослушивательный порог
5 - взвешивание по слышимости и внутреннее изображение
Фиг. 2
1 - кратковременная энергия
2 - прослушивательный порог
3 - взвешивание по слышимости и внутреннее изображение
Фиг. 4
1 - степень подобия
Фиг. 5
1 - блок
2 - числитель
3 - знаменатель
Фиг. 6
1 - полифазный фильтровальный банк
2 - суммирование значений кратковременной энергии для каждой полосы с коэффициентом масштабирования (в стоп-стартовых) полифазных полосах и последовательных (SUM-LENGTH) значений
Фиг. 7
1 - анализ t/f с высокой разрешающей способностью при помощи гибридного полифазного фильтровального банка
2 - гибрид
3 - линия
4 - пуск
5 - частота пуска
6 - частота останова
7 - ширина полосы
8 - полуфазная реализация
9 - пуск "поли-полосы"
10 - стоп "поли-полосы"
11 - суммарная длина
12 - анализ t/fц