усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
Классы МПК: | H04S1/00 Двухканальные системы |
Автор(ы): | ПУРНХАГЕН Хейко (SE), КАРЛЬССОН Понтус (SE), КЬЁРЛИНГ Кристофер (SE) |
Патентообладатель(и): | ДОЛБИ ИНТЕРНЕШНЛ АБ (NL) |
Приоритеты: |
подача заявки:
2010-03-05 публикация патента:
20.06.2014 |
Изобретение относится к средствам кодирования и декодирования звуковых сигналов. Технический результат заключается в повышении качества кодирования сигнала. Генерируют низведенный сигнал и остаточный сигнал на основе стереофонического сигнала. Определяют разность интенсивностей между каналами и взаимную корреляцию между каналами. Предпочтительно, параметры параметрического стереофонического кодирования являются зависящими от времени и от частоты. Этап преобразования генерирует псевдолевый/правый стереофонический сигнал путем выполнения преобразования на основе низведенного сигнала и остаточного сигнала. Псевдостереофонический сигнал обрабатывается перцептуальным стереофоническим кодером. Для стереофонического кодирования может быть выбрано левое/правое кодирование или среднее/побочное кодирование. Предпочтительно, выбор между левым/правым кодированием и средним/побочным кодированием является зависящим от времени и от частоты. 8 н.з. и 58 з.п. ф-лы, 26 ил.
Формула изобретения
1. Система кодера, сконфигурированная для кодирования стереофонического сигнала в сигнал (6) битового потока, где система кодера включает:
- средства (8) понижающего микширования, сконфигурированные для генерирования низведенного сигнала и остаточного сигнала на основе стереофонического сигнала;
- средства (9) определения параметров, сконфигурированные для определения одного или нескольких параметров (5) параметрического стереофонического кодирования;
- средства (2, 3) перцептуального кодирования в нисходящем направлении относительно средств (8) понижающего микширования, где средства (2, 3) перцептуального кодирования сконфигурированы для выбора
- кодирования на основе суммы низведенного сигнала и остаточного сигнала и на основе разности низведенного сигнала и остаточного сигнала, или
- кодирования на основе низведенного сигнала и на основе остаточного сигнала,
зависящим от частоты, или не зависящим от частоты, образом.
2. Система кодера по п.1, отличающаяся тем, что средства (2, 3) перцептуального кодирования включают:
- средства (2) преобразования, сконфигурированные для выполнения преобразования на основе низведенного сигнала и остаточного сигнала, таким образом, генерирующие псевдолевый/правый стереофонический сигнал; и
- перцептуальный кодер (3, 48), сконфигурированный для кодирования псевдолевого/правого стереофонического сигнала, где перцептуальный кодер (3, 48) сконфигурирован для выбора
- перцептуального правого/левого кодирования, или
- перцептуального среднего/побочного кодирования,
зависящим от частоты, или не зависящим от частоты, образом.
3. Система кодера по п.1, отличающаяся тем, что средства (2, 3) перцептуального кодирования включают:
- средства (2) преобразования, сконфигурированные для выполнения преобразования в сумму и разность на основе низведенного сигнала и остаточного сигнала с целью генерирования псевдолевого/правого стереофонического сигнала для одной или нескольких, или всех используемых частотных полос.
4. Система кодера по п.3, отличающаяся тем, что
- средства (2, 3) перцептуального кодирования включают средства принятия решения, сконфигурированные для принятия решения о выборе между перцептуальным L/R-кодированием и перцептуальным M/S-кодированием зависящим от частоты, или не зависящим от частоты, образом;
- кодирование на основе низведенного сигнала и остаточного сигнала выбирается тогда, когда средства принятия решения принимают решение о перцептуальном M/S-декодировании, и
- кодирование на основе суммы и разности выбирается тогда, когда средства принятия решения принимают решение о перцептуальном L/R-декодировании.
5. Система кодера по п.2, отличающаяся тем, что перцептуальный кодер (3) сконфигурирован для принятия решения о выборе между
- левым/правым кодированием, или
- средним/побочным кодированием,
зависящим от частоты, или не зависящим от частоты, образом на основе псевдостереофонического сигнала.
6. Система кодера по одному из предыдущих пунктов, отличающаяся тем, что система кодера сконфигурирована для выбора зависящим от частоты, или не зависящим от частоты, образом между
- параметрическим стереофоническим кодированием стереофонического сигнала в сигнал (6) битового потока, или
- левым/правым кодированием стереофонического сигнала в сигнал (6) битового потока.
7. Система кодера по одному из пп.2 или 5, отличающаяся тем, что перцептуальный кодер (3, 48) сконфигурирован для выполнения преобразования (98) левого/правого сигнала в средний/побочный сигнал на основе псевдостереофонического сигнала.
8. Система кодера по п.7, где параметры (5) параметрического стереофонического кодирования включают
- зависящий от частоты, или не зависящий от частоты, параметр, указывающий на разность интенсивностей между каналами, и
- зависящий от частоты, или не зависящий от частоты, параметр, указывающий на взаимную корреляцию между каналами.
9. Система кодера по п.7, отличающаяся тем, что псевдостереофонический сигнал пропорционален стереофоническому сигналу для некоторой полосы частот, если для этой полосы частот левый и правый каналы стереофонического сигнала независимы и имеют одинаковый уровень.
10. Система кодера по п.7, отличающаяся тем, что
- первый канал псевдостереофонического сигнала пропорционален сумме низведенного и остаточного сигналов; и
- второй канал псевдостереофонического сигнала пропорционален разности низведенного и остаточного сигналов.
11. Система кодера по п.10, отличающаяся тем, что средства (3) перцептуального кодирования включают стереофонический кодер (48) на базе ААС.
12. Система кодера по п.11, отличающаяся тем, что средства (3) перцептуального кодирования включают механизм психоакустического управления, и механизм психоакустического управления имеет доступ
- к одному или нескольким параметрам параметрического стереофонического кодирования, и/или
- к стереофоническому сигналу.
13. Система кодера по п.12, отличающаяся тем, что система кодера сконфигурирована для выбора зависящим от частоты, или не зависящим от частоты, образом между
- параметрическим стереофоническим кодированием стереофонического сигнала в сигнал (6) битового потока, или
- левым/правым кодированием стереофонического сигнала в сигнал (6) битового потока,
где система кодера дополнительно включает средства деактивации, сконфигурированные для эффективной деактивации параметрического стереофонического кодирования зависящим от частоты, или не зависящим от частоты, образом.
14. Система кодера по п.13, отличающаяся тем, что средства деактивации сконфигурированы для приема значений параметров параметрического стереофонического кодирования от средств определения параметров, и средства деактивации сконфигурированы для отправки - с целью эффективной деактивации параметрического стереофонического кодирования - модифицированных параметров параметрического стереофонического кодирования к средствам понижающего микширования.
15. Система кодера по п.14, отличающаяся тем, что модифицированные значения параметров параметрического стереофонического кодирования включают:
- значение разности интенсивностей между каналами, равное, приблизительно, 0 дБ, и
- значение взаимной корреляции между каналами, равное, приблизительно, 0.
16. Система кодера по п.15, отличающаяся тем, что система кодера дополнительно включает SBR-кодер (32).
17. Система кодера по п.16, отличающаяся тем, что SBR-кодер (32) присоединяется в восходящем направлении относительно средств (8) понижающего микширования.
18. Система кодера по п.17, отличающаяся тем, что средства (8) понижающего микширования и средства (9) определения параметров сконфигурированы для выполнения операций в передискретизированной частотной области.
19. Система кодера по п.18, отличающаяся тем, что перцептуальное кодирование в средствах (3) перцептуального кодирования проводится в области критически дискретизированного MDCT.
20. Система кодера по п.10, отличающаяся тем, что средства (2) преобразования сконфигурированы для проведения преобразования во временной области.
21. Система кодера по п.10, отличающаяся тем, что средства (2) преобразования сконфигурированы для проведения преобразования в передискретизированной частотной области.
22. Система кодера по п.10, отличающаяся тем, что средства (2) преобразования сконфигурированы для проведения преобразования в области критически дискретизированного MDCT.
23. Система кодера по п.10, отличающаяся тем, что система кодера включает - в дополнение к перцептуальному кодеру (3, 48) - второй кодер (71) на основе анализа линейного предсказания, и система кодера сконфигурирована так, чтобы в первом режиме для кодирования использовался перцептуальный кодер (3, 48), а во втором режиме для кодирования использовался второй кодер (71).
24. Система кодера по п.23, отличающаяся тем, что система кодера сконфигурирована так, чтобы второй кодер (71) кодировал сигнал в восходящем направлении относительно средств (2) преобразования.
25. Система кодера по п.24, отличающаяся тем, что система кодера дополнительно включает средства (80) регулирования фазы, сконфигурированные для регулирования фазы стереофонического сигнала, в восходящем направлении относительно средств (8) понижающего микширования.
26. Система кодера по одному из пп.1-5 и 8-25, отличающаяся тем, что
- кодирование, на основе суммы низведенного сигнала и остаточного сигнала и на разности низведенного сигнала и остаточного сигнала,
или
- кодирование, на основе низведенного сигнала и на основе остаточного сигнала, выбрано зависящим от частоты, или не зависящим от частоты, образом.
27. Система кодера по п.16, отличающаяся тем, что система кодера выполняет операции
- в первой конфигурации, где SBR-кодер (32) располагается в нисходящем направлении относительно средств (8) понижающего микширования, и
- во второй конфигурации, где SBR-кодер (32) располагается в восходящем направлении относительно средств (8) понижающего микширования.
28. Система кодера по п.27, отличающаяся тем, что система кодера сконфигурирована для выбора первой конфигурации или второй конфигурации в зависимости от желательной целевой битовой скорости передачи данных и/или одного или нескольких других критериев.
29. Система кодера по п.28, отличающаяся тем, что система кодера дополнительно сконфигурирована для передачи в сигнале (6) битового потока сигнала об использованной одной из двух конфигураций.
30. Система кодера по п.29, отличающаяся тем, что система кодера сконфигурирована для обеспечения
- специализированного бита или поля, или
- индекса, указывающего на конкретную запись в таблице, определяющей различные конфигурации декодера,
в заголовке битового потока сигнала (6) битового потока для передачи сигнала об используемой одной из двух конфигураций.
31. Система кодера, сконфигурированная для кодирования стереофонического сигнала в сигнал (6) битового потока, где система кодера включает:
- средства (8) понижающего микширования, сконфигурированные для генерирования низведенного сигнала и остаточного сигнала на основе стереофонического сигнала;
- средства (9) определения параметров, сконфигурированные для определения одного или нескольких параметров параметрического стереофонического кодирования;
- средства (2) преобразования, сконфигурированные для выполнения преобразования на основе низведенного сигнала и остаточного сигнала, таким образом, генерирующие псевдолевый/правый стереофонический сигнал; и
- перцептуальный стереофонический кодер (3), сконфигурированный для кодирования псевдолевого/правого стереофонического сигнала, где перцептуальный стереофонический кодер (3) сконфигурирован для выбора
- перцептуального правого/левого кодирования, или
- перцептуального среднего/побочного кодирования,
зависящим от частоты, или не зависящим от частоты, образом.
32. Система декодера, сконфигурированная для декодирования сигнала битового потока, включающего один или несколько параметров (5) параметрического стереофонического кодирования, в стереофонический сигнал, где система декодера включает:
- средства (11, 12) перцептуального декодирования, сконфигурированные для декодирования на основе сигнала (6) битового потока, где средства (11, 12) декодирования сконфигурированы для генерирования посредством декодирования первого сигнала и второго сигнала и для вывода низведенного сигнала и остаточного сигнала, где средства (11, 12) декодирования сконфигурированы для выбора низведенного сигнала и остаточного сигнала
- на основе суммы первого сигнала и второго сигнала и на основе разности первого сигнала и второго сигнала, или
- на основе первого сигнала и на основе второго сигнала,
зависящим от частоты, или не зависящим от частоты, образом; и
- средства (13) повышающего микширования, сконфигурированные для генерирования стереофонического сигнала на основе низведенного сигнала и остаточного сигнала, где операция повышающего микширования средствами повышающего микширования зависит от одного или нескольких параметров (5) параметрического стереофонического кодирования.
33. Система декодера по п.32, отличающаяся тем, что средства (11, 12) перцептуального стереофонического декодирования включают:
- перцептуальный стереофонический декодер (11), сконфигурированный для декодирования на основе сигнала (6) битового потока, где декодер генерирует псевдостереофонический сигнал, и декодер сконфигурирован для селективного выполнения
- перцептуального левого/правого декодирования, или
- перцептуального среднего/побочного декодирования,
зависящим от частоты, или не зависящим от частоты, образом; и
- средства (12) преобразования, сконфигурированные для выполнения преобразования на основе псевдостереофонического сигнала, таким образом, генерирующие низведенный сигнал и остаточный сигнал.
34. Система декодера по п.33, где средства (11, 12) перцептуального декодирования включают:
- средства (12) преобразования, сконфигурированные для выполнения преобразования в сумму и разность на основе первого сигнала и второго сигнала для одной или нескольких, или всех используемых частотных полос.
35. Система декодера по п.34, отличающаяся тем, что
- средства (11, 12) перцептуального декодирования включают селектор, сконфигурированный для выбора между перцептуальным L/R-декодированием и перцептуальным M/S-декодированием зависящим от частоты, или не зависящим от частоты, образом;
- низведенный сигнал и остаточный сигнал выбирают так, чтобы они базировались на сумме первого сигнала и второго сигнала и на разности первого сигнала и второго сигнала тогда, когда селектор делает выбор в пользу перцептуального L/R-декодирования, и
- низведенный сигнал и остаточный сигнал выбирают так, чтобы они базировались на первом сигнале и на втором сигнале тогда, когда селектор делает выбор в пользу перцептуального M/S-декодирования.
36. Система декодера по п.35, отличающаяся тем, что система декодера сконфигурирована для переключения зависящим от частоты, или не зависящим от частоты, образом между
- параметрическим стереофоническим декодированием сигнала битового потока в стереофонический сигнал, или
- левым/правым декодированием сигнала битового потока в стереофонический сигнал.
37. Система декодера по п.36, отличающаяся тем, что перцептуальный декодер сконфигурирован для выполнения преобразования (105) среднего/побочного сигнала в левый/правый сигнал на основе декодированного псевдосреднего/побочного сигнала.
38. Система декодера по п.37, отличающаяся тем, что параметры (5) параметрического стереофонического кодирования включают
- зависящий от частоты, или не зависящий от частоты, параметр, указывающий на разность интенсивностей между каналами, и
- зависящий от частоты, или не зависящий от частоты, параметр, указывающий на взаимную корреляцию между каналами.
39. Система декодера по п.35, отличающаяся тем, что входной сигнал средств (12) преобразования пропорционален стереофоническому сигналу для некоторой полосы частот, если для этой полосы частот левый и правый каналы стереофонического сигнала независимы и имеют одинаковый уровень.
40. Система декодера по п.33, отличающаяся тем, что
- низведенный сигнал пропорционален сумме двух каналов псевдостереофонического сигнала; и
- остаточный сигнал пропорционален разности двух каналов псевдостереофонического сигнала.
41. Система декодера по п.40, отличающаяся тем, что средства перцептуального декодирования включают декодер на базе ААС.
42. Система декодера по п.41, отличающаяся тем, что в случае, если для некоторой полосы частот левый канал стереофонического сигнала и правый канал стереофонического сигнала независимы и имеют одинаковый уровень, то операция повышающего микширования может быть описана в соответствии со следующим уравнением:
, где ,
где L обозначает составляющую частотной полосы левого канала стереофонического сигнала, R обозначает составляющую частотной полосы правого канала стереофонического сигнала, DMX обозначает составляющую частотной полосы низведенного сигнала, RES обозначает составляющую частотной полосы остаточного сигнала и c - некоторый коэффициент.
43. Система декодера по п.42, отличающаяся тем, что система декодера дополнительно включает SBR-декодер.
44. Система декодера по п.43, отличающаяся тем, что SBR-декодер располагается в нисходящем направлении относительно средств (13) повышающего микширования.
45. Система декодера по п.44, отличающаяся тем, что средства (13) повышающего микширования сконфигурированы для выполнения операций в передискретизированной частотной области.
46. Система декодера по п.40, отличающаяся тем, что средства (12) преобразования сконфигурированы для проведения преобразования во временной области.
47. Система декодера по п.40, отличающаяся тем, что средства (12) преобразования сконфигурированы для проведения преобразования в передискретизированной частотной области.
48. Система декодера по п.43, отличающаяся тем, что система декодера выполняет операции
- в первой конфигурации, где SBR-декодер располагается в восходящем направлении относительно средств (13) повышающего микширования, и
- во второй конфигурации, где SBR-декодер располагается в нисходящем направлении относительно средств (13) повышающего микширования.
49. Система декодера по п.48, отличающаяся тем, что система декодера сконфигурирована для выбора первой конфигурации, или второй конфигурации, на основе информации в сигнале (6) битового потока.
50. Система декодера по п.49, отличающаяся тем, что система декодера сконфигурирована для выбора первой конфигурации, или второй конфигурации, на основе специализированного элемента в заголовке битового потока сигнала (6) битового потока.
51. Система декодера по п.50, отличающаяся тем, что специализированный элемент представляет собой
- специализированный бит, или поле, или
- индекс, указывающий на конкретную запись в таблице, определяющей различные конфигурации декодера.
52. Система декодера по п.51, отличающаяся тем, что указанная информация в сигнале (6) битового потока указывает на то, сконфигурирован SBR-декодер для выполнения монофонических операций или стереофонических операций.
53. Система декодера, сконфигурированная для декодирования сигнала (6) битового потока, включающего один или несколько параметров параметрического стереофонического кодирования, в стереофонический сигнал, где система декодера включает:
- перцептуальный стереофонический декодер (11), сконфигурированный для декодирования на основе сигнала (6) битового потока, где декодер генерирует псевдостереофонический сигнал, и где декодер сконфигурирован для селективного выполнения
- перцептуального левого/правого декодирования, или
- перцептуального среднего/побочного декодирования,
зависящим от частоты, или не зависящим от частоты, образом; и
- средства (12) преобразования левого/правого сигнала в средний/побочный сигнал, сконфигурированные для выполнения преобразования левого/правого сигнала в средний/побочный сигнал на основе псевдостереофонического сигнала, таким образом, генерирующие низведенный сигнал и остаточный сигнал; и
- средства (13) повышающего микширования, сконфигурированные для генерирования стереофонического сигнала на основе низведенного сигнала и остаточного сигнала, где операция повышающего микширования средствами повышающего микширования зависит от одного или нескольких параметров (5) параметрического стереофонического кодирования.
54. Способ кодирования стереофонического сигнала в сигнал (6) битового потока, где способ включает:
- генерирование низведенного сигнала и остаточного сигнала на основе стереофонического сигнала;
- определение одного или нескольких параметров (5) параметрического стереофонического кодирования;
- перцептуальное кодирование в нисходящем направлении относительно генерирования низведенного сигнала и остаточного сигнала, где
- кодирование на основе суммы низведенного сигнала и остаточного сигнала и на основе разности низведенного сигнала и остаточного сигнала, или
- кодирование на основе низведенного сигнала и на основе остаточного сигнала,
выбрано зависящим от частоты, или не зависящим от частоты, образом.
55. Способ по п.54, отличающийся тем, что перцептуальное кодирование включает этапы, на которых:
- генерируют псевдолевый/правый стереофонический сигнал путем выполнения преобразования на основе низведенного сигнала и остаточного сигнала; и
- выполняют перцептуальное стереофоническое кодирование псевдолевого/правого стереофонического сигнала, где
- перцептуальное левое/правое кодирование, или
- перцептуальное среднее/побочное кодирование,
выбрано зависящим от частоты, или не зависящим от частоты, образом.
56. Способ по п.55, отличающийся тем, что перцептуальное кодирование включает этап, на котором:
- выполняют преобразование в сумму и разность на основе низведенного сигнала и остаточного сигнала для генерирования псевдолевого/правого стереофонического сигнала для одной или нескольких, или всех используемых частотных полос.
57. Способ по п.56, отличающийся тем, что способ позволяет зависящим от частоты, или не зависящим от частоты, образом делать выбор между
- параметрическим стереофоническим кодированием стереофонического сигнала в сигнал (6) битового потока, или
- левым/правым кодированием стереофонического сигнала в сигнал (6) битового потока.
58. Способ по п.55, отличающийся тем, что выполнение перцептуального кодирования псевдолевого/правого стереофонического сигнала включает этап, на котором:
- выполняют преобразование левого/правого сигнала в средний/побочный сигнал на основе псевдостереофонического сигнала.
59. Способ по п.58, отличающийся тем, что псевдостереофонический сигнал пропорционален стереофоническому сигналу для некоторой полосы частот, если для этой полосы частот левый и правый каналы стереофонического сигнала независимы и имеют одинаковый уровень.
60. Способ кодирования стереофонического сигнала в сигнал (6) битового потока, отличающийся тем, что способ включает этапы, на которых:
- генерируют низведенный сигнал и остаточный сигнал на основе стереофонического сигнала;
- определяют один или несколько параметров (5) параметрического стереофонического кодирования;
- генерируют псевдолевый/правый стереофонический сигнал путем выполнения преобразования на основе низведенного сигнала и остаточного сигнала; и
- выполняют перцептуальное стереофоническое кодирование псевдолевого/правого стереофонического сигнала, где
- перцептуальное левое/правое кодирование, или
- перцептуальное среднее/побочное кодирование,
выбрано зависящим от частоты, или не зависящим от частоты, образом.
61. Способ декодирования сигнала (6) битового потока, включающего параметры (5) параметрического стереофонического кодирования, в стереофонический сигнал, где способ включает этапы, на которых:
- выполняют перцептуальное декодирование на основе сигнала (6) битового потока, где путем декодирования генерируется первый сигнал и второй сигнал, где после перцептуального декодирования выводится низведенный сигнал и остаточный сигнал, и где низведенный сигнал и остаточный сигнал являются селективно
- на основе суммы первого сигнала и второго сигнала и на разности первого сигнала и второго сигнала, или
- на основе первого сигнала и на основе второго сигнала,
зависящим от частоты, или не зависящим от частоты, образом; и
- генерируют стереофонический сигнал на основе низведенного сигнала и остаточного сигнала посредством операции повышающего микширования, где операция повышающего микширования зависит от одного или нескольких параметров (5) параметрического стереофонического кодирования.
62. Способ по п.61, отличающийся тем, что перцептуальное декодирование на основе сигнала (6) битового потока включает этапы, на которых:
- выполняют перцептуальное стереофоническое декодирование на основе сигнала (6) битового потока с целью генерирования псевдостереофонического сигнала, где
- перцептуальное левое/правое декодирование, или
- перцептуальное среднее/побочное декодирование,
выбрано зависящим от частоты, или не зависящим от частоты, образом; и
- генерируют низведенный сигнал и остаточный сигнал путем выполнения преобразования на основе псевдостереофонического сигнала.
63. Способ по п.61, где перцептуальное декодирование на основе сигнала (6) битового потока включает этап, на котором:
- выполняют преобразование в сумму и разность на основе первого сигнала и второго сигнала для одной или нескольких, или всех используемых частотных полос.
64. Способ по п.63, отличающийся тем, что способ допускает переключение зависящим от частоты, или не зависящим от частоты, образом между
- параметрическим стереофоническим декодированием сигнала (6) битового потока в стереофонический сигнал, или
- левым/правым декодированием сигнала (6) битового потока в стереофонический сигнал.
65. Способ по п.62, отличающийся тем, что перцептуальное декодирование на основе сигнала (6) битового потока с целью генерирования псевдостереофонического сигнала включает этап, на котором:
- выполняют преобразование среднего/побочного сигнала в левый/правый сигнал на основе декодированного псевдосреднего/побочного сигнала.
66. Способ декодирования сигнала (6) битового потока, включающего параметры (5) параметрического стереофонического кодирования, в стереофонический сигнал, где способ включает этапы, на которых:
- выполняют перцептуальное стереофоническое кодирование на основе сигнала (6) битового потока с целью генерирования псевдостереофонического сигнала, где
- перцептуальное левое/правое декодирование, или
- перцептуальное среднее/побочное декодирование,
выбрано зависящим от частоты, или не зависящим от частоты, образом;
- генерируют низведенный сигнал и остаточный сигнал путем выполнения преобразования на основе псевдостереофонического сигнала; и
- генерируют стереофонический сигнал на основе низведенного сигнала и остаточного сигнала посредством операции повышающего микширования, где операция повышающего микширования зависит от параметров (5) параметрического стереофонического кодирования.
Описание изобретения к патенту
Область технического применения
Изобретение относится к кодированию звуковых сигналов, в частности к кодированию стереофонических звуковых сигналов, объединяющему технологии параметрического кодирования и кодирования формы сигнала.
Предпосылки изобретения
Совместное кодирование левого (L) и правого (R) каналов стереофонического сигнала позволяет осуществлять более эффективное кодирование по сравнению с независимым кодированием L и R. Традиционным подходом к совместному стереофоническому кодированию является кодирование средних/побочных (M/S) сигналов. В этом случае средний (М) сигнал формируется путем сложения сигналов L и R, например, сигнал М может иметь форму
Аналогично, побочный (S) сигнал формируется путем вычитания каналов L и R, например, сигнал S имеет форму
В случае M/S-кодирования вместо сигналов L и R кодируются сигналы М и S.
В стандарте MPEG (Moving Picture Experts Group) AAC (Advanced Audio Coding) (см. документ стандарта ISO/IEC 13818-7) стереофоническое L/R- кодирование и стереофоническое M/S-кодирование могут быть выбраны зависящими от времени и зависящими от частоты образом. Так, стереофонический кодер может применять L/R-кодирование для некоторых частотных полос стереофонического сигнала, в то время как M/S-кодирование используется для кодирования других частотных полос стереофонического сигнала (зависящий от частоты способ). Кроме того, кодер может переключаться между L/R-кодированием и M/S-кодированием с течением времени (зависящий от времени способ). В MPEG ААС стереофоническое кодирование выполняется в частотной области, точнее, в области MDCT (модифицированного дискретного косинусного преобразования). Это позволяет адаптивно делать выбор между L/R-кодированием и M/S-кодированием зависящим от частоты, а также от времени образом. Решение о выборе между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием может базироваться на оценке побочного сигнала: когда энергия побочного сигнала мала, должно использоваться стереофоническое M/S-кодирование, которое является более эффективным. В альтернативном варианте принятия решения о выборе между двумя схемами кодирования могут испытываться обе эти схемы, и выбор может базироваться на результирующих попытках квантования, т.е. на наблюдаемой перцептуальной энтропии.
Альтернативным подходом к совместному стереофоническому кодированию является параметрическое стереофоническое (PS) кодирование. В этом случае стереофонический сигнал передается как монофонический низведенный сигнал после кодирования низведенного сигнала традиционным кодером звуковых сигналов, таким как кодер ААС. Низведенный сигнал представляет собой суперпозицию каналов L и R. Монофонический низведенный сигнал передается в комбинации с дополнительными параметрами PS-кодирования, зависящими от времени и от частоты, такими как разность интенсивностей между каналами (IID) и взаимная корреляция между каналами (ICC). В декодере, на основе декодированного низведенного сигнала и параметров параметрического стереофонического кодирования, реконструируется стереофонический сигнал, который является приближением воспринимаемого пространственного изображения оригинального стереофонического сигнала. Для реконструкции декоррелятор генерирует декоррелированную версию низведенного сигнала. Указанный декоррелятор может реализовываться посредством соответствующего фазового фильтра. PS-кодирование и декодирование описано в статье "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168, Раскрытие из этого документа ссылкой включается в настоящее описание.
Стандарт MPEG Surround (см. документ ISO/IEC 23003-1) использует концепцию PS-кодирования. В декодере MPEG Surround множество выходных каналов создается на основе меньшего количества входных каналов и управляющих параметров. Декодеры и кодеры MPEG Surround строятся путем каскадного размещения параметрических стереофонических модулей, которые в стандарте MPEG Surround называются модулями ОТТ (модулями «от одного к двум») для кодера и модулями R-OTT (обратными модулями «от одного к двум») - для кодера. Модуль ОТТ определяет два выходных канала посредством единого входного канала (низведенный сигнал), сопровождаемого параметрами PS-кодирования. Модуль ОТТ соответствует PS-декодеру, а модуль R-OTT соответствует PS-кодеру. Параметрическое стереофоническое кодирование может реализовываться с использованием MPEG Surround с одним модулем ОТТ на стороне декодера и одним модулем R-OTT - на стороне кодера; это также называется режимом "MPEG Surround 2-1-2". Синтаксис битового потока может отличаться, но лежащая в его основе теория и обработка сигнала являются одинаковыми. Поэтому в нижеследующем описании все отсылки к PS-кодированию также включают параметрическое стереофоническое кодирование на основе "MPEG Surround 2-1-2" или MPEG Surround.
В PS-кодере (например, в PS-кодере MPEG Surround) может определяться остаточный сигнал (RES), который передается в дополнение к низведенному сигналу. Этот остаточный сигнал указывает на погрешность, связанную с отображением оригинальных каналов посредством их понижающего микширования и параметров PS-кодирования. В декодере остаточный сигнал может использоваться вместо декоррелированной версии низведенного сигнала. Это позволяет лучше реконструировать форму сигналов оригинальных каналов L и R. Использование дополнительного остаточного сигнала описано, например, в стандарте MPEG Surround (см. документ ISO/EEC 23003-1) и в статье "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding", J. Herre et al., Audio Engineering Convention Paper 7084, 122nd Convention, May 5-8, 2007. Раскрытия из обоих документов, в частности, ремарки, относящиеся в них к остаточному сигналу, ссылкой включаются в настоящее описание.
PS-кодирование с остаточным сигналом является более общим подходом к совместному кодированию стереофонического сигнала, чем M/S-кодирование: M/S-кодирование выполняет вращение сигнала при преобразовании L/R-сигналов в M/S-сигналы. PS-кодирование с остаточным сигналом также выполняет вращение сигнала при преобразовании L/R-сигналов в низведенный и остаточный сигналы. Однако в последнем случае вращение сигнала является варьируемым и зависит от параметров PS-кодирования.
По причине большей общности подхода PS-кодирования с остатком, PS-кодирование с остатком позволяет более эффективно, чем M/S-кодирование, кодировать определенные типы сигналов, такие как панорамированный монофонический сигнал. Так, предложенный кодер позволяет эффективно комбинировать технологии параметрического стереофонического кодирования с технологиями стереофонического кодирования на основе кодирования формы сигнала.
Часто перцептуальные стереофонические кодеры, такие как перцептуальный стереофонический кодер MPEG ААС, могут принимать решение о выборе между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием, где в последнем случае средний/побочный сигнал генерируется на основе стереофонического сигнала. Этот выбор может зависеть от частоты, т.е. для некоторых частотных полос может использоваться стереофоническое L/R-кодирование, в то время как для других частотных полос может использоваться стереофоническое M/S-кодирование.
В ситуации, когда каналы L и R по существу представляют собой независимые сигналы, указанный перцептуальный стереофонический кодер, как правило, не будет использовать стереофоническое M/S-кодирование, поскольку в данной ситуации эта схема кодирования не обеспечивает никакого улучшения кодирования по сравнению со стереофоническим L/R-кодированием. Кодер перейдет обратно на уровень простого стереофонического L/R-кодирования, по существу обрабатывающего L и R независимо.
В такой же ситуации система PS-кодера будет создавать низведенный сигнал, который содержит оба канала, L и R, что препятствует независимой обработке каналов L и R. Для PS-кодирования с остаточным сигналом это может означать менее эффективное кодирование по сравнению со стереофоническим кодированием, где адаптивно выбирается стереофоническое L/R-кодирование или стереофоническое M/S-кодирование.
Таким образом, существуют ситуации, в которых PS-кодер превосходит перцептуальный стереофонический кодер с адаптивным выбором между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием, в то время как в других ситуациях последний кодер превосходит PS-кодер.
Краткое описание изобретения
Настоящая заявка описывает систему кодера звуковых сигналов и способ кодирования, которые основываются на идее комбинирования PS-кодирования с использованием остаточного сигнала и адаптивного перцептуального стереофонического L/R- или M/S-кодирования (например, перцептуального совместного стереофонического кодирования ААС в области MDCT). Это позволяет комбинировать преимущества адаптивного стереофонического L/R- или M/S-кодирования (например, используемого в MPEG ААС) с преимуществами PS-кодирования с остаточным сигналом (например, используемого в MPEG Surround). Кроме того, заявка описывает соответствующую систему декодера звуковых сигналов и способ декодирования.
Первый аспект заявки относится к системе кодера, предназначенной для кодирования стереофонического сигнала в сигнал битового потока. Согласно одному из вариантов осуществления системы кодера, система кодера включает этап понижающего микширования, предназначенный для генерирования на основе стереофонического сигнала низведенного сигнала и остаточного сигнала. Остаточный сигнал может покрывать весь или только часть используемого частотного диапазона звукового сигнала. Кроме того, система кодера включает этап определения параметров, предназначенный для определения таких параметров PS-кодирования, как разность интенсивностей между каналами и взаимная корреляция между каналами. Предпочтительно параметры PS-кодирования являются зависящими от частоты. Указанные этапы понижающего микширования и определения параметров, как правило, составляют часть PS-кодера.
Кроме того, система кодера включает средства перцептуального кодирования в нисходящем направлении относительно этапа понижающего микширования, где производится выбор между двумя схемами кодирования:
- кодированием на основе суммы низведенного сигнала и остаточного сигнала и на основе разности между низведенным сигналом и остаточным сигналом; или
- кодированием на основе низведенного сигнала и на основе остаточного сигнала.
Следует отметить, что в случае кодирования на основе низведенного сигнала и остаточного сигнала низведенный сигнал и остаточный сигнал могут являться кодированными, или могут являться кодированными сигналы, пропорциональные этим сигналам. В случае кодирования, на основе суммы и разности, сумма и разность могут являться кодированными, или могут являться кодированными сигналы, пропорциональные этим сигналам.
Выбор может быть зависящим от частоты (или зависящим от времени), т.е. для первой полосы частот может делаться выбор в пользу кодирования, основанного на суммарном сигнале и разностном сигнале, в то время как для второй полосы частот может делаться выбор в пользу кодирования, основанного на низведенном сигнале и на остаточном сигнале.
Такая система кодера имеет преимущество, которое позволяет переключаться между стереофоническим L/R-кодированием и PS-кодированием с остаточным сигналом (предпочтительно, зависящим от частоты образом): если средства перцептуального кодирования делают выбор (для конкретной полосы или для всего частотного диапазона) в пользу кодирования, на основе низведенного и остаточного сигналов, система кодирования ведет себя как система, использующая стандартное PS-кодирование с остаточным сигналом. Однако если средства перцептуального кодирования делают выбор (для конкретной полосы или для всего частотного диапазона) в пользу кодирования, на основе суммарного сигнала низведенного сигнала и остаточного сигнала и разностном сигнале низведенного сигнала и остаточного сигнала, при определенных условиях, операции суммирования и вычитания в значительной мере компенсируют предшествующую операцию понижающего микширования (за исключением случая, возможно, отличающегося коэффициента усиления), и, таким образом, система в целом фактически может выполнять L/R-кодирование для всего стереофонического сигнала или для одной из его частотных полос. Например, такие условия возникают тогда, когда каналы L и R стереофонического сигнала независимы и имеют одинаковый уровень, что более подробно будет разъяснено позднее.
Предпочтительно, адаптация схемы кодирования зависит от времени и от частоты. Так, предпочтительно, некоторые полосы частот стереофонического сигнала кодируются посредством схемы L/R-кодирования, в то время как другие полосы частот стереофонического сигнала кодируются посредством схемы PS-кодирования с остаточным сигналом.
Следует отметить, что в случае кодирования, на основе низведенного сигнала и остаточного сигнала, как обсуждалось выше, фактический сигнал, который является входным в базовый кодер, может быть сформирован двумя последовательными операциями на низведенном сигнале и остаточном сигнале, которые являются обратными (за исключением случая, возможно, отличающегося коэффициента усиления). Например, низведенный сигнал и остаточный сигнал подаются на этап преобразования M/S в L/R, а затем выходной сигнал этапа преобразования подается на этап преобразования L/R в M/S. Результирующий сигнал (который затем используется для кодирования) соответствует низведенному сигналу и остаточному сигналу (за исключением случая, возможно, отличающегося коэффициента усиления).
Нижеследующий вариант осуществления изобретения использует эту идею. Согласно одному из вариантов осуществления системы кодера, система кодера, как обсуждалось выше, включает этап понижающего микширования и этап определения параметров. Кроме того, система кодера включает этап преобразования (например, составляющий часть средств кодирования, описанных выше). Этап преобразования генерирует псевдо-L/R-стереофонический сигнал путем выполнения преобразования низведенного сигнала и остаточного сигнала. Этап преобразования предпочтительно выполняет преобразования в сумму и разность, где низведенный сигнал и остаточный сигнал суммируются, генерируя один канал псевдостереофонического сигнала (сумма, возможно, умножается на некоторый коэффициент), и вычитаются один из другого, генерируя второй канал псевдостереофонического сигнала (разность, возможно, умножается на некоторый коэффициент). Предпочтительно, первый канал (например, псевдолевый канал) псевдостереофонического сигнала пропорционален сумме низведенного и остаточного сигналов, где второй канал (например, псевдоправый канал) псевдостереофонического сигнала пропорционален разности низведенного и остаточного сигналов. Таким образом, низведенный сигнал DMX и остаточный сигнал RES из PS-кодера могут быть конвертированы в псевдостереофонический сигнал Lp, Rp в соответствии со следующими уравнениями:
Lp=g(DMX+RES)
Rp=g(DMX-RES).
В приведенных выше уравнениях нормировочный коэффициент усиления g, например, имеет значение .
Псевдостереофонический сигнал предпочтительно обрабатывается перцептуальным стереофоническим кодером (например, составляющим часть средств кодирования). Для кодирования выбирается стереофоническое L/R-кодирование или стереофоническое M/S-кодирование. Адаптивный перцептуальный стереофонический L/R- или M/S-кодер может представлять собой кодер на базе ААС. Предпочтительно выбор между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием зависит от частоты; так, выбор может варьироваться для различных частотных полос, как обсуждалось выше. Кроме того, выбор между L/R-кодированием и M/S-кодированием, предпочтительно, зависит от времени. Решение о выборе между L/R-кодированием и M/S-кодированием предпочтительно принимается перцептуальным стереофоническим кодером.
Указанный перцептуальный стереофонический кодер для M/S-кодирования обладает возможностью внутреннего вычисления (псевдо-) сигналов М и S (во временной области или в выбранных полосах частот) на основе псевдостереофонического сигнала L/R. Указанные сигналы М и S соответствуют низведенному и остаточному сигналам (за исключением случая, возможно, отличающегося коэффициента усиления). Таким образом, если перцептуальный стереофонический кодер делает выбор в пользу M/S-кодирования, то он фактически кодирует низведенный и остаточный сигналы (которые соответствуют псевдосигналам М и S), как это могло бы выполняться в системе, использующей стандартное PS-кодирование с остаточным сигналом.
Кроме того, в специфических условиях этап преобразования в значительной мере компенсирует предшествующую операцию понижающего микширования (за исключением случая, возможно, отличающегося коэффициента усиления), и, таким образом, система кодера в целом может фактически выполнять L/R-кодирование всего стереофонического сигнала или одной из его частотных полос (если перцептуальным кодером выбрано L/R-кодирование). Этот случай соответствует, например, случаю, когда каналы L и R стереофонического сигнала независимы и имеют одинаковый уровень, что более подробно будет разъяснено позднее. Таким образом, для данной полосы частот псевдостереофонический сигнал в значительной мере соответствует или является пропорциональным стереофоническому сигналу, если - для этой полосы частот - левый и правый каналы стереофонического сигнала, в значительной мере, независимы и имеют, в значительной мере, одинаковый уровень.
Таким образом, система кодера фактически позволяет осуществлять переключение между стереофоническим L/R-кодированием и PS-кодированием с остаточным сигналом с целью получения возможности адаптации к свойствам данного, входного стереофонического сигнала. Предпочтительно, адаптация схемы кодирования зависит от времени и от частоты. Так, предпочтительно, некоторые полосы частот стереофонического сигнала кодируются посредством схемы L/R-кодирования, в то время как другие полосы частот стереофонического сигнала кодируются посредством схемы PS-кодирования с остаточным сигналом. Следует отметить, что M/S-кодирование по существу представляет собой частный случай PS-кодирования с остаточным сигналом (поскольку преобразование L/R в M/S представляет собой частный случай операции понижающего микширования при PS-кодировании), и, таким образом, система кодера также может выполнять полное M/S-кодирование.
Указанный вариант осуществления изобретения, содержащий этап преобразования в нисходящем направлении относительно PS-кодера и в восходящем направлении относительно перцептуального стереофонического L/R- или M/S-кодера, имеет преимущество, которое заключается в том, что могут быть использованы традиционный PS-кодер и традиционный перцептуальный кодер. Тем не менее, PS-кодер, или перцептуальный кодер, в данном случае может адаптироваться для специфического использования.
Новая концепция повышает эффективность стереофонического кодирования, позволяя эффективно комбинировать PS-кодирование и совместное стереофоническое кодирование.
В соответствии с альтернативным вариантом осуществления изобретения, средства кодирования, которые обсуждались выше, включают этап преобразования, предназначенный для выполнения преобразования в сумму и разность на основе низведенного сигнала и остаточного сигнала для одной или нескольких частотных полос (например, для всего используемого частотного диапазона или только для одной полосы частот). Это преобразование может выполняться в частотной области или во временной области. Этап преобразования генерирует псевдолевый/правый стереофонический сигнал для одной или нескольких частотных полос. Один канал псевдостереофонического сигнала соответствует сумме, а второй канал псевдостереофонического сигнала соответствует разности.
Таким образом, в случае, когда кодирование основывается на суммарном и разностном сигналах, выходной сигнал этапа преобразования может использоваться для кодирования, в то время как в случае, когда кодирование основывается на низведенном сигнале и остаточном сигнале, для кодирования могут использоваться сигналы в восходящем направлении относительно этапа кодирования. Таким образом, этот вариант осуществления изобретения не использует два последовательных преобразования в сумму и разность на низведенном сигнале и остаточном сигнале, приводящих к низведенному сигналу и остаточному сигналу (за исключением случая, возможно, отличающегося коэффициента усиления).
При выборе кодирования на основе низведенного сигнала и остаточного сигнала, выбирается параметрическое стереофоническое кодирование стереофонического сигнала. При выборе кодирования на основе суммы и разности (т.е. кодирования на основе псевдостереофонического сигнала), выбирается L/R-кодирование стереофонического сигнала.
Этап преобразования может представлять собой этап преобразования L/R в M/S, составляющий часть перцептуального кодера с адаптивным выбором между стереофоническим L/R- и M/S-кодированием (возможно, в отличие от традиционного этапа преобразования L/R в M/S, коэффициенты усиления отличаются). Следует отметить, что решение о выборе между стереофоническим L/R- и M/S-кодированием должно быть обратимым. Таким образом, кодирование, на основе низведенного сигнала и остаточного сигнала, выбирается (т.е. кодированный сигнал не проходит этап преобразования) тогда, когда средства принятия решения принимают решение о перцептуальном M/S-декодировании, а кодирование, на основе псевдостереофонического сигнала, генерируемом этапом преобразования, выбирается (т.е. кодированный проходит этап преобразования) тогда, когда средства принятия решения принимают решение о перцептуальном L/R-декодировании.
Система кодера согласно любому из обсужденных выше вариантов осуществления изобретения может включать дополнительный SBR-кодер (репликации спектральной полосы). SBR представляет собой одну из форм HFR (высокочастотной реконструкции). SBR-кодер определяет дополнительную информацию для реконструкции более высокого частотного диапазона звукового сигнала в декодере. Перцептуальным кодером кодируется только более низкий частотный диапазон, что уменьшает битовую скорость передачи данных. Предпочтительно SBR-кодер присоединяется в восходящем направлении относительно PS-кодера. Таким образом, SBR-кодер может находиться в стереофонической области и генерировать параметры SBR для стереофонического сигнала. Это будет более подробно обсуждаться в связи с графическими материалами.
Предпочтительно, PS-кодер (т.е. этап понижающего микширования и этап определения параметров) выполняет операции в передискретизированной частотной области (PS-кодер, который обсуждается ниже, также предпочтительно выполняет операции в передискретизированной частотной области). Для преобразования из временной области в частотную в восходящем направлении относительно PS-кодера может использоваться гибридный блок комплекснозначных фильтров, содержащий QMF (квадратурный зеркальный фильтр) и фильтр Найквиста, как описано в стандарте MPEG Surround (см. документ ISO/IEC 23003-1). Это позволяет выполнять адаптивную обработку сигнала во времени и по частоте в отсутствие слышимых артефактов наложения спектров. Адаптивное L/R- или M/S-кодирование, с другой стороны, предпочтительно осуществляется в области критически дискретизированного MDCT (например, как описано в ААС) с целью обеспечения эффективного представления квантованного сигнала.
Конверсия между низведенным и остаточным сигналами и псевдо-L/R-стереофоническим сигналом может осуществляться во временной области, поскольку PS-кодер и перцептуальный стереофонический кодер, как правило, в любом случае связываются во временной области. Таким образом, этап преобразования, предназначенный для генерирования сигнала псевдо-L/R, может выполнять операции во временной области.
В других вариантах осуществления изобретения, которые обсуждаются в связи с графическими материалами, этап преобразования выполняет операции в передискретизированной частотной области или области критически дискретизированного MDCT.
Второй аспект заявки относится к системе декодера, предназначенной для декодирования сигнала битового потока, генерируемого обсужденной выше системой кодера.
Согласно одному из вариантов осуществления системы декодера, система декодера включает средства перцептуального декодирования, предназначенные для декодирования на основе сигнала битового потока. Средства декодирования сконфигурированы для генерирования посредством декодирования (внутреннего) первого сигнала и (внутреннего) второго сигнала и для вывода низведенного сигнала и остаточного сигнала. Низведенный сигнал и остаточный сигнал селективно основываются на
- сумме первого сигнала и второго сигнала и на разности первого сигнала и второго сигнала
или
- на первом сигнале и на втором сигнале.
Как обсуждалось выше в связи с системой кодера, в данном случае, выбор также может быть зависящим от частоты и не зависящим от частоты.
Кроме того, система включает этап повышающего микширования, предназначенный для генерирования стереофонического сигнала на основе низведенного сигнала и остаточного сигнала, где операция повышающего микширования на этапе повышающего микширования зависит от одного или нескольких параметров параметрического стереофонического кодирования.
Аналогично системе кодера, система декодера фактически позволяет переключаться между L/R-декодированием и PS-декодированием с остаточным сигналом, предпочтительно, зависящим от времени и от частоты образом.
Согласно другому варианту осуществления изобретения система декодера включает перцептуальный стереофонический декодер (например, составляющий часть средств декодирования), предназначенный для декодирования сигнала битового потока, где декодер генерирует псевдостереофонический сигнал. Перцептуальный декодер может представлять собой декодер на базе ААС. Для перцептуального стереофонического декодера перцептуальное L/R-декодирование или перцептуальное M/S-декодирование выбирается зависящим от частоты или не зависящим от частоты образом (фактический выбор предпочтительно управляется решением кодера, которое передается как дополнительная информация в битовом потоке). Декодер делает выбор схемы декодирования на основе схемы кодирования, использованной для кодирования. Используемая схема кодирования может указываться декодеру посредством информации, содержащейся в принимаемом битовом потоке.
Кроме того, предусматривается этап преобразования, предназначенный для генерирования низведенного сигнала и остаточного сигнала путем выполнения преобразования псевдостереофонического сигнала. Иными словами, псевдостереофонический сигнал, получаемый из перцептуального декодера, конвертируется обратно в низведенный и остаточный сигналы. Это преобразование представляет собой преобразование в сумму и разность: результирующий низведенный сигнал пропорционален сумме левого канала и правого канала псевдостереофонического сигнала, результирующий остаточный сигнал пропорционален разности левого канала и правого канала псевдостереофонического сигнала. Таким образом, осуществляется квазипреобразование L/R в M/S. Псевдостереофонический сигнал с двумя каналами Lp, Rp может конвертироваться в низведенный и остаточный сигналы в соответствии со следующими уравнениями:
.
В приведенных выше уравнениях нормировочный коэффициент усиления g может, например, иметь значение . Остаточный сигнал RES, используемый в декодере, может покрывать весь используемый диапазон частот звукового сигнала или только часть используемого диапазона частот звукового сигнала.
Низведенный и остаточный сигналы затем обрабатываются на этапе повышающего микширования PS-декодера для получения конечного стереофонического выходного сигнала. Повышающее микширование низведенного и остаточного сигналов в стереофонический сигнал зависит от принимаемых параметров PS-кодирования.
Согласно альтернативному варианту осуществления изобретения средства перцептуального декодирования могут включать этап преобразования в сумму и разность, предназначенный для выполнения преобразования на основе первого сигнала и второго сигнала для одной или нескольких частотных полос (например, для всего используемого диапазона частот). Таким образом, этап преобразования генерирует низведенный сигнал и остаточный сигнал в случае, когда низведенный сигнал и остаточный сигнал базируются на сумме первого сигнала и второго сигнала и на разности первого сигнала и второго сигнала. Этап преобразования может выполнять операции во временной области или в частотной области.
Как сходным образом обсуждалось в связи с системой кодера, этап преобразования может представлять собой этап преобразования M/S в L/R, составляющий часть перцептуального декодера с адаптивным выбором между стереофоническим L/R- и M/S-декодированием (возможно, коэффициент усиления, в отличие от традиционного этапа преобразования M/S в L/R, отличается). Следует отметить, что выбор между стереофоническим L/R- и M/S-декодированием должен быть обратимым.
Система декодера согласно любому из предшествующих вариантов осуществления изобретения может включать дополнительный SBR-декодер, предназначенный для декодирования дополнительной информации из SBR-кодера и для генерирования высокочастотной составляющей звукового сигнала. Предпочтительно SBR-декодер располагается в нисходящем направлении относительно PS-декодера. Это будет более подробно обсуждаться в связи с графическими материалами.
Предпочтительно, этап повышающего микширования выполняет операции в передискретизированной частотной области, например, в восходящем направлении относительно PS-декодера может, как описывалось выше, использоваться гибридный блок фильтров.
Преобразование L/R в M/S может проводиться во временной области, поскольку перцептуальный декодер и PS-декодер (включая этап повышающего микширования), как правило, связаны во временной области.
В других вариантах осуществления изобретения, описанных в связи с графическими материалами, преобразование L/R в M/S проводится в передискретизированной частотной области (например, QMF) или в критически дискретизированной частотной области (например, MDCT).
Третий аспект заявки относится к способу кодирования стереофонического сигнала в сигнал битового потока. Способ выполняет операции аналогично системе кодера, обсужденной выше. Таким образом, приведенные выше ремарки, относящиеся к системе кодера, в основном также применимы и к способу кодирования.
Четвертый аспект заявки относится к способу декодирования сигнала битового потока, включающего параметры PS-кодирования, с целью генерирования стереофонического сигнала. Способ выполняет операции так же, как система декодера, обсужденная выше. Таким образом, приведенные выше ремарки, относящиеся к системе декодера, в основном также применимы и к способу декодирования.
Ниже изобретение разъясняется посредством иллюстративных примеров с отсылкой к сопроводительным чертежам, где
фиг.1 - один из вариантов осуществления системы кодера, где, необязательно, параметры PS-кодирования содействуют психоакустическому управлению в перцептуальном стереофоническом кодере;
фиг.2 - один из вариантов осуществления PS-кодера;
фиг.3 - один из вариантов осуществления системы декодера;
фиг.4 - один из дополнительных вариантов осуществления PS-кодера, включающего детектор, предназначенный для деактивации PS-кодирования, если предпочтительным является L/R-кодирование;
фиг.5 - один из вариантов осуществления традиционной системы PS-кодера, содержащей дополнительный SBR-кодер для низведенного сигнала;
фиг. 6 - один из вариантов осуществления системы кодера, содержащей дополнительный SBR-кодер для низведенного сигнала;
фиг. 7 - один из вариантов осуществления системы кодера, содержащей дополнительный SBR-кодер в стереофонической области;
фиг.8а-8d - различные частотно-временные представления одного из двух выходных каналов на выходе декодера;
фиг.9а - один из вариантов осуществления базового кодера;
фиг.9b - один из вариантов осуществления кодера, который позволяет осуществлять переключение между кодированием в области линейного предсказания (как правило, только для монофонических сигналов) и кодированием в области преобразования (как правило, и для монофонических, и для стереофонических сигналов);
фиг.10 - один из вариантов осуществления системы кодера;
фиг.11а - часть одного из вариантов осуществления системы кодера;
фиг.11b - иллюстративная реализация варианта осуществления изобретения по фиг.11а;
фиг.11с - альтернатива варианту осуществления изобретения по фиг.11а;
фиг.12 - один из вариантов осуществления системы кодера;
фиг.13 - один из вариантов осуществления стереофонического кодера, составляющего часть системы кодера по фиг.12;
фиг.14 - один из вариантов осуществления системы декодера, предназначенной для декодирования сигнала битового потока, генерируемого системой кодера по фиг.6;
фиг.15 - один из вариантов осуществления системы декодера, предназначенной для декодирования сигнала битового потока, генерируемого системой кодера по фиг.7;
фиг. 16а - часть одного из вариантов осуществления системы декодера;
фиг.16b - иллюстративная реализация варианта осуществления изобретения по фиг.16а;
фиг.16с - альтернатива варианту осуществления изобретения по фиг.16а;
фиг.17 - один из вариантов осуществления системы кодера и
фиг.18 - один из вариантов осуществления системы декодера.
На фиг.1 показан вариант осуществления системы кодера, которая объединяет PS-кодирование с использованием остаточного сигнала и адаптивное перцептуальное стереофоническое L/R- или M/S-кодирование. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Система кодера включает PS-кодер 1, принимающий стереофонический сигнал L, R. PS-кодер 1 содержит этап понижающего микширования, предназначенный для генерирования низведенного DMX и остаточного RES сигналов на основе стереофонического сигнала L, R. Эту операцию можно описать при помощи матрицы H-1 понижающего микширования H-1 размера 2×2, которая конвертирует сигналы L и R в низведенный сигнал DMX и остаточный сигнал RES:
.
Как правило, матрица H-1 является зависящей от частоты или зависящей от времени, т.е. элементы матрицы H-1 изменяются с частотой и изменяются от одного кванта времени к другому. Матрица H-1 может обновляться с каждым кадром (например, каждые 21 или 48 мс) и может иметь частотное разрешение множества полос, например, 28, 20 или 10 полос (называемых «полосами параметров») на перцептуально ориентированной шкале частот (типа шкалы Барка).
Элементы матрицы H-1 зависят от зависящих от времени и от частоты параметров PS-кодирования: IID (разности интенсивностей между каналами; также называется CLD - разность уровней каналов) и ICC (взаимной корреляции между каналами). Для определения параметров 5 PS-кодирования, например, IID и ICC, PS-кодер 1 включает этап определения параметров. Пример вычисления матричных элементов обратной матрицы H имеет следующий вид и описан в спецификации стандарта MPEG Surround, документ ISO/IEC 23003-1, подпункт 6.5.3.2, которая ссылкой включается в настоящее описание:
где
, и ,
где , and ,
и где =ICC.
Кроме того, система кодера включает этап 2 преобразования, который конвертирует низведенный сигнал DMX и остаточный сигнал RES из PS-кодера 1 в псевдостереофонический сигнал Lp, Rp, например, в соответствии со следующими уравнениями:
.
В приведенных выше уравнениях нормировочный коэффициент усиления g имеет, например, значение . Для два уравнения псевдостереофонического сигнала Lp , Rp можно переписать как:
.
Псевдостереофонический сигнал Lp , Rp затем подается в перцептуальный стереофонический кодер 3, который адаптивно делает выбор между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием. M/S-кодирование представляет собой одну из форм совместного стереофонического кодирования. L/R-кодирование может также базироваться на некоторых аспектах совместного кодирования, например, биты для каналов L и R могут совместно распределяться из общего хранилища битов.
Выбор между стереофоническим L/R- или M/S-кодированием, предпочтительно, является зависящим от частоты, т.е. некоторые полосы частот могут подвергаться L/R-кодированию, в то время как другие полосы частот могут подвергаться M/S-кодированию. Один из вариантов реализации выбора между стереофоническим L/R- или M/S-кодированием описан в документе "Sum-Difference Stereo Transform Coding", J.D.Johnston et al., IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 1992, pages 569-572. Обсуждение выбора между стереофоническим L/R- или M/S-кодированием в этом документе, в частности, разделы 5.1 и 5.2, ссылкой включаются в настоящее описание.
На основе псевдостереофонического сигнала Lp, R p перцептуальный кодер 3 может выполнить внутреннее вычисление (псевдо-) средних/побочных сигналов Мр, Sp.Эти сигналы по существу соответствуют низведенному сигналу DMX и остаточному сигналу RES (за исключением случая, возможно, отличающегося коэффициента усиления). Тогда, если перцептуальный кодер 3 делает выбор в пользу M/S-кодирования полосы частот, то перцептуальный кодер 3 по существу кодирует для этой полосы частот низведенный сигнал DMX и остаточный сигнал RES (за исключением случая, возможно, отличающегося коэффициента усиления), как это может быть выполнено также и в традиционной системе перцептуального кодера с использованием традиционного PS-кодирования с остаточным сигналом. Параметры 5 PS-кодирования и выходной битовый поток 4 перцептуального кодера 3 мультиплексируются в единый битовый поток 6 посредством мультиплексора 7.
В дополнение к PS-кодированию стереофонического сигнала система кодера по фиг.1, как будет описано ниже, позволяет выполнять L/R-кодирование стереофонического сигнала. Как обсуждалось выше, элементы матрицы H-1 понижающего микширования кодера (а также элементы матрицы H повышающего микширования, используемой в декодере) зависят от зависящих от времени и от частоты параметров PS-кодирования: IID (разности интенсивностей между каналами; также называется CLD - разность уровней каналов) и ICC (взаимной корреляции между каналами). Пример вычисления матричных элементов матрицы H повышающего микширования описан выше. В случае использования кодирования остаточного сигнала, правый столбец матрицы H повышающего микширования размера 2×2 имеет вид:
.
Однако вместо этого правый столбец матрицы H размера 2×2, предпочтительно, должен модифицироваться как
.
Левый столбец предпочтительно вычисляется так, как это дано в спецификации MPEG Surround.
Модификация правого столбца матрицы H повышающего микширования обеспечивает то, что при IID=0 дБ и ICC=0 (т.е. в случае, когда для соответствующей полосы стереофонические каналы L и R являются независимыми и имеют одинаковый уровень), для полосы получается следующая матрица H повышающего микширования:
.
Следует отметить, что матрица H повышающего микширования, а также матрица H-1 понижающего микширования, как правило, являются зависящими от частоты и зависящими от времени. Таким образом, значения матриц различны для различных временных/частотных мозаичных элементов (мозаичный элемент соответствует пересечению конкретной полосы частот и конкретного периода времени). В рассмотренном выше случае матрица H-1 понижающего микширования идентична матрице H повышающего микширования. Таким образом, псевдостереофонический сигнал Lp, Rp для полосы можно вычислить по следующему уравнению:
Таким образом, в этом случае, PS-кодирование с остаточным сигналом, использующее матрицу H-1 понижающего микширования с последующим генерированием псевдосигнала L/R на этапе 2 преобразования, соответствует единичной матрице и совсем не изменяет стереофонический сигнал для соответствующей полосы частот, т.е.
Lp=L
Rp=R.
Иными словами, этап 2 преобразования компенсирует матрицу H-1 понижающего микширования так, чтобы псевдостереофонический сигнал Lp, R p соответствовал входному стереофоническому сигналу L, R.
Это позволяет кодировать оригинальный входной стереофонический сигнал L, R посредством перцептуального кодера 3 для конкретной полосы. Когда перцептуальным кодером 3 для кодирования конкретной полосы выбирается L/R-кодирование, система кодера ведет себя как перцептуальный L/R-кодер, предназначенный для кодирования полосы стереофонического входного сигнала L, R.
Система кодера по фиг.1 позволяет осуществлять плавное адаптивное переключение между L/R-кодированием и PS-кодированием с остаточным сигналом, зависящим от частоты и от времени образом. Система кодера избегает неоднородностей в форме сигнала при переключении между схемами кодирования. Это препятствует появлению артефактов. С целью достижения гладких переходов к элементам матрицы H -1 в кодере и матрицы Н в декодере для дискретных значений между двумя модификациями стереофонических параметров может применяться линейная интерполяция.
На фиг.2 показан один из вариантов осуществления PS-кодера 1. PS-кодер 1 включает этап 8 понижающего микширования, который на основе стереофонического сигнала L, R генерирует низведенный сигнал DMX и остаточный сигнал RES. Кроме того, PS-кодер 1 включает этап 9 оценки параметров, предназначенный для оценки параметров 5 PS-кодирования на основе стереофонического сигнала L, R.
На фиг.3 показан один из вариантов осуществления соответствующей системы декодера, сконфигурированной для декодирования битового потока 6, генерируемого системой кодера по фиг.1. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Система декодера включает демультиплексор 10, предназначенный для разделения параметров 5 PS-кодирования и битового потока 4 звукового сигнала, генерируемых перцептуальным кодером 3. Битовый поток 4 звукового сигнала подается в перцептуальный стереофонический декодер 11, который способен селективно декодировать L/R-кодированный битовый поток, или M/S-кодированный битовый поток звукового сигнала. Операции декодера 11 обратны по отношению к операциям кодера 3. Аналогично перцептуальному кодеру 3, перцептуальный декодер 11, предпочтительно, позволяет осуществлять зависящую от частоты и зависящую от времени схему кодирования. Некоторые полосы частот, подвергнутые L/R-кодированию кодером 3, подвергаются L/R-декодированию декодером 11, в то время как другие полосы частот, подвергнутые M/S-кодированию кодером 3, подвергаются M/S-декодированию декодером 11. Декодер 11 выводит псевдостереофонический сигнал Lp , Rp, который до этого являлся входным сигналом перцептуального кодера 3. Псевдостереофонический сигнал Lp, R p, получаемый из перцептуального декодера 11, конвертируется обратно в низведенный сигнал DMX и остаточный сигнал RES посредством этапа 12 преобразования L/R в M/S. Операции этапа 12 преобразования L/R в M/S на стороне декодера обратны операциям этапа 2 преобразования на стороне кодера. Предпочтительно, этап 12 преобразования определяет низведенный сигнал DMX и остаточный сигнал RES в соответствии со следующими уравнениями:
.
В приведенных выше уравнениях нормировочный коэффициент усиления g идентичен нормировочному коэффициенту усиления g на стороне кодера и,
например, имеет значение .
Низведенный сигнал DMX и остаточный сигнал RES затем обрабатываются PS-декодером 13 для получения конечных выходных сигналов L и R. Этап повышающего микширования в процессе декодирования в случае RS-кодирования с остаточным сигналом можно описать при помощи матрицы H повышающего микширования размера 2×2, которая конвертирует низведенный сигнал DMX и остаточный сигнал RES обратно в каналы L и R:
.
Вычисление элементов матрицы H повышающего микширования уже обсуждалось выше.
Процессы PS-кодирования и PS-декодирования в PS-кодере 1 и PS-декодере 13 предпочтительно осуществляются в передискретизированной частотной области. Для частотно-временного преобразования в восходящем направлении относительно PS-кодера может использоваться гибридный блок комплекснозначных фильтров, содержащий QMF (квадратурный зеркальный фильтр) и фильтр Найквиста, такой как, например, блок фильтров, описанный в стандарте MPEG Surround (см. документ ISO/IEC 23003-1). Представление сигнала комплексным QMF является передискретизированным в 2 раза, поскольку оно является комплекснозначным и не действительнозначным. Это позволяет осуществлять адаптивную по времени и частоте обработку сигнала без слышимых артефактов наложения спектров. Указанный гибридный блок фильтров, как правило, обеспечивает высокое разрешение по частоте (узкую полосу) при низких частотах, в то время как при высоких частотах несколько полос QMF группируются в более широкую полосу. Статья "Low Complexity Parametric Stereo Coding in MPEG-4", H.Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168, описывает вариант осуществления гибридного блока фильтров (см. раздел 3.2 и фиг.4). Это раскрытие ссылкой включается в настоящее описание. В указанном документе допускается частота дискретизации 48 кГц с (номинальной) шириной полосой пропускания полосы из 64-полосного блока QMF 375 Гц. Перцептуальная шкала частот Барка, однако, требует ширины полосы пропускания, приблизительно, 100 Гц для частот ниже 500 Гц. Поэтому первые 3 полосы QMF могут быть расщеплены на еще более узкие поддиапазоны посредством блока фильтров Найквиста. Первая полоса QMF может быть расщеплена на 4 полосы (плюс еще две для отрицательных частот), а вторая и третья полосы QMF могут быть расщеплены на две полосы каждая.
С другой стороны, адаптивное L/R- или M/S-кодирование предпочтительно осуществляется в области критически дискретизированного MDCT (как описано, например, в ААС) для того, чтобы обеспечить эффективное представление квантованного сигнала. Конверсия низведенного сигнала DMX и остаточного сигнала RES в псевдостереофонический сигнал Lp, Rp на этапе 2 преобразования может осуществляться во временной области, поскольку PS-кодер 1 и перцептуальный кодер 3 в любом случае могут быть связаны во временной области. В системе декодирования перцептуальный стереофонический декодер 11 и PS-декодер 13 также предпочтительно связаны во временной области. Поэтому конверсия псевдостереофонического сигнала Lp, Rp в низведенный сигнал DMX и остаточный сигнал RES на этапе 12 преобразования также может осуществляться во временной области.
Адаптивный стереофонический L/R- или M/S-кодер, такой как кодер 3, на фиг.1, как правило, представляет собой перцептуальный кодер звукового сигнала, который включает психоакустическую модель, позволяющую с высокой эффективностью осуществлять кодирование при низких битовых скоростях передачи данных. Примером такого кодера является кодер ААС, который использует кодирование преобразования в критически дискретизированной области MDCT в сочетании с зависящим от времени и от частоты квантованием, которое управляется с использованием психоакустической модели. Кроме того, принятие зависящего от времени и от частоты решения о выборе между L/R- и M/S-кодированием, как правило, управляется при помощи критериев перцептуальной энтропии, которые вычисляются с использованием психоакустической модели.
Перцептуальный стереофонический кодер (такой как кодер 3 на фиг.1) выполняет операции на псевдостереофоническом сигнале L/R (см. Lp, Rp на фиг.1). Для оптимизации эффективности кодирования стереофонического кодера (в частности, для того, чтобы он принимал правильное решение о выборе между L/R-кодированием и M/S-кодированием) предпочтительна модификация механизма психоакустического управления (включая механизм управления, принимающий решение о выборе между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием, механизм управления, который управляет зависящим от времени и от частоты квантованием) в перцептуальном стереофоническом кодере для того, чтобы он учитывал модификации сигнала (конверсию псевдо-L/R в DMX и RES с последующим PS-кодированием), которые применяются в декодере при генерировании конечного стереофонического выходного сигнала L, R. Эти модификации сигнала могут влиять на эффекты бинаурального маскирования, которые эксплуатируются механизмами психоакустического управления. Поэтому механизмы психоакустического управления, предпочтительно, должны быть надлежащим образом адаптированы. Для этого может оказаться полезным, чтобы механизмы психоакустического управления имели доступ не только к сигналу псевдо-L/R (см. L p, Rp на фиг.1), но и к параметрам PS-кодирования (см. позицию 5 на фиг.1) и/или к оригинальному стереофоническому сигналу L, R. Доступ механизмов психоакустического управления к параметрам PS-кодирования и к стереофоническому сигналу L, R показан на фиг.1 штриховой линией. Например, на основе этой информации может (могут) быть адаптирован (адаптированы) порог (пороги) маскирования.
Альтернативный подход к оптимизации психоакустического управления заключается в прибавлении к системе кодера детектора, формирующего этап деактивации, который обладает способностью при необходимости эффективно деактивировать PS-кодирование, предпочтительно, зависящим от времени и от частоты образом. Деактивация PS-кодирования является адекватной, например, тогда, когда ожидается, что стереофоническое L/R-кодирование будет более полезным, или когда психоакустическое управление может испытывать трудности с эффективным кодированием сигнала псевдо-L/R. PS-кодирование может быть эффективно деактивировано при задании матрицы H-1 понижающего микширования таким образом, чтобы матрица H-1 понижающего микширования с последующим преобразованием (см. этап 2 на фиг.1) соответствовала единичной матрице (т.е. операции отождествления) или единичной матрице, умноженной на некоторый коэффициент. Например, PS-кодирование может эффективно деактивироваться путем принудительного присвоения параметрам PS-кодирования IID - 0 дБ и ICC=0. В этом случае, как обсуждалось выше, псевдостереофонический сигнал Lp , Rp соответствует стереофоническому сигналу L, R.
Указанное управление модификацией параметров PS-кодирования посредством детектора показано на фиг.4. В данном случае детектор 20 принимает параметры 5 PS-кодирования, определяемые этапом 9 оценки параметров. Когда детектор не деактивирует PS-кодирование, детектор 20 пропускает параметры PS-кодирования на этап 8 понижающего микширования и к мультиплексору 7, т.е. в этом случае параметры 5 PS-кодирования соответствуют параметрам 5' PS-кодирования, подаваемым на этап 8 понижающего микширования. В случае, если детектор обнаруживает, что PS-кодирование неблагоприятно и должно быть деактивировано (для одной или нескольких частотных полос), детектор модифицирует затрагиваемые параметры 5 PS-кодирования (например, присваивает параметрам PS-кодирования, IID и/или ICC, значения IID=0 дБ и ICC=0) и подает модифицированные параметры 5' PS-кодирования на этап 8 понижающего микширования. Детектор, необязательно, также может учитывать левый и правый сигналы L, R для принятия решения о модификации параметров PS-кодирования (см. штриховые линии на фиг.4).
На нижеследующих фигурах термин QMF (квадратурный зеркальный фильтр или блок фильтров) также включает блок фильтров поддиапазонов QMF в сочетании с блоком фильтров Найквиста, т.е. конструкцию гибридного блока фильтров. Кроме того, все величины в нижеследующем описании могут быть зависящими от частоты, например, различные матрицы понижающего и повышающего микширования могут извлекаться для различных диапазонов частот. Кроме того, кодирование остаточного сигнала может покрывать только часть используемого диапазона частот звукового сигнала (т.е. остаточный сигнал кодируется лишь для части используемого диапазона частот звукового сигнала). Аспекты понижающего микширования, описываемые ниже, для некоторых частотных диапазонов могут проявляться в области QMF (например, в соответствии с известным уровнем техники), в то время как для других частотных диапазонов только, например, фазовые аспекты будут производиться в области комплексного QMF, а преобразование амплитуды будет производиться в области действительнозначного MDCT.
На фиг.5 изображена традиционная система PS-кодера. Каждый из стереофонических каналов L, R в первую очередь анализируется комплексным QMF 30 с М поддиапазонов, например, QMF с М=64 поддиапазонами. Сигналы поддиапазонов используются в PS-кодере 31 для оценки параметров 5 PS-кодирования и низведенного сигнала DMX. Низведенный сигнал DMX используется в SBR-кодере 32 для оценки параметров 33 SBR (репликации спектральной полосы). SBR-кодер 32 извлекает параметры 33 SBR, отображающие огибающую спектра оригинального высокополосного сигнала, возможно, в сочетании с критериями шума и тональности. В отличие от PS-кодера 31, SBR-кодер 32 не оказывает влияния на сигнал, проходящий к базовому кодеру 34. Низведенный сигнал DMX PS-кодера 31 синтезируется с использованием обратного QMF 35 с N поддиапазонами. Например, может использоваться комплексный QMF с N=32, где синтезируются только 32 самых низких поддиапазона из 64 поддиапазонов, используемых PS-кодером 31 и SBR-кодером 32. Таким образом, при использовании половины от общего количества поддиапазонов при том же размере кадра получается и проходит в базовый кодер 34 сигнал во временной области, содержащий половину ширины полосы пропускания в сравнении с входным сигналом. Из-за уменьшенной ширины полосы пропускания частота дискретизации может быть уменьшена наполовину (не показано). Базовый кодер 34 преобразовывает перцептуальное кодирование монофонического входного сигнала для генерирования битового потока 36. Параметры PS-кодирования внедряются в битовый поток 36 при помощи мультиплексора (не показан).
На фиг.6 показан следующий вариант осуществления системы кодера, которая объединяет PS-кодирование с использованием остаточного сигнала со стереофоническим базовым кодером 48, где стереофонический базовый кодер 48 пригоден для адаптивного перцептуального стереофонического L/R- и M/S-кодирования. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Входные каналы L, R, представляющие оригинальные левый и правый каналы, анализируются комплексным QMF 30 способом, сходным с обсужденным в связи с фиг.5. В отличие от PS-кодера 31 по фиг.5, PS-кодер 41 по фиг.6 не только выводит низведенный сигнал DMX, но также выводит и остаточный сигнал RES. Низведенный сигнал DMX используется SBR-кодером 32 для определения параметров 33 SBR низведенного сигнала DMX. На этапе 2 преобразования к низведенному DMX и остаточному RES сигналам применяется фиксированное преобразование DMXIRES в псевдо-L/R (например, преобразование M/S в L/R). Этап 2 преобразования на фиг.6 соответствует этапу 2 преобразования на фиг.1. Этап 2 преобразования создает сигнал Lp, Rp «псевдо-» левого и правого каналов для выполнения на них операций базовым кодером 48. В этом варианте осуществления изобретения обратное преобразование L/R в M/S применяется в области QMF перед синтезом поддиапазонов блоками фильтров 35. Предпочтительно количество N (например, N=32) поддиапазонов для синтеза соответствует половине количества М (например, М=64) поддиапазонов, используемых для анализа, и базовый кодер 48 выполняет операции на половинной частоте дискретизации. Следует отметить, что нет ограничений для использования 64 каналов поддиапазонов для QMF-анализа в кодере и 32 поддиапазонов для синтеза, так же возможны и другие значения в зависимости от того, какая частота дискретизации желательна для сигнала, принимаемого базовым кодером 48. Базовый стереофонический кодер 48 выполняет перцептуальное кодирование сигнала блоков фильтров 35 для генерирования сигнала 46 битового потока. Параметры 5 PS-кодирования внедряются в сигнал 46 битового потока посредством мультиплексора (не показан). Необязательно, базовым кодером 48 могут использоваться параметры PS-кодирования и/или оригинальный входной сигнал L/R. Эта информация указывает базовому кодеру 48 на то, как PS-кодер 41 вращается в стереофоническом пространстве. Эта информация может направлять базовый кодер 48 на то, как управлять квантованием оптимальным с точки зрения восприятия образом. Это показано на фиг.6 штриховыми линиями.
На фиг.7 показан следующий вариант осуществления системы кодера, которая сходна с системой по фиг.6. В отличие от варианта осуществления изобретения по фиг.6, на фиг.7 SBR-кодер 42 присоединяется в восходящем направлении относительно PS-кодера 41. На фиг.7 SBR-кодер 42 помещается перед PS-кодером 41 и, таким образом, выполняет операции на левом и правом каналах (в данном случае, в области QMF) вместо того, чтобы, как на фиг.6, выполнять операции на низведенном сигнале DMX.
По причине перестановки SBR-кодера 42, PS-кодер 41 может конфигурироваться для выполнения операций не на всей полосе пропускания входного сигнала, но, например, лишь на диапазоне частот ниже частоты перехода SBR. На фиг.7 параметры 43 SBR для диапазона SBR находятся в стереофоническом пространстве, а выход соответствующего PS-декодера, как будет обсуждаться позднее в связи с фиг.15, генерирует исходный стереофонический частотный диапазон для выполнения операций SBR-декодером. Эта модификация, т.е. присоединение модуля 42 SBR-кодера в восходящем направлении относительно модуля 41 PS-кодера в системе кодера, и, соответственно, размещение модуля SBR-декодера после PS-декодера в системе декодера (см. фиг.15), имеет преимущество, которое заключается в том, что можно уменьшить использование декоррелированного сигнала для генерирования стереофонического выходного сигнала. Следует отметить, что в случае полного отсутствия остаточного сигнала или его отсутствия для конкретной полосы частот, вместо него в PS-декодере используется декоррелированная версия низведенного сигнала DMX. Однако реконструкция, основанная на декоррелированном сигнале, снижает качество звука. Поэтому уменьшение использования декоррелированного сигнала приводит к увеличению качества звука.
Указанное преимущество варианта осуществления изобретения по фиг.7 по сравнению с вариантом осуществления изобретения по фиг.6 будет более подробно описано с отсылкой к фиг.8а-8d.
На фиг.8а визуализировано частотно-временное представление одного из двух выходных каналов L, R (на стороне декодера). В случае фиг.8а используется кодер, где модуль PS-кодирования размещается перед модулем SBR-кодирования, как в кодере по фиг.5 или фиг.6 (в декодере PS-декодер размещается после SBR-декодера, см. фиг.14). Кроме того, остаточный сигнал кодируется только в частотном диапазоне 50 с низкой полосой пропускания, который является меньшим, чем частотный диапазон 51 базового кодера. Как видно из визуализации по фиг.8а, частотный диапазон 52, где декоррелированный сигнал, который должен использоваться PS-декодером, покрывает весь частотный диапазон, кроме менее высокочастотного диапазона 50, покрываемого путем использования остаточного сигнала. Кроме того, SBR покрывает частотный диапазон 53, который начинается значительно выше, чем частотный диапазон декоррелированного сигнала. Таким образом, полный частотный диапазон разделяется на следующие частотные диапазоны: в более низкочастотном диапазоне (см. диапазон 50 на фиг.8а) используется кодирование формы сигнала; в среднем частотном диапазоне (см. область пересечения частотных диапазонов 51 и 52) используется кодирование формы сигнала в комбинации с декоррелированным сигналом; и в более высокочастотном диапазоне (см. частотный диапазон 53) используется регенерированный сигнал SBR, регенерируемый из более низких частот, в сочетании с декоррелированным сигналом, который генерируется PS-декодером.
На фиг.8b частотно-временное представление одного из двух выходных каналов L, R (на стороне декодера) визуализировано для случая, когда SBR-кодер присоединяется в восходящем направлении относительно PS-кодера в системе кодера (и SBR-декодер располагается после PS-декодера в системе декодера). На фиг.8b показан сценарий с низкой битовой скоростью передачи данных, где полоса пропускания 60 остаточного сигнала (там, где выполняется кодирование остаточного сигнала) находится ниже полосы пропускания базового кодера 61. Поскольку процесс SBR-декодирования выполняется на стороне декодера после PS-декодера (см. фиг.15), остаточный сигнал, используемый для низких частот, также используется и для реконструкции, по меньшей мере, части (см. частотный диапазон 64) более высоких частот в диапазоне 63 SBR.
Это преимущество становится еще более очевидным при выполнении операции на промежуточных битовых скоростях передачи данных, где ширина полосы пропускания остаточного сигнала приближается к, или становится равной, ширине полосы пропускания базового кодера. В этом случае частотно-временное представление по фиг.8а (где используется порядок PS-кодирования и SBR-кодирования по фиг.6) приводит к частотно-временному представлению, показанному на фиг.8c. На фиг.8c остаточный сигнал покрывает, в значительной мере, весь низкополосный диапазон 51 базового кодера; в частотном диапазоне 53 SBR PS-декодером используется декоррелированный сигнал. На фиг.8d визуализировано частотно-временное представление в случае предпочтительного порядка расположения кодирующих/декодирующих модулей (т.е. SBR-кодирование выполняется на стереофоническом сигнале перед PS-кодированием, как показано на фиг.7). В данном случае модуль PS-декодирования в декодере выполняет операции перед модулем SBR-декодирования, как показано на фиг.15. Таким образом, остаточный сигнал является частью низкочастотной полосы, используемой для высокочастотной реконструкции. Когда ширина полосы пропускания остаточного сигнала становится равной ширине полосы пропускания низведенного монофонического сигнала, никакая информация декоррелированного сигнала для декодера выходного сигнала не требуется (см. полный частотный диапазон, который на фиг.8d заштрихован).
На фиг.9а показан вариант осуществления базового стереофонического кодера 48 с адаптивным выбором стереофонического L/R- или M/S-кодирования в области MDCT-преобразования. Указанный стереофонический кодер 48 может быть использован на фиг.6 и 7. Базовый монофонический кодер 34, показанный на фиг.5, можно рассматривать как частный случай базового стереофонического кодера 48 по фиг.9а, в котором обрабатывается только один монофонический входной канал (т.е. тогда, когда отсутствует второй входной канал, показанный на фиг.9а штриховой линией).
На фиг.9b показан более обобщенный кодер. Для монофонических сигналов кодирование может переключаться между кодированием в области линейного предсказания (см. блок 71) и кодированием в области преобразования (см. блок 48). Кодер этого типа вводит несколько способов кодирования, которые могут адаптивно использоваться в зависимости от характеристик входного сигнала. В данном случае кодер может делать выбор между кодированием сигнала с использованием кодера 48 с преобразованием ААС-типа (пригодного для монофонических и стереофонических сигналов, с адаптивным выбором L/R- или M/S-кодирования в случае стереофонических сигналов) и с использованием кодера 71, относящегося к типу AMR-WB+(Adaptive Multi Rate-WideBand Plus), пригодного только для монофонических сигналов. Базовый кодер 71 AMR-WB+ оценивает остаточный сигнал линейного предсказателя 72 и, в свою очередь, также делает выбор между подходом кодирования преобразования остаточного сигнала линейного предсказания и классическим подходом речевого кодера ACELP (Algebraic Code Excited Linear Prediction) для кодирования остаточного сигнала линейного предсказания. Для выбора между кодером 48 с преобразованием ААС-типа и базовым кодером 71, относящимся к типу AMR-WB+, используется этап 73 принятия решения о выборе режима, который принимает решение о выборе между кодерами 48 и 71 на основе входного сигнала.
Кодер 48 представляет собой кодер ААС-типа на основе MDCT. Если этап 73 принятия решения о выборе режима направляет входной сигнал на использование кодирования на основе MDCT, сигналы, входной монофонический входной сигнал или стереофонические входные сигналы, кодируются MDCT-кодером 48 на базе ААС. MDCT-кодер 48 выполняет MDCT-анализ одного или двух сигналов на этапах MDCT 74. В случае стереофонического сигнала на этапе 75 перед квантованием и кодированием также выполняется принятие решения о выборе M/S или L/R на основании полосы частот. Стереофоническое L/R-кодирование или стереофоническое M/S-кодирование выбирается зависящим от частоты образом. Этап 75 также выполняет преобразование L/R в M/S. Если для конкретной полосы частот принимается решение о M/S-кодировании, этап 75 выводит для этой полосы частот сигнал M/S. В противном случае этап 75 выводит для этой полосы частот сигнал L/R.
Таким образом, если используется режим кодирования преобразования, функция стереофонического кодирования лежащего в ее основе базового кодера может быть использована для стереофонического сигнала с полной эффективностью.
Если этап 73 принятия решения о выборе режима направляет монофонический сигнал в кодер 71 в области линейного предсказания, монофонический сигнал затем анализируется посредством анализа линейного предсказания в блоке 72. Затем принимается решение о кодировании остаточного сигнала LP посредством кодера 76 ACELP-типа во временной области или кодером 77, относящимся к типу ТСХ (Transform Coded eXcitation), который выполняет операции в области MDCT. Кодер 71 в области линейного предсказания не обладает какой-либо присущей ему способностью к стереофоническому кодированию. Поэтому для того, чтобы позволить кодеру 71 в области линейного предсказания кодировать стереофонический сигнал, может быть использована конфигурация кодера, сходная с конфигурацией, приведенной на фиг.5. В этой конфигурации PS-кодер генерирует параметры 5 PS-кодирования и низведенный монофонический сигнал DMX, который затем кодируется кодером в области линейного предсказания.
На фиг.10 показан следующий вариант осуществления системы кодера, где части по фиг.7 и фиг.9 объединены по-новому. Блок 2 преобразования DMXIRES в псевдо-L/R, описанный на фиг.7, располагается внутри низводящего кодера 70 ААС-типа перед этапом стереофонического MDCT-анализа74. Этот вариант осуществления изобретения обладает тем преимуществом, что преобразование 2 DMXIRES в псевдо-L/R применяется только тогда, когда используется базовый стереофонический MDCT-кодер. Поэтому, когда используется режим кодирования преобразования, полная эффективность функции стереофонического кодирования лежащего в ее основе базового кодера может использоваться для стереофонического кодирования частотного диапазона, покрываемого остаточным сигналом.
В то время, как этап 73 принятия решения о выборе режима по фиг.9b выполняет операции как на монофоническом входном сигнале, так и на стереофоническом входном сигнале, этап принятия решения 73' по фиг.10 выполняет операции на низведенном сигнале DMX и остаточном сигнале RES. В случае монофонического входного сигнала, монофонический сигнал может непосредственно использоваться как сигнал DMX, сигнал RES может приравниваться к нулю, и параметрам PS-кодирования по умолчанию могут присваиваться значения IID=0 дБ и ICC=1.
Если этап 73' принятия решения о выборе режима направляет низведенный сигнал DMXb кодер 71 в области линейного предсказания, низведенный сигнал DMX затем анализируется посредством анализа линейного предсказания в блоке 72. Затем принимается решение о том, кодировать ли остаточный сигнал LP посредством кодера 76 ACELP-типа во временной области или посредством кодера 77, относящегося к типу ТСХ (Transform Coded eXcitation), который выполняет операции в области MDCT. Кодер 71 в области линейного предсказания не обладает какой-либо присущей ему способностью к стереофоническому кодированию, которая могла бы использоваться для кодирования остаточного сигнала в дополнение к низведенному сигналу DMX. Поэтому при кодировании низведенного сигнала DMX кодером 71 в области линейного предсказания для кодирования остаточного сигнала RES используется специализированный кодер 78 остаточного сигнала. Этот кодер может, например, представлять собой монофонический кодер ААС.
Следует отметить, что кодеры 71 и 78 по фиг.10 могут быть пропущены (в этом случае этап 73' принятия решения о выборе режима более не является необходимым).
На фиг.11a показаны подробности следующего, альтернативного варианта осуществления системы кодера, который достигает тех же преимуществ, что и вариант осуществления изобретения по фиг.10. В отличие от варианта по фиг.10, на фиг.11а преобразование 2 DMXIRES в псевдо-L/R размещается после MDCT-анализа 74 базового кодера 70, т.е. преобразование выполняется в области MDCT. Преобразование в блоке 2 является линейным и не зависящим от времени и поэтому может размещаться после MDCT-анализа 74. Остальные блоки по фиг.10, которые не показаны на фиг.11, могут, необязательно, добавляться так же, как на фиг.11а. В альтернативном варианте блоки MDCT-анализа 74 также могут размещаться после блока 2 преобразования.
На фиг.l1b проиллюстрирована одна из реализаций варианта осуществления изобретения по фиг.11a. На фиг.l1b показана иллюстративная реализация этапа 75 выбора между M/S-кодированием и L/R-кодированием. Этап 75 включает этап 98 преобразования в сумму и разность (точнее, этап преобразования L/R в M/S), который принимает псевдостереофонический сигнал L p, Rp. Этап 98 преобразования генерирует псевдосредний/побочный сигнал Мр, Sp путем выполнения преобразования L/R в M/S. За исключением возможного коэффициента усиления, применяются следующие уравнения: Mp=DMX, Sp=RES.
Этап 75 принимает решение о выборе между L/R-кодированием и M/S-кодированием. На основе сделанного выбора выбирается (см. селекторный переключатель) или псевдостереофонический сигнал Lp, Rp, или псевдосредний/побочный сигнал Мр, Sp, который кодируется в блоке 97 ААС. Следует отметить, что также могут использоваться два блока 97 ААС (не показанные на фиг.l1b), где первый блок 97 ААС предназначен для псевдостереофонического сигнала Lp, Rp , и второй блок 97 ААС предназначен для псевдосреднего/побочного сигнала Мр, Sp. В этом случае выбор L/R или M/S делается путем выбора или выходного сигнала первого блока 97 ААС, или выходного сигнала второго блока 97 ААС.
На фиг.11с показан альтернативный вариант осуществления изобретения по фиг.11a. В данном случае этап 2 преобразования в явном виде не используется. Вместо этого этап 2 преобразования и этап 75 объединяются в единый этап 75'. Низведенный сигнал DMX и остаточный сигнал RES подаются на этап 99 преобразования в сумму и разность (точнее, на этап преобразования DMXIRES в псевдо-L/R), составляющий часть этапа 75'. Этап 99 преобразования генерирует псевдостереофонический сигнал Lp, Rp. Этап 99 преобразования DMXIRES в псевдо-L/R по фиг.11с сходен с этапом 98 преобразования L/R в M/S по фиг.11b (за исключением, возможно, отличающегося коэффициента усиления). Тем не менее, на фиг.11с выбор между M/S-декодированием и L/R-декодированием необходимо инвертировать относительно фиг.11b. Следует отметить, что на фиг.11b и 11с положение переключателя для выбора L/R или M/S показано в положении Lp/Rp,которое является верхним на фиг.11b и нижним - на фиг.11c. Так визуализируется представление об обратном значении выбора L/R или M/S.
Следует отметить, что на фиг.11b и 11c для каждой полосы частот в области MDCT предпочтительно существует отдельный переключатель, и, таким образом, выбор между L/R и M/S может быть как зависящим от времени, так и зависящим от частоты. Иными словами, положение переключателя предпочтительно зависит от частоты. Этапы 98 и 99 преобразования могут преобразовывать весь используемый диапазон частот или только одну частотную полосу.
Кроме того, следует учитывать, что все блоки, 2, 98 и 99, могут быть названы «блоками преобразования в сумму и разность», поскольку все эти блоки реализуют матрицу преобразования в форме
.
Единственное, что может отличаться в блоках 2, 98, 99 - это коэффициент усиления c.
На фиг.12 описан следующий вариант осуществления системы кодера. Он использует расширенный набор параметров PS-кодирования, который, в дополнение к IID и ICC (описанным выше), включает еще два параметра: IPD (разность фаз между каналами, см. ipd ниже) и OPD (общую разность фаз, см. opd ниже), которые позволяют характеризовать фазовое соотношение между двумя каналами, L и R, стереофонического сигнала. Пример этих фазовых параметров приведен в стандарте ISO/IEC 14496-3, подпункт 8.6.4.6.3, который ссылкой включается в настоящее описание. При использовании фазовых параметров результирующая матрица HCOMPLEX повышающего микширования (и обратная ей матрица ) становится комплекснозначной в соответствии с уравнением:
,
где
,
и где
1= opd
2= opd- ipd.
Этап 80 PS-кодера, который выполняет операции в области комплексного QMF, принимает во внимание только фазовые зависимости каналов L, R. Низводящий поворот (т.е. преобразование из области L/R в область DMX/RES, которая описывается приведенной выше матрицей FT1) принимается во внимание в области MDCT, составляющего часть базового стереофонического кодера 81. Поэтому фазовые зависимости между двумя каналами извлекаются в области комплексного QMF, в то время как остальные, действительнозначные, зависимости формы сигналов извлекаются в действительнозначной области критически дискретизированного MDCT, составляющего часть механизма стереофонического кодирования используемого базового кодера. Это обладает тем преимуществом, что извлечение линейных зависимостей между каналами может быть плотно интегрировано в стереофоническое кодирование базового кодера (хотя, для предотвращения наложения спектров, в области критически дискретизированного MDCT - только для диапазона частот, который покрывается кодированием остаточного сигнала, возможно, за вычетом «защитной полосы» на оси частот).
Этап 80 регулирования фазы PS-кодера по фиг.12 извлекает параметры PS-кодирования, связанные с фазой, например, параметры IPD (разность фаз между каналами) и OPD (общую разность фаз). Поэтому матрица регулирования фазы, которую он генерирует, может соответствовать следующему уравнению:
Как обсуждалось выше, часть низводящего вращения модуля PS-кодирования имеет дело с модулем 81 стереофонического кодирования базового кодера по фиг.12. Модуль 81 стереофонического кодирования, который выполняет операции в области MDCT, показан на фиг.13. Модуль 81 стереофонического кодирования принимает стереофонический сигнал L , R с отрегулированной фазой в области MDCT. Этот сигнал подвергается понижающему микшированию на этапе 82 понижающего микширования посредством матрицы Н ' низводящего вращения, которая, как обсуждалось выше, представляет собой действительнозначную часть комплексной матрицы понижающего микширования, и, таким образом, генерируются низведенный сигнал DMX и остаточный сигнал RES. За операцией понижающего микширования следует преобразование L/R в M/S согласно настоящей заявке (см. этап 2 преобразования), и, таким образом, генерируется псевдостереофонический сигнал Lp, R p. Псевдостереофонический сигнал Lp, Rp обрабатывается посредством алгоритма стереофонического кодирования (см. адаптивный стереофонический M/S- или L/R-кодер 83), в данном конкретном варианте осуществления изобретения механизм стереофонического кодирования, который зависит от критериев перцептуальной энтропии, принимает решение о кодировании L/R-представления сигнала или M/S-представления сигнала. Это решение предпочтительно зависит от времени и от частоты.
На фиг.14 показан вариант осуществления системы декодера, которая пригодна для декодирования битового потока 46, генерируемого системой кодера, показанной на фиг.6. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Базовый декодер 90 декодирует битовый поток 46 в псевдолевый и псевдоправый каналы, которые преобразовываются в область QMF блоками фильтров 91. Затем на этапе 12 преобразования выполняется преобразование полученного псевдостереофонического сигнала Lp, Rp из L/R в DMX/RES, и, таким образом, создаются низведенный сигнал DMX и остаточный сигнал RES. При использовании SBR-кодирования эти сигналы являются низкополосными сигналами, например, низведенный сигнал DMX и остаточный сигнал RES могут содержать только информацию о звуковом сигнале для низкочастотной полосы с частотой до, приблизительно, 8 кГц. Низведенный сигнал DMX используется SBR-декодером 93 для реконструкции высокочастотной полосы на основе принятых параметров SBR (не показаны). Выходной сигнал SBR-декодера 93 (включающий низкочастотную и реконструированную высокочастотную полосы низведенного сигнала DMX) и остаточный сигнал RES вводятся в PS-декодер 94, выполняющий операции в области QMF (в частности, в области гибридного блока QMF-фильтр+фильтр Найквиста). Низведенный сигнал DMX на входе PS-декодера 94 также содержит информацию о звуковом сигнале в высокочастотной полосе (например, с частотой до 20 кГц), в то время как остаточный сигнал RES на входе в PS-декодер 94 представляет собой низкополосный сигнал (например, ограниченный частотой до 8 кГц). Поэтому для высокочастотной полосы (например, для полосы с частотой от 8 кГц до 20 кГц) PS-декодер 94 вместо остаточного сигнала RES с ограниченной полосой использует декоррелированную версию низведенного сигнала DMX. Таким образом, декодированные сигналы на выходе PS-декодера 94 базируются на остаточном сигнале только до частоты 8 кГц. После PS-декодирования оба выходных канала PS-декодера 94 преобразовываются во временную область блоками фильтров 95, и, таким образом, генерируется выходной стереофонический сигнал L, R.
На фиг.15 показан вариант осуществления системы декодирования, которая пригодна для декодирования битового потока 46, генерируемого системой кодера по фиг.7. Этот вариант осуществления изобретения является единственно иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Принцип действия варианта осуществления изобретения по фиг.15 сходен с принципом действия системы декодера, описанной на фиг.14. В отличие от фиг.14, SBR-декодер 96 на фиг.15 располагается на выходе PS-декодера 14. Кроме того, SBR-декодер использует параметры SBR (на показаны), формирующие данные об огибающей спектра, в отличие от монофонических параметров SBR по фиг.14. Низведенный и остаточный сигналы на входе PS-декодера 94, как правило, представляют собой низкополосные сигналы, например, низведенный сигнал DMX и остаточный сигнал RES могут содержать информацию о звуковом сигнале только для низкочастотной полосы, например, с частотой до, приблизительно, 8 кГц. На основе низкополосных низведенного сигнала DMX и остаточного сигнала RES PS-кодер 94 определяет низкополосный стереофонический сигнал, например с частотой до, приблизительно, 8 кГц. На основе низкополосного стереофонического сигнала и стереофонических параметров SBR, SBR-декодер 96 реконструирует высокочастотную часть стереофонического сигнала. По сравнению с вариантом осуществления изобретения по фиг.14, вариант осуществления изобретения по фиг.15 обеспечивает преимущество, которое заключается в том, что декоррелированный сигнал не требуется (см. также фиг.8d), и, таким образом, достигается улучшенное качество звука, в то время как на фиг.14 для высокочастотной части требуется декоррелированный сигнал (см. также фиг.8c), что, таким образом, снижает качество звука.
На фиг.16а показан вариант осуществления системы декодирования, которая является обратной по отношению к системе кодирования по фиг.11а. Входной сигнал битового потока подается в блок 100 декодера, который генерирует первый декодированный сигнал 102 и второй декодированный сигнал 103. В декодере выбирается M/S-кодирование или L/R-кодирование. Выбор указывается в принимаемом битовом потоке. На основе этой информации на этапе 101 делается выбор M/S или L/R. В случае, если декодером выбрано M/S, первый 102 и второй 103 сигналы преобразовываются в сигнал (псевдо-) L/R. В случае, если декодером выбрано L/R, первый 102 и второй 103 сигналы могут проходить этап 103 без преобразования. Сигнал псевдо-L/R, Lp, Rp, на выходе этапа 101 конвертируется в сигнал DMXIRES посредством этапа 12 преобразования (на этом этапе выполняется квазипреобразование L/R в M/S). Предпочтительно, этапы 100, 101 и 12 по фиг.16а выполняют операции в области MDCT. Для преобразования низведенного сигнала DMX и остаточного сигнала RES во временную область могут использоваться блоки 104 конверсии. Затем полученный сигнал подается в PS-декодер (не показан) и, необязательно, в SBR-декодер, как показано на фиг.14 и 15. В альтернативном варианте блоки 104 также могут размещаться и перед блоком 12.
На фиг.16b проиллюстрирована реализация варианта осуществления изобретения по фиг.16а. На фиг.16b показана иллюстративная реализация этапа 101, предназначенного для выбора между M/S-декодированием и L/R-декодированием. Этап 101 включает этап 105 преобразования в сумму и разность (преобразования M/S в L/R), который принимает первый 102 и второй 103 сигналы.
На основе информации о кодировании, предоставляемой в битовом потоке, этап 101 делает выбор между L/R-кодированием и M/S-кодированием. Если делается выбор в пользу L/R-кодирования, то выходной сигнал блока 100 декодирования подается на этап 12 преобразования.
На фиг.16с показана альтернатива варианту осуществления изобретения по фиг.16а. В данном случае этап 12 преобразования в явном виде не используется. Вместо этого этап 12 преобразования и этап 101 объединяются в единый этап 101'. Первый 102 и второй 103 сигналы подаются на этап 105' преобразования в сумму и разность (точнее, на этап преобразования псевдо-L/R в DMX/RES), составляющий часть этапа 101'. Этап 105' преобразования генерирует сигнал DMXIRES. Этап 105' преобразования по фиг.16с сходен с этапом 105 преобразования по фиг.16b или идентичен ему (за исключением, возможно, отличающегося коэффициента усиления). На фиг.16c выбор между M/S-декодированием и L/R-декодированием необходимо инвертировать относительно фиг.16b. На фиг.16с переключатель находится в нижнем положении, в то время как на фиг.16b переключатель находится в верхнем положении. Так визуализируется инверсия выбора L/R или M/S (сигнал выбора может инвертироваться просто посредством обратного преобразователя).
Следует отметить, что на фиг.16b и 16с для каждой полосы частот в области MDCT предпочтительно существует индивидуальный переключатель, и, таким образом, выбор между L/R и M/S может зависеть как от времени, так и от частоты. Этапы 105 и 105' преобразования могут преобразовывать весь используемый частотный диапазон или только единичную полосу частот.
На фиг.17 показан следующий вариант осуществления системы кодирования, предназначенной для кодирования стереофонического сигнала L, R в сигнал битового потока. Система кодирования включает этап 8 понижающего микширования, предназначенный для генерирования на основе стереофонического сигнала низведенного сигнала DMX и остаточного сигнала RES. Кроме того, система кодирования включает этап 9 определения параметров, предназначенный для определения одного или нескольких параметров 5 параметрического стереофонического кодирования. Кроме того, система кодирования включает средства 110 перцептуального кодирования в нисходящем направлении относительно этапа 8 понижающего микширования. Выбираются следующие режимы кодирования:
- кодирование, на основе суммарного сигнала низведенного сигнала DMX и остаточного сигнала RES и на разностном сигнале низведенного сигнала DMX и остаточного сигнала RES, или
- кодирование, на основе низведенного сигнала DMX и остаточного сигнала RES.
Предпочтительно, выбор зависит от времени и от частоты.
Средства 110 кодирования включают этап 111 преобразования в сумму и разность, который генерирует суммарный и разностный сигналы. Кроме того, средства 110 кодирования включают блок 112 выбора, предназначенный для выбора кодирования на основе суммарного и разностного сигналов или на основе низведенного сигнала DMX и остаточного сигнала RES. Кроме того, предусматривается блок 113 кодирования. В альтернативном варианте может использоваться два блока 113 кодирования, где первый блок 113 кодирования кодирует сигналы DMX и RES, и второй блок 113 кодирования кодирует суммарный и разностный сигналы. В этом случае блок 112 выбора находится в нисходящем направлении относительно двух блоков 113 кодирования.
Блок 111 преобразования в сумму и разность имеет форму:
.
Блок 111 преобразования может соответствовать блоку преобразования 99 фиг.11c.
Выходной сигнал перцептуального кодера 110 комбинируется с параметрами 5 параметрического стереофонического сигнала в мультиплексоре 7, образуя результирующий битовый поток 6.
В отличие от конструкции по фиг.17, кодирование на основе низведенного сигнала DMX и остаточного сигнала RES может быть реализовано путем кодирования результирующего сигнала, который генерируется путем преобразования низведенного сигнала DMX и остаточного сигнала RES посредством двух последовательных преобразований в сумму и разность, как показано на фиг.11b (см. два блока 2 и 98 преобразования). Результирующий сигнал после двух преобразований в сумму и разность соответствует низведенному сигналу DMX и остаточному сигналу RES (за исключением, возможно, отличающегося коэффициента усиления).
На фиг.18 показан вариант осуществления системы декодера, которая является обратной по отношению к системе кодера по фиг.17. Система декодера включает средства 120, предназначенные для перцептуального декодирования на основе сигнала битового потока. Перед декодированием параметры PS-кодирования отделяются от сигнала 6 битового потока в демультиплексоре 10. Средства 120 декодирования включают базовый декодер 121, который (путем декодирования) генерирует первый сигнал 122 и второй сигнал 123. Средства декодирования выводят низведенный сигнал DMX и остаточный сигнал RES.
Низведенный сигнал DMX и остаточный сигнал RES являются селективно
- на основе суммы первого сигнала 122 и второго сигнала 123 и на разности первого сигнала 122 и второго сигнала 123,
или
- на основе первого сигнала 122 и второго сигнала 123.
Предпочтительно, выбор зависит от времени и от частоты. Выбор выполняется на этапе 125 выбора.
Средства 120 декодирования включают этап 124 преобразования в сумму и разность, который генерирует суммарный и разностный сигналы.
Преобразование в сумму и разность в блоке 124 имеет форму:
.
Блок 124 преобразования может соответствовать блоку 105' по фиг.16c.
После выбора сигналы DMX и RES подаются на этап 126 повышающего микширования для генерирования стереофонического сигнала L, R на основе низведенного сигнала DMX и остаточного сигнала RES. Операция повышающего микширования зависит от параметров 5 PS-кодирования.
Предпочтительно, выбор на фиг.17 и 18 является зависящим от частоты. На фиг.17, например, преобразование времени в частоту (например, посредством MDCT или блока анализирующих фильтров) может выполняться в качестве первого этапа в средствах 110 перцептуального кодирования. На фиг.18, например, преобразование частоты во время (например, посредством обратного MDCT или блока синтезирующих фильтров) может выполняться на последнем этапе в средствах 120 перцептуального декодирования.
Следует отметить, что в описанных выше вариантах осуществления изобретения сигналы, параметры и матрицы могут быть зависящими от частоты или независящими от частоты, и/или зависящими от времени или независящими от времени. Описанные этапы вычислений могут осуществляться для отдельных частот или для полной полосы частот звукового сигнала.
Кроме того, следует отметить, что все различные преобразования в сумму и разность, т.е. преобразование DMXIRES в псевдо-L/R, преобразование псевдо-L/R в DMXIRES, преобразование L/R в M/S и преобразование M/S в L/R, имеют форму
.
Единственное, что может отличаться, - это коэффициент усиления с. Поэтому, в принципе, каждое из этих преобразований может быть заменено другим преобразованием из числа указанных преобразований. Если усиление в процессе кодирования не является корректным, его можно компенсировать в ходе процесса декодирования. Кроме того, если разместить два одинаковых или два различных преобразования в сумму и разность последовательно, результирующее преобразование будет соответствовать единичной матрице (возможно, умноженной на коэффициент усиления).
В системе кодера, включающей PS-кодер и SBR-кодер, возможны различные конфигурации PS/SBR. В первой конфигурации, показанной на фиг.6, SBR-кодер 32 присоединяется в нисходящем направлении относительно PS-кодера 41. Во второй конфигурации, показанной на фиг.7, SBR-кодер 42 присоединяется в восходящем направлении относительно PS-кодера 41. В зависимости, например, от требуемой целевой битовой скорости передачи данных, свойств базового кодера и/или одного или нескольких различных факторов, с целью обеспечения наилучших рабочих характеристик, одним конфигурациям может отдаваться предпочтение перед другими конфигурациями. Как правило, для менее высоких битовых скоростей передачи данных, может быть более предпочтительной первая конфигурация, в то время как для более высоких битовых скоростей передачи данных может оказаться более предпочтительной вторая конфигурация. Поэтому желательно, чтобы система кодера поддерживала обе эти конфигурации для того, чтобы она была способна делать выбор предпочтительной конфигурации в зависимости от, например, требуемой целевой битовой скорости передачи данных и/или одного или нескольких других критериев.
В системе декодера, включающей PS-декодер и SBR-декодер, также возможны различные конфигурации PS/SBR. В первой конфигурации, показанной на фиг.14, SBR-декодер 93 присоединяется в восходящем направлении относительно PS-декодера 94. Во второй конфигурации, показанной на фиг.15, SBR-декодер 96 присоединяется в нисходящем направлении относительно PS-декодера 94. Для достижения корректного выполнения операций конфигурация системы декодера должна соответствовать конфигурации системы кодера. Если кодер конфигурируется в соответствии с фиг.6, то декодер, соответственно, конфигурируется в соответствии с фиг.14. Если кодер конфигурируется в соответствии с фиг.7, то декодер, соответственно, конфигурируется в соответствии с фиг.15. Для того чтобы обеспечить корректное выполнение операций, кодер предпочтительно подает в декодер сигнал о конфигурации PS/SBR, которая была выбрана для кодирования (и, таким образом, о конфигурации PS/SBR, которая должна быть выбрана для декодирования). На основе этой информации декодер делает выбор надлежащей конфигурации декодера.
Как обсуждалось выше, для обеспечения корректной работы декодера предпочтительно существует механизм передачи из кодера в декодер, сигнала о конфигурации, которая должна использоваться в декодере. Это может выполняться явно (например, посредством специализированного бита или поля в заголовке конфигурации битового потока, как будет обсуждаться ниже) или неявно (например, путем проверки, являются данные SBR монофоническими или стереофоническими в случае присутствия данных PS-кодирования).
Как обсуждалось выше, для передачи сигнала о выбранной конфигурации PS/SBR может использоваться специализированный элемент в заголовке битового потока, передаваемого из кодера в декодер. Указанный заголовок битового потока несет необходимую информацию о конфигурации, которая требуется для предоставления декодеру возможности корректно декодировать данные в битовом потоке. Специализированный элемент в заголовке битового потока может представлять собой, например, однобитный флаг, поле или индекс, указывающий на конкретную запись в таблице, которая определяет различные конфигурации декодера.
Вместо включения в заголовок битового потока дополнительного специализированного элемента для передачи сигнала о конфигурации PS/SBR, для выбора корректной конфигурации PS/SBR системой декодирования может производиться оценка информации, которая уже присутствует в битовом потоке. Например, выбор конфигурации PS/SBR может выводиться из информации о конфигурации PS-декодера и SBR-декодера в заголовке битового потока. Информация о конфигурации, как правило, указывает, следует конфигурировать SBR-декодер для монофонических операций или для стереофонических операций. Если, например, PS-декодер задействован, и SBR-декодер сконфигурирован для монофонических операций (как указывается в информации о конфигурации), может быть выбрана конфигурация PS/SBR согласно фиг.14. Если, например, PS-декодер задействован, и SBR-декодер сконфигурирован для стереофонических операций (как указывается в информации о конфигурации), может быть выбрана конфигурация PS/SBR согласно фиг.15.
Описанные выше варианты осуществления изобретения являются лишь иллюстрацией принципов настоящей заявки. Следует понимать, что изменения и модификации конфигураций и деталей, описанных в данном описании, будут очевидны для специалистов в данной области. Поэтому предполагается, что объем притязаний заявки не ограничивается конкретными деталями, представленными путем описания и разъяснения вариантов осуществления изобретения в данном описании.
Системы и способы, раскрытые в данной заявке, могут быть реализованы в качестве программного обеспечения, встроенного программного обеспечения, аппаратного обеспечения или их комбинации. Некоторые, или все, компоненты могут быть реализованы как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или микропроцессоре, или реализованы как аппаратное обеспечение или как специализированные интегральные микросхемы.
Типичными устройствами, применяющими раскрытые системы и способы, являются портативные аудиоплейеры, устройства мобильной связи, телевизионные приставки, телевизоры, AVR (аудио-видео тюнеры), персональные компьютеры и т.д.
Класс H04S1/00 Двухканальные системы