способ и устройство масштабируемого кодирования- декодирования стереофонического звукового сигнала (варианты)

Классы МПК:H03M7/38 адаптивное
Автор(ы):,
Патентообладатель(и):САМСУНГ ЭЛЕКТРОНИКС КО., ЛТД. (KR)
Приоритеты:
подача заявки:
1998-07-09
публикация патента:

Изобретение относится к кодированию-декодированию стереофонического звукового сигнала. Достигаемый при этом технический результат состоит в повышении эффективности кодирования. Он обеспечивается благодаря тому, что в способе для кодирования звуковых сигналов в многоуровневый поток данных, имеющий основной уровень и по меньшей мере два уровня расширения, входные звуковые сигналы обрабатывают и квантуют для каждого заранее определенного диапазона кодирования; затем кодируют квантованные данные, соответствующие основному уровню, из числа квантованных данных, и следующему уровню расширения кодированного основного уровня; и последовательно выполняют этапы кодирования уровня для всех уровней расширения, для формирования потоков двоичных разрядов, причем дополнительную информацию и квантованные данные, соответствующие подлежащему кодированию уровню, представляют разрядами одного и того же заранее определенного числа, и затем арифметически кодируют с использованием заранее определенной вероятностной модели в порядке от последовательностей старших двоичных разрядов до последовательностей младших двоичных разрядов, причем разрядно-модульные данные левого канала и данные правого канала поочередно кодируют в единицах заранее определенных векторов. 4 с. и 22 з.п.ф-лы, 65 табл., 5 ил.
Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5, Рисунок 6, Рисунок 7, Рисунок 8, Рисунок 9, Рисунок 10, Рисунок 11, Рисунок 12, Рисунок 13, Рисунок 14, Рисунок 15, Рисунок 16, Рисунок 17, Рисунок 18, Рисунок 19, Рисунок 20, Рисунок 21, Рисунок 22, Рисунок 23, Рисунок 24, Рисунок 25, Рисунок 26, Рисунок 27, Рисунок 28, Рисунок 29, Рисунок 30, Рисунок 31, Рисунок 32, Рисунок 33, Рисунок 34, Рисунок 35, Рисунок 36, Рисунок 37, Рисунок 38, Рисунок 39, Рисунок 40, Рисунок 41, Рисунок 42, Рисунок 43, Рисунок 44, Рисунок 45, Рисунок 46, Рисунок 47, Рисунок 48, Рисунок 49, Рисунок 50, Рисунок 51

Формула изобретения

1. Способ масштабируемого кодирования стереофонического звукового сигнала для кодирования звуковых сигналов в многоуровневый поток данных, имеющий основной уровень и, по меньшей мере, два уровня расширения, отличающийся тем, что содержит этапы: обработки входных звуковых сигналов и их квантования для каждого заранее определенного диапазона кодирования; кодирования квантованных данных, соответствующих основному уровню, из числа квантованных данных; кодирования квантованных данных, соответствующих следующему уровню расширения кодированного основного уровня и оставшихся квантованных данных, не кодированных из-за предела размера уровня и принадлежащих кодированному уровню; и последовательного выполнения этапов кодирования уровня для всех уровней расширения, для формирования потоков двоичных разрядов, причем этап кодирования основного уровня, этап кодирования уровня расширения и последующий этап кодирования выполняют так, что дополнительная информация и квантованные данные, соответствующие подлежащему кодированию уровню, представляют разрядами того же самого заранее определенного числа, и затем арифметически кодируют с использованием заранее определенной вероятностной модели в порядке, простирающемся от последовательностей старших двоичных разрядов до последовательностей младших двоичных разрядов, причем разрядно-модульные данные левого канала и данные правого канала поочередно кодируют в единицах заранее определенных векторов.

2. Способ по п. 1, отличающийся тем, что дополнительная информация включает в себя, по меньшей мере, масштабные множители и информацию относительно вероятностной модели, подлежащую использованию в арифметическом кодировании.

3. Способ по п. 1, отличающийся тем, что заранее определенные векторы являются четырехмерными векторами, образуемыми соединением четырех разрядно-модульных звуковых данных канала в один вектор.

4. Способ по п. 3, отличающийся тем, что четырехмерные векторы разделены на два подвектора согласно предварительно установленным состояниям, указывающим, кодированы ли ненулевые разрядно-модульные частотные составляющие или нет, для их последующего кодирования.

5. Способ по п. 2, отличающийся тем, что этап кодирования масштабных множителей содержит этапы: получения максимального масштабного множителя; получения разности между максимальным масштабным множителем и первыми масштабными множителями и арифметического кодирования разности; и получения разностей между непосредственно предшествующим арифметически кодированным масштабным множителем и соответствующими масштабными множителями, следующими за первым масштабным множителем, преобразования разностей в заранее определенную величину и арифметического кодирования преобразованной величины.

6. Способ по п. 5, отличающийся тем, что на этапе преобразования используют вероятностные модели, перечисленные в таблице 5.1.

7. Способ по п. 5, отличающийся тем, что на этапе арифметического кодирования используют вероятностные модели, перечисленные в таблицах 5.3-5.4.

8. Способ по п. 2, отличающийся тем, что этап кодирования масштабных множителей содержит этапы: получения максимального масштабного множителя; и получения разностей между максимальным масштабным множителем и соответствующими масштабными множителями и арифметического кодирования разностей.

9. Способ по п. 1, отличающийся тем, что кодируют информацию заголовка, обычно используемую для всех диапазонов, а дополнительную информацию и квантованные частоты, необходимые для соответствующего уровня, формируют с помощью разрядно-модульной информации с последующим кодированием, для получения многоуровневой структуры.

10. Способ по п. 1, отличающийся тем, что квантование выполняют на этапах: преобразования входных звуковых сигналов временной области в сигналы частотной области; соединения преобразованных сигналов в качестве сигналов заранее определенных диапазонов масштабного множителя с помощью временно-частотного преобразования и вычисления порога маскирования в каждом диапазоне масштабного множителя; выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования; выполнения обработки интенсивности стереофонических сигналов таким образом, что кодируют только квантованную информацию диапазона масштабного множителя для одного из двух каналов, и передают только масштабный множитель для другого канала; предсказания частотных коэффициентов текущего кадра; выполнения обработки среднего/бокового стереофонических сигналов для преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал; и квантования сигналов для каждого заранее определенного диапазона кодирования так, чтобы шум квантования каждого диапазона был меньше, чем порог маскирования.

11. Способ по п. 1, отличающийся тем, что, когда квантованные данные состоят из знаковых данных и данных величины, этапы кодирования основного уровня и уровней расширения и формирования потоков двоичных разрядов содержат этапы: арифметического кодирования последовательностей старших разрядов, состоящих из старших двоичных разрядов данных величины; кодирования знаковых данных, соответствующих ненулевым данным из числа кодированных последовательностей старших двоичных разрядов; кодирования последовательностей старших двоичных разрядов из числа не кодированных данных величины цифровых данных; кодирования не кодированных знаковых данных из числа знаковых данных, соответствующих ненулевым данным величины из числа кодированных последовательностей разряда; и выполнения этапа кодирования величины и этапа кодирования знака в соответствующих разрядах цифровых данных, причем соответствующие этапы поочередно выполняют на данных левого канала и данных правого канала в единицах заранее определенных векторов.

12. Устройство масштабируемого кодирования стереофонических звуковых сигналов, отличающееся тем, что содержит: часть квантования для обработки входных звуковых сигналов и их квантования для каждого диапазона кодирования; часть разрядно-модульного арифметического кодирования для кодирования потоков двоичных разрядов для всех уровней таким образом, чтобы получить многоуровневую структуру путем ограничения диапазона для основного уровня, чтобы он оказался масштабируемым, кодирования дополнительной информации, соответствующей основному уровню, кодирования квантованной информации последовательно от последовательности старших двоичных разрядов до последовательности младших двоичных разрядов, и от более низкочастотных составляющих до более высокочастотных составляющих, поочередного кодирования данных левого канала и данных правого канала в единицах заранее определенных векторов, и кодирования дополнительной информации, соответствующей следующему уровню расширения основного уровня и квантованных данных; и часть формирования потока двоичных разрядов для сбора данных, сформированных в части квантования и части разрядно-модульного арифметического кодирования и образования потоков двоичных разрядов.

13. Устройство по п. 12, отличающееся тем, что часть квантования содержит: часть временно-частотного преобразования для преобразования входных звуковых сигналов временной области в сигналы частотной области; психоакустическую часть для соединения преобразованных сигналов с помощью сигналов заранее определенных диапазонов масштабного множителя путем временно-частотного преобразования и вычисления порога маскирования в каждом диапазоне масштабного множителя, используя явление маскирования, производимое взаимодействием соответствующих сигналов, и часть квантования для квантования сигналов для каждого заранее определенного диапазона кодирования, в то время как шум квантования каждого диапазона сравнивается с порогом маскирования.

14. Устройство по п. 13, отличающееся тем, что дополнительно содержит: часть формирования временного шума (ФВШ) для выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования; часть обработки интенсивности стереофонических сигналов для выполнения обработки интенсивности стереофонических сигналов таким образом, что кодируется только квантованная информация диапазона масштабного множителя для одного из двух каналов, а для другого канала передается только масштабный множитель; часть предсказания для предсказания частотных коэффициентов текущего кадра; и часть обработки среднего/бокового стереофонического сигнала для выполнения обработки среднего/бокового стереофонического сигнала для преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал.

15. Способ масштабируемого декодирования стереофонического звукового сигнала для декодирования звуковых данных, кодированных так, чтобы иметь многоуровневые скорости передачи разрядов, отличающийся тем, что содержит этапы: анализа данных, необходимых для соответствующих модулей в потоках двоичных разрядов, имеющих многоуровневую структуру; декодирования, по меньшей мере, масштабных множителей и индексов моделей арифметического кодирования и квантованных данных, в порядке создания уровней в потоках двоичных разрядов, имеющих многоуровневую структуру, причем квантованные данные, декодируемые поочередно для соответствующих каналов путем анализа значимостей двоичных разрядов, составляют потоки двоичных разрядов, от старших двоичных разрядов до младших двоичных разрядов; восстановления декодированных масштабных множителей и квантованных данных в сигналы, имеющие первоначальные величины; и обратного преобразования квантованных сигналов в сигналы временной области.

16. Способ по п. 15, отличающийся тем, что дополнительно содержит этапы: выполнения обработки среднего/бокового стереофонического сигнала для проверки, была ли выполнена обработка среднего/бокового стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка среднего/бокового стереофонического сигнала была выполнена; проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов или нет, и предсказания частотных коэффициентов текущего кадра, если этап проверки был выполнен; проверки, был ли выполнен этап обработки интенсивности стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируют только квантованную информацию диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала; и проверки, был ли выполнен этап формирования временного шума (ФВШ) способом кодирования потоков двоичных разрядов или нет, и, если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

17. Способ по п. 15 или 16, отличающийся тем, что, когда квантованные данные состоят из знаковых данных и данных величины, восстанавливают квантованные частотные составляющие с помощью последовательного декодирования данных величины квантованных знаковых двоичных разрядов частотных составляющих и соединяют данные величины и двоичных разрядов знака.

18. Способ по п. 15, отличающийся тем, что этап декодирования выполняют от старших двоичных разрядов до младших двоичных разрядов, а этап восстановления выполняют соединением декодированных разрядно-модульных данных и восстановлением соединенных данных в квантованные данные частотных составляющих.

19. Способ по п. 18, отличающийся тем, что данные декодируют на этапе декодирования таким образом, что разрядно-модульную информацию четырех выборок декодируют в единицы четырехмерных векторов.

20. Способ по п. 19, отличающийся тем, что декодирование четырехмерных векторов выполняют таким образом, что арифметически декодируют два подвектора, кодированные в соответствии с предварительно установленными состояниями, указывающими, кодируются ли ненулевые разрядно-модульные частотные составляющие или нет, а два подвектора, декодированные в соответствии с состояниями кодирования соответствующих выборок, восстанавливают в четырехмерные векторы.

21. Способ по п. 17, отличающийся тем, что хотя разрядно-модульные данные соответствующих частотных составляющих декодируют от старших двоичных разрядов, декодирование пропускают, если разрядно-модульные данные представляют собой "0", а знаковые данные арифметически декодируют, когда впервые появляются разрядно-модульные данные "1".

22. Способ по п. 15, отличающийся тем, что декодирование масштабных множителей выполняют путем декодирования максимального масштабного множителя в потоке двоичных разрядов, арифметического декодирования разностей между максимальным масштабным множителем и соответствующими масштабными множителями, и вычитания разностей из максимального масштабного множителя.

23. Способ по п. 15, отличающийся тем, что этап декодирования масштабных множителей содержит этапы: декодирования максимального масштабного множителя из потоков двоичных разрядов; получения разностей между максимальным масштабным множителем и масштабными множителями, подлежащими декодированию с помощью преобразования и арифметического декодирования разностей и обратного преобразования разностей от преобразованных величин; и получения первого масштабного множителя путем вычитания разностей из максимального масштабного множителя, и получения масштабных множителей для остающихся диапазонов с помощью вычитания разностей из предыдущих масштабных множителей.

24. Способ по п. 15, отличающийся тем, что декодирование арифметически кодированных индексов модели выполняют с помощью этапов: декодирования минимального арифметического индекса модели в потоке двоичных разрядов, декодирования разностей между минимальным индексом и соответствующими индексами в дополнительной информации соответствующих уровней, и добавления минимального индекса и разностей.

25. Устройство масштабируемого декодирования стереофонических звуковых сигналов для декодирования звуковых данных, кодированных таким образом, чтобы иметь многоуровневые скорости передачи разрядов, отличающееся тем, что содержит: часть анализа потока двоичных разрядов для анализирования данных, необходимых для соответствующих модулей в потоках двоичных разрядов, имеющих многоуровневую структуру; часть декодирования для декодирования, по меньшей мере, масштабных множителей и арифметического кодирования индексов моделей и квантованных данных, в порядке создания уровней в потоках двоичных разрядов, имеющих многоуровневую структуру, квантованные данные, декодируемые поочередно для соответствующих каналов путем анализирования значимостей двоичных разрядов, составляющих потоки двоичных разрядов, от старших двоичных разрядов до младших двоичных разрядов; часть восстановления для восстановления декодированных масштабных множителей и квантованных данных в сигналы, имеющие первоначальные величины; и часть временно-частотного преобразования для обратного преобразования квантованных сигналов в сигналы временной области.

26. Устройство по п. 25, отличающееся тем, что дополнительно содержит: часть обработки среднего/бокового стереофонических сигналов для выполнения обработки среднего/бокового стереофонических сигналов, предназначенную для проверки, была ли выполнена обработка среднего/бокового стереофонических сигналов способом кодирования потоков двоичных разрядов или нет, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка среднего/бокового стереофонических сигналов была выполнена; часть предсказания для проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов или нет, и предсказания частотных коэффициентов текущего кадра, если этап проверки был выполнен; часть обработки интенсивности стереофонического сигнала для проверки, была ли выполнена обработка интенсивности стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, то, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала; и часть формирования временного шума для проверки, был ли этап формирования временного шума (ФВШ) выполнен способом кодирования потоков двоичных разрядов или нет, и, если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

Описание изобретения к патенту

Изобретение касается кодирования и декодирования звукового сигнала и, в частности, способа и устройства масштабируемого кодирования-декодирования стереофонического звукового сигнала, с использованием разрядно-модульного арифметического кодирования.

В обычном масштабируемом звуковом устройстве кодирования-декодирования учитывалась масштабируемость 1-канального моносигнала [К. Бранденбруг и др., "Первые идеи относительно масштабируемого кодирования звукового сигнала", 97-я конвенция общества инженеров-акустиков (AES), предварительная публикация 3924, Сан-Франциско, 1994 г.] и [К. Бранденбруг и др., "Система масштабируемого кодирования звукового сигнала двух- или трехступенчатой скорости передачи разрядов", 99-я конвенция общества инженеров-акустиков, предварительная публикация 4132, Нью-Йорк, 1995 г.]. Однако звуковые стандарты сжатия движущегося изображения (MPEG) [MPEG Комитет ISO/IEC/JTCI/SC29/WG11 (ISO - Международная организация по стандартизации, IEC - Международная электротехническая комиссия). Технология обработки информации - Кодирование движущихся изображений и связанного с ними сигнала звукового сопровождения для носителей запоминания данных приблизительно до 1,5 мегабит в секунду - Часть 3: Звуковое сопровождение, ISO/IEC IS - 11172-3, 1998 г.] или способы АС-2/АС-3 (AC-управление доступом) [Долби, "Многоканальное звуковое кодирование Долби АС-3 - представление к Большому альянсу группы специалистов по звуковому сопровождению". Лаборатория Долби, август 1993 г.] обеспечивают технологию для обработки стереофонических и многоканальных сигналов, а также моносигналов. Практически, большинство музыкальных сигналов состоят из стереофонических сигналов. Таким образом, необходимо применять масштабируемый звуковой кодек, адаптивный к сигналам, состоящим из двух или больше канальных потоков двоичных разрядов, как в Интернете или системе связи.

Обычно музыкальные сигналы являются стереофоническими сигналами. Стереофонические сигналы поступают через компакт-диск (КД), сеть связи или широковещательную сеть, и в будущем будут обеспечиваться при мультимедийных условиях. Однако существующие масштабируемые звуковые кодеки главным образом обрабатывают моносигналы и еще не обрабатывают стереофонические сигналы. Для обрабатывания стереофонических сигналов передача сигналов должна осуществляться так, чтобы передавались все сигналы для одного канала, а затем передавались сигналы для другого канала. Однако, в этом случае, поскольку количество двоичных разрядов, производимых в двух каналах, не всегда то же самое, эффективность масштабируемого звукового кодека для стереофонических сигналов значительно ниже на более низкой скорости передачи разрядов.

Для решения вышеупомянутых проблем целью настоящего изобретения является обеспечить способ и устройство масштабируемого кодирования стереофонических цифровых звуковых данных и носитель записи, предназначенный для записи способа кодирования. Кодирование осуществляют с помощью генерирования потоков двоичных разрядов, состоящих из нескольких уровней расширения, базирующихся на основном уровне, с использованием метода разрядно-модульного арифметического кодирования (РМАК).

Для достижения цели настоящего изобретения обеспечен способ масштабируемого кодирования стереофонического звукового сигнала, предназначенный для кодирования звуковых сигналов в многоуровневый поток данных, имеющий основной уровень и по меньшей мере два уровня расширения, включающий этапы: обработки входных звуковых сигналов и их квантования для каждого заранее определенного диапазона кодирования, кодирования квантованных данных, соответствующих основному уровню, из числа квантованных данных, кодирования квантованных данных, соответствующих следующему уровню расширения кодированного основного уровня, и остающихся квантованных данных, не кодированных из-за предела размера уровня и принадлежащих кодированному уровню, и последовательного выполнения этапов кодирования уровней для всех уровней расширения, с целью формирования потоков двоичных разрядов, в котором этап кодирования основного уровня, этап кодирования уровня расширения и этап последовательного кодирования выполняются таким образом, что дополнительная информация и квантованные данные, соответствующие подлежащему кодированию уровню, представляются цифрами того же самого заранее определенного номера, и затем арифметически кодируются, используя заранее определенную модель вероятности для изменения в пределах от последовательностей старших двоичных разрядов (СДР) до последовательностей младших двоичных разрядов (МДР), разрядно-модульные данные левого канала и данные правого канала, поочередно кодируемые в единицах заранее определенных векторов. Дополнительная информация включает в себя по меньшей мере масштабные множители и информацию, исходя из модели вероятности, подлежащей использованию при арифметическом кодировании. Заранее определенные векторы являются четырехмерными векторами, образованными соединением четырех разрядно-модульных звуковых данных канала в один вектор. Четырехмерные векторы делятся на два подвектора в соответствии с предварительно установленными положениями, указывающими кодируются ли ненулевые разрядно-модульные частотные составляющие или нет, для последующего кодирования.

Кроме того, этап кодирования масштабных множителей включает в себя этапы получения максимального масштабного множителя, получения разности между максимальным масштабным множителем и первыми масштабными множителями и арифметического кодирования разности, и получения разностей между непосредственно предшествующим арифметически кодированным масштабным множителем и соответствующими масштабными множителями, следующими за первым масштабным множителем, преобразования разностей в заранее определенную величину и арифметического кодирования преобразованных величин.

Этап кодирования масштабных множителей включает в себя этапы получения максимального масштабного множителя и получения разностей между максимальным масштабным множителем и соответствующими масштабными множителями и арифметического кодирования разности.

Кодируется информация заголовка, обычно используемая для всех диапазонов, а дополнительная информация и квантованные частоты, необходимые для соответствующего уровня, формируются с помощью разрядно-модульной информации для последующего кодирования с целью получения многоуровневой структуры.

Квантование выполняется с помощью этапов преобразования входных звуковых сигналов временной области в сигналы частотной области, соединения преобразованных сигналов в виде сигналов заранее определенных диапазонов масштабного множителя с помощью временно-частотного преобразования и вычисления порога маскирования в каждом диапазоне масштабного множителя, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования, выполнения обработки интенсивности стереофонических сигналов таким образом, что кодируется только квантованная информация диапазона масштабного множителя для одного из двух каналов, и передается только масштабный множитель для другого канала, предсказания частотных коэффициентов текущего кадра, выполнения обработки стереофонических сигналов средней стороны (С/С) для преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, и квантования сигналов для каждого заранее определенного диапазона кодирования так, чтобы шум квантования каждого диапазона был меньше, чем порог маскирования.

Когда квантованные данные составлены из знаковых данных и данных величины, этапы кодирования основного уровня и уровней расширения и формирования потоков двоичных разрядов включают в себя этапы: арифметического кодирования последовательностей старших разрядов, состоящих из старших разрядов данных величины, кодирования знаковых данных, соответствующих ненулевым данным из числа кодированных последовательностей старших разрядов, кодирования последовательностей старших разрядов из числа некодированных данных величины цифровых данных, кодирования некодированных знаковых данных из числа знаковых данных, соответствующих ненулевым данным величины из числа кодированных последовательностей разряда, и выполнения этапа кодирования величины и этапа кодирования знака в соответствующих разрядах цифровых данных, причем соответствующие этапы поочередно выполняются на данных левого канала и данных правого канала в единицах заранее определенных векторов.

Устройство декодирования масштабируемых стереофонических звуковых сигналов дополнительно включает в себя часть обработки стереофонических сигналов С/С, для выполнения обработки стереофонических сигналов С/С, с целью проверки, была или не была выполнена обработка стереофонических сигналов С/С способом кодирования потоков двоичных разрядов, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка стереофонических сигналов С/С была выполнена, часть предсказания для проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов или нет, и предсказания частотных коэффициентов текущего кадра, если этап проверки был выполнен, часть обработки интенсивности стереофонического сигнала для проверки, была ли выполнена обработка интенсивности стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала, и часть формирования временного шума (ФВШ) для проверки, был ли этап формирования временного шума выполнен способом кодирования потоков двоичных разрядов или нет, и если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

В соответствии с другим аспектом настоящего изобретения обеспечено устройство масштабируемого кодирования стереофонического звукового сигнала, включающее часть квантования для сигнальной обработки входных звуковых сигналов и их квантования для каждого диапазона кодирования, часть разрядно-модульного арифметического кодирования для кодирования потоков двоичных разрядов всех уровней таким образом, чтобы получить многоуровневую структуру, путем ограничения диапазона для основного уровня, чтобы он был масштабируемым, кодирования дополнительной информации, соответствующей основному уровню, кодирования последовательно квантованной информации от последовательности старших двоичных разрядов до последовательности младших двоичных разрядов, и от более низкочастотных составляющих до более высокочастотных составляющих, поочередного кодирования данных левого канала и данных правого канала в единицах заранее определенных векторов, и кодирования дополнительной информации, соответствующей следующему уровню расширения основного уровня и квантованных данных, и часть формирования потока двоичных разрядов для сбора данных, образованных в части квантования, и части разрядно-модульного арифметического кодирования и образования потоков двоичных разрядов.

Часть квантования включает в себя часть временно-частотного преобразования для преобразования входных звуковых сигналов временной области в сигналы частотной области, психоакустическую часть для соединения преобразованных сигналов с сигналами заранее определенных диапазонов масштабного множителя путем временно-частотного преобразования и вычисления порога маскирования в каждом диапазоне масштабного множителя, используя явление маскирования, производимое взаимодействием соответствующих сигналов, и часть квантования для квантования сигналов для каждого заранее определенного диапазона кодирования, в то время как шум квантования каждого диапазона сравнивается с порогом маскирования. Кроме того, устройство дополнительно включает в себя часть формирования временного шума (ФВШ) с целью выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования, часть обработки интенсивности стереофонических сигналов для выполнения обработки интенсивности стереофонических сигналов таким образом, что кодируется только квантованная информация диапазона масштабного множителя для одного из двух каналов, и передается только масштабный множитель для другого канала, часть предсказания для предсказания частотных коэффициентов текущего кадра, и часть обработки стереофонического сигнала С/С для выполнения обработки стереофонического сигнала С/С с целью преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал.

В соответствии с еще одним аспектом настоящего изобретения обеспечен способ масштабируемого декодирования стереофонического звукового сигнала для декодирования звуковых данных, кодированных таким образом, чтобы иметь многоуровневые скорости передачи разрядов, включающий в себя этапы анализа данных, необходимых для соответствующих модулей в потоках двоичных разрядов, имеющих многоуровневую структуру декодирования по меньшей мере масштабных множителей и индексов модели арифметического кодирования и квантованных данных, с целью создания уровней в потоках двоичных разрядов, имеющих многоуровневую структуру квантованных данных, декодируемых поочередно для соответствующих каналов, путем анализа значимостей двоичных разрядов составляющих потоков двоичных разрядов, от верхних значащих двоичных разрядов до нижних значащих двоичных разрядов, восстановления декодированных масштабных множителей и квантованных данных в сигналы, имеющие первоначальные величины, и преобразования инверсно квантованных сигналов в сигналы временной области.

Способ масштабируемого декодирования стереофонического звукового сигнала дополнительно включает в себя этапы выполнения обработки стереофонического сигнала С/С с целью проверки, была ли выполнена обработка стереофонического сигнала С/С способом кодирования потоков двоичных разрядов или нет, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка стереофонического сигнала С/С была выполнена, проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов или нет, и предсказания частотных коэффициентов текущего кадра, если этап проверки был выполнен, проверки, был ли выполнен этап обработки интенсивности стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала, и проверки, был ли выполнен этап формирования временного шума (ФВШ) способом кодирования потоков двоичных разрядов или нет, и, если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

Когда квантованные данные состоят из знаковых данных и данных величины, восстанавливают квантованные частотные составляющие с помощью последовательного декодирования данных величины квантованных двоичных разрядов знака частотных составляющих и соединяют данные величины и двоичных разрядов знака.

Этап декодирования выполняется от старших двоичных разрядов до младших двоичных разрядов, а этап восстановления выполняется соединением декодированных разрядно-модульных данных и восстановлением соединенных данных в квантованные данные частотных составляющих.

Данные на этапе декодирования декодируются таким образом, что разрядно-модульная информация четырех выборок декодируется в единицы четырехмерных векторов.

Декодирование четырехмерных векторов выполняется таким образом, что арифметически декодируются два подвектора, кодированные в соответствии с предварительно установленными положениями, указывающими, кодируются ли ненулевые разрядно-модульные частотные составляющие или нет, и восстанавливаются в четырехмерные векторы два подвектора, декодированные в соответствии с состояниям кодирования соответствующих выборок.

Кроме того, хотя разрядно-модульные данные соответствующих частотных составляющих декодируются от разрядов СДР, декодирование пропускается, если разрядно-модульные данные представляют собой "0", а знаковые данные арифметически декодируются, когда разрядно-модульные данные "1" появляются впервые. Декодирование масштабных множителей выполняется путем декодирования максимального масштабного множителя в потоке двоичных разрядов, арифметического декодирования разностей между максимальным масштабным множителем и соответствующими масштабными множителями, и вычитания разности из максимального масштабного множителя. Точно также этап декодирования масштабных множителей включает в себя этапы декодирования максимального масштабного множителя из потоков двоичных разрядов, получения разностей между максимальным масштабным множителем и масштабными множителями, подлежащими декодированию с помощью преобразования и арифметического декодирования разностей и обратного преобразования разностей от преобразованных величин, и получения первого масштабного множителя путем вычитания разностей из максимального масштабного множителя, и получения масштабных множителей для остающихся диапазонов с помощью вычитания разностей из предыдущих масштабных множителей.

Декодирование арифметически кодированных индексов модели выполняется с помощью этапов декодирования минимального индекса арифметической модели в потоке двоичных разрядов, декодирования разностей между минимальным индексом и соответствующими индексами в дополнительной информации соответствующих уровней, и добавления минимального индекса и разностей.

В качестве альтернативы, в соответствии с настоящим изобретением обеспечено масштабируемое устройство декодирования стереофонических звуковых сигналов для декодирования звуковых данных, кодированных таким образом, чтобы иметь многоуровневые скорости передачи разрядов, включающее в себя часть анализа потока двоичных разрядов для анализирования данных, необходимых для соответствующих модулей в потоках двоичных разрядов, имеющих многоуровневую структуру, часть декодирования для декодирования по меньшей мере масштабных множителей и арифметического кодирования индексов модели и квантованных данных, с целью создания уровней в потоках двоичных разрядов, имеющих многоуровневую структуру, квантованные данные, декодируемые поочередно для соответствующих каналов путем анализирования значимостей двоичных разрядов, составляющих потоки двоичных разрядов, от старших двоичных разрядов до младших двоичных разрядов, часть восстановления для восстановления декодированных масштабных множителей и квантованных данных в сигналы, имеющие первоначальные величины, и часть временно-частотного преобразования для преобразования инверсно квантованных сигналов в сигналы временной области.

Устройство дополнительно включает в себя часть обработки стереофонических сигналов С/С, предназначенную для выполнения обработки стереофонических сигналов С/С с целью проверки, была ли обработка стереофонических сигналов С/С выполнена способом кодирования потоков двоичных разрядов или нет, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка стереофонических сигналов С/С была выполнена, часть предсказания для проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов и предсказания частотных коэффициентов текущего кадра или нет, если этап проверки был выполнен, часть обработки интенсивности стереофонического сигнала для проверки, была ли выполнена обработка интенсивности стереофонического сигнала способом кодирования потока двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала, и часть формирования временного шума для проверки, был ли этап формирования временного шума (ФВШ) выполнен способом кодирования потоков двоичных разрядов или нет, и, если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

Вышеупомянутые цели и преимущества настоящего изобретения станут более очевидными благодаря подробному описанию его предпочтительного варианта осуществления со ссылкой на прилагаемые чертежи, на которых:

фиг. 1 представляет блок-схему соответствующего настоящему изобретению устройства кодирования;

фиг.2 изображает соответствующую настоящему изобретению структуру потока двоичных разрядов;

фиг. 3 представляет блок-схему соответствующего настоящему изобретению устройства декодирования;

фиг.4 иллюстрирует расположение частотных составляющих для длинного блока (размер окна = 2048);

фиг. 5 иллюстрирует расположение частотных составляющих для короткого блока (размер окна = 2048).

Ниже подробно описаны предпочтительные варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи.

Настоящее изобретение предназначено для кодирования и декодирования масштабируемых стереофонических цифровых звуковых данных с использованием способа разрядно-модульного арифметического кодирования (РМАК). Другими словами, в настоящем изобретении, только модуль кодирования без потерь заменяется способом РМАК, со всеми другими модулями обычного кодера, остающимися неизменными. Настоящее изобретение расширяет приемлемость таким образом сконструированного масштабируемого кодера-декодера, то есть, настоящее изобретение можно приспосабливать к стереофоническому сигналу.

Фиг. 1 представляет блок-схему соответствующего настоящему изобретению устройства масштабируемого кодирования звукового сигнала. Устройство масштабируемого кодирования звукового сигнала включает в себя часть 100 временно-частотного преобразования, психоакустическую часть 110, часть 120 формирования временного шума, часть 130 обработки интенсивности стереофонического сигнала, часть 140 предсказания, часть 150 обработки стереофонических сигналов средней стороны (С/С), часть 160 квантования, часть 170 разрядно-модульного арифметического кодирования, и часть 180 формирования потока двоичных разрядов.

Наиболее важные для человека акустические характеристики при кодировании цифрового звукового сигнала представляют собой эффект маскирования и характеристику критического диапазона. Эффект маскирования относится к явлению, при котором звуковой сигнал (звук) оказывается неслышимым из-за другого сигнала. Например, когда поезд проходит через железнодорожную станцию, человек не может слышать голос своего собеседника во время тихой беседы из-за шума, вызванного поездом. Звуковые сигналы воспринимаются по-разному для каждого диапазона в пределах слышимого для человека диапазона частот. Кроме того, ввиду характеристик критического диапазона, шумы, имеющие одну и ту же амплитуду, воспринимаются по-разному, когда шумовой сигнал находится в критическом диапазоне или когда шумовой сигнал находится вне критического сигнала. В этом случае, когда шумовой сигнал превышает критический диапазон, шум воспринимается более ясно.

Кодирование человеческих акустических характеристик в основном использует эти две характеристики таким образом, что рассчитывается диапазон шума, который может располагаться внутри критического диапазона, и затем производится шум квантования, соответствующий расчетному диапазону, с целью минимизирования потерь информации из-за кодирования.

Часть 100 временно-частотного преобразования преобразовывает входные звуковые сигналы временной области в звуковые сигналы частотной области.

Психоакустическая часть 110 соединяет преобразованные сигналы с помощью части 100 временно-частотного преобразования сигналами заранее определенных диапазонов масштабного множителя и вычисляет порог маскирования в каждом диапазоне масштабного множителя, используя явление маскирования, образуемое при взаимодействии с соответствующими сигналами.

Часть 120 формирования шума временной области управляет временной формой шума квантования в пределах каждого окна для преобразования. Шум можно временно формировать с помощью фильтрования частотных данных. Этот модуль необязательно используется в устройстве кодирования.

Часть 130 обработки интенсивности стереофонического сигнала представляет модуль, используемый для более эффективной обработки стереофонического сигнала, и кодирует только квантованную информацию для диапазона масштабного множителя одного из двух каналов с диапазоном масштабного множителя другого передаваемого канала. Этот модуль необязательно используется в устройстве кодирования, но для каждого диапазона масштабного множителя учитываются различные вопросы с целью определения, следует ли его использовать или нет.

Часть 140 предсказания оценивает частотные коэффициенты текущего кадра. Квантуется и кодируется разность между предсказанной величиной и фактической частотной составляющей, вследствие чего уменьшая количество производимых используемых двоичных разрядов. Часть 140 предсказания необязательно используется в единицах кадров. Другими словами, поскольку использование части 140 предсказания увеличивает возрастание сложности при предсказании последующего частотного коэффициента, часть 140 предсказания можно не использовать. Иногда количество фактически производимых двоичных разрядов по оценке может быть больше, чем без оценки. В это время часть 140 предсказания не используется.

Часть 150 обработки стереофонических сигналов С/С для более эффективной обработки стереофонических сигналов преобразовывает сигнал левого канала и сигнал правого канала в аддитивный и субтрактивный сигналы двух сигналов соответственно для последующей их обработки. Этот модуль необязательно используется в устройстве кодирования, но для каждого диапазона масштабного множителя учитываются различные вопросы с целью определения, следует ли его использовать или нет.

Часть 160 квантования скалярно квантует частотные сигналы каждого диапазона так, чтобы величина шума квантования каждого диапазона была меньше, чем порог маскирования, чтобы он был неощутимым. Квантование выполняется таким образом, чтобы величина ОШМ (отношение шума к маскированию), которая является отношением порога маскирования, рассчитанного психоакустической частью 210, к шуму, производимому в каждом диапазоне, была меньше или равной 0 дБ. Величина ОШМ меньше или равная 0 дБ означает, что порог маскирования выше, чем шум квантования. Другими словами, шум квантования не слышен.

Часть 170 разрядно-модульного арифметического кодирования, базовый модуль настоящего изобретения, можно использовать в качестве альтернативы части кодирования без потерь способа АСС, так как существующий звуковой кодек типа MPEG-2 (Стандарт сжатия движущегося изображения) ААС не может обеспечивать масштабируемость. Чтобы осуществлять масштабируемый звуковой кодек, квантованные частью 160 квантования частотные данные кодируются путем объединения дополнительной информации соответствующего диапазона и информации квантования звуковых данных. Кроме того, в дополнение к масштабируемости, в верхнем уровне можно обеспечивать характеристики, аналогичные характеристикам в ААС. Функции части 170 разрядно-модульного арифметического кодирования будут описаны более подробно. Чтобы оказаться масштабируемым, диапазон ограничивается диапазоном, соответствующим основному уровню, и кодируется дополнительная информация для основного уровня. Информация для квантованных величин последовательно кодируется в порядке изменения от последовательностей СДР к последовательностям МДР и от более низкочастотных составляющих до более высокочастотных составляющих. Кроме того, левые каналы и правые каналы поочередно кодируются в единицах заранее определенных векторов для выполнения кодирования основного уровня. После завершения кодирования основного уровня кодируются дополнительная информация для следующего уровня расширения и квантованные величины звуковых данных так, чтобы сформированные таким образом потоки двоичных разрядов имели многоуровневую структуру.

Часть 180 формирования потока двоичных разрядов производит потоки двоичных разрядов в соответствии с заранее определенным синтаксисом, подходящим для масштабируемого кодека, собирая информацию, образованную в соответствующих модулях устройства кодирования.

Фиг.2 изображает соответствующую настоящему изобретению структуру потока двоичных разрядов. Как показано на фиг.2, потоки двоичных разрядов имеют многоуровневую структуру, в которой потоки двоичных разрядов уровней более низкой скорости передачи разрядов содержатся в потоках уровней более высокой скорости передачи разрядов в соответствии со скоростями передачи разрядов. Традиционно, для образования потоков двоичных разрядов сначала кодируется дополнительная информация, а затем кодируется остающаяся информация. Однако в настоящем изобретении, как показано на фиг.2, дополнительная информация для каждого уровня расширения кодируется отдельно. Кроме того, хотя все квантованные данные кодируются последовательно обычно в единицах выборок, в настоящем изобретении квантованные данные представлены двоичными данными и кодируются от последовательности СДР двоичных данных, для формирования потоков двоичных разрядов в пределах выделенных двоичных разрядов.

Фиг. 3 представляет блок-схему соответствующего настоящему изобретению устройства декодирования, которое включает в себя часть 300 анализа потока двоичных разрядов, часть 310 разрядно-модульного арифметического декодирования, часть 320 обратного квантования, часть 330 обработки стереофонических сигналов С/С, часть 340 предсказания, часть 350 обработки интенсивности стереофонического сигнала, часть 360 формирования шума временной области и часть 370 частотно-временного преобразования.

Часть 300 анализа потока двоичных разрядов разделяет информацию заголовка и кодированные данные для образования входных потоков двоичных разрядов и передает их в соответственные модули.

Часть 310 разрядно-модульного арифметического декодирования декодирует дополнительную информацию и разрядно-модульные квантованные данные для образования входных потоков двоичных разрядов, подлежащих передаче в часть 320 обратного квантования.

Часть 330 обработки стереофонических сигналов С/С, применяемая только для стереофонических сигналов, обрабатывает диапазон масштабного множителя, соответствующий обработке стереофонических сигналов С/С, выполняемой в устройстве кодирования.

В случае, когда в устройстве кодирования выполняется оценка, часть 340 предсказания осуществляет поиск таких же величин, как декодируемые данные в предыдущем кадре, через оценку тем же самым способом, как и устройство кодирования. Предсказанный сигнал суммируется с разностным сигналом, декодируемым частью 300 анализа потока двоичных разрядов, вследствие этого восстанавливая первоначальные частотные составляющие.

Часть 350 обработки интенсивности стереофонического сигнала, предназначенная только для стереофонических сигналов, обрабатывает диапазон масштабного множителя, соответствующий обработке интенсивности стереофонического сигнала, выполняемой в устройстве кодирования.

Часть 360 формирования шума временной области, используемая для управления временной формой шума квантования в пределах каждого окна для преобразования, выполняет соответствующую обработку.

Декодируемые данные восстанавливаются в виде сигнала временной области с помощью такого модуля обработки, как обычный звуковой алгоритм типа стандартов ААС. Сначала часть 320 обратного квантования восстанавливает декодированный масштабный множитель и квантованные данные в сигналы, имеющие первоначальные величины. Часть 370 частотно-временного преобразования преобразовывает инверсно квантованные сигналы в сигналы временной области так, чтобы их воспроизвести.

Теперь будет описана работа устройства кодирования.

Входные звуковые сигналы преобразуются в сигналы частотной области посредством ИДКП (измененного дискретного косинусного преобразования) в части 100 временно-частотного преобразования. Психоакустическая часть 110 соединяет частотные сигналы соответствующими диапазонами масштабного множителя для получения порога маскирования. Кроме того, звуковые сигналы, преобразованные в сигналы частотной области, проходят через модули для увеличения эффективности кодирования, то есть часть 120 ФВШ, часть 130 обработки интенсивности стереофонического сигнала, часть 140 предсказания и часть 150 обработки стереофонических сигналов С/С, с целью образования более эффективно сжатых сигналов.

Часть 160 квантования выполняет скалярное квантование так, чтобы величина шума квантования каждого диапазона масштабного множителя была меньше, чем порог маскирования, который является слышимым, но не ощутим в пределах выделенных двоичных разрядов. Если выполняется квантование, удовлетворяющее таким условиям, производятся масштабные множители для соответствующих диапазонов масштабного множителя и квантованные величины частот.

Обычно, ввиду психоакустических свойств человека, близкие частотные составляющие могут легко восприниматься на более низкой частоте. Однако с увеличением частоты интервал ощутимых частот становится более широким. Когда становятся выше частотные диапазоны, увеличиваются полосы частот диапазонов масштабного множителя. Однако, чтобы облегчить кодирование, диапазоны масштабного множителя, ширина полосы частот которых не постоянна, для кодирования не используются, а вместо этого используются диапазоны кодирования, у которых ширина полосы частот постоянна. Диапазоны кодирования включают в себя 32 величины квантованных частотных коэффициентов.

Как правило, устройство кодирования-декодирования, в котором учитывается только эффективность кодирования, типа ААС, при обработке стереофонических сигналов сначала кодирует информацию, обычно используемую в левом и правом каналах на месте заголовка. Кодируются данные левого канала, а затем кодируются данные правого канала. То есть кодирование выполняется в такой последовательности: заголовок, левый канал и правый канал.

Когда информация для левого и правого каналов располагается и передается независимо от значимости разряда после обработки заголовка таким образом, если скорость передачи разрядов понижена, первыми исчезают сигналы для правого канала, помещенные сзади. Таким образом, становится серьезным ощутимое снижение характеристики.

Однако соответствующее настоящему изобретению устройство кодирования стереофонического звукового сигнала кодирует дополнительную информацию для каждого канала. Другими словами, дополнительная информация для каждого канала кодируется частью 170 разрядно-модульного арифметического кодирования поочередно для левого канала и правого канала. Способ кодирования масштабных множителей для более эффективного сжатия слегка изменен.

Во-первых, будет описано кодирование масштабных множителей. Соответствующее настоящему изобретению устройство кодирования стереофонического звукового сигнала кодирует масштабные множители, используя два способа, которые будут описаны ниже, с целью увеличения эффективности кодирования. Устройство кодирования выбирает способ, показывающий лучшие характеристики, и передает выбранный способ в устройство декодирования.

Для сжатия масштабных множителей сначала из масштабных множителей получают максимальный масштабный множитель (max_scalefactor). Затем получают разности между соответствующими масштабными множителями и максимальным масштабным множителем, а затем разности арифметически кодируют. При арифметическом кодировании разностей между масштабными множителями используются четыре модели. В таблицах 5.5-5.8 демонстрируются четыре модели. Информация для моделей хранится в модели масштабного множителя (scalefactor_model).

Во-вторых, для сжатия масштабных множителей из масштабных множителей получают максимальный масштабный множитель (max_scalefactor), как в первом способе. После этого получается разность между первыми масштабными множителями и максимальным масштабным множителем, а затем разность арифметически кодируется. После этого получают разности между оставшимися масштабными множителями и предыдущими масштабными множителями, и разности арифметически кодируются. В этом случае, поскольку используемые модели заданы, величина модели масштабного множителя (scalefactor_model) не имеет значения.

Далее будет описано кодирование квантованных частотных составляющих для стереофонического сигнала. Квантованные данные для каждого канала разрядно - модулируются. Когда обрабатывается сигнал моноканала, разрядно-модульные данные соединяются с помощью четырехмерных векторов, и четырехмерные векторы используются как основная единица. Это также верно в отношении кодирования сигнала стереоканала. Другими словами, кодирование начинается с СДР. Четырехмерные векторы разрядно-модульных данных арифметически кодируются от левого канала. Затем арифметически кодируются четырехмерные векторы для правого канала на том же самом частотном уровне. Таким образом, левый канал и правый канал для кодирования чередуются.

В случае единственного канала кодирование выполняется от СДР к МДР. Разрядно-модульные данные, имеющие одну и ту же значимость разряда, кодируются от более низкочастотных составляющих к более высокочастотным составляющим. В это время, если двоичные разряды, выделенные соответствующим векторам, являются более значащими, чем кодируемые в настоящий момент, нет необходимости кодировать подходящий вектор, и кодирование такого вектора пропускается.

XQO, XQ1, XQ2,..., XQk,...

где XQk - разрядно-модульные данные квантованных частотных составляющих от 4способ и устройство масштабируемого кодирования-  декодирования стереофонического звукового сигнала (варианты), патент № 2197776k до 4способ и устройство масштабируемого кодирования-  декодирования стереофонического звукового сигнала (варианты), патент № 2197776k+3.

В случае двух каналов кодирование выполняется от СДР к МДР, как в случае единственного канала. Точно также разрядно-модульные данные, имеющие ту же самую значимость разряда, кодируются от более низкочастотных составляющих до более высокочастотных составляющих. Однако последовательность кодирования решается с учетом того, что имеются два канала. Полагают, что квантованные частотные составляющие в левом и правом каналах следующие:

Левый канал: XQL0, XQL1, XQL2, XQL3, XQL4, XQL5,..., XQLk,...

Правый канал: XQR0, XQR1, XQR2, XQR3, XQR4, XQR5,.... XQRk,...

где XQLk и XQLRk - разрядно-модульные данные квантованных частотных составляющих от 4способ и устройство масштабируемого кодирования-  декодирования стереофонического звукового сигнала (варианты), патент № 2197776k до (4способ и устройство масштабируемого кодирования-  декодирования стереофонического звукового сигнала (варианты), патент № 2197776k+3).

Таким образом, в случае двух каналов, кодирование выполняется от более низкочастотных составляющих до более высокочастотных составляющих в последовательности, аналогичной случаю одного канала. Однако для того, чтобы сначала кодировать значащие составляющие, выполняется прослаивание между составляющими канала. Другими словами, соответствующие векторы кодируются поочередно между двумя каналами следующим образом:

XQL1, XQR1, XQL2, XQR2,...

Поскольку сформированная таким образом информация последовательно кодируется в порядке значимости разрядов в обоих каналах, даже при том, что скорость передачи разрядов в масштабируемом звуковом кодексе уменьшается, характеристики значительно не снижаются.

Теперь будет описан предпочтительный вариант осуществления настоящего изобретения. Настоящее изобретение применимо к основной структуре стандартов ААС, включающей все модули, типа дополнительных модулей для увеличения эффективности кодирования, и реализует масштабируемый кодер цифровых звуковых данных. Другими словами, в настоящем изобретении, хотя используются основные модули, используемые при кодировании-декодировании стандарта ААС, для обеспечения устройств масштабируемого кодирования способом разрядно-модульного кодирования заменяется только модуль кодирования без потерь. В настоящем изобретении кодируется не только информация для одной скорости передачи разрядов в пределах одного потока двоичных разрядов, но в пределах потока двоичных разрядов кодируется информация для скоростей передачи разрядов различных уровней расширения, с многоуровневой структурой, как показано на фиг. 2, в порядке изменения от более важных составляющих сигнала к менее важным составляющим сигнала.

В соответствии с вариантом осуществления настоящего изобретения, такие же модули, как в стандартах ААС, используются непосредственно перед кодированием без потерь масштабируемого кодека РМАК. Таким образом, если квантованные частотные данные сформированы путем декодирования потоков двоичных разрядов ААС, декодируемые данные могут быть восстановлены в масштабируемые потоки двоичных разрядов РМАК. Это означает, что между потоками двоичных разрядов ААС и масштабируемыми потоками двоичных разрядов РМАК возможно транскодирование без потерь. И наконец, допускается взаимное преобразование в соответствующий формат потока двоичных разрядов в зависимости от условий или обстоятельств. Таким образом, могут удовлетворяться и эффективность кодирования, и масштабируемость, которые дополняют друг друга, что отличается от другого масштабируемого кодека.

Используя таким образом сформированные потоки двоичных разрядов, можно формировать потоки двоичных разрядов, имеющие низкую скорость передачи разрядов, просто перестраивая потоки двоичных разрядов с низкой скоростью передачи разрядов, содержащиеся в самом высоком потоке двоичных разрядов, путем запроса пользователя или в соответствии с состоянием каналов передачи. Другими словами, потоки двоичных разрядов, сформированные устройством кодирования на основании реального времени, или потоки двоичных разрядов, хранящиеся на носителе, можно с помощью запроса пользователя перестроить таким образом, чтобы они были подходящими для желательной скорости передачи разрядов, для последующей передачи. Кроме того, если характеристики аппаратных средств пользователя плохие, или пользователь хочет понизить сложность декодера, даже при соответствующих потоках двоичных разрядов, восстанавливать можно только некоторые потоки двоичных разрядов, тем самым управляя сложностью.

Например, при формировании масштабируемого потока двоичных разрядов, скорость передачи разрядов основного уровня составляет 16 килобит в секунду, скорость передачи разрядов верхнего уровня - 64 килобита в секунду, а соответствующие уровни расширения имеют интервал скоростей передачи разрядов 8 килобит в секунду, то есть поток двоичных разрядов имеет 7 уровней, имеющих скорости 16, 24, 32, 40, 48, 56 и 64 килобита в секунду. Соответствующие уровни расширения определяются, как

показано в таблице 2.1. Поскольку сформированный устройством кодирования поток двоичных разрядов имеет многоуровневую структуру, как показано на фиг. 3, поток двоичных разрядов верхнего уровня 64 килобита в секунду содержит потоки двоичных разрядов соответственных уровней расширения (16, 24, 32, 40, 48, 56 и 64 килобита в секунду). Если пользователь запрашивает данные для верхнего уровня, то поток двоичных разрядов для верхнего уровня передается без какой-либо его обработки. Кроме того, если другой пользователь запрашивает данные для основного уровня (соответствующего 16 килобитам в секунду), просто передаются только старшие потоки двоичных разрядов.

В качестве альтернативы уровни расширения могут быть построены с более точными интервалами. Скорость передачи разрядов основного уровня составляет 16 килобит в секунду, скорость передачи разрядов верхнего уровня - 64 килобита в секунду, а каждый уровень расширения имеет интервал скорости передачи разрядов 1 килобит в секунду. Соответствующие уровни расширения построены так, как показано в таблице 3.1. Поэтому можно осуществлять масштабируемость с более мелким разбиением, то есть масштабируемые потоки двоичных разрядов формируются с интервалом скоростей передачи разрядов, равным 1 килобиту в секунду, от 16 килобит в секунду до 64 килобит в секунду.

Соответствующие уровни ограничили величины ширины диапазона в соответствии со скоростями передачи разрядов. Если назначена масштабируемость с интервалами 8 килобит в секунду, величины ширины диапазона ограничены, как показано в таблицах 2.2 и 2.3. В случае интервала 1 килобит в секунду, величины ширины диапазона ограничены, как показано в таблицах 3.2 и 3.3.

Входные данные представляют собой данные ИКМ (импульсно-кодовой модуляции), выбираемые с частотой 48 КГц, а величина одного кадра составляет 1024. Количество двоичных разрядов, применяемых для одного кадра при скорости передачи разрядов 64 килобита в секунду в среднем равно 1365, 3333 (= 64000 бит секунду способ и устройство масштабируемого кодирования-  декодирования стереофонического звукового сигнала (варианты), патент № 2197776(1024/48000)). Точно так же, размер доступных двоичных разрядов для одного кадра можно рассчитать в соответствии с соответствующими скоростями передачи разрядов. Расчетные количества доступных двоичных разрядов для одного кадра показаны в таблице 2.4 для случая 8 килобит в секунду и в таблице 3.4 для случая 1 килобита в секунду.

Теперь будет подробно описан соответствующий настоящему изобретению процесс кодирования и декодирования стереофонического звукового сигнала.

1. Процесс кодирования

Полный процесс кодирования такой же, как описан в Международных стандартах MPEG-2 АСС, а разрядно-модульное кодирование, предложенное в настоящем изобретении, принимается как кодирование без потерь.

1.1. Психоакустическая часть

При использовании психоакустической модели вначале из входных данных образуются блок, типа обрабатываемого в данный момент кадра (длинный, запуск, короткий или останов), значения SMR соответствующих диапазонов обработки, групповая информация короткого блока и временно задержанные данные ИКМ для временно-частотной синхронизации с психоакустической моделью, и передаются в часть временно-частотного преобразования. Для вычисления психоакустической модели используется Модель 2 ISO/IEC 11172-3 [Комитет MPEG ISO/IEC/JTC1/SC29/WG11, Информация по технологии кодирования движущихся изображений и связанного с ними звукового сопровождения для носителей запоминания данных приблизительно до 1,5 мегабит в секунду - Часть 3: Звуковое сопровождение, ISO/OEC IS 11172-3, 1993 г]. Этот модуль обязательно должен использоваться, но в соответствии с требованиями пользователей могут использоваться различные модели.

1.2. Часть временно-частотного преобразования

Используется временно-частотное преобразование, определяемое в Международных стандартах MPEG-2 ААС. Часть временно-частотного преобразования преобразовывает данные временной области в данные частотной области, используя ИДКП в соответствии с выходным сигналом типа блока, использующего психоакустическую модель. В это время размеры блока составляют 2048 и 256 в случае блоков длинного/запуска/останова и в случае короткого блока соответственно и ИДКП выполняется 8 раз. Затем тип окна и информация группирования окна передаются в часть 180 формирования потока двоичных разрядов. Прежде использовали такую же процедуру, как и процедура, используемая в обычном MPEG-2 ААС [Комитет MPEG ISO/IEC/JTC1/SC29/WG11, ISO/IEC MPEG-2 ААС IS 13818-7,1997 г].

1.3. Часть формирования временного шума (ФВШ)

Используется часть формирования временного шума, определяемая в Международных стандартах MPEG-2 ААС. ФВШ 120 является необязательным модулем и управляет временной формой шума квантования в пределах каждого окна для преобразования. Формирование временного шума можно выполнять с помощью фильтрования частотных данных. ФВШ 120 передает информацию ФВШ в часть 180 формирования потока двоичных разрядов.

1.4. Часть обработки интенсивности стереофонического сигнала

Используется часть обработки интенсивности стереофонического сигнала, определяемая в Международных стандартах MPEG-2 ААС. Часть 130 обработки интенсивности стереофонического сигнала является одним способом более эффективной обработки стереофонических сигналов. Обработка интенсивности стереофонического сигнала выполняется так, что кодируется только квантованная информация диапазона масштабного множителя для одного из двух каналов, и передается только масштабный множитель для другого канала. Этот модуль является необязательным модулем, и определяют, должен ли этот модуль использоваться для каждого диапазона масштабного множителя или нет, учитывая различные условия. Модуль 130 обработки интенсивности стереофонического сигнала передает значения признака интенсивности стереофонического сигнала в часть 180 формирования потока двоичных разрядов.

1.5. Часть предсказания

Используется часть предсказания, определяемая в Международных стандартах MPEG-2 ААС. Часть 140 предсказания является необязательным модулем и предсказывает частотные коэффициенты существующего кадра. Кроме того, часть 140 предсказания передает параметры, касающиеся предсказания, в часть 180 формирования потока двоичных разрядов.

1.6. Часть обработки стереофонических сигналов средней стороны (С/С)

Используется часть обработки стереофонических сигналов С/С, определяемая в Международных стандартах MPEG-2 ААС. Часть 150 обработки стереофонических сигналов С/С является необязательным модулем и представляет собой один из способов более эффективной обработки стереофонических сигналов. Обработка стереофонических сигналов С/С выполняется для преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал.

1.7. Часть квантования

Данные, преобразованные в данные частотной области, квантуются с помощью увеличивающихся масштабных множителей так, чтобы величина ОСШ диапазона масштабного множителя, показанная в таблицах 1.1 и 1.2, была меньше, чем SMR, в качестве величины выходного сигнала психоакустической модели. Здесь выполняется скалярное квантование, и основной интервал масштабного множителя составляет 21/4. Квантование выполняется так, чтобы минимизировался ощутимый шум. Точный процесс квантования описан в стандартах MPEG-2 ААС. Здесь полученный выходной сигнал представляет собой квантованные данные и масштабные множители для соответствующих диапазонов масштабного множителя.

1.8. Упаковка двоичных разрядов, использующая разрядно-модульное арифметическое кодирование

Упаковка двоичных разрядов выполняется частью 170 разрядно-модульного арифметического кодирования и частью 180 формирования потока двоичных разрядов. Для удобного кодирования перестраиваются частотные составляющие. Порядок перестановки различен в зависимости от блочных типов. В случае использования длинного окна в блочном типе частотные составляющие располагаются в порядке диапазонов масштабного множителя, как показано на фиг.4. В случае использования короткого окна в блочном типе каждые четыре частотные составляющие из восьми блоков повторяющимся образом располагаются в возрастающем порядке, как показано на фиг.5.

Перестроенные квантованные данные и масштабные множители формируются в виде многоуровневых потоков двоичных разрядов. Потоки двоичных разрядов формируются с помощью синтаксисов, показанных в таблицах 7.1-7.13. Ведущие элементы потока двоичных разрядов представляют собой элементы, которые обычно можно использовать в обычном ААС, а элементы, вновь предложенные в настоящем изобретении, объясняются специально. Однако основная структура аналогична структуре стандартов ААС.

Элемента, вновь предложенные в настоящем изобретении, объясняются специально.

1.8.1. Кодирование bsac_channel_stream

Выражение "common window" представляет, используют ли два канала тот же самый блок формата, выражение "ax_scalefactor[ch]" представляет максимальную величину масштабных множителей, которая является целым числом, например 8 бит. Кроме того, выражение "tns_data_resent[ch]" представляет, используется ли ФВШ в устройстве кодирования или нет. Выражение "gain_control_data_present [ch] " представляет признак, указывающий, что для поддержки частоты масштабируемой дискретизации (ЧМД) в ААС используется способ временно-частотного преобразования. Кроме того, выражение "stereo mode" представляет 2-разрядный признак, указывающий способ обработки стереофонического сигнала, в котором "00" означает независимый, "01" означает, что все ms_used являются единицами, "10" означает, что 1-разрядная маска диапазонов max_sfb из ms_ used размещена в части дополнительной информации уровня, "11" означает, что 2-разрядная маска диапазонов max_sfb из stereo_info размещена в части дополнительной информации уровня.

1.8.2. Кодирование bsac_data

Выражение "frame_ length" представляет размер всех потоков двоичных разрядов для одного кадра, которое выражено в единицах байтов, например 9 бит в случае моносигнала (МС) и 10 бит в случае стереофонического сигнала. Кроме того, выражение "encoded_layer" представляет кодирование для верхнего уровня, кодированного в потоке двоичных разрядов, который составляет 3 бита в случае интервала 8 килобит в секунду и 6 бит в случае интервала 1 килобит в секунду соответственно. Информация для уровней расширения показана в таблицах 2.1 и 3.1. Кроме того, выражение "scalefactor__model[ch]" представляет информацию, касающуюся моделей, подлежащих использованию в разностях арифметического кодирования в масштабных множителях. Эти модели показаны в таблице 4.2.

Выражение "min_ ArModel" представляет минимальную величину индексов модели арифметического кодирования. Выражение "ArModel_model" представляет информацию, касающуюся моделей, используемых в арифметическом кодировании разностного сигнала между ArModel и min_ArModel. Эта информация показана в таблице 4.3.

1.8.3. Кодирование bsac_side_info

Сначала кодируется информация, которая может использоваться для всех уровней, а затем кодируется дополнительная информация, обычно используемая для соответствующих уровней расширения. Выражение "acode_ ms_ used [g][sfb]" представляет кодовое слово, полученное арифметическим кодированием выражения ms_used, то есть, 1-разрядный признак, указывающий, выполнено ли кодирование С/С в группе g окон и диапазоне scf масштабного множителя или нет, в котором ms_used определяется следующим образом:

0: независимый

1: ms_used.

Выражение "acode_ ms_ used [g][sfb]" представляет кодовое слово, полученное арифметическим кодированием выражения ms_used, то есть, 1-разрядный признак, указывающий, используется или нет кодирование С/С в группе g окон и диапазоне scf масштабного множителя или нет, в котором ms_used определяется следующим образом:

0: независимый; и

1: ms_used.

Выражение "acode_ stereo_ info [g] [sfb]" представляет кодовое слово, полученное арифметическим кодированием выражения ms used, то есть, 2-разрядный признак, указывающий, используется или нет кодирование интенсивности стереофонического сигнала в группе g окон и диапазоне scf масштабного множителя, в котором выражение stereo_info определяется следующим образом:

00: независимый;

01: ms_used;

10: Intensity_in_phase; and

11: Intensity_out_of_phase.

Выражение "Acode_scf представляет кодовое слово, полученное посредством арифметического кодирования масштабного множителя, а выражение "acode_ArModel" представляет кодовое слово, полученное посредством арифметического кодирования выражения ArModel. Выражение ArModel представляет информацию, по которой делается выбор из моделей, внесенных в список таблицы 4.3.

1.8.4. Кодирование ofbsac_spectral_data

Дополнительная информация, обычно используемая для соответствующих уровней расширения, квантованные частотные составляющие являются разрядно-модульными, использующими способ РМАК, а затем арифметически кодированными. Выражение "acode_vec0" представляет кодовое слово, полученное арифметическим кодированием первого подвектора (подвектор 0) с использованием арифметической модели, определенной в виде величины ArModel. Выражение "acode_vecl" представляет кодовое слово, полученное арифметическим кодированием второго подвектора (подвектор 1) с использованием арифметической модели, определенной в виде величины ArModel. Выражение "acode sign" представляет кодовое слово, полученное арифметическим кодированием знакового разряда с использованием арифметической модели, определенной в таблице 5.15.

Хотя количество двоичных разрядов, используемых при кодировании соответствующих подвекторов, рассчитывается и сравнивается с количеством имеющихся в наличии двоичных разрядов для соответствующих уровней расширения, когда используемые двоичные разряды равны или больше, чем имеется в наличии двоичных разрядов, кодирование следующего уровня расширения начинается заново.

В случае длинного блока ширина диапазона основного уровня ограничивается до 21-го диапазона масштабного множителя. Затем кодируются масштабные множители до 21-ого диапазона масштабного множителя и модели арифметического кодирования соответствующих диапазонов кодирования. Информация распределения двоичных разрядов получается из моделей арифметического кодирования. Максимальная величина выделенных двоичных разрядов получена из информации двоичных разрядов, выделенной каждому диапазону кодирования, и кодирование выполняется от максимальной величины двоичных разрядов квантования вышеупомянутым способом кодирования. Затем последовательно кодируются следующие квантованные двоичные разряды. Если выделенных двоичных разрядов некоторого диапазона меньше, чем двоичных разрядов диапазона, кодируемого в данный момент, кодирование не выполняется. Когда количество выделенных двоичных разрядов определенного диапазона такое же, как количество двоичных разрядов диапазона, кодируемого в данный момент, диапазон кодируется впервые. Поскольку скорость передачи разрядов основного уровня составляет 16 килобит в секунду, полный допустимый выход двоичных разрядов составляет 336 бит. Таким образом, общее количество используемых двоичных разрядов рассчитывается непрерывно, а кодирование заканчивается в тот момент, когда количество двоичных разрядов превышает 336.

После формирования всех потоков двоичных разрядов для основного уровня (16 килобит в секунду) формируются потоки двоичных разрядов для следующего уровня расширения. Так как ограниченные величины ширины диапазона возрастают для более высоких уровней, кодирование масштабных множителей и моделей арифметического кодирования выполняется только для вновь добавленных диапазонов к ограниченным диапазонам для основного уровня. На основном уровне некодированные разрядно-модульные данные для каждого диапазона и разрядно-модульные данные вновь добавленного диапазона кодируются от разрядов СДР тем же самым способом, как на основном уровне. Когда общее количество использованных двоичных разрядов больше имеющегося в наличии количества двоичных разрядов, кодирование заканчивается, и осуществляется подготовка к формированию потоков двоичных разрядов следующего уровня расширения. Таким образом, можно производить потоки двоичных разрядов для остающихся уровней 32, 40, 48, 56 и 64 килобита в секунду.

2. Процесс декодирования

2.1. Анализ и декодирование потоков двоичных разрядов

2.1.1. Декодирование bsac_channel_stream

Декодирование bsac_channel_stream выполняется в следующем порядке. Сначала получается масштабный множитель max_scale. Затем получается ics_info( ). Если присутствуют данные ФВШ, получаются данные ФВШ. Если имеются два канала, получается stereo_mode, а затем получаются данные РМАК.

2.1.2. Декодирование bsac_data

В потоке двоичных разрядов декодируется дополнительная информация, необходимая при декодировании frame_lenght, encoded_layer, моделей масштабного множителя и арифметических моделей.

2.1.3. Декодирование bsac_stream

Потоки РМАК имеют многоуровневую структуру. Сначала дополнительная информация для основного уровня выделяется из потока двоичных разрядов и затем арифметически декодируется. После этого из потока двоичных разрядов выделяется разрядно-модульная информация для квантованных частотных составляющих и затем арифметически декодируется. Затем декодируется дополнительная информация для следующего уровня расширения, и арифметически декодируется разрядно-модульная информация для квантованных частотных составляющих.

Декодирование дополнительной информации для соответствующих уровней расширения и декодирование разрядно-модульных данных выполняется повторяющимся образом до тех пор, пока уровень расширения не превысит кодированный уровень.

2.1.4. Декодирование stereo_info или ms_used

На декодирование stereo_info или ms_used оказывает влияние stereo_mode, представляющий маскирование стереофонического сигнала. Если stereo_mode представляет 0 или 1, декодирование stereo_info или ms_used не является необходимым.

Если stereo_ mode представляет 1, то все ms_used представляют 1. Информация для ms_used передается в часть обработки стереофонического сигнала С/С таким образом, чтобы происходила обработка стереофонического сигнала С/С. Если stereo_mode представляет 2, величина ms__used арифметически декодируется с использованием модели, показанной в таблице 5.13. Кроме того, информация для ms_used передается в часть обработки стереофонического сигнала С/С так, чтобы происходила обработка стереофонического сигнала С/С.

Если stereo_mode представляет 3, stereo_info арифметически декодируется с использованием модели, показанной в таблице 5.14. Декодированные данные передаются в часть обработки стереофонического сигнала С/С или часть обработки интенсивности стереофонического сигнала так, чтобы обработка стереофонического сигнала С/С или обработка интенсивности стереофонического сигнала происходила в единицах диапазонов масштабного множителя, как описано в ААС.

2.1.5. Декодирование bsac_side_info

Масштабируемые потоки двоичных разрядов, сформированные в вышеупомянутых процессах, имеют многоуровневую структуру. Сначала из потока двоичных разрядов выделяется дополнительная информация для основного уровня, а затем декодируется. Затем из потока двоичных разрядов выделяется разрядно-модульная информация для квантованных частотных составляющих, содержащихся в потоке двоичных разрядов основного уровня, и затем декодируется. Тот же самый процесс декодирования, как для основного уровня, применяется для других уровней расширения.

2.1.5.1. Декодирование масштабных множителей

Частотные составляющие делятся на диапазоны масштабного множителя, имеющие частотные коэффициенты, которые являются кратными 4. Каждый диапазон масштабного множителя имеет масштабный множитель. Имеются два способа декодирования масштабных множителей. Способ, который нужно использовать, известен из величины scf_coding.

Во-первых, max_ scalefactor декодируется в 8-разрядное целое число без знака. Обычно во время кодирования кодируются величины, получаемые с помощью преобразования разностей. Таким образом, для соответствующих диапазонов масштабного множителя преобразованные величины арифметически декодируются с использованием моделей, показанных в таблице 5.2. В это время, если арифметически декодированная величина равна 54, это означает, что преобразованная величина больше или равна 54, поскольку разность между 54 и преобразованной величиной снова кодируется, кодированная разность снова декодируется, чтобы оказаться восстановленной в величину, большую или равную 54. Если декодирование преобразованных величин закончено, преобразованные величины обратно преобразуются разностным сигналом. Преобразование и обратное преобразование выполняются с использованием таблиц преобразования, показанных в таблицах 5.1 и 5.2. Первый масштабный множитель можно получить, используя разностный сигнал между max_scalefactor и им самим.

Во-вторых, max_ _scalefactor декодируется в 8-разрядное целое число без знака. Для всех масштабных множителей арифметически декодируются разности между величиной смещения, то есть max_ scalefactor, и всеми масштабными множителями. Масштабные множители можно получить посредством вычитания разностных сигналов из max_scalefactor. Арифметические модели, используемые при декодировании разностей, являются одними из элементов, формирующих потоки двоичных разрядов, и выделяются из потоков двоичных разрядов, которые уже декодированы.

Способ декодирования масштабных множителей на основном уровне и других уровнях расширения описывает следующий псевдокод (см. схему 1).

Здесь, выражение layer_sfb[layer] представляет начало диапазона масштабного множителя для декодирования масштабных множителей на соответствующих уровнях расширения, а layer_sfb[layer+1] представляет конец диапазона масштабного множителя.

2.1.5.2. Декодирование индекса арифметической модели

Частотные составляющие делятся на диапазоны кодирования, имеющие 32 частотных коэффициента, подлежащих кодированию без потерь. Диапазон кодирования представляет основную единицу, используемую при кодировании без потерь.

Индекс модели арифметического кодирования представляет информацию относительно моделей, используемых при арифметическом кодировании-декодировании разрядно-модульных данных каждого диапазона кодирования, указывающую, которая модель используется в процессах арифметического кодирования-декодирования из моделей, перечисленных в таблице 4.4.

Рассчитываются разности между величиной смещения и всеми индексами моделей арифметического кодирования, а затем сигналы разностей арифметически кодируются с использованием моделей, перечисленных в таблице 4.3. Здесь, среди четырех моделей, перечисленных в таблице 4.3, подлежащая использованию модель обозначена величиной ArModel_model и хранится в потоке двоичных разрядов в виде 2 двоичных разрядов. Величина смещения представляет 5-разрядную величину min_ArModel, хранящуюся в потоке двоичных разрядов, разностные сигналы декодируются в обратном порядке относительно процесса кодирования, а затем разностные сигналы добавляются к величине смещения для восстановления индексов модели арифметического кодирования.

Нижеприведенный псевдокод описывает способ декодирования индексов модели арифметического кодирования и ArModel[cband] на соответствующих уровнях расширения (см. схему 2).

Здесь, выражение layer_sfb[layer] представляет начало диапазона масштабного множителя для декодирования индексов модели арифметического кодирования на соответствующих уровнях расширения, a layer_sfb[layer+l] представляет конец диапазона масштабного множителя. Выражение decode_ cband [ch] [g] [cband] представляет признак, показывающий, была ли декодирована (1) модель арифметического кодирования или не была декодирована (0).

2.1.6. Декодирование разрядно-модульных данных

Квантованные последовательности формируются как разрядно-модульные последовательности. Соответствующие четырехмерные векторы подразделяются на два подвектора в соответствии с их состоянием. Для эффективного сжатия два подвектора кодируются арифметически, как при кодировании без потерь. Принимается решение относительно подлежащей использованию модели при арифметическом кодировании для каждого диапазона кодирования. Эта информация хранится в ArModel.

Как показано в таблицах 6.1-6.31, соответствующие модели арифметического кодирования состоят из нескольких моделей низкого порядка. Подвекторы кодируются с использованием одной из моделей низкого порядка. Модели низкого порядка классифицируются в соответствии с размерностью подлежащего кодированию подвектора, значимости разряда вектора или состояниями кодирования соответствующих выборок. Принимается решение о значимости вектора с помощью позиции двоичного разряда подлежащего кодированию вектора. Другими словами, значимость вектора различается в соответствии с тем, относится ли разрядно-модульная информация к СДР, следующему СДР, или МДР. СДР имеет самую высокую значимость, а МДР имеет самую низкую значимость. Значения состояния кодирования соответствующих выборок обновляются, когда кодирование вектора переходит от СДР к МДР. Сначала значение состояния кодирования инициируется в виде нуля. Затем, когда встречается ненулевое значение двоичного разряда, значение состояния кодирования становится равным 1.

Два подвектора представляют собой одномерный - четырехмерный векторы. Подвекторы арифметически кодируются от СДР до МДР, от более низкочастотных составляющих до более высокочастотных составляющих. Индексы модели арифметического кодирования, используемые при арифметическом кодировании, предварительно записываются в потоке двоичных разрядов в порядке от низкой частоты к высокой частоте, до передачи разрядно-модульных данных в каждый диапазон кодирования в единицах диапазонов кодирования.

Соответствующие разрядно-модульные данные арифметически кодируются для получения индексов кодового слова. Эти индексы восстанавливаются в первоначальные квантованные данные с помощью соединенных двоичных разрядов, используя следующий псевдокод.

Выражение "pre_ state[]" является состоянием, показывающим, является ли декодируемая в данный момент величина 0 или нет. Выражение "Snf представляет значимость разряда декодируемого вектора. Выражение "idx0" является индексом кодового слова, предыдущее состояние которого было 0. Выражение "idx1" является индексом кодового слова, предыдущее состояние которого было 1. Выражение "dec_ sample[] " является декодированными данными. Выражение "start_i" представляет линию начальной частоты декодируемых векторов (см.схему 3).

В то время, как разрядно-модульные данные квантованных частотных составляющих кодируются от СДР к МДР, арифметически кодируются знаковые разряды ненулевых частотных коэффициентов. Отрицательный (-) знаковый разряд представляется 1, а положительный (+) знаковый разряд представляется 0.

Поэтому, если в декодере арифметически декодируются разрядно-модульные данные и сначала встречается ненулевая арифметически декодируемая разрядная величина, то за ней в потоке двоичных разрядов следует информация знака, то есть, acode_sign. Sign_bit арифметически декодируется с использованием этой информации с помощью моделей, перечисленных в таблице 5.9. Если sign bit представляет 1, информация знака дается для квантованных данных (у), формируемых соединением отдельных данных следующим образом (см.схему 4).

2.2. Часть обработки стереофонического сигнала С/С (необязательный модуль)

Из признака, содержащегося в потоке двоичных разрядов, и ms_used[] известно, используется ли модуль обработки стереофонического сигнала С/С для каждого диапазона масштабного множителя или нет. Если используется, то выполняется обработка стереофонического сигнала С/С, используя тот же самый процесс, как показано в ААС.

2.3. Часть предсказания (необязательный модуль)

Из признака, содержащегося в потоке двоичных разрядов, и prediction_ present известно, используется ли модуль предсказания для диапазона масштабного множителя или нет. Если используется, предсказание выполняется, используя тот же самый процесс, как показано в ААС.

2.4. Часть обработки интенсивности стереофонического сигнала (необязательный модуль)

Из признака, содержащегося в потоке двоичных разрядов, и stereo_info известно, используется ли модуль обработки интенсивности стереофонического сигнала для каждого диапазона масштабного множителя или нет. Если используется, то обработка интенсивности стереофонического сигнала выполняется, используя тот же самый процесс, как показано в ААС.

2.5. Часть ФВШ (необязательный модуль)

Из признака, содержащегося в потоке двоичных разрядов, и tns_present известно, используется ли модуль ФВШ или нет. Если используется, то ФВШ выполняется, используя процесс, как показано в ААС.

2.6. Обратное квантование

Часть обратного квантования восстанавливает декодированные масштабные множители и квантованные данные в сигналы, имеющие первоначальные величины. Процесс обратного квантования описан в стандартах ААС.

2.7. Частотно-временное преобразование

Часть частотно-временного преобразования в обратном порядке преобразовывает звуковые сигналы частотной области в сигналы временной области, чтобы их мог воспроизводить пользователь. Формула для преобразования сигнала частотной области в сигнал временный области определена в стандартах ААС. Кроме того, в стандартах ААС описаны также различные позиции типа окна, относящиеся к преобразованию.

Настоящее изобретение обеспечивает характеристики, аналогичные характеристикам обычного кодирующего устройства, в котором учитывается сжатие только на более высокой скорости передачи разрядов, чтобы обрабатывать как моносигналы, так и стереофонические сигналы, для удовлетворения различных запросов пользователя, в то время как формируются гибкие потоки двоичных разрядов. Другими словами по запросу пользователя, информация для скоростей передачи разрядов различных уровней объединяется с одним потоком двоичных разрядов без перекрытия, вследствие этого обеспечивая потоки двоичных разрядов, имеющие хорошее звуковое качество. Кроме того, между передающим терминалом и приемным терминалом преобразователь не требуется. Далее, можно приспосабливать любое состояние каналов передачи и различные запросы пользователя.

Кроме того, масштабируемость применяется как к стереофоническим сигналам, так и к моносигналам.

Настоящее изобретение применимо к обычному устройству кодирования-декодирования звукового сигнала, имеющему модули для улучшения эффективности кодирования-декодирования, улучшая тем самым характеристики на различных скоростях передачи разрядов.

Кроме того, в настоящем изобретении, хотя используются основные модули, применяемые при кодировании-декодировании стандарта ААС, типа временно-частотного преобразования или квантования, для обеспечения масштабируемости способом разрядно-модульного кодирования заменен только модуль кодирования без потерь.

Так как потоки двоичных разрядов являются масштабируемыми, один поток двоичных разрядов может содержать различные потоки двоичных разрядов, имеющие несколько скоростей передачи разрядов. В отличие от обычных кодеров соответствующий настоящему изобретению масштабируемый кодер имеет более точные ступенчатые уровни расширения и, таким образом, расширяется его диапазон применений.

Кроме того, в отличие от других масштабируемых звуковых кодеков, предлагается хорошее качество звукового сигнала на более высокой скорости передачи разрядов.

Если настоящее изобретение объединяется со стандартами AAC, то почти такое же качество звукового сигнала можно достичь на скорости передачи разрядов верхнего уровня.

В соответствии с настоящем изобретением, при использовании обычного звукового алгоритма типа стандартов AAC MPEG-2, от обычного алгоритма отличается только часть кодирования без потерь. Таким образом, квантованные сигналы частотной области декодируются в поток двоичных разрядов AAC, и на основании декодированных сигналов можно формировать масштабируемые потоки двоичных разрядов РМАК. Другими словами, обеспечивается возможность транскодирования без потерь. Кроме того, потоки двоичных разрядов AAC можно формировать из масштабируемых потоков двоичных разрядов РМАК в обратном порядке. Из-за этих функциональных возможностей, в соответствии с условиями используются преобразуемым образом различные потоки двоичных разрядов AAC, формируемые только для повышения эффективности кодирования. Таким образом, для обеспечения возможности масштабируемости не требуется с помощью отдельного устройства кодирования выполнять двукратную или трехкратную работу по формированию потоков двоичных разрядов с целью обеспечения масштабируемости.

Кроме того, настоящее изобретение имеет хорошую эффективность кодирования, то есть демонстрируются лучшие характеристики на фиксированной скорости передачи разрядов, как при обычных способах кодирования, и касается способа и устройства кодирования - декодирования, в которых восстанавливается скорость передачи разрядов, кодируемая подходящим способом для применения мультимедийной техники. Кроме того, согласно настоящему изобретению, данные для скоростей передачи разрядов для различных уровней расширения могут быть представлены в одном потоке двоичных разрядов. Таким образом, в соответствии с характеристиками декодеров пользователей и шириной полосы - перегрузкой каналов передачи или запросом пользователей, можно управлять величиной скоростей передачи разрядов или их сложностью.

Наверх