усовершенствованное гармоническое преобразование
Классы МПК: | G10L19/02 с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами |
Автор(ы): | ЭКСТРАНД Пер (SE), ВИЛЛЕМОЕС Ларс Фалк (SE) |
Патентообладатель(и): | ДОЛБИ ИНТЕРНЕШНЛ АБ (NL) |
Приоритеты: |
подача заявки:
2010-03-12 публикация патента:
20.09.2013 |
Настоящее изобретение относится к преобразованию сигналов во времени и/или по частоте и, в частности, к кодированию звуковых сигналов. Конкретнее, настоящее изобретение относится к способам высокочастотной реконструкции (HFR), включающим гармонический преобразователь в частотной области. Техническим результатом является повышение надежности системы преобразования сигнала, а также обеспечение улучшенного гармонического преобразования при малой дополнительной сложности. Описаны способ и система для генерирования преобразованного выходного сигнала из входного сигнала с использованием коэффициента преобразования Т. Система включает окно анализа длиной La, извлекающее кадр входного сигнала, и блок анализирующей трансформации порядка М, трансформирующий дискретные значения в М комплексных коэффициентов. М зависит от коэффициента преобразования Т. Система также включает блок нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием коэффициента преобразования Т, блок синтезирующей трансформации порядка М, трансформирующий измененные коэффициенты в М измененных дискретных значений, и окно синтеза длиной L s, генерирующее кадр выходного сигнала a(n). 6 н. и 31 з.п. ф-лы, 12 ил.
Формула изобретения
1. Система для генерирования выходного сигнала из входного сигнала (312) с использованием коэффициента преобразования Т, которая включает:
- блок (602) окна анализа, применяющий окно (311) анализа длиной La и, таким образом, извлекающий кадр входного сигнала (312);
- блок (603) анализирующей трансформации порядка М (301), трансформирующий дискретные значения в М комплексных коэффициентов;
- блок (604) нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием коэффициента преобразования Т;
- блок (605) синтезирующей трансформации порядка М, трансформирующий измененные коэффициенты в М измененных дискретных значений; и
- блок (606) окна синтеза, применяющий окно (321) синтеза длиной Ls к М измененным дискретным значениям и, таким образом, генерирующий кадр выходного сигнала;
где М основан на коэффициенте преобразования Т.
2. Система по п.1, отличающаяся тем, что разность между М и средней длиной окна (311) анализа и окна (321) синтеза пропорциональна (Т-1).
3. Система по п.2, отличающаяся тем, что М больше или равно (TLa+L s)/2.
4. Система по одному из предыдущих пунктов, отличающаяся тем, что
- блок (603) анализирующей трансформации выполняет одно из следующих трансформаций: преобразование Фурье, быстрое преобразование Фурье, дискретное преобразование Фурье, вейвлетное преобразование; и
- блок (605) синтезирующей трансформации выполняет соответствующее обратное преобразование.
5. Система по п.4, отличающаяся тем, что дополнительно включает:
- блок (601) шага анализа, сдвигающий окно анализа по входному сигналу на шаг анализа из Sa дискретных значений и, таким образом, генерирующий последовательность кадров входного сигнала;
- блок (607) шага синтеза, сдвигающий последовательные кадры выходного сигнала на шаг синтеза из Ss дискретных значений; и
- блок (608) наложения-сложения, накладывающий и складывающий последовательные сдвинутые кадры выходных сигналов и, таким образом, генерирующий выходной сигнал.
6. Система по п.5, отличающаяся тем, что
- шаг синтеза в Т раз больше шага анализа; и
- выходной сигнал соответствует входному сигналу, растянутому во времени посредством коэффициента преобразования Т.
7. Система по п.6, отличающаяся тем, что окно синтеза выводят из окна анализа и шага анализа.
8. Система по п.7, отличающаяся тем, что окно синтеза имеет вид формулы:
,
где s(n) - окно синтеза,
a(n) - окно анализа, и
t - шаг анализа.
9. Система по п.8, отличающаяся тем, что окно анализа и/или окно синтеза является одним из следующих окон:
- окно Гаусса;
- косинусное окно;
- окно Хэмминга;
- окно Ханна;
- прямоугольное окно;
- окно Бартлетта;
- окна Блэкмана;
- окно, имеющее вид функции , 0 n<L, где L - длина окна анализа La и/или длина окна синтеза Ls.
10. Система по п.5, отличающаяся тем, что дополнительно включает блок (609) стягивания,
- увеличивающий частоту дискретизации выходного сигнала посредством порядка преобразования Т; и/или
- осуществляющий понижающую дискретизацию выходного сигнала посредством порядка преобразования Т и, в то же время, поддерживающий частоту дискретизации неизменной;
таким образом, дающий преобразованный выходной сигнал.
11. Система по п.10, отличающаяся тем, что
- шаг синтеза в Т раз больше шага анализа; и
- преобразованный выходной сигнал соответствует входному сигналу, сдвинутому по частоте посредством коэффициента преобразования Т.
12. Система по п.1, отличающаяся тем, что изменение фазы включает умножение фазы на коэффициент преобразования Т.
13. Система по п.10, отличающаяся тем, что дополнительно включает:
- второй блок (604) нелинейной обработки, изменяющий фазу комплексных коэффициентов путем использования второго коэффициента преобразования Т2 и, таким образом, дающий кадр второго выходного сигнала; и
- второй блок (607) шага синтеза, сдвигающий последовательные кадры второго выходного сигнала на второй шаг синтеза и, таким образом, генерирующий второй выходной сигнал в блоке (608) наложения-сложения.
14. Система по п.13, отличающаяся тем, что дополнительно включает
- второй блок (609) стягивания, использующий второй порядок преобразования Т2 и, таким образом, дающий второй преобразованный выходной сигнал; и
- блок (502) комбинирования, объединяющий первый и второй преобразованные выходные сигналы.
15. Система по п.14, отличающаяся тем, что объединение первого и второго преобразованных выходных сигналов включает сложение дискретных значений первого и второго преобразованных выходных сигналов.
16. Система по п.14, отличающаяся тем, что
- блок (502) комбинирования взвешивает первый и второй преобразованные выходные сигналы перед объединением; и
- взвешивание выполняют так, чтобы энергия или энергия, приходящаяся на полосу пропускания, первого и второго преобразованных сигналов соответствовала энергии или, соответственно, энергии, приходящейся на полосу пропускания, входного сигнала.
17. Система по п.14, отличающаяся тем, что дополнительно включает:
- блок выравнивания, смещающий во времени первый и второй преобразованные выходные сигналы перед их вхождением в блок комбинирования.
18. Система по п.17, отличающаяся тем, что смещение во времени зависит от порядка преобразования Т и/или длины окон L, где L=La =Ls.
19. Система по п.18, отличающаяся тем, что смещение во времени определяют как .
20. Система по п.19, отличающаяся тем, что окно (311) анализа и окно (321) синтеза отличаются одно от другого и являются биортогональными друг относительно друга.
21. Система по п.20, отличающаяся тем, что z-преобразование окна (311) анализа имеет два нулевых значения на единичной окружности.
22. Система для генерирования выходного сигнала из входного сигнала (312) с использованием коэффициента преобразования Т, которая включает:
- блок (602) окна анализа, применяющий окно (311) анализа длиной L и, таким образом, извлекающий кадр входного сигнала (312);
- блок (603) анализирующей трансформации порядка М (301), трансформирующий дискретные значения в М комплексных коэффициентов;
- блок (604) нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием коэффициента преобразования Т;
- блок (605) синтезирующей трансформации порядка М, трансформирующий измененные коэффициенты в М измененных дискретных значений; и
- блок (606) окна синтеза, применяющий окно (321) синтеза длиной L к М измененным дискретным значениям и, таким образом, генерирующий кадр выходного сигнала;
где окно (311) анализа и окно (321) синтеза отличаются одно от другого и являются биортогональными друг относительно друга.
23. Система декодирования принимаемого мультимедийного сигнала, включающего звуковой сигнал, где система включает систему по одному из пп.1-22 в виде блока (402) преобразования, где входной сигнал представляет собой низкочастотную составляющую звукового сигнала, а выходной сигнал представляет собой высокочастотную составляющую звукового сигнала.
24. Система по п.23, отличающаяся тем, что дополнительно включает базовый декодер (401), предназначенный для декодирования низкочастотной составляющей звукового сигнала.
25. Система по п.24, отличающаяся тем, что базовый декодер (401) основан на одной из следующих схем кодирования: Dolby Е, Dolby Digital, AAC.
26. Телеприставка, предназначенная для декодирования принимаемого мультимедийного сигнала, включающего звуковой сигнал; при этом телеприставка включает систему по одному из пп.1-22 в виде блока (402) преобразования, предназначенную для генерирования преобразованного выходного сигнала из звукового сигнала.
27. Способ преобразования входного сигнала (312) посредством коэффициента преобразования Т, который включает этапы, на которых:
- извлекают кадр дискретных значений входного сигнала (312) с использованием окна (311) анализа длиной L a,
- трансформируют кадр входного сигнала из временной области в частотную область, получая М комплексных коэффициентов;
- изменяют фазу комплексных коэффициентов посредством коэффициента преобразования Т;
- трансформируют М измененных комплексных коэффициентов во временную область, получая М измененных дискретных значений; и
- генерируют кадр выходного сигнала с использованием окна (321) синтеза длиной Ls;
где М основан на коэффициенте преобразования Т.
28. Способ по п.27, отличающийся тем, что дополнительно включает следующие этапы, на которых:
- окно анализа сдвигают на шаг анализа из Sa дискретных значений по входному сигналу, получая, таким образом, последовательность кадров входного сигнала;
- последовательные кадры сдвигают на шаг синтеза из Ss дискретных значений; и
- последовательные сдвинутые кадры выходных сигналов накладывают, и складывают, и, таким образом, генерируют выходной сигнал.
29. Способ по п.28, отличающийся тем, что шаг синтеза в Т раз больше шага анализа.
30. Способ по п.29, отличающийся тем, что также включает этап, на котором:
- выполняют конверсию частоты дискретизации выходного сигнала посредством порядка преобразования Т, таким образом, получая преобразованный выходной сигнал.
31. Способ по п.29, отличающийся тем, что также включает этап, на котором:
- выполняют понижающую дискретизацию выходного сигнала посредством порядка преобразования Т с поддержанием частоты дискретизации неизменной, таким образом, получая преобразованный выходной сигнал.
32. Способ по одному из пп.28-31, отличающийся тем, что дополнительно включает следующие этапы, на которых:
- изменяют фазы комплексных коэффициентов с использованием второго коэффициента преобразования Т2, таким образом, получая кадр второго выходного сигнала;
- последовательные кадры второго выходного сигнала сдвигают на второй шаг синтеза и, таким образом, генерируют второй выходной сигнал путем наложения-сложения сдвинутых кадров второго выходного сигнала.
33. Способ по п.32, отличающийся тем, что дополнительно включает следующие этапы, на которых:
- выполняют конверсию частоты дискретизации второго выходного сигнала посредством второго порядка преобразования Т2 , что, таким образом, дает второй преобразованный выходной сигнал; и
- объединяют первый и второй преобразованные выходные сигналы, получая объединенный выходной сигнал.
34. Способ преобразования входного сигнала (312) посредством коэффициента преобразования Т, отличающийся тем, что включает следующие этапы, на которых:
- извлекают кадр дискретных значений входного сигнала (312) с использованием окна (311) анализа длиной L;
- трансформируют кадр входного сигнала из временной области в частотную область, получая М комплексных коэффициентов;
- изменяют фазы комплексных коэффициентов посредством коэффициента преобразования Т;
- трансформируют М измененных комплексных коэффициентов во временную область, получая М измененных дискретных значений; и
- генерирование кадра выходного сигнала с использованием окна (321) синтеза длиной L;
где окно (311) анализа и окно (321) синтеза отличаются одно от другого и являются биортогональными друг относительно друга, и где z-преобразование окна (311) анализа имеет два нулевых значения на единичной окружности.
35. Способ по п.34, отличающийся тем, что окно (321) синтеза s(n) имеет вид;
, 0 n<L,
где с - константа, a(n) - окно (311) анализа, ts - таг по времени окна (321) синтеза, и s(n) имеет вид:
, 0 m< ts.
36. Способ по одному из пп.34 и 35, отличающийся тем, что окно анализа представляет собой квадратичное синусное окно, полученное при помощи свертки двух синусных окон.
37. Способ по одному из пп.34 и 35, отличающийся тем, что окно анализа длиной L определяют путем
- свертки двух синусных окон длиной L, дающей квадратичное синусное окно длиной 2L-1;
- присоединения нулевого значения к квадратичному синусному окну, дающего базовое окно длиной 2L; и
- передискретизации базового окна с использованием линейной интерполяции, дающей в качестве окна анализа окно с четной симметрией длиной L.
Описание изобретения к патенту
ОБЛАСТЬ ТЕХНИЧЕСКОГО ПРИМЕНЕНИЯ
Настоящее изобретение относится к преобразованию сигналов по частоте и/или растягиванию/сжатию сигналов во времени и, в частности, к кодированию звуковых сигналов. Иными словами, настоящее изобретение относится к модификации в шкале времени и/или в шкале частот. Конкретнее, настоящее изобретение относится к способам высокочастотной реконструкции (HFR), включающим гармонический преобразователь в частотной области.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ
Технологии HFR, такие как технология репликации спектральных полос (SBR), позволяют значительно улучшать эффективность кодирования традиционных кодеков воспринимаемых цифровых звуковых сигналов. В сочетании с MPEG-4 Advanced Audio Coding (AAC) она образует чрезвычайно эффективный кодек звуковых сигналов, который уже используется в системах ХМ Satellite Radio и Digital Radio Mondiale, а также стандартизован в 3 GPP, DVD Forum и др. Комбинация ААС и SBR называется aacPlus. Она является частью стандарта MPEG-4, где носит название High Efficiency AAC Profile (IIE-AAC). Вообще, технология HFR может сочетаться с любым кодеком воспринимаемых цифровых звуковых сигналов в порядке совместимости сверху вниз и снизу вверх, что, таким образом, предоставляет возможность модернизации уже установленных систем радиовещания, таких как система MPEG Layer-2, используемая в системе Eureka DAB. Способы HFR-преобразования также могут сочетаться с речевыми кодеками, позволяя кодировать широкополосные речевые сигналы со сверхнизкими скоростями битового потока.
Базовая идея, лежащая в основе HFR, основывается на наблюдении существования сильной корреляции между характеристиками высокочастотного диапазона сигнала и характеристиками низкочастотного диапазона того же сигнала. Поэтому хорошее приближение отображения высокочастотного диапазона оригинального входного сигнала может быть достигнуто путем преобразования сигнала из низкочастотного диапазона в высокочастотный диапазон.
Концепция преобразования как способа воссоздания высокочастотной полосы из низкочастотной полосы звукового сигнала была установлена в документе WO 98/57436, который ссылкой включается в настоящее описание. При использовании данной концепции для кодирования звуковых и/или речевых сигналов может быть достигнута значительная экономия скорости битового потока. В последующем описании будет делаться отсылка к кодированию звуковых сигналов, однако следует учитывать, что описываемые способы в равной степени применимы для кодирования речевых сигналов и для унифицированного кодирования звуковых и речевых сигналов (USAC).
В системе кодирования звуковых сигналов на основе HFR сигнал низкочастотного диапазона частот подается для кодирования в базовый кодировщик, воспроизводящий форму сигнала, а более высокие частоты регенерируются на стороне декодера с использованием преобразования сигнала низкого диапазона частот и дополнительной информации, которая, как правило, кодируется с чрезвычайно низкими скоростями битового потока и описывает форму целевого спектра. При низких скоростях битового потока, когда полоса пропускания базового кодированного сигнала является узкой, приобретает возрастающую важность воспроизведение или синтез высокочастотного диапазона, т.е. высокочастотного диапазона звукового сигнала, с приятными для восприятия характеристиками.
На известном уровне техники существует несколько способов высокочастотной реконструкции с использованием, например, гармонического преобразования или растягивания временной шкалы. Один из способов основывается на фазовых вокодерах, функционирующих по принципу выполнения частотного анализа с достаточно высокой разрешающей способностью по частоте. Перед повторным синтезом сигнала выполняется его модификация в частотной области. Модификация сигнала может представлять собой операцию растягивания шкалы времени или операцию преобразования.
Одной из основных трудностей, существующих в данных способах, являются противоречивые ограничения требуемой высокой разрешающей способности по частоте для достижения высококачественного преобразования стационарных звуков, и временной характеристики системы для коротких непериодических или ударных звуков. Иными словами, в то время как использование высокой разрешающей способности по частоте является благоприятным для преобразования стационарных сигналов, эта высокая разрешающая способность по частоте, как правило, требует больших размеров окон, что является пагубным при работе с короткими непериодическими частями сигнала. Один из подходов к преодолению этой трудности может представлять собой адаптивное изменение окон преобразователя, например, путем использования переключения окон, в зависимости от характеристик входного сигнала. Как правило, длинные окна используются для стационарных частей сигнала с целью достижения высокой разрешающей способности по частоте, в то время как короткие окна используются для коротких непериодических частей сигнала с целью реализации хорошей переходной характеристики преобразователя, т.е. его хорошей разрешающей способности по времени. Однако этот подход имеет тот недостаток, что критерии анализа сигнала, такие как критерий обнаружения короткого непериодического сигнала и т.п., должны быть включены в систему преобразования. Такие критерии анализа сигнала часто включают этап принятия решения, например, решения о присутствии короткого непериодического сигнала, которое запускает переключение режима обработки сигнала. Кроме того, эти критерии, как правило, оказывают влияние на надежность системы и могут вносить артефакты сигнала при переключении режима обработки сигнала, например, при переключении между размерами окон.
Настоящее изобретение решает вышеупомянутые проблемы, относящиеся к переходной характеристике гармонического преобразования без необходимости в переключении окон. Кроме того, достигается улучшенное гармоническое преобразование при малой дополнительной сложности.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Настоящее изобретение относится к проблеме улучшения переходной характеристики гармонического преобразования, а также к разного рода усовершенствованиям известных способов гармонического преобразования. Кроме того, настоящее изобретение описывает то, как дополнительная сложность может поддерживаться на минимальном уровне при условии сохранения предлагаемых улучшений.
Помимо прочих, настоящее изобретение может включать, по меньшей мере, одну из следующих особенностей:
- передискретизацию по частоте на множитель, зависящий от порядка преобразования в рабочей точке преобразователя;
- надлежащий выбор комбинации окон анализа и синтеза; и
- обеспечение выравнивания во времени различных преобразованных сигналов в тех случаях, когда сигналы комбинируются.
Согласно одной из особенностей изобретения описана система для генерирования преобразованного выходного сигнала из входного сигнала с использованием коэффициента преобразования Т. Преобразованный выходной сигнал может представлять собой растянутую во времени и/или сдвинутую по частоте версию входного сигнала. Преобразованный выходной сигнал может быть растянут во времени в Т раз относительно входного сигнала. В альтернативном варианте частотные составляющие преобразованного выходного сигнала могут быть сдвинуты вверх посредством коэффициента преобразования Т.
Система может включать окно анализа длиной L, которое извлекает L дискретных значений входного сигнала. Как правило, L дискретных значений входных сигналов являются дискретными значениями входного сигнала, например звукового сигнала, во временной области. Извлеченные L дискретных значений называются кадром входного сигнала. Система также включает блок анализирующей трансформации порядка M=F*L, преобразующий L дискретных значений во временной области в М комплексных коэффициентов, где F - коэффициент передискретизации по частоте. М комплексных коэффициентов, как правило, являются коэффициентами в частотной области. Анализирующая трансформация может представлять собой преобразование Фурье, быстрое преобразование Фурье, дискретное преобразование Фурье, вейвлетное преобразование или анализирующий этап блока (возможно, модулированных) фильтров. Коэффициент передискретизации F основывается на коэффициенте преобразования Т или является его функцией.
Операция передискретизации также может называться дополнением нулевыми значениями окна анализа на дополнительные (F-1)*L нулевых значений. Она также может рассматриваться как выбор размера анализирующей трансформации М, который в F раз больше размера окна анализа.
Система также может включать блок нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием коэффициента преобразования Т. Изменение фазы может включать умножение фазы комплексных коэффициентов на коэффициент преобразования Т. Кроме того, система может включать блок синтезирующей трансформации порядка М, преобразующий измененные коэффициенты в М измененных дискретных значений, и окно синтеза длиной L, предназначенное для генерирования выходного сигнала. Синтезирующая трансформация может представлять собой обратное преобразование Фурье, обратное быстрое преобразование Фурье, обратное дискретное преобразование Фурье, обратное вейвлетное преобразование или синтезирующий этап блока (возможно) модулированных фильтров. В основном, анализиру например, для достижения совершенной реконструкции входного сигнала, когда коэффициент преобразования Т=1.
Согласно другой особенности изобретения коэффициент передискретизации F пропорционален коэффициенту преобразования Т. В частности, коэффициент передискретизации F может быть больше или равен (T+1)/2. Такой выбор коэффициента передискретизации F гарантирует то, что нежелательные артефакты сигнала, например, опережающее и запаздывающее эхо, которые могут являться следствием преобразования, подавлялись окном синтеза.
Следует отметить, что, в более общих выражениях, длина окна анализа может быть L a, а длина окна синтеза может быть Ls. Также в этом случае может оказаться полезным выбор порядка блока трансформации М на основе порядка преобразования Т, т.е. в зависимости от порядка преобразования Т. Кроме того, может оказаться полезным выбор М таким образом, чтобы он был больше среднего длины окна анализа и окна синтеза, т.е. больше (La+Ls)/2. В одном из вариантов осуществления изобретения разность между порядком блока трансформации М и средней длиной окна пропорциональна (Т-1). В еще одном варианте осуществления изобретения М выбирается так, чтобы он был больше или равен (TLa+Ls )/2. Следует отметить, что случай, когда длины окна анализа и окна синтеза равны, т.е. La=Ls=L, является частным случаем описанного выше общего случая. В общем случае коэффициент передискретизации F может представлять собой
.
Система также может включать блок шага анализа, сдвигающий окно анализа по входному сигналу на шаг анализа из Sa дискретных значений. В результате блока шага анализа генерируется последовательность кадров входного сигнала. Кроме того, система может включать блок шага синтеза, сдвигающий окно синтеза и/или последовательные кадры выходного сигнала на шаг синтеза из Ss дискретных значений. В результате генерируется последовательность сдвинутых кадров выходного сигнала, которые могут накладываться и складываться в блоке наложения-сложения.
Иными словами, окно анализа может извлекать или выделять L или в более общем смысле La дискретных значений входного сигнала, например, путем умножения ряда из L дискретных значений входного сигнала на ненулевые коэффициенты окна. Этот ряд из L дискретных значений можно назвать кадром входного сигнала. Блок шага анализа сдвигает окно анализа по входному сигналу и, таким образом, выбирает другой кадр входного сигнала, т.е. он генерирует последовательность кадров входного сигнала. Дискретное расстояние между последовательными кадрами задается шагом анализа. Сходным образом, блок шага синтеза по индексу сдвигает окно синтеза и/или кадры выходного сигнала, т.е. он генерирует последовательность сдвинутых кадров выходного сигнала. Дискретное расстояние между последовательными кадрами выходного сигнала задается шагом синтеза. Выходной сигнал может определяться путем наложения последовательности кадров выходного сигнала и путем сложения дискретных значений, совпадающих во времени.
Согласно еще одной особенности изобретения шаг синтеза в Т раз больше шага анализа. В этом случае выходной сигнал соответствует входному сигналу, растянутому во времени посредством коэффициента преобразования Т. Иными словами, выбирая шаг синтеза, в Т раз больший, чем шаг анализа, можно получить сдвиг во времени или растягивание о времени выходного сигнала по отношению к входному сигналу. Этот сдвиг во времени имеет порядок Т.
Иными словами, вышеупомянутую систему можно описать следующим образом: с использованием блока окна анализа, блока анализирующей трансформации и блока шага анализа с шагом анализа Sa, из выходного сигнала можно определить комплект или последовательность наборов из М комплексных коэффициентов. Шаг анализа определяет количество дискретных значений, на которое окно анализа перемещается вперед по входному сигналу. Поскольку время, проходящее между двумя последовательными дискретными значениями, задается частотой дискретизации, шаг анализа также определяет время, проходящее между двумя кадрами входного сигнала. Как следствие, время, проходящее между двумя последовательными наборами из М комплексных коэффициентов также задается шагом анализа Sa.
После прохождения блока нелинейной обработки, где фаза комплексных коэффициентов может изменяться, например, путем ее умножения на коэффициент преобразования, комплект или последовательность наборов из М комплексных коэффициентов может преобразовываться обратно во временную область. Каждый набор из М измененных комплексных коэффициентов может трансформироваться в М измененных дискретных значений с использованием блока синтезирующей трансформации. В следующей операции наложения-сложения, включающей блок окна синтеза и блок шага синтеза с шагом синтеза Ss , комплект наборов из М измененных дискретных значений может накладываться и складываться для образования выходного сигнала. В операции наложения-сложения последовательные наборы из М измененных дискретных значений могут сдвигаться на Ss дискретных значений относительно друг друга перед тем, как они умножаются на окно синтеза и затем складываются, давая выходной сигнал. Соответственно, если шаг синтеза Ss в Т раз больше шага анализа Sa, сигнал может быть в T раз растянут во времени.
Согласно следующей особенности изобретения окно синтеза выводится из окна анализа и шага синтеза. В частности, окно синтеза может иметь вид формулы:
,
где s(n) - окно синтеза, a(n) - окно анализа, t - шаг синтеза Ss. Окно анализа и/или окно синтеза может представлять окно Гаусса, косинусное окно, окно Хэмминга, окно Харма, прямоугольное окно, окна Бартлетта, окна Блэкмана, окно, имеющее функцию , 0 n<L, где в случае различающихся длин окна анализа и окна синтеза L может представлять собой, соответственно, L a или Ls.
Согласно другой особенности изобретения система также включает блок стягивания, выполняющий, например, конверсию частоты дискретизации выходного сигнала посредством порядка преобразования Т, таким образом, давая преобразованный выходной сигнал. Выбирая шаг синтеза, в Т раз больший, чем шаг анализа, описанным выше способом может быть получен растянутый во времени выходной сигнал. Если увеличить частоту дискретизации растянутого во времени выходного сигнала в Т раз, или если подвергнуть растянутый во времени выходной сигнал понижающей дискретизации в Т раз, можно получить преобразованный выходной сигнал, который соответствует входному сигналу, сдвинутому по частоте посредством коэффициента преобразования Т. Операция понижающей дискретизации может включать этап выбора только некоторого подмножества дискретных значений выходного сигнала. Как правило, сохраняется только каждое Т-е дискретное значение. В альтернативном варианте частота дискретизации может быть увеличена в Т раз, т.е. частота дискретизации интерпретируется как в Т раз большая. Иными словами, повторная дискретизация или конверсия частоты дискретизации означает, что частота дискретизации изменяется или до большего или до меньшего значения. Понижающая дискретизация подразумевает конверсию частоты дискретизации до меньшего значения.
Согласно следующей особенности изобретения система может генерировать из входного сигнала второй выходной сигнал. Система может включать второй блок нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием второго коэффициента преобразования Т2, и второго блока шага синтеза, сдвигающего окно синтеза и/или кадры второго выходного сигнала на второй шаг синтеза. Изменение фазы может включать умножение фазы на коэффициент T2. Путем изменения фазы комплексных коэффициентов с использованием второго коэффициента преобразования, трансформации вторых измененных коэффициентов в М вторых измененных дискретных значений и применения второго окна синтеза из кадра входного сигнала могут генерироваться кадры второго выходного сигнала. Путем применения второго шага синтеза к последовательности кадров второго выходного сигнала в блоке наложения-сложения может генерироваться второй выходной сигнал.
Второй выходной сигнал может стягиваться во втором блоке стягивания, например, путем выполнения конверсии частоты дискретизации второго выходного сигнала посредством второго порядка преобразования Т2. Это дает второй преобразованный выходной сигнал. Таким образом, первый преобразованный выходной сигнал может генерироваться с использованием первого коэффициента преобразования Т, а второй преобразованный выходной сигнал может генерироваться с использованием второго коэффициента преобразования Т2. Эти преобразованные выходные сигналы могут быть объединены в блоке комбинирования, давая полный преобразованный выходной сигнал. Операция объединения может включать сложение двух преобразованных выходных сигналов. Указанное генерирование и комбинирование нескольких преобразованных выходных сигналов может оказаться полезным для получения хороших приближений высокочастотной составляющей сигнала, синтез которой необходимо осуществить. Следует отметить, что с использованием ряда порядков преобразования может быть синтезировано любое количество преобразованных выходных сигналов. Преобразованные выходные сигналы этого ряда затем могут быть объединены, например сложены, в блоке комбинирования, давая полный преобразованный выходной сигнал.
Может оказаться полезным взвешивание первого и второго преобразованных выходных сигналов перед объединением в блоке комбинирования. Взвешивание может выполняться так, чтобы энергия или энергия, приходящаяся на полосу пропускания, первого и второго преобразованных выходных сигналов соответствовала энергии или, соответственно, энергии, приходящейся на полосу пропускания, входного сигнала.
Согласно еще одной особенности изобретения система может включать блок выравнивания, который применяет смещение во времени к первому и второму преобразованным выходным сигналам перед их вхождением в блок комбинирования. Это смещение во времени может включать сдвиг двух преобразованных выходных сигналов друг относительно друга во временной области. Смещение во времени может зависеть от порядка преобразования и/или длины окон. В частности, смещение во времени может определяться как
.
Согласно другой особенности изобретения описанная выше система преобразования может внедряться в систему для декодирования принимаемого мультимедийного сигнала, включающего звуковой сигнал. Система декодирования может включать блок преобразования, который соответствует описанной выше системе, где входной сигнал, как правило, представляет собой низкочастотную составляющую звукового сигнала, а выходной сигнал является высокочастотной составляющей звукового сигнала. Иными словами, входной сигнал, как правило, представляет собой низкочастотный сигнал с определенной полосой пропускания, а выходной сигнал представляет собой сигнал, как правило, с более высокочастотной полосой пропускания. Кроме того, система может включать базовый декодер, предназначенный для декодирования низкочастотной составляющей звукового сигнала из принимаемого битового потока. Указанный базовый декодер может основываться на таких схемах кодирования, как Dolby E, Dolby Digital или ААС. В частности, указанная система декодирования может представлять собой телеприставку, предназначенную для декодирования принимаемого мультимедийного сигнала, включающего звуковой сигнал и другие сигналы, такие как видеосигнал.
Следует отметить, что настоящее изобретение также описывает способ преобразования входного сигнала посредством коэффициента преобразования Т. Способ соответствует описанной выше системе и может включать любую комбинацию упомянутых выше особенностей. Он может включать этапы извлечения дискретных значений входного сигнала с использованием окна анализа длиной L, и выбора коэффициента передискретизации F в зависимости от коэффициента преобразования Т. Также он может включать этапы трансформации L дискретных значений из временной области в частотную область, дающей F*L комплексных коэффициентов, и изменения фазы комплексных коэффициентов посредством коэффициента преобразования Т. На дополнительных этапах способ может трансформировать F*L измененных комплексных коэффициентов во временную область, давая F*L измененных дискретных значений, и генерировать выходной сигнал с использованием окна синтеза длиной L. Следует отметить, что способ также может быть адаптирован к общим длинам окон анализа и синтеза, т.е. к общим La и Ls, как описано выше.
Согласно еще одной особенности изобретения способ может включать этапы сдвига окна анализа на шаг анализа из Sa дискретных значений по входному сигналу и/или путем сдвига окна синтеза и/или кадров выходного сигнала на шаг синтеза из Ss дискретных значений. Выбирая шаг синтеза в Т раз больше, чем шаг анализа, выходной сигнал может быть растянут во времени в Т раз относительно выходного сигнала. При осуществлении дополнительного этапа выполнения конверсии частоты дискретизации выходного сигнала посредством порядка преобразования T может быть получен преобразованный выходной сигнал. Этот преобразованный выходной сигнал может включать частотные составляющие, которые сдвинуты вверх в Т раз относительно соответствующих частотных составляющих входного сигнала.
Способ также может включать этапы генерирования второго выходного сигнала. Эти этапы могут реализовываться путем изменения фазы комплексных коэффициентов с использованием второго коэффициента преобразования Т2 и путем сдвига окна синтеза и/или кадров второго выходного сигнала на второй шаг синтеза, с использованием второго коэффициента преобразования Т2 и второго шага синтеза может генерироваться второй выходной сигнал. Путем выполнения конверсии частоты дискретизации второго выходного сигнала посредством второго порядка преобразования T2 может генерироваться второй преобразованный выходной сигнал. В конечном итоге, объединяя первый и второй преобразованные выходные сигналы, можно получить объединенный или полный преобразованный выходной сигнал, включающий высокочастотные составляющие сигнала, генерируемые посредством двух или большего количества преобразований с разными коэффициентами преобразования.
Согласно другим особенностям изобретения изобретение описывает программу, реализованную программно, которая адаптирована для осуществления на процессоре и для выполнения этапов способа настоящего изобретения при исполнении на вычислительном устройстве. Изобретение также описывает носитель данных, включающий программу, реализованную программно, адаптированную для осуществления на процессоре и для выполнения этапов способа изобретения при исполнении на вычислительном устройстве. Кроме того, изобретение описывает компьютерный программный продукт, включающий выполняемые команды для выполнения способа изобретения при осуществлении на компьютере.
Согласно еще одной особенности описаны другой способ и система для преобразования входного сигнала посредством коэффициента преобразования Т. Эти способ и система могут использоваться автономно или в сочетании со способами и системами, описанными выше. Любая из особенностей, описанных в настоящем документе, может быть применена к этому способу/системе и наоборот.
Способ может включать этап извлечения кадра дискретных значений входного сигнала с использованием окна анализа длиной L. Затем кадр входного сигнала может трансформироваться из временной области в частотную область, давая М комплексных коэффициентов. Фаза комплексных коэффициентов может быть изменена посредством коэффициента преобразования Т, и М измененных комплексных коэффициентов могут преобразовываться во временную область, давая М измененных дискретных значений. В конечном итоге, с использованием окна синтеза длиной L может генерироваться кадр выходного сигнала. Способ и система могут использовать окно анализа и окно синтеза, которые отличаются друг от друга. Окна анализа и синтеза могут отличаться по форме, по длине, по количеству коэффициентов, определяющих окна и/или по значениям коэффициентов, определяющих окна. Таким образом, можно получить дополнительные степени свободы при выборе окон анализа и синтеза, и, таким образом, уменьшить или исключить эффект наложения спектров в преобразованном выходном сигнале.
Согласно другой особенности окно анализа и окно синтеза являются биортогональными относительно друг друга. Окно синтеза s(n) может иметь вид:
, 0 n L,
где с - константа, s(n) - окно (311) анализа, ts - шаг по времени окна синтеза, и s(n) имеет вид:
, 0 m ts.
Шаг по времени окна синтеза ts обычно соответствует шагу синтеза Ss .
Согласно следующей особенности окно анализа выбирается таким образом, чтобы его z-преобразование имело два нулевых значения на единичной окружности. Предпочтительно, только z-преобразование окна анализа имеет два нулевых значения на единичной окружности. В качестве примера, окно анализа может представлять собой квадратичное синусное окно. В другом примере окно анализа длиной L может определяться путем свертки двух синусных окон длиной L, давая квадратичное синусное окно длиной 2L-1. На последующем этапе к квадратичному синусному окну присоединяется нулевое значение, давая базовое окно длиной 2L. В конечном счете, базовое окно может подвергаться повторной дискретизации с использованием линейной интерполяции, таким образом, давая в качестве окна анализа окно с четной симметрией длиной L.
Способы и системы, описываемые в настоящем документе, могут быть реализованы как программное обеспечение, встроенное программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут реализовываться, например, как программное обеспечение, запускаемое на процессоре обработки цифровых сигналов или микропроцессоре. Другие компоненты могут реализовываться, например, как аппаратное обеспечение и/или как специализированные интегральные схемы. Сигналы, встречающиеся в описанных способах и системах, могут храниться на таких носителях, как оперативные запоминающие устройства или оптические носители информации. Они могут передаваться через такие сети, как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способ и систему, описанные в настоящем документе, являются дополнительные внешние устройства или другое оборудование на территории пользователя, которое декодирует звуковые сигналы. На стороне кодирования способ и система могут использоваться на радиовещательных станциях, например в видео- или телевизионных системах head end.
Следует отметить, что варианты осуществления и особенности изобретения, описанные в настоящем документе, могут комбинироваться произвольно. В частности, следует отметить, что особенности, описанные для системы, также применимы и к соответствующему способу, охватываемому настоящим изобретением. Кроме того, следует отметить, что раскрытие изобретения также охватывает комбинации пунктов формулы изобретения иные, чем пункты формулы изобретения, в прямой форме даваемые обратными отсылками в зависимых пунктах формулы изобретения, т.е. пункты формулы изобретения и их технические признаки могут комбинироваться в любом порядке и любой форме.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
Ниже настоящее изобретение будет описано посредством иллюстративных примеров, не ограничивающих объем и суть изобретения, с отсылкой к сопроводительным графическим материалам, на которых:
Фиг.1 иллюстрирует импульс Дирака в некотором определенном положении в том виде, как он проявляется в окнах анализа и синтеза гармонического преобразователя;
Фиг.2 иллюстрирует импульс Дирака в другом положении в том виде, как он проявляется в окнах анализа и синтеза гармонического преобразователя;
Фиг.3 иллюстрирует импульс Дирака для положения по фиг.2 в том виде, как он будет проявляется в соответствии с настоящим изобретением;
Фиг.4 иллюстрирует принцип работы декодера звуковых сигналов, усиленного HFR;
Фиг.5 иллюстрирует принцип работы гармонического преобразователя, использующего несколько порядков;
Фиг.6 иллюстрирует принцип работы гармонического преобразователя в частотной области (FD);
Фиг.7 показывает последовательность окон анализа и синтеза;
Фиг.8 иллюстрирует окна анализа и синтеза с различающимися шагами;
Фиг.9 иллюстрирует влияние повторной дискретизации на шаг окон синтеза;
Фиг.10 и 11 иллюстрируют, соответственно, варианты осуществления кодировщика и декодера, использующих усовершенствованные схемы гармонического преобразования, описываемые в настоящем документе; и
Фиг.12 иллюстрирует вариант осуществления блока преобразования, показанного на фиг.10 и 11.
ПОДРОБНОЕ ОПИСАНИЕ
Описываемые ниже варианты осуществления изобретения являются единственно иллюстрациями принципов настоящего изобретения для усовершенствованного гармонического преобразования. Следует понимать, что специалистам в данной области очевидны модификации описываемых здесь схем и подробностей. Поэтому намерение заключается в ограничении лишь объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными с целью описания и разъяснения вариантов осуществления данного изобретения.
Ниже описывается принцип гармонического преобразования в частотной области и его предлагаемые усовершенствования согласно идеям настоящего изобретения. Ключевой составляющей гармонического преобразования является растягивание во времени посредством целочисленного коэффициента преобразования Т, которое оставляет без изменений частоту синусоид. Иными словами, гармоническое преобразование основывается на растягивании во времени в Т раз сигнала, подлежащего преобразованию. Растягивание во времени выполняется так, чтобы сохранялись частоты синусоид, составляющих входной сигнал. Растягивание времени может выполняться с использованием фазового вокодера. Фазовый вокодер основывается на представлении в частотной области, которое обеспечивается блоком оконных DFT-фильтров с окном анализа a(n) и окном синтеза s(n). Указанная анализирующая/синтезирующая трансформация также называется кратковременным преобразованием Фурье (STFT).
Кратковременное преобразование Фурье выполняется на входном сигнале во временной области с целью получения последовательности накладывающихся спектральных кадров. Для минимизации возможных эффектов полосы боковых частот должны быть выбраны надлежащие окна анализа/синтеза, например окна Гаусса, косинусные окна, окна Хэмминга, окна Харма, прямоугольные окна, окна Бартлетта, окна Блэкмана и др. Временная задержка, с которой каждый спектральный кадр выхватывается из входного сигнала, называется размером скачка или шагом. STFT-преобразование входного сигнала называется этапом анализа и приводит к представлению входного сигнала в частотной области. Представление входного сигнала в частотной области включает ряд сигналов поддиапазонов, где каждый сигнал поддиапазона представляет определенную частотную составляющую входного сигнала.
Представление входного сигнала в частотной области затем может быть обработано желаемым способом. С целью растягивания во времени входного сигнала может быть растянут во времени каждый сигнал поддиапазона, например, путем задержки дискретных значений сигнала поддиапазона. Это достигается путем использования размера скачка синтеза, который превышает размер скачка анализа. Сигнал во временной области можно восстановить путем выполнения обратного (быстрого) преобразования Фурье на всех кадрах с последующим последовательным накоплением кадров. Эта операция на этапе синтеза называется операцией наложения-сложения. Результирующий выходной сигнал представляет собой растянутую во времени версию входного сигнала и включает те же частотные составляющие, что и входной сигнал. Иными словами, результирующий выходной сигнал имеет тот же спектральный состав, что и входной сигнал, но является более медленным, чем входной сигнал, т.е. его прогрессия является растянутой во времени.
Преобразование в более высокие частоты может быть получено последовательно или интегрированным способом путем понижающей дискретизации растянутых сигналов. В результате преобразованный сигнал имеет такую же протяженность во времени, что и начальный сигнал, однако включает частотные составляющие, которые сдвинуты вверх посредством заранее заданного коэффициента преобразования.
В математическом представлении фазовый вокодер может быть описан следующим образом. Входной сигнал x(t) дискретизируется с частотой дискретизации R, давая дискретный входной сигнал x(n). В ходе этапа анализа на входном сигнале x(n) в конкретные моменты времени анализа для последовательных значений k определяется STFT-преобразование. Моменты времени анализа предпочтительно выбираются равномерно по формуле , где ta - коэффициент скачка анализа или шаг анализа. В каждый из этих моментов времени анализа по части оригинального сигнала х(n) в пределах окна вычисляется Фурье-преобразование, где окно анализа a(t) центрировано вокруг , т.е. . Часть входного сигнала x(n) в пределах окна называется кадром. Результатом является STFT-представление входного сигнала х(n), которое можно обозначить как
где - средняя частота несущей m-го сигнала поддиапазона STFT-анализа, и М - размер дискретного преобразования Фурье (DFT). На практике оконная функция a(n) имеет ограниченный временной диапазон, т.е. она охватывает лишь ограниченное количество дискретных значений L, которое обычно равно размеру М DFT-преобразования. Как следствие, приведенная выше сумма содержит конечное количество членов. Сигналы поддиапазонов являются функциями как времени, - через коэффициент k, - так и частоты - через среднюю частоту несущей поддиапазона m.
Этап синтеза выполняется в моменты времени синтеза , которые обычно равномерно распределены в соответствии с формулой , где ts - коэффициент скачка синтеза или шаг синтеза. В каждый из указанных моментов времени синтеза посредством обратного Фурье-преобразования сигнала STFT-поддиапазона , который может быть идентичен , в моменты времени синтеза , получается кратковременный сигнал yk(n). Однако, как правило, сигналы STFT-поддиапазонов являются модифицированными, например растянутыми во времени и/или фазово-модулированными, и/или амплитудно-модулированными, поэтому сигнал анализируемого поддиапазона отличается от сигнала синтезируемого поддиапазона . В предпочтительном варианте осуществления изобретения сигналы STFT-поддиапазонов являются фазово-модулированными, т.е. фаза сигналов STFT-поддиапазонов является модифицированной. Кратковременный синтезируемый сигнал yk(n) можно обозначить как
.
Кратковременный сигнал yk(n) можно рассматривать как составляющую полного выходного сигнала yk(n), включающего сигналы синтезируемых поддиапазонов , где m=0, , М-1, в момент времени синтеза . Т.е. кратковременный сигнал yk(n) представляет собой обратное DFT-преобразование отдельного кадра сигнала. Полный выходной сигнал y(n) может быть получен путем наложения и сложения обработанных методом окна кратковременных сигналов yk (n) во все моменты времени синтеза . Т.е. выходной сигнал y(n) можно обозначить как
,
где - окно синтеза, центрированное вокруг момента времени синтеза . Следует отметить, что окно синтеза обычно содержит ограниченное количество дискретных значений L, поэтому вышеупомянутая сумма включает лишь ограниченное количество членов.
Ниже описывается реализация растягивания во времени в частотной области. Подходящей отправной точкой для описания особенностей временного расширителя является рассмотрение случая Т-1, т.е. случая, когда коэффициент преобразования Т равен 1, и растягивание не происходит. Если шаги времени анализа ta и времени синтеза ts блока DFT-фильтров равны, т.е. ta= ts= t, комбинированный эффект анализа и последующего синтеза заключается в амплитудной модуляции t-периодической функцией
где q(n)= a(n) s(n) - поточечное произведение двух окон, т.е. поточечное произведение окна анализа и окна синтеза. Преимущественно окна выбираются так, чтобы K(n)=1 или другому постоянному значению, поскольку в этом случае блок DFT-фильтров достигает совершенной реконструкции. Если задано окно анализа a(n), и окно анализа является достаточно долговременным по сравнению с шагом t, можно получить совершенную реконструкцию, выбирая окно синтеза в соответствии с
Для Т>1, т.е. для коэффициента преобразования больше 1, растягивание во времени может быть получено путем выполнения анализа с шагом , в то время как шаг синтеза сохраняется: ts= t. Иными словами, растягивание во времени в Т раз может быть получено путем применения на этапе анализа коэффициента скачка или шага, который в Т раз меньше коэффициента скачка или шага на этапе синтеза. Как видно из приведенных выше формул, использование шага синтеза, который в Т раз больше шага анализа, при операции наложения-сложения будет сдвигать кратковременные синтезируемые сигналы yk(n) на интервалы большие в Т раз. В конечном счете, это будет приводить к растягиванию во времени выходного сигнала y(n).
Следует отметить, что растягивание во времени в Т раз также может включать умножение фазы на коэффициент Т между этапами анализа и синтеза. Иными словами, растягивание во времени в Т раз включает умножение фазы на коэффициент Т сигналов поддиапазонов.
Ниже описывается, как вышеописанная операция растягивания во времени может быть переведена в операцию гармонического преобразования. Модификация в шкале основного тона или гармоническое преобразование может быть получено путем выполнения конверсии частоты дискретизации растянутого во времени выходного сигнала y(n). Для выполнения гармонического преобразования в Т раз с использованием вышеописанного способа фазового вокодирования может быть получен выходной сигнал y(n), который представляет собой растянутую во времени в Т раз версию входного сигнала х(n). Затем, путем понижающей дискретизации выходного сигнала y(n) в Т раз или путем конверсии частоты дискретизации из R в TR, может быть получено гармоническое преобразование. Иными словами, вместо интерпретации выходного сигнала y(n) как имеющего ту же частоту дискретизации, что и у входного сигнала x(n), но в T раз более длительного, выходной сигнал y(n) можно интерпретировать как имеющий ту же длительность, но при этом имеющий частоту дискретизации больше в Т раз. Тогда последующая понижающая дискретизация в Т раз может быть интерпретирована как делающая выходную частоту дискретизации равной входной частоте дискретизации, и, таким образом, сигналы в конечном итоге могут складываться. В ходе этих операций, при понижающей дискретизации преобразованного сигнала, следует уделять внимание тому, чтобы не возникал эффект наложения спектров.
Если входной сигнал х(n) представляет собой синусоиду, и если окно анализа a(n) симметрично, способ растягивания во времени, основанный на вышеописанном фазовом вокодере, будет безупречно работать для нечетных значений Т, приводя к растянутой во времени версии входного сигнала x(n), имеющей такую же частоту. В сочетании с последующей понижающей дискретизацией будет получена синусоида y(n) с частотой, которая в Т раз больше частоты входного сигнала x(n).
Для четных значений Т описанный выше способ растягивания во времени/гармонического преобразования будет более приблизительным, поскольку боковые лепестки частотной характеристики окна анализа a(n), имеющие отрицательные значения, будут воспроизводиться путем умножения фазы с различной точностью. Отрицательные боковые лепестки, как правило, возникают в результате того, что большинство применяемых на практике окон (или фильтров-прототипов) содержат множество дискретных нулевых значений, расположенных на единичной окружности, что приводит к сдвигам по фазе на 180 градусов. При умножении фазовых углов с использованием четных коэффициентов преобразования сдвиги по фазе, как правило, переводятся в 0 (или, вернее, в кратные 360) градусов в зависимости от используемого коэффициента преобразования. Иными словами, при использовании четных коэффициентов преобразования сдвиги по фазе принимают нулевое значение. Как правило, это вызывает возникновение эффекта наложения спектров в преобразованном выходном сигнале y(n). Наиболее неблагоприятный сценарий может реализовываться тогда, когда синусоидальная функция располагается на частоте, соответствующей вершине первого бокового лепестка анализирующего фильтра. В зависимости от подавления этого лепестка в амплитудной характеристике эффект наложения спектров будет более или менее слышимым в выходном сигнале. Следует отметить, что для четных коэффициентов Т уменьшение полного шага t, как правило, улучшает рабочие характеристики временного расширителя за счет большей вычислительной сложности.
В документе ЕР 0940015 В1 / WO 98/57436, озаглавленном «Source coding enhancement using spectral band replication», который ссылкой включается в данное описание, описан способ, позволяющий избежать эффекта наложения спектров, возникающего в гармоническом преобразователе при использовании четных коэффициентов преобразования. Этот способ, называемый блокированием относительных фаз, осуществляет оценку относительной разности фаз между смежными каналами и определяет, является ли синусоидальная функция в том или ином канале фазово-инвертированной. Обнаружение выполняется с использованием уравнения (32) документа ЕР 0940015 В1. Каналы, для которых обнаруживается инверсия фазы, корректируются после того, как фазовые углы умножаются на фактический коэффициент преобразования.
Ниже описывается новый способ, позволяющий избежать эффекта наложения спектров при использовании четных и/или нечетных коэффициентов преобразования Т. В отличие от способа блокирования относительных фаз в соответствии с ЕР 0940015 В1, данный способ не требует обнаружения и коррекции фазовых углов. Новое решение вышеописанной проблемы использует окна анализирующей и синтезирующей трансформаций, которые не являются идентичными. В случае совершенной реконструкции (PR) это скорее соответствует блоку биортогональных преобразований/фильтров, чем блоку ортогональных преобразований/фильтров.
Для получения биортогонального преобразования данного конкретного окна анализа a(n) выбирается окно синтеза s(n), которое следует из уравнения:
где с - константа, ts - шаг синтеза по времени, L - длина окна. Если последовательность s(n) определяется как
т.е. для обработки методом анализирующего и синтезирующего окон используется a(n)= s(n), то условие ортогональной трансформации:
s(m)=c, 0 m ts.
Однако ниже приводится другая последовательность w(n), где w(n) - мера того, насколько сильно окно синтеза s(n) отклоняется от окна анализа a(n), т.е. того, насколько сильно биортогональная трансформация отличается от ортогонального случая. Последовательность w(n) имеет вид:
Условие совершенной реконструкции имеет вид:
Для того чтобы иметь возможность решения, функцию w(n) можно ограничить как периодическую с шагом синтеза по времени ts, т.е. w(n)=w(n+ tsi), i,n. Тогда получаем:
Таим образом, условие для окна синтеза s(n):
При получении окна синтеза s(n) описанным выше способом предоставляется намного большая свобода для конструирования окна анализа a(n). Дополнительная свобода может использоваться для конструирования пары окон анализа/синтеза, которые не проявляют эффект наложения спектров в преобразованном сигнале.
Ниже описывается несколько вариантов осуществления изобретения для получения пары окон анализа/синтеза, которые подавляют эффект наложения спектров для четных коэффициентов преобразования. В соответствии с первым вариантом осуществления, окна или фильтры-прототипы делаются достаточно длинными для ослабления уровня первого бокового лепестка в частотной характеристике ниже определенного уровня «эффекта наложения спектров». Шаг анализа по времени ta в этом случае будет составлять лишь малую долю длины окна L. Как правило, это приводит к размытию коротких непериодических, т.е. ударных, сигналов.
Согласно второму варианту осуществления окно анализа va(n) выбирается так, чтобы оно имело два нулевых значения на единичной окружности. Фазовая характеристика, возникающая в результате двух нулевых значений, представляет собой сдвиг по фазе на 360 градусов. Эти сдвиги по фазе сохраняются при умножении фазовых углов на коэффициенты преобразования независимо от того, являются коэффициенты преобразования четными или нечетными. Если получить надлежащий гладкий анализирующий фильтр a(n), имеющий два нулевых значения на единичной окружности, окно синтеза получается по описанным выше уравнениям.
В одном из примеров второго варианта осуществления изобретения анализирующий фильтр/окно анализа va(n) представляет собой «квадратичное синусное окно», т.е. синусное окно
, 0 n<L,
свернутое с самим собой как a(n)= (n) (n). Однако следует отметить, что результирующий фильтр/окно a(n) будет иметь нечетную симметрию и длину La=2L-1, т.е. нечетное количество коэффициентов фильтра/окна. В случаях, когда более подходящим является фильтр/окно с четной длиной, в частности в случае фильтра с четной симметрией, фильтр можно получить путем первой свертки двух синусных окон длиной L. Затем в конец результирующего фильтра присоединяется нулевое значение. После этого фильтр длиной 2L подвергается повторной дискретизации с использованием линейной интерполяции в фильтр с четной симметрией с длиной L, который по-прежнему имеет только два нулевых значения на единичной окружности.
В целом, описано, как пара окон анализа и синтеза может выбираться так, чтобы можно было избежать или значительно уменьшить эффект наложения спектров в преобразованном выходном сигнале. Способ особенно важен при использовании четных коэффициентов преобразования.
Другой особенностью, требующей рассмотрения в контексте гармонических преобразователей на основе вокодера, является развертывание фазы. Следует отметить, что в то время как в фазовых вокодерах общего назначения необходимо уделять внимание вопросам развертывания фазы, гармонический преобразователь в тех случаях, когда используются целочисленные коэффициенты преобразования Т, включает однозначно определенные операции с фазами. Поэтому в предпочтительных вариантах осуществления изобретения порядок преобразования Т имеет целочисленное значение. В противном случае, необходимо применение способов развертывания фазы, где развертывание фазы - это процесс, посредством которого для оценки мгновенной частоты ближайшей синусоиды в каждом канале используется приращение фазы между двумя последовательными кадрами.
Еще одной особенностью, требующей рассмотрения в тех случаях, когда осуществляется преобразование звуковых и/или голосовых сигналов, является обработка стационарных и/или коротких непериодических участков сигнала. Как правило, для того, чтобы иметь возможность преобразовывать стационарные звуковые сигналы без возникновения артефактов, связанных с интермодуляционными искажениями, разрешающая способность по частоте блока DFT-фильтров должна быть достаточно высокой, и поэтому окна являются более длинными в сравнении с короткими непериодическими участками во входных сигналах x(n), в особенности, в звуковых и/или голосовых сигналах. В результате преобразователь имеет неудовлетворительную переходную характеристику. Однако, как будет описано ниже, эта проблема может быть решена путем модификации конструкции окон, размера трансформаций и параметров шага по времени. Таким образом, несмотря на множество имеющихся на известном уровне техники способов улучшения переходной характеристики фазовых вокодеров, предлагаемое решение не основывается ни на одной из операций адаптации к сигналу, таких как операция обнаружения коротких непериодических сигналов.
Ниже описывается гармоническое преобразование коротких непериодических сигналов с использованием вокодера. В качестве отправной точки рассмотрим прототип короткого непериодического сигнала - дискретный временной импульс Дирака в момент времени t=t0:
.
Фурье-преобразование импульса Дирака имеет единичное абсолютное значение и линейную фазу с угловым коэффициентом, пропорциональным t0:
Это преобразование Фурье можно рассматривать как этап анализа вышеописанного фазового вокодера, где используется плоское окно анализа a(n) с бесконечной длительностью. С целью генерирования выходного сигнала y(n), растянутого во времени в T раз, т.е импульса Дирака (t-Tt0) в момент времени t=Tt0, для получения сигнала синтезируемого поддиапазона Y( m)=ехр(-j mTt0), фазу сигналов анализируемых поддиапазонов нужно умножить на коэффициент Т, что дает на выходе обратного Фурье-преобразования требуемый импульс Дирака (t-Tt0).
Это показывает, что операция умножения фазы сигналов анализируемых поддиапазонов на коэффициент Т приводит к требуемому временному сдвигу импульса Дирака, т.е. короткого непериодического входного сигнала. Следует отметить, что для более реалистичных коротких непериодических сигналов, включающих более одного ненулевого дискретного значения, должны выполняться дальнейшие операции растягивания сигналов анализируемых поддиапазонов во времени в Т раз. Иными словами, на сторонах анализа и синтеза должны использоваться различные размеры скачка.
Однако следует отметить, что приведенные выше соображения относятся к этапу анализа/синтеза, использующему окна анализа и синтеза, которые имеют бесконечные длины. Действительно, теоретический преобразователь с окном бесконечной длительности может давать корректное растягивание импульса Дирака (t-t0). Для анализа методом окна с конечной длительностью ситуация осложняется тем, что каждый анализируемый блок должен интерпретироваться как интервал одного периода периодического сигнала с периодом, равным размеру DFT-преобразования.
Это проиллюстрировано на фиг.1, которая показывает анализ и синтез 100 импульса Дирака (t-t0). Верхняя часть фиг.1 показывает вход этапа 110 анализа, а нижняя часть - выход этапа 120 синтеза. Верхний и нижний графики представляют временную область. Стилизованные окно 111 анализа и окно 121 синтеза изображены как треугольные окна (окна Бартлетта). Входной импульс (t-t0) 112 в момент времени t=t0 изображен на верхнем графике 110 в виде вертикальной стрелки. Предполагается, что блок DFT-преобразования имеет размер M=L, т.е. размер DFT-преобразования выбирается равным размеру окон. Умножение фазы сигналов поддиапазонов на коэффициент Т будет приводить к DFT-анализу импульса Дирака (t-t0) при t=t0, однако являющемуся периодизированным в последовательность импульсов Дирака с периодом L. Это происходит из-за конечной длины применяемого окна и преобразования Фурье. Периодизированная последовательность импульсов с периодом L показана на нижнем графике пунктирными стрелками 123, 124.
В реальной системе, где окна анализа и синтеза имеют конечную длину, последовательность импульсов фактически содержит лишь несколько импульсов (в зависимости от коэффициента преобразования): один главный импульс, т.е. желательный член, несколько опережающих импульсов и несколько запаздывающих импульсов, т.е. нежелательных членов. Опережающие и запаздывающие импульсы появляются из-за того, что DFT-преобразование является периодическим (с периодом L). Нежелательные импульсы появляются тогда, когда импульс располагается в пределах окна анализа так, что комплексная фаза свертывается при умножении на Т (т.е. импульс сдвигается за пределы края окна и свертывается обратно в начало). В зависимости от расположения в окне анализа и коэффициента преобразования нежелательные импульсы могут иметь или не иметь ту же полярность, что и входной импульс.
Это можно рассмотреть математически, трансформируя импульс Дирака (t-t0), расположенный в интервале -L/2 t0 L/2, с использованием DFT-преобразования длиной L, центрированного вокруг t=0:
Сигналы анализируемых поддиапазонов представляют собой фазу, умноженную на коэффициент Т для получения сигналов синтезируемых поддиапазонов X( m)=ехр(-j mt0). Затем для получения периодического синтезируемого сигнала, т.е. последовательности импульсов Дирака с периодом L, применяется обратное DFT-преобразование:
В примере по фиг.1 синтез методом окна использует конечное окно s(n) 121. Конечное окно 121 синтеза выделяет требуемый импульс (t-Tt0) при t=Tt0, который изображен сплошной стрелкой 122, и отбрасывает другие вклады, которые показаны пунктирными стрелками 123, 124.
По мере перемещения этапов анализа и синтеза по оси времени в соответствии с коэффициентом скачка, или шагом по времени t, импульс (t-t0) будет иметь другое положение относительно центра соответствующего окна 111 анализа. Как описано выше, операция достижения растягивания во времени заключается в перемещении импульса 112 в T-кратное положение относительно центра окна. До тех пор, пока это положение находится в пределах окна 121, операция растягивания во времени гарантирует, что все вклады прибавляются к единичному растянутому во времени импульсу (t-t0) при t=Tt0.
Однако в ситуации, показанной на фиг.2, где импульс (t-t0) 212 перемещается дальше к краю DFT-блока, возникает трудность. Фиг.2 иллюстрирует сходную с фиг.1 конфигурацию 200 анализа/синтеза. Верхний график 210 показывает входной сигнал этапа анализа и окно 211 анализа, нижний график 220 иллюстрирует выходной сигнал этапа синтеза и окно 221 синтеза. При растягивании во времени в Т раз импульса 212 Дирака растянутый во времени импульс 222 Дирака, т.е. S(t-t0), оказывается за пределами окна 221 синтеза. В то же время, другой импульс 224 Дирака из последовательности импульсов, т.е. (t-Tt0+L) при t=Tt0-L, выделяется окном синтеза. Иными словами, входной импульс 212 Дирака не запаздывает до в T раз более позднего момента времени, но перемещается вперед к моменту времени, который лежит перед входным импульсом 212 Дирака. Конечное влияние на звуковой сигнал выражается в возникновении опережающего эха в момент времени в масштабе достаточно длинных окон преобразователя, т.е. в момент времени t=Tt0-L, что на L-(T-1)t0 раньше, чем импульс 212 Дирака.
Принцип решения, предлагаемого настоящим изобретением, описан с отсылкой к фиг.3. Фиг.3 иллюстрирует сценарий 300 анализа/синтеза, сходный со сценарием по фиг.2. Верхний график 310 показывает входной сигнал этапа анализа с окном 311 анализа, нижний график 320 показывает выходной сигнал этапа синтеза с окном 321 синтеза. Основная идея изобретения заключается в адаптации размера DFT-преобразования таким образом, чтобы можно было избежать опережающего эха. Этого можно достичь путем установки размера М DFT-преобразования так, чтобы ни одно из отображений нежелательных импульсов Дирака из результирующей последовательности импульсов не выделялось окном синтеза. Размер DFT-преобразования 301 увеличивается до M=FL, где L - длина оконной функции 302, а коэффициент F представляет собой коэффициент передискретизации в частотной области. Иными словами, размер DFT-преобразования 301 выбирается так, чтобы он был больше размера 302 окна. В частности, размер DFT-преобразования 301 можно выбрать так, чтобы он был больше размера 302 окна синтеза. Благодаря увеличенной длине 301 DFT-преобразования, период последовательности импульсов, включающей импульсы 322, 324 Дирака, составляет FL. Выбирая достаточно большое значение F, т.е. выбирая достаточно большой коэффициент передискретизации в частотной области, можно исключить нежелательные вклады в последовательность импульсов. Это показано на фиг.3, где импульс 324 Дирака в момент времени t=Tt0-FL лежит за пределами окна 321 синтеза. Таким образом, импульс 324 Дирака не выделяется окном 321 синтеза, и, соответственно, можно избежать появления опережающего эха.
Следует отметить, что в предпочтительном варианте осуществления изобретения окно синтеза и окно анализа имеют равные, «номинальные» длины. Однако при использовании неявной повторной дискретизации выходного сигнала путем отбрасывания или вставки дискретных значений в полосы частот трансформации или блока фильтров размер окна синтеза, как правило, будет отличаться от размера окна анализа в зависимости от коэффициента повторной дискретизации или коэффициента преобразования.
Минимальное значение F, т.е. минимальный коэффициент передискретизации в частотной области, можно вывести из фиг.3. Условие отсутствия выделения нежелательных изображений импульса Дирака может быть сформулировано следующим образом: для любого входного импульса (t-t0) в положении , т.е. для любого входного импульса, заключаемого в пределах окна 311 анализа, нежелательное отображение (t-Tt0+FL) в момент времени t=Tt0 -FL должно располагаться слева от левого края окна синтеза при . Эквивалентно должно соблюдаться условие , что приводит к правилу:
Как видно из формулы (3), минимальный коэффициент F передискретизации в частотной области зависит от коэффициента Т преобразования/растягивания во времени. Конкретнее, минимальный коэффициент F передискретизации в частотной области пропорционален коэффициенту Т преобразования/растягивания во времени.
Повторяя последовательность приведенных выше рассуждений для случая, когда окна анализа и синтеза имеют отличающиеся длины, можно получить более общую формулу. Пусть LA и LS - соответственно, длины окон анализа и синтеза, и М - размер используемого DFT-преобразования. Тогда правило, обобщающее формулу (3):
То, что это правило действительно является обобщением формулы (3), можно проверить путем подстановки M=FL и LA=LS=L в формулу (4) и деления на L обеих частей получаемого уравнения.
Приведенный выше анализ выполняется для достаточно специфической модели короткого непериодического сигнала, т.е. импульса Дирака. Однако эти рассуждения можно расширить, чтобы показать, что при использовании описанной выше схемы растягивания во времени входные сигналы, которые имеют близкую к плоской огибающую спектра, и которые стремятся к нулю за пределами временного интервала [а, b], будут растягиваться во времени в выходные сигналы, которые малы за пределами временного интервала [Та, Tb]. Кроме того, изучая спектрограммы реальных звуковых и/или речевых сигналов, можно убедиться в том, что опережающее эхо исчезает в растянутых во времени сигналах тогда, когда удовлетворяется описанное выше правило выбора надлежащего коэффициента передискретизации в частотной области. Более количественный анализ также показывает, что опережающее эхо дополнительно уменьшается при использовании коэффициентов передискретизации в частотной области, значения которых несколько меньше значения, налагаемого условием по формуле (3). Это происходит из-за того, что типичные оконные функции s(n) малы вблизи их краев и, таким образом, подавляют нежелательное опережающее эхо, которое располагается поблизости от краев оконных функций.
Подводя итог вышесказанному, настоящее изобретение предлагает новый способ усовершенствования переходной характеристики гармонических преобразователей в частотной области или временных расширителей путем введения передискретизированной трансформации, где величина передискретизации зависит от выбранного коэффициента преобразования.
Ниже более подробно описано применение гармонического преобразования согласно изобретению в декодерах звуковых сигналов. Традиционным случаем использования гармонического преобразователя является система кодека звуковых/речевых сигналов, использующая т.н. расширение полосы пропускания или высокочастотную реконструкцию (HFR). Следует отметить, что, не смотря на то, что отсылка производится к кодированию звуковых сигналов, описанные способы и системы в равной мере применимы к кодированию речевых сигналов и для унифицированного кодирования звуковых и речевых сигналов (USAC).
В указанных HFR-системах преобразователь может быть использован для генерирования высокочастотной составляющей сигнала из низкочастотной составляющей сигнала, предоставляемой т.н. базовым декодером. На основе дополнительной информации, передаваемой в битовом потоке, огибающей высокочастотной составляющей может быть придана форма во времени и по частоте.
Фиг.4 иллюстрирует принцип работы декодера звуковых сигналов, усиленного HFR. Базовый декодер 401 звуковых сигналов выводит звуковой сигнал с низкочастотной полосой пропускания, который подается в повышающий дискретизатор 404, который может требоваться для получения вклада в конечный звуковой сигнал с требуемой полной частотой дискретизации. Указанная повышающая дискретизация требуется для систем с двумя частотами дискретизации, где базовый кодек звуковых сигналов с ограниченной полосой функционирует на половине внешней частоты дискретизации звукового сигнала, в то время как HFR-часть обрабатывается на полной частоте дискретизации. Соответственно, в системе с одной частотой дискретизации повышающий дискретизатор 404 не используется. Выходной сигнал из 401 с низкочастотной полосой пропускания также направляется в преобразователь или блок 402 преобразования, который выводит преобразованный сигнал, т.е. сигнал, включающий требуемый высокочастотный диапазон. Посредством регулятора 403 огибающей преобразованному сигналу может быть придана форма во времени и по частоте. Конечный выходной звуковой сигнал представляет собой сумму базового сигнала с низкочастотной полосой пропускания и преобразованного сигнала со скорректированной огибающей.
Как описано в контексте фиг.4, выходной сигнал базового декодера в качестве этапа предварительной обработки может подвергаться повышающей дискретизации в 2 раза в блоке 402 преобразования. В случае растягивания во времени, преобразование в Т раз приводит к сигналу, имеющему длину в Т раз больше, чем у непреобразованного сигнала. Для достижения требуемого сдвига основного тона, или частотного преобразования до в Т раз больших частот, затем выполняется понижающая дискретизация или конверсия частоты дискретизации растянутого во времени сигнала. Как упоминалось выше, эта операция может выполняться в фазовом вокодере путем использования различающихся шагов анализа и синтеза.
Полный порядок преобразования можно получить различными способами. Первая возможность заключается в повышающей дискретизации выходного сигнала декодера в 2 раза на входе в преобразователь так, как указывалось выше. В этом случае может возникнуть необходимость в понижающей дискретизации в Т раз растянутого во времени сигнала для получения требуемого выходного сигнала с частотой, преобразованной в Т раз. Вторая возможность может заключаться в пропуске этапа предварительной обработки и в непосредственном выполнении операций растягивания во времени на выходном сигнале базового декодера. В этих случаях преобразованные сигналы должны подвергаться понижающей дискретизации в T/2 раз для сохранения глобального коэффициента повышающей дискретизации, равного 2, и достижения частотного преобразования в Т раз. Иными словами, повышающая дискретизация сигнала базового декодера может быть пропущена при выполнении понижающей дискретизации выходного сигнала преобразователя 402 в T/2 раз вместо Т. Следует, однако, отметить, что базовый сигнал перед его комбинированием с преобразованным сигналом по-прежнему нуждается в повышающей дискретизации в повышающем дискретизаторе 404.
Также следует отметить, что преобразователь 402 может использовать для генерирования высокочастотной составляющей несколько отличающихся целочисленных коэффициентов преобразования. Это показано на фиг.5, которая иллюстрирует принцип работы гармонического преобразователя 501, который соответствует преобразователю 402 по фиг.4 и включает несколько преобразователей с отличающимися порядками или коэффициентами, преобразования Т. Сигнал, который необходимо преобразовать, проходит через блок отдельных преобразователей 501-2, 501-3, , 501-Tmax, имеющих порядки преобразования Т=2, 3, , Tmax соответственно. Как правило, порядок преобразования Tmax=4 является достаточным для большинства приложений, связанных с кодированием звуковых сигналов. Вклады от различных преобразователей 501-2, 501-3, , 501-Tmax суммируются в 502, давая комбинированный выходной сигнал преобразователя. В первом варианте осуществления изобретения операция суммирования может включать сложение отдельных вкладов. В другом варианте вклады взвешиваются с различными весами так, чтобы смягчить влияние добавления нескольких составляющих в определенные частоты. Например, вклад третьего порядка может добавляться с меньшим коэффициентом усиления, чем вклад второго порядка. И наконец, блок 502 суммирования может осуществлять сложение вкладов в зависимости от выходной частоты. Например, преобразование второго порядка может использоваться для первого, более низкого частотного диапазона, а преобразование третьего порядка может использоваться для второго, более высокого частотного диапазона.
Фиг.6 иллюстрирует принцип работы такого гармонического преобразователя, как одного из блоков 501, т.е. одного из преобразователей 501-T с порядком преобразования Т. Блок 601 шага анализа выбирает последовательные кадры входного сигнала, которые подвергаются преобразованию. В блоке 602 окна анализа эти кадры совмещаются с окном анализа, т.е. умножаются на окно анализа. Следует отметить, что операции выбора кадров входного сигнала и умножения дискретных значений входного сигнала на аналитическую оконную функцию могут выполняться на едином этапе, например, путем использования оконной функции, которая сдвигается по входному сигналу на шаг анализа. В блоке 603 анализирующей трансформации обработанные методом окна кадры входного сигнала трансформируются в частотную область. Блок 603 анализирующей трансформации может, например, выполнять DFT-преобразование. Размер DFT-преобразования выбирается так, чтобы он был в F раз больше размера L окна анализа, и, таким образом, генерировалось M=F*L комплексных коэффициентов в частотной области. Эти комплексные коэффициенты изменяются в блоке 604 нелинейной обработки, например, путем умножения их фазы на коэффициент преобразования Т. Последовательность комплексных коэффициентов в частотной области, т.е. комплексных коэффициентов последовательности кадров входного сигнала, можно рассматривать как сигналы поддиапазонов. Комбинация блока 601 шага анализа, блока 602 окна анализа и блока 603 аналитического преобразования может рассматриваться как комбинированный этап анализа или блок анализирующих фильтров.
Измененные коэффициенты, или измененные сигналы поддиапазонов, трансформируются обратно во временную область с использованием блока 605 синтезирующей трансформации. Для каждого набора измененных комплексных коэффициентов это дает кадр измененных дискретных значений, т.е. набор из М измененных дискретных значений. Используя блок 606 окна синтеза, из каждого набора измененных дискретных значений можно извлечь L дискретных значений, что, таким образом, дает кадр выходного сигнала. В целом, для последовательности кадров входного сигнала можно генерировать последовательность кадров выходного сигнала. Эти последовательности кадров сдвигаются друг по отношению к другу на шаг синтеза в блоке 607 шага синтеза. Шаг синтеза может быть в Т раз больше шага анализа. Выходной сигнал генерируется в блоке 608 наложения-сложения, где сдвинутые кадры выходного сигнала накладываются, и дискретные значения для одного и того же момента времени складываются. При перемещении через приведенную выше систему входной сигнал может быть растянут во времени в Т раз, т.е. выходной сигнал может представлять собой растянутую во времени версию входного сигнала.
В конечном счете, выходной сигнал может стягиваться во времени с использованием блока 609 стягивания. Блок 609 стягивания может выполнять конверсию частоты дискретизации порядка T, т.е. блок 609 может увеличивать частоту дискретизации выходного сигнала в Т раз и, в то же время, поддерживать количество дискретных значений неизменным. Это приводит к преобразованному выходному сигналу, имеющему ту же протяженность во времени, что и входной сигнал, но включает частотные составляющие, которые сдвинуты в Т раз выше относительно входного сигнала. Блок 609 стягивания также может выполнять понижающую дискретизацию в Т раз, т.е. он может сохранять только каждое Т-е дискретное значение, отбрасывая остальные дискретные значения. Операция понижающей дискретизации может также сопровождаться работой фильтра нижних частот.Если полная частота дискретизации останется неизменной, то преобразованный выходной сигнал будет включать частотные составляющие, которые сдвинуты в Т раз выше относительно частотных составляющих входного сигнала.
Следует отметить, что блок 609 стягивания может выполнять комбинацию конверсии частоты и понижающей дискретизации. Например, частота дискретизации может быть увеличена в 2 раза. В то же время, сигнал может подвергаться понижающей дискретизации в T/2 раз. В целом, комбинация конверсии частоты и понижающей дискретизации также приводит к выходному сигналу, который представляет собой гармоническое преобразование входного сигнала посредством коэффициента Т. В общем, можно утверждать, что блок 609 стягивания выполняет комбинацию конверсии частоты и/или понижающей дискретизации для того, чтобы получить гармоническое преобразование посредством порядка преобразования Т. Это особенно хорошо подходит для выполнения гармонического преобразования выходного сигнала базового декодера 401 звуковых сигналов с низкочастотной полосой пропускания. Как описывалось выше, выходной сигнал с низкочастотной полосой пропускания также мог бы быть подвергнут понижающей дискретизации в 2 раза в кодировщике и поэтому мог бы требовать повышающей дискретизации в блоке 404 повышающей дискретизации перед его объединением с реконструированной высокочастотной составляющей. Тем не менее, может оказаться полезным уменьшение вычислительной сложности для выполнения гармонического преобразования в блоке 402 преобразования, используя «не подвергнутый повышающей дискретизации» выходной сигнал с низкочастотной полосой пропускания. В этом случае, блок 609 стягивания блока 402 преобразования может выполнять конверсию частоты порядка 2 и, таким образом, неявным образом выполнять требуемую операцию повышающей дискретизации высокочастотной составляющей. Как следствие, преобразованные выходные сигналы порядка Т являются подвергнутыми понижающей дискретизации в 772 раз в блоке 609 стягивания.
В случае нескольких параллельных преобразователей с различными порядками преобразования, как показано на фиг.5, некоторые операции трансформации, или операции блока фильтров, могут быть разделены между различными преобразователями 501-2, 501-3, , 501-Tmax. Разделение операций блока фильтров может, предпочтительно, выполняться для анализа с целью получения более эффективных реализаций блоков 402 преобразования. Следует отметить, что предпочтительный способ повторной дискретизации выходных сигналов различных преобразователей заключается в отбрасывании DFT-элементов разрешения по частоте или каналов поддиапазонов перед этапом синтеза. Таким образом, при выполнении обратного DFT-преобразования/блока синтезирующих фильтров меньшего размера могут быть пропущены фильтры повторной дискретизации и уменьшена сложность.
Как уже упоминалось, окно анализа может являться общим для сигналов с различными коэффициентами преобразования. Пример шага окон 700, применяемых к низкочастотным сигналам, при использовании общего окна анализа приведен на фиг.7. Фиг.7 показывает шаг окон 701, 702, 703, 704 анализа, которые смещены относительно друг друга посредством коэффициента скачка анализа или шага по времени ta анализа.
Пример шага окон, применяемых к низкочастотному сигналу, например, к выходному сигналу базового декодера, показан на фиг.8(а). Шаг, с которым окно анализа длиной L перемещается для каждой анализирующей трансформации, обозначается ta. Каждая часть входного сигнала, подвергнутая анализирующей трансформации и обработанная методом окна, также называется кадром. Анализирующая трансформация конвертирует/трансформирует кадр дискретных значений входного сигнала в набор комплексных FFT-коэффициентов. После анализирующей трансформации комплексные FFT-коэффициенты могут преобразовываться из декартовых в полярные координаты. Комплект FFT-коэффициентов для последовательных кадров составляет сигналы анализируемых поддиапазонов. Для каждого из используемых коэффициентов преобразования T=2, 3, , Tmax, фазовые углы FFT-коэффициентов умножаются на соответствующий порядок преобразования Т и преобразовываются обратно в декартовы координаты.
Таким образом, может существовать отличающийся набор комплексных FFT-коэффициентов, представляющий конкретный кадр для каждого порядка преобразования Т. Иными словами, для каждого из коэффициентов преобразования T=2, 3, , Tmax, и для каждого кадра определяется отдельный набор FFT-коэффициентов. Соответственно, для каждого порядка преобразования Т генерируется отличающийся набор сигналов поддиапазонов.
На этапах синтеза шаги ts синтеза окон синтеза определяются в зависимости от порядка Т преобразования, используемого в соответствующем преобразователе. Как описывалось выше, операция растягивания во времени также включает растягивание во времени сигналов поддиапазонов, т.е. растягивание во времени комплекта кадров. Эта операция может выполняться путем выбора коэффициента скачка синтеза или шага ts синтеза, который превышает шаг ta анализа в Т раз. Соответственно, шаг ts синтеза для преобразователя порядка Т имеет вид формулы: tsT=T ta. На фиг.8(b) и 8(с) показан шаг ts. синтеза окон синтеза для коэффициентов преобразования Т=2 и Т=3 соответственно, где ts2=2 ta и ts3=3 ta.
На фиг.8 также показан нуль отсчета времени tt, который «растянут» в Т=2 раз и Т=3 раза на фиг.8(b) и 8(с), соответственно, в сравнении с фиг.8(а). Однако в выходных сигналах нуль отсчета времени t t для двух коэффициентов преобразования необходимо выровнять. Для выравнивания выходного сигнала преобразованный сигнал третьего порядка, т.е. фиг.8(с), необходимо подвергнуть понижающей дискретизации или конверсии частоты дискретизации на коэффициент T/2. Эта понижающая дискретизация приводит к гармоническому преобразованию относительно преобразованного сигнала второго порядка. Фиг.9 иллюстрирует влияние повторной дискретизации на шаг синтеза окон для Т=3. Если предположить, что анализируемый сигнал является выходным сигналом базового декодера, который не подвергался повышающей дискретизации, то сигнал по фиг.8(b) эффективно преобразован по частоте в 2 раза, а сигнал по фиг.8(с) эффективно преобразован по частоте в 3 раза.
Ниже рассматривается особенность выравнивания времени преобразованных последовательностей с различными коэффициентами преобразования при использовании общих окон анализа. Иными словами, рассматривается особенность выравнивания выходных сигналов частотных преобразователей, использующих различные порядки преобразования. При использовании описанных выше способов функции Дирака (t-t0) являются растянутыми во времени, т.е. перемещенными по оси времени на величину времени, задаваемую применяемым коэффициентом преобразования Т. Для того, чтобы конвертировать операцию растягивания во времени в операцию сдвига по частоте выполняется прореживание или понижающая дискретизация с использованием того же коэффициента преобразования Т. Если указанное прореживание посредством коэффициента преобразования Т выполнить на растянутой во времени функции Дирака (t-t0), то подвергнутый понижающей дискретизации импульс Дирака будет выровнен во времени но отношению к нулю отсчета 710 в середине первого окна 701 анализа. Это показано на фиг.7.
Однако при использовании различных порядков преобразования Т прореживания будут приводить к различным смещениям нуля отсчета до тех пор, пока нуль отсчета не будет выровнен с «нулевым» временем входного сигнала. Как следствие, необходимо выполнить корректировку смещений во времени прореженных преобразованных сигналов перед тем, как они будут суммироваться в блоке 502 суммирования. Например, предположим первый преобразователь порядка Т=3 и второй преобразователь порядка T=4. Кроме того, предположим, что выходной сигнал базового декодера не подвергался повышающей дискретизации. Тогда преобразователь прореживает растянутый во времени сигнал третьего порядка в 3/2 раз, а растянутый во времени сигнал четвертого порядка - в 2 раза. Растянутый во времени сигнал второго порядка, т.е. Т=2, будет интерпретироваться как сигнал, имеющий более высокую частоту дискретизации, чем входной сигнал, т.е. сигнал, имеющий в 2 раза большую частоту дискретизации, эффективно делающий выходной сигнал сигналом со сдвигом основного тона в 2 раза.
Можно показать, что для того, чтобы выровнять преобразованные и подвергнутые понижающей дискретизации сигналы, необходимо перед прореживанием применить к преобразованным сигналам смещения во времени посредством , т.е. к преобразованиям третьего и четвертого порядков нужно применить смещения во времени, соответственно, и . Для проверки этого утверждения на конкретном примере предположим, что нуль отсчета для растянутого во времени сигнала второго порядка соответствует моменту времени или дискретному значению , т.е. нулю отсчета 710 по фиг.7. Это так, потому что какого-либо прореживания не производилось. Для растянутого во времени сигнала третьего порядка начало отсчета будет переходить в из-за понижающей дискретизации в 3/2 раза. Если смещение во времени в соответствии с приведенным выше правилом добавляется перед прореживанием, начало отсчета будет переходить в . Это означает, что начало отсчета преобразованного сигнала, подвергнутого понижающей дискретизации, выровнено с нулем отсчета 710. Сходным образом, для преобразования четвертого порядка без смещения нуль отсчета соответствует , однако при использовании предложенного смещения, начало отсчета переходит в , что снова является выровненным с нулем отсчета 710 2-го порядка, т.е. с нулем отсчета для сигнала, преобразованного с использованием Т=2.
Другая особенность, требующая рассмотрения при совместном использовании нескольких порядков преобразования, относится к коэффициентам усиления, которые применяются к последовательностям, преобразованным с различными коэффициентами преобразования. Иными словами, необходимо рассмотреть особенность комбинирования выходных сигналов преобразователей с различными порядками преобразования. Для выбора коэффициента усиления преобразованных сигналов существует два принципа, которые могут рассматриваться в рамках различных теоретических подходов. В первом случае предполагается, что преобразованные сигналы сохраняют энергию, что подразумевает фиксированную полную энергию в низкочастотном сигнале, который затем преобразовывается в высокочастотный сигнал, преобразованный посредством коэффициента Т. В этом случае, энергия, приходящаяся на полосу пропускания, должна быть уменьшена на коэффициент Т преобразования, поскольку сигнал растягивается по частоте на ту же величину Т. Однако синусоиды, содержащие энергию в полосах пропускания с бесконечно малой шириной, будут сохранять эту энергию после преобразования. Это связно с тем, что, таким же образом, как импульс Дирака при растягивании во времени перемещается во времени преобразователем, т.е. таким же образом, как длительность импульса во времени не изменяется посредством операции растягивания во времени, синусоида при преобразовании перемещается по частоте, т.е. длительность по частоте (иными словами, ширина полосы пропускания) не изменяется посредством операции конверсии частоты. Т.е. даже если энергия, приходящаяся на полосу пропускания, уменьшается в Т раз, синусоида содержит всю энергию в одной точке по частоте, поэтому поточечная энергия будет сохраняться.
Другое мнение при выборе коэффициента усиления преобразованных сигналов заключается в поддержании энергии, приходящейся на полосу пропускания, после преобразования. В этом случае широкополосный белый шум и короткие непериодические сигналы после преобразования будут показывать плоскую частотную характеристику, в то время как энергия синусоид будет увеличиваться в T раз.
Следующей особенностью изобретения является выбор окон анализа и синтеза фазового вокодера при использовании общих окон анализа. Полезно тщательно выбрать окна анализа и синтеза фазового вокодера, т.е. a(n) и s(n). Для того, чтобы позволить осуществление совершенной реконструкции не только окно синтеза s(n) должно соответствовать приведенной выше формуле (2). Кроме того, окно анализа a(n) также должно адекватно отражать уровни боковых лепестков. В противном случае, нежелательные члены «эффекта наложения спектров», как правило, будут различимы на слух как взаимные помехи с главными членами для синусоид с изменяющимися частотами. Нежелательные члены «эффекта наложения спектров» так же, как указывалось выше, могут возникать для стационарных синусоид в случае четных коэффициентов преобразования. Настоящее изобретение предлагает использовать синусные окна по причине их хорошего коэффициента подавления боковых лепестков. Таким образом, предлагаемое окно анализа:
Тогда окна синтеза s(n) будут либо идентичными окну анализа a(n) или, если коэффициент размера скачка синтеза ts не является множителем длины окна анализа L, т.е. если длина окна анализа L не делится нацело на размер скачка синтеза, будут иметь вид приведенной выше формулы (2). Например, если L=1024 и ts=384, то 1024/384=2,667 - не является целым числом. Следует отметить, что также возможно выбрать пару биортогональных окон анализа и синтеза так, как описано выше. Это может оказаться полезным для уменьшения эффекта наложения спектров в выходном сигнале, в особенности при использовании четных коэффициентов преобразования.
Ниже делается отсылка к фиг.10 и фиг.11, которые показывают, соответственно, иллюстративный кодировщик 1000 и иллюстративный декодер 1100 для унифицированного кодирования звуковых и речевых сигналов (USAC). Общая конструкция кодировщика 1000 USAC и декодера 1100 описывается следующим образом: вначале в них присутствует традиционная предварительная/последующая обработка, которая состоит из функционального блока MPEG Surround (MPEGS), предназначенного для выполнения стерео- или многоканальной обработки и усовершенствованных блоков репликации спектральных полос (eSBR) 1001 и 1001, соответственно, которые обрабатывают параметрическое представление более высоких звуковых частот во входном сигнале, и которые могут использовать способы гармонического преобразования, описываемые в настоящем документе. За ними расположены две ветви, одна из которых состоит из тракта модифицированного инструмента Advanced Audio Coding (ААС), а другая - из тракта на основе кодирования с линейным предсказанием (в области LP или LPC), который, в свою очередь, представляет остаток LPC в частотной области или во временной области. Все переданные для ААС и LPC спектры могут быть представлены в области MDCT с последующим квантованием и арифметическим кодированием. Представление во временной области может использовать схему кодового возбуждения ACELP.
Блок 1001 усовершенствованной репликации спектральных полос (eSBR) кодировщика 1000 может включать компоненты высокочастотной реконструкции, описываемые в настоящем документе. В некоторых вариантах осуществления изобретения блок 1001 eSBR может включать блок преобразования, описываемый в контексте фиг.4, 5 и 6. Кодированные данные, относящиеся к гармоническому преобразованию, например данные об использованном порядке преобразования, величине необходимой передискретизации в частотной области или используемых коэффициентах усиления, могут быть получены кодировщиком 1000 и объединены с другой кодированной информацией в мультиплексоре битового потока и направлены в виде кодированного потока цифровых звуковых данных в соответствующий декодер 1100.
Декодер 1100, показанный на фиг.11, также включает блок 1101 усовершенствованной репликации спектральных полос (eSBR). Этот блок 1101 eSBR получает кодированный битовый поток звуковых данных или кодированный сигнал из кодировщика 1000 и применяет способы, описываемые в настоящем изобретении, для генерирования высокочастотной составляющей или высокочастотной полосы сигнала, которая объединяется с декодированной низкочастотной составляющей или низкочастотной полосой давая декодированный сигнал. Блок 1101 eSBR может включать различные компоненты, описываемые в настоящем документе. В частности, он может включать блок преобразования, описываемый в контексте фиг.4, 5 и 6. Для выполнения высокочастотной реконструкции блок 1101 eSBR может использовать информацию о высокочастотной составляющей, предоставляемую кодировщиком 1000 посредством битового потока. Эта информация может представлять собой огибающую спектра оригинальной высокочастотной составляющей, предназначенную для генерирования сигналов синтезируемых поддиапазонов и, в конечном итоге, высокочастотной составляющей декодированного сигнала, а также об используемом порядке преобразования, величине необходимой передискретизации в частотной области или используемых коэффициентах усиления.
Кроме того, фиг.10 и 11 иллюстрируют некоторые возможные дополнительные компоненты кодировщика/декодера USAC, такие как:
- инструмент демультиплексора полезной нагрузки битового потока, который разделяет полезную нагрузку битового потока на части для каждого инструмента и обеспечивает каждый из инструментов информацией о полезной нагрузке битового потока, связанной с данным инструментом;
- инструмент декодирования масштабных коэффициентов с пониженным уровнем шума, который получает информацию из демультиплексора полезной нагрузки битового потока, выполняет грамматический разбор этой информации и декодирует масштабные коэффициенты, кодированные методами Хаффмана и DPCM;
- инструмент декодирования спектра с пониженным уровнем шума, который получает информацию из демультиплексора полезной нагрузки битового потока, выполняет грамматический разбор этой информации, декодирует арифметически кодированные данные и реконструирует квантованные спектры;
- инструмент обратного квантователя, который получает квантованные значения спектра и преобразовывает целочисленные значения в немасштабированные реконструированные спектры; данный квантователь предпочтительно представляет собой компандирующий квантователь, коэффициент компандирования которого зависит от выбранного режима базового кодирования;
- инструмент заполнения шума, который используется для заполнения спектральных разрывов в декодированных спектрах, возникающих при квантовании спектральных значений в нуль, например, из-за сильного ограничения, налагаемого в кодировщике на битовые требования;
- инструмент изменения масштаба, который преобразовывает целочисленное представление масштабных коэффициентов в фактические значения и умножает немасштабированные спектры, подвергнутые обратному квантованию, на соответствующие масштабные коэффициенты;
- инструмент M/S, описанный в стандарте ISO/IEC 14496-3;
- инструмент временной фильтрации и преобразования шума (TNS), описанный в стандарте ISO/IEC 14496-3;
- инструмент коммутатора переключения блока фильтров, который применяет инверсию отображения частот, которое было проведено в кодировщике; для этого инструмента блока фильтров предпочтительно используется обратное модифицированное дискретное косинусное преобразование (IMDCT);
- инструмент коммутатора переключения блока фильтров с деформацией шкалы времени, который замещает нормальный инструмент коммутатора переключения блока фильтров при активации режима деформации шкалы времени; данный блок фильтров, предпочтительно, аналогичен (IMDCT) нормальному блоку фильтров с добавлением отображения дискретных значений во временной области, обрабатываемых методом окна, из области деформированной шкалы времени в линейную временную область путем зависящей от времени передискретизации;
- инструмент MPEG Surround (MPEGS), который создает несколько сигналов из одного или большего количества входных сигналов, применяя к входному (входным) сигналу (сигналам) сложную процедуру повышающего микширования, управляемую надлежащими пространственными параметрами; в контексте USAC, MPEGS предпочтительно используется для кодирования многоканального сигнала путем передачи сопутствующей параметрической информации совместно с передаваемым сведенным сигналом;
- инструмент классификатора сигналов, который анализирует исходный входной сигнал и генерирует из него управляющую информацию, которая запускает выбор различных режимов кодирования; анализ входного сигнала, как правило, зависит от реализации и будет пытаться выбрать оптимальный режим базового кодирования для данного кадра входного сигнала; выходной сигнал классификатора сигналов может, необязательно, использоваться также и для влияния на поведение других инструментов, например, MPEG Surround, усовершенствованного SBR, блока фильтров с деформацией шкалы времени и др.;
- инструмент фильтра LPC, который создает сигнал во временной области из сигнала в области возбуждений путем фильтрации реконструированного сигнала возбуждения через фильтр синтеза с линейным предсказанием; и
- инструмент ACELP, который обеспечивает способ эффективного представления сигнала возбуждения во временной области путем комбинирования устройства долговременного предсказания (адаптивного кодового слова) с импульсовидной последовательностью (порождающего кодового слова).
Фиг.12 иллюстрирует вариант осуществления блоков eSBR, показанных на фиг.10 и 11. Блок 1200 eSBR ниже будет описываться в контексте декодера, где входной сигнал блока 1200 eSBR представляет собой низкочастотную составляющую, также известную как низкочастотная полоса, сигнала.
На фиг.12 низкочастотная составляющая 1213 подается в блок QMF-фильтров с целью генерирования QMF-частотных диапазонов. QMF-частотные диапазоны не следует ошибочно считать анализируемыми поддиапазонами, которые описываются в настоящем документе. QMF-частотные диапазоны используются с целью обработки и объединения низко- и высокочастотных составляющих сигнала в частотной, а не временной, области. Низкочастотная составляющая 1214 подается в блок 1204 преобразования, который соответствует системам высокочастотной реконструкции, описываемым в настоящем документе. Блок 1204 преобразования генерирует высокочастотную составляющую 1212, также известную как высокочастотная полоса, сигнала, которая преобразовывается в частотную область посредством блока 1203 QMF-фильтров. Обе составляющие, QMF-трансформированная низкочастотная составляющая и QMF-трансформированная высокочастотная составляющая, подаются в блок 1205 обработки и объединения. Блок 1205 может выполнять корректировку огибающей высокочастотной составляющей и комбинирует скорректированную высокочастотную составляющую и низкочастотную составляющую. Комбинированный выходной сигнал трансформируется обратно во временную область блоком 1201 обратных QMF-фильтров.
Как правило, блок 1202 QMF-фильтров включает 32 QMF-частотных диапазона.
В этом случае, низкочастотная составляющая 1213 имеет полосу пропускания; fs/4, где fs/2 - частота дискретизации сигнала 1213. Высокочастотная составляющая, как правило, имеет полосу пропускания fs/2 и фильтруется через QMF-блок 1203, включающий 64 QMF-частотных диапазона.
В настоящем документе описан способ гармонического преобразования. Этот способ гармонического преобразования особенно хорошо подходит для преобразования коротких непериодических сигналов. Он включает комбинацию передискретизации в частотной области с гармоническим преобразованием, использующим вокодеры. Операция преобразования зависит от комбинации окна анализа, шага окна анализа, размера преобразования, окна синтеза, шага окна синтеза, а также от регулировок фазы анализируемого сигнала. Путем использования данного способа можно избежать нежелательных эффектов, таких как опережающее и запаздывающее эхо. Кроме того, способ не использует такие критерии анализа сигналов, как обнаружение коротких непериодических сигналов, которые, как правило, вносят искажения сигнала из-за нарушений непрерывности при обработке сигналов. Кроме того, только предлагаемый способ обладает пониженной вычислительной сложностью. Способ гармонического преобразования согласно изобретению может быть дополнительно улучшен путем надлежащего выбора окон анализа/синтеза, значений коэффициентов усиления и/или выравнивания во времени.
Класс G10L19/02 с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами