обработка звуковых сигналов в ходе высокочастотной реконструкции
Классы МПК: | G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала |
Автор(ы): | ЧОЭРЛИНГ Кристофер (SE) |
Патентообладатель(и): | ДОЛБИ ИНТЕРНЕШНЛ АБ (NL) |
Приоритеты: |
подача заявки:
2011-07-14 публикация патента:
10.10.2014 |
Изобретение относится к HFR (высокочастотной реконструкции/регенерации) звуковых сигналов и предназначено для выполнения HFR звуковых сигналов, содержащих большие изменения в уровне энергии в пределах низкочастотного диапазона, который используется для реконструкции высоких частот звукового сигнала. Технический результат - предотвращение нежелательных шумов, вызываемых разрывами огибающей спектра высокочастотного звукового сигнала. Система сконфигурирована для генерирования ряда сигналов высокочастотных поддиапазонов, покрывающих высокочастотный интервал, исходя из ряда сигналов низкочастотных поддиапазонов. Система включает средства для приема ряда сигналов низкочастотных поддиапазонов; средства для приема набора целевых энергий, где каждая целевая энергия покрывает отличающийся целевой интервал в пределах высокочастотного интервала и служит признаком требуемой энергии одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала; средства для генерирования ряда сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра соответственно, связанных с рядом сигналов низкочастотных поддиапазонов; и средства для регулировки энергии ряда сигналов высокочастотных поддиапазонов с использованием набора целевых энергий. 7 н. и 13 з.п. ф-лы, 14 ил.
Формула изобретения
1. Система (601, 703), сконфигурированная для генерирования ряда сигналов (604) высокочастотных поддиапазонов, покрывающих высокочастотный интервал, исходя из ряда сигналов (602) низкочастотных поддиапазонов, где система (601, 703) включает:
- средства для приема ряда сигналов (602) низкочастотных поддиапазонов;
- средства для приема набора целевых энергий, где каждая целевая энергия покрывает отличающийся целевой интервал (130) в пределах высокочастотного интервала и служит признаком требуемой энергии одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала (130);
- средства для генерирования ряда сигналов (604) высокочастотных поддиапазонов, исходя из ряда сигналов (602) низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра соответственно, связанных с рядом сигналов (602) низкочастотных поддиапазонов; и
- средства для регулировки энергии (203) ряда сигналов (604) высокочастотных поддиапазонов с использованием набора целевых энергий.
2. Система (601, 703) по п.1, отличающаяся тем, что средства для регулировки энергии (203) включают средства для ограничения регулировки энергии сигналов (604) высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала (135), и где ограничительный интервал (135) покрывает более одного целевого интервала (130).
3. Система (601, 703) по пп.1-2, отличающаяся тем, что
- ряд коэффициентов усиления спектра связан с энергией соответствующего ряда сигналов (602) низкочастотных поддиапазонов.
4. Система (601, 703) по п.3, отличающаяся тем, что
- ряд коэффициентов усиления спектра получается из частотно-зависимой кривой (403), аппроксимирующей энергию ряда сигналов (602) низкочастотных поддиапазонов.
5. Система (601, 703) по п.4, отличающаяся тем, что
- частотно-зависимая кривая (403) представляет собой многочлен предварительно определенного порядка.
6. Система (601, 703) по п.4 или 5, отличающаяся тем, что
- коэффициент усиления спектра из ряда коэффициентов усиления спектра получается, исходя из разности средней энергии ряда сигналов (602) низкочастотных поддиапазонов и соответствующего значения частотно-зависимой кривой (403).
7. Система (601, 703) по п.1, отличающаяся тем. что средства для генерирования ряда сигналов (604) высокочастотных поддиапазонов сконфигурированы для усиления ряда сигналов (602) низкочастотных поддиапазонов с использованием соответствующего ряда коэффициентов усиления спектра.
8. Система (601, 703) по п.1, отличающаяся тем, что средства для генерирования ряда сигналов (604) высокочастотных поддиапазонов сконфигурированы для
- выполнения преобразования (803) копирования вверх ряда сигналов (602) низкочастотных поддиапазонов; и/или
- выполнения гармонического преобразования (804) ряда сигналов (602) низкочастотных поддиапазонов.
9. Система (601, 703) по п.8, отличающаяся тем, что средства для генерирования ряда сигналов (604) высокочастотных поддиапазонов сконфигурированы для
- умножения дискретных значений сигнала (602) низкочастотного поддиапазона на соответствующий коэффициент усиления спектра из ряда коэффициентов усиления спектра, что, таким образом, дает модифицированные дискретные значения; и
- определения дискретного значения соответствующего сигнала (604) высокочастотного поддиапазона в определенный момент времени, исходя из модифицированных дискретных значений сигнала (602) низкочастотного поддиапазона в определенный момент времени и в по меньшей мере один предшествующий момент времени.
10. Система (601, 703) по п.9, отличающаяся тем, что дискретное значение соответствующего сигнала (604) высокочастотного поддиапазона в определенный момент времени определяется исходя из модифицированных дискретных значений сигнала (602) низкочастотного поддиапазона с использованием алгоритма копирования вверх в соответствии с MPEG-4 SBR.
11. Система (601, 703) по п.1, отличающаяся тем, что средства для регулировки энергии (203) ряда сигналов (604) высокочастотных поддиапазонов также включают средства для обеспечения того, чтобы отрегулированные сигналы высокочастотных поддиапазонов, лежащие в пределах определенного целевого интервала (130), имели такую же энергию.
12. Система (601, 703) по п.11, отличающаяся тем, что ряд сигналов (602) низкочастотных поддиапазонов и ряд сигналов (604) высокочастотных поддиапазонов соответствуют поддиапазонам:
- блока QMF-фильтров; и/или
- FFT.
13. Система (601, 703) по п.5, отличающаяся тем, что также включает средства для приема управляющих данных (603), служащих признаком
- того, применять ли ряд коэффициентов усиления спектра для генерирования сигналов (604) высокочастотных поддиапазонов; и/или
- способа определения ряда коэффициентов усиления спектра.
14. Система (601, 703) по п.13, отличающаяся тем, что управляющие данные служат признаком предварительно определенного порядка многочлена.
15. Декодер (700) звукового сигнала, сконфигурированный для декодирования битового потока (704), служащего признаком низкочастотного звукового сигнала (707) и набора целевых энергий (708), описывающих огибающую спектра соответствующего высокочастотного звукового сигнала, где декодер (700) звукового сигнала включает:
- базовый декодер и блок преобразования (702, 701), сконфигурированный для определения исходя из битового потока (704) ряда сигналов низкочастотных поддиапазонов, связанных с низкочастотным звуковым сигналом (707);
- блок (703) генерирования высоких частот согласно системе по одному из пп.1-14, сконфигурированный для определения ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов и из набора целевых энергий; и
- блок (202) слияния и обратного преобразования, сконфигурированный для генерирования звукового сигнала, исходя из ряда сигналов низкочастотных поддиапазонов и из ряда сигналов высокочастотных поддиапазонов.
16. Кодер (901), сконфигурированный для генерирования управляющих данных (905) из звукового сигнала (903), где кодер (901) звукового сигнала включает:
- первые средства для анализа формы спектра звукового сигнала (903) и для определения степени разрывов огибающей спектра, вносимых при регенерации высокочастотной составляющей звукового сигнала (903) из низкочастотной составляющей звукового сигнала (903); и
- вторые средства для генерирования управляющих данных (905), предназначенных для управления регенерацией высокочастотной составляющей на основе степени разрывов,
где первые средства выполнены с возможностью определения указанной степени разрывов огибающей спектра посредством определения информации о соотношении, изучая самые низкие частоты в низкочастотной составляющей и самые высокие частоты в низкочастотной составляющей, причем высокое значение соотношения определенной информации о соотношении указывает на высокую степень разрывов огибающей спектра, а низкое значение соотношения определенной информации о соотношении указывает на низкую степень разрывов огибающей спектра.
17. Способ генерирования ряда сигналов (604) высокочастотных поддиапазонов, покрывающих высокочастотный интервал, исходя из ряда сигналов (602) низкочастотных поддиапазонов, где способ включает:
- прием ряда сигналов (602) низкочастотных поддиапазонов;
- прием набора целевых энергий, где каждая целевая энергия покрывает отличающийся целевой интервал (130) в пределах высокочастотного интервала и служит признаком требуемой энергии одного или нескольких сигналов (604) высокочастотных поддиапазонов, лежащих в пределах целевого интервала (130);
- генерирование ряда сигналов (604) высокочастотных поддиапазонов, исходя из ряда сигналов (602) низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра соответственно, связанных с рядом сигналов (602) низкочастотных поддиапазонов; и
- регулировку энергии ряда сигналов (604) высокочастотных поддиапазонов с использованием набора целевых энергий.
18. Способ декодирования битового потока (704), служащего признаком низкочастотного звукового сигнала (707) и набора целевых энергий (708), описывающих огибающую спектра соответствующего высокочастотного звукового сигнала, где способ включает:
- определение из битового потока (704) ряда сигналов (706) низкочастотных поддиапазонов, связанных с низкочастотным звуковым сигналом (707);
- определение ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов и из набора целевых энергий в соответствии со способом, описанным в п.17; и
- генерирование звукового сигнала, исходя из ряда сигналов низкочастотных поддиапазонов и из ряда сигналов высокочастотных поддиапазонов.
19. Способ генерирования управляющих данных (905) из звукового сигнала (903), где способ включает:
- анализ формы спектра звукового сигнала (903) с целью определения степени разрывов огибающей спектра, вносимых при регенерации высокочастотной составляющей звукового сигнала (903) из низкочастотной составляющей звукового сигнала (903); и
- генерирование управляющих данных (905), предназначенных для управления регенерацией высокочастотной составляющей на основе степени разрывов,
где определение указанной степени разрывов огибающей спектра включает определение информации о соотношении посредством изучения самых низких частот в низкочастотной составляющей и самых высоких частот в низкочастотной составляющей, причем высокое значение соотношения определенной информации о соотношении указывает на высокую степень разрывов огибающей спектра, а низкое значение соотношения определенной информации о соотношении указывает на низкую степень разрывов огибающей спектра.
20. Носитель данных, включающий программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способа по одному из пп.17-19 при осуществлении на вычислительном устройстве.
Описание изобретения к патенту
ОБЛАСТЬ ТЕХНИЧЕСКОГО ПРИМЕНЕНИЯ
Данная заявка относится к HFR (высокочастотной реконструкции/регенерации) звуковых сигналов. В частности, заявка относится к способу и системе для выполнения HFR звуковых сигналов, содержащих большие изменения в уровнях энергии в пределах низкочастотного диапазона, который используется для реконструкции высоких частот звукового сигнала.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ
Такие технологии HFR, как технология репликации спектральной полосы (SBR), позволяют значительно усовершенствовать эффективность кодирования традиционных перцептивных кодеков звуковых сигналов. HFR в сочетании с MPEG-4 Advanced Audio Coding (AAC) образует чрезвычайно эффективный кодек звукового сигнала, который уже находится в употреблении в системах XM Satellite Radio и Digital Radio Mondiale, а также стандартизован в 3GPP, DVD Forum и др. Сочетание ААС и SBR носит название aacPlus. Оно является частью стандарта MPEG-4, где именуется High Efficiency AAC Profile (HE-AAC). В общем, технология HFR может комбинироваться с любым перцептивным кодеком звукового сигнала в порядке совместимости сверху вниз и снизу вверх, что дает возможность модернизировать уже установленные системы вещания, такие как система MPEG Layer-2, применяемая в системе Eureka DAB. Способы HFR также могут комбинироваться с речевыми кодеками, что допускает широкополосную речь при сверхмалых битовых скоростях передачи данных.
Основная идея, лежащая в основе HFR, представляет собой наблюдение того, что для одного и того же сигнала обычно присутствует сильная корреляция между характеристиками высокочастотного диапазона сигнала и характеристиками низкочастотного диапазона сигнала. Поэтому хорошее приближение для представления оригинального входного высокочастотного диапазона сигнала может достигаться путем преобразования сигнала из низкочастотного диапазона в высокочастотный диапазон.
Данная концепция преобразования была установлена в документе WO 98/57436, который ссылкой включается в данный документ, как способ воссоздания высокочастотной полосы из низкочастотной полосы звукового сигнала. При использовании этой концепции может достигаться значительная экономия битовой скорости передачи данных при кодировании звука и/или речи. В дальнейшем будет делаться отсылка к кодированию звука, однако следует отметить, что описанные способы и системы в равной мере применимы для кодирования речи и в унифицированном кодировании речи и звука (USAC).
Высокочастотная реконструкция может выполняться во временной области или в частотной области с использованием выбранного блока фильтров или преобразования. Этот процесс обычно включает несколько этапов, где две главные операции заключаются в том, чтобы вначале создать сигнал возбуждения высоких частот, в затем придать сигналу возбуждения высоких частот форму, приближенную к огибающей спектра оригинального спектра высоких частот. Этап создания сигнала возбуждения высоких частот может, например, основываться на модуляции сигнала с одной боковой полосой (SSB), где синусоида с частотой отображается в синусоиду с частотой , где - фиксированный сдвиг частоты. Иными словами, высокочастотный сигнал может генерироваться из низкочастотного сигнала при помощи операции «копирования вверх» низкочастотных поддиапазонов до высокочастотных поддиапазонов. Дальнейший подход к созданию сигнала возбуждения высоких частот может включать гармоническое преобразование низкочастотных поддиапазонов. Гармоническое преобразование порядка Т, как правило, предназначается для отображения синусоиды с частотой низкочастотного сигнала в синусоиду высокочастотного сигнала с частотой , где Т>1.
Технология HFR может применяться как часть систем кодирования источника, где классифицированная управляющая информация, предназначенная для управления процессом HFR, передается из кодера в декодер, наряду с представлением узкополосного/низкочастотного сигнала. Для систем, в которых нельзя передать дополнительный управляющий сигнал, процесс может применяться на стороне декодера с подходящими управляющими данными, оцененными на стороне декодера, исходя из доступной информации.
Вышеупомянутая регулировка огибающей сигнала возбуждения высоких частот нацелена на совершенствование формы спектра, которая имеет сходство с оригинальной высокочастотной полосой. Для осуществления этой регулировки должна модифицироваться форма спектра высокочастотного сигнала. Иными словами, регулировка, которая предназначена для применения к высокочастотной полосе, является функцией существующей огибающей спектра и требуемой целевой огибающей спектра.
Для систем, действующих в частотной области, например в системах HFR, реализованных в блоке псевдо-QMF-фильтров, способы на текущем уровне техники являются в этом отношении субоптимальными, поскольку создание сигнала высокочастотной полосы посредством комбинирования нескольких вкладов из исходного диапазона частот вносит в высокочастотную полосу, которая подвергается регулировке огибающей, неестественную огибающую спектра. Иными словами, высокочастотная полоса, или высокочастотный сигнал, генерируемый из низкочастотного сигнала в ходе процесса HFR, как правило, проявляет неестественную огибающую спектра (как правило, включающую разрывы спектра). Это представляет трудности для регулятора огибающей спектра, поскольку регулятор должен не только иметь возможность применять требуемую огибающую спектра с надлежащей разрешающей способностью по времени и по частоте, но и должен иметь возможность отменять спектральные характеристики, искусственно внесенные генератором сигнала HFR. Это представляет сложные проектные ограничения для регулятора огибающей. В результате данные трудности склонны приводить к доступной для восприятия потере энергии высоких частот и к слышимым разрывам в форме спектра сигнала высокочастотной полосы, в частности для сигналов речевого типа. Иными словами, традиционные генераторы сигнала HFR склонны к внесению разрывов и изменений уровня в сигнал высокочастотной полосы для сигналов, которые обладают значительными изменениями в уровне в пределах низкочастотного диапазона, например, для шипящих сигналов. Когда к такому сигналу высокочастотной полосы затем получает доступ регулятор огибающей, он не может непротиворечиво и обоснованно отделить вновь внесенный разрыв от какой-либо естественной спектральной характеристики сигнала низкочастотной полосы.
Настоящий документ описывает решение вышеупомянутой проблемы, которое в результате приводит к повышенному воспринимаемому качеству звука. В частности, настоящий документ описывает решение проблемы генерирования сигнала высокочастотной полосы из сигнала низкочастотной полосы, где огибающая спектра сигнала высокочастотной полосы эффективно регулируется так, чтобы она имела сходство с оригинальной огибающей спектра в высокочастотной полосе без внесения нежелательных артефактов.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Настоящий документ предлагает дополнительный этап коррекции как часть генерирования сигнала высокочастотной реконструкции. В результате дополнительного этапа коррекции улучшается качество звукового сигнала высокочастотной составляющей, или высокочастотного сигнала. Дополнительный этап коррекции может применяться ко всем системам кодирования источника, которые используют способы высокочастотной реконструкции, а также к любому единичному законченному способу или системе постобработки, которая нацелена на воссоздание высоких частот звукового сигнала.
Согласно одной из особенностей, описывается система, сконфигурированная для генерирования ряда сигналов высокочастотных поддиапазонов, покрывающих высокочастотный интервал. Система может конфигурироваться для генерирования ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов. Ряд сигналов низкочастотных поддиапазонов может представлять собой сигналы поддиапазонов низкочастотной полосы звукового сигнала, или узкополосного звукового сигнала, которые можно определить с использованием блока анализирующих фильтров или преобразования. В частности, ряд сигналов низкочастотных поддиапазонов можно определить из сигнала низкочастотной полосы во временной области с использованием блока анализирующих QMF-фильтров (квадратурных зеркальных фильтров) или FFT (быстрого преобразования Фурье). Ряд генерируемых сигналов высокочастотных поддиапазонов может соответствовать приближению к сигналам высокочастотных поддиапазонов оригинального звукового сигнала, из которого был получен ряд сигналов низкочастотных поддиапазонов. В частности, ряд сигналов низкочастотных поддиапазонов и ряд (ре-)генерированных высокочастотных поддиапазонов могут соответствовать поддиапазонам блока QMF-фильтров и/или FFT-преобразования.
Система может включать средства для приема ряда сигналов низкочастотных поддиапазонов. В качестве таковой система может размещаться в нисходящем направлении относительно блока анализирующих фильтров или преобразования, которое генерирует ряд сигналов низкочастотных поддиапазонов из сигнала низкочастотной полосы. Сигнал низкочастотной полосы может представлять собой звуковой сигнал, который был декодирован из принимаемого битового потока в базовом декодере. Битовый поток может храниться в памяти на носителе данных, например, на компакт-диске или DVD, или битовый поток может приниматься декодером через передающую среду, например, оптическую или радиопередающую среду.
Система может включать средства для приема набора целевых энергий, которые также могут именоваться энергиями масштабных коэффициентов. Каждая целевая энергия может покрывать отличающийся целевой интервал, который также может именоваться полосой масштабного коэффициента, в пределах высокочастотного интервала. Как правило, набор целевых интервалов, который соответствует набору целевых энергий, полностью покрывает высокочастотный интервал. Целевая энергия из набора целевых энергий обычно служит признаком требуемой энергии для одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах соответствующего целевого интервала. В частности, целевая энергия может соответствовать средней требуемой энергии для одного или нескольких сигналов высокочастотных поддиапазонов, которые лежат в пределах соответствующего целевого интервала. Целевая энергия целевого интервала, как правило, получается из энергии сигнала высокочастотной полосы оригинального звукового сигнала в пределах целевого интервала. Иными словами, набор целевых энергий, как правило, описывает огибающую спектра высокочастотной части оригинального звукового сигнала.
Система может включать средства для генерирования сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов. С этой целью, средства для генерирования ряда сигналов высокочастотных поддиапазонов могут конфигурироваться для выполнения преобразования копирования вверх для ряда сигналов низкочастотных поддиапазонов и/или для выполнения гармонического преобразования для ряда сигналов низкочастотных поддиапазонов.
Кроме того, средства для генерирования ряда сигналов высокочастотных поддиапазонов могут в ходе процесса генерирования ряда сигналов высокочастотных поддиапазонов учитывать ряд коэффициентов усиления спектра. Ряд коэффициентов усиления спектра может быть соответственно связан с рядом сигналов низкочастотных поддиапазонов. Иными словами, каждый сигнал низкочастотного поддиапазона из ряда сигналов низкочастотных поддиапазонов может содержать соответствующий коэффициент усиления спектра из ряда коэффициентов усиления спектра. Коэффициент усиления спектра из ряда коэффициентов усиления спектра может применяться к соответствующему сигналу низкочастотного поддиапазона.
Ряд коэффициентов усиления спектра может быть связан с энергией соответствующего ряда сигналов низкочастотных поддиапазонов. В частности, каждый коэффициент усиления спектра может быть связан с энергией соответствующего ему сигнала низкочастотного поддиапазона. В одном из вариантов осуществления изобретения коэффициент усиления спектра определяется на основе энергии соответствующего сигнала низкочастотного поддиапазона. С этой целью можно на основе ряда значений энергии для ряда сигналов низкочастотных поддиапазонов определить частотно-зависимую кривую. В этом случае, способ определения ряда коэффициентов усиления может основываться на частотно-зависимой кривой, которая определяется из (например, логарифмического) представления энергий ряда сигналов низкочастотных поддиапазонов.
Иными словами, ряд коэффициентов усиления спектра можно вывести из частотно-зависимой кривой, аппроксимирующей энергию ряда сигналов низкочастотных поддиапазонов. В частности, частотно-зависимая кривая может представлять собой многочлен предварительно определенного порядка/степени. В альтернативном варианте или в дополнение, частотно-зависимая кривая может включать различные отрезки кривой, где различные отрезки кривой приведены в соответствие с энергией ряда сигналов низкочастотных поддиапазонов в различных частотных интервалах. Различные отрезки кривой могут представлять собой различные многочлены предварительно определенного порядка. В одном из вариантов осуществления изобретения различные отрезки кривой представляют собой многочлены нулевого порядка, и, таким образом, отрезки кривой представляют средние значения энергии для энергии ряда сигналов низкочастотных поддиапазонов в пределах соответствующего частотного интервала. В следующем варианте осуществления изобретения частотно-зависимая кривая аппроксимируется к энергии ряда сигналов низкочастотных поддиапазонов путем выполнения операции фильтрации на основе скользящего среднего по различным частотным интервалам.
В одном из вариантов осуществления изобретения коэффициент усиления из ряда коэффициентов усиления выводится, исходя из разности средней энергии ряда сигналов низкочастотных поддиапазонов и соответствующего значения частотно-зависимой кривой. Соответствующее значение частотно-зависимой кривой может представлять собой значение кривой на частоте, лежащей в пределах диапазона частот сигнала низкочастотного поддиапазона, которому соответствует коэффициент усиления.
Как правило, энергия ряда сигналов низкочастотных поддиапазонов определяется в определенной временной сетке, например на покадровой основе, т.е. энергия сигнала низкочастотного поддиапазона в пределах некоторого промежутка времени, определяемого временной сеткой, соответствует средней энергии дискретных значений сигнала низкочастотного поддиапазона в пределах этого промежутка времени, например в пределах кадра. Поэтому в выбранной временной сетке может определяться другой ряд коэффициентов усиления спектра, например другой ряд коэффициентов усиления спектра может определяться для каждого кадра звукового сигнала. В одном из вариантов осуществления изобретения ряд коэффициентов усиления спектра может определяться на основе поочередных дискретных значений, например, путем определения энергии ряда низкочастотных поддиапазонов с использованием плавающего окна по дискретным значениям каждого сигнала низкочастотного поддиапазона. Следует отметить, что система может включать средства для определения ряда коэффициентов усиления спектра, исходя из ряда сигналов низкочастотных поддиапазонов. Эти средства могут конфигурироваться для выполнения вышеупомянутых способов с целью определения ряда коэффициентов усиления спектра.
Средства для генерирования ряда сигналов высокочастотных поддиапазонов могут конфигурироваться для усиления ряда сигналов низкочастотных поддиапазонов с использованием соответствующего ряда коэффициентов усиления спектра. И хотя в нижеследующем описании делается отсылка к «усилению», операция «усиления» может замещаться другими операциями, такими как операция «умножения», операция «изменения масштаба» или операция «регулировки». Усиление может осуществляться путем умножения дискретного значения сигнала низкочастотного поддиапазона на соответствующий ему коэффициент усиления спектра. В частности, средства для генерирования ряда сигналов высокочастотных поддиапазонов могут конфигурироваться для определения дискретного значения сигнала высокочастотного поддиапазона в заданный момент времени из дискретных значений сигнала низкочастотного поддиапазона в заданный момент времени и в по меньшей мере один предшествующий момент времени. Кроме того, дискретные значения сигнала низкочастотного поддиапазона могут усиливаться посредством соответствующего коэффициента усиления спектра из множества коэффициентов усиления спектра. В одном из вариантов осуществления изобретения средства для генерирования ряда сигналов высокочастотных поддиапазонов конфигурируются для генерирования ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов в соответствии с алгоритмом «копирования вверх», определенным в MPEG-4 SBR. Ряд сигналов низкочастотных поддиапазонов, применяемых в указанном алгоритме «копирования вверх», может быть усилен с использованием ряда коэффициентов усиления спектра, где операция «усиления» может выполняться так, как это описано выше.
Система может включать средства для регулировки энергии ряда сигналов высокочастотных поддиапазонов с использованием набора целевых энергий. Данная операция, как правило, именуется регулировкой огибающей спектра. Регулировка огибающей спектра может выполняться путем регулировки энергии ряда сигналов высокочастотных поддиапазонов так, чтобы средняя энергия сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала, соответствовала соответствующей целевой энергии. Это можно выполнить путем определения значения регулировки огибающей, исходя из значений энергии ряда сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала, и из соответствующей целевой энергии. В частности, значение регулировки огибающей может определяться исходя из соотношения целевой энергии и значений энергии ряда сигналов высокочастотных поддиапазонов, лежащих в пределах соответствующего целевого интервала. Указанное значение регулировки огибающей может применяться для регулировки энергии ряда сигналов высокочастотных поддиапазонов.
В одном из вариантов осуществления изобретения средства для регулировки энергии включают средства для ограничения регулировки энергии сигналов высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала. Как правило, ограничительный интервал покрывает более одного целевого интервала. Средства для ограничения обычно применяются во избежание нежелательного усиления шума в пределах определенных сигналов высокочастотных поддиапазонов. Например, средства для ограничения могут конфигурироваться для определения среднего значения регулировки огибающей из значений регулировки огибающей, соответствующих целевым интервалам, покрываемым или лежащим в пределах ограничительного интервала. Кроме того, средства для ограничения могут конфигурироваться для ограничения регулировки энергии сигналов высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала, до значения, пропорционального среднему значению регулировки огибающей.
В альтернативном варианте или в дополнение, средства для регулировки энергии ряда сигналов высокочастотных поддиапазонов могут включать средства для обеспечения того, чтобы отрегулированные сигналы высокочастотных поддиапазонов, лежащие в пределах определенного целевого интервала, имели одинаковую энергию. Последние средства часто именуются средствами «интерполяции». Иными словами, средства «интерполяции» обеспечивают то, что энергия каждого из сигналов высокочастотных поддиапазонов, лежащих в пределах определенного целевого интервала, соответствует целевой энергии. Средства «интерполяции» могут быть реализованы путем регулировки каждого сигнала высокочастотного поддиапазона в пределах определенного целевого интервала по отдельности так, чтобы энергия отрегулированного сигнала высокочастотного поддиапазона соответствовала целевой энергии, связанной с определенным целевым интервалом. Это может быть выполнено путем определения отличающегося значения регулировки огибающей для каждого сигнала высокочастотного поддиапазона в пределах определенного целевого интервала. Отличающееся значение регулировки огибающей может определяться на основе энергии определенного сигнала высокочастотного поддиапазона и целевой энергии, соответствующей определенному целевому интервалу. В одном из вариантов осуществления изобретения значение регулирования огибающей для определенного сигнала высокочастотного поддиапазона определяется на основе соотношения целевой энергии и энергии определенного сигнала высокочастотного поддиапазона.
Система также может включать средства для приема управляющих данных. Управляющие данные могут служить признаком того, следует ли применять для генерирования ряда сигналов высокочастотных поддиапазонов ряд коэффициентов усиления спектра. Иными словами, управляющие данные могут служить признаком того, следует ли выполнять дополнительную регулировку усиления сигналов низкочастотных поддиапазонов или нет. В альтернативном варианте или в дополнение, управляющие данные могут служить признаком способа, который необходимо применить для определения ряда сигналов усиления спектра. Например, управляющие данные могут служить признаком предварительно определенного порядка многочлена, который необходимо применить для определения частотно-зависимой кривой, аппроксимирующей энергии ряда сигналов низкочастотных поддиапазонов. Управляющие данные, как правило, принимаются из соответствующего кодера, который анализирует оригинальный звуковой сигнал и информирует соответствующий декодер, или систему HFR, о том, каким образом следует декодировать битовый поток.
Согласно другой особенности, описывается декодер звукового сигнала, сконфигурированный для декодирования битового потока, включающего низкочастотный звуковой сигнал и включающего набор целевых энергий, описывающих огибающую спектра высокочастотного звукового сигнала. Иными словами, описан декодер звукового сигнала, сконфигурированный для декодирования битового потока, служащего признаком низкочастотного звукового сигнала и служащего признаком набора целевых энергий, описывающих огибающую спектра высокочастотного звукового сигнала. Декодер звукового сигнала может включать базовый декодер или/и блок преобразования, сконфигурированный для определения из битового потока ряда сигналов низкочастотных поддиапазонов, связанных с низкочастотным звуковым сигналом. В альтернативном варианте или в дополнение, декодер звукового сигнала может включать блок генерирования высоких частот в соответствии с системой, описанной в настоящем документе, где система может быть сконфигурирована для определения ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов и из набора целевых энергий. В альтернативном варианте или в дополнение, декодер может включать блок слияния и/или обратного преобразования, сконфигурированный для генерирования звукового сигнала, исходя из ряда сигналов низкочастотных поддиапазонов и ряда сигналов высокочастотных поддиапазонов. Блок слияния и обратного преобразования может включать блок синтезирующих фильтров или преобразование, например блок обратных QMF-фильтров или обратное FFT.
Согласно следующей особенности, описывается кодер, сконфигурированный для генерирования из звукового сигнала управляющих данных. Кодер звукового сигнала может включать средства для анализа формы спектра звукового сигнала и для определения степени разрывов огибающей спектра, вносимых при регенерации высокочастотной составляющей звукового сигнала из низкочастотной составляющей звукового сигнала. В качестве такового кодер может включать определенные элементы соответствующего декодера. В частности, кодер может включать систему HFR, описываемую в настоящем документе. Это может позволять кодеру определять степень разрывов в огибающей спектра, которые могли бы вноситься в высокочастотную составляющую звукового сигнала на стороне декодера. В альтернативном варианте или в дополнение, кодер может включать средства для генерирования управляющих данных, предназначенных для управления регенерацией высокочастотной составляющей на основе степени разрывов. В частности, управляющие данные могут соответствовать управляющим данным, принимаемым соответствующим декодером системы HFR. Управляющие данные могут служить признаком того, использовать ли ряд коэффициентов усиления спектра в ходе процесса HFR, и/или того, какой предварительно определенный порядок многочлена использовать с целью определения ряда коэффициентов усиления спектра. Для того чтобы определить указанную информацию, можно определить соотношение выбранных частей низкочастотного диапазона, т.е. диапазон частот, покрываемый рядом сигналов низкочастотных поддиапазонов. Информацию об этом соотношении можно определить изучая самые низкие частоты в низкочастотной полосе и самые высокие частоты в низкочастотной полосе с целью оценки изменения спектра сигнала низкочастотной полосы, которое затем будет использоваться в декодере для высокочастотной реконструкции. Высокое соотношение может указывать на повышенную степень разрывности. Управляющие данные также могут определяться с использованием детекторов типа сигнала. Например, обнаружение речевых сигналов может указывать на повышенную степень разрывности. С другой стороны, обнаружение в оригинальном звуковом сигнале выраженных синусоид может вести к тому, что в ходе процесса HFR не следует применять ряд коэффициентов усиления спектра.
Согласно другой особенности, описывается способ генерирования ряда сигналов высокочастотных поддиапазонов, покрывающего высокочастотный интервал, исходя из ряда сигналов низкочастотных поддиапазонов. Способ может включать этапы приема ряда сигналов низкочастотных поддиапазонов и/или приема набора целевых энергий. Каждая целевая энергия может покрывать отличающийся целевой интервал в пределах высокочастотного интервала. Кроме того, каждая целевая энергия может служить признаком требуемой энергии одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала. Способ может включать этап генерирования ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра соответственно, связанных с рядом сигналов низкочастотных поддиапазонов. В альтернативном варианте или в дополнение, способ может включать этап регулировки энергии ряда сигналов высокочастотных поддиапазонов с использованием набора целевых энергий. Этап регулировки энергии может включать этап ограничения регулировки энергии сигналов высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала. Как правило, ограничительный интервал покрывает более одного целевого интервала.
Согласно следующей особенности, описывается способ декодирования битового потока, служащего признаком или включающего низкочастотный звуковой сигнал и набор целевых энергий, описывающих огибающую спектра соответствующего высокочастотного звукового сигнала. Как правило, низкочастотный и высокочастотный звуковые сигналы соответствуют низкочастотной и высокочастотной составляющим одного и того же исходного звукового сигнала. Способ может включать этап определения ряда сигналов низкочастотных поддиапазонов, связанных с низкочастотным звуковым сигналом из битового потока. В альтернативном варианте или в дополнение, способ может включать этап определения ряда сигналов высокочастотных поддиапазонов, исходя из ряда сигналов низкочастотных поддиапазонов и из набора целевых энергий. Этот этап, как правило, выполняется в соответствии со способами HFR, описанными в настоящем документе. Впоследствии способ может включать этап генерирования звукового сигнала, исходя из ряда сигналов низкочастотных поддиапазонов и из ряда сигналов высокочастотных поддиапазонов.
Согласно другой особенности, описывается способ генерирования управляющих данных из звукового сигнала. Способ может включать этап анализа формы спектра звукового сигнала с целью определения степени разрывов, вносимых при регенерации высокочастотной составляющей звукового сигнала из низкочастотной составляющей звукового сигнала. Кроме того, способ может включать этап генерирования управляющих данных, предназначенных для управления регенерацией высокочастотной составляющей на основе степени разрывов.
Согласно следующей особенности, описывается программа, реализованная программно. Программа, реализованная программно, может быть адаптирована для исполнения на процессоре и для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на вычислительном устройстве.
Согласно другой особенности, описывается носитель данных. Носитель данных может включать программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на вычислительном устройстве.
Согласно следующей особенности, описывается компьютерный программный продукт. Компьютерная программа может включать исполняемые команды, предназначенные для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на компьютере.
Следует отметить, что способы и системы, включая предпочтительные варианты их осуществления, как они описаны в настоящей патентной заявке, могут применяться по отдельности или в сочетании с другими способами и системами, раскрытыми в данном документе. Кроме того, все особенности способов и систем, описываемых в настоящей патентной заявке, могут произвольно комбинироваться. В частности, одни характерные признаки пунктов формулы изобретения могут произвольным образом комбинироваться с другими характерными признаками.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
Ниже изобретение разъясняется посредством иллюстративных примеров с отсылкой к сопроводительным графическим материалам, где
Фиг. 1а иллюстрирует абсолютный спектр одного из примеров сигнала высокочастотной полосы перед регулировкой огибающей спектра;
Фиг. 1b иллюстрирует пример отношения между временными кадрами данных звукового сигнала и временными границами огибающей для огибающих спектра;
Фиг. 1с иллюстрирует абсолютный спектр одного из примеров сигнала высокочастотной полосы перед регулировкой огибающей спектра и соответствующие полосы масштабных коэффициентов, ограничительные полосы и склейки HF (высоких частот);
Фиг. 2 иллюстрирует вариант осуществления системы HFR, где к процессу копирования вверх добавлен дополнительный этап регулировки усиления;
Фиг. 3 иллюстрирует аппроксимацию грубой огибающей спектра для примера сигнала низкочастотной полосы;
Фиг. 4 иллюстрирует вариант осуществления дополнительного регулятора усиления, действующего на необязательных управляющих данных, дискретных значениях QMF-поддиапазонов, и выводящего кривую усиления;
Фиг. 5 иллюстрирует более подробный вариант осуществления дополнительного регулятора усиления по Фиг. 4;
Фиг. 6 иллюстрирует вариант осуществления системы HFR с узкополосным сигналом в качестве входного сигнала и широкополосным сигналом в качестве выходного сигнала;
Фиг. 7 иллюстрирует вариант осуществления системы HFR, включенной в модуль SBR декодера звукового сигнала;
Фиг. 8 иллюстрирует вариант осуществления модуля высокочастотной реконструкции на примере декодера звукового сигнала;
Фиг. 9 иллюстрирует вариант осуществления примера кодера;
Фиг. 10a иллюстрирует спектрограмму примера вокального отрывка, который был декодирован с использованием традиционного декодера;
Фиг. 10b иллюстрирует спектрограмму вокального отрывка по Фиг. 10а, который был декодирован с использованием декодера, применяющего дополнительную обработку регулировки усиления; и
Фиг. 10c иллюстрирует спектрограмму вокального отрывка по Фиг. 10а для оригинального некодированного сигнала.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Нижеописанные варианты осуществления изобретения являются единственно иллюстрациями принципов настоящего изобретения «ОБРАБОТКА ЗВУКОВЫХ СИГНАЛОВ В ХОДЕ ВЫСОКОЧАСТОТНОЙ РЕКОНСТРУКЦИИ». Следует понимать, что модификации и изменения схем и деталей, описанных в данном документе, будут очевидны для специалистов в данной области. Поэтому намерение заключается в ограничении только объемом предстоящей формулы изобретения, а не конкретными деталями, представленными в данном документе с целью описания и разъяснения вариантов осуществления изобретения.
Как описывалось выше, декодеры звуковых сигналов, использующие способы HFR, как правило включают блок HFR, предназначенный для генерирования высокочастотного звукового сигнала, и следующий за ним блок регулировки огибающей спектра, предназначенный для регулировки огибающей спектра высокочастотного звукового сигнала. Регулировка огибающей спектра звукового сигнала, как правило, осуществляется посредством какой-либо реализации блока фильтров или посредством фильтрации во временной области. Регулировка может либо стремиться к выполнению коррекции абсолютной огибающей спектра, либо она может выполняться посредством фильтрации, что также корректирует фазовые характеристики. Для любого пути регулировка, как правило, представляет собой сочетание двух этапов: устранения текущей огибающей спектра и наложения целевой огибающей спектра.
Важно отметить, что способы и системы, описываемые в настоящем документе, направлены не только на устранение огибающей спектра звукового сигнала. Способы и системы стремятся выполнить соответствующую спектральную коррекцию огибающей спектра сигнала низкочастотной полосы как часть этапа регенерации высоких частот так, чтобы не вносить разрывности огибающей спектра высоких частот, создаваемые при объединении различных фрагментов низкочастотной полосы, т.е. низкочастотного сигнала, смещаемых или преобразуемых в другие диапазоны частот высокочастотной полосы, т.е. высокочастотного сигнала.
На Фиг. 1а показан стилистически изображенный спектр 100, 110 выходного сигнала блока HFR перед прохождением в регулятор огибающей. На верхней панели для генерирования сигнала 105 высокочастотной полосы из сигнала 101 низкочастотной полосы применяется способ копирования вверх (с двумя склейками), например способ копирования вверх, используемый в MPEG-4 SBR (репликации спектральной полосы), который описан в документе "ISO/IEC 14496-3 Information Technology - Coding of audio-visual objects - Part 3: Audio" и который ссылкой включается в настоящий документ. Способ копирования вверх транслирует части менее высоких частот 101 в более высокие частоты 105. На нижней панели для генерирования сигнала 115 высокочастотной полосы из сигнала 111 низкочастотной полосы применяется способ гармонического преобразования (с двумя склейками), например способ гармонического преобразования из MPEG-D USAC, который описан в документе "MPEG-D USAC: ISO/IEC 23003-3 - Unified Speech and Audio Coding" и который ссылкой включается в настоящий документ.
На последующем этапе регулировки огибающей на частотные составляющие 105, 115 накладывается целевая огибающая спектра. Как видно из спектра 105, 115, проходящего в регулятор огибающей, в форме спектра сигнала 105, 115 возбуждения высоких частот, т.е. сигнала высокочастотной полосы, входящего в регулятор огибающей, наблюдаются разрывы (особенно на границах склеек). Эти разрывы возникают в результате того, что для генерирования высокочастотной полосы 105, 115 используется несколько вкладов низких частот 101, 111. Как видно, форма спектра сигнала 105, 115 высокочастотной полосы связана с формой спектра сигнала 101, 111 низкочастотной полосы. Соответственно, определенные формы спектра сигнала 101, 111 низкочастотной полосы, например градиентная форма, показанная на Фиг. 1а, могут приводить к разрывам в общем спектре 100, 110.
В дополнение к спектру 100, 110 Фиг. 1а иллюстрирует пример частотных полос 130 данных огибающей спектра, представляющих целевую огибающую спектра. Эти частотные полосы 130 именуются полосами масштабных коэффициентов или целевыми интервалами. Как правило, целевое значение энергии, т.е. энергия масштабного коэффициента, определяется для каждого целевого интервала, т.е. для полосы масштабного коэффициента. Иными словами, полосы масштабных коэффициентов определяют эффективную разрешающую способность по частоте целевой огибающей спектра, поскольку они, как правило, представляют собой единственное целевое значение энергии, приходящееся на целевой интервал. Используя масштабные коэффициенты, или целевые энергии, заданные для полос масштабных коэффициентов, последующий регулятор огибающей стремится отрегулировать сигнал высокочастотной полосы так, чтобы энергия сигнала высокочастотной полосы в пределах полос масштабных коэффициентов была равна энергии принятых данных огибающей спектра, т.е. целевой энергии для соответствующих полос масштабных коэффициентов.
На Фиг. 1с с использованием примера звукового сигнала представлено более подробное описание. На графике изображен спектр реального звукового сигнала 121, входящего в регулятор огибающей, а также соответствующий оригинальный сигнал 120. В данном конкретном примере диапазон SBR, т.е. диапазон высокочастотного сигнала, начинается при 6,4 кГц и продолжается на три различные репликации диапазона полосы низких частот. Частотные диапазоны различных репликаций обозначены как "склейка 1", " склейка 2" и " склейка 3". Из спектрограммы ясно видно, что склеивание вносит разрывы в огибающую спектра при около 6,4 кГц, 7,4 кГц и 10,8 кГц. В данном примере эти частоты соответствуют границам склейки.
Фиг. 1с также иллюстрирует полосы 130 масштабных коэффициентов, а также ограничительные полосы 135, функция которых будет более подробно описана ниже. В иллюстрируемом варианте осуществления изобретения применяется регулятор огибающей MPEG-4 SBR. Данный регулятор огибающей действует с применением блока QMF-фильтров. Главными особенностями работы такого регулятора огибающей являются: вычисление средней энергии в пределах полосы 130 масштабного коэффициента входного сигнала в регулятор огибающей, т.е. сигнала, выходящего из блока HFR; иными словами, в пределах каждой полосы 130 масштабного коэффициента/каждого целевого интервала 130 вычисляется средняя энергия регенерированного сигнала высокочастотной полосы; определение величины усиления, также именуемой значением регулировки огибающей, для каждой полосы 130 масштабного коэффициента, где значение регулировки огибающей представляет собой квадратный корень из соотношения энергий между целевой энергией (т.е. целевой энергией, полученной из кодера) и средней энергией регенерированного сигнала 121 высокочастотной полосы в пределах соответствующей полосы 130 масштабного коэффициента; применение соответствующего значения регулировки огибающей к частотной полосе регенерированного сигнала 121 высокочастотной полосы, где полоса частот соответствует соответствующей полосе 130 масштабного коэффициента.
Кроме того, регулятор огибающей может включать дополнительные этапы и изменения, в частности: ограничительную функцию, которая ограничивает максимально допустимое значение регулировки огибающей, применимое на определенной полосе частот, т.е. на ограничительной полосе 135. Максимально допустимое значение регулировки огибающей является функцией значений регулировки огибающей, определяемых для различных полос 130 масштабных коэффициентов, которые попадают в пределы ограничительной полосы 135. В частности, максимально допустимое значение регулировки огибающей является функцией среднего значения регулировки огибающей, определяемых для различных полос 130 масштабных коэффициентов, которые попадают в пределы ограничительной полосы 135. Например, максимально допустимое значение регулировки огибающей может представлять собой среднее значение соответствующих значений регулировки огибающей, умноженное на ограничительный коэффициент (такой как, например, 1,5). Ограничительная функция, как правило, применяется с целью ограничения внесения шума в регенерированный сигнал 121 высокочастотной полосы. Это особенно значимо для звуковых сигналов, включающих выраженные синусоиды, т.е. звуковых сигналов, имеющих спектр с отчетливыми пиками при определенных частотах. В отсутствие применения ограничительной функции значимые значения могли бы определяться для полос 130 масштабных коэффициентов, для которых оригинальный звуковой сигнал включает отчетливые пики. В результате полоса 130 масштабного коэффициента могла бы регулироваться полностью (а не только ее отчетливый пик), что, таким образом, вносило бы шум; функцию интерполяции, которая позволяет вычислять значения регулировки огибающей для каждой отдельного QMF-поддиапазона в пределах полосы масштабного коэффициента вместо вычисления единственного значения регулировки огибающей для всей полосы масштабного коэффициента. Поскольку полосы масштабных коэффициентов, как правило, включают больше одного QMF-поддиапазона, значение регулировки огибающей можно вычислить как соотношение энергии определенного QMF-поддиапазона в пределах полосы масштабного коэффициента и целевой энергии, принимаемой из кодера, вместо вычисления соотношения средней энергии для всех QMF-поддиапазонов в пределах полосы масштабного коэффициента и целевой энергии, принимаемой из кодера. Таким образом, для каждого QMF-поддиапазона в пределах полосы масштабного коэффициента можно вычислить отличающееся значение регулировки огибающей. Следует отметить, что принимаемое значение целевой энергии для полосы масштабного коэффициента, как правило, соответствует средней энергии этого диапазона частот в оригинальном сигнале. То, каким именно образом применять принимаемую среднюю целевую энергию к соответствующей частотной полосе регенерированного сигнала высокочастотной полосы, относится к работе декодера. Это может осуществляться путем применения общего значения регулировки огибающей к QMF-поддиапазонам в пределах полосы масштабного коэффициента регенерированного сигнала высокочастотной полосы или путем применения индивидуального значения регулировки огибающей к каждому QMF-поддиапазону. Последний подход можно представить, как если бы принимаемая информация об огибающей (т.е. одна целевая энергия, приходящаяся на полосу масштабного коэффициента) была «интерполирована» по QMF-поддиапазонам в пределах полосы масштабного коэффициента с целью обеспечения большей разрешающей способности по частоте. Поэтому данный подход именуется в MPEG-4 SBR «интерполяцией».
Возвращаясь к Фиг. 1с, можно видеть, что регулятор огибающей должен был бы применять высокие значения регулировки огибающей с целью приведения спектра 121 сигнала, входящего в регулятор огибающей, в соответствие со спектром 120 оригинального сигнала. Также можно видеть, что по причине разрывов в пределах ограничительных полос 135 возникают большие изменения значений регулировки огибающей. В результате этих больших изменений значения регулировки огибающей, которые соответствуют локальным минимумам регенерированного спектра 121, будут ограничиваться ограничительной функцией регулятора огибающей. В результате разрывы в регенерированном спектре 121 будут сохраняться даже после выполнения операции регулировки огибающей. С другой стороны, если ограничительная функция не используется, может вноситься нежелательный шум, как это описано выше.
Таким образом, проблема при регенерации сигнала высокочастотной полосы возникает для любого сигнала, который содержит большие изменения в уровне для диапазона низкочастотной полосы. Данная проблема возникает из-за разрывов, вносимых в ходе регенерации высоких частот высокочастотной полосы. Когда впоследствии регулятор огибающей подвергается воздействию этого регенерированного сигнала, он не может непротиворечиво и обоснованно отделить вновь внесенный разрыв от какой-либо «реальной» спектральной характеристики сигнала низкочастотной полосы. Результаты этой проблемы двояки. Во-первых, в сигнал высокочастотной полосы вносятся формы спектров, которые регулятор огибающий не может компенсировать. Соответственно, выходной сигнал имеет неправильную форму спектра. Во-вторых, по причине того, что данный эффект входит и выходит как функция спектральных характеристик низкочастотной полосы, воспринимается эффект неустойчивости.
Настоящий документ направлен на решение вышеупомянутой проблемы путем описания способа и системы, которые обеспечивают на входе регулятора огибающей сигнал высокочастотной полосы HFR, который не проявляет разрывов спектра. С этой целью предлагается устранять, или понижать, огибающую спектра сигнала низкочастотной полосы при выполнении высокочастотной регенерации. Поступая таким образом, удастся избежать внесения каких-либо разрывов спектра в сигнал высокочастотной полосы перед выполнением регулировки огибающей. В результате регулятору огибающей не придется манипулировать с указанными разрывами спектра. В частности, может применяться традиционный регулятор огибающей, где во избежание внесения шума в регенерированный сигнал высокочастотной полосы применяется ограничительная функция. Иными словами, описанные способ и система могут применяться для регенерации сигнала высокочастотной полосы HFR, содержащего небольшое количество, или не содержащего, разрывов спектра и имеющего низкий уровень шума.
Следует отметить, что разрешающая способность регулятора огибающей по времени может отличаться от разрешающей способности по времени предлагаемой обработки огибающей спектра в ходе генерирования сигнала высокочастотной полосы. Как отмечалось выше, обработка огибающей спектра в ходе регенерации сигнала высокочастотной полосы предназначена для модификации огибающей спектра сигнала низкочастотной полосы с целью облегчения обработки в последующем регуляторе огибающей. Даная обработка, т.е. модификация огибающей спектра сигнала низкочастотной полосы, может выполняться, например, один раз на кадр звукового сигнала, где регулятор огибающей может регулировать огибающую спектра по нескольким промежуткам времени, т.е. с использованием нескольких принятых огибающих спектра. Это описано на Фиг. 1b, где на верхней панели изображена временная сетка 150 данных огибающей спектра, и на нижней панели изображена временная сетка 155 для обработки огибающей спектра сигнала низкочастотной полосы в ходе регенерации сигнала высокочастотной полосы. Как видно на примере по Фиг. 1b, временные границы данных огибающей спектра изменяются во времени, в то время как обработка огибающей спектра сигнала низкочастотной полосы действует в фиксированной временной сетке. Также можно видеть, что в ходе одного цикла обработки огибающей спектра сигнала низкочастотной полосы может выполняться несколько циклов регулировки огибающей (представленных временными границами 150). В иллюстрируемом примере обработка огибающей спектра сигнала низкочастотной полосы действует на кадре на кадровой основе, что означает: для каждого кадра определяется отличающийся набор коэффициентов усиления спектра. Следует отметить, что обработка сигнала низкочастотного диапазона может действовать в любой временной сетке и что временная сетка указанной обработки необязательно должна совпадать с временной сеткой данных огибающей спектра.
На Фиг. 2 изображена система 200 HFR на основе блока фильтров. Система 200 HFR действует с использованием блока псевдо-QMF-фильтров, и система 200 может применяться для получения сигнала 100 с высокочастотной полосой и с низкочастотной полосой, проиллюстрированного на верхней панели Фиг. 1а. Однако добавлен дополнительный этап регулировки усиления как части процесса генерирования высоких частот, который в иллюстрируемом примере представляет собой процесс копирования вверх. Низкочастотный входной сигнал анализируется 32-полосным QMF 201 с целью генерирования ряда сигналов низкочастотных поддиапазонов. Некоторые, или все, сигналы низкочастотных поддиапазонов склеиваются в более высокочастотных положениях в соответствии с алгоритмом генерирования высоких частот (HF). Кроме того, ряд низкочастотных поддиапазонов непосредственно входят в блок 202 синтезирующих фильтров. Вышеупомянутый блок 202 синтезирующих фильтров представляет собой 64-полосный обратный QMF 202. Для конкретного применения, проиллюстрированного на Фиг. 2, применение 32-полосного блока 201 анализирующих QMF-фильтров и применение 64-полосного блока 202 синтезирующих QMF-фильтров будет приводить в выходной частоте дискретизации выходного сигнала, удвоенной относительно входной частоты дискретизации входного сигнала. Однако следует отметить, что системы, описанные в настоящем документе, не ограничиваются системами с отличающимися входными и выходными частотами дискретизации. Специалисты в данной области могут представить себе множество различных соотношений частот дискретизации.
Как описано на Фиг. 2, поддиапазоны с менее высокими частотами отображаются в поддиапазоны с более высокими частотами. Этап 204 регулировки усиления вводится как часть этого процесса копирования вверх. Созданный высокочастотный сигнал, т.е. сгенерированный ряд сигналов высокочастотных поддиапазонов, является входным в регулятор 203 огибающей (который, возможно, включает ограничительную функцию и/или функцию интерполяции) перед объединением с рядом сигналов низкочастотных поддиапазонов в блоке 202 синтезирующих фильтров. Путем применения такой системы 200 HFR и, в частности, путем применения этапа 204 регулировки усиления можно избежать внесения разрывов огибающей спектра, показанных на Фиг. 1. С этой целью этап 204 регулировки огибающей модифицирует огибающую спектра ряда сигналов низкочастотных поддиапазонов так, чтобы модифицированный сигнал низкочастотной полосы мог использоваться для генерирования сигнала высокочастотной полосы, т.е. ряда сигналов высокочастотных поддиапазонов, которые не проявляют разрывов, в особенности разрывов на границах склейки. С отсылкой к Фиг. 1с, дополнительный этап 204 регулировки усиления обеспечивает то, что огибающая 101, 111 спектра сигнала низкочастотной полосы модифицируется так, что отсутствуют, или ограничиваются, разрывы в генерируемом сигнале 105, 115 высокочастотной полосы.
Модификация огибающей спектра сигнала низкочастотной полосы может быть выполнена путем применения кривой усиления к огибающей спектра сигнала низкочастотной полосы. Указанная кривая усиления может определяться блоком 400 определения кривой усиления, проиллюстрированным на Фиг. 4. Модуль 400 в качестве входного сигнала принимает данные 402 QMF, соответствующие сигналу низкочастотной полосы, используемому для воссоздания сигнала высокочастотной полосы. Иными словами, ряд сигналов низкочастотных поддиапазонов является входным в блок 400 определения кривой усиления. Как уже отмечалось, для генерирования сигнала высокочастотной полосы может использоваться только подмножество доступных QMF-поддиапазонов сигнала низкочастотной полосы, т.е. входным в блок 400 определения кривой усиления может быть только подмножество доступных QMF-поддиапазонов. Кроме того, модуль 400 может принимать необязательные управляющие данные 404, например управляющие данные, отправленные из соответствующего кодера. Модуль 400 выводит кривую 403 усиления, которая предназначена для применения в ходе процесса регенерации высоких частот. В одном из вариантов осуществления изобретения кривая 403 усиления применяется к QMF-поддиапазонам сигнала низкочастотной полосы, которые используются для генерирования сигнала высокочастотной полосы. Т.е. кривая 403 усиления может применяться в процессе копирования вверх процесса HFR.
Необязательные управляющие данные 404 могут включать информацию о разрешающей способности грубой огибающей спектра, которую необходимо оценить в модуле 400, и/или информацию о приемлемости применения процесса регулировки усиления. Таким образом, управляющие данные 404 могут управлять объемом дополнительной обработки в ходе процесса регулировки усиления. Управляющие данные 404 также могут запускать обход дополнительного процесса регулировки усиления, если сигналы не являются хорошо приспособленными для оценки грубой огибающей спектра, например, если сигналы включают единичные синусоиды.
На Фиг. 5 описан более подробный вид модуля 400 по Фиг. 4. Данные 402 QMF сигнала низкочастотной полосы вводятся в блок 501 оценки огибающей, который оценивает огибающую спектра, например, в логарифмической шкале энергии. Огибающая спектра затем входит в модуль 502, который оценивает грубую огибающую спектра из огибающей спектра с высокой разрешающей способностью (по частоте), принятой из блока 501 оценки огибающей. В одном из вариантов осуществления изобретения это осуществляется путем аппроксимации многочлена низкого порядка, т.е. многочлена с порядком в интервале, например, 1, 2, 3, 4, к данным огибающей спектра. Грубая огибающая спектра также может определяться путем выполнения операции скользящего среднего огибающей спектра высокого разрешения по оси частот. Определение грубой огибающей 301 спектра сигнала низкочастотной полосы показано на Фиг. 3. Видно, что абсолютный спектр 302 сигнала низкочастотной полосы, т.е. энергии QMF-полос 302, аппроксимируются грубой огибающей 301 спектра, т.е. посредством частотно-зависимой кривой, аппроксимирующей огибающую спектра для ряда сигналов низкочастотных поддиапазонов. Кроме того, показано, что для генерирования сигнала высокочастотной полосы используется только 20 сигналов QMF-поддиапазонов, т.е. в процессе HFR используется только часть из 32 сигналов QMF-поддиапазонов.
Способ, применяемый для определения грубой огибающей спектра из огибающей спектра высокого разрешения, и, в частности, порядок многочлена, который аппроксимируется к огибающей спектра высокого разрешения, может управляться при помощи управляющих данных 404. Порядок многочлена может быть функцией размера частотного диапазона 302 сигнала низкочастотной полосы, для которого необходимо определить грубую огибающую 301 спектра, и/или функцией других параметров, относящихся к общей грубой форме спектра соответствующего частотного диапазона 302 сигнала низкочастотной полосы. Полиноминальная аппроксимация вычисляет многочлен, который аппроксимирует данные в значении среднеквадратичной погрешности. Ниже предпочтительный вариант осуществления изобретения описан посредством кода Matlab:
% Вход: энергия низкочастотной огибающей в дБ
% Выход: вектор усиления, который должен применяться перед генерированием HF
% function осуществляет полиноминальную аппроксимацию % низкого порядка для огибающей спектра низкочастотной % полосы как представления общего наклона спектра % низкочастотной полосы. Общий наклон согласно данному % представлению затем переводится в вектор усиления, который % может применяться перед генерированием HF для того, чтобы % устранить общий наклон (или грубую форму спектра). % Это предотвращает внесение в форму спектра при % генерировании HF разрывов, которые будут «запутывающими» % для последующей регулировки огибающей и ограничительного % процесса. «Запутывание» происходит тогда, когда регулятор % огибающей и ограничитель нуждаются в том, чтобы заботиться % о большом разрыве и, таким образом, они нуждаются в % большой величине усиления. Чрезвычайно трудно настроить % и % получить правильное действие этих модулей, если им % приходится заботиться как о «естественных» изменениях в % высокочастотной полосе, так и об «искусственных» % изменениях, вносимых процессом регенерации HF.
В приведенном выше коде входными данными является огибающая спектра (LowEnv) сигнала низкочастотной полосы, полученная путем усреднения дискретных значений QMF-поддиапазонов в расчете на поддиапазон по промежутку времени, соответствующему текущему временному кадру данных, на которые действует последующий регулятор огибающей. Как отмечалось выше, обработка регулировки усиления сигнала низкочастотной полосы может выполняться в различных временных сетках. В приведенном выше примере оценочная абсолютная огибающая спектра выражается в логарифмической области. Данные аппроксимируются многочленом низкого порядка, в приведенном выше примере - многочленом порядка 3. Для данного многочлена кривая усиления (GainVec) вычисляется из разности средней энергии сигнала низкочастотной полосы и кривой (lowBandEnvSlope), полученной из многочлена, аппроксимирующего данные. В приведенном выше примере операция определения кривой усиления осуществляется в логарифмической области.
Вычисление кривой усиления выполняется блоком 503 вычисления кривой усиления. Как отмечалось выше, кривая усиления может определяться из средней энергии части сигнала низкочастотной полосы, используемой для регенерации сигнала высокочастотной полосы, и из огибающей спектра части сигнала низкочастотной полосы, используемой для регенерации сигнала высокочастотной полосы. В частности, кривая усиления может определяться из разности средней энергии и грубой огибающей спектра, представленной, например, многочленом. Т.е. вычисленный многочлен может применяться для определения кривой усиления, которая включает отдельную величину усиления, также именуемую коэффициентом усиления спектра, для каждого относящегося к ней QMF-поддиапазона сигнала низкочастотной полосы. Данная кривая усиления включает величины усиления, которые затем используются в процессе HFR.
В качестве примера далее описан процесс HFR-генерирования в соответствии с MPEG-4 SBR. Генерируемый HF-сигнал может быть получен по следующей формуле (см. документ MPEG-4 Part 3 (ISO/IEC 14496-3), sub-part 4, section 4.6.18.6.2, который ссылкой включается в данный документ): , где р - индекс поддиапазона сигнала низкочастотной полосы, т.е. р определяет один из ряда сигналов низкочастотных поддиапазонов. Приведенную формулу генерирования HF можно заменить следующей формулой, которая в сочетании с генерированием HF выполняет регулировку усиления: ,
где кривая усиления именуется preGain(p).
Дальнейшие подробности процесса копирования вверх, например, относящиеся к соотношению между р и k, определены в вышеупомянутом документе MPEG-4, Part 3. В приведенной выше формуле обозначает дискретное значение в момент времени l сигнала низкочастотного поддиапазона, имеющего индекс поддиапазона р. Данное дискретное значение в сочетании с предшествующими дискретными значениями используется для генерирования дискретного значения сигнала высокочастотного поддиапазона , имеющего индекс поддиапазона k.
Следует отметить, что особенность регулировки усиления может использоваться в любой системе высокочастотной реконструкции на основе блока фильтров. Это иллюстрируется на Фиг. 6, где настоящее изобретение является частью отдельного блока 601 HFR, который действует на узкополосный, или низкочастотный, сигнал 602 и выводит широкополосный, или высокочастотный, сигнал 604. Модуль 601 может принимать в качестве входного сигнала дополнительные управляющие данные 603, где управляющие данные 603 могут, среди прочего, определять объем обработки, применяемой для описанной регулировки усиления, а также информацию о целевой огибающей спектра сигнала высокочастотной полосы. Однако данные параметры являются лишь примерами необязательных управляющих данных 603. В одном из вариантов осуществления изобретения соответствующая информация также может быть получена из узкополосного сигнала 602, входящего в модуль 601, или при помощи других средств. Т.е. управляющие данные 603 могут быть определены в модуле 601 на основе информации, поставляемой в модуль 601. Следует отметить, что отдельный блок 601 HFR может принимать ряд сигналов низкочастотных поддиапазонов и может выводить ряд сигналов высокочастотных поддиапазонов, т.е. блоки анализирующих/синтезирующих фильтров, или преобразования, могут размещаться снаружи блока 601 HFR.
Как уже отмечалось выше, может оказаться полезным передать сигнал об активации обработки регулировки усиления в битовом потоке из кодера в декодер. Для некоторых типов сигнала, например для единичной синусоиды, обработка регулирования усиления может быть неподходящей, и поэтому может оказаться полезным дать возможность системе кодера/декодера выключать дополнительную обработку для того, чтобы не вносить нежелательные свойства в сигналы в подобных предельных случаях. С этой целью кодер может конфигурироваться для анализа звуковых сигналов и для генерирования управляющих данных, которые включают и выключают обработку регулировки усиления в декодере.
На Фиг. 7 предлагаемый этап регулировки усиления включен в блок 703 высокочастотной реконструкции, который составляет часть кодека звукового сигнала. Одним из примеров такого блока 703 HFR является инструмент MPEG-4 Spectral Band Replication, применяемый как часть кодека High Efficiency AAC или MPEG-D USAC (унифицированного кодека речи и звука). В данном варианте осуществления изобретения битовый поток 704 принимается декодером 700 звукового сигнала. Битовый поток демультиплексируется в демультиплексоре 701. Часть битового потока 708, относящаяся к SBR, подается в модуль SBR или блок 703 HFR, и относящийся к базовому кодеру битовый поток 707, например данные базового декодера AAC или USAC, направляется в модуль 702 базового кодера. Кроме того, низкочастотный, или узкополосный, сигнал 706 проходит из базового декодера 702 в блок 703 HFR. Настоящее изобретение, например, в соответствии с системой, описанной на Фиг. 2, включается в блок 703 HFR как часть процесса SBR. Блок 703 HFR с использованием обработки, описанной в настоящем документе, выводит широкополосный, или высокочастотный, сигнал 705.
На Фиг. 8 более подробно описан один из вариантов осуществления модуля 703 высокочастотной реконструкции. Фиг. 8 иллюстрирует, что генерирование сигнала HF (высоких частот) может быть получено из различных модулей генерирования HF в различные моменты времени. Генерирование HF может основываться либо на копирующем вверх преобразователе 803 на основе QMF, либо генерирование HF может быть основано на гармоническом преобразователе 804 на основе FFT. В обоих модулях генерирования HF-сигнала сигнал низкочастотной полосы обрабатывается 801, 802 как часть генерирования HF с целью определения кривой усиления, которая применяется в процессе копирования вверх 803 или гармонического преобразования 804. Выходные сигналы двух преобразователей селективно вводятся в регулятор 805 огибающей. Решение о том, сигнал какого из преобразователей использовать, управляется битовым потоком 704 или 708. Следует отметить, что по причине копирующей вверх сущности форма огибающей спектра сигнала низкочастотной полосы в преобразователе на основе QMF поддерживается более отчетливо, чем при использовании гармонического преобразователя. Как правило, это приводит к более выраженным разрывам огибающей спектра сигнала высокочастотной полосы при использовании преобразователей с копированием вверх. Это проиллюстрировано на верхней и нижней панелях Фиг. 1а. Соответственно, может оказаться достаточным ввести регулировку усиления только в способ копирования вверх на основе QMF, выполняемый в модуле 803. Тем не менее, применение регулировки усиления для гармонического преобразования, выполняемого в модуле 804, также может оказаться полезным.
На Фиг. 9 описан соответствующий модуль кодера. Кодер 901 может конфигурироваться для анализа определенного входного сигнала 903 и для определения объема обработки регулировки усиления, пригодной для определенного типа входного сигнала 903. В частности, кодер 901 может определять степень разрывности сигнала высокочастотного поддиапазона, которая будет вызвана блоком 703 HFR в декодере. С этой целью кодер 901 может включать блок 703 HFR или, по меньшей мере, соответствующие части блока 703 HFR. На основе анализа входного сигнала 903 могут генерироваться управляющие данные 905 для соответствующего декодера. Информация 905, касающаяся регулировки усиления, которую необходимо выполнить в декодере, объединяется в мультиплексоре 902 с битовым потоком 906 звукового сигнала, таким образом, образуя полный битовый поток 904, который передается в соответствующий декодер.
На Фиг. 10 показан выходной спектр реального сигнала. На Фиг. 10а изображен выходной сигнал декодера MPEG USAC, декодирующего монофонический битовый поток с битовой скоростью передачи данных 12 кбит/с. Данный отрывок реального сигнала представляет собой вокальную часть записи a cappella. Абсцисса соответствует временной оси, в то время как ордината соответствует оси частот. Сравнение спектрограммы по Фиг. 10а с Фиг. 10с, которая показывает соответствующую спектрограмму оригинального сигнала, ясно показывает наличие дыр (см. ссылочные позиции 1001, 1002), возникающих в спектре фрикативных частей вокального отрывка. На Фиг. 10b изображен выходной сигнал декодера MPEG USAC, включающего настоящее изобретение. Из спектрограммы видно, что дыры в спектре исчезли (см. ссылочные позиции 1003, 1004, соответствующие ссылочным позициям 1001, 1002).
Сложность предложенного алгоритма регулировки усиления вычислена как взвешенная MOPS, где такие функции, как POW/DIV/TRIG, взвешивались как 25 операций, а все остальные операции взвешивались как одна операция. При таких допущениях вычисленная сложность насчитывает, приблизительно, 0,1 WMOPS и незначительное использование RAM/ROM. Иными словами, предложенная обработка регулировки усиления требует низкой производительности обработки и памяти.
В настоящем документе описаны способ и система для генерирования сигнала высокочастотной полосы из сигнала низкочастотной полосы. Способ и система адаптированы для генерирования сигнала высокочастотной полосы, содержащего небольшое количество, или не содержащего, разрывов спектра, что, таким образом, улучшает перцептивные характеристики способов и систем высокочастотной реконструкции. Способ и система могут быть легко включены в существующие системы кодирования/декодирования звуковых сигналов. В частности, способ и система могут быть включены в обработку регулировки огибающей существующих систем кодирования/декодирования звуковых сигналов без необходимости в их модификации. В особенности это относится к ограничительной функции и функции интерполирования обработки регулировки огибающей, которые могут выполнять предназначенные для них функции. Описанные способ и система как таковые могут применяться для регенерации сигналов высокочастотных полос, содержащих небольшое количество, или не содержащих, разрывов спектра и имеющих низкий уровень шума. Кроме того, описано применение управляющих данных, где управляющие данные могут использоваться для адаптации параметров описанного способа и системы (и вычислительной сложности) к типу звукового сигнала.
Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, встроенное программное обеспечение и/или как аппаратное обеспечение. Некоторые компоненты могут быть реализованы, например, как программное обеспечение, запускаемое на процессоре обработки цифровых сигналов или микропроцессоре. Другие компоненты могут быть реализованы, например, как аппаратное обеспечение или как специализированные интегральные микросхемы. Сигналы, встречающиеся в описанных способах и системах, могут храниться в памяти таких носителей, как память с произвольным доступом или оптические носители данных. Они могут передаваться посредством сетей, таких как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другое оборудование на территории пользователя, которое применяется для хранения в памяти и/или обработки звуковых сигналов. Способы и системы также могут применяться в компьютерных системах, например на веб-серверах Интернет, которые хранят в памяти и предоставляют для загрузки звуковые сигналы, например музыкальные сигналы.
Класс G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала