устройство и метод для обработки аудиосигнала, содержащего переходный сигнал

Классы МПК:G10L21/04 временное сжатие или расширение
Автор(ы):, , , ,
Патентообладатель(и):Фраунхофер-Гезелльшафт цур Фердерунг дер ангевандтен Форшунг Е.Ф. (DE)
Приоритеты:
подача заявки:
2009-02-17
публикация патента:

Изобретение относится к области обработки аудио сигналов, а именно там, где обработка аудио сигналов включает применение аудио эффектов к сигналам, имеющим переходный сигнал. Устройство для обработки аудио сигнала, содержащего переходный сигнал, включает модуль удаления переходного сигнала (100), процессор (110) и модуль вставки сигнала (120), который вставляет часть аудио сигнала в обработанный аудио сигнал в то место, откуда переходный сигнал был удален до этапа обработки вышеуказанным модулем; таким образом, обработанный аудио сигнал содержит переходный сигнал, который не был изменен в процессе обработки; вертикальное соответствие переходного сигнала не подвергается этапу обработки процессором (110), который может его нарушить. Технический результат - улучшение качества при обработке аудио сигнала. 6 н. и 9 з.п. ф-лы, 17 ил. устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429

устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429

Формула изобретения

1. Устройство для обработки аудиосигнала с переходным сигналом (801), характеризующееся тем, что оно включает сигнальный процессор (110), предназначенный для обработки сигнала без переходного сигнала, в котором удалена временная часть (804) с переходным сигналом (801), либо для обработки аудиосигнала, содержащего переходный сигнал (803); модуль вставки сигнала (120), предназначенный для добавления временной части (809) в обработанный аудиосигнал в том месте, где была удалена временная часть или где должен находиться переходный сигнал в обработанном аудиосигнале; при этом добавленная часть (809) содержит переходный сигнал (801), который не был изменен в процессе обработки сигнальным процессором (110) для формирования обработанного аудиосигнала, где сигнальный процессор (110) выполнен таким образом, что в процессе обработки ухудшает восприятие переходного сигнала в связи с растягиванием или уменьшением сигнала, при этом полученный после обработки сигнал имеет большую или меньшую продолжительность, чем исходный аудиосигнал, и добавленная временная часть (809) отличается по длительности от удаляемой временной части (804); при растягивании добавленная временная часть (809) оказывается длиннее удаляемой временной части (804), при сокращении добавленная временная часть (809) оказывается меньше удаляемой временной части (804).

2. Устройство по п.1, характеризующееся тем, что оно содержит модуль удаления переходного сигнала (100), выполненный с возможностью удаления временной части (804) из аудиосигнала, в результате чего формируется сигнал без переходного сигнала; при этом удаляемая временная часть (804) содержит переходный сигнал (801).

3. Устройство по п.1, характеризующееся тем, что сигнальный процессор (110) выполнен с возможностью обработки аудиосигнала без переходного сигнала с учетом выбора частоты (112, 113), таким образом, в аудиосигнале без переходной части происходят фазовые изменения, которые варьируются в зависимости от спектрального компонента.

4. Устройство по п.1, характеризующееся тем, что модуль вставки сигнала (120) выполнен с возможностью получения добавленной временной части путем копирования, по меньшей мере, удаляемой временной части (804) таким образом, что добавленная временная часть содержит, по меньшей мере, копию удаляемой части аудиосигнала с переходной частью.

5. Устройство по п.1, характеризующееся тем, что сигнальный процессор (110) выполнен с возможностью растяжения аудиосигнала без переходного сигнала, а модуль вставки сигнала (120) выполнен с возможностью копирования добавляемой временной части (809) аудиосигнала с переходным сигналом, а также частей до и после переходного сигнала так, чтобы при суммировании удаляемой временной части и частей, предшествующей и последующей переходному сигналу, получался сигнал, равный по длительности добавляемой временной части (809), а также модуль (120) выполнен с возможностью вставки немодифицированной копии в обработанный аудиосигнал или вставки копии сигнала с переходным сигналом, где были изменены только начальная часть (813а) или конечная часть (813b).

6. Устройство по п.5, характеризующееся тем, что модуль вставки сигнала (120) выполнен с возможностью определения добавляемой временной части (809) таким образом, что она имеет область пересечения с обработанным сигналом в начале или в конце добавленной временной части; модуль вставки сигнала (120) также выполнен с возможностью обеспечения плавного перехода (128) на границе между обработанным аудиосигналом и добавленной временной частью.

7. Устройство по п.1, характеризующееся тем, что сигнальный процессор содержит речевой кодер, фазовый речевой кодер или процессор (P)SOLA.

8. Устройство по п.1, характеризующееся тем, что включает формирователь сигнала (130) для формирования обработанного аудиосигнала при помощи процесса децимации или при помощи выполнения этапа дискретизации по времени.

9. Устройство по п.1, характеризующееся тем, что модуль вставки сигнала (120) выполнен с возможностью определения (122) длительности добавленной временной части (809), которая копируется из аудиосигнала с переходным сигналом, определения (123) начальной точки или конечной точки добавленной временной части путем нахождения максимального количества взаимно коррелирующих параметров; таким образом, граница добавленной временной части максимально совпадает с соответствующей границей обработанного сигнала, временная точка (803устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 ) переходного сигнала в обработанном аудиосигнале совпадает с точкой (803) переходного сигнала в исходном аудиосигнале или отклоняется от нее; отклонение является допустимым с точки зрения психоакустики после применения процедур предварительной и последующей маскировки.

10. Устройство по п.1, характеризующееся тем, что включает детектор переходного сигнала (103) для выявления переходного сигнала в аудио сигнале, или модуль извлечения служебной информации (106) для извлечения и обработки служебной информации, связанной с аудиосигналом; служебная информация указывает на время (803) переходного сигнала или начальную и конечную точки удаляемой временной или добавленной временной частей.

11. Устройство для создания сигнала метаданных для аудиосигнала с переходным сигналом, включающее детектор переходного сигнала (103) для определения переходного сигнала (801) в аудиосигнале; модуль вычисления метаданных (104устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 ), для определения метаданных, указывающих временную локализацию переходного сигнала в аудиосигнале, либо начальную точку перед переходным сигналом, либо конечную точку после переходного сигнала, либо длительность части аудиосигнала с переходным сигналом; и сигнальный выходной интерфейс (900), выполненный с возможностью формирования метасигнала, содержащего либо метаданные, либо аудиосигнал совместно с метаданными для дальнейшей передачи или хранения.

12. Способ обработки аудиосигнала с переходом (801), характеризующийся тем, что включает обработку (110) аудиосигнала, в котором удалена временная часть (804) с переходным сигналом (801), либо аудиосигнала с переходным сигналом (803) для формирования обработанного сигнала; вставку (120) добавленной временной части (809) в обработанный аудиосигнал, откуда была удалена временная часть или туда, где находится переходный сигнал в обработанном аудиосигнале; при этом добавленная временная часть (809) содержит переходный сигнал (801), который не подвергался обработке в отличие от исходного сигнала, где на этапе обработки (110) ухудшают восприятие переходного сигнала в связи с растягиванием или уменьшением сигнала, при этом полученный после обработки сигнал имеет большую или меньшую продолжительность, чем исходный аудиосигнал, и добавленная временная часть (809) отличается по длительности от удаляемой временной части (804); при растягивании добавленная временная часть (809) оказывается длиннее удаляемой временной части (804), при сокращении добавленная временная часть (809) оказывается меньше удаляемой временной части (804).

13. Способ генерирования мета сигнала для аудиосигнала, содержащего переходный сигнал, характеризующийся тем, что включает выявление (103) переходного сигнала (801) в аудиосигнале; определение (104устройство и метод для обработки аудиосигнала, содержащего переходный   сигнал, патент № 2487429 ) метаданных, указывающих временную локализацию переходного сигнала в аудиосигнале, либо начальную точку перед переходным сигналом, либо конечную точку после переходного сигнала, либо длительность части аудиосигнала с переходным сигналом; и формирование (900) метасигнала, содержащего либо метаданные, либо аудиосигнал совестно с метаданными для дальнейшей их передачи или хранения.

14. Машиночитаемый носитель информации с сохраненной на нем компьютерной программой с программным кодом, который приводится в действие, когда программа устанавливается на компьютере, для реализации способа по п.12.

15. Машиночитаемый носитель информации с сохраненной на нем компьютерной программой с программным кодом, который приводится в действие, когда программа устанавливается на компьютере, для реализации способа по п.13.

Описание изобретения к патенту

Настоящее изобретение применяется в области обработки аудио сигналов, а именно там, где обработка аудио сигналов включает применение аудио эффектов к сигналам, имеющим переходный сигнал.

Известно, что при подобной обработке аудио сигналов изменяется скорость воспроизведения сигнала, в то время как тон речевого сигнала остается прежним. При такой обработке используются фазовые речевые кодеры или такие методы, как метод совмещения и добавления (с синхронизацией тона) (P)SOLA, который описан в работах J.L.Flanagan and R.M.Golden, The Bell System Technical Journal, November 1966, pp.1394 to 1509; United States Patent 6549884 Laroche, J. & Dolson, M.: Phase-vocoder pitch-shifting; Jean Laroche and Mark Dolson, New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects", Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999; and Zölzer, U:DAFX:Digital Audio Effects; Wiley & Sons; Edition: 1 (February 26, 2002); pp.201-298.

Кроме того, аудио сигналы могут передаваться с помощью таких методов, как фазовые речевые кодеры или (P)SOLA, когда передаваемый аудио сигнал имеет ту же самую длину воспроизведения/повторного воспроизведения, что и исходный сигнал до передачи, но тон сигнала при этом меняется. Это достигается при ускоренном воспроизведении удлиненного сигнала, где фактор ускорения для выполнения ускоренного воспроизведения зависит от фактора удлинения, применяемого для растягивания исходного аудио сигнала во времени. Когда сигнал имеет дискретную репрезентацию во времени, эта процедура соответствует субдискретизации удлиненного сигнала или децимации удлиненного сигнала согласно коэффициенту, равному коэффициенту удлинения, при этом частота сигнала остается неизменной.

Особую сложность при обработке аудио сигналов такого типа представляют переходные сигналы. Переходные сигналы - это составляющие сигнала, когда энергия сигнала на всей частоте или на определенной частоте резко меняется, то есть резко увеличивается или резко уменьшается. Особенностью переходных сигналов является распределение энергии сигнала в спектре. Обычно энергия аудио сигнала во время перехода распределяется по всей частотной полосе, в то время как в порциях без переходного сигнала энергия обычно концентрируется в частотах низкого диапазона аудио сигнала или других определенных частотах.

Это означает, что часть сигнала без переходной помехи, которая также называется постоянной или тональной частью сигнала, имеет неравномерный спектр. Другими словами, энергия сигнала включена в сравнительно небольшое количество спектральных линий/спектральных частот, которые значительно выделяются над уровнем помех аудио сигнала. В части перехода энергия аудио сигнала распределяется по многим частотным полосам, особенно, в части высоких частот, поэтому часть аудио сигнала с переходом будет относительно равномерна по сравнению с тональной частью. Как правило, переходный сигнал представляет собой значительные изменения во времени, что означает, что сигнал будет включать более высокие гармоники, когда выполняется преобразование Фурье. Важной особенностью этого множества высоких гармоник является то, что фазы этих высоких гармоник взаимосвязаны особым образом, так что совмещение всех синусоидальных волн приводит к резкому изменению энергии сигнала. Иными словами, в данном случае существует сильная корреляция в спектре.

К особым случаям необходимо отнести «вертикальное соответствие». «Вертикальное соответствие» относится к временно-частотной репрезентации спектра сигнала, где горизонтальное направление соответствует развитию сигнала во времени, а вертикальное направление описывает взаимозависимость спектральных компонентов и частоты.

В ходе обычных стадий обработки, которые выполняются для того, чтобы растянуть или уменьшить во времени аудио сигнал, вертикальное соответствие разрушается, что означает, что переходный сигнал «размывается» во времени, когда он подвергается процедуре растягивания или уменьшения во времени. Это происходит, например, при применении фазового речевого кодера или любого другого метода, который выполняет частотно-зависимую обработку, изменяя фазу аудио сигнала, которая различна для различных частотных коэффициентов.

Когда при обработке аудио сигнала нарушается вертикальное соответствие переходного сигнала, обрабатываемый сигнал оказывается подобным исходному сигналу в той части, где отсутствует переход, то есть в стационарной части. Часть сигнала, где присутствует переход, имеет худшее качество. Неконтролируемое изменение вертикального соответствия переходного сигнала приводит к его временному рассеиванию. В связи с тем, что гармонические составляющие формируют переходный сигнал, изменение фаз всех этих составляющих в хаотичном порядке неизбежно приводит к появлению шумов.

Однако переходные части очень важны в плане динамики аудио сигнала, например, музыкального сигнала или речевого сигнала, где неожиданные изменения энергии в определенные моменты влияют на субъективность аудио сигнала. Иными словами, переходы, как правило, являются «ключевыми моментами» аудио сигнала, которые определяют субъективный характер сигнала. Переходные сигналы, в которых вертикальное соответствие было устранено с помощью процедуры обработки сигнала или было уменьшено в соответствии с частью перехода исходного сигнала, после обработки оказываются искаженными, реверберирующими и не естественными для слушателя.

Современные методы позволяют растянуть время вокруг перехода. Методы временной и/или тональной обработки сигналов описаны в следующих работах и патентах: Laroche L., Dolson M.: Improved phase vocoder timescale modification of audio", IEEE Trans. Speech and Audio Processing, vol.7, no.3, pp.323-332; Emmanuel Ravelli, Mark Sandier and Juan P. Bello: Fast implementation for non-linear time-scaling of stereo audio; Proc. of the 8 th Int. Conference on Digital Audio Effects (DAFx'05), Madrid, Spain, September 20-22, 2005; Duxbury, С.M.Davies, and M.Sandier (2001, December). Separation of transient information in musical audio using multiresolution analysis techniques. In Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Ireland; and Röbel, A.: A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER; Proc. of the 6 th Int. Conference on Digital Audio Effects (DAFx-03), London, UK, September 8-11, 2003.

В процессе растягивания аудио сигнала во времени с помощью фазового речевого кодера части сигнала с переходом «размываются» посредством рассеивания, так как нарушается так называемое вертикальное соответствие сигнала. При использовании так называемых методов пересечения-наложения, например, (P)SOLA может возникнуть искажение эхо-компонента до и после перехода. Такая проблема может возникнуть при растягивании переходного сигнала. При выполнении преобразования переходного сигнала параметры преобразования варьируются, это значит, что тон составляющих сигнала также будет изменен, поэтому сигнал будет восприниматься как искаженный.

Целью настоящего изобретения является улучшение качества при обработке аудио сигнала.

Цель достигается благодаря применению устройства для обработки аудио сигнала в соответствии с п.1, устройства для воспроизведения аудио сигнала в соответствии с п.12, метода обработки аудио сигнала в соответствии с п.13, метода получения аудио сигнала в соответствии с п.14, метода получения сигнала с переходом и служебной информацией в соответствии с п.15 или благодаря применению компьютерной программы в соответствии с п.16.

В ходе решения проблем с качеством, которые появляются в процессе нерегулируемой обработки переходной части аудио сигнала, настоящее изобретение позволяет исключить переходную часть из процесса обработки аудио сигнала, если она отрицательно сказывается на качестве сигнала, таким образом, что переходная часть удаляется до этапа обработки, а после него вставляется заново, либо переходная часть обрабатывается, но затем удаляется из аудио сигнала и заменяется необработанной переходной частью.

Предпочтительным является вариант, когда переходные части, добавляемые в обработанный сигнал, являются копиями соответствующих частей исходного аудио сигнала. Таким образом, обработанный сигнал состоит из части без перехода, которая подверглась изменениям, и части, включающей переход, которая осталась без изменений или была изменена особым образом. Например, исходная часть переходного сигнала могла быть подвергнута децимации, любому типу взвешивания или другой обработке. В качестве альтернативы часть переходного сигнала может быть заменена на синтезированный переходный сигнал, который получен таким образом, что он является подобным исходному переходу, соответствуя таким параметрам, как изменение энергии за определенный период или другим параметрам, характеризующим переходную часть. Таким образом, оказывается возможным определить параметры переходной части исходного аудио сигнала, удалить его до этапа обработки сигнала или заменить подвергшийся обработке переходный сигнал синтезированным переходным сигналом, созданным на основе параметров перехода. Более эффективным является метод копирования части оригинального сигнала до процесса обработки с последующей ее вставкой в обработанный аудио сигнал, так как эта процедура гарантирует, что переходная часть в обработанном аудио сигнале идентична переходу исходного сигнала. Эта процедура гарантирует, что особое влияние переходного сигнала на восприятие сигнала сохраняется в обработанном сигнале, если его сравнивать с исходным сигналом до этапа обработки. Таким образом, субъективное и объективное качество в отношении переходной части не ухудшается при любой обработке аудио сигнала.

Варианты настоящего изобретения представляют новый метод обработки переходной части сигнала, улучшающий восприятие, который создает временное «размывание» посредством рассеивания сигнала. Метод включает этап удаления переходной части сигнала до этапа растягивания и затем, соответственно, этап вставки неизмененной переходной части в измененный (растянутый) сигнал.

Предпочтительные формы осуществления настоящего изобретения описываются в соответствии со следующими иллюстративными схемами:

Фиг.1 иллюстрирует предпочтительную форму реализации изобретенного устройства или метода для обработки аудио сигнала с переходной частью;

Фиг.2 иллюстрирует предпочтительную форму реализации модуля удаления переходного сигнала на фиг.1;

Фиг.3a иллюстрирует предпочтительную форму реализации сигнального процессора на фиг.1;

Фиг.3b иллюстрирует следующую форму реализации сигнального процессора на фиг.1;

Фиг.4 иллюстрирует предпочтительную форму реализации модуля вставки сигнала на фиг.1;

Фиг.5а иллюстрирует общую схему применения;

Фиг.5b показывает схему реализации частей сигнального процессора на фиг.1;

Фиг.5c показывает этап растягивания аудио сигнала процессором на фиг.1;

Фиг.6 иллюстрирует трансформированную форму реализации речевого кодера, используемого сигнальным процессором на фиг.1;

Фиг.7а иллюстрирует кодер в ситуации увеличения частотной полосы;

Фиг.7b иллюстрирует декодер в ситуации увеличения частотной полосы;

Фиг.8а иллюстрирует репрезентацию энергии входящего сигнала с переходом;

Фиг.8b иллюстрирует сигнал фиг.8а, организованный с помощью метода окон;

Фиг.8с иллюстрирует сигнал без переходной части до этапа растягивания;

Фиг.8d иллюстрирует сигнал фиг.8с после этапа растягивания;

Фиг.8е иллюстрирует обработанный сигнал после вставки переходной части исходного сигнала;

Фиг.9 иллюстрирует устройство для получения служебной информации для аудио сигнала.

Фиг.1 демонстрирует предпочтительную форму реализации устройства для обработки аудио сигнала, имеющего переход. Устройство включает модуль удаления переходного сигнала 100, который на входе 101 принимает аудио сигнал с переходом. Выход 102 модуля удаления переходного сигнала соединяется с сигнальным процессором 110. Выход 111 сигнального процессора соединяется с модулем вставки сигнала 120. Выход 121 модуля вставки сигнала, где получается обработанный аудио сигнал, имеющий исходную или синтезированную переходную часть, может быть соединен со следующим устройством, таким как формирователь сигналов 130, который может выполнять дальнейшую обработку полученного сигнала, например, субдискретизацию/децимацию, проводимую в целях увеличения диапазона частот; этот этап показан далее на фиг.7а и 7b.

Однако формирователь сигналов 130 не может применяться, если обработанный аудио сигнал, полученный на выходе модуля вставки сигнала 130, используется как он есть, то есть сохраняется для дальнейшей обработки, передается в наушники или в цифровой/аналоговый конвертер, который в итоге соединяется со звукоусилительным оборудованием для воспроизводства обработанного сигнала.

В случае увеличения диапазона частот сигнал на линии 121 может оказаться сигналом высокой частоты. Сигнальный процессор генерирует сигнал высокой частоты из входящего сигнала низкой частоты, низкочастотная переходная часть удаляется из аудио сигнала 101 и вставляется в высокочастотный сигнал. Желательно, чтобы этот этап проводился в процессе обработки сигнала, не нарушая вертикальное соответствие, а именно децимацию. Этап децимации должен проводиться до этапа вставки сигнала, чтобы прошедший этап децимации переходный сигнал был вставлен в сигнал высокой частоты на выходе модуля 110.

При такой реализации настоящего изобретения формирователь сигнала может выполнять дальнейшую обработку высокочастотного сигнала, например, распределение по пакетам, добавление шумов, инверсивное фильтрование, добавление гармоник и др. процедуры, которые выполняются, например, MPEG 4 Spectral Band Replication.

Модуль вставки сигнала 120, как правило, получает служебную информацию от модуля удаления переходного сигнала 100 по каналу 123 для того, чтобы выбрать для вставки в сигнал 111 необходимую часть необработанного сигнала.

В том случае, если настоящее изобретение включает устройства 100, 110, 120, 130, процесс обработки сигнала проходит этапы, показанные на фиг.8а-8е. Не всегда требуется удалять переходный сигнал до этапа обработки сигнала процессором 110. При такой реализации настоящего изобретения не требуется наличие модуля удаления 100, модуль вставки сигнала 120 определяет часть сигнала, которая должна быть вырезана из обработанного сигнала на выходе 111 и заменена частью исходного сигнала, что схематично показано линией 121, или синтезированным сигналом, показанным линией 141, где синтезированный сигнал генерируется сигнальным генератором 140. Для получения необходимого переходного сигнала модуль вставки сигнала 120 соединяется с сигнальным генератором и передает параметры переходного сигнала. Однако связь 141 между модулями 140 и 120 является двусторонней. Если устройство обработки сигнала имеет особый детектор переходного сигнала, тогда информация о переходном сигнале передается от этого детектора (не показан на фиг.1) генератору переходного сигнала 140. Генератор переходного сигнала может сразу передавать части переходного сигнала, а может сохранять переходные сигналы, взвешивать их с использованием параметров переходного сигнала, а затем генерировать/синтезировать переходный сигнал для дальнейшего его использования модулем вставки 120.

Одна из форм реализации настоящего изобретения позволяет модулю удаления переходного сигнала 100 удалять часть аудио сигнала, содержащую переходный сигнал, для получения аудио сигнала без переходной части.

Далее сигнальный процессор может обрабатывать аудио сигнал без переходного сигнала, что является предпочтительным, либо процессор обрабатывает аудио сигнал с переходной частью, на выходе получается обработанный аудио сигнал 111.

Модуль вставки сигнала 120 вставляет часть сигнала в обработанный аудио сигнал, откуда был удален переходный сигнал. Вставляемый переходный сигнал не подвергался обработке сигнальным процессором 110. Таким образом, на выходе 121 получается итоговый аудио сигнал.

Фиг.2 иллюстрирует предпочтительную реализацию модуля удаления переходного сигнала 100. Первый вариант реализации применяется для аудио сигналов, которые не имеют служебной информации/метаинформации о переходных сигналах. В этом случае модуль удаления переходного сигнала 100 включает детектор перехода 103, калькулятор (вычислитель) затухания/усиления 104 и модуль удаления переходного сигнала (модуль удаления первой части) 105. Второй вариант реализации модуля 100 предназначен для аудио сигналов, имеющих информацию о переходе, которая кодируется при помощи кодирующего устройства, что будет описано далее в соответствии с фиг.9. Модуль удаления сигнала 100 включает модуль извлечения служебной информации 106, который извлекает служебную информацию 107, присоединенную к аудио сигналу. Временная характеристика перехода, содержащаяся в служебной информации 107 может передаваться в вычислитель затухания/усиления 104. В том случае, если аудио сигнал в качестве метаинформации включает не только информацию о времени перехода, то есть точное время включения перехода, но и время начала/окончания той части аудио сигнала, которая должна быть удалена, отсутствует необходимость в применении вычислителя затухания/усиления 104. Информация о начале/окончании перехода 108 напрямую передается в модуль удаления переходного сигнала 105. Информация 108, как и другие линии, обозначенные пунктирной линией, являются факультативными.

Как показано на фиг.2, вычислитель затухания/усиления 104 имеет на выходе информацию 109. Служебная информация 109 отличается от времени начала/окончания переходного сигнала, если принимать во внимание этап обработки аудио сигнала процессором 110 на фиг.1. Далее, аудио сигнал передается на вход модуля удаления 105.

Желательно, чтобы вычислитель затухания/усиления 104 определял время начала/окончания удаляемого переходного сигнала (первой части). Это время вычисляется на основе времени перехода, поэтому не только сам переход, но и некоторые окружающие его части удаляются модулем 105. Предпочтительной является ситуация, когда часть сигнала с переходом не просто вырезается как прямоугольное временное окно, но происходит выделение по методу затухания и усиления. Для выделения части сигнала по методу затухания или усиления могут применяться различные виды окон, имеющих более плавную форму по сравнению с прямоугольным окном, например тип окон приподнятый косинус. Таким образом, при удалении части сигнала это не скажется отрицательно на частоте, как в случае применения прямоугольного окна. Однако, в целом, возможно применение различных типов окон. По окончании этапа обработки методом окон остается сигнал, не разделенный на окна.

В этом контексте может применяться любой метод подавления переходного сигнала, в результате применения которого получается остаточный сигнал с уменьшенным переходом или сигнал полностью без перехода. По сравнению с полным удалением перехода, когда часть сигнала определенный период времени равна нулю, подавление перехода оказывается более предпочтительным в тех случаях, когда части сигнала, равные нулю, оказывают неблагоприятное влияние на процесс дальнейшей обработки аудио сигнала, так как подобные параметры не характерны для аудио сигналов.

Естественно, все вычисления, выполняемые детектором перехода 103 и вычислителем затухания/усиления 104, могут применяться на стороне кодирования, что будет описано в соответствии с фиг.9. Это относится также к таким результатам вычислений, как время перехода и/или время начала/окончания первой части, которые передаются в сигнальный манипулятор, служебная информация или метаинформация, передаваемые вместе с аудио сигналом или отдельно от него, то есть по отдельному каналу внутри особого сигнала с метаданными.

Фиг.3а иллюстрирует предпочтительную форму реализации сигнального процессора 110 в соответствии с фиг.1. Эта реализация включает анализатор выбора частоты 112 и последовательно соединенный процессор с функцией выбора частоты 113. Модуль 113 функционирует таким образом, что он применяет негативное влияние на вертикальное соответствие исходного аудио сигнала. Примером его применения может послужить растягивание сигнала во времени или уменьшение сигнала во времени (сокращение), когда растягивание и уменьшение сигнала производится с учетом выбора частоты. Так, например, в процессе обработки в аудио сигнале происходят фазовые изменения, которые должны быть различными для разных частот. В результате на выходе из модуля 13 получают обработанный сигнал без переходного сигнала или обработанный сигнал с обработанным переходным сигналом (который заменяется необработанным переходным сигналом).

В контексте применения речевого кодера предпочтительный метод обработки показан на фиг.3b. Как правило, фазовый речевой кодер включает анализатор поддиапазонов/преобразований 114, последовательно соединенный процессор 115 для выполнения обработки с учетом частоты множества сигналов на выходе модуля 114, модуль комбинирования поддиапазонов/преобразованияй 116, который комбинирует сигналы, обработанные модулем 115 в целях получения обработанного сигнала во временной области на выходе 117, где этот обработанный сигнал снова является сигналом с полным диапазоном частот или сигналом, прошедшим через фильтр низких частот, поскольку диапазон обработанного сигнала 117 больше, чем диапазон, представленный между модулями 115 и 116, так как модуль комбинирования 116 производит комбинацию сигналов с учетом частоты.

Дальнейшее описание речевого кодера последовательно проводится на основе фиг.5а, 5b, 5c и 6.

Предпочтительная форма реализации модуля вставки сигнала 120 на фиг.1 показана на фиг.4. Модуль вставки включает вычислитель 122 для вычисления длительности добавляемой части (второй части). Для того, чтобы вычислить длительность вставляемой части сигнала в случае, если переходная часть была удалена до этапа обработки сигнальным процессором 110 на фиг.1, необходимо знать длительность удаленной части и параметры временного растягивания (или сокращения). Например, длительность вставляемой части вычисляется путем умножения длительности удаленной части на коэффициент растягивания.

Информация о продолжительности вставляемой части направляется в калькулятор 123 (модуль вычисления первой и второй границ второй части аудио сигнала, например, процессор взаимной корреляции) для вычисления начальной и конечной границ вставляемой части внутри аудио сигнала. Модуль вычисления 123 производит вычисления на основе взаимной корреляции между обработанным аудио сигналом без перехода, полученного на входе 124, и аудио сигналом с переходом, который обеспечивает вставляемую часть на входе 125. Желательно, чтобы модуль вычисления 123 дополнительно контролировался входом 126 (для обеспечения выбора между положительным и отрицательным сдвигом) в связи с тем, что положительный сдвиг перехода во вставляемой части более предпочтителен, чем отрицательный сдвиг перехода, который будет описан далее.

Начальная и конечная границы вставляемой части направляются в модуль выделения (экстрактор второй части) 127. Экстрактор 127 вырезает часть сигнала, то есть ту часть исходного сигнала, которая направлена на вход 125. При вырезке используется прямоугольный фильтр в связи с применением регулятора плавности перехода 128 (модуль, выполняющий взаимное пересечение первой и второй границ с обработанным аудио сигналом). Регулятор плавности перехода 128 взвешивает начальную и конечную части вставляемого сигнала. Начальная часть взвешивается с увеличением коэффициентов от 0 до 1, конечная часть взвешивается с уменьшением коэффициентов от 1 до 0 так, что между ними образуется плавный переход и вместе они составляют необходимый сигнал. Регулятор плавности перехода 128 подобным образом обрабатывает аудио сигнал после вырезки. Плавный переход гарантирует отсутствие помех во временной области, которые могут затруднять восприятие, как это происходит в случае помех переключения, если границы обработанного сигнала без перехода не совмещаются с границей вставляемой части.

Далее в соответствии с фиг.5а, 5b, 5с и 6 показана предпочтительная форма реализации сигнального процессора 110 в контексте фазового речевого кодера.

На фиг.5 и 6 показаны реализации речевого кодера в соответствии с настоящим изобретением. На фиг.5а показан вариант фазового речевого кодера, в котором сигнал поступает на вход 500 и формируется на выходе 510. Каждый канал блока фильтров, схематично показанный на фиг.5а, включает полосовой фильтр 501 и генератор 502. Выходные сигналы с генераторов каждого канала соединяются в комбинирующем модуле, который на фиг.5 показан как сумматор 503, для получения выходного сигнала. Каждый фильтр 501 обеспечивает, с одной стороны, амплитудный сигнал и, с другой стороны, частотный сигнал. Амплитудный сигнал и частотный сигнал - это временные сигналы, которые показывают изменение амплитуды в фильтре 501 за определенный период, а частотный сигнал показывает изменение частоты сигнала, который прошел этап фильтрации фильтром 501.

Схематичное устройство фильтра 501 показано на фиг.5b. Каждый фильтр на фиг.5а может быть устроен так, как на фиг.5b, однако частоты fi, которые направляются на вход микшера 551 и сумматора 552, варьируются от канала к каналу. Микшированные выходные сигналы проходят этап фильтрации фильтром низких частот 553, в то время как низкочастотные сигналы от них отличаются, так как они созданы местными генераторами низких частот (LO частоты), которые отклоняются от фазы на 90°. Верхний фильтр низких частот 553 обеспечивает квадратурный сигнал 554, а нижний фильтр 553 создает сфазированный сигнал 555. Эти два сигнала, I и Q, направляются в координатный преобразователь 556, который генерирует амплитудное фазовое представление из прямоугольного представления. Амплитудный сигнал на фиг.5а, соответственно, является сигналом на выходе 557. Фазовый сигнал направляется в фазовый преобразователь 558. На выходе модуля 558 отсутствуют фазовые значения, которые обычно представлены значениями от 0 до 360°, но представлены фазовые значения, которые линейно увеличиваются. Такое фазовое значение обрабатывается фазово-частотным конвертером 559, который может определять фазовую разницу, вычитая фазу предыдущей временной точки из фазы текущей точки, для того, чтобы определить значение частоты для текущей временной точки. Это значение частоты суммируется с постоянным значением частоты fi канала фильтрации i для определения варьирующего значения частоты на выходе 560. Значение частоты на выходе 560 имеет постоянный параметр fi и переменный параметр - отклонение частоты, который показывает, как текущая частота сигнала в канале фильтрации отклоняется от средней частоты f i.

Как показано на фиг.5а и 5b, фазовый речевой кодер разделяет спектральную информацию и временную информацию. Спектральная информация представлена особым каналом или частотой fi, что означает, что каждый канал имеет определенную частоту, в то время как временная информация содержится в показателе отклонения частот или показателе амплитудного изменения за определенный период.

На фиг.5с показан процесс обработки сигнала при увеличении ширины диапазона на этапе речевого кодера, а именно в той части, которая указана пунктирными линиями на фиг.5а.

Для масштабирования по времени, например, амплитудных сигналов A(t) каждого канала или частоты сигналов f(t), для каждого сигнала может быть проведена децимация или интерполяция соответственно. Для дальнейшей передачи, что важно для настоящего изобретения, производится интерполяция, то есть временное увеличение или расширение сигналов A(t) и f(t), в результате чего получаются расширенные сигналы A'(t) и f'(t), при этом интерполяция контролируется параметром расширения частотного диапазона. При интерполяции фазового изменения, то есть значения до суммирования постоянной частоты сумматором 552, частота каждого отдельного генератора 502 на фиг.5а не изменяется. Временные изменения общего аудио сигнала замедляются в 2 раза. В результате временно расширенный тон имеет исходную высоту, то есть исходную базовую волну со своими гармониками.

При выполнении обработки сигнала, показанного на фиг.5с, производится такая обработка каждого канала с полосовым фильтром, как это показано на фиг.5а. Полученный в результате временный сигнал направляется в дециматор и подвергается децимации. Аудио сигнал уменьшается до исходной длины, в то время как частоты одновременно удваиваются. Это приводит к двукратному изменению тона аудио сигнала, однако, сам сигнал становится равным по длине исходному сигналу, то есть имеет такое же количество составляющих.

В качестве альтернативы блоку фильтров, показанному на фиг.5а, может применяться вариант фазового речевого кодера с преобразованием, как показано на фиг.6. В этом случае аудио сигнал 100 в виде последовательности временных выборок передается в FFT процессор или процессор кратковременного преобразования Фурье 600. Процессор FFT 600, схематично показанный на фиг.6, выполняет оконное преобразование аудио сигнала для того, чтобы затем, с помощью кратковременного преобразования Фурье, вычислить амплитуду и фазу спектра. Вычисление выполняется для последовательности спектров, которые соотносятся с пересекающимися частями аудио сигнала.

При самой неблагоприятной ситуации вычисляется новый спектр для каждой новой выборки сигнала, или, например, для каждой двадцатой выборки. Размер шага выборки а между двумя спектрами сообщается контроллером 602. Контроллер 602 далее передает информацию в IFFT процессор 604, который выполняет процедуру пересечения. А именно, IFFT процессор 604 производит одно обратное кратковременное преобразование Фурье для каждого спектра на основе амплитуды и фазы измененного спектра для того, чтобы затем выполнить процедуру суммирования и получить пересечения, в результате чего получается итоговый сигнал во временной области. Процедура суммирования и получения пересечений позволяет устранить последствия оконного преобразования.

Увеличить сигнал возможно при использовании параметра b, который указывает на расстояние между двумя спектрами, когда они обрабатываются IFFT процессором 604. Параметр b должен быть больше, чем параметр а, указывающий на расстояние между спектрами, когда они подвергаются обработке процессором FFT. Основная идея состоит в том, чтобы увеличить аудио сигнал при обратной процедуре FFT, просто располагая части сигнала дальше друг от друга, чем при процедуре FFT. В результате временные изменения в синтезированном аудио сигнале происходят более медленно, чем в исходном аудио сигнале.

Отсутствие обратного фазового масштабирования в модуле 606 приводит к появлению помех. Например, для каждой частотной выборки применяются фазовые значения, последовательно меняющиеся на 45°. Это означает, что сигнал в процессе обработки блоком фильтров увеличивает фазовое значение на 1/8 цикла, то есть на 45° за каждый временной интервал, который является интервалом между двумя последовательными преобразованиями FFT. Теперь, если обратное преобразование FFT увеличивает расстояние между частями сигнала, это означает, что увеличение фазы на 45° случается за более долгий временной промежуток. В результате фазового сдвига появляется несоответствие в последующей процедуре пересечения-добавления, что приводит к нежелательному сокращению сигнала. Чтобы этого избежать, фазовые параметры подвергаются масштабированию с помощью тех же коэффициентов, с помощью которых аудио сигнал увеличивается во времени. Значение фазы для каждого спектрального значения FFT, таким образом, увеличивается на коэффициент b/а и несоответствие устраняется.

Фиг.5с показывает, что увеличение сигнала достигается путем интерполяции контрольных значений амплитуды/частоты сигнала на каждый сигнальный генератор в блоке фильтров на фиг.5а. Увеличение сигнала на фиг.6 достигается при помощи увеличения расстояния между двумя IFFT спектрами по сравнению с расстоянием между двумя FFT спектрами, то есть показатель b больше, чем показатель а. Во избежание появления помех проводится фазовое масштабирование с применением параметра b/a.

Детальное описание фазовых речевых кодеров приводится в следующих документах:

"The phase Vocoder: A tutorial". Mark Dolson, Computer Music Journal, vol.10, no.4, pp.14--27, 1986, or "New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L.Laroche und M.Dolson, Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17-20, 1999, pages 91 to 94; "New approached to transient processing interphase vocoder", A.Röbel, Proceeding of the 6th international conference on digital audio effects (DAFx-03), London, UK, September 8-11, 2003, pages DAFx-1 to DAFx-6; "Phase-locked Vocoder", Meller Puckette, Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics, or US Patent Application Number 6,549,884.

Возможно применение альтернативных методов увеличения сигнала, например метод «Синхронного тонального суммирования и наложения». Этот метод, сокращенно PSOLA, является методом синтезирования, при котором записи речевых сигналов помещаются в базу данных. Поскольку они являются временными сигналами, к ним добавляется информация о базовой частоте (тоне) и маркируется начало каждой части. На этапе соединения эти части вырезаются вместе с окружением с помощью оконной функции и добавляются к синтезируемому сигналу в нужном месте. Если необходимая частота выше или ниже частоты сигнала из базы данных, то она изменяется в соответствии с исходным сигналом. В процессе корректировки длительности сигнала, его части могут быть опущены или, наоборот, дублироваться на выходе. Этот метод называется TD-PSOLA, где TD обозначает временную область и тем самым подчеркивается, что метод применяется во временной области. Продолжением этого метода является метод Multiband Resynthesis OverLap Add, сокращенно MBROLA. При применении этого метода сегменты базы данных согласовываются по частоте в процессе предварительной обработки, а также нормализуется положение гармоник по фазе. Таким образом, на этапе синтеза переходного сигнала и обрабатываемого сигнала появляется меньшее количество помех, что приводит к улучшению качества.

В качестве альтернативы, аудио сигнал может пройти этап фильтрования при помощи полосового фильтра до процедуры увеличения, таким образом, сигнал после увеличения и децимации уже будет включать необходимые части и последующий этап фильтрации полосовым фильтром окажется невостребованным. В этом случае полосовой фильтр функционирует таким образом, что часть сигнала, которая была бы отфильтрована после увеличения диапазона частот, все еще сохраняется в выходном сигнале на выходе полосового фильтра. Таким образом, полосовой фильтр включает диапазон частот, который не содержится в аудио сигнале после увеличения и децимации. Сигнал с этим диапазоном частот - это необходимый сигнал, который формирует синтезированный высокочастотный сигнал.

Сигнальный манипулятор, показанный на фиг.1, может дополнительно включать формирователь сигнала 130 для дальнейшей обработки аудио сигнала с необработанным «естественным» или синтезированным переходным сигналом, обозначенным как 121. Формирователь сигнала может представлять собой сигнальный дециматор с функцией увеличения частотного диапазона, который на выходе формирует высокочастотный сигнал. Полученный сигнал далее корректируется, чтобы максимально соответствовать параметрам исходного высокочастотного сигнала при помощи параметров высоких частот (HF), которые передаются вместе с потоком данных HFR (реконструкция высоких частот).

На фиг.7а и 7b показана схема увеличения диапазона частот, когда используется выходной сигнал формирователя сигнала кодером 720 на фиг.7b. Аудио сигнал направляется на вход модуля 700, где комбинируются фильтры низких и высоких частот. Этот модуль, с одной стороны, включает фильтры низких частот (ТР), с помощью которых генерируется фильтрованный аудио сигнал 700, показанный как 703 на фиг.7а. Прошедший этап фильтрации с помощью низкочастотных фильтров аудио сигнал кодируется аудио кодером 704. В качестве кодера может выступать МР3 кодер (MPEG 1 Layer 3) или ААС кодер, известный как кодер МР4, описанный в Стандарте MPEG4. В качестве кодера 704 могут использоваться другие аудио кодеры, которые обеспечивают прозрачное или максимально прозрачное представление аудио сигнала 703 с ограниченной полосой частот, для того, чтобы получить кодированный или желательно «прозрачно» кодированный сигнал 705.

Верхняя полоса частот аудио сигнала формируется на выходе 706 после этапа обработки сигнала фильтрами высоких частот 702, которые указаны как "HP". Высокие частоты сигнала, то есть диапазон высоких частот или HF диапазон, указанный как часть HF, направляется в вычислитель 707, который выполняет вычисления различных параметров. Такими параметрами являются, например, спектральный пакет верхней полосы 706, который имеет довольно грубое разрешение, например, один коэффициент масштабирования для психоакустической группы частот или для каждого диапазона Барка на шкале Барка соответственно.

Следующим параметром, который вычисляется модулем 707, является шумовой порог верхнего диапазона, энергия которого в каждом диапазоне может соотносится с энергией пакета этого диапазона. Еще одним параметром, который определяется вычислителем параметров 707, является значение тональности для каждой части диапазона высоких частот, которое показывает, как спектральная энергия распределяется в диапазоне, то есть показывает, насколько равномерно распределяется спектральная энергия в диапазоне, присутствует ли нетональный сигнал в этом диапазоне, есть ли место концентрации энергии в диапазоне. Данный параметр вычисляется в том случае, если сигнал является тональным.

Следующие параметры характеризуют пики частот, которые значительно выделяются в диапазоне высоких частот, то есть определяют их высоту и частоту. Согласно концепции увеличения полосы частот при восстановлении кодированных синусоидальных частей диапазона высоких частот пики синусоид восстанавливаются по остаточному принципу или вообще не восстанавливаются.

Вычислитель параметров 707 вычисляет только параметры 708 для диапазона высоких частот, которые могут применяться для подобных этапов редукции, а также использоваться кодером 704 для определения дискретных спектральных значений, например при дифференциальном кодировании, на этапе прогнозирования, при кодировании по методу Хаффмана и т.д. Параметры 708 и аудио сигнал 705 направляются в модуль формирования потока данных 709, который формирует выходной вспомогательный поток данных 710, который обычно является битовым потоком, соответствующим определенному формату, например соответствующему стандарту MPEG 4.

Сторона декодера, как она реализуется в соответствии с настоящим изобретением, показана на фиг.7b. Поток данных 710 поступает в интепретатор потока данных 711, который отделяет информацию о параметрах расширения полосы частот 708 от аудио сигнала 705. Параметры 708 декодируются при помощи декодера параметров 712, в результате чего имеются декодированные параметры 713. Параллельно этому декодируется аудио сигнал 705 при помощи аудио декодера 714.

В зависимости от варианта изобретения аудио сигнал 100 может быть сформирован на первом входном канале 715. На выходе 715 формируется аудио сигнал с небольшим диапазоном частот, поэтому он является сигналом низкого качества. Для улучшения качества выполняется изобретенное расширение полосы частот 720 для получения на выходе аудио сигнала 712 с расширенной или увеличенной полосой частот, что означает улучшение качества сигнала.

Согласно WO 98/57436 к аудио сигналу применяется процедура сокращения полосы частот на стороне кодера, при этом кодируется только низкий диапазон частот аудио сигнала при помощи аудио кодера высокого качества. Диапазон высоких частот характеризуется не точно, с помощью ряда параметров, которые представляют весь спектральный пакет верхнего диапазона. На стороне декодера верхний диапазон затем синтезируется. Для этих целей предлагается гармоническая транспозиция, в то время как нижний диапазон декодированного аудио сигнала направляется в блок фильтров. Каналы блоков фильтров нижнего диапазона соединяются с каналами блоков фильтров верхнего диапазона, либо они функционируют по методу «заплат», то есть каждый фильтрованный сигнал подвергается корректировке. Синтезированный блок фильтров, который выполняет анализ, принимает фильтрованные сигналы в нижнем диапазоне, а также фильтрованные сигналы нижнего диапазона, гармонически скорректированные с верхним диапазоном. На выходе синтезированного блока фильтров формируется аудио сигнал с расширенной полосой частот, который передается со стороны кодера на сторону декодера на очень низкой скорости передачи данных. Особой сложностью отличаются вычисления на этапе обработки сигнала в блоке фильтров, а также корректировка на этом этапе.

Представленный метод позволяет решить указанную выше проблему. Новизна изобретенного метода заключается в том, что, в отличие от существующих методов, часть сигнала, подвергнутая оконному преобразованию и содержащая переходный сигнал, удаляется из обрабатываемого сигнала. Вставляемая часть сигнала (обычно отличающаяся от первой части) выбирается дополнительно и вставляется заново в обработанный сигнал, при этом сохраняется временный пакет, содержащий окружения перехода. Вставляемая часть сигнала выбирается таким образом, что она максимально подходит той части сигнала, откуда производилась вырезка и которая была изменена в процессе растягивания. Вычисление параметров взаимной корреляции на границе полученного сигнала и исходной части перехода обеспечивают максимально точное попадание переходного сигнала.

Таким образом, на субъективное качество переходного сигнала теперь не влияют рассеивание и эхо-эффекты.

Для того, чтобы определить длительность вставляемого переходного сигнала, выполняется вычисление точной позиции перехода, для этого применяется метод центроидного вычисления энергии в течение необходимого временного отрезка.

Размер вставляемой переходной части определяется на основе параметра растягивания во времени и на основе размера удаленной части. Желательно, чтобы этим параметрам соответствовал не только один переходный сигнал, а имелось в наличии для повторной вставки несколько близких по своим характеристикам переходов.

Согласно параметрам взаимной корреляции переходный сигнал максимально вписывается в сигнал, даже если есть незначительное несоответствие его исходной позиции. Благодаря эффекту предварительной и, особенно, последующей маскировки, позиция вставляемого переходного сигнала может не идеально соответствовать его позиции в исходном сигнале.

При вставке исходной части сигнала его тембр и высота тона должны быть изменены, так как частота дискретизации была изменена на этапе последовательной децимации. Обычно это маскируется самим переходным сигналом при помощи временных психоакустических механизмов маскировки. Особенно, если растягивание проводилось при помощи коэффициента, который является целым числом, то тембр меняется незначительно, так как в этом случае меняются волны гармоник n.th (n - коэффициент растягивания) за пределами переходного сигнала.

При использовании нового метода эффективно устраняются помехи (рассеивание, предваряющие и последующие эхо-сигналы), которые появляются в результате применения метода временного растягивания и транспозиции. При этом устраняется угроза ухудшения качества сопутствующей (возможно тональной) части сигнала.

Метод подходит для любых аудио приложений, однако скорость воспроизведения аудио сигналов или их тонов должна быть изменена.

Далее описываются формы реализации настоящего изобретения в соответствии с фиг.8а и 8b. На фиг.8а показана репрезентация аудио сигнала, но, в отличие от простой последовательности аудио сигналов во временной области, фиг.8а демонстрирует пакет энергий сигнала. Это происходит, например, в том случае, если аудио сигналы во временной области организовываются пакетами. На фиг.8а показан аудио сигнал 800, имеющий переход 801, который характеризуется резким повышением и понижением энергии во временной области. Естественно, переходом считается резкое понижение энергии, если для нее был характерен высокий уровень, или резкое понижение энергии, если для нее был характерен высокий уровень в течение определенного времени. Особым типом переходного сигнала являются аплодисменты или любой звук, производимый перкуссионным инструментом. Кроме этого переходным сигналом считается резкое начало игры на инструменте, когда он начинает играть на тон выше, то есть те случаи, когда звуковая энергия появляется в определенном диапазоне частот или множестве диапазонов, но превышает их пороговый уровень за очень короткое время.

Другие колебания энергии, как, например, колебания энергии 802 аудио сигнала 800 на фиг.8а, не рассматриваются как переходные сигналы. Детекторы переходных сигналов широко применяются и подробно описываются в специальной литературе. Их функционирование основано на множестве различных алгоритмов, которые включают частотно-избирательную обработку, сравнение результатов частотно-избирательной обработки с пороговыми данными и последующее принятие решения относительно рассматриваемого сигнала.

На фиг.8b показан переходный сигнал, к которому применено оконное преобразование. Область, ограниченная сплошной линией, удалена из сигнала после его взвешивания с применением оконной функции. Область, обозначенная пунктирной линией, добавлена после обработки сигнала. Переход, который появился в определенный временной промежуток 803, вырезается из аудио сигнала 800. На всякий случай не только переходный сигнал, но и прилегающие части вырезаются из исходного сигнала. Таким образом, определяется первая (удаляемая) часть 804, начальной точкой которой является момент 805 и конечной точкой является момент 806. Обычно первая (удаляемая) часть 804 включает переходный сигнал 803. На фиг.8с показан сигнал, который не имеет перехода до этапа растягивания. Плавный характер границ 807 и 808 свидетельствует о том, что часть сигнала была не просто вырезана с помощью прямоугольной оконной функции, а оконное преобразование выполнено с учетом формирования плавных границ аудио сигнала.

Фиг.8с соответствует аудио сигналу 102 на фиг.1, то есть следующему этапу после этапа удаления переходного сигнала. Плавные границы 807, 808 формируют область усиления и затухания сигнала, которые использует микшер 128 на фиг.4. Фиг.8d демонстрирует сигнал на фиг.8с, но на этапе растягивания, то есть после обработки процессором 110. Таким образом, сигнал на фиг.8d соответствует сигналу 111 на фиг.1. В результате процедуры растягивания часть сигнала 804 на фиг.8d стала значительно длиннее. Часть сигнала 804 на фиг.8d растягивается до второй части 809, начальной точкой которой становится момент 810, а конечной точкой - момент 811. В результате растягивания сигнала границы 807, 808 также растягиваются, поэтому их длительность по времени 807', 808' также растягивается. Это растягивание необходимо принимать во внимание при вычислении длительности второй части, которая рассчитывается вычислительным модулем 122 на фиг.4.

После определения длительности второй части из исходного аудио сигнала, как это показано на фиг.8а, вырезается часть, соответствующая второй части, указанная пунктирной линией на фиг.8b. Далее вторая часть 809 показана на фиг.8е. Как указывалось ранее, начальная точка 812, которая соответствует первой границе второй части 809 исходного аудио сигнала, и конечная точка 813 второй части, которая соответствует второй границе второй части исходного аудио сигнала, не обязательно оказываются симметричными по отношению к переходу 803, 803' так, чтобы переходный сигнал 801 точно вписывался в тот временной промежуток, который был в исходном сигнале. Наоборот, временные точки 812, 813 на фиг.8b могут незначительно отклоняться, чтобы параметры взаимной корреляции на границах исходного сигнала были близкими значениям на границах растянутого сигнала. Так, позиция переходного сигнала 803 может смещаться от центра второй части до определенного уровня 803' на фиг.8е, что обозначает отклонение от соответствующей временной точки 803, которая соответствует второй части на фиг.8b. Как указывалось ранее в отношении фиг.4, позиция 126, положительный сдвиг переходного сигнала к точке 803', соответствующей точке 803, является более предпочтительным в связи с эффектом последующей маскировки, которая звучит более четко, чем предваряющий маскирующий сигнал. Фиг.8е иллюстрирует область пересечения 813а, 813b, где регулятор усиления сигнала 128 формирует область пересечения между растянутым сигналом без перехода и копией исходного сигнала, содержащей переход.

Как показано на фиг.4, вычислительный блок 122, который вычисляет длину второй части, получает данные о длине первой (удаляемой) части и параметры растягивания. Кроме этого вычислительный модуль 122 может также получать информацию о возможности соседних переходных сигналов быть включенными в одну и ту же первую часть. Затем, учитывая эту возможность, вычислительный блок может определять длину первой части 804 и, в зависимости от коэффициента растягивания/сокращения, определять длину второй части 809.

Как указывалось выше, функциональность применения модуля вставки состоит в том, что этот модуль удаляет необходимую область, как показано на фиг.8е, которая увеличивается в процессе растягивания сигнала по сравнению с исходным сигналом. В результате формируется вторая область, которая заполняется второй частью, при этом применяется вычисление параметров взаимной корреляции, что позволяет определить точки 812 и 813, а также процедура взаимного пересечения в областях 813а и 813b.

На фиг.9 показано устройство для формирования служебной информации аудио сигнала, который может быть использован в настоящем изобретении, если переходный сигнал определяется на стороне кодера и служебная информация относительно обнаружения переходного сигнала вычисляется и передается в манипулятор сигнала, который затем остается на стороне декодера. До этого используется детектор переходного сигнала, подобный детектору 103 на фиг.2, который применяется для анализа аудио сигнала, содержащего переход.

Детектор переходного сигнала определяет его длительность, то есть время 803 на фиг.1, и направляет данные в модуль вычисления метаданных 104', который устроен аналогично модулю вычислений затуханий/усилений 104 на фиг.2. Как правило, вычислительный модуль 104' вычисляет метаданные и затем направляет их на выходной интерфейс 900, где метаданные могут определять границы удаления переходного сигнала, то есть границы первой части, указанные как 805 и 806 на фиг.8b, либо границы вставки переходного сигнала (вторая часть), показанная в границах 812, 813 на фиг.8b, либо точку перехода 803 или 803'. Даже в последнем случае сигнальный манипулятор определяет все необходимые данные, то есть данные о первой временной части, данные о второй временной части и т.д. на основе времени перехода 803.

Метаданные, которые сформированы модулем 104', направляются на выходной интерфейс, генерирующий выходной сигнал, который передается далее или сохраняется. Сигнал на выходе может представлять собой только метаданные или метаданные совместно с аудио сигналом, в этом случае метаданные будут представлять собой служебную информацию для аудио сигнала. Аудио сигнал может направляться к выходному интерфейсу 900 по каналу 901. Выходной сигнал, передаваемый выходным интерфейсом 900, может храниться при помощи любого средства хранения информации или передаваться при помощи любого вида каналов передачи информации в сигнальный манипулятор или другое устройство, где применяются переходные сигналы. Необходимо отметить, что, несмотря на то, что настоящее изобретение описано с использованием блочных диаграмм, где блоки представляют реальные или выведенные путем логических заключений компоненты аппаратного обеспечения, настоящее изобретение может быть реализовано как компьютерная программа. В этом случае блоки будут представлять соответствующие шаги, которые заменят действия, выполняемые при помощи логических операций или аппаратных средств.

Описанные формы реализации изобретения являются только иллюстрацией принципов настоящего изобретения. Модификации и вариации схем и деталей, которые были описаны выше, могут применяться специалистами в этой области. Исходя из этого, изобретение ограничивается патентной формулой, а не отдельными деталями, представленными в описании и объясненными как формы реализации изобретения.

В зависимости от требований к форме реализации изобретенных методов, они могут быть реализованы как аппаратное или как программное средство. Реализация может выполняться при использовании цифровых средств хранения информации таких, как диск, DVD или CD, на которые записывается информация в электронном виде, которая затем при необходимости применения изобретенного метода считывается соответствующей программой. В целом, настоящее изобретение может быть реализовано как компьютерный программный продукт с программным кодом, который хранится на читаемом носителе; программный код приводится в действие, когда программный продукт устанавливается на компьютере. Иными словами, реализация изобретенного метода - это компьютерная программа, имеющая программный код для выполнения, как минимум, одного из изобретенных методов, когда компьютерная программа устанавливается на компьютере. Сигнал, содержащий метаданные, может быть сохранен при помощи любых считываемых средств хранения информации, например, при помощи цифровых средств хранения информации.

Класс G10L21/04 временное сжатие или расширение

декодер звукового сигнала, поставщик данных контура временной деформации, способ и компьютерная программа -  патент 2509381 (10.03.2014)
устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования -  патент 2493652 (20.09.2013)
способ выделения периодических всплесков энергии в зашумленных сигналах -  патент 2492531 (10.09.2013)
системы, способы и устройства для высокополосного предыскажения шкалы времени -  патент 2491659 (27.08.2013)
устройство и способ расширения диапазона частот, устройство и способ кодирования, устройство и способ декодирования и программа -  патент 2454738 (27.06.2012)
трансформация шкалы времени кадров в широкополосном вокодере -  патент 2414010 (10.03.2011)
системы, способы и устройство для генерирования возбуждения в диапазоне высоких частот -  патент 2402827 (27.10.2010)
способы и устройство кодирования и декодирования части речевого сигнала диапазона высоких частот -  патент 2402826 (27.10.2010)
системы, способы и устройства для высокополосного предыскажения шкалы времени -  патент 2376657 (20.12.2009)
способ и устройство сжатия спектра речевых сигналов -  патент 2320028 (20.03.2008)
Наверх