формирование бинауральных сигналов
Классы МПК: | H04S3/00 Системы с более, чем двумя каналами, например квадрафонические |
Автор(ы): | МУНДТ Харальд (DE), НЕУГЕБАУЕР Бернхард (DE), ХИЛПЕРТ Йоханнес (DE), СИЛЦЛЕ Андреас (DE), ПЛОГШТИЕС Ян (DE) |
Патентообладатель(и): | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE) |
Приоритеты: |
подача заявки:
2009-07-30 публикация патента:
27.01.2014 |
Описывается устройство, генерирующее на базе многоканального сигнала, представляющего совокупность множества каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, при этом положение каждого виртуального источника звука соотнесено с индивидуальным каналом. Устройство включает в себя минимизатор корреляции, дифференцированно преобразующий и за счет этого ослабляющий корреляцию между, по меньшей мере, одним левым и правым, одним передним и задним и одним центральным и нецентральным каналом из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием; множество направленных фильтров; первый микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука к первому ушному каналу слушателя, и второй микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука ко второму ушному каналу слушателя. Также представлен подход, при котором уровень центрального канала снижают для формирования сигнала понижающего микширования, поступающего далее в процессор построения акустического пространства. Другой подход заключается в формировании набора передаточных функций с минимизированным взаимным подобием, моделирующих слуховой тракт человека.21 и 12 з.п. ф-лы, 13 ил.
Формула изобретения
1. Устройство, генерирующее на базе многоканального сигнала, представляющего совокупность каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее блок минимизации подобия (12) для дифференцированной обработки и за счет нее уменьшения степени подобия, по меньшей мере, одного левого и одного правого канала из множества каналов, одного переднего и одного заднего канала из множества каналов, одного центрального и одного нецентрального канала из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием (20); набор (14) направленных фильтров для моделирования звукопередачи определенной комбинацией каналов с минимизированным подобием (20) от виртуального источника звука, позиционно соотнесенного с соответствующим каналом из набора каналов с минимизированным подобием, к ушному каналу слушателя; первый микшер (16а) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу к первому ушному каналу слушателя, с целью формирования первого канала (22а) бинаурального сигнала; и второй микшер (16b) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу ко второму ушному каналу слушателя, с целью формирования второго канала (22b) бинаурального сигнала; понижающий микшер (42), генерирующий сигнал понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; и процессор построения акустического пространства [пространственный процессор] (44), генерирующий эффекты звукоотражения/реверберации в составе бинаурального сигнала, включая выход первого канала и выход второго канала, моделируя отражение звука/реверберацию на базе моно или стереосигнала; первый сумматор (116), совмещающий выход первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и второй сумматор (118), совмещающий выход второго канала пространственного процессора со вторым каналом (22b) бинаурального сигнала.
2. Устройство по п.1, в составе которого минимизатор подобия (12) выполняет дифференцированное преобразование путем введения относительной задержки и/или дифференцированного изменения в спектральной области фазовых характеристик, по меньшей мере, одного левого и одного правого канала из множества каналов, одного переднего и одного заднего канала из множества каналов и центрального и нецентрального канала из множества каналов, и/или дифференцированного изменения в спектральной области амплитудных характеристик, по меньшей мере, одного левого и одного правого канала из множества каналов, одного переднего и одного заднего канала из множества каналов и одного центрального и одного нецентрального канала из множества каналов.
3. Устройство, генерирующее на базе многоканального сигнала, представляющего совокупность каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее минимизатор подобия (12), вводящий задержку относительно друг друга и/или выполняющий в спектральной области дифференцированное фазовое и/или амплитудное преобразование, по меньшей мере, двух каналов из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием (20); набор из множества направленных фильтров (14) для моделирования звукопередачи определенной совокупностью каналов с минимизированным взаимным подобием (20) от виртуального источника звука, позиционно соотнесенного с соответствующим каналом из совокупности каналов с минимизированным подобием, к ушному каналу слушателя; первый микшер (16а) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу к первому ушному каналу слушателя, с целью формирования первого канала (22а) бинаурального сигнала; и второй микшер (16b) для смешения выходных сигналов направленных фильтров, моделирующий звукопередачу ко второму ушному каналу слушателя, с целью формирования второго канала (22b) бинаурального сигнала; понижающий микшер (42), генерирующий сигнал понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; процессор построения акустического пространства (44), генерирующий эффекты отражения звука/реверберации в закрытом пространстве на базе моно- или стереосигнала для бинаурального сигнала, включая выход первого канала и выход второго канала; первый сумматор (116), совмещающий выход первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и второй сумматор (118), совмещающий выход второго канала пространственного процессора со вторым каналом (22b) бинаурального сигнала.
4. Устройство, формирующее набор передаточных функций HRTF с минимизацией взаимного подобия, имитирующих слуховой тракт для моделирования звукопередачи множеством каналов от виртуального источника звука, расположение которого соотнесено с определенным каналом, к ушным каналам слушателя, включающее в себя: построитель функций HRTF (32), предназначенный для образования исходной совокупности передаточных функций головы слушателя (HRTF), выполненный в виде набора фильтров КИХ путем подбора или вычисления подполос фильтра для каждого исходного множества функций HRTF, чувствительных к выбору или изменению позиций виртуального источника звука; и процессор HRTF (34), задающий импульсные характеристики функциям HRTF, моделирующим передачу звука предварительно выбранной парой каналов с взаимной задержкой, или дифференцированно модулирующий в спектральной области фазовые и/или амплитудные характеристики функций HRTF, при этом пара каналов состоит из левого и правого канала из множества каналов, фронтального и тыльного канала из множества каналов и центрального и нецентрального канала из множества каналов.
5. Устройство по п.4, в котором процессор HRTF (34) вводит задержку относительно друг друга импульсных характеристик функций HRTF, моделирующих передачу звука заданной парой каналов, путем смещения подполос фильтрования.
6. Устройство по п.4, в котором процессор HRTF (34) вводит задержку относительно друг друга импульсных характеристик функций HRTF, моделирующих передачу звука заданной парой каналов, или дифференцированно преобразует в спектральной области их фазовые и/или амплитудные характеристики таким образом, что групповые задержки первой из функций HRTF относительно другой функции HRTF показывают по шкале барков стандартное отклонение, минимум, на одну восьмую отсчета.
7. Устройство по п.4, в котором построитель функций HRTF (32) образует исходную совокупность функций HRTF на базе точек взаиморасположения виртуальных источников звука и параметров HRTF.
8. Устройство по п.4, в котором процессор HRTF (34) выполняет дифференцированную всечастотную фильтрацию импульсных характеристик предварительно выбранной пары каналов.
9. Способ генерации бинаурального сигнала на основе многоканального сигнала для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: дифференцированное преобразование и за счет него ослабление корреляции между, по меньшей мере, одним левым и правым каналом из множества каналов, фронтальным и тыловым каналом из множества каналов и центральным и нецентральным каналом из множества каналов для формирования комбинации каналов (20) с минимизированным взаимным подобием; преобразование совокупности каналов (20) с минимизированным подобием множеством (14) направленных фильтров для моделирования звукопередачи одним из набора каналов (20) от виртуального акустического источника, местоположение которого соотнесено с индивидуальным каналом из набора каналов (20), к соответствующему ушному каналу слушателя; смешение выходных сигналов направленных фильтров с моделированием звукопередачи к первому ушному каналу слушателя для формирования первого канала (22а) бинаурального сигнала; и смешение выходных сигналов направленных фильтров с моделированием звукопередачи ко второму ушному каналу слушателя для формирования второго канала (22b) бинаурального сигнала; формирование сигнала понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; генерацию смоделированных на основе моно- или стереосигнала эффектов отражения звука/реверберации в ограниченном пространстве в структуре бинаурального сигнала, включая выход первого канала и выход второго канала; совмещение выхода первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и совмещение выхода второго канала пространственного процессора с вторым каналом (22b) бинаурального сигнала.
10. Способ генерации бинаурального сигнала на основе многоканального сигнала для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: дифференцированное фазовое и/или амплитудное преобразование, по меньшей мере, двух каналов из множества каналов с целью формирования набора каналов (20) с минимизированным взаимным подобием; передачу совокупности каналов (20) с минимизированным взаимным подобием на комплект направленных фильтров (14) для моделирования передачи звука одним из группы каналов (20) с минимизированным взаимным подобием от виртуального источника звука, расположение которого соотнесено с заданным каналом из группы каналов (20), к соответствующему ушному каналу слушателя; смешение выходных сигналов направленных фильтров с моделированием звукопередачи к первому ушному каналу слушателя для формирования первого канала (22а) бинаурального сигнала; и смешение выходных сигналов направленных фильтров с моделированием звукопередачи ко второму ушному каналу слушателя для формирования второго канала (22b) бинаурального сигнала; формирование сигнала понижающего моно- или стереомикширования множества каналов, представленных многоканальным сигналом; генерацию смоделированных на основе моно- или стереосигнала эффектов отражения звука/реверберации в ограниченном пространстве в структуре бинаурального сигнала, включая выход первого канала и выход второго канала; совмещение выхода первого канала пространственного процессора с первым каналом (22а) бинаурального сигнала; и совмещение выхода второго канала пространственного процессора с вторым каналом (22b) бинаурального сигнала.
11. Способ образования набора передаточных функций слухового тракта человека (HRTF) с минимизированным взаимным подобием для моделирования звукопередачи множеством каналов от виртуального акустического источника, положение которого соотнесено с определенным каналом, к ушным каналам человека, включающий в себя: образование исходной совокупности функций HRTF в виде фильтров КИХ путем подбора или вычисления подполос фильтра для каждого исходного множества функций HRTF, чувствительных к выбору или изменению позиций виртуального источника звука; и дифференцированное преобразование в спектральной области фаз и/или амплитуд импульсных характеристик функций HRTF, моделирующих передачу звука заданной парой каналов таким образом, что группа задержек первой из функций HRTF относительно другой HRTF показывает по шкале барков стандартное отклонение, как минимум, на одну восьмую отсчета, причем, пара каналов представлена левым и правым каналом из множества каналов, фронтальным и тыловым каналом из множества каналов и центральным и нецентральным каналом из множества каналов.
12. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 9.
13. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 10.
14. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 11.
15. Устройство, генерирующее составляющие эффектов отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множество каналов участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что центральный канал из множества каналов участвует в понижающем моно- или стереомикшировании в редуцированном относительно других каналов многоканального сигнала виде.
16. Устройство по п.15, в котором понижающий микшер, применяя пространственное аудиокодирование, реконструирует совокупность каналов на основе микшированного с понижением сигнала с использованием сопроводительных пространственных параметров, описывающих разности уровней, сдвиги фаз, разновременность и/или степень корреляции между множеством каналов.
17. Устройство по п.16, в котором понижающий микшер формирует даунмикс таким образом, что глубина снижения уровня первого из взятых, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от пространственных параметров.
18. Устройство по п.16, в котором понижающий микшер, применяя пространственное аудиокодирование, реконструирует совокупность каналов на основе микшированного с понижением сигнала с использованием коэффициентов предсказания канала, описывающих, как каналы сигнала понижающего стереомикширования должны быть линейно объединены с целью предсказания тройки, состоящей из центрального, правого и левого каналов, а также разностного сигнала (270), отражающего остаток предсказания указанной тройки.
19. Устройство по п.15 или 16 или 17 или 18, в котором понижающий микшер генерирует даунмикс таким образом, что степень снижения уровня относительно второго из этих, по меньшей мере, двух каналов зависит от разности уровней и/или корреляции между индивидуальными каналами из совокупности каналов.
20. Устройство по п. 19, в котором понижающий микшер увеличивает расхождение уровней и/или корреляции между индивидуальными каналами из множества каналов, основываясь на пространственных параметрах, сопровождающих микшированный с понижением сигнал, совокупно представляющих множество каналов.
21. Устройство по п. 15 или 16 или 17 или 18, в составе которого понижающий микшер генерирует даунмикс таким образом, что глубина снижения уровня первого из этих, по меньшей мере, двух каналов по отношению ко второму из этих, по меньшей мере, двух каналов изменяется во времени, на что указывает индикатор изменения времени, пересылаемый в составе служебных данных в многоканальном сигнале.
22. Устройство по п. 15, также включающее детектор типа сигнала, распознающий речевые и неречевые фазы в многоканальном сигнале, в составе которого понижающий микшер генерирует даунмикс таким образом, что степень снижения уровня в речевых фазах выше, чем в неречевых фазах.
23. Способ создания эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом, участвуя в формировании моно- или стереодаунмикса, центральный канал из множества каналов имеет уровень, сниженный относительно других каналов многоканального сигнала.
24. Устройство, генерирующее составляющие эффектов отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав: понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом понижающий микшер, применяя пространственное аудиокодирование, реконструирует совокупность каналов на основе микшированного с понижением сигнала с использованием пространственных параметров сопроводительных данных, описывающих разности уровней, сдвиги фаз, разновременность и/или меры степени корреляции между множеством каналов, а также понижающий микшер генерирует даунмикс таким образом, что глубина снижения уровня первого из, по меньшей мере, двух каналов относительно второго из таких, по меньшей мере, двух каналов зависит от пространственных параметров.
25. Способ генерации составляющих эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер генерирует сигнал понижающего моно- или стереомикширования таким образом, что множество каналов участвует в формировании такого сигнала, имея уровень, отличающийся, по меньшей мере, от двух каналов многоканального сигнала; кроме того, способ включает в себя применение пространственного аудиокодирования для реконструкции совокупности каналов на основе микшированного с понижением сигнала с использованием пространственных параметров протокольных данных, описывающих разности уровней, сдвиги фаз, разновременность и/или степень корреляции между множеством каналов, и формирование даунмикса таким образом, что степень ослабления уровня первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от пространственных параметров.
26. Устройство, генерирующее составляющие эффектов отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав: понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, при этом понижающий микшер выполняет понижающее микширование таким образом, что степень снижения уровня первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от разности уровней и/или корреляции между индивидуальными каналами совокупности каналов, или таким образом, что степень снижения первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов изменяется во времени, на что указывает индикатор изменения времени, включенный в служебную информацию многоканального сигнала.
27. Способ генерации эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер генерирует сигнал понижающего моно- или стереомикширования таким образом, что множество каналов участвует в формировании такого сигнала, имея уровень, отличающийся, по меньшей мере, от двух каналов многоканального сигнала; причем понижающее микширование выполняется таким образом, что глубина снижения уровня первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей мере, двух каналов зависит от разности уровней и/или корреляции между индивидуальными каналами множества каналов; или таким образом, что степень снижения первого из этих, по меньшей мере, двух каналов относительно второго из этих, по меньшей, мере двух каналов изменяется во времени, на что указывает индикатор изменения времени, включенный в служебную информацию многоканального сигнала.
28. Устройство, генерирующее эффект отражения звука/реверберации в бинауральном сигнале на базе многоканального сигнала, представляющего множество каналов, предназначенном для воспроизведения через систему динамиков, где положение каждого виртуального источника звука соотнесено с индивидуальным каналом, включающее в свой состав: понижающий микшер, генерирующий сигнал понижающего моно- или стереомикширования каналов многоканального сигнала; и процессор построения акустического пространства, генерирующий для бинаурального сигнала на базе моно- или стереосигнала эффекты отражения звука/реверберации в помещении, причем, понижающий микшер выполняет понижающее моно- или стереомикширование таким образом, что множественные каналы участвуют в понижающем моно- или стереомикшировании при уровне, отличающемся, по меньшей мере, от двух каналов многоканального сигнала, кроме того, устройство включает в себя: детектор типа сигнала, распознающий речевые и неречевые фазы в многоканальном сигнале, в составе которого понижающий микшер генерирует даунмикс таким образом, что степень снижения уровня в речевых фазах выше, чем в неречевых фазах.
29. Способ генерации эффектов отражения звука/реверберации в ограниченном пространстве в составе бинаурального сигнала, сформированного на базе многоканального сигнала, представляющего множество каналов, и предназначенного для воспроизведения через систему динамиков, где взаиморасположение виртуальных источников звука соотнесено с индивидуальным каналом, включающий в себя: моно- или стереофоническое понижающее микширование каналов многоканального сигнала; и генерацию эффектов звукоотражения/реверберации пространственного объема в составе бинаурального сигнала с целью моделирования звукоотражения/реверберации на основе моно- или стереосигнала, причем, понижающий микшер генерирует сигнал понижающего моно- или стереомикширования таким образом, что множество каналов участвует в формировании такого сигнала, имея уровень, отличающийся, по меньшей мере, от двух каналов многоканального сигнала; кроме того, способ включает в себя: распознавание речевых и неречевых фаз многоканального сигнала, который формируется так, что в речевых фазах уровень снижается сильнее, чем в неречевых фазах.
30. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 23.
31. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 25.
32. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 27.
33. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа по п. 29.
Описание изобретения к патенту
Предлагаемое изобретение относится к генерации составляющих бинаурального сигнала, имитирующих эффекты отражения и/или реверберации в помещении, к генерации собственно бинаурального сигнала и к формированию набора функций моделирования восприятия звука с минимизацией взаимного подобия.
Слуховая система человека способна определять направление или множество направлений источников воспринимаемых звуков. С помощью слуха человек оценивает различия между звуком, улавливаемым правым ухом, и звуком, улавливаемым левым ухом. Полученная информация содержит, например, так называемые интерауральные ориентиры, отражающие межушные различительные признаки звуковых сигналов. Интерауральные ориентиры являются наиболее важным средством пространственной локализации. Разность уровней давления между ушами, а именно, интерауральное различие по интенсивности (ILD) является наиболее важной обособленной опорной информацией для пространственной локализации. Когда звук достигает слушателя в горизонтальной плоскости с ненулевым азимутом, в каждом ухе он имеет разный уровень громкости. Затененное ухо получает естественно приглушенное акустическое отображение по сравнению с незатененным ухом. Другим очень важным свойством, относящимся к объектно-пространственному позиционированию, является интерауральное временное [фазовое] различие (ITD). Затененное ухо расположено дальше от источника звука, и, следовательно, звуковой фронт волны достигает его позже, чем незатененное ухо. Значение ITD возрастает при низких частотах, которые не затухают при достижении затененного уха сильнее, чем при достижении незатененного уха. Роль ITD снижается на верхних частотах, где длина звуковой волны приближается к расстоянию между ушами. Другими словами, объектно-пространственная локализация осуществляется за счет различных видов взаимодействия звука, перемещающегося от источника к левому и правому уху, соответственно, с головой, ушами и плечами слушателя.
Проблемы возникают, когда стереосигнал предназначается для воспроизведения через громкоговорящую акустическую систему или головные телефоны. Весьма вероятно, что слушатель, ощущая источник звука у себя в голове, воспримет звук как неестественный, неудобоваримый и раздражающий. Этот феномен часто встречается в литературе как локализация «в голове». Длительное прослушивание звука «в голове» может привести к слуховому утомлению. Так происходит в силу того, что опорная аудиоинформация для позиционирования слушателем источников звука, иначе говоря - интерауральные ориентиры, отсутствует или размыта.
Для воспроизведения через головные телефоны стереосигналов или даже многоканальных сигналов, содержащих больше двух каналов, необходимо смоделировать указанные взаимодействия путем направленной фильтрации. В частности, сгенерировать из декодированного многоканального сигнала выходной сигнал для наушников можно, пропуская каждый сигнала после декодирования через пару направленных фильтров. Такие фильтры обычно служат для моделирования звукопередачи от виртуального акустического источника в помещении к слуховому каналу слушателя, то есть - для осуществления так называемой бинауральной передаточной функции окружающего пространства (функция BRTF). Функция BRTF отображает временные, уровневые и спектральные изменения и моделирует эффекты отражения и реверберации в пространственном объеме. Направленные фильтры могут работать как во временной, так и в частотной области.
При этом количество требуемых фильтров должно быть большим, а именно - Nx2, где N - число декодируемых каналов, поэтому направленные фильтры достаточно протяженны, например, 20000 подполос фильтра при 44,1 кГц, а процесс фильтрации вычислительно трудоемок. Вследствие этого направленные фильтры иногда предельно минимизируются. Так называемые передаточные функции слухового тракта (головы) слушателя (HRTF) содержат данные направленности, включая интерауральные ориентиры. Обычный блок преобразования применяют для имитации отражения и реверберации в окружающем объеме. Модуль пространственного построения может представлять собой алгоритм моделирования эффекта эхо во временной или частотной области путем преобразования одно- или двухканального входного сигнала, сформированного из многоканального входного сигнала суммированием каналов многоканального входного сигнала. Такое устройство описано, в частности, в WO 99/14983 А1. Как уже сказано, модуль построения акустического объема создает эффекты отражения и/или реверберации в помещении. Эффекты отражения звука и реверберации в ограниченном пространстве играют существенное значение для локализации звуков, особенно для экстернализации и создания ощущения удаленности источника во вне, то есть - для восприятия его вне головы слушателя. В указанной выше публикации предложена также реализация направленных фильтров в виде фильтров КИХ (с конечной импульсной характеристикой), преобразующих разные каналы с различной задержкой и моделирующих таким образом путь прохождения звука от источника к тому или другому уху с соответствующим вторичным отражением. Кроме того, в ряду средств достижения более привлекательного звучания при прослушивании через парные наушники в названной публикации предлагается вводить задержку смешанных центрального и фронтального левого каналов, а также центрального и фронтального правого каналов относительно суммы и разности тыльного левого и тыльного правого каналов, соответственно.
Тем не менее, полученные фонограммы по-прежнему имеют в значительной степени ограниченную пространственную протяженность бинаурального выходного сигнал и недостаточную экстернализацию.
Более того, стало очевидно, что, несмотря на указанные принятые меры по рендерингу многоканальных сигналов для головных телефонов, речевые диалоги в кинофильмах и музыкальные фрагменты при прослушивании часто воспринимаются с неестественной реверберацией и спектральными искажениями.
В связи с этим данное изобретение преследует цель предоставить алгоритм генерации бинаурального сигнала, обеспечивающий устойчивое и естественное звучание фонограммы в наушниках.
Поставленная цель достигается с помощью устройств, отвечающих любому из пунктов 1, 3, 4 и 7 формулы изобретения, и за счет применения способов согласно любому из пунктов 16-19.
Первая идея, которая легла в основу предлагаемого приложения, заключается в том, что более устойчивый и естественно воспринимаемый бинауральный сигнал для воспроизведения через наушники может быть получен путем раздельного преобразования и - благодаря этому - уменьшения взаимного подобия хотя бы одной из пар множества входных каналов: левого и правого, фронтального и тылового или центрального и нецентрального, формируя посредством этого набор каналов с уменьшенным взаимным подобием. Затем эта комбинация каналов с ограниченным взаимным сходством передается на множество направленных фильтров, после чего поступает на соответствующие смесители для левого и правого уха. Снижая степень обоюдного сходства каналов многоканального входного сигнала, можно расширить пространственный охват бинаурального выходного сигнала и улучшить экстернализацию.
Другая идея, лежащая в основе предлагаемого приложения, состоит в том, что более устойчивого и удобоваримого бинаурального сигнала для воспроизведения через наушники можно добиться - при спектральном подходе к изменениям - путем раздельного амплитудного и/или фазового преобразования хотя бы двух из множества каналов с формированием таким образом набора каналов с минимизированным взаимным подобием, который, в свою очередь, может быть передан на множество направленных фильтров с последующей обработкой соответствующими микшерами для левого и правого уха. Опять же, за счет уменьшения взаимоподобия каналов многоканального входного сигнала может быть расширен пространственный охват бинаурального выходного сигнала и улучшена экстернализация.
Выигрыш в вышеназванных показателях может быть достигнут также путем формирования набора передаточных функций, моделирующих голову слушателя [HRTF], с ограниченным обоюдным подобием за счет задержки импульсных характеристик исходного множества передаточных функций моделирования головы слушателя относительно друг друга, или - в спектральной области - фазовых и/или амплитудных характеристик исходного множества функций моделирования органов слуха раздельно относительно друг друга. Такое формирование может осуществляться как автономно, при проектировании системы, так и интерактивно, в ходе генерации бинаурального сигнала, путем применения перцептуально смоделированных передаточных функций в качестве направленных фильтров, предположим, реагирующих на заданные индикаторы пространственного положения виртуального аудиоисточника.
Еще одна идея, лежащая в основе данного приложения, заключается в том, что некоторые кино- и музыкальные фрагменты будут звучать в наушниках более естественно, если моно- или стереофоническое понижающее микширование (моно- или стереодаунмикс) каналов многоканального сигнала, подлежащего обработке процессором пространственного построения с целью моделирования акустических эффектов отражения/реверберации как составляющей бинаурального сигнала, будет выполняться таким образом, что множество каналов будет дополнять сигнал понижающего моно- или стереомикширования с разным уровнем интенсивности, как минимум, двух каналов многоканального сигнала. В частности, изобретатели выявили, что, как правило, кинодиалоги и музыку микшируют, главным образом, с центральным каналом многоканального сигнала, и что сигнал центрального канала, пройдя обработку в модуле построения акустического пространства, на выходе часто воспроизводится с неестественной реверберацией и искажениями спектра. Изобретатели, однако, выявили, что эти недостатки могут быть устранены путем подачи среднего канала на модуль пространственного построения с одновременным снижением интенсивности, предположим, на 3-12 дБ, или, в частности, на 6 дБ.
Далее более подробно представлены предпочтительные конструктивные решения на основе фигур, где: на фиг.1 дана принципиальная модульная схема реализации устройства для генерации бинаурального сигнала согласно изобретению; на фиг.2 дана принципиальная модульная схема варианта осуществления устройства для формирования набора функций моделирования восприятия звука с минимизацией взаимного подобия согласно изобретению; на фиг.3 дана принципиальная модульная схема устройства для имитации в генерируемом бинауральном сигнале акустических эффектов отражения и/или реверберации согласно изобретению; на фиг.4А и 4В даны принципиальные модульные схемы аппаратных версий процессора построения акустического объема, показанного на фиг.3; на фиг.5 дана принципиальная модульная схема варианта исполнения понижающего микшера, показанного на фиг.3; на фиг.6 графически представлен процесс пространственного аудиокодирования многоканального сигнала согласно изобретению; на фиг.7 показана принципиальная схема генератора бинаурального выходного сигнала согласно изобретению; на фиг.8 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.9 дан еще один вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.10 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.11 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.12 дана принципиальная схема бинаурального пространственного аудиодекодера, показанного на фиг.11; и на фиг.13 дана принципиальная схема видоизмененной конструкции пространственного аудиодекодера, показанного на фиг.11.
На фиг.1 отображено устройство для генерации бинаурального сигнала, предназначенное, например, для воспроизведения фонограмм через головные телефоны на основе многоканального сигнала, представляющего множество каналов, причем расположение каждого виртуального аудиоисточника в конфигурации динамиков соответствует каждому отдельному каналу. Устройство, представленное под общим номером 10, имеет в своем составе блок минимизации подобия 12, гребенку 14 направленных фильтров 14a-14h, первый смеситель 16а и второй смеситель 16b.
Минимизатор подобия 12 предназначен для преобразования многоканального сигнала 18, представляющего множество каналов 18a-18d, в группу 20 каналов 20a-20d с минимизированным обоюдным сходством. Количество каналов 18a-18d, представленных многоканальным сигналом 18, может быть от двух и больше. Исключительно в целях наглядности на фиг.1 выделено четыре канала 18a-18d. Набор каналов 18 может быть скомбинирован, к примеру, из центрального канала, фронтального левого канала, фронтального правого канала, тыльного левого канала и тыльного правого канала. Допустим, звукорежиссер (саунд-дизайнер) смикшировал каналы 18a-18d из множества отдельных аудиосигналов, отображающих, например, различные инструменты, фрагменты вокала или другие индивидуальные источники звука, предполагая воспроизводить каналы 18a-18d через систему громкоговорителей (на фиг.1 не показано), где каждый динамик размещен в позиции, предварительно заданной для каждого виртуального источника звука, связанного с отдельным каналом 18a-18d.
В соответствии с вариантом реализации на фиг.1 каналы 18a-18d включают в себя хотя бы одну пару левого и правого каналов, одну пару фронтального и тыльного каналов или пару центрального и нецентрального каналов. Разумеется, в комбинацию 18 каналов 18a-18d может входить больше, чем одна из вышеупомянутых пар. Минимизатор подобия 12 индивидуально обрабатывает каждый канал из множества каналов, снижая таким образом степень сходства между ними и получая в результате комбинацию 20 каналов 20a-20d с минимизированным взаимоподобием. Итак, с одной стороны, степень подобия, по меньшей мере, одного левого и одного правого канала из множества 18 каналов, одного переднего и одного заднего канала из множества 18 каналов и одного центрального и одного нецентрального канала из множества 18 каналов может быть снижена блоком минимизации подобия 12 с образованием группы 20 каналов 20a-20d с минимизированным взаимным подобием. С другой стороны, минимизатор подобия (12) может - дополнительно или отдельно, в спектральной области - выполнить раздельное фазовое и/или амплитудное преобразование, по меньшей мере, двух из множества каналов с образованием комбинации каналов 20 с минимизированным взаимным подобием.
Как будет более подробно изложено ниже, минимизатор подобия 12 может выполнять раздельное преобразование, в частности, путем задержки соответствующих пар относительно друг друга, или за счет задержки соответствующих пар каналов на разную величину, например, в каждой из множества частотных полос, достигая посредством этого снижения интеркорреляции в группе каналов 20. Безусловно, имеются и другие возможности снижения степени тесноты корреляции между каналами. Иными словами, минимизатор корреляции 12 может иметь передаточную функцию, в соответствии с которой спектральное распределение энергии каждого канала остается постоянным, то есть, минимизатор подобия 12, сохраняя значение амплитуды передаточной функции на уровне единицы по всему соответствующему диапазону аудиоспектра, варьирует фазовые или частотные характеристики подполос. Например, блок минимизации корреляции 12 может предусматривать такое изменение фазы всех или одного или нескольких каналов 18, при котором сигнал первого канала в заданной полосе частот проходил бы с запозданием относительно другого канала, по меньшей мере, на один отсчет. Более того, блок снижения уровня корреляции 12 может быть рассчитан так, чтобы при изменении фазовой характеристики время групповых задержек по первому каналу относительно другого канала для всего множества частотных полос имело стандартное отклонение, по меньшей мере, на одну восьмую отсчета. Рассматриваемые частотные диапазоны могут представлять собой полосы барков или их более мелкое членение, или же любой другой вид разбиения частотного диапазона.
Ослабление корреляции - не единственный способ предотвращения эффекта «локализации в голове», возникающего в акустическом анализаторе человека. Корреляция, скорее, является одним из критериев, по которым слуховая система человека анализирует сходство составляющих звукового сигнала, поступающих в оба уха, и определяет направление поступающего звука. Кроме того, минимизатор подобия 12 может выполнять дифференцированное преобразование, разделяя соответствующие пары каналов путем снижения интенсивности на разную величину, например, по каждой из множества частотных полос, формируя таким образом комбинацию каналов 20 с минимизированным подобием, упорядоченных по спектру. Скомпонованный фрагмент в спектральной области может содержать, например, избыточную минимизацию, предположим, звукового сигнала заднего канала относительно звучания переднего канала вследствие затенения мочкой уха. Соответственно, блок минимизации подобия 12 предусматривает возможность регулирования в трансформанте степени минимизации тыловых каналов с учетом других каналов. Для формирования подобного спектрального представления минимизатор подобия 12 может, сохраняя постоянные фазовые характеристики, раздельно варьировать по всему соответствующему спектральному диапазону звукового сигнала амплитудные или частотные характеристики поддиапазонов.
В принципе, способ представления множества каналов 18a-18d многоканальным сигналом 18 не имеет какие-либо специфические ограничения. В частности, многоканальный сигнал 18 может представлять совокупность каналов 18a-18d в сжатом виде с использованием пространственного аудиокодирования. Для выполнения пространственного аудиокодирования совокупность каналов 18a-18d может быть представлена сигналом, полученным понижающим микшированием этих каналов, содержащим данные понижающего микширования (даунмикса), где указан коэффициент смешения каждого из каналов 18a-18d, примененный для формирования одного или нескольких уплотненных каналов, и где заданы пространственные параметры многоканального сигнала, описывающие геометрию звуковой среды посредством, например, перепадов уровня/интенсивности, сдвигов фаз, запаздывания по времени и/или изменения степени корреляции/когерентности между каналами 18a-18d. Выходной сигнал минимизатора корреляции 12 делится на каналы 20a-20d. По разделенным каналам на выход могут подаваться как временные сигналы, так и спектрограммы подполосовой декомпозиции.
Направленные фильтры 14a-14h предназначены для моделирования передачи звука от позиционируемого одним из каналов 20a-20d виртуального источника к ушному каналу слушателя. Предположим, на фиг.1 направленные фильтры 14a-14d моделируют звукопередачу на левый слуховой канал, а направленные фильтры 14e-14h моделируют звукопередачу на правый слуховой канал. Направленные фильтры имитируют передачу акустических волн от размещенных в виртуальной акустической среде источников звука к слуховому каналу слушателя за счет варьирования показателей времени, интенсивности и спектра, а также дополнительного моделирования эффектов отражения и реверберации. Направленные фильтры могут быть приложены во временной и в частотной области. Это означает, что направленные фильтры могут действовать как во временной области, например, фильтры КИХ, так и в частотной области - путем умножения определенных дискретных значений амплитудных и фазовых передаточных характеристик на соответствующие спектральные величины каналов 20a-20d. В частности, с помощью направленных фильтров 14a-14h можно смоделировать передаточную функцию слухового тракта человека с описанием направленного воздействия на голову, уши и плечи человека сигналов, проходящих по каналам 20a-20d, имитирующих взаиморасположение виртуальных источников звука. Первый микшер 16а комбинирует выходы направленных фильтров 14a-14d, моделируя звукопередачу на левый ушной канал слушателя в сигнале 22а, который может быть составляющей или полным левым каналом выходного бинаурального сигнала, при этом второй микшер 16b совмещает выходные сигналы направленных фильтров 14e-14h, моделируя передачу звука на правый ушной канал слушателя в сигнале 22b, который может стать составляющей или полноценным правым каналом бинаурального выходного сигнала.
Как дальше более детально будет рассмотрено на примерах реализации, в сигналы 22а и 22b могут быть введены компоненты, создающие эффекты звукоотражения и/или реверберации. Благодаря этому может быть упрощена система направленных фильтров 14a-14h.
Блок минимизации подобия 12 в составе устройства на фиг.1 нейтрализует негативные побочные эффекты сложения коррелированных входных сигналов смесителей 16а и 16b, приводящие к значительному сужению пространственного охвата и отсутствию ощущения естественного объема выходного бинаурального сигнала 22а и 22b. Эти негативные побочные явления редуцируются декорреляцией с использованием минимизатора подобия 12.
Прежде, чем перейти к рассмотрению следующего технического решения по данному изобретению, следует подытожить сказанное относительно фиг.1, где показан пример прохождения декодированного многоканального сигнала с преобразованием его в выходной сигнал для головных телефонов. Каждый сигнал фильтруется парой направленных фильтров. Так, канал 18а фильтруется двумя направленными фильтрами 14а-14е. К сожалению, как правило, при сведении многоканальных фонограмм между каналами 18a-18d в значительной степени присутствует подобие, такое как корреляция. Это отрицательно влияет на выходной бинауральный сигнал. В частности, после обработки многоканальных сигналов направленными фильтрами 14a-14h на их выходе промежуточные сигналы совмещаются в смесителях 16а и 16b с образованием выходного сигнала для наушников 20а и 20b. Суммирование подобных/коррелированных выходных сигналов приводит к сильному сужению пространственного объема выходного сигнала 20а и 20b и недостаточной экстернализации. На практике это вызывает особенные трудности при сходстве/корреляции левого и правого сигнала и центрального канала. В силу этого блок минимизации подобия 12 должен по возможности максимально снижать степень однородности этих сигналов.
Следует обратить внимание на то, что большинство функций по уменьшению взаимоподобия каналов 18a-18d множества каналов 18 может быть выполнено без введения минимизатора подобия 12 путем его замещения за счет расширения фукнциий направленных фильтров, которые должны будут не только моделировать распространение звука, но и обеспечивать его разнородность, например, путем декорреляции, о которой говорилось выше. В подобном случае направленные фильтры, соответственно, предназначены не только для моделирования, но и для модуляции передаточных функций головы и слухового тракта (HRTF).
Например, на фиг.2 представлено устройство для построения набора перцептуальных передаточных функций с минимизацией межканального подобия для моделирования передачи звука через группу каналов от виртуального источника, позиционирование которого соотнесено с индивидуальными каналами, к слуховому анализатору слушателя. Устройство, условно обозначенное общим номером 30, включает в свой состав построитель функций HRTF (построитель модели передаточных функций органов слуха) 32 и процессор HRTF 34.
Построитель функций HRTF 32 обеспечивает исходный набор функций моделирования окружающего звука HRTF. Шаг алгоритма 32 может включать в себя измерения с использованием эталонной модели головы слушателя для вычисления передаточных функций слухового тракта при прохождении звука от источников в определенных позициях до ушных каналов манекена эталонного слушателя. Аналогично этому построитель функций HRTF 32 может выполнять поиск и подстановку исходных функций HRTF из памяти. Или, наоборот, построитель функций HRTF 32 может выполнять расчет HRTF в соответствии с введенной формулой, например, в зависимости от заданного взаиморасположения виртуальных источников звука. Таким образом, построитель модели передаточных функций головы слушателя HRTF 32 может быть рассчитан для работы в среде формирования генератора выходного бинаурального сигнала или сам являться частью такого генератора выходного бинаурального сигнала, обеспечивая исходные функции HRTF в реальном времени, скажем, в ответ на выбор или изменение положения источников звука в виртуальном пространстве. В частности, устройство 30 может входить в состав генератора выходного бинаурального сигнала, предусматривающего согласованное распределение многоканальных сигналов между динамиками в различной конфигурации в зависимости от взаимного расположения виртуальных источников звука, соотнесенных с индивидуальными каналами. В подобном случае построитель функций HRTF 32 может предоставлять исходные смоделированные передаточные функции головы слушателя (HRTF) таким образом, что они будут скоординированы с текущими заданными позициями виртуальных источников звука.
Процессор HRTF 34, в свою очередь, выполняет рассогласование импульсных характеристик относительно друг друга, как минимум, одной пары функций HRTF или видоизменяет в спектральной области их фазовые и/или амплитудные характеристики, добиваясь их взаимной неоднородности. Такая пара функций HRTF может имитировать акустическую передачу по одной из пар каналов - левого и правого, фронтального и тыльного или центрального и нецентрального. Такой результат можно получить, применив к одному или нескольким каналам многоканального сигнала один из указанных ниже методов или их комбинацию, в частности - задержку функции HRTF соответствующего канала, изменение фазовой характеристики соответствующей функции HRTF и/или применение к соответствующей функции HRTF декоррелирующего, например, всечастотного, фильтра, формируя таким образом набор функций HRTF с минимизированной интеркорреляцией, и/или изменение в спектральной области амплитудной характеристики соответствующей функции HRTF, образуя таким образом набор функций HRTF, по меньшей мере, с уменьшенной степенью взаимного подобия. В любом случае достигнутая декорреляция/несхожесть между соответствующими каналами может стимулировать слуховую систему человека к внешней локализации источника звука и, благодаря этому, предупреждать эффект локализации в голове. Процессор HRTF 34 может быть выполнен, предположим, с возможностью модификации фазовых характеристик всех, или одного из, или нескольких, каналов HRTF с введением групповой задержки первой функции HRTF для определенной полосы частот - то есть запаздывания в определенном частотном диапазоне первой функции HRTF - относительно какой-либо другой функции HRTF, по меньшей мере, на один отсчет. Далее, процессор HRTF 34 может быть реализован с возможностью модификации фазовых характеристик таким образом, что групповые задержки первой функции HRTF относительно какой-либо другой функции HRTF для множества частотных полос будут иметь стандартное отклонение, по меньшей мере, в одну восьмую отсчета. Рассматриваемые частотные диапазоны могут представлять собой полосы барков или их более мелкое членение, или же любой другой вид разбиения частотного диапазона.
Набор функций HRTF с уменьшенным взаимоподобием, сформированный на выходе процессора HRTF 34, может быть использован для задания функций HRTF направленных фильтров 14a-14h устройства на фиг.1, в компоновку которого минимизатор подобия 12 может быть включен или не включен. Благодаря рассогласованию характеристик модифицированных функций HRTF упомянутые выше эффекты расширения пространственного объема выходного бинаурального сигнала и экстернализации могут быть достигнуты без применения минимизатора подобия 12.
Как описано выше, устройство на фиг.1 может быть дополнено опцией создания эффектов звукоотражения и/или реверберации в ограниченном пространстве как составляющих выходного бинаурального сигнала с использованием понижающего микширования, по меньшей мере, некоторых из входных каналов 18a-18d. Это способствует упрощению операции, выполняемой направленными фильтрами 14a-14h. На фиг.3 отображено устройство, имитирующее в выходном бинауральном сигнале эффекты звукоотражения и реверберации в помещении. Устройство 40 включает в себя генератор сигнала с понижающим микшированием (понижающий микшер) 42, к которому последовательно подключен процессор построения акустического объема 44. Устройство 40 может быть установлено между входным терминалом для ввода многоканального сигнала 18 устройства на фиг.1 и выходным терминалом для вывода бинаурального сигнала, причем, составляющая левого канала 46а процессора пространственного построения 44 соединена с выходом 22а, а правый выходной канал 46b процессора пространственного построения 44 соединен с выходом 22b. Понижающий микшер 42 генерирует на основе многоканального сигнала 18 моно- или стереосигнал 48, а процессор 44 генерирует левый канал 46а и правый канал 46b, несущий компоненты бинаурального сигнала, имитирующие отражение и реверберацию в помещении, смоделированные на основе моно- или стереосигнала 48.
Идея, лежащая в основе процессора построения акустического пространства 44, состоит в том, что звукоотражение/реверберация, предположим, в помещении, могут быть смоделированы для естественного восприятия слушателем на основе понижающего микширования, например, в виде простого суммирования каналов многоканального сигнала 18. Поскольку отраженные звуки/реверберация достигают слухового тракта позже, чем звуки, идущие от источника по прямой или вдоль оси видимости, импульсные характеристики процессора построения акустического пространства представляют и замещают хвостовые импульсные характеристики направленных фильтров, показанных на фиг.1. Импульсные характеристики направленных фильтров, в свою очередь, могут быть укорочены за счет ограничения из функций моделированием прямого прохождения звука и отражения с затуханием в области головы, ушей и плеч слушателя. Безусловно, граница между тем, что должно быть смоделировано направленным фильтром, а что - процессором построения акустического пространства, задается совершенно произвольно, причем, направленный фильтр, может, скажем, также моделировать первичные отражения/реверберацию в помещении.
На фиг.4А и 4В показаны возможные конструктивные решения процессора построения акустического пространства. Как видно на фиг.4а, в процессор построения акустического пространства 44, состоящий из двух фильтров реверберации 50а и 50b, поступает сигнал 48 монофонического понижающего микширования. Как и направленные фильтры, фильтры реверберации 50а и 50b могут работать как во временной, так и в частотной области. На входы обоих поступает сигнал понижающего мономикширования (монодаунмикс) 48. Фильтр реверберации 50а на выходе генерирует составляющую левого канала 46а, в то время как фильтр реверберации 50b формирует на выходе компоненту правого канала 46b. На фиг.4В приведен пример компоновки процессора объемного звукопостроения 44 для обработки сигнала понижающего стереомикширования (стереодаунмикса) 48. В этом случае процессор пространственного звукопостроения состоит из четырех фильтров реверберации 50a-50d. Входы фильтров реверберации 50а и 50b сопряжены с первым каналом 48а понижающего стереомикширования 48, а входы фильтров реверберации 50 с и 50d соединены со вторым каналом 48b понижающего стереомикширования 48. Выходы фильтров реверберации 50а и 50с сопряжены с входом сумматора 52а, который на выходе генерирует составляющую левого канала 46а. Выходы фильтров реверберации 50b и 50d соединены с входами второго сумматора 52b, формирующего на выходе составляющую правого канала 46b.
Хотя выше сказано, что понижающий микшер 42 может выполнять простое сложение каналов многоканального сигнала 18, это не распространяется на конфигурацию на фиг.3. Понижающий микшер 42 на фиг.3, скорее, предусматривает формирование моно- или стереодаунмикса 48 таким образом, что множество каналов вносят каждый свою компоненту в моно- или стереофоническое понижающее микширование с интенсивностью, различной, как минимум, для двух каналов многоканального сигнала 18. Это может служить средством блокировки или активации процесса имитации акустического объема для определенных видов контента многоканальных сигналов, таких как речь или фоновая музыка, микшируемых в выделенный канал, или выделенные каналы многоканального сигнала, чтобы предупреждать таким образом неестественность звучания.
Допустим, понижающий микшер 42 на фиг.3 может выполнять понижающее моно- или стереомикширование 48 таким образом, что составляющие центрального канала многоканального сигнала 18 вводятся в сигнал понижающего моно- или стереомикширования (моно- или стереодаунмикса) 48 с разной степенью снижения интенсивности относительно других каналов многоканального сигнала 18. К примеру, глубина снижения уровня может составлять от 3 дБ до 12 дБ. Интенсивность может плавно спадать по всему спектру рабочих частот каналов многоканального сигнала 18 или может находиться в зависимости от частоты, предположим, быть привязанной к заданному участку спектра, например, соответствующему голосовым сигналам. Степень уменьшения интенсивности относительно других каналов может быть одинаковой для всех каналов. Это означает, что другие каналы могут быть смешаны с сигналом понижающего микширования 48 при одинаковом уровне. Или наоборот, другие каналы могут быть введены в микшируемый с понижением сигнал 48 при разных уровнях. Кроме того, степень уменьшения интенсивности относительно других каналов может быть соотнесена со средним значением других каналов или средним значением всех каналов, включая редуцированный. В подобном случае стандартное отклонение смешиваемых весов других каналов или стандартное отклонение смешиваемых весов всех каналов может составлять менее 66% от уровня снижения интенсивности смешиваемого веса редуцированного по уровню канала относительно только что упомянутого среднего значения.
Эффект снижения уровня интенсивности относительно среднего канала состоит в том, что выходной бинауральный сигнал, сформированный введением составляющих 46а и 46b, воспринимается слушателями более естественно, чем без такого снижения интенсивности, по меньшей мере, при ряде условий, рассматриваемых подробнее ниже. Другими словами, генератор сигнала с понижающим микшированием (понижающий микшер) 42 получает взвешенную сумму каналов многоканального сигнала 18, имеющую весовое значение, соотнесенное с центральным каналом, редуцируемым относительно весовых значений других каналов.
Снижение интенсивности центрального канала особенно эффективно для передачи речи в кинодиалогах или воспроизведения музыкальных фрагментов. Улучшение слухового восприятия разговорных сцен в значительной степени компенсирует те несущественные минусы, которые возникают из-за снижения уровня в неречевых фрагментах. Тем не менее, исходя из альтернативных конструктивных решений, снижение уровня не является обязательным постоянно действующим фактором. Вернее сказать, понижающий микшер 42 может быть выполнен с возможностью коммутации между режимом с отключенной функцией снижения уровня и режимом, при котором функция снижения уровня активирована. Говоря иначе, понижающий микшер 42 предусматривает возможность варьирования глубины снижения уровня интенсивности во времени. Изменения могут вноситься в двоичной или аналоговой форме в интервале значений от ноля до максимума. Понижающий микшер 42 может иметь компоновку, обеспечивающую переключение режимов или варьирование глубины снижения уровня в зависимости от информации, содержащейся в многоканальном сигнале 18. Например, понижающий микшер 42 может быть настроен на распознавание голосовых фаз или на дифференциацию голосовых и неголосовых фаз, или может задавать систему измерения голосового контента, предположим, в форме порядковой шкалы, для последовательности фреймов центрального канала. Допустим, понижающий микшер 42 с помощью фильтра тональных частот обнаруживает в центральном канале признаки речи и определяет, превосходит ли уровень на выходе этого фильтра суммарное пороговое значение. При этом выявление понижающим микшером 42 фаз звучания голоса в среднем канале не является единственным способом установления временной зависимости вышеописанной функции переключения режимов варьирования глубины снижения интенсивности. Например, многоканальный сигнал 18 может включать в себя протокольные данные, специально регламентирующие раздельное распознавание голосовых и неголосовых фаз или статистическую оценку речевого материала. В этом случае понижающий микшер 42 будет выполнять команды, содержащиеся в такой сопутствующей информации. В иной версии понижающий микшер 42 способен переключать режимы, как описано выше, или регулировать степень снижения интенсивности, сравнивая, скажем, текущие уровни среднего канала, левого канала и правого канала. Когда центральный канал будет превосходить левый и правый каналы по отдельности или в сумме больше, чем на определенное пороговое отношение, понижающий микшер 42 может распознать фазу звучания речи и отреагировать соответствующим образом, то есть снизить уровень интенсивности. Подобным же образом понижающий микшер 42 может использовать разности уровней центрального, левого и правого каналов для реализации указанных выше зависимостей.
Кроме этого, понижающий микшер 42 способен обрабатывать пространственные параметры множества каналов многоканального сигнала 18, описывающие объем звуковой среды. Это показано на фиг.5. На фиг.5 дан вариант понижающего микшера 42 многоканального сигнала 18, представляющего множество каналов с использованием специального аудиокодирования, то есть - посредством сигнала 62, микшированного с понижением множество каналов, и пространственных параметров 64 этого множества каналов, описывающих акустический объем. Дополнительно многоканальный сигнал 18 может заключать в себе данные понижающего микширования, описывающие соотношение индивидуальных каналов, сведенных с понижением в сигнал 62, или описывающие индивидуальные каналы сигнала 62, полученного понижающим микшированием, при том, что канал понижающего микширования 62 может представлять собой, например, сигнал 62 простого понижающего микширования (даунмикса) или сигнал 62 понижающего стереомикширования (стереодаунмикса). Понижающий микшер 42 на фиг.5 состоит из декодера 64 и смесителя (микшера) 66. Декодер 64 в соответствии с процедурой пространственного аудиодекодирования декодирует многоканальный сигнал 18 с восстановлением множества каналов, включая, среди прочего, центральный канал 66 и другие каналы 68. Смеситель 66 микширует центральный канал 66 и остальные нецентральные каналы 68 с получением моно- или стереосигнала 48, выполняя при этом описанное ранее снижение уровня. Пунктирная линия 70 показывает, что смеситель 66 может использовать пространственные параметры 64 для переключения между режимом снижения уровня и режимом варьирования глубины снижения уровня, как рассмотрено выше. Пространственные параметры 64, используемые смесителем 66, могут представлять собой, в частности, коэффициенты предсказания канала, описывающие, как средний канал 66, левый канал или правый канал могут быть реконструированы из сигнала понижающего микширования 62, при этом смеситель 66 может дополнительно использовать параметры межканальной когерентности/кросс-корреляции, отражающие согласованность или взаимное соотношение между описываемыми левым и правым каналами, которые, в свою очередь, могут быть образованы понижающим микшированием переднего левого и заднего левого каналов и переднего правого и заднего правого каналов, соответственно. Например, средний канал может быть смикширован в заданном соотношении для образования левого канала и правого канала сигнала понижающего стереомикширования (стереодаунмикса). В этом случае достаточно двух коэффициентов предсказания канала, чтобы определить, как могут быть сформированы центральный, левый и правый каналы из соответствующей линейной комбинации двух каналов сигнала стереодаунмикса 62. В частности, для разделения голосовых и неголосовых фаз смеситель 66 может оперировать отношением суммы и разности коэффициентов предсказания канала.
Хотя для иллюстрации взвешенного суммирования множества каналов, при котором каждый канал участвует в понижающем моно- или стереомикшировании (моно- или стереодаунмиксе) при степени интенсивности, отличной, по меньшей мере, от двух каналов многоканального сигнала 18, был взят случай снижения уровня интенсивности с учетом центрального канала, существуют также примеры, когда уровень других каналов должным образом понижается или повышается по отношению к другому каналу или другим каналам в силу того, что контент источника звука, содержащийся в одном или нескольких каналах, подлежит или не подлежит обработке с построением акустического объема на одном уровне с другим контентом многоканального сигнала, но на пониженном/повышенном уровне.
Фиг.5 в довольно общих чертах иллюстрирует возможность передачи множества входных каналов посредством сигнала понижающего микширования 62 и пространственных параметров 64. Фиг.6 расширяет такое объяснение. Описание фиг.6 помогает также рассмотреть аппаратные версии изобретения, представленные далее на фиг.10-13. Фиг.6 демонстрирует разложение сигнала, полученного понижающим микшированием, 62 в спектр множества подполосовых составляющих 82. На фиг.6 частотные составляющие 82 для наглядности изображены в виде горизонтальных полос, возрастающих по частоте снизу вверх, на что указывает стрелка оси частотной области 84. По горизонтали расположена ось времени 86. Например, микшированный с понижением сигнал 62 состоит из последовательности спектральных величин 88 каждой из подполос 82. Разрешающая способность по времени (частота дискретизации), с которой подполосы 82 разбиты на дискреты, выраженная величиной отсчета 88, может определяться слотом банка фильтров 90. Таким образом, временные интервалы 90 и частотные подполосы 82, образуя сетку, определяют частотно-временную разрешающую способность. Более крупная частотно-временная сетка формируется за счет объединения смежных отсчетов 88 с образованием частотно-временных ячеек 92, обозначенных на фиг.6 пунктирным контуром, которые определяют частотно-временную параметрическую разрешающую способность, или решетку. Указанные выше пространственные параметры 62 определяются этим частотно-временным параметрическим разрешением 92. Частотно-временное параметрическое разрешение 92 вариативно во времени. Для его изменения многоканальный сигнал 62 разбивают на последовательные фреймы 94. Для каждого фрейма решетка время-частотного разрешения 92 может быть задана индивидуально. В случае приема микшированного с понижением сигнала 62 во временной области в схему декодера 64 вводят банк фильтров анализа, генерирующий представление микшированного с понижением сигнала 62, как показано на фиг.6. Если микшированный с понижением сигнал 62 поступает на декодер 64 в виде, показанном на фиг.6, анализирующий банк фильтров в составе декодера 64 не нужен. Как уже говорилось в контексте фиг.5, для каждой ячейки 92 могут быть введены два коэффициента предсказания канала, показывающие, как правый и левый каналы формируются из левого и правого каналов сигнала стереодаунмикса 62. В дополнение к этому показатель межканальной когерентности/кросс-корреляции (ICC) может индицировать для ячейки 92 наличие ICC между левым и правым каналами, которые будут производными сигнала понижающего стереомикширования 62, и из которых один канал полностью совмещен с одним из каналов сигнала понижающего стереомикширования 62, а второй полностью совмещен с другим каналом сигнала понижающего стереомикширования 62. При этом показатель разности уровней названных левого и правого каналов (CLD) может быть в последующем представлен для каждой ячейки 92. К показателям CLD может быть применено квантование с неравномерным шагом по логарифмической шкале, дающее высокую точность вблизи ноля дБ и снижение разрешающей способности при увеличении разности уровней каналов. Кроме этого пространственные параметры 64 могут включать в себя другие показатели. Эти показатели могут, в частности, определять разность уровней каналов (CLD) и межканальную когерентность (ICC), относящиеся к каналам, которые участвовали в формировании микшированием указанных левого и правого каналов, скажем, тыльного левого, фронтального левого, тыльного правого и фронтального правого каналов.
Следует обратить внимание на то, что рассмотренные выше варианты технического исполнения могут быть скомбинированы между собой. Ряд комбинаторных возможностей уже отмечен ранее. На другие потенциальные возможности будет указано при дальнейшем описании конструктивных решений, представленных на фиг.7-13. Кроме того, при рассмотрении вариантов реализации на фиг.1 и 5 было условно принято, что промежуточные тракты 20, 66 и 68, соответственно, физически присутствуют в составе устройства. Тем не менее это не обязательно. Например, модифицированные передаточные функции органов слуха HRTF, моделируемые устройством на фиг.2, могут быть использованы для настройки направленных фильтров на фиг.1 без применения блока минимизации подобия 12, и в этом случае устройство на фиг.1 может оперировать микшированным с понижением сигналом, таким как сигнал 62 на фиг.5, представляющим множество каналов 18a-18d, комбинируя необходимым образом пространственные параметры и модифицированные функции HRTF в пределах частотно-временного параметрического разрешения 92, и применяя полученные в результате этого коэффициенты линейного комбинирования для генерации бинауральных сигналов 22а и 22b.
Подобно этому понижающий микшер 42 соответствующим образом комбинирует пространственные параметры 64 и степень ослабления интенсивности центрального канала для понижающего моно- или стереомикширования 48 перед передачей на процессор построения акустического пространства 44. На фиг.7 представлен вариант осуществления генератора выходного бинаурального сигнала согласно изобретению. Генератор, имеющий общее условное обозначение 100, состоит из многоканального декодера 102, выходного терминала бинаурального сигнала 104 и двух соединяющих их трактов, моделирующих путь, соответственно, прямой 106 и отраженной 108 звуковой волны. В тракте прямого звука направленные фильтры 110 соединены с выходом многоканального декодера 102. Далее, в тракт прямой звуковой волны встроены первая группа сумматоров 112 и вторая группа сумматоров 114. Сумматоры 112 суммируют выходные сигналы первой половины гребенки направленных фильтров 110, а сумматоры 114 суммируют выходные сигналы второй половины направленных фильтров 110. Суммированные выходные сигналы первой 112 и второй 114 групп сумматоров образуют составляющую прямой звуковой волны выходного бинаурального сигнала 22а и 22b. Сумматоры 116 и 118 предназначены для совмещения составляющих сигналов 22а и 22b и составляющих бинауральных сигналов, генерированных трактом реверберации 108, то есть для сложения сигналов 46а и 46b. В тракт реверберации 108 последовательно включены смеситель 120 и процессор пространственного звукопостроения 122, которые соединяют между собой выход многоканального декодера 102 и соответствующие входы сумматоров 116 и 118, выходные сигналы которых формируют бинауральный сигнал на выходе 104.
Для облегчения понимания схемы устройства на фиг.7 в его описание включены условные обозначения, использованные для соответствующих элементов или функций на фигурах 1-6. Необходимые пояснения будут даны при последующем обсуждении. Следует обратить внимание на то, что для упрощения объяснения в дальнейшем условно принято, что во всех вариантах компоновки минимизатор подобия выполняет функцию снижения степени корреляции. Соответственно, далее это устройство будет именоваться «минимизатор корреляции». Тем не менее, как понятно из предыдущего обсуждения, описываемые далее версии исполнения легко преобразуются для применения в случаях, где минимизатор подобия задействуется более для устранения сходства, чем для ослабления корреляции. Кроме того, несмотря на то, что далее представлены компоновки, где условно принято, что понижающий микшер, генерирующий сигнал для последующего моделирования звукового объема, выполняет функцию понижения уровня центрального канала, выше уже говорилось, что предусмотрен свободный переход к альтернативным техническим решениям.
Устройство на фиг.7 преобразует поток декодированного многоканального сигнала 124 для генерации выходного сигнала на головные телефоны на выходе 104. Многоканальный декодер 102 синтезирует из потока двоичных данных, поступающих на вход 126, декодированный многоканальный сигнал 124, используя, например, алгоритм пространственного декодирования. После декодирования каждый сигнал или канал декодированного многоканального сигнала 124 фильтруется парой направленных фильтров 110. Так, первый (верхний) канал декодированного многоканального сигнала 124 фильтруется направленными фильтрами DirFilter (1,L) [1 левый] и DirFilter (1,R) [1 правый], а второй (сверху) сигнал, или канал, фильтруется направленными фильтрами DirFilter (2,L) и DirFilter (2,R), и так далее. Фильтры 110 предусматривают моделирование прохождения звука от виртуального источника в помещении к слуховому каналу слушателя, реализуя так называемую бинауральную передаточную функцию помещения (BRTF). Такие фильтры способны регулировать параметры времени, уровня и спектра, а также частично имитировать звукоотражение и реверберацию в ограниченном пространстве. Направленные фильтры 110 могут использоваться во временной или частотной областях. Поскольку количество направленных фильтров 110 должно быть большим (Nx2, где N - количество декодируемых каналов), то для полного моделирования отражения звука и реверберации в помещении потребуется достаточно длинный блок фильтров - на 20000 полос при 44,1 кГц, что ведет к высокой вычислительной трудоемкости. При сокращении числа направленных фильтров 110 до оптимального минимума для моделирования звукоотражения и реверберации используются так называемые передаточные функции головы слушателя (функции HRTF) и блок моделирования акустической среды 122. Модуль построения акустического пространства 122 может осуществлять алгоритм создания эффекта реверберации во временной или частотной области и может оперировать с одно- или двухканальным входным сигналом 48, рассчитанным смесителем 120 на основе декодированного многоканального входного сигнала 124 с применением матрицы смешивания. Модуль построения акустического пространства воспроизводит эффекты отражения звука и/или реверберации в помещении. Отражение и реверберация оказывают существенное воздействие на пространственную локализацию звука, в особенности - на ощущение удаленности и экстернализацию, что означает восприятие слушателем акустических источников вне его головы.
Обычно многоканальное звучание строится таким образом, что основная звуковая энергия сосредоточена во фронтальных каналах - в переднем левом, переднем правом и центральном. Речевые диалоги в кинофильмах и музыку главным образом микшируют с центральным каналом. После моделирования акустического объема в блоке 122 сигналы центрального канала часто воспринимаются на слух с неестественным эхом и тональными искажениями. В силу этого, в варианте исполнения на фиг.7 центральный канал поступает в модуль построения акустического пространства 122 из смесителя 120 после значительного снижения (примерно на 6 дБ) уровня. Таким образом, решение конфигурации на фиг.7 соответствует компоновке на фиг.3 и 5, и, следовательно, условные обозначения 102, 124, 120, и 122 фиг.7 соответствуют условным обозначениям 18, 64, сочетанию условных обозначений 66 и 68, условному обозначению 66 и условному обозначению 44 на фиг.3 и 5, соответственно.
На фиг.8 показан еще один вариант реализации генератора выходного бинаурального сигнала. Этот генератор условно обозначен общим номером 140. Для упрощения описания фиг.8, на ней использованы те же условные обозначения, что и на фиг.7. Чтобы указать, что смеситель 120 не обязательно выполняет такие же функции, как на фиг.3, 5 и 7, а именно, понижение уровня центрального канала, модуль, объединяющий блоки 102, 120, и 122, обозначен как 40'. Иными словами, ослабление уровня смесителем 122 в составе устройства на фиг.8 является опцией. Однако, в отличие от фиг.7 между каждой парой направленных фильтров 110 и каждым выходом декодера 102 на сопряженный канал декодированного многоканального сигнала 124 введен декоррелятор. Декорреляторы обозначены номерами 142 1, 1422 и так далее. Декорреляторы 1421 , 1422 выполняют функции минимизатора корреляции 12 на фиг.1. Несмотря на то, что на фиг.8 декорреляторы 142 1-1424 сопряжены с каждым из каналов декодированного многоканального сигнала 124, такая компоновка не является строго обязательной. Часто достаточно одного декоррелятора. Декорреляторы 142 могут просто обеспечивать задержку. Предпочтительно, чтобы значения задержек 1421-1424 различались между собой. При другом варианте исполнения Декорреляторы 142 1-1424 могут быть всечастотными фильтрами, у которых при постоянной амплитудной передаточной характеристике, равной единице, меняются фазы спектральных составляющих соответствующего канала. Изменения фазовых характеристик, вызываемые декорреляторами 1421-1424, предпочтительно должны различаться для каждого из каналов. Безусловно, предусмотрены и другие возможности. Скажем, роль декорреляторов 1421-1424 могут выполнять фильтры с конечной импульсной характеристикой (КИХ), и т.п.
Отсюда следует, что элементы 1421 -1424, 110, 112, и 114 аппаратной версии на фиг.8 по своим функциональным возможностям согласуются с устройством 10 на фиг.1.
Как и в случае с фиг.8, на фиг.9 показан вариант реализации генератора выходного бинаурального сигнала, представленного на фиг.7. Соответственно, пояснения к фиг.9 также будут даны с использованием условных обозначений фиг.7. Подобно версии исполнения на фиг.8 снижение уровня интенсивности смесителем 122 также является опцией для устройства на фиг.9, следовательно, ему более соответствует обозначение 40', чем 40, как на фиг.7. Компоновка на фиг.9 направлена на решение проблемы значительной корреляция между всеми каналами при многоканальном звукообразовании. После прохождения многоканальных сигналов через направленные фильтры 110 двухканальные промежуточные сигналы каждой пары фильтров складываются сумматорами 112 и 114 с образованием выходного сигнала для наушников на выходе 104. Сложение сумматорами 112 и 114 коррелированных выходных сигналов ведет к значительному сужению пространственного охвата выходного сигнала на выходе 104 и подавлению эффекта экстернализации. Особенные трудности возникают при корреляции левого и правого сигнала и среднего канала в декодированном многоканальном сигнале 124. Техническое решение на фиг.9 позволяет с помощью направленных фильтров сформировать максимально декоррелированный выходной сигнал. Для этого в схему на фиг.9 введено устройство 30, формирующее набор функций HRTF для построения окружающего звука, которые используются направленными фильтрами 110 на базе некоторой исходной комбинации передаточных функций HRTF. Как рассматривалось выше, устройство 30 может задействовать один или комбинацию из приведенных ниже механизмов применения функций HRTF пар направленных фильтров, сопряженных с одним или несколькими каналами декодированного многоканального сигнала 124: задержка с помощью направленного фильтра или соответствующей пары направленных фильтров, например, путем сдвига их импульсной характеристики, например, за счет смещения полосы фильтра; изменение фазочастотных характеристик соответствующих направленных фильтров; и применение декоррелирующего фильтра, например, всечастотного, к соответствующим направленным фильтрам соответствующего канала. Такой всечастотный фильтр мог быть реализован как фильтр КИХ.
Как сказано выше, устройство 30 может работать в режиме отклика на изменение конфигурации громкоговорителей, для чего используется битстрим, поступающий на вход 126.
Варианты осуществления, представленные на фиг.7-9, касались декодированного многоканального сигнала. Приведенные ниже конструктивные решения относятся к параметрическому многоканальному декодированию для вывода на головные телефоны. Формулируя в целом, пространственное аудиокодирование представляет собой алгоритм сжатия многоканального сигнала, использующий перцептуальную межканальную иррелевантность (различие содержимого каналов для восприятия) многоканальных аудиосигналов для достижения наибольшей компрессии. При этом фиксируются звуковые пространственные ориентиры или характеристики объема акустического пространства, то есть параметры, описывающие панорамное представление многоканального аудиосигнала. Пространственные звуковые опорные точки, как правило, отражают перепады уровня/интенсивности, разность фаз и степень корреляции/когерентности между каналами и могут быть представлены в очень компактном виде. Концепция пространственного кодирования звука была взята на вооружение группой MPEG, что привело к созданию стандарта MPEG Surround, то есть ISO/IEC23003-1. Пространственные параметры, используемые в пространственном аудиокодировании, могут также быть применены для расчета направленных фильтров. При таком подходе декодирование пространственных аудиоданных и включение направленных фильтров могут быть объединены для качественного декодирования и рендеринга многоканального аудиосигнала для воспроизведения через наушники.
Общая структура пространственного аудиодекодера для вывода сигнала на наушники представлена на фиг.10. Декодер на фиг.10, условно обозначенный общим номером 200, представляет собой подполосовой пространственно-бинауральный модификатор (преобразователь) 202, включающий в свою схему вход для стерео- или моносигнала понижающего микширования 204, вход для пространственных параметров 206 и выход для выходного бинаурального сигнал 208. Микшированный с понижением сигнал в сочетании с пространственными параметрами 206 образует многоканальный сигнал 18 и представляет совокупность его каналов.
В схему подполосового модификатора 202 входит банк фильтров анализа 208, блок матрицирования (матричного кодирования) или линейный комбинатор (блок сведения) 210 и банк фильтров синтеза 212, соединенные в указанной последовательности между входом микшированного с понижением сигнала и выходом подполосового модификатора 202. Далее, подполосовой модификатор 202 включает в себя преобразователь параметров 214, принимающий пространственные параметры 206 и комбинацию модифицированных функций HRTF, сгенерированных устройством 30.
В компоновке на фиг.10 подразумевается, что сигнал понижающего микширования поступает в предварительно декодированной форме, включая энтропийное кодирование. В пространственно-бинауральный аудиодекодер поступает полученный понижающим микшированием сигнал 204. Преобразователь параметров 214, обрабатывая пространственные параметры 206 и параметрическое описание направленных фильтров в форме характеристик модифицированных функций HRTF 216, формирует бинауральные параметры 218. Параметры 218 применяются блоком матрицирования 210 в форме матрицы «два-на-два» (в случае сигнала понижающего стереомикширования) и в форме матрицы «один-на-два» (в случае сигнала 204 монофонического понижающего микширования) в частотной области к спектральным величинам 88, рассчитанным банком фильтров анализа 208 (см. фиг.6). Говоря иначе, бинауральные параметры 218 варьируются в пределах разрешающей способности частотно-временной параметрической решетки 92, показанной на фиг.6, и применяются к каждому дискретному значению 88. С помощью интерполяции могут быть сглажены матричные коэффициенты и соответствующие бинауральные характеристики 218 при переходе из более грубой частотно-временной параметрической области 92 в область частотно-временного разрешения анализирующего банка фильтров 208. Таким образом, при понижающем стереомикшировании 204 блок 210 дает в результате матрицирования два дискретных значения на пару, состоящую из величины отсчета левого канала 204, микшированного с понижением сигнала, и соответствующей величины отсчета правого канала 204, микшированного с понижением сигнала. В результате этого два дискретных значения являются элементами левого и правого каналов выходного бинаурального сигнала 208, соответственно. При работе с моносигналом 204 понижающего микширования блок матрицирования 210 выдает два дискретных значения на величину отсчета сигнала понижающего мономикширования 204, а именно, одно значение - для левого канала и одно - для правого канала выходного бинаурального сигнала 208. Бинауральные характеристики 218 определяют матричный режим, в соответствии с которым из одного или двух дискретных значений микшированного с понижением сигнала 204 выполняется построение соответствующих величин отсчетов левого и правого каналов выходного бинаурального сигнала 208. Бинауральные параметры 218 уже отражают модифицированные характеристики передаточных функций HRTF. Следовательно, они обеспечивают декорреляцию входных каналов многоканального сигнала 18, как говорилось выше.
Из этого следует, что выходные данные блока матрицирования 210 представляют собой преобразованную спектрограмму, отображенную на фиг.6. Синтезирующий банк фильтров 212 реконструирует из нее выходной бинауральный сигнал 208. Формулируя иначе, банк фильтров синтеза 212 конвертирует результирующий двухканальный выходной сигнал блока матрицирования 210 во временную область. Безусловно, данные возможности реализуются по усмотрению пользователя.
В случае с устройством на фиг.10 эффекты отражения и реверберации отдельно не рассматривались. Если принимать в расчет эти эффекты, их построение должно осуществляться на уровне функций HRTF 216. На фиг.11 показан генератор выходного бинаурального сигнала, объединяющий бинауральный пространственный аудиодекодер 200' с обособленным устройством построения эффектов отражения звука/реверберации в помещении. Значок ' в обозначении 200' на фиг.11 указывает на то, что пространственно-бинауральный аудиодекодер 200' может использовать немодифицированные функции HRTF, то есть исходные передаточные функции моделирования головы слушателя HRTF, как на фиг.2. Однако произвольно в качестве бинаурального пространственного аудиодекодера 200' на фиг.11 может быть выбран аналог, приведенный на фиг.10. В любом случае, генератор бинаурального сигнала на фиг.11, имеющий общее условное обозначение 230, включает в свой состав, кроме бинаурального пространственного декодера 200', аудиодекодер понижающего микширования (аудиодекодер даунмикса) 232, преобразованный пространственный подполосовой аудиомодификатор 234, процессор пространственного звукопостроения 122 и два сумматора 116 и 118. Аудиодекодер даунмикса 232 введен между входом битового потока 126 и бинауральным пространственным подполосовым аудиомодификатором 202 в составе бинаурального пространственного аудиодекодера 200'. Аудиодекодер даунмикса 232 декодирует входящий битстрим 126 для извлечения из него микшированного с понижением сигнала 204 и пространственных параметров 206. Микшированный с понижением сигнал 204 вместе с пространственными параметрами 206 поступает как на бинауральный пространственный подполосовой аудиомодификатор 202, так и на преобразованный пространственный подполосовой аудиомодификатор 234. На основе микшированного с понижением сигнала 204 преобразованный пространственный модификатор подполос звуковых частот 234, используя пространственные параметры 206 и скорректированные параметры 236, содержащие данные глубины снижения уровня центрального канала, о чем говорилось выше, вычисляет сигнал понижающего моно- или стереомикширования 48, который служит входным сигналом процессора построения акустического пространства 122. Выходные сигналы бинаурального пространственного подполосового аудиомодификатора 202 и пространственного процессора 122 суммируются как компоненты каналов сумматорами 116 и 118 с образованием выходного бинаурального сигнала 238.
На фиг.12 дана принципиальная модульная схема бинаурального аудиодекодера 200', входящего в схему на фиг.11. Следует обратить внимание на то, что фиг.12 демонстрирует не внутреннее устройство пространственно-бинаурального аудиодекодера 200' на фиг.11, а процесс преобразования им сигнала. В целом, внутренняя структура бинаурального пространственного аудиодекодера 200' соответствует конструкции на фиг.10, за исключением того, что устройство 30 может быть пропущено, если оно задействовано для операций с исходными функциями HRTF. Кроме того, бинауральный пространственный аудиодекодер 200' в примере на фиг.12 преобразует в выходной бинауральный сигнал 208 многоканальный сигнал 18, который содержит всего три канала. Так, блок ТТТ, или «2->3», выполняет функцию разделения двух каналов понижающего стереомикширования 204 на средний 242, правый 244 и левый 246 каналы. Говоря иначе, фиг.12 иллюстрирует пример, где под сигналом даунмикса 204 подразумевается сигнал стереофонического понижающего микширования. Пространственные параметры 206, обрабатываемые блоком ТТТ 248, содержат упомянутые выше коэффициенты предсказания канала. Ослабление тесноты корреляции достигается с помощью трех декорреляторов, обозначенных на фиг.12 как DelayL, Delay R, и DelayC. Они соответствуют этапу декорреляции, например, на фиг.1 и 7. Здесь следует напомнить, что фиг.12 иллюстрирует только последовательность преобразования сигнала пространственно-бинауральным аудиодекодером 200', в то время, как функциональная схема показана на фиг.10. Поэтому, несмотря на то, что элементы задержки, образующие минимизатор корреляции 12, изображены как компоненты схемы, обособленные от функций HRTF, формирующих направленные фильтры 14, наличие элементов задержки в структуре минимизатора корреляции 12 может рассматриваться как актуализация параметров HRTF, формирующих исходные функции HRTF направленных фильтров 14 на фиг.12. Прежде всего, фиг.12 показывает, что бинауральный пространственный аудиодекодер 200' обеспечивает декорреляцию каналов для воспроизведения через головные телефоны. Декорреляция достигается простыми средствами, в частности, соединением блока задержки при параметрическом преобразовании по матрице М и пространственно-бинаурального аудиодекодера 200'. Отсюда следует, что бинауральный пространственный аудиодекодер 200' может прилагать к каждому каналу приведенные ниже способы преобразования, а именно: задержка центрального канала предпочтительно, по меньшей мере, на один отсчет, задержка центрального канала на различные интервалы в каждой полосе частот, задержка левого и правого каналов предпочтительно, по меньшей мере, на один отсчет и/или задержка левого и правого каналов на различные интервалы в каждой полосе частот.
На фиг.13 приведен пример компоновки модифицированного пространственного подполосового аудиомодификатора с фиг.11. Подполосовой модификатор 234 на фиг.13 включает в себя блок «два-к-трем» или ТТТ 262, каскад взвешивания 264а-264е, первые сумматоры 266а и 266b, вторые сумматоры 268а и 268b, вход для стереодаунмикса 204, вход для пространственных параметров 206, дополнительный вход для разностного сигнала 270 и выход даунмикса 48, по версии фиг.13 - стереосигнала, для дальнейшей обработки пространственным процессором.
Как можно определить по схеме конструктивного решения модифицированного пространственного подполосового аудиомодификатора 234 на фиг.13, блок «2->3» (ТТТ) 262 просто реконструирует средний канал, правый канал 244 и левый канал 246 по сигналу понижающего стереомикширования 204 с использованием пространственных параметров 206. Можно еще раз вспомнить, что в контексте фиг.12 каналы 242-246 в расчетах, практически, не используются. Точнее сказать, бинауральный пространственный подполосовой аудиомодификатор преобразует матрицу М таким образом, что сигнал понижающего стереомикширования 204 прямо преобразуется в бинауральную компоненту, отражающую функции HRTF. Однако фактически на фиг.13 реконструкцию осуществляет блок ТТТ («два-на-три») 262. В качестве опции, как показано на фиг.13, блок ТТТ 262 может использовать разностный сигнал 270, отражающий предсказанную разность при воссоздании каналов 242-246 на базе понижающего стереомикширования 204 и пространственных параметров 206, которые, как сказано ранее, содержат коэффициенты предсказания каналов и, дополнительно, значения межканальной когерентности ICC. Первые сумматоры 266а предназначены для сложения каналов 242-246 с образованием левого канала сигнала понижающего стереомикширования 48. В частности, сумматоры 266а и 266b дают взвешенную сумму, для которой весовые значения определяются на стадиях взвешивания 264а, 264b, 264с и 264е, когда для каждого соответствующего канала с 246 по 242 определяется положенное весовое значение EQLL, ЕQ RL и EQCL. Аналогично этому сумматоры 268а и 268b вычисляют взвешенную сумму каналов с 246 по 242 после шагов взвешивания 264b, 264d и 264е с нахождением весовых значений, после чего с помощью взвешенной суммы формируется правый канал понижающего стереомикширования 48.
Параметры 270 для серии взвешиваний 264а-264е отбираются так, что описанное выше снижение уровня центрального канала в составе стереодаунмикса 48 в результате обеспечивает естественное для восприятия звучание, о чем говорилось ранее.
Другими словами, фиг.13 демонстрирует модуль имитации акустического объема, который может быть скомбинирован с бинауральным параметрическим декодером 200' фиг.12. На фиг.13 на этот модуль подается микшированный с понижением сигнал (даунмикс) 204. Даунмикс 204 включает в себя все сигналы многоканального сигнала, обеспечивая полноценную стереофоническую сочетаемость. Как пояснялось выше, в модуль построения аудиопространства необходимо вводить только редуцированный центральный сигнал. Такое ослабление интенсивности осуществляет преобразованный пространственный модификатор подполос звуковых частот на фиг.13. В частности, как видно на фиг.13, для восстановления центрального, левого и правого каналов 242-246 может быть задействован разностный сигнал 270. Разностный сигнал центрального, левого и правого каналов 242-246 может быть декодирован аудиодекодером понижающего микширования 232 (фиг.11), который на фиг.13 не показан. Показатели EQ или взвешенные величины, использованные на этапе взвешивания 264а-264е, могут являться действительными для левого, правого и среднего каналов 242-246. Центральному каналу 242 могут быть заданы единые постоянные характеристики для равного микширования с левым и правым выходными каналами сигнала понижающего стереомикширования 48, что проиллюстрировано на фиг.13.
Показатели EQ 270, вводимые в преобразованный пространственный подполосовой аудиомодификатор 234, могут иметь приведенные ниже свойства. Во-первых, сигнал центрального канала может быть ослаблен, как рекомендуется, по меньшей мере, на 6 дБ. Кроме того, сигнал центрального канала может иметь низкочастотную характеристику. Далее, разностный сигнал остальных каналов может быть усилен на низких частотах. С целью компенсации пониженного уровня среднего канала 242 по сравнению с остальными каналами 244 и 246 с помощью бинаурального пространственного подполосового аудиомодификатора 202 пропорционально наращивают характеристики функций HRTF для среднего канала.
Основная цель задания параметров EQ - ослабление сигнала центрального канала на выходе в модуль построения окружающего звукового объема. Однако интенсивность центрального канала подлежит лишь ограниченному ослаблению: сигнал центрального канала вычитается из левого и правого каналов понижающего микширования в блоке ТТТ («два-на-три»). При сниженном центральном уровне в левом и правом каналах могут возникнуть различимые на слух артефакты. В силу этого, снижение уровня центрального канала на стадии EQ представляет собой поиск компромисса между ослаблением интенсивности и появлением артефактов. Набор фиксированных установок EQ возможен, но он не будет оптимальным для всех сигналов. Таким образом, в конструктивное решение следует включить алгоритм или модуль адаптации 274, который управлял бы глубиной снижения уровня центрального канала с использованием одного или комбинации из приведенных ниже параметров.
Пространственные параметры 206, используемые для декодирования блоком ТТТ 262 центрального канала 242 из левого и правого каналов понижающего микширования 204, могут использоваться согласно конфигурации, обозначенной пунктирной линией 276.
Параметры уровня центрального, левого и правого каналов могут быть использованы согласно пунктирной линии 278.
Разности уровней центрального, левого и правого каналов 242-246 также могут быть использованы, как обозначено пунктирной линией 278.
Результат применения алгоритма распознавания одного типа сигнала, например, детектора активности речи, также может применен в соответствии с пунктирной линией 278.
Наконец, статические или динамические метаданные, описывающие звуковой контент, могут быть задействованы для определения степени снижения интенсивности центрального канала, на что указывает пунктирная линия 280.
Несмотря на то, что большинство аспектов изобретения рассматривается здесь с точки зрения конструктивного решения устройства, очевидно, что такие решения не могут не затрагивать описание соответствующих способов, поскольку любой элемент или устройство, задействованные с определенной целью, соответствуют некоторой стадии осуществления способа или отличительной особенности способа. Точно также при рассмотрении аспектов реализации какого-либо способа присутствует описание соответствующего компонента, или блока, или конструктивной особенности соответствующего устройства, например, элемента специализированной интегральной схемы ASIC, подпрограммы программного кода или фрагмента программируемой логики.
Относящийся к изобретению кодированный аудиосигнал может быть сохранен в цифровой запоминающей среде или может быть транслирован в среде передачи информации, такой как беспроводная передающая среда или проводная передающая среда, например, Интернет.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. При техническом исполнении могут быть использованы цифровые носители и накопители данных, такие, в частности, как гибкий диск, DVD, CD, ROM, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, способные хранить электронно считываемые сигналы управления и взаимодействовать с программируемой компьютерной средой таким образом, чтобы мог быть осуществлен соответствующий способ.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.
В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.
Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.
Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.
Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь.
Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет.
Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.
Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.
Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.
Класс H04S3/00 Системы с более, чем двумя каналами, например квадрафонические