система и способ для формирования луча с использованием микрофонной решетки
Классы МПК: | H04R3/00 Схемы включения преобразователей |
Автор(ы): | МАЛЬВАР Энрике С. (US), ТАШЕВ Иван (US) |
Патентообладатель(и): | МАЙКРОСОФТ КОРПОРЕЙШН (US) |
Приоритеты: |
подача заявки:
2005-03-01 публикация патента:
27.09.2009 |
Изобретение относится к определению направления на источник звука в установленной области поиска с использованием способа управления положением луча с помощью микрофонной решетки и, в частности, касается систем и способа, которые обеспечивают схему автоматического формирования луча для любой топологии микрофонной решетки и для любого типа микрофонов. Формирование луча включает в себя обработку выходных аудиосигналов микрофонной решетки таким образом, чтобы заставить микрофонную решетку действовать как узконаправленный микрофон. Другими словами, формирование луча обеспечивает «луч прослушивания», который нацелен на конкретный источник звука, часто при фильтрации других звуков. Причем «унифицированный формирователь луча» автоматически формирует набор лучей, которые покрывают требуемый пространственный угловой диапазон в установленной области поиска. Схема сформированных лучей является функцией топологии и рабочих характеристик микрофонов, а также зависит от моделей шума окружающей среды вокруг микрофонной решетки. Технический результат - возможность применения формирователя луча к любой топологии микрофонной решетки и микрофонам любого типа. 3 н. и 32 з.п. ф-лы, 5 ил.
Формула изобретения
1. Способ для конструирования в реальном времени набора лучей для микрофонной решетки из набора предварительно вычисленных моделей шума, содержащий использование вычислительного устройства для
вычисления набора комплексных значений усиления для каждого поддиапазона декомпозиции входных сигналов микрофонной решетки для каждого из множества значений ширины луча в диапазоне значений ширины луча, причем указанные наборы комплексных значений усиления вычисляют из предварительно вычисленных моделей шума в сочетании с известной топологией и направленностью микрофонов, составляющих микрофонную решетку;
поиска наборов комплексных значений усиления для идентификации единственного набора комплексных значений усиления для поддиапазона в частотной области и для каждой из множества намеченных фокусных точек вокруг микрофонной решетки; и
в котором каждый набор комплексных значений усиления выбирают по отдельности в виде набора комплексных значений усиления, имеющих минимальную общую энергию шума по отношению к соответствующим наборам комплексных значений усиления для каждого поддиапазона в частотной области для каждой намеченной фокусной точки вокруг микрофонной решетки, и в котором каждый выбранный набор комплексных значений усиления затем обеспечивают в виде записи в наборе лучей для микрофонной решетки.
2. Способ по п.1, в котором декомпозиция в частотной области представляет собой модулированное комплексное преобразование с перекрытием (MCLT).
3. Способ по п.1, в котором декомпозиция в частотной области представляет собой быстрое преобразование Фурье (FFT).
4. Способ по п.1, в котором предварительно вычисленные модели шума включают в себя, по меньшей мере, одну из следующих моделей: шума окружающей среды, аппаратного шума и шума точечного источника.
5. Способ по п.4, в котором модели внешнего шума вычисляют путем непосредственной выборки и усреднения изотропного шума в рабочем пространстве вокруг микрофонной решетки.
6. Способ по п.4, в котором модели аппаратного шума вычисляют путем непосредственной выборки и усреднения выходных сигналов микрофонов в микрофонной решетке в рабочем пространстве без шума и реверберации, так что выборке подвергаются только шумы, исходящие от схем микрофонной решетки.
7. Способ по п.1, в котором общую энергию шума вычисляют в функции предварительно вычисленных моделей шума и значений ширины в сочетании с соответствующими наборами комплексных значений усиления.
8. Способ по п.1, в котором, по крайней мере, один элемент набора предварительно вычисленных моделей вычисляют повторно в реальном времени в соответствии с изменениями уровней шума вокруг микрофонной решетки.
9. Способ по п.1, в котором наборы комплексных значений усиления нормализуют для обеспечения единичного усиления и нулевого сдвига по фазе для сигналов, исходящих из каждой намеченной фокусной точки.
10. Способ по п.1, в котором диапазон значений ширины луча определяют по заданной минимальной ширине луча, заданной максимальной ширине луча и заданному размеру шага ширины луча.
11. Способ по п.1, в котором диапазон значений ширины луча определяют по минимальной ширине луча, настраиваемой пользователем, максимальной ширине луча, настраиваемой пользователем, и размеру шага ширины луча, настраиваемому пользователем.
12. Способ по п.1, в котором заданную топологию и направленность микрофонов, составляющих микрофонную решетку, обеспечивают из файла описания устройства, который определяет рабочие характеристики микрофонной решетки.
13. Способ по п.12, в котором файл описания устройства является внутренним для микрофонной решетки и в котором вычислительному устройству от микрофонной решетки автоматически сообщают известную топологию и направленность микрофонов, составляющих микрофонную решетку, для использования в конструируемой в реальном времени схеме наборов лучей.
14. Способ по п.1, дополнительно содержащий процессор для формирования лучей для использования набора лучей для обработки в реальном времени входящих микрофонных сигналов из микрофонной решетки.
15. Система для автоматического конструирования наборов лучей для решетки датчиков, содержащая:
контроль всех выходных сигналов датчиков решетки датчиков, имеющей множество датчиков, где каждый датчик имеет известную топологию и диаграмму направленности;
создание, по меньшей мере, одной модели шума из выходных сигналов датчиков;
определение набора форм намеченных лучей как функции набора фокусных точек намеченных лучей и диапазона значений ширины намеченных лучей, причем фокусные точки намеченных лучей пространственно распределены в рабочем пространстве вокруг решетки датчиков;
определение набора намеченных весовых функций для обеспечения усиления для взвешивания каждой намеченной фокусной точки в зависимости от положения каждой намеченной фокусной точки относительно конкретной формы намеченного луча;
вычисление набора возможных лучей путем вычисления набора нормализованных весов для подгонки диаграммы направленности каждого микрофона к каждой форме намеченного луча по всему диапазону значений ширины намеченного луча в частотном диапазоне, представляющем интерес, для каждой взвешенной намеченной фокусной точки;
идентификацию набора лучей путем вычисления общей энергии шума для каждого возможного луча в частотном диапазоне, представляющем интерес, и выбор каждого возможного луча, имеющего минимальную энергию шума для каждой из набора частотных полос в частотном диапазоне, представляющем интерес.
16. Система по п.15, в которой нормализованные веса представляют наборы комплексных значений усиления для каждого поддиапазона декомпозиции в частотной области входных сигналов решетки датчиков.
17. Система по п.16, в которой декомпозиция в частотной области представляет собой модулированное комплексное преобразование с перекрытием (MCLT).
18. Система по п.16, в которой декомпозиция в частотной области представляет собой быстрое преобразование Фурье (FFT).
19. Система по п.15, в которой создание, по меньшей мере, одной модели шума из выходных сигналов датчиков содержит вычисление, по меньшей мере, одной из следующих моделей: шума окружающей среды, аппаратного шума и шума точечного источника посредством непосредственной выборки и анализа шума в рабочем пространстве вокруг решетки датчиков.
20. Система по п.15, в которой вычисление общей энергии шума для каждого возможного луча в частотном диапазоне, представляющем интерес, содержит определение уровней энергии шума как функции, по меньшей мере, одной модели шума и нормализованных весов, связанных с каждым возможным лучом.
21. Система по п.15, в которой по меньшей мере одну из моделей шума вычисляют повторно в реальном времени в соответствии с изменениями уровней шума вокруг решетки датчиков.
22. Система по п.15, в которой нормализованные веса для каждого возможного луча гарантируют единичное усиление и нулевой сдвиг по фазе для сигналов, исходящих из каждой соответствующей намеченной фокусной точки.
23. Система по п.15, в которой диапазон значений ширины намеченного луча ограничен минимальным и максимальным значениями ширины луча в сочетании с угловым размером шага ширины луча для выбора определенных значений ширины намеченных лучей в диапазоне значений ширины намеченного луча.
24. Система по п.15, в которой известная топология и направленность каждого датчика автоматически обеспечивается из файла описания устройства, находящегося в решетке датчиков.
25. Система по п.15, дополнительно содержащая процессор формирования лучей для обработки в реальном времени входных сигналов решетки датчиков на основе управления положением лучей путем применения набора лучей к входным сигналам решетки датчиков для конкретных намеченных фокусных точек.
26. Считываемый компьютером носитель, имеющий исполняемые компьютером команды для автоматического конструирования набора управляемых по положению лучей, для обработки выходных сигналов микрофонной решетки, причем исполняемые компьютером команды содержат:
вычисление наборов комплексных значений усиления для каждого из множества лучей в диапазоне значений ширины луча для каждой из множества намеченных фокусных точек вокруг микрофонной решетки из набора параметров, причем параметры включают в себя одну или несколько моделей шума окружающей среды в совокупности микрофонов в микрофонной решетке и известную топологию и диаграммы направленности каждого микрофона в микрофонной решетке;
в котором каждый луч выбирается автоматически по всему диапазону значений ширины луча с использованием углового размера шага ширины луча для выбора определенных значений ширины луча в диапазоне значений ширины луча;
вычисление минимальной общей энергии шума для каждого набора комплексных значений усиления для каждой намеченной фокусной точки для каждой ширины луча; и
идентификацию наборов комплексных значений усиления и соответствующей ширины луча, имеющей минимальную общую энергию шума для каждой намеченной фокусной точки, и выбор каждого указанного набора в виде элемента набора управляемых по положению лучей для обработки выходных сигналов микрофонной решетки.
27. Считываемый компьютером носитель по п.26, в котором комплексные значения усиления нормализуют для гарантирования единичного усиления и нулевого сдвига по фазе для сигналов, исходящих из соответствующих намеченных фокусных точек.
28. Считываемый компьютером носитель по п.26, в котором комплексные значения усиления вычисляют отдельно для каждого поддиапазона декомпозиции входных сигналов микрофонной решетки в частотной области.
29. Считываемый компьютером носитель по п.26, в котором декомпозиция в частотной области представляет собой любую из декомпозиций: декомпозицию на основе модулированного комплексного преобразования с перекрытием (MCLT) и декомпозицию на основе быстрого преобразования Фурье (FFT).
30. Считываемый компьютером носитель по п.26, дополнительно содержащий процессор формирования лучей для использования набора управляемых по положению лучей для обработки выходных сигналов микрофонной решетки.
31. Считываемый компьютером носитель по п.30, в котором процессор формирования лучей содержит систему локализации источника звука (SSL) для использования оптимизированного набора управляемых по положению лучей для локализации источников аудиосигнала в окружающей среде вокруг микрофонной решетки.
32. Считываемый компьютером носитель по п.31, в котором процессор формирования лучей содержит систему подавления акустического эхо-сигнала (АЕС) для использования оптимизированного набора управляемых по положению лучей для подавления эхо-сигналов вне конкретного отрегулированного по положению луча.
33. Считываемый компьютером носитель по п.31, в котором процессор формирования лучей содержит систему направленной фильтрации для избирательной фильтрации источников аудиосигналов относительно намеченной фокусной точки одного или нескольких управляемых по положению лучей.
34. Считываемый компьютером носитель по п.31, в котором процессор формирования лучей содержит систему избирательной фиксации сигналов для избирательной фиксации источников аудиосигналов относительно намеченной фокусной точки одного или нескольких управляемых по положению лучей.
35. Считываемый компьютером носитель по п.31, в котором процессор формирования лучей содержит комбинацию из двух или более систем из числа следующих систем:
система локализации источника звука (SSL) для использования оптимизированного набора управляемых по положению лучей для локализации источников аудиосигналов в окружающей среде вокруг микрофонной решетки;
система подавления акустического эхо-сигнала (АЕС) для использования оптимизированного набора управляемых по положению лучей для подавления эхо-сигналов вне конкретного отрегулированного по положению луча;
система направленной фильтрации для избирательной фильтрации источников аудиосигнала относительно намеченной фокусной точки одного или нескольких управляемых по положению лучей; и
систему избирательной фиксации сигналов для избирательного захвата источников аудиосигнала относительно намеченной фокусной точки одного или нескольких управляемых по положению лучей.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Изобретение относится к определению направления на источник звука в установленной области поиска с использованием способа управления положением луча с помощью микрофонной решетки, и, в частности, касается систем и способа, которые обеспечивают схему автоматического формирования луча для любой топологии микрофонной решетки и для любого типа микрофона.
Уровень техники
Локализация источника звука или направления в установленной области является важным элементом многих систем. Например, в ряде известных приложений для аудиоконференц-связи используются микрофонные решетки со стандартной локализацией источника звука (SSL), позволяющей эффективно выделять речь или звук, исходящий из конкретной точки или направления, и обрабатывать его, если это необходимо.
Например, стандартные микрофонные решетки обычно включают в себя набор микрофонов, скомпонованных в некоторой заданной конфигурации. Эти микрофоны в общем случае используются для одновременной фиксации звуковых волн с различных направлений, которые исходят из различных точек в пространстве. Затем для обработки этих сигналов с целью локализации источника звуковых волн и уменьшения шума используют стандартные способы, такие как SSL. В стандартной обработке SSL одного типа используются способы управления положением луча для определения направления на конкретный источник звука. Другими словами, способы управления положением луча используются для комбинирования сигналов от всех микрофонов таким образом, чтобы заставить микрофонную решетку действовать в качестве остро направленного микрофона, наводящего «луч прослушивания» на источник звука. Затем зафиксированные звуки, приходящие с других направлений вне указанного луча, ослабляются. Указанные способы позволяют микрофонной решетке ослаблять часть шумов окружающей среды и отраженных волн (генерируемых в результате отражений звука от стен и объектов в комнате), в результате чего обеспечивается более высокое отношение сигнал-шум (SNR) для звуковых сигналов, возникающих внутри намеченного луча.
Управление положением луча обычно позволяет управлять положением лучей или осуществлять их наведение, обеспечивая фиксацию звука в требуемой пространственной области или зоне, что увеличивает отношение сигнал-шум (SNR) для записанных звуков из этой зоны. Таким образом, управление положением луча играет важную роль в пространственной фильтрации, то есть в наведении «луча» на источник звука и подавлении любых шумов, приходящих с других направлений. В некоторых случаях направление на источник звука используют для слежения за говорящим субъектом и предварительной обработки записанных аудиосигналов. В контексте системы видеоконференций слежение за говорящим субъектом часто используют для динамического наведения видеокамеры на говорящего человека.
Как хорошо известно специалистам в данной области техники, управление положением луча в общем случае включает в себя использование способов формирования луча для формирования набора лучей, предназначенных для покрытия конкретных угловых зон в установленной области. Формирователь луча по существу представляет собой пространственный фильтр, который обрабатывает выходные сигналы решетки датчиков, таких как микрофоны, чтобы увеличить амплитуду когерентного волнового фронта относительно фонового шума и направленных помех. Затем для сигналов от каждого датчика используется набор операторов для обработки сигналов (обычно линейные фильтры), и выходные сигналы этих фильтров комбинируются для формирования лучей, которые наводятся или направляются с целью повторного усиления входных сигналов из конкретных угловых зон и ослабления входных сигналов из других угловых зон.
«Направление наведения» направленного луча часто называют углом максимального или основного отклика (MRA), причем это направление для лучей может быть выбрано произвольным образом. Другими словами, способы формирования луча используются для обработки входных сигналов от множества датчиков с целью создания набора направленных лучей, имеющих узкую угловую область отклика в требуемом направлении (MRA). Таким образом, когда звук принимается внутри данного луча, направление этого звука известно (то есть SSL выполнена), а звуки, исходящие от других лучей, могут быть отфильтрованы или обработаны иным образом, если это потребуется.
В одном классе стандартных алгоритмов формирования луча предпринимаются попытки обеспечить оптимальное подавление шумов путем нахождения параметрических решений для известных топологий микрофонной решетки. К сожалению, из-за чрезвычайной сложности, а значит, необходимости дополнительных объемных вычислений при указанных подходах больший акцент делается на нахождение решений, близких к оптимальным, а не действительно оптимальных решений. Эти подходы часто называют «формирование луча с фиксированным положением».
В общем случае при формировании луча с фиксированным положением формы луча не приспособлены к изменениям окружающих шумов и положений источников звука. Кроме того, решения, близкие к оптимальным, которые предлагаются в указанных подходах, имеют тенденцию обеспечивать подавление шума, только близкое к оптимальному, для звуков, приходящих вне указанного луча, или для шума. Следовательно, обычно есть возможности для повышения эффективности подавления шума или звуков, предлагаемого в указанных стандартных способах формирования луча. Наконец, указанные алгоритмы формирования луча имеют тенденцию к специализированной адаптации для использования с конкретными микрофонными решетками. Следовательно, способ формирования луча, предназначенный для одной конкретной микрофонной решетки, не может дать приемлемых результатов, когда он применяется для другой микрофонной решетки с отличающейся топологией.
Другие стандартные способы формирования луча включают в себя то, что известно как «адаптивное формирование луча». Такие способы способны обеспечить подавление шума на основе минимального априорного знания о топологии микрофонной решетки или вообще без такого знания. Указанные алгоритмы приспосабливаются к изменениям шума окружающей среды или фонового шума и изменению положения источника звука, предпринимая попытки приближения к оптимальному решению как функции времени и обеспечивая оптимальное подавление шума после нахождения оптимального решения. К сожалению, одним из недостатков указанных способов является то, что при этом требуется значительный объем вычислений, и, кроме того, они медленно адаптируются, что делает их менее надежными для применения в различных прикладных сценариях.
Следовательно, имеется потребность в системе и способе, обеспечивающем более оптимальные решения при формировании луча для микрофонных решеток. Кроме того, указанные система и способ должны снизить объем дополнительных вычислений, с тем чтобы реализовать формирование луча в реальном времени. Наконец, указанные система и способ должны найти свое применение для микрофонных решеток любой топологии, включающих в себя микрофоны любого типа.
Раскрытие изобретения
В системах формирования луча часто используется возможность комбинирования множества аудиосигналов, зафиксированных от микрофонов. В общем случае операции формирования луча можно использовать для обработки сигналов нескольких приемных решеток, в том числе микрофонных решеток, гидроакустических решеток, направленных антенных решеток для радиосигналов, радиолокационных решеток. Например, в случае микрофонной решетки формирование луча включает в себя обработку выходных аудиосигналов микрофонной решетки таким образом, чтобы микрофонная решетка действовала как остро направленный микрофон. Другими словами, формирование луча обеспечивает «луч прослушивания», который указывает на конкретный источник звука и принимает от него сигнал, ослабляя другие звуки и шум, включая, например, отражения, реверберации, помехи, а также звуки или шум, приходящие с других направлений или точек вне основного луча. Наведение указанных лучей обычно называют «управлением положением луча».
Заметим, что системы формирования луча также часто используют ослабление шума нескольких типов, либо другую фильтрацию или постобработку выходного сигнала формирователя луча. Кроме того, вместе со стандартными системами формирования луча перед выполнением операций формирования луча также часто используют предварительную обработку во временной или частотной области выходных сигналов решетки датчиков. Однако для прояснения вопроса разъяснения последующее обсуждение будет сосредоточено на схеме формирования луча для микрофонных решеток с произвольной топологией и типом микрофонов, причем будет учитываться только ослабление шума, которое является естественным следствием пространственной фильтрации, являющейся результатом операций формирования луча и управления его положением. Должно быть ясно, что любая необходимая стандартная пред- или постобработка или фильтрация входного или выходного сигнала формирователя луча входит в объем описания предложенного здесь унифицированного формирователя луча.
Описанный здесь «унифицированный формирователь луча» автоматически конструирует набор лучей (то есть выполняет формирование лучей), которые покрывают требуемый пространственный угловой диапазон. Однако, в отличие от стандартных способов формирования луча, описанный здесь унифицированный формирователь луча способен автоматически адаптироваться к любой топологии микрофонной решетки и любому типу микрофона. В частности, унифицированный формирователь луча автоматически конструирует оптимизированный набор управляемых по положению лучей для микрофонных решеток с произвольной топологией и микрофонами любого типа, определяя оптимальные значения ширины луча в функции частоты, чтобы обеспечить оптимальные значения отношения сигнал-шум для источников звука внутри луча при обеспечении оптимального затухания или фильтрации для источников шума окружающей среды и источников шума вне луча. Унифицированный формирователь луча обеспечивает создание указанной схемы автоматического формирования луча посредством нового процесса минимизации ошибок, который автоматически определяет оптимальные частотно-зависимые значения ширины луча при заданных локальных условиях шума и рабочих характеристиках микрофонной решетки. Заметим, что, хотя унифицированный формирователь луча применим для решетки датчиков различных типов, для ясности в последующем обсуждении предполагается, что решетка датчиков представляет собой микрофонную решетку, содержащую несколько микрофонов с известной топологией и направленностью микрофонов.
В общем случае унифицированный формирователь луча начинает разработку схемы оптимальных фиксированных лучей для микрофонной решетки, вычисляя сначала частотно-зависимую «весовую матрицу» с использованием параметрической информации, описывающей рабочие характеристики и топологию микрофонной решетки, в сочетании с одной или несколькими моделями шума, которые автоматически создаются или рассчитываются для среды, окружающей микрофонную решетку. Затем эту весовую матрицу используют для взвешивания в частотной области выходного сигнала каждого микрофона в микрофонной решетке при обработке аудиосигналов, принятых микрофонной решеткой, для формирования луча в частотной области.
Веса, вычисленные для весовой матрицы, определяют путем вычисления весов в частотной области для требуемых «фокусных точек», распределенных по всему рабочему пространству вокруг микрофонной решетки. Веса в весовой матрице оптимизируют таким образом, чтобы лучи, сконструированные унифицированным формирователем луча, обеспечили максимальное подавление шума (на основе рассчитанных моделей шума) при ограничениях, состоящих в единичном усилении и нулевом сдвиге по фазе в любой конкретной фокусной точке для каждой полосы частот. Эти ограничения применяются для угловой области вокруг фокусной точки, называемой «фокусной шириной». Этот процесс повторяется для каждой полосы частот, представляющей интерес, в результате чего получают оптимальные значения ширины луча, которые изменяются в функции частоты для любой данной фокусной точки.
В одном варианте осуществления изобретения обработка, связанная с формированием луча, выполняется с использованием способа в частотной области под названием «модулированное комплексное преобразование с перекрытием (MCLT)». Однако, хотя в описанных здесь концепциях обработка MCLT используется в качестве примера, специалистам в данной области техники должно быть ясно, что эти концепции можно легко приспособить для других способов декомпозиции в частотной области, таких как, например, быстрое преобразование Фурье (FFT) или гребенки фильтров на основе FFT. Заметим, что, поскольку веса вычисляют для взвешивания в частотной области, весовая матрица представляет собой матрицу NxM, где N - количество частотных полос MCLT (то есть поддиапазоны MCLT) в каждом аудиокадре, а M - количество микрофонов в решетке. Следовательно, если предположить, например, что для вычислений MCLT используется 320 элементов разрешения по частоте, то оптимальная ширина луча для любой конкретной фокусной точки может быть описана графиком изменения усиления в функции угла падения и частоты для каждого из 320 частотных коэффициентов MCLT. Заметим, что использование большого количества поддиапазонов MCLT (например, 320) позволяет получить два важных преимущества такого способа обработки в частотной области: i) тонкую настройку форм луча для каждого частотного поддиапазона; и ii) упрощение коэффициентов фильтра для каждого поддиапазона до единственных комплексно-значных коэффициентов усиления, что позволяет обеспечить варианты практической реализации, отличающиеся высокой эффективностью вычислений.
Параметрическая информация, используемая для вычисления весовой матрицы, включает в себя количество микрофонов в решетке, геометрическую компоновку микрофонов в решетке и диаграмму направленности каждого микрофона в решетке. Модели шума, созданные с целью их использования при вычислении весовой матрицы, различают по меньшей мере три типа шума, в том числе изотропный шум окружающей среды (то есть фоновый шум, такой как «белый шум» или другой шум с относительно равномерным распределением), аппаратный шум (то есть шум, являющийся результатом электрической активности в электрических цепях микрофонной решетки и соединении решетки с внешним вычислительным устройством или иным внешним электрическим устройством) и точечные источники шума (такие как, например, компьютерные вентиляторы, шум автомобилей через открытое окно, говорящие субъекты, которые должны быть подавлены и т.д.).
Таким образом, при наличии вышеупомянутых моделей шума решение проблемы конструирования оптимальных фиксированных лучей для микрофонной решетки аналогично решению типовой задачи минимизации с ограничениями, которая решается с использованием методов математической многомерной оптимизации (симплекс-метод, градиентный метод и т.д.). Однако при относительно высокой размерности весовой матрицы (2М действительных чисел на одну полосу частот, а всего Nх2М чисел), которую можно интерпретировать как мультимодальную гиперповерхность, и поскольку функции являются нелинейными, нахождение оптимальных весов в виде точек на мультимодальной гиперповерхности потребует очень большого объема вычисления, так как для нахождения локального минимума обычно необходимо выполнить множество проверок.
В результате, в одном варианте осуществления изобретения вместо того, чтобы непосредственно находить оптимальные точки на упомянутой мультимодальной гиперповерхности, унифицированный формирователь луча сначала заменяет непосредственную многомерную оптимизацию для вычисления весовой матрицы путем синтеза диаграммы направленности, минимизирующей ошибку, после чего выполняется одномерный поиск в направлении оптимальной ширины фокуса луча для каждой полосы частот. Здесь можно использовать любой стандартный способ минимизации ошибки, такой как, например, вычисления по методу наименьших квадратов или по минимуму среднеквадратичной ошибки (MMSE), вычисления минимальной абсолютной ошибки, вычисления минимаксной ошибки, решения с равномерной пульсацией и т.д.
В общем случае при нахождении оптимального решения для весовой матрицы уравновешиваются два противоречивых эффекта. В частности, если задана узко сфокусированная область для формы луча, то энергия шума окружающей среды будет естественным образом уменьшаться по мере удаленности. Вдобавок, некоррелированный шум (в том числе шум электрических цепей) будет естественным образом возрастать, поскольку решение для более точной направленности рассматривает все меньшие и меньшие различия по фазе между выходными сигналами от микрофонов, в результате чего некоррелированный шум усиливается. Наоборот, чем больше намеченная фокусная область формы луча, тем, естественно, будет больше энергия шума окружающей среды, но будет меньше энергия некоррелированного шума.
Таким образом, унифицированный формирователь луча учитывает баланс вышеотмеченных факторов при вычислении минимальной ошибки для конкретной ширины фокусной области для определения оптимального решения для взвешивания каждой полосы частот MCLT для каждого микрофона в решетке. Затем определяется оптимальное решение посредством синтеза диаграммы направленности, который определяет веса, удовлетворяющие требованию метода наименьших квадратов (или другого метода минимизации ошибки) для конкретных намеченных форм луча. К счастью, рассматривая проблему таким образом, ее можно разрешить, используя численное решение линейной системы уравнений, которое получается значительно быстрее, чем многомерная оптимизация. Заметим, что поскольку такое оптимальное решение вычисляется на основе топологии и направленности каждого отдельного микрофона в решетке, оптимальный вариант конструирования лучей, даже для каждой конкретной полосы частот, будет зависеть от намеченной фокусной точки для любого данного луча вокруг микрофонной решетки.
В частности, в процессе конструирования, выполняемого формирователем луча, сначала определяется набор «форм намеченного луча» в зависимости от требуемой фокусной области намеченного луча (то есть 2 градуса, 5 градусов, 10 градусов и т.д.). В общем случае для определения формы намеченного луча можно использовать любую стандартную функцию, которая имеет максимум, равный единице, и падает до нуля, такие как, например, прямоугольные функции, скачкообразные функции, косинусные функции и т.д. Однако скачкообразные функции, такие как прямоугольные функции, могут вызвать пульсации формы луча. Следовательно, более хорошие результаты обычно достигаются при использовании функций, которые плавно уменьшаются от единицы до нуля, такие как, например, косинусные функции. Однако здесь можно использовать любую требуемую функцию в свете вышеупомянутых ограничений затухающей функции (линейной или нелинейной) от единицы до нуля, или некоторую затухающую функцию, которую взвешивают для приведения уровней в диапазон от единицы до нуля.
Если заданы формы намеченного луча, то тогда определяется «намеченная весовая функция» для выяснения того, находится ли каждая намеченная или фокусная точка на, вне или внутри переходной области конкретной формы намеченного луча. Обычно для получения хороших результатов рассматривается переходная область, превышающая ширину намеченного луча примерно в один-три раза; однако оптимальный размер переходной области в действительности зависит от типов датчиков в решетке и от окружающей среды в рабочем пространстве вокруг решетки датчиков. Заметим, что фокусные точки - это просто несколько точек (целесообразно, чтобы их было больше, чем количество микрофонов), которые равномерно рассредоточены по всему рабочему пространству вокруг решетки (то есть используется равномерное круговое рассредоточение для кольцевой решетки или равномерное дугообразное рассредоточение для линейной решетки). Затем намеченные весовые функции обеспечивают усиление для взвешивания каждой намеченной точки в зависимости от того, как эти точки расположены относительно конкретного намеченного луча.
Целью создания намеченных весовых функций является минимизация воздействия сигналов, исходящих из точек вне основного луча, на вычисления, выполняемые формирователем луча. Таким образом, в проверенном варианте осуществления изобретения намеченным точкам внутри намеченного луча было присвоено значение усиления, равное 1,0 (единичное усиление); намеченным точкам в переходной области было присвоено значение усиления, равное 0,1, для минимизации воздействия указанных точек на вычисления для формирования луча с учетом их воздействия; наконец, точкам вне переходной области намеченного луча было присвоено значение усиления, равное 2,0, чтобы более полно учесть и существенно уменьшить амплитуды боковых лепестков на окончательно сконструированных лучах. Заметим, что при использовании слишком большого значения усиления для намеченных точек вне переходной области можно получить эффект снижения влияния намеченных точек, находящихся внутри намеченного луча, что приведет к неоптимальным результатам вычислений для формирования луча.
Далее, если заданы форма намеченного луча и намеченные весовые функции, то следующим шагом будет вычисление набора весов, который обеспечит подгонку реальных форм луча (с использованием в качестве реальных форм луча известных диаграмм направленности каждого микрофона в решетке) к форме намеченного луча для каждой намеченной точки путем использования способа минимизации ошибки для минимизации общей энергии шума для каждого частотного поддиапазона MCLT для каждой формы намеченного луча. Решение, являющееся результатом этого вычисления, представляет собой набор весов, которые согласовывают реальную форму луча с формой намеченного луча. Однако не обязательно, чтобы этот набор весов удовлетворял вышеупомянутым ограничениям, состоящим в единичном усилении и нулевым сдвигом по фазе в фокусной точке для каждой рабочей полосы частот. Другими словами, начальный набор весов может обеспечить усиление, большее или меньшее единицы для источника звука внутри луча. Таким образом, вычисленные веса нормализуют так, чтобы единичное усиление и нулевой сдвиг по фазе был у любых сигналов, исходящих из фокусной точки.
В этот момент унифицированный формирователь луча еще не учел полную минимизацию полной энергии шума в функции ширины луча. Таким образом, в отличие от простого вычисления весов для одной требуемой ширины намеченного луча, как было описано выше, вычисляют нормализованные веса для диапазона значений ширины намеченного луча от некоторого заданного минимального требуемого угла до некоторого заданного максимального требуемого угла. Размер шага ширины луча может быть либо маленьким, либо большим в зависимости от потребности (то есть можно использовать размеры шага 0,5, 1, 2, 5, 10 градусов или любой другой размер шага по желанию). Затем для определения оптимальной ширины луча для каждой полосы частот используют одномерную оптимизацию. Можно использовать любой из нескольких хорошо известных способов нелинейной функциональной оптимизации, такие как методы градиентного спуска, поисковые методы и т.д. Другими словами, общую энергию шума вычисляют для каждой ширины намеченного луча по всему диапазону значений ширины намеченного луча, используя любой требуемый размер углового шага. Затем эти значения общей энергии шума просто сравнивают между собой для определения ширины луча на каждой частоте, где имеет место минимальная общая энергия шума для этой частоты. Окончательным результатом является оптимизированная ширина луча, которая является функцией частоты для каждой намеченной точки вокруг решетки датчиков.
Заметим, что в одном варианте осуществления изобретения эта минимальная общая энергия шума рассматривается как функция конкретных частотных диапазонов, причем не предполагается, что шум должен быть равномерно ослаблен по всем частотным диапазонам. В частности, в некоторых случаях желательно минимизировать общую энергию шума только в некоторых частотных диапазонах или еще более ослабить шум в конкретных частотных диапазонах. В указанных случаях эти конкретные частотные диапазоны в первую очередь принимаются во внимание при идентификации ширины намеченного луча с минимальной энергией шума. Один из способов определения того, является ли шум более заметным в каком-либо конкретном частотном диапазоне, состоит просто в выполнении стандартного частотного анализа, чтобы определить уровни энергии шума для конкретных частотных диапазонов. Затем частотным диапазонам с особенно высокими уровнями энергии шума присваивают большие веса, чтобы увеличить их влияние на общие вычисления для формирования луча, что дает большее затухание шума в указанных частотных диапазонах.
Затем нормализованные веса для ширины луча, имеющей минимальную общую энергию шума на каждом частотном уровне, вводят в вышеупомянутую весовую матрицу. Затем рабочее пространство делят на несколько угловых зон в соответствии с оптимальной шириной луча для любой данной частоты относительно намеченной точки, на которую направлен луч. Заметим, что лучи направляют с использованием стандартных способов, таких как, например, локализация источника звука (SSL). Направление указанных лучей на конкретные точки вокруг решетки является концепцией, хорошо известной специалистам в данной области техники, которая здесь подробно не описывается.
Кроме того, следует заметить, что для конкретных приложений может потребоваться некоторая степень перекрытия лучей для обеспечения более качественной локализации источника сигнала. В указанных случаях для определения количества лучей, необходимых для обеспечения полного покрытия требуемого рабочего пространства, просто используют величину требуемого перекрытия между лучами. Один пример применения перекрытия лучей предложен в одновременно рассматриваемой заявке на патент «A SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF LOCALIZATION ESTIMATES», поданной 1 марта 2004 года с присвоенным серийным номером 10/791252, содержание которой включено сюда по ссылке. Таким образом, если, например, требуется 50-процентное перекрытие лучей, то количество лучей будет удвоено, и, если использовать вышеупомянутый пример ширины луча в 20 градусов на конкретной частоте для кругового рабочего пространства, то тогда рабочее пространство будет разделено на 36 перекрывающихся 20-градусных лучей, взамен использования только 18 лучей.
В еще одном варианте унифицированного формирователя луча процесс формирования луча может развиваться как функция времени. В частности, как было замечено выше, весовую матрицу и оптимальные значения ширины луча вычисляют частично на основе моделей шума, рассчитываемых для рабочего пространства вокруг микрофонной решетки. Однако должно быть ясно, что уровни и источники шума часто изменяются как функции времени. Следовательно, в одном варианте осуществления изобретения моделирование шума внешней среды в рабочем пространстве выполняется либо непрерывно, либо с регулярными интервалами или интервалами, задаваемыми пользователем. Если заданы новые модели шума, то вышеописанные процессы формирования лучей используют затем для автоматического обновления набора оптимальных лучей для данного рабочего пространства.
В свете вышеизложенной сущности изобретения ясно, что описанный здесь унифицированный формирователь луча обеспечивает систему и способ для конструирования оптимального набора лучей для микрофонных решеток с произвольной топологией и типом микрофонов. Вдобавок к только что описанным выгодам из последующего подробного описания, взятого вместе с сопроводительными чертежами, станут очевидными и другие преимущества этой системы и способа.
Краткое описание чертежей
Конкретные признаки, аспекты и преимущества настоящего изобретения станут более понятными, если обратиться к последующему описанию, прилагаемой формуле изобретения и сопроводительным чертежам, на которых:
Фиг.1 - общая схема системы, где показано вычислительное устройство общего назначения, образующее примерную систему для реализации унифицированного формирователя луча для конструирования оптимального набора лучей для микрофонных решеток с произвольной топологией и типом микрофонов;
Фиг.2 - примерная схема системы, где показаны примерные программные модули для реализации унифицированного формирователя луча для конструирования оптимального набора лучей для микрофонных решеток с произвольной топологией и типом микрофонов;
Фиг.3 - общая блок-схема, иллюстрирующая обработку входных сигналов на основе MCLT для луча, вычисленного унифицированным формирователем луча по Фиг.2, для обеспечения выходного аудиосигнала для конкретной намеченной точки;
Фиг.4 - пример пространственной избирательности (усиления) луча, генерируемого унифицированным формирователем луча по Фиг.2, как функции частоты и угла луча;
Фиг.5 - пример операционной блок-схемы, иллюстрирующей работу унифицированного формирователя луча для конструирования оптимальных лучей для микрофонной решетки.
Осуществление изобретения
В последующем описании предпочтительных вариантов настоящего изобретения сделаны ссылки на сопроводительные чертежи, которые составляют его часть и на которых в иллюстративных целях показаны конкретные варианты возможной практической реализации изобретения. Понятно, что можно использовать и другие варианты, а структурные изменения можно выполнять, не выходя за рамки объема настоящего изобретения.
1.0 Примерная операционная среда
На Фиг.1 показан пример подходящей вычислительной системной среды 100, в которой можно реализовать данное изобретение. Вычислительная системная среда 100 является лишь одним примером подходящей вычислительной среды и не претендует на какое-либо ограничение объема использования или функциональных возможностей изобретения. Вычислительную среду 100 никоим образом не следует интерпретировать как среду, которая каким-либо образом зависит от любого одного или комбинации компонентов, показанных в примерной операционной среде 100, или считать, или предъявлять к ним какие-либо требования.
Изобретение может работать с множеством других вычислительных системных сред или конфигураций как общего назначения, так и специализированных. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут подойти для использования с данным изобретением, включают в себя, но не только: персональные компьютеры; компьютеры-серверы; карманные компьютеры, лэптопы или мобильные компьютеры; или устройства связи, такие как сотовые телефоны и персональные цифровые помощники (PDA); мультипроцессорные системы; системы на основе микропроцессоров; компьютерные приставки; программируемая бытовая электронная аппаратура; сетевые персональные компьютеры; миникомпьютеры; универсальные компьютеры; распределенные вычислительные среды, которые включают в себя любые из вышеуказанных систем или устройств, и т.п.
Изобретение может быть описано в общем контексте команд, исполняемых компьютером, таких как программные модули, выполняемые компьютером вместе с аппаратными модулями, в том числе компонентами микрофонной решетки 198 или другой приемной решетки (не показана), такой как, например, направленная антенная решетка для радиосигналов, радиолокационная приемная антенная решетка и т.д. Обычно программные модули включают в себя стандартные программы, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные типы абстрактных данных. Изобретение также может быть практически реализовано в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули могут находиться как на локальных, так и на удаленных компьютерных носителях, включая запоминающие устройства. Как показано на Фиг.1, примерная система для реализации изобретения включает в себя вычислительное устройство общего назначения в виде компьютера 110.
Компоненты компьютера 110 могут включать в себя, но не только: блок 120 обработки, системную память 130 и системную шину 121, которая соединяет различные системные компоненты, включая системную память, с блоком 120 обработки. Системная шина 121 может быть реализована в виде шинной структуры любого из нескольких типов, в том числе в виде шины памяти или контроллера памяти, периферийной шины, и локальной шины с использованием любой из множества различных шинных архитектур. Такие архитектуры могут, например, включать в себя, но не только: шину с архитектурой промышленного стандарта (ISA), шину с микроканальной архитектурой (MCA), шину с расширенной архитектурой ISA (EISA), локальную шину Ассоциации по стандартам видеооборудования (VESA) и шину межсоединений периферийных компонентов (PCI) (известную также как шина Mezzanine).
Компьютер 110 обычно включает в себя множество различных считываемых компьютером сред (носителей). Считываемые компьютером носители могут представлять собой любые имеющиеся носители, которые могут быть доступны компьютеру 110, и включают в себя как энергозависимые, так и энергонезависимые носители, а также как съемные, так и несъемные носители. В качестве примера, но не как ограничение, считываемые компьютером среды могут содержать компьютерные запоминающие среды и среды связи. Компьютерные запоминающие среды включают в себя энергозависимые и энергонезависимые, съемные и несъемные среды, реализованные любым способом или по любой технологии для запоминания информации, такой как считываемые компьютером команды, структуры данных, программные модули или другие данные.
Компьютерные запоминающие среды включают в себя, но не только: ОЗУ (RAM), ПЗУ (ROM), программируемое ПЗУ (PROM), стираемое программируемое ПЗУ (EPROM), электрически стираемое программируемое ПЗУ (EEPROM), флэш-память, либо память, выполненную по другой технологии, ПЗУ на компакт-диске (CD ROM), цифровые универсальные диски (DVD), либо другое запоминающее устройство на оптическом диске, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитном диске или другие магнитные запоминающие устройства, либо любую другую среду, которую можно использовать для запоминания требуемой информации и которая может быть доступна компьютеру 110. Среда связи обычно несет считываемые компьютером команды, структуры данных, программные модули либо другие данные в модулированном сигнале данных, таком как сигнал несущей или другой механизм транспортировки, и включают в себя любые среды для доставки информации. Термин «модулированный сигнал данных» означает сигнал, имеющий одну или несколько характеристик, установленных или измененных таким образом, чтобы закодировать информацию в этом сигнале. Например, но не как ограничение, среда связи включает в себя проводную среду, такую как проводная сеть или непосредственное проводное соединение, и беспроводную среду, такую как акустическая, радиочастотная (RF), инфракрасная и другие беспроводные среды. В состав считываемых компьютером сред также следует включить комбинации из любых вышеперечисленных сред.
Системная память 130 включает в себя компьютерную запоминающую среду в виде энергозависимой и/или энергонезависимой памяти, такой как постоянное запоминающее устройство 131 (только для считывания) (ROM) и оперативное запоминающее устройство 132 (с произвольной выборкой) (RAM). В памяти ROM 131 обычно находится базовая система 133 ввода/вывода (BIOS), содержащая базовые подпрограммы, которые помогают пересылать информацию между элементами в компьютере 110, к примеру, во время запуска. Память RAM 132 обычно содержит данные и/или программные модули, которые непосредственно доступны и/или обрабатываются в настоящий момент в блоке 120 обработки. На Фиг.1 в качестве примера, но не как ограничение, показаны операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137.
Компьютер 110 может также включать в себя другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные запоминающие среды. Только в качестве примера на Фиг.1 показаны: накопитель 141 на жестком диске, который осуществляет считывание или запись на несъемный, энергонезависимый магнитный носитель; накопитель 151 на магнитном диске, который осуществляет считывание или запись на съемный энергонезависимый магнитный диск 152; и дисковод 155 на оптическом диске, который осуществляет считывание или запись на съемный энергонезависимый оптический диск 156, такой как CD ROM, либо другую оптическую среду. Другие съемные/несъемные энергозависимые, энергонезависимые компьютерные запоминающие среды, которые можно использовать в приведенной в качестве примера операционной среде, включают в себя, но не только: кассеты с магнитной лентой, карты флэш-памяти, цифровые универсальные диски, цифровую видеоленту, твердотельное RAM, твердотельное ROM и т.п. Накопитель 141 на жестком диске обычно подсоединен к системной шине 121 через интерфейс несъемной памяти, такой как интерфейс 140, а накопитель 151 на магнитном диске и накопитель 155 на оптическом диске обычно подсоединены к системной шине 121 через интерфейс съемной памяти, такой как интерфейс 150.
Накопители и связанные с ними компьютерные запоминающие среды, обсужденные выше и показанные на Фиг.1, обеспечивают запоминание считываемых компьютером команд, структур данных, программных модулей и других данных для компьютера 110. На Фиг.1 в качестве примера показано, что в накопителе 141 на жестком диске хранятся операционная система 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Заметим, что эти компоненты могут совпадать либо отличаться от операционной системы 134, прикладных программ 135, других программных модулей 136 и программных данных 137. Операционная система 144, прикладные программы 145, другие программные модули 146 и программные данные 147 имеют здесь другие цифровые обозначения, чтобы показать, что они, как минимум, являются разными копиями. Пользователь может ввести в компьютер 110 команды и информацию через устройства ввода, такие как клавиатура 162 и указательное устройство 161, известное как мышь, шаровой манипулятор или сенсорный планшет.
Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую приставку, спутниковую антенну, сканер, радиоприемник и телевизионный или вещательный видеоприемник, или т.п. Кроме того, устройства ввода (не показаны) могут включать в себя приемные антенные решетки или устройства ввода сигналов, такие как, например, направленная антенная решетка для радиосигналов, радиолокационная приемная антенная решетка и т.д. Эти и другие устройства ввода часто подсоединены к блоку 120 обработки через проводной или беспроводный входной интерфейс 160 пользователя, который соединен с системной шиной 121, но могут быть подсоединены с помощью других интерфейсных и шинных структур, таких как, например, параллельный порт, игровой порт, универсальная последовательная шина (USB), интерфейс IEEE 1394, беспроводный интерфейс
BluetoothTM, беспроводный интерфейс IEEE 802.11 и т.д. Кроме того, компьютер 110 может также включать в себя устройство ввода речи или звука, такое как микрофон или микрофонная решетка 198, а также громкоговоритель 197 или иное устройство вывода звука, подсоединенное через аудиоинтерфейс 199, включая опять же стандартные проводные или беспроводные интерфейсы, такие как, например, параллельный, последовательный, USB, IEEE 1394, Bluetooth TM и т.д.
К системной шине 121 через интерфейс, такой как видеоинтерфейс 190, также подсоединен монитор 191 либо устройство отображения другого типа. Вдобавок к монитору компьютеры могут также включать в себя другие периферийные устройства вывода, такие как принтер 196, который может быть подсоединен через выходной периферийный интерфейс 195.
Компьютер 110 может работать в сетевой среде, используя логические соединения с одним или несколькими удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может представлять собой персональный компьютер, сервер, маршрутизатор, сетевой персональный компьютер, равноправное устройство либо другой известный сетевой узел, причем такой компьютер обычно включает в себя многие или все элементы, описанные выше в связи с компьютером 110, хотя на Фиг.1 показано только запоминающее устройство 181. Логические соединения, изображенные на Фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но также могут включать другие сети. Такие сетевые среды типичны для офисов, корпоративных компьютерных сетей, интрасетей и Интернет.
При использовании сетевой среды LAN компьютер 110 подсоединен к LAN 171 через сетевой интерфейс или адаптер 170. При использовании в сетевой среде WAN компьютер 110 обычно включает в себя модем 172 либо другое средство для установления связи через сеть WAN 173, такую как Интернет. Модем 172, который может быть встроенным или внешним, может быть подсоединен к системной шине 121 через входной интерфейс 160 пользователя либо другой подходящий механизм. В сетевой среде программные модули, показанные применительно к компьютеру 110 или его частям, могут храниться в удаленном запоминающем устройстве. На Фиг.1 в качестве примера, но не как ограничение, показано, что удаленные прикладные программы 185 находятся в запоминающем устройстве 181. Очевидно, что показанные сетевые соединения являются лишь примерами и что можно использовать другие средства для установления линии связи между компьютерами.
В этом параграфе обсуждалась примерная операционная среда, а остальная часть данного описания посвящена обсуждению системы и способа для автоматического конструирования оптимальных лучей для микрофонов любого типа и с произвольной топологией.
2.0 Введение
Описанный здесь «унифицированный формирователь луча» автоматически конструирует набор лучей (то есть выполняет формирование лучей), которые покрывают требуемый пространственный угловой диапазон или «рабочее пространство». Указанные лучи можно затем использовать для локализации конкретных источников сигнала в установленной области поиска в рабочем пространстве вокруг решетки датчиков. Например, типовые пространственные диапазоны могут включать в себя 360-градусный диапазон для кольцевой микрофонной решетки в комнате для совещаний или угловой диапазон примерно от 120 до 150 градусов для линейной микрофонной решетки, применяемой иногда для персонального использования вместе с настольным или персональным компьютером.
Однако, в отличие от стандартных способов формирования луча, описанный здесь унифицированный формирователь луча способен конструировать набор оптимизированных лучей для любой решетки датчиков с заданной топологией и характеристиками датчика. Например, в случае микрофонной решетки топология будет представлена количеством и положением микрофонов в решетке, а характеристики будут включать в себя направленность микрофона для каждого микрофона в решетке.
В частности, унифицированный формирователь луча конструирует оптимизированный набор управляемых по положению лучей для решетки датчиков произвольного типа с произвольной топологией, определяя оптимальные значения ширины луча в функции частоты, чтобы обеспечить оптимальные значения отношения сигнал-шум для источников звука внутри луча при обеспечении оптимального затухания или фильтрации для источников шума внешней среды и шума извне луча. Унифицированный формирователь луча обеспечивает указанное формирование лучей через новый механизм минимизации ошибок, который определяет оптимальные значения ширины луча в зависимости от частоты при заданных локальных условиях шума и рабочих характеристиках микрофонной решетки. Заметим, что, хотя унифицированный формирователь луча применим для решетки датчиков различных типов, для ясности в последующем обсуждении предполагается, что решетка датчиков представляет собой микрофонную решетку, содержащую несколько микрофонов с известной топологией и направленностью микрофонов.
Заметим, что в системах формирования лучей также часто используют несколько типов ослабления шума или иной фильтрации или постобработки для сигнала на выходе унифицированного формирователя луча. Кроме того, вместе со стандартными системами формирования луча перед операциями формирования лучей также часто используют предварительную обработку входных сигналов решетки датчиков во временной или частотной области. Однако для ясности последующее описание сфокусировано на схеме формирования лучей для микрофонных решеток с произвольной топологией и типом микрофонов, причем в описании будет рассмотрено только такое ослабление шума, которое является естественным следствием пространственной фильтрации в результате операций формирования и управления положением луча. Следует понимать, что любая необходимая стандартная предварительная обработка или постобработка, либо фильтрация входного или выходного сигнала унифицированного формирователя луча входит в объем описания предложенного здесь унифицированного формирователя луча.
Кроме того, в отличие от стандартных способов формирования фиксированных лучей и адаптивного формирования лучей, которые обычно действуют во временной области, унифицированный формирователь луча обеспечивает все операции по формированию лучей в частотной области. Наиболее известная обработка аудиосигналов, в том числе, например, фильтрация, спектральный анализ, уплотнение аудиосигналов, выделение сигнатуры и т.д., обычно реализуется в частотной области с использованием быстрого преобразования Фурье или т.п. Таким образом, стандартные системы формирования лучей часто сначала обеспечивают операции формирования лучей во временной области, а затем преобразуют эти сигналы в частотную область для дальнейшей обработки, и, в конце концов, преобразуют эти сигналы обратно в сигнал временной области для воспроизведения.
Таким образом, одно из преимуществ описанного здесь унифицированного формирователя луча состоит в том, что в отличие от чаще всего используемых способов формирования лучей он обеспечивает обработку, связанную с формированием лучей, целиком в частотной области. Кроме того, в одном варианте осуществления изобретения эта обработка, связанная с формированием лучей, в частотной области выполняется с использованием способа для частотной области, называемого модулированное комплексное преобразование с перекрытием (MCLT), поскольку обработка в области MCLT имеет ряд преимуществ по сравнению с интеграцией с другими модулями обработки аудиосигналов, такими как модули (кодеки) уплотнения и разуплотнения.
Однако, хотя в описанных здесь концепциях в качестве примера используется обработка в области MCLT, следует понимать, что эти концепции можно легко адаптировать для других вариантов декомпозиции в частотной области, таких как, например, FFT или гребенки фильтров на основе FFT. Следовательно, обработка сигналов, такая как дополнительная фильтрация, генерирование цифровых аудиоподписей, уплотнение аудиосигналов и т.д., может выполняться непосредственно в частотной области, исходя непосредственно из выходного сигнала формирователя луча без выполнения предварительной обработки, связанной с формированием луча, во временной области для последующего преобразования в частотную область. Вдобавок, конструкция унифицированного формирователя луча гарантирует линейную обработку и отсутствие нелинейных искажений в выходном сигнале, что дополнительно уменьшает расход вычислительных ресурсов и искажение сигнала.
2.1 Обзор системы
В общем случае унифицированный формирователь луча начинает конструирование оптимальных фиксированных лучей для микрофонной решетки прежде всего с вычисления частотно-зависимой «весовой матрицы» с использованием параметрической информации, описывающей рабочие характеристики и топологию микрофонной решетки, в сочетании с одной или несколькими моделями шума, которые автоматически создаются или рассчитываются для внешней среды, окружающей микрофонную решетку. Затем эту весовую матрицу используют для взвешивания в частотной области выходного сигнала каждого микрофона в микрофонной решетке при обработке (связанной с формированием лучей) в частотной области аудиосигналов, принятых микрофонной решеткой.
Веса, вычисленные для весовой матрицы, определяют путем вычисления весов в частотной области для требуемых «фокусных точек», распределенных по всему рабочему пространству вокруг микрофонной решетки. Веса в этой весовой матрице оптимизируют таким образом, чтобы лучи, сконструированные унифицированным формирователем луча, обеспечили максимальное подавление шума (на основе рассчитанных моделей шума) при ограничениях в виде единичного усиления и нулевого сдвига по фазе в любой конкретной фокусной точке для каждой полосы частот. Эти ограничения применяются к угловой области вокруг фокусной точки, называемой «фокусная ширина». Этот процесс повторяется для каждой полосы частот, представляющей интерес, что обеспечивает оптимальные значения ширины луча, которые являются функцией частоты для любой данной фокусной точки.
В одном варианте осуществления изобретения обработка, связанная с формированием лучей, выполняется с использованием способа для частотной области, называемого модулированное комплексное преобразование с перекрытием (MCLT). Однако, хотя в описанных здесь концепциях в качестве примера используется обработка в области MCLT, специалистам в данной области техники должно быть ясно, что эти концепции можно легко адаптировать для других вариантов декомпозиции в частотной области, таких как, например, FFT или гребенки фильтров на основе FFT. Заметим, что, поскольку веса вычисляют для взвешивания в частотной области, весовая матрица будет представлять собой матрицу NxM, где N - количество частотных полос MCLT (то есть поддиапазонов MCLT) в каждом аудиокадре, а M - количество микрофонов в решетке. Таким образом, если, например, предположить, что для вычислений MCLT используется 320 элементов разрешения по частоте, то оптимальная ширина луча для любой конкретной фокусной точки может быть описана графиком зависимости усиления от угла падения и частоты для каждого из 320 частотных коэффициентов MCLT.
Кроме того, следует заметить, что при использовании обработки MCLT для операций формирования лучей использование большего количества поддиапазонов MCLT (например, 320 поддиапазонов, как в предыдущем примере) обеспечивает два важных преимущества этого способа обработки в частотной области: i) тонкую настройку форм лучей для каждого частотного поддиапазона; и ii) упрощение коэффициентов фильтров для каждого поддиапазона до единственных комплексно-значных коэффициентов усиления, что позволяет обеспечить варианты практической реализации, отличающиеся высокой эффективностью вычислений.
Параметрическая информация, используемая для вычисления весовой матрицы, включает в себя количество микрофонов в микрофонной решетке, геометрическую компоновку микрофонов в решетке и диаграмму направленности каждого микрофона в решетке. Модели шума, созданные для использования при вычислении весовой матрицы, различают по меньшей мере три типа шума, в том числе изотропный шум окружающей среды (то есть фоновый шум, такой как «белый шум» или другой шум с относительно равномерным распределением), аппаратурный шум (то есть шум, являющийся результатом электрической активности в электрических цепях микрофонной решетки и соединения решетки с внешним вычислительным устройством или иным внешним электрическим устройством) и точечные источники шума (такие как, например, компьютерные вентиляторы, шум автомобилей из открытого окна, говорящие субъекты, которые должны быть подавлены, и т.д.).
Таким образом, при наличии вышеупомянутых моделей шума решение проблемы конструирования оптимальных фиксированных лучей для микрофонной решетки аналогично решению типовой задачи минимизации с ограничениями, которая решается с использованием методов математической многомерной оптимизации (симплекс-метод, градиентный метод и т.д.). Однако при относительно высокой размерности весовой матрицы (2М реальных чисел на одну полосу частот, а всего Nх2М чисел), что можно рассматривать как мультимодальную гиперповерхность, и поскольку функции являются нелинейными, нахождение оптимальных весов в виде точек на мультимодальной гиперповерхности потребует очень большого объема вычислений, так как обычно требуется выполнить множество проверок для нахождения локального минимума.
Следовательно, в одном варианте осуществления изобретения вместо того, чтобы непосредственно находить оптимальные точки на упомянутой мультимодальной гиперповерхности, унифицированный формирователь луча сначала заменяет непосредственную многомерную оптимизацию для вычисления весовой матрицы путем синтеза диаграммы направленности, минимизирующей ошибку, после чего выполняется одномерный поиск в направлении оптимальной фокусной ширины луча. Здесь можно использовать любой стандартный способ минимизации ошибки, такой как, например, вычисления по методу наименьших квадратов или по минимуму среднеквадратичной ошибки (MMSE), вычисления минимальной абсолютной ошибки, вычисления минимаксной ошибки, решения с равномерной пульсацией и т.д.
В общем случае при нахождении оптимального решения для весовой матрицы уравновешиваются два противоречивых эффекта. В частности, если задана узко сфокусированная область для формы луча, то энергия шума окружающей среды будет естественным образом уменьшаться по мере удаленности. Вдобавок, некоррелированный шум (в том числе шум электрических цепей) будет естественным образом возрастать, поскольку решение для более точной направленности рассматривает все меньшие и меньшие различия по фазе между выходными сигналами от микрофонов, в результате чего некоррелированный шум усиливается. Наоборот, чем больше намеченная фокусная область формы луча, тем, естественно, будет больше энергия шума окружающей среды, но будет меньше энергия некоррелированного шума.
Таким образом, унифицированный формирователь луча учитывает баланс вышеотмеченных факторов при вычислении минимальной ошибки для конкретной ширины фокусной области для определения оптимального решения для взвешивания каждой полосы частот MCLT для каждого микрофона в решетке. Затем определяется оптимальное решение посредством синтеза диаграммы направленности, который определяет веса, удовлетворяющие требованию метода наименьших квадратов (или другого метода минимизации ошибки) для конкретных форм намеченного луча. К счастью, рассматривая проблему таким образом, ее можно разрешить, используя численное решение линейной системы уравнений, которое получается значительно быстрее, чем многомерная оптимизация. Заметим, что, поскольку такое оптимальное решение вычисляется на основе топологии и направленности каждого отдельного микрофона в решетке, оптимальный вариант конструирования лучей, даже для каждой конкретной полосы частот, будет зависеть от намеченной фокусной точки для любого данного луча вокруг микрофонной решетки.
В частности, в процессе конструирования, выполняемого формирователем луча, сначала определяется набор «форм намеченного луча» в зависимости от ширины требуемой фокусной области намеченного луча (то есть 2 градуса, 5 градусов, 10 градусов и т.д.). В общем случае для определения формы намеченного луча можно использовать любую стандартную функцию, которая имеет максимум, равный единице, и снижается до нуля, такие как, например, прямоугольные функции, скачкообразные функции, косинусные функции и т.д. Однако скачкообразные функции, такие как прямоугольные функции, могут вызвать пульсации формы луча. Следовательно, более хорошие результаты обычно достигаются при использовании функций, которые плавно уменьшаются от единицы до нуля, такие как, например, косинусные функции. Однако здесь можно использовать любую требуемую функцию в свете вышеупомянутых ограничений затухающей функции (линейной или нелинейной) от единицы до нуля, или некоторую затухающую функцию, которую взвешивают для приведения уровней к значениям в диапазоне от единицы до нуля.
Если заданы формы намеченного луча, то тогда определяется «намеченная весовая функция» для выяснения того, находится ли каждая намеченная или фокусная точка в, вне или внутри переходной области конкретной формы намеченного луча. Обычно для получения хороших результатов рассматривается переходная область, превышающая ширину намеченного луча примерно в один - три раза; однако оптимальный размер переходной области в действительности зависит от типов датчиков в решетке и от окружающей среды в рабочем пространстве вокруг решетки датчиков. Заметим, что фокусные точки - это просто несколько точек (целесообразно, чтобы их было больше, чем количество микрофонов), которые равномерно распределены по всему рабочему пространству вокруг решетки (то есть используется равномерное круговое рассредоточение для кольцевой решетки или равномерное дугообразное рассредоточение для линейной решетки). Затем намеченные весовые функции обеспечивают усиление для взвешивания каждой намеченной точки в зависимости от того, как эти точки расположены относительно конкретного намеченного луча.
Целью создания намеченных весовых функций является минимизация воздействия сигналов, исходящих из точек вне основного луча, на вычисления, выполняемые формирователем луча. Таким образом, в проверенном варианте осуществления изобретения намеченным точкам внутри намеченного луча было присвоено значение усиления, равное 1,0 (единичное усиление); намеченным точкам в переходной области было присвоено значение усиления, равное 0,1, для минимизации воздействии указанных точек на вычисления для формирования луча с учетом их воздействия; наконец, точкам вне переходной области намеченного луча было присвоено значение усиления, равное 2,0, чтобы более полно учесть и существенно уменьшить амплитуды боковых лепестков на окончательно сконструированных лучах. Заметим, что при использовании слишком большого значения усиления для намеченных точек вне переходной области можно получить эффект снижения влияния намеченных точек, находящихся внутри намеченного луча, что приведет к неоптимальным результатам вычислений для формирования луча.
Далее, если заданы форма намеченного луча и намеченные весовые функции, то следующим шагом будет вычисление набора весов, который обеспечит подгонку реальных форм луча (с использованием известных диаграмм направленности каждого микрофона в решетке в качестве реальных форм луча) к форме намеченного луча для каждой намеченной точки путем использования способа минимизации ошибки для минимизации общей энергии шума для каждого частотного поддиапазона MCLT для каждой формы намеченного луча. Решение, являющееся результатом этого вычисления, представляет собой набор весов, которые согласовывают реальную форму луча с формой намеченного луча. Однако необязательно, чтобы этот набор весов удовлетворял вышеупомянутым ограничениям, состоящим в единичном усилении и нулевом сдвиге по фазе, в фокусной точке для каждой рабочей полосы частот. Другими словами, начальный набор весов может обеспечить усиление, большее или меньшее единицы для источника звука внутри луча. Таким образом, вычисленные веса нормализуют так, чтобы единичное усиление и нулевой сдвиг по фазе были у любых сигналов, исходящих из фокусной точки.
В этот момент унифицированный формирователь луча еще не учел полную минимизацию полной энергии шума в функции ширины луча. Таким образом, в отличие от простого вычисления весов для одной требуемой ширины намеченного луча, как было описано выше, вычисляют нормализованные веса для диапазона значений ширины намеченного луча от некоторого заданного минимального требуемого угла до некоторого заданного максимального требуемого угла. Размер шага ширины луча может быть либо маленьким, либо большим в зависимости от потребности (то есть можно использовать размеры шагов 0,5, 1, 2, 5, 10 градусов или любой другой размер шага по желанию).
Затем для определения оптимальной ширины луча для каждой полосы частот используют одномерную оптимизацию. Можно использовать любой из нескольких хорошо известных способов нелинейной функциональной оптимизации, таких как методы градиентного спуска, поисковые методы и т.д. Другими словами, общую энергию шума вычисляют для каждой ширины намеченного луча по всему диапазону значений ширины намеченного луча, используя любой требуемый размер углового шага. Затем эти значения общей энергии шума просто сравнивают между собой для определения ширины луча на каждой частоте, где имеет место минимальная общая энергия шума для этой частоты. Окончательным результатом является оптимизированная ширина луча, которая является функцией частоты для каждой намеченной точки вокруг решетки датчиков.
Заметим, что в одном варианте осуществления изобретения эта минимальная общая энергия шума рассматривается как функция конкретных частотных диапазонов, при этом не предполагается, что шум должен быть равномерно ослаблен по всем частотным диапазонам. В частности, в некоторых случаях желательно минимизировать общую энергию шума только в некоторых частотных диапазонах или еще более ослабить шум в конкретных частотных диапазонах. В указанных случаях эти конкретные частотные диапазоны в первую очередь принимаются во внимание при идентификации ширины намеченного луча с минимальной энергией шума. Один из способов определения того, является ли шум более заметным в каком-либо конкретном частотном диапазоне, состоит просто в выполнении стандартного частотного анализа, чтобы определить уровни энергии шума для конкретных частотных диапазонов. Затем частотным диапазонам с особенно высокими уровнями энергии шума присваивают большие веса, чтобы увеличить их влияние на общие вычисления для формирования луча, что дает большее затухание шума в указанных частотных диапазонах.
Затем нормализованные веса для ширины луча, имеющей минимальную общую энергию шума на каждом частотном уровне, вводят в вышеупомянутую весовую матрицу. Далее рабочее пространство делят на несколько угловых зон в соответствии с оптимальной шириной луча для любой данной частоты относительно намеченной точки, на которую направлен луч. Заметим, что лучи направляют с использованием стандартных способов, таких как, например, локализация источника звука (SSL). Направление указанных лучей на конкретные точки вокруг решетки является концепцией, хорошо известной специалистам в данной области техники, которая здесь подробно не описывается.
Кроме того, следует заметить, что для конкретных приложений может потребоваться некоторая степень перекрытия лучей для обеспечения более качественной локализации источника сигнала. В указанных случаях для определения количества лучей, необходимых для обеспечения полного покрытия требуемого рабочего пространства, просто используют величину требуемого перекрытия между лучами. Один пример применения перекрытия лучей предложен в одновременно рассматриваемой патентной заявке «A SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF LOCALIZATION ESTIMATES», поданной 1 марта 2004 года с присвоенным серийным номером 10/791252, содержание которой включено сюда по ссылке. Таким образом, если, например, требуется 50-процентное перекрытие лучей, то количество лучей будет удвоено, и, если использовать вышеупомянутый пример ширины луча в 20 градусов на конкретной частоте для кругового рабочего пространства, то рабочее пространство будет разделено на 36 перекрывающихся 20-градусных лучей, а не только 18 лучей.
В еще одном варианте унифицированного формирователя луча процесс формирования луча может развиваться в функции времени. В частности, как было замечено выше, весовую матрицу и оптимальные значения ширины луча вычисляют частично на основе моделей шума, вычисляемых для рабочего пространства вокруг микрофонной решетки. Однако должно быть ясно, что уровни и источники шума часто изменяются в функции времени. Следовательно, в одном варианте осуществления изобретения моделирование шума внешней среды в рабочем пространстве выполняется либо непрерывно, либо с регулярными интервалами или интервалами, задаваемыми пользователем. Если заданы новые модели шума, то вышеописанные процессы формирования лучей используют затем для автоматического обновления набора оптимальных лучей для данного рабочего пространства.
Заметим, что в одном варианте унифицированный формирователь луча реализован как компьютерный процесс полностью в микрофонной решетке, причем сама микрофонная решетка принимает необработанные входные аудиосигналы от различных микрофонов, а затем предоставляет обработанные выходные аудиосигналы. В этом варианте микрофонная решетка включает в себя интегральный компьютерный процессор, который обеспечивает выполнение описанных здесь способов обработки, связанной с формированием лучей. Однако микрофонные решетки с интегрированными возможностями компьютерной обработки оказываются значительно дороже, чем в случае, когда возможности компьютерной обработки реализуются вне микрофонной решетки, то есть когда микрофонная решетка включает в себя только микрофоны, предусилители, аналого-цифровые преобразователи и некоторые средства для соединения с внешним вычислительным устройством, таким как, например, персональный компьютер.
Таким образом, для решения этой проблемы в одном варианте осуществления изобретения микрофонная решетка просто содержит достаточный набор компонентов для приема аудиосигналов от каждой микрофонной решетки и подачи этих сигналов во внешнее вычислительное устройство, которое затем реализует описанные здесь процессы формирования лучей. В этом варианте драйверы устройств или файлы описания устройств, которые содержат данные, определяющие рабочие характеристики микрофонной решетки, такие как усиление, чувствительность, топология решетки и т.д., обеспечиваются для микрофонной решетки по отдельности, так что унифицированный формирователь луча, находящийся во внешнем вычислительном устройстве, может автоматически конструировать набор лучей, которые автоматически оптимизируются для данной конкретной микрофонной решетки согласно описанным здесь системе и способу.
В родственном варианте микрофонная решетка включает в себя механизм для автоматической передачи сообщения о своей конфигурации и рабочих параметрах на внешнее вычислительное устройство. В частности, в этом варианте микрофонная решетка включает в себя считываемый компьютером файл или таблицу, находящуюся в памяти микрофонной решетки, такой как, например, ПЗУ, программируемое ПЗУ, стираемое программируемое ПЗУ, электрически стираемое программируемое ПЗУ или другой стандартной памяти, которая содержит описание устройства микрофонной решетки. Это описание устройства включает в себя параметрическую информацию, которая определяет рабочие характеристики и конфигурацию микрофонной решетки.
В этом варианте микрофонная решетка, будучи подсоединенная к внешнему вычислительному устройству, предоставляет описание своего устройства внешнему вычислительному устройству, которое затем использует унифицированный формирователь луча для автоматического создания набора лучей, автоматически оптимизированных для подсоединенной микрофонной решетки. Кроме того, унифицированный формирователь луча, работающий во внешнем вычислительном устройстве, выполняет затем все операции по формированию лучей вне микрофонной решетки. Этот механизм для автоматической передачи сообщения о конфигурации и рабочих параметрах микрофонной решетки на внешнее вычислительное устройство подробно описан в одновременно рассматриваемой патентной заявке «SELF-DESCRIPTIVE MICROPHONE ARRAY», поданной 9 февраля 2004 года, которой присвоен порядковый номер 10/775371 и содержание которой включено сюда по ссылке.
В еще одном родственном варианте микрофонная решетка снабжена интегральной системой самокалибровки, которая автоматически определяет характеристики каждого предусилителя в микрофонной решетке в частотной области, а затем вычисляет значения компенсационного усиления в частотной области, так что унифицированный формирователь луча может использовать эти значения компенсационного усиления для согласования выходного сигнала каждого предусилителя. В результате отпадает необходимость в предварительном определении точных рабочих характеристик каждого канала микрофонной решетки или использовании дорогих согласованных электронных компонентов.
В частности, в этом варианте интегральная система самокалибровки вводит импульсы возбуждения с известной амплитудой и фазой во все входные сигналы предусилителей в микрофонной решетке. Затем измеряется результирующий аналоговый сигнал на выходе каждого предусилителя. После этого выполняется частотный анализ, такой как, например, быстрое преобразование Фурье (FFT) или другой стандартный частотный анализ каждого из результирующих сигналов. Затем результаты частотного анализа используются для вычисления значений компенсационного усиления в частотной области для каждого предусилителя с целью согласования или выравнивания характеристик всех предусилителей друг относительно друга. Эта интегральная система самокалибровки подробно описана в одновременно рассматриваемой патентной заявке «ANALOG PREAMPLIFIER MEASUREMENT FOR A MICROPHONE ARRAY», поданной 4 февраля 2004 года, которой присвоен порядковый номер 10/772528 и содержание которой включено сюда по ссылке.
2.2 Архитектура системы
Описанные выше процессы показаны на общей схеме системы на Фиг.2. В частности, на схеме системы по Фиг.2 показаны взаимосвязи между программными модулями для реализации унифицированного формирователя луча для автоматизированного конструирования набора оптимизированных лучей для микрофонных решеток с произвольной топологией. Следует заметить, что любые блоки и взаимосвязи между блоками, которые представлены прерывистыми или пунктирными линиями на Фиг.2, представляют альтернативные варианты описанного здесь унифицированного формирователя луча, причем любые или все альтернативные варианты, описанные ниже, можно использовать в сочетании с другими альтернативными вариантами, которые описаны в этом документе.
В общем случае унифицированный формирователь луча предназначен для конструирования оптимизированных лучей для микрофонных или других решеток из датчиков с известной топологией и известными рабочими характеристиками. Кроме того, эти лучи оптимизируют применительно к локальной окружающей среде. Другими словами, оптимизация лучей автоматически приспосабливается к топологии решетки, рабочим характеристикам решетки и среде, окружающей рабочее пространство (в том числе воздействиям шума внешней среды или изотропного шума в области, окружающей микрофонную решетку, а также аппаратного шума микрофонной решетки) в функции частоты сигнала.
Работа унифицированного формирователя луча начинается с использования каждого из множества датчиков, формирующих решетку 200 датчиков, такую как микрофонная решетка, для контроля уровней шума (внешней среды или изотропного, от точечного источника и аппаратурного) в локальной среде, окружающей решетку датчиков. Затем контролируемый шум от каждого датчика М в решетке 200 датчиков подается в качестве входного сигнала хМ(n) в модуль 205 ввода сигналов в функции времени.
Следующий шаг включает в себя вычисление одной или нескольких моделей шума на основе измеренных уровней шума в локальной среде, окружающей решетку 200 датчиков. Однако в одном варианте для преобразования кадров входного сигнала из временной области в частотную область сначала используют модуль 210 декомпозиции частотной области. Следует заметить, что описанные здесь операции формирования лучей можно выполнить с использованием фильтров, которые работают либо во временной области, либо в частотной области. Однако для упрощения вычислений, облегчения интеграции с другими элементами обработки аудиосигналов и дополнительной гибкости, как правило, выгоднее выполнять обработку сигналов в частотной области.
Для обработки сигналов в частотной области можно использовать множество возможных инструментов, в том числе, например, дискретное преобразование Фурье, которое обычно реализуется через быстрое преобразование Фурье (FFT). Кроме того, один вариант унифицированного формирователя луча обеспечивает обработку в частотной области с использованием модулированного комплексного преобразования с перекрытием (MCLT). Заметим, что последующее обсуждение будет сфокусировано только на использовании преобразований MCLT, а не на описании использования обработки во временной области или использования других способов обработки в частотной области, таких как FFT. Однако специалистам в данной области техники должно быть очевидно, что способы, описанные применительно к использованию MCLT, можно легко адаптировать для других способов обработки в частотной области или во временной области, и что здесь не подразумевается, что описанный унифицированный формирователь лучей может при обработке использовать только MCLT.
Таким образом, если предположить, что используются преобразования сигналов MCLT, то модуль 210 декомпозиции в частотной области преобразует кадры входного сигнала (представляющие входные сигналы от каждого датчика в решетке) из временной области в частотную область для создания N коэффициентов MCLT, ХМ (N), для каждого входного сигнала датчика хМ(n). Затем модуль 215 расчета модели шума выполняет расчет стандартных моделей шума, представляющих шум локальной окружающей среды вокруг решетки 200 датчиков, используя любой из ряда хорошо известных способов моделирования шума. Однако следует заметить, что расчет моделей шума может быть опущен для некоторых кадров сигнала, если это потребуется.
В общем случае здесь рассматривается несколько типов моделей шума, в том числе шума внешней среды или изотропного шума в области, окружающей решетку 200 датчиков, аппаратного шума от схем решетки датчиков и точечных источников шума. Поскольку указанные способы моделирования шума хорошо известны специалистам в данной области техники, они здесь подробно не описываются. Сразу после того, как модуль 215 расчета моделей шума выполнил расчеты моделей шума на основе входных сигналов, эти модели шума подаются в модуль 220 вычисления весов. В одном варианте расход вычислительных ресурсов уменьшают, предварительно рассчитывая модели шума в автономном режиме и используя эти фиксированные модели; например, просто предполагая, что имеются изотропные шумы (с равной энергией от любого направления и с конкретной формой частотного спектра).
Вдобавок к моделям шума модуль 220 вычисления весов также получает параметрическую информацию 230 о решетке датчиков, которая определяет топологию и рабочие характеристики (включая диаграммы направленности) решетки 200 датчиков. Например, при рассмотрении микрофонной решетки параметрическая информация, предоставляемая унифицированному формирователю луча, определяет решетку из М датчиков (микрофонов), причем каждый датчик имеет известный вектор положения и диаграмму направленности. Как известно специалистам в данной области техники, диаграмма направленности - это комплексная функция, описывающая чувствительность и фазовый сдвиг, вносимый микрофоном, для звуков, приходящих из определенных мест.
Заметим, что не требуется, чтобы в микрофонной решетке использовались микрофоны одинакового типа или направленности, если только известны положение и направленность каждого микрофона. Кроме того, как отмечалось выше, в одном варианте эта параметрическая информация 230 о решетке датчиков предусмотрена в файле описания устройства или драйвере устройства или т.п. Также, как отмечалось выше, в родственном варианте эта параметрическая информация поддерживается в самой микрофонной решетке, причем она автоматически сообщается внешнему вычислительному устройству, которое затем действует как унифицированный формирователь луча вышеописанным образом.
Кроме того, вдобавок к моделям шума и параметрической информации 230 о решетке датчиков модуль 220 вычисления весов также получает от модуля 230 определения формы намеченного луча входные данные о «формах намеченных лучей» и соответствующих «намеченных весовых функциях». Функция формы намеченного луча и намеченная весовая функция автоматически обеспечиваются модулем 225 определения формы намеченного луча. В общем случае, как было отмечено выше, модуль 230 определения формы намеченного луча определяет набор «форм намеченного луча» в функции некоторой требуемой фокусной области с шириной намеченного луча вокруг каждой из нескольких намеченных фокусных точек. Как отмечалось выше, определение оптимальной формы намеченного луча лучше всего достигается в виде итеративного процесса путем создания форм намеченного луча и соответствующих намеченных весовых функций в некотором требуемом диапазоне значений намеченного луча (то есть в 2 градуса, 5 градусов, 10 градусов и т.д.) для каждой частоты или полосы частот, представляющих интерес.
В общем случае количество намеченных фокусных точек, используемых для вычислений, связанных с формированием лучей, должно быть больше количества датчиков в решетке 200 датчиков, и, в действительности, чем больше это число, тем выше разрешение при формировании луча. В частности, количество намеченных фокусных точек L выбирают так, чтобы оно было больше количества датчиков М. Затем эти намеченные фокусные точки равномерно распределяют в рабочем пространстве вокруг решетки датчиков для вычислений, необходимых для формирования лучей. Например, в проверенном варианте для круговой микрофонной решетки с 8-ю микрофонами М было выбрано 500 намеченных фокусных точек L. Затем эти намеченные фокусные точки оценивают по отдельности, чтобы определить, находятся ли они в фокусной области с шириной намеченного луча, в «переходной области» вокруг фокусной области с шириной намеченного луча или вне фокусной области с шириной намеченного луча и вне переходной области. Затем для каждой фокусной точки в зависимости от ее положения относительно анализируемого в данный момент луча используют соответствующие значения усиления, обеспеченные намеченными весовыми функциями.
В частотности, вышеупомянутые намеченные весовые функции определяют как набор трех параметров взвешивания, VPass, VTrans и VStop, которые соответствуют тому, находится ли намеченная фокусная точка внутри формы намеченного луча (VPass), в «переходной области» вокруг намеченной фокусной точки (VTrans ) или полностью вне формы намеченного луча и переходной области (VStop). Заметим, что переходная область определяется некоторой величиной дельта вокруг периметра формы намеченного луча. Например, в проверенном варианте для определения переходной зоны была использована величина дельта, в три раза превышающая ширину намеченного луча. Таким образом, если предположить, что ширина луча вокруг фокусной точки составляет ±10 градусов, а величина дельта в три раза превышает ширину намеченного луча, то переходная область начнется с отклонением ±10 градусов от намеченной точки и простирается до ±40 градусов от намеченной точки. Тогда в этом примере все, что находится вне ±40 градусов вокруг намеченной точки, окажется в стоп-области (VStop ). Затем намеченные весовые функции обеспечивают усиление для взвешивания каждой намеченной точки в зависимости от того, где находятся эти точки относительно конкретного намеченного луча.
В этот момент модуль 220 вычисления весов обеспечен формами намеченных лучей, намеченной весовой функцией, набором намеченных точек, вычисленными моделями шума и диаграммами направленности микрофонов в микрофонной решетке. Если задана эта информация, то модуль 220 вычисления весов затем вычисляет набор весов для каждого микрофона, которые обеспечат подгонку каждой реальной формы луча (с использованием известных диаграмм направленности каждого микрофона в решетке как реальных форм луча) к текущей форме намеченного луча для каждой намеченной точки для текущего частотного поддиапазона MCLT. Заметим, что в описанном ниже Разделе 3 этот набор весов оптимизируют с использованием способа минимизации ошибки для выбора весов, которые минимизируют общую энергию шума для текущего частотного поддиапазона MCLT.
Затем модуль 235 нормализации весов нормализует оптимизированный набор весов для каждой формы намеченного луча, чтобы гарантировать единичное усиление и нулевой сдвиг по фазе для любых сигналов, исходящих из намеченной точки, в соответствии с каждой формой намеченного луча.
Далее вышеописанные шаги повторяются для каждой формы из перечня форм намеченного луча. Другими словами, вышеописанные шаги для создания набора оптимизированных нормализованных весов для конкретной формы намеченного луча повторяются по всему требуемому диапазону углов луча с использованием любого требуемого размера шага. Например, если заданный размер шага составляет 5 градусов, минимальный угол составляет 10 градусов, а максимальный угол составляет 60 градусов, то оптимизированные нормализованные веса будут вычислены для каждой намеченной формы в диапазоне от 10 градусов до 60 градусов с приращениями в 5 градусов. В результате запомненные намеченные лучи и веса 240 будут включать в себя оптимизированные нормализованные веса и формы луча по всему требуемому диапазону форм намеченного луча для каждой намеченной точки и текущего частотного поддиапазона MCLT.
Затем модуль 245 сравнения общей энергии шума вычисляет общую энергию шума, выполняя простой одномерный поиск по всем запомненным намеченным лучам и весам 240 для идентификации формы луча (то есть угла луча) и соответствующих весов, которые обеспечивают минимальную общую энергию шума вокруг каждой намеченной точки в текущем поддиапазоне MCLT. Затем эти формы луча и соответствующие веса выводятся модулем 250 матрицы оптимизированных лучей и весов в качестве входных данных в матрицу 255 оптимальных лучей и весов, которая соответствует текущему поддиапазону MCLT.
Затем заполняется матрица 255 оптимальных лучей и весов путем повторения вышеописанных шагов для каждого поддиапазона MCLT. В частности, для каждого поддиапазона MCLT унифицированный формирователь луча по отдельности создает набор оптимизированных нормализованных весов для каждой формы намеченного луча по всему требуемому диапазону углов луча. Далее, как было описано выше, унифицированный формирователь луча выполняет поиск этих запомненных форм намеченного луча и весов для идентификации форм луча и соответствующих весов, которые обеспечивают минимальную общую энергию шума вокруг каждой намеченной точки для каждого поддиапазона MCLT, причем формы луча и соответствующие веса запоминаются затем в матрице 255 оптимальных лучей и весов, описанной выше.
Заметим, что за исключением случая идеально однородных датчиков, таких как всенаправленные микрофоны, каждый датчик в решетке 200 датчиков может отличаться по своей направленности. Кроме того, в одной и той же решетке 200 датчиков могут находиться датчики различных типов, а значит, с разной направленностью. Таким образом, оптимальные формы луча (то есть те формы луча, которые дают минимальную общую энергию шума), определенные в матрице 255 оптимальных лучей и весов, необходимо рассчитать повторно для согласования с датчиками, имеющими другие диаграммы направленности.
3.0 Операционный обзор
Вышеописанные программные модули используют для реализации описанного здесь унифицированного формирователя луча. Как было описано выше, система и способ на основе унифицированного формирователя луча автоматически определяют набор оптимальных лучей в зависимости от намеченной точки и частоты в рабочем пространстве вокруг решетки датчиков и в соответствии с локальными условиями шума вокруг решетки датчиков. В последующих разделах подробно обсуждаются примеры способов реализации вышеупомянутых программных модулей. Заметим, что термины «фокусная точка», «намеченная точка» и «намеченная фокусная точка» во всем последующем обсуждении используются как взаимозаменяемые.
3.1 Исходные соображения
Далее обсуждается использование унифицированного формирователя луча для определения набора оптимизированных лучей для произвольной микрофонной решетки, но с известной топологией и рабочими характеристиками. Однако, как отмечалось выше, описанный здесь унифицированный формирователь луча можно легко приспособить для использования с решетками датчиков других типов.
Вдобавок, описанный здесь унифицированный формирователь луча можно приспособить для использования с фильтрами, которые работают либо во временной области, либо в частотной области. Однако, как отмечалось выше, выполнение обработки, связанной с формированием лучей в частотной области, упрощает вычисления, облегчает интеграцию с другими элементами для обработки аудиосигналов и обеспечивает дополнительную гибкость.
В одном варианте унифицированный формирователь луча использует модулированное комплексное преобразование с перекрытием (MCLT) при конструировании лучей благодаря преимуществам MCLT для интеграции с другими компонентами для обработки аудиосигналов, такими как модели уплотнения аудиосигналов. Однако, как отмечалось выше, описанные здесь способы можно легко адаптировать для использования с другими вариантами декомпозиции в частотной области, такими как, например, FFT или гребенки фильтров на основе FFT.
3.1.1 Топология и характеристики решетки датчиков
Как отмечалось выше, унифицированный формирователь луча способен обеспечить оптимизированную схему лучей для микрофонных решеток с любой известной топологией и известными рабочими характеристиками. В частности, рассмотрим решетку из М микрофонов с известным вектором положения . Микрофоны в решетке производят выборку поля сигнала в рабочем пространстве вокруг решетки с координатами , где m=0,1, ,M-1. В процессе выборки получают набор сигналов, которые обозначаются вектором сигнала.
Кроме того, каждый микрофон m имеет известную диаграмму направленности , где f - частота, а представляет координаты источника звука в радиальной системе координат. Аналогичная форма записи будет использована для представления тех же самых координат в прямоугольной системе координат, в данном случае . Как известно специалистам в данной области техники, диаграмма направленности микрофона является комплексной функцией, которая обеспечивает чувствительность и фазовый сдвиг, наведенный микрофоном для звуков, приходящих от определенных мест или направлений. Для идеального всенаправленного микрофона =const. Однако, как отмечалось выше, в микрофонной решетке могут использоваться микрофоны другого типа и с другими диаграммами направленности без потери общности унифицированного формирователя луча.
3.1.2 Описания сигнала
Как известно специалистам в данной области техники, звуковой сигнал, возникающий в конкретном месте с относительно микрофонной решетки, подвергается воздействию нескольких факторов. Например, если задан звуковой сигнал , возникающий в точке с, то этот сигнал, действительно фиксируемый каждым микрофоном, может быть определен уравнением (1), как показано ниже:
Уравнение (1),
где первый член , определяемый приведенным ниже уравнением (2), представляет фазовый сдвиг и затухание сигнала из-за расстояния от точки с до микрофона. Заметим, что любым затуханием сигнала из-за потерь энергии в воздухе пренебрегают, так как оно значительно меньше для рабочих расстояний, обычно характерных для микрофонных решеток. Однако указанные потери могут быть более значительными, когда речь идет о больших расстояниях или когда используются другие типы датчиков, другая несущая среда (то есть вода или другие жидкости) или другие типы сигнала.
Уравнение (2)
Второй член уравнения (1) представляет частотную характеристику предусилителя/схем АЦП микрофонной решетки для каждого микрофона m. Третий член уравнения (1) учитывает направленность микрофона относительно точки с. Наконец, как отмечалось выше, четвертый член уравнения (1) - это сам действительный сигнал.
3.1.3 Модели шума
Если задан зафиксированный сигнал , то первой задачей является расчет моделей шума для моделирования различных типов шума в локальной внешней среде микрофонной решетки. В описанных здесь моделях шума различают три типа шума: изотропный шум внешней среды, аппаратный шум и источники точечного шума. Моделирование источников шума как во временной, так и в частотной областях, хорошо известно специалистам в данной области техники. Поэтому рассмотренные типы моделей шума описываются ниже только в общем виде.
В частности, предполагается, что изотропный шум внешней среды, имеющий спектр, обозначенный членом NA(f), равномерно распределен по всему рабочему объему или рабочему пространству вокруг микрофонной решетки. Этот изотропный шум внешней среды, NA (f), коррелируется во всех каналах и фиксируется микрофонной решеткой согласно уравнению (1). В проверенном варианте модель шума NA(f) была получена путем непосредственной выборки и усреднения шума при нормальных условиях, то есть шум внешней среды в офисном помещении или помещении для конференций, где должен был использоваться микрофон.
Кроме того, аппаратный шум, имеющий спектр, обозначенный как N I(f), представляет шум электрических цепей от схем микрофона, предусилителя и АЦП (аналого-цифровое преобразование). Аппаратный шум NI(f) не коррелируется во всех каналах и обычно имеет спектр, близкий к спектру белого шума. В проверенном варианте модель шума NI (f) была получена путем непосредственной выборки и усреднения сигналов микрофонов решетки в «идеальном помещении» без шума и реверберации (так что шумы поступают только от схем микрофонов и предусилителей.
Шум третьего типа поступает от отдельных точечных источников, которые, как считается, создают шум. Например, точечные источники шума могут включать в себя звуки, исходящие, например, от компьютерного вентилятора, второго говорящего субъекта, который должен быть подавлен, и т.д.
3.1.4 Каноническая форма унифицированного формирователя луча
Как должно быть ясно из предшествующего обсуждения, описанные здесь операции конструирования лучей действуют в цифровой области, а не прямо в области аналоговых сигналов, непосредственно принимаемых микрофонной решеткой. Следовательно, любые аудиосигналы, зафиксированные микрофонной решеткой, сначала оцифровывают с использованием стандартных способов аналого-цифрового преобразования. Чтобы избежать ненужных эффектов от наложения спектров, аудиосигнал целесообразно переработать в кадры, более чем в два раза превышающие длительность периода минимальной частоты в рабочей полосе MCLT.
При наличии указанного цифрового сигнала открывается возможность непосредственного использования информации о сконструированной схеме лучей, созданной в ходе описанных здесь операций унифицированного формирователя луча. В частности, использование сконструированных лучей для создания выходного аудиосигнала для конкретной намеченной точки на основе общего входного сигнала микрофонной решетки может быть в общем случае описано в виде комбинации взвешенных сумм входных аудиокадров, зафиксированных микрофонной решеткой. В частности, выходной сигнал конкретного луча, сконструированного унифицированным формирователем луча, может быть представлен уравнением (3):
Уравнение (3)
где Wm (f) - матрица весов W весов для каждого датчика для намеченной точки, представляющей интерес, а Y(f) - выход формирователя луча, представляющий оптимальное решение для фиксации аудиосигнала в этой намеченной точке с использованием общего входного сигнала микрофонной решетки. Как было описано выше, набор векторов - это матрица NxM, где N - количество элементов разрешения по частоте в аудиокадре, а M - количество микрофонов. Таким образом, как показано в уравнении (3), эта каноническая форма формирователя луча гарантирует линейную обработку и отсутствие нелинейных искажений в выходном сигнале Y(f). Блок-схема этого канонического формирователя луча представлена на Фиг.3.
Для каждого набора весов имеется соответствующая функция формы луча, которая обеспечивает направленность формирователя луча. В частности, функция формы луча представляет комплексное значение усиления микрофонной решетки в функции положения источника звука и задается уравнением (4):
Специалистам в данной области техники должно быть очевидно, что общая схема на Фиг.3 может быть легко расширена для адаптации к более сложным системам. Например, лучи, сконструированные унифицированным формирователем луча, можно использовать в нескольких системах, в том числе, например, в системах локализации источника звука (SSL), системах подавления акустического эхо-сигнала (AEC), системах непосредственной фильтрации, системах избирательной фиксации сигналов и т.д. Кроме того, также должно быть ясно, что при необходимости любые из указанных систем могут быть объединены.
3.1.5 Параметры формирователя луча
Как известно специалистам в данной области техники, одной из целей использования микрофонных решеток является улучшение отношения сигнал-шум (SNR) для сигналов, исходящих из конкретных точек пространства, или с конкретных направлений, благодаря преимуществу, состоящему в направленных возможностях (то есть «направленности») указанных решеток. Проанализировав характеристики различных типов шума, а затем обеспечив автоматическую компенсацию указанного шума, унифицированный формирователь луча дополнительно повышает SNR для зафиксированных аудиосигналов. Как отмечалось выше, унифицированный формирователь луча учитывает шум трех типов. В частности, учитывается изотропный шум внешней среды, аппаратный шум и шум точечного источника.
3.1.5.1 Соображения по поводу шума для формирователя луча
Усиление шума внешней среды моделируется в функции объема общего луча микрофонной решетки в конкретном рабочем пространстве. Эта модель шума показана в виде уравнения (5), которое просто показывает, что усиление для шума внешней среды вычисляют по всему объему комбинированного луча, представленного решеткой в целом как:
Уравнение (5)
Где V - рабочий объем микрофонной решетки, то есть набор всех координат с.
Усиление аппаратного или некоррелированного шума микрофонной решетки и предусилителей для любой конкретной намеченной точки моделируется просто как сумма усилений, полученных из весов, присвоенных микрофонам в решетке в соответствии с этой намеченной точкой. В частности, как показано в уравнении (6), усиление некоррелированного шума от микрофонов и предусилителей задается в виде:
Уравнение (6)
Наконец, значения усиления для источников точечного шума задаются просто усилением, связанным с формой луча для конкретного луча. Другими словами, усиление для источника шума в точке с задается просто усилением для формы луча .
Принимая во внимание значения усиления, связанные с различными типами шума, общая энергия шума на выходе формирователя луча задается уравнением (7):
3.1.5.2 Соображения о направленности для формирователя луча
Вдобавок к учету воздействий шума унифицированный формирователь луча также определяет направленность микрофонной решетки, являющуюся результатом реализации схем, сконструированных унифицированным формирователем луча. В частности, коэффициент направленности DI микрофонной решетки может быть описан уравнениями с (8) по (10), показанными ниже.
Уравнение (8)
Уравнение(9)
Уравнение (10)
Где называется «диаграмма направленности по мощности», - среднее расстояние (глубина) рабочего объема, а ( ) - направление для управления положением.
3.2 Описание проблем и ограничения
В общем случае перед унифицированным формирователем луча при конструировании оптимальных лучей для микрофонной решетки встают две основные проблемы:
1. Вычисление вышеупомянутой решетки весов W для любой требуемой фокусной точки с Т, используемой в формирователе луча, как показано в уравнении (3); и
2. Обеспечение максимального подавления шума, то есть минимизации общей энергии шума (смотри, например, уравнение (7)) в выходном сигнале при ограничениях, состоящих в единичном усилении и нулевом сдвиге по фазе в фокусной точке для полосы рабочих частот. Эти ограничения показаны в уравнении (11) в следующем виде:
для Уравнение (11)
где и представляют границы полосы рабочих частот.
Эти ограничения, состоящие в единичном усилении и нулевом сдвиге по фазе в фокусной или намеченной точке, применяются к области вокруг фокусной точки, называемой фокусной шириной. Если заданы вышеупомянутые модели шума, то общее решение сформулированных выше проблем аналогично типовой задаче минимизации с ограничениями, которая может быть решена с использованием методов математической многомерной оптимизации (то есть симплекс-метода, метода градиентов и т.д.). К сожалению, из-за большой размерности решетки весов W (2M действительных чисел на полосу частот, а всего Nx2M чисел), мультимодальная гиперповерхность, а значит, и функции оказываются нелинейными, и нахождение оптимальных весов в виде точек на мультимодальной гиперповерхности будет связано с очень большими затратами вычислительных ресурсов, так как для этого обычно требуется множество проверок на локальный минимум.
3.3 Решение, обеспечивающее минимизацию ошибки с низкой размерностью для матрицы весов W
Хотя имеется несколько стандартных способов, с помощью которых можно попытаться решить сформулированную выше проблему мультимодальной гиперповерхности, указанные способы обычно очень медленные, чтобы их можно было использовать в системах формирования луча, где требуется быстрый отклик на операции формирования луча. Таким образом, вместо того, чтобы попытаться непосредственно решить эту проблему, здесь предлагается непосредственная многомерная оптимизация функции, определенной уравнением (7) при ограничениях по уравнению (11) с использованием метода наименьших квадратов или другого способа минимизации ошибок, синтеза диаграммы направленности для ошибки, за которым следует одномерный поиск в направлении фокусной ширины для каждой намеченной или фокусной точки вокруг микрофонной решетки.
С учетом двух ограничений по уравнению (11) должно быть ясно, что это - два противоречивых процесса.
В частности, если задана узкая фокусная область, то первое ограничение по уравнению (11), состоящее в единичном усилении в фокусной точке, стремится повлиять на энергию шума внешней среды, показанную в уравнении (7), с целью ее уменьшения в результате улучшенной направленности, достигаемой благодаря использованию узкой фокусной области. Наоборот, если задана узкая фокусная область, то некоррелированная компонента энергии шума в уравнении (7) будет стремиться к увеличению из-за того, что решение для большей направленности пытается использовать все меньшие и меньшие различия по фазе между сигналами от микрофонов, что усиливает некоррелированный шум в схемах микрофонной решетки.
С другой стороны, когда намеченная фокусная область больше, то в этой области энергия шума внешней среды будет больше просто из-за большей ширины луча. Однако некоррелированная энергия шума спадает, поскольку различия по фазе между сигналами от микрофона становятся менее значимыми, и, поэтому, влияние шума от схем микрофонной решетки будет менее значимым.
Оптимизация этих противоречивых процессов приводит к решению для весовой матрицы для ширины фокусной области вокруг любой данной фокусной или намеченной точки, где общая энергия шума, показанная с помощью уравнения (7), минимальна. Процесс получения этого оптимального решения называется здесь «синтезом диаграммы направленности». В общем случае это решение по синтезу диаграммы направленности определяет веса для матрицы весов для оптимальной формы луча, которая минимизирует ошибку (с использованием вышеупомянутого метода наименьших квадратов или другого способа минимизации ошибки) для данной формы намеченного луча. Следовательно, решение для весовой матрицы достигается с использованием стандартных численных методов решения линейной системы уравнений. Такие численные методы позволяют получить результат значительно быстрее, чем стандартные методы многомерной оптимизации.
3.3.1 Определение набора форм намеченного луча
С точки зрения вышеописанных способов минимизации ошибки определение форм намеченного луча представляется более простой для решения проблемой. В частности, формы намеченного луча по существу являются функцией одного параметра - ширины намеченной фокусной области. Как отмечалось выше, для определения формы намеченного луча можно использовать любую функцию с максимумом, равным единице, которая падает до нуля (эта функция обеспечивает усиление в намеченном луче, то есть усиление, равное единице, в фокусной точке, которое затем снижается до нуля на границах луча). Однако скачкообразные функции, такие как прямоугольные функции, которые определяют прямоугольную намеченную область, стремятся вызвать пульсации формы луча, что ухудшает общую эффективность работы унифицированного формирователя луча. Поэтому более хорошие результаты достигаются при использовании намеченных функций формы, которые плавно переходят из единицы в нуль.
Одним из примеров плавно уменьшающейся функции, которая была найдена с целью получения хороших результатов в проверенном варианте осуществления изобретения, является стандартная функция в виде косинуса, которая показана в уравнении (12) в следующем виде:
где - это намеченная фокусная точка, - размер намеченной области, а k - коэффициент масштабирования для модификации функции формы.
Вдобавок, как отмечалось выше, вышеупомянутая намеченная весовая функция определяется в виде набора трех параметров взвешивания и , которые соответствуют случаям, когда намеченная фокусная точка находится внутри формы намеченного луча , в «переходной области» вокруг намеченной фокусной точки ( ) или целиком вне формы намеченного луча и переходной области ( ). Как более подробно обсуждалось в разделе 2.1, намеченные весовые функции обеспечивают усиление для взвешивания каждой намеченной точки в зависимости от того, где находятся эти точки относительно конкретного намеченного луча, причем целью указанного взвешивания является минимизация воздействий сигналов, исходящих от точек вне основного луча, на вычисления, выполняемые формирователем луча.
3.3.2 Синтез диаграммы направленности
Как только определены форма намеченного луча и намеченные весовые функции, можно легко определить набор весов, которые обеспечат соответствие реальной формы луча (на основе диаграмм направленности микрофонов) намеченной функции, путем удовлетворения по меньшей мере требования метода наименьших квадратов (или другого способа минимизации ошибки).
В частности, на первом шаге выбирают L точек, причем L > M, равномерно распределенных в рабочем пространстве. Затем для заданной частоты f можно определить формы T луча (смотри уравнение (12)) для данной ширины фокусной области в виде комплексного произведения намеченных весовых функций В, количества микрофонов в матрице M, сдвига по фазе и затухания D сигнала (смотри уравнение(2)), характеристик U направленности микрофонов и матрицы весов или «вектора весов» W. Это произведение может быть представлено комплексным уравнением, показанным в виде уравнения (13):
Уравнение (13)
Затем находят решение этого комплексного уравнения (то есть решение для оптимальных весов W) путем нахождения решения для минимальной средней квадратичной ошибки (MMSE) (или минимума с использованием других стандартных способов минимизации ошибки) для вектора W весов. Заметим, что этот вектор W весов обозначен ниже как
3.3.3 Нормализация весов
Решения для весов, определенные в процессе синтеза диаграммы направленности, описанного в разделе 3.3.2, согласовывают действительную диаграмму направленности каждого микрофона в решетке с требуемой формой Т луча. Однако, как отмечалось выше, эти веса пока еще не удовлетворяют ограничениям в уравнении (11). Следовательно, для решения этой проблемы веса нормализуют, чтобы обеспечить единичное усиление и нулевой сдвиг по фазе для сигналов, исходящих из фокусной точки СТ. Эта нормализация иллюстрируется уравнением (14) в следующем виде:
Уравнение (14)
где представляет оптимизированные нормализованные веса, удовлетворяющие ограничениям уравнения (11).
3.3.4 Оптимизация ширины луча
Затем, как обсуждалось выше, для каждой частоты повторяются процессы, описанные выше в разделах с 3.3.1 по 3.3.3 для идентификации нормализующих весов, которые обеспечивают минимальную энергию шума в выходном сигнале, для каждого диапазона форм намеченного луча с использованием любого требуемого размера шага. В частности, эти процессы повторяют по всему диапазону [ MIN , MAX], где представляет ширину намеченной области вокруг каждой конкретной намеченной фокусной точки. Другими словами, вышеописанные процессы для создания набора оптимизированных нормализованных весов, то есть вектора для конкретной формы намеченного луча повторяются, как обсуждалось выше, по всему требуемому диапазону углов луча с использованием любого требуемого размера шага для каждой намеченной точки для текущего частотного поддиапазона MCLT. Результирующий вектор весов является «псевдооптимальным» решением для данной частоты f.
3.3.5 Вычисления для всей полосы частот
Для получения полной матрицы для конкретной намеченной фокусной точки процессы, описанные в разделах с 3.3.1 по 3.3.4, затем просто повторяют для каждого частотного поддиапазона MCLT в диапазоне частот, обрабатываемом микрофонной решеткой.
3.3.6 Расчет набора лучей
После вычислений для процессов, описанных в разделах с 3.3.1 по 3.3.5, матрица весов будет представлять матрицу весов размерности NxM для одного луча для конкретной фокусной точки сТ. Таким образом, процессы, описанные в разделах с 3.3.1 по 3.3.5, повторяют К раз для К лучей, причем эти лучи равномерно распределены по всему рабочему пространству. Результирующая трехмерная матрица весов размерности NxMxK определяет полную схему лучей, созданную унифицированным формирователем луча для микрофонной решетки в существующей на данный момент локальной окружающей среде при заданных текущих условиях шума этой локальной окружающей среды.
4.0 Реализация
В одном варианте процесс формирования луча, описанный выше в разделе 3, для конструирования оптимальных лучей для данных локальных условий шума конкретной решетки датчиков реализуется в виде двух отдельных частей: автономной программы конструирования, которая вычисляет вышеупомянутую весовую матрицу, и механизма обработки сигнала микрофонной решетки в динамическом режиме, который использует эти веса в соответствии со схемой на Фиг.3. Одной из причин вычисления весов в автономном режиме является то, что такое вычисление требует существенно больших затрат вычислительных ресурсов для вычисления оптимальных весов, чем при их использовании в операции обработки сигнала, показанной на Фиг.3.
Однако, учитывая быстродействие стандартных компьютеров, в том числе, например, стандартных персональных компьютеров, такие вычисления матрицы весов в реальном времени или в режиме, близком к режиму реального времени, возможны. Таким образом, в другом варианте матрица весов вычисляется на непрерывной основе, в режиме, настолько близком к реальному времени, насколько позволяет реальная производительность компьютера. В результате, лучи, сконструированные унифицированным формирователем луча, непрерывно и автоматически адаптируются к изменениям уровней шума внешней среды в локальной окружающей среде.
Процессы, описанные выше в связи с Фиг.2 и Фиг.3 и дополнительно подробно описанные в разделах 2 и 3, показаны на общей рабочей блок-схеме на Фиг.5. В частности, на Фиг.5 представлен пример рабочей блок-схемы, иллюстрирующей функционирование унифицированного формирователя луча. Следует отметить, что любые блоки и соединения между блоками, представленные на Фиг.5 прерывистыми или пунктирными линиями, представляют альтернативные варианты вышеописанного унифицированного формирователя луча и что любой или все эти альтернативные варианты, описанные ниже, можно использовать в сочетании с другими альтернативными вариантами, описанными во всем этом документе.
В общем случае, как показано на Фиг.5, операции формирования луча начинаются с контроля входных сигналов (блок 505) от микрофонной решетки 500 в течение некоторого периода времени, достаточного для создания моделей шума из входных сигналов решетки. В общем случае, как известно специалистам в данной области техники, модели шума могут быть рассчитаны на основе относительно коротких выборок входного сигнала. Кроме того, как отмечалось выше, в одном варианте микрофонная решетка 500 контролируется непрерывно или на временных отрезках или интервалах, заданных пользователем, так что модели шума могут рассчитываться и обновляться в реальном времени или в режиме, близком к режиму реального времени, для использования при конструировании оптимальных лучей для микрофонной решетки, которые адаптируются к локальной окружающей среде, создающей шум, в функции времени.
Сразу после приема входного сигнала используются стандартные способы 510 аналого-цифрового преобразования для построения кадров цифрового сигнала из входящих аудиосигналов. Как отмечалось выше, длина указанных кадров, как правило, должна по меньшей мере в два раза или более превышать период минимальной частоты в рабочей полосе MCLT, чтобы уменьшить или минимизировать эффекты наложения спектров. Затем выполняется декомпозиция цифровых аудиокадров в коэффициенты 515 MCLT. В проверенном варианте было обнаружено, что использование 320 частотных полос MCLT обеспечивает хорошие результаты при конструировании лучей для типовой круговой микрофонной решетки в типовой окружающей среде типа помещения для конференций.
В этот момент, поскольку аудиосигнал после декомпозиции представлен коэффициентами MCLT в виде сигнала в частотной области, гораздо проще применять требуемую обработку в частотной области, такую как, например, фильтрацию на требуемой частоте или частотном диапазоне. Например, если необходимо исключить из моделей шума все, кроме некоторого интервала из частотных диапазонов, то на этом шаге можно использовать полосовой фильтр. Аналогичным образом можно также использовать либо по отдельности, либо в сочетании, другие виды фильтрации, в том числе, например, фильтры верхних частот, нижних частот, многополосные фильтры и т.д. Таким образом, в одном варианте до создания моделей шума из аудиокадров выполняется предварительная обработка 520 входных аудиокадров.
Затем на шаге 525 создаются модели шума в зависимости от того, была ли выполнена предварительная обработка, с использованием стандартных способов моделирования шума. Например, предполагается, что изотропный шум внешней среды равномерно распределен по всему рабочему объему или рабочему пространству вокруг микрофонной решетки. Таким образом, изотропный шум внешней среды моделируется посредством прямой выборки и усреднения шума при нормальных условиях в том месте, где должна использоваться микрофонная решетка. Аналогичным образом, аппаратный шум моделируется путем прямой выборки и усреднения микрофонов в решетке в «идеальном помещении» без шума и реверберации (так, как будто бы шумы приходят только от схем микрофонов и предусилителей).
После создания на шаге 525 моделей шума на следующем шаге определяют количество переменных (блок 530), подлежащих использованию в схеме формировании лучей. В частности, эти переменные включают в себя: 1) формы намеченного луча на основе требуемой функции затухания, описанной выше; 2) намеченные фокусные точки, рассредоточенные вокруг решетки; 3) намеченные весовые функции для взвешивания намеченных фокусных точек в зависимости от того, находятся ли они в конкретном намеченном луче, в переходной области вокруг этого луча или вне луча и переходной области; 4) требуемые минимальный и максимальный углы формы луча; и 5) размер шага луча для приращения ширины намеченного луча во время поиска оптимальной формы луча. Заметим, что все эти переменные могут быть определены заранее для конкретной решетки, а затем просто считываться для использования в схеме лучей. В альтернативном варианте одна или несколько из этих переменных настраиваются пользователем, чтобы обеспечить пользователю больше возможностей для управления процессом конструирования лучей.
Затем перед началом процесса конструирования лучей, представленного шагами, которые показаны в блоках с 540 по 585, используют счетчики (блок 535) для отслеживания текущего угла формы намеченного луча (то есть текущей ширины намеченного луча), текущего поддиапазона MCLT и текущего намеченного луча в точке сТ(k).
В частности, если заданы модели шума и вышеупомянутые переменные, то конструирование оптимальных лучей начинается с вычисления весов 540 для текущей ширины луча в текущем поддиапазоне MCLT для каждого микрофона и намеченной фокусной точки при заданной направленности каждого микрофона. Как отмечалось выше, параметрическая информация 230 о микрофонах либо поддерживается в таблице или базе данных некоторого типа, или, как в одном варианте, она автоматически запоминается и сообщается самой микрофонной решеткой, например, «самоописываемой микрофонной решеткой», описанной выше. Затем эти вычисленные веса нормализуют 550, чтобы гарантировать единичное усиление и нулевой сдвиг по фазе в соответствующей намеченной фокусной точке. Затем нормализованные веса запоминают вместе с соответствующей формой 240 луча.
Далее определяют 555, больше или равен текущий угол формы луча максимального угла, заданного на шаге 530. Если текущий угол луча меньше максимального угла луча, заданного на шаге 530, то тогда выполняют приращение угла луча на вышеупомянутый размер шага угла луча (блок 560). Затем вычисляют (540), нормализуют (550) и запоминают (240) новый набор весов на основе новой ширины намеченного луча. Затем эти шаги (540, 550, 240 и 555) повторяют, пока ширина намеченного луча не станет больше или равна максимальному углу 555.
В этот момент выполняется поиск запомненных намеченных лучей и соответствующих весов для выбора оптимальной ширины луча (блок 565) для текущей полосы MCLT для текущего намеченного луча в точке сТ(k). Затем оптимальная ширина луча и соответствующий вектор весов запоминаются в матрице 255 оптимальных лучей и весов для текущего поддиапазона MCLT. Затем определяют (блок 570), является ли текущий поддиапазон MCLT, например поддиапазон (i) MCL, максимальным поддиапазоном MCLT. Если это не так, то тогда идентификатор (i) поддиапазона MCLT увеличивается для указания следующего поддиапазона MCLT, и текущая ширина луча устанавливается равной минимальному углу (блок 575).
Затем вышеописанные шаги для вычисления элементов матрицы оптимальных лучей и весов для текущего поддиапазона MCLT (540, 550, 240, 555, 560, 565, 255, 570 и 575) повторяются на новом текущем поддиапазоне MCLT, пока текущий поддиапазон MCLT не станет равным максимальному поддиапазону MCLT (блок 570). Как только текущий поддиапазон MCLT сравняется с максимальным поддиапазоном MCLT (блок 570), матрица оптимальных лучей и весов будет полностью заполнена по каждому поддиапазону MCLT для текущего намеченного луча в точке сТ(k).
Однако обычно необходимо обеспечить более одного луча для микрофонной решетки. Поэтому, как показано на шагах 580 и 585, вышеописанные шаги для заполнения каждого поддиапазона MCLT матрицы оптимальных лучей и весов для текущего намеченного луча в точке сТ(k) повторяются K раз для K лучей, причем эти лучи обычно распределяются равномерно по всему рабочему пространству. Результирующая трехмерная весовая матрица 255 размерности NxMxK определяет полную схему лучей, созданную унифицированным формирователем луча для микрофонной решетки в текущей локальной внешней среде при данных текущих условиях шума для локальной окружающей среды.
Приведенное выше описание унифицированного формирователя луча для конструирования набора оптимизированных лучей для микрофонных решеток с произвольной топологией и направленностью микрофонов было представлено в описательных и иллюстративных целях. Оно не претендует на исчерпывающий характер или на сведение изобретения к раскрытому здесь точному варианту. В свете вышеописанного замысла возможно множество его модификаций и видоизменений. Кроме того, необходимо заметить, что любой или все вышеупомянутые альтернативные варианты можно использовать в любом сочетании, необходимом для формирования дополнительных смешанных вариантов осуществления унифицированного формирователя луча. Здесь предполагается, что объем изобретения ограничен не приведенным подробным описанием, а прилагаемой формулой изобретения.
Класс H04R3/00 Схемы включения преобразователей