улучшение сигнала вектора ближнего поля
Классы МПК: | G06F3/16 ввод с помощью звука; вывод в виде звука |
Автор(ы): | ТЕНЦЕР Джон К. (US) |
Патентообладатель(и): | ДОЛБИ ЛЭБОРАТОРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШН (US) |
Приоритеты: |
подача заявки:
2007-12-19 публикация патента:
20.11.2011 |
Изобретение относится к сенсорным системам ближнего поля. Техническим результатом является повышение эффективности захвата голоса пользователя с одновременным отбрасыванием шумовых сигналов. Сенсорная система ближнего поля содержит матрицу детекторов, включающую в себя первый детектор, который сконфигурирован так, чтобы генерировать первый входной сигнал в ответ на раздражитель, и второй детектор, сконфигурированный так, чтобы генерировать второй входной сигнал в ответ на упомянутый раздражитель, причем первый и второй детекторы отделены друг от друга расстоянием d; и процессор, сконфигурированный так, чтобы генерировать выходной сигнал из первого и второго входных сигналов, причем выходной сигнал представляет собой функцию от разности двух значений, где первое значение являет собой произведение первого скалярного множителя и векторного представления первого входного сигнала, а второе значение являет собой произведение второго скалярного множителя и векторного представления второго входного сигнала, причем каждый из первого и второго скалярных множителей включает в себя член, который представляет собой функцию от отношения величин первого и второго входных сигналов. 8 н. и 16 з.п. ф-лы, 18 ил.
Формула изобретения
1. Сенсорная система ближнего поля, содержащая:
матрицу детекторов, включающую в себя первый детектор, который сконфигурирован так, чтобы генерировать первый входной сигнал в ответ на раздражитель, и второй детектор, сконфигурированный так, чтобы генерировать второй входной сигнал в ответ на упомянутый раздражитель, причем первый и второй детекторы отделены друг от друга расстоянием d; и
процессор, сконфигурированный так, чтобы генерировать выходной сигнал из первого и второго входных сигналов, причем выходной сигнал представляет собой функцию от разности двух значений, где первое значение являет собой произведение первого скалярного множителя и векторного представления первого входного сигнала, а второе значение являет собой произведение второго скалярного множителя и векторного представления второго входного сигнала, причем каждый из первого и второго скалярных множителей включает в себя член, который представляет собой функцию от отношения величин первого и второго входных сигналов.
2. Система по п.1, в которой первый скалярный множитель определяется отношением 1-Х-1, а второй скалярный множитель определяется отношением 1-Х, где X представляет собой отношение величин первого и второго входных сигналов, которое выражается как функция от следующих переменных: угловой частоты , эффективного угла поступления раздражителя относительно оси, соединяющей два детектора, и расстояния r от матрицы детекторов до раздражителя.
3. Система по п.1, в которой первый и второй детекторы представляют собой аудиомикрофоны.
4. Сенсорная система ближнего поля, содержащая:
матрицу детекторов, содержащую первый детектор, который сконфигурирован так, чтобы генерировать первый входной сигнал в ответ на раздражитель, и второй детектор, сконфигурированный так, чтобы генерировать второй входной сигнал в ответ на упомянутый раздражитель, причем первый и второй детекторы отделены друг от друга расстоянием d; и
процессор, сконфигурированный так, чтобы генерировать выходной сигнал, представляемый вектором с амплитудой, которая пропорциональна разности величин первого и второго входных сигналов, и углом, который является суммой единичных векторов, соответствующих первому и второму входным сигналам.
5. Система по п.4, в которой первый и второй детекторы представляют собой аудиомикрофоны.
6. Сенсорная система ближнего поля, содержащая:
матрицу детекторов, содержащую первый детектор, который сконфигурирован так, чтобы генерировать первый входной сигнал в ответ на раздражитель, и второй детектор, сконфигурированный так, чтобы генерировать второй входной сигнал в ответ на упомянутый раздражитель, причем первый и второй детекторы отделены друг от друга расстоянием d; и
процессор, сконфигурированный так, чтобы генерировать выходной сигнал, представляемый выходным вектором, который ослабляется пропорционально расстоянию r между матрицей детекторов и раздражителем, так что ослабление увеличивается по мере увеличения расстояния, причем выходной вектор являет собой функцию от суммы первого и второго входных сигналов, каждый из которых нормализован так, чтобы их амплитуда была равна среднему значению их амплитуд.
7. Система по п.6, в которой выходной вектор представляет собой функцию от суммы первого и второго входных сигналов, каждый из которых нормализуется так, чтобы иметь амплитуду, равную среднему гармоническому их амплитуд.
8. Система по п.6, в которой первый и второй детекторы представляют собой аудиомикрофоны.
9. Сенсорная система ближнего поля, содержащая:
матрицу детекторов, содержащую первый детектор, который сконфигурирован так, чтобы генерировать первый входной сигнал в ответ на раздражитель, и второй детектор, сконфигурированный так, чтобы генерировать второй входной сигнал в ответ на упомянутый раздражитель, причем первый и второй детекторы отделены друг от друга расстоянием d; и
процессор, сконфигурированный так, чтобы генерировать выходной сигнал путем комбинирования первого и второго входных сигналов и ослабления упомянутой комбинации на коэффициент ослабления, причем комбинация первого и второго входных сигналов независима от отношения величин первого и второго входных сигналов, и коэффициент ослабления представляет собой функцию отношения величин первого и второго входных сигналов.
10. Система по п.9, в которой первый и второй детекторы представляют собой аудиомикрофоны.
11. Система по п.9, в которой функция относится к пропорции, используемой в качестве индекса в справочной таблице, из которой получается коэффициент ослабления.
12. Система по п.9, в которой упомянутый коэффициент ослабления получается из предопределенной функции.
13. Способ выполнения восприятия ближнего поля, содержащий этапы, на которых:
в ответ на раздражитель генерируют первый и второй входные сигналы из первого и второго детекторов матрицы детекторов, причем первый и второй детекторы отделены друг от друга расстоянием d; и
генерируют выходной сигнал из первого и второго входных сигналов, причем выходной сигнал представляет собой функцию от разности двух значений, где первое значение являет собой произведение первого скалярного множителя и векторного представления первого входного сигнала, а второе значение являет собой произведение второго скалярного множителя и векторного представления второго входного сигнала, причем каждый из первого и второго скалярных множителей включает в себя член, который представляет собой функцию от отношения величин первого и второго входных сигналов.
14. Способ по п.13, в котором первый скалярный множитель определяется отношением 1-Х1, а второй скалярный множитель определяется отношением 1-Х, где X представляет собой отношение величин первого и второго входных сигналов, которое выражается как функция от следующих переменных: угловой частоты , эффективного угла поступления раздражителя относительно оси, соединяющей два детектора, и расстояния r от матрицы детекторов до раздражителя.
15. Способ по п.13, в котором первый и второй детекторы представляют собой аудиомикрофоны.
16. Способ выполнения восприятия ближнего поля, содержащий этапы, на которых:
в ответ на раздражитель генерируют первый и второй входные сигналы из первого и второго детекторов матрицы детекторов, причем первый и второй детекторы отделены друг от друга расстоянием d; и
из первого и второго входных сигналов генерируют выходной сигнал, представляемый вектором, имеющим амплитуду, которая пропорциональна разности величин первого и второго входных сигналов, и имеющим угол, который является углом суммы единичных векторов, соответствующих первому и второму входным сигналам.
17. Способ по п.16, в котором первый и второй детекторы представляют собой аудиомикрофоны.
18. Способ выполнения восприятия ближнего поля, содержащий этапы, на которых:
в ответ на раздражитель генерируют первый и второй входные сигналы из первого и второго детекторов матрицы детекторов, причем первый и второй детекторы отделены друг от друга расстоянием d; и
генерируют выходной сигнал, представляемый выходным вектором, который ослабляется пропорционально расстоянию r между матрицей детекторов и раздражителем, так что ослабление увеличивается по мере увеличения расстояния, причем выходной вектор являет собой функцию от среднего значения первого и второго входных сигналов, каждый из которых нормализован так, чтобы их амплитуда была равна среднему значению их амплитуд.
19. Способ по п.18, в котором выходной вектор представляет собой функцию от среднего значения первого и второго входных сигналов, каждый из которых нормализуется так, чтобы иметь амплитуду, равную среднему гармоническому их амплитуд.
20. Способ по п.18, в котором первый и второй детекторы представляют собой аудиомикрофоны.
21. Способ выполнения восприятия ближнего поля, содержащий этапы, на которых:
в ответ на раздражитель генерируют первый и второй входные сигналы из первого и второго детекторов матрицы детекторов, причем первый и второй детекторы отделены друг от друга расстоянием d; и
генерируют выходной сигнал путем комбинирования первого и второго входных сигналов и ослабления упомянутой комбинации на коэффициент ослабления, который представляет собой функцию от величин первого и второго входных сигналов.
22. Способ по п.21, в котором первый и второй детекторы представляют собой аудиомикрофоны.
23. Способ по п.21, в котором функция относится к пропорции, используемой в качестве индекса в справочной таблице, из которой получается коэффициент ослабления.
24. Способ по п.21, в котором упомянутый коэффициент ослабления получается из предопределенной функции.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Настоящее изобретение относится к сенсорным системам ближнего поля.
Описание предшествующего уровня техники
При осуществлении связи в условии шума окружающей среды сигнал голоса может быть искажен в результате одновременного захвата шумовых сигналов. Одноканальные способы подавления шума способны предоставлять удаление шума путем использования априорных сведений о разности между голосоподобными сигналами и шумовыми сигналами для выделения и удаления шума. Тем не менее, когда "шум" состоит из других голосов или голосоподобных сигналов, одноканальные способы неэффективны. Кроме того, по мере увеличения объема удаляемого шума также удаляется некоторая часть голосового сигнала, в результате чего меняется чистота остающегося голосового сигнала, то есть голос искажается. Кроме того, остаточный шум в выходном сигнале становится более похожим на голос. При использовании в сочетании с программным обеспечением для распознавания речи эти недостатки уменьшают точность распознавания.
Матричные способы используют пространственную или адаптивную фильтрацию для того, чтобы либо: а) увеличивать чувствительность захвата сигналов, приходящих с направления голоса, одновременно сохраняя или уменьшая чувствительность к сигналам, приходящим с других направлений, либо b) определять направление к источникам шума и обнулять элементы шаблона луча в этих направлениях, тем самым уменьшая чувствительность к этим дискретным источникам шума, либо с) обращать свертку или разделять множество сигналов на их составные части. Способность этих систем в части улучшения Отношения Сигнала к Шуму (Signal-to-Noise Ratio, SNR) ограничивается фактическим количеством сенсоров, которые могут быть использованы. Для высокой эффективности необходимо большое количество сенсоров. Кроме того, способы управления положением нуля диаграммы направленности (Универсальный Подавитель Боковых Лепестков (Generalized Sidelobe Canceller, GSC)) и выделения (Выделение Источника Вслепую (Blind Source Separation, BSS)) требуют некоторого времени для адаптации коэффициентов фильтра, из-за чего в течение периода адаптации (который может занимать множество секунд) на выходе остается значительный объем шума. Соответственно применение способов GSC и BSS ограничивается полустационарными ситуациями.
Описание предшествующего уровня техники относительно способов и систем подавления/уменьшения шума приведено в патенте США № 7099821 "Выделение целевых акустических сигналов в схеме с множеством преобразователей" Виссер и Ли. Данный документ охватывает не только технологии для случая захвата сигнала у уха, но также технологии дистанционного захвата голоса.
В последнее время технологии предшествующего уровня техники для систем захвата голоса у уха широко внедрялись благодаря доступности и общественному признанию проводных и беспроводных гарнитур, используемых, в основном, с сотовыми телефонами. Система подвесного микрофона, в которой чувствительный порт микрофона находится очень близко ко рту, в течение долгого времени являла собой решение, которое обеспечивало высокую эффективность благодаря близкому расположению к желаемому сигналу. В патенте США № 6009184 "Устройство управления шумом для подвесного микрофона с шумоподавлением" Тейта и Вулфа описана усовершенствованная версия подобного микрофона. Тем не менее спрос привел к уменьшению размера гарнитур, так что обычное решение подвесного микрофона согласно предшествующему уровню техники стало неприемлемым.
В существующих наушных гарнитурах, как правило, используется двунаправленный микрофон, расположенный на самом кончике гарнитуры, в ближайшей ко рту точке. В современных устройствах микрофон расположен на расстоянии от 3 до 4 дюймов от рта, и амплитуда голосового сигнала уменьшается по эффекту распространения пропорционально 1/r. Тем не менее шумовые сигналы, которые поступают из удаленных местоположений, не уменьшаются, в результате чего ухудшается SNR.
Было предложено множество способов для улучшения SNR при сохранении малых размеров и увеличении расстояния от рта для современных гарнитур. Относительно простые микрофонные системы первого порядка, в которых применяются способы градиента давления в качестве микрофонов "с шумоподавлением" или направленных микрофонов (например, патенты США 7027603; 6681022; 5363444; 5812659; и 5854848), использовались в попытке смягчить неблагоприятные эффекты местоположения захвата у уха. Эти способы создают дополнительные проблемы, такие как эффект близости, повышенная чувствительность к шуму ветра и электронному шуму, окрашивание частотной характеристики сигналов дальнего поля (шума), необходимость выравнивающих фильтров, а также необходимость согласования микрофонов в случае реализации с двумя микрофонами. На практике этим системам свойственна чувствительность к осевому шуму, которая идентична их двунаправленным вариантам.
Для обеспечения лучших результатов также была предпринята попытка использования направленных систем второго порядка (например, патент США № 5473684 "Дифференциальная микрофонная сборка с шумоподавлением" Бартлетт и Зунига), но свойственные системам первого порядка недостатки также усиливаются, так что чувствительность к шуму ветра, окрашивание сигнала, электронный шум, а также требования в части выравнивания и согласования делают этот подход неприемлемым.
Соответственно с некоторым успехом были предприняты попытки применения адаптивных систем, основанных на GSC, BSS или других способах применения множества микрофонов (см. документ "The Effect of Near-field Sources on the Griffiths-Jim Generalized Sidelobe Canceller", McCarthy and Boland, Institution of Electrical Engineers, London, IEE conference publication ISSN 0537-9989, CODEN IECPB4, а также патенты США № 7099821; 6799170; 6691073; и 6625587). Недостатками подобных систем являются высокая сложность и цена, необходимость согласования множества сенсоров, низкая чувствительность к движущимся или быстро меняющимся источникам шума, неполное удаление шума, а также искажение и деградация голосового сигнала. Еще один недостаток заключается в том, что эти системы работают только с относительно чистыми (имеющими положительное отношение SNR) входными сигналами, и они ухудшают качество сигнала при работе со слабыми (имеющими отрицательное отношение SNR) входными сигналами. Деградация голоса часто создает помехи при Автоматическом Распознавании Речи (Automatic Speech Recognition, ASR), которое является одним из важных приложений для подобных гарнитур.
Еще одна технология уменьшения шума для систем с множеством микрофонов, применимая к гарнитурам, раскрыта в патенте США № 6668062 "Способ для адаптивной направленности двух микрофонов, основанный на Быстром Преобразовании Фурье". В этом способе, разработанном для использования в слуховых аппаратах, два микрофона расположены с интервалом в 10 см внутри корпуса заушного слухового аппарата. Входные сигналы микрофона преобразуются в частотную область, и выходной сигнал формируется согласно следующему уравнению
где Х( ), Y( ) и Z ( ) представляют собой преобразованные в частотную область формы входных сигналов х(t), y(t) временной области и выходного сигнала z(t) временной области. Целью слуховых аппаратов является помочь пользователю ясно слышать речь других людей, а также слышать звуки окружающей среды, но не слышать самого себя. Соответственно эта технология разработана для очищения звуков дальнего поля. Кроме того, эта технология действует, чтобы производить направленный шаблон чувствительности, который "подавляет шум , когда шум и целевой сигнал исходят не из одного и того же направления от устройства". Недостатки в данном случае заключаются в том, что эта технология значительно искажает желаемый целевой сигнал и требуется точное согласование элементов микрофонной матрицы.
Другие разработки включают в себя технологии, специально предназначенные для приложений восприятия близкого поля. Например, Голдин (патентная публикация США № 2006/0013412 А1 и документ "Close Talking Autodirective Dual Microphone", AES Convention, Berlin, Germany, May 8-11, 2004) предложил использовать два микрофона с технологией управляемой задержки и добавления, чтобы создать набор шаблонов узкополосного луча захвата первого порядка, который оптимально поворачивает лучи от источников шума. Оптимизация достигается путем адаптивной фильтрации в масштабе реального времени, которая создает независимое управление каждой задержкой, используя адаптивное средство по алгоритму минимальной среднеквадратичной ошибки. Эта схема также использовалась в современных слуховых аппаратах на основе цифрового процессора сигналов. В технологии GSC для приложений захвата голоса близкого поля эта система была модифицирована для обеспечения ненаправленного ослабления шума. К сожалению, когда присутствует более одного источника шума на одной конкретной частоте, эта система не может оптимальным образом уменьшать шум. В реальных ситуациях, даже если присутствует один физический источник шума, отражения звука в комнате эффективно создают дополнительные виртуальные источники шума с множеством разных направлений распространения, причем все они имеют идентичную частоту и, таким образом, нарушают эффективную работу способа. В добавление, будучи адаптивной, эта схема требует существенного времени для регулирования, чтобы минимизировать шум в выходном сигнале. Сверх того, среди других недостатков выделяется то, что отношение уменьшения шума и расстояния ограничено, и остаточный шум в выходном сигнале имеет высокий уровень окрашивания.
Сущность изобретения
Согласно одному варианту осуществления предоставлен способ восприятия голоса для существенного улучшения захвата голоса в условиях шума, который применим, например, к беспроводной гарнитуре. Преимущественно, он предоставляет чистый, неискаженный сигнал голоса с эффективным удалением шума, причем небольшая доля остаточного шума не искажается и сохраняет свой исходный вид. С функциональной точки зрения предоставлен способ захвата голоса для лучшего выбора сигнала голоса пользователя с одновременным отбрасыванием шумовых сигналов.
Хотя следующее описание относится к захвату голоса (то есть акустических сигналов, сигналов связи и аудиосигналов), настоящая система применима к любой системе, воспринимающей волновую энергию (беспроводное радио, оптика, геофизика и т.п.), где требуется захват ближнего поля при наличии шумов/помех дальнего поля. Альтернативное применение обеспечивает превосходное восприятие дальнего поля для астрономических приложений, гамма-излучения, ультразвуковых приложений в медицине и т.п.
Среди преимуществ настоящей системы можно отметить ослабление шумовых сигналов дальнего поля на уровне в два раза ниже, чем у систем предшествующего уровня, при сохранении плоской частотной характеристики. Обеспечивается вывод чистого, естественного голоса, высокий уровень уменьшения шумов, высокая совместимость с обычной технологией обработки сигналов канала передачи, низкий остаточный шум с естественным звучанием, превосходная производительность в условиях сильного шума даже в условиях отрицательного отношения SNR, мгновенная характеристика (отсутствие проблемы времени адаптации), и при этом демонстрируется низкий уровень потребления мощности, а также низкие требования в части объема памяти и аппаратного обеспечения для недорогих приложений.
Приложения акустического голоса для этой технологии включают в себя оборудование мобильной связи, такое как сотовые телефоны и гарнитуры, бесшнуровые телефоны, радиосвязь на общественном диапазоне, переносные рации, радиосвязь полиции и пожарных служб, приложения компьютерной телефонии, концертные и трансляционные микрофоны, петличные микрофоны, приложения голосовых команд в компьютерах и автомобилях, внутренняя связь и т.п. Акустические неголосовые приложения включают в себя восприятие для систем активного подавления шума, детекторы обратной связи для систем активной подвески, геофизические сенсоры, инфразвуковые системы и системы детектирования выстрела, военные действия под водой и т.п. Неакустические приложения включают в себя радио и радар, астрофизику, медицинские позитронно-эмиссионные томографы, детекторы и сканеры радиации, системы безопасности аэропортов и т.п.
Описанная здесь система может быть использована для точного восприятия локальных шумов, так что эти локальные шумовые сигналы могут быть удалены из смешанных сигналов, которые содержат желаемые сигналы дальнего поля, тем самым получая ясное восприятие сигналов дальнего поля.
Еще одно применение заключается в обращении описанного действия ослабления, так чтобы голосовые сигналы близкого поля удалялись и сохранялся только шум. Далее, этот результирующий шумовой сигнал вместе с исходными входными сигналами может быть направлен в блок спектрального вычитания, Универсальный Подавитель Боковых Лепестков (Generalized Sidelobe Canceller, GSC), фильтр Вайнера, систему Слепого Разделения Источников (Blind Source Separation, BSS) или другое устройство удаления шума, где требуется чистый опорный сигнал шума для точного удаления шума.
Настоящая система не меняет чистоту остающегося голоса, между тем улучшая характеристику повышения SNR систем, основанных на формировании луча, и она адаптируется быстрее, чем способы GSC или BSS. В этих других системах улучшение SNR ниже 10 дБ в самых шумных приложениях.
Краткое описание чертежей
Многие преимущества настоящего изобретения станут очевидны специалистам в данной области техники из следующего описания в сочетании с прилагаемыми чертежами, в которых одинаковые элементы обозначены одинаковыми ссылочными номерами и на которых:
Фиг.1 - схематическая диаграмма одного типа устройства аудиозахвата ближнего поля;
Фиг.1А - структурная схема, иллюстрирующая общий процесс захвата;
Фиг.2 - общая структурная схема системы для выполнения подавления шума;
Фиг.3 - структурная схема, иллюстрирующая детали обработки;
Фиг.4 - структурная схема части обработки сигнала согласно подходу прямого уравнения;
Фиг.5 - иллюстрация осевой чувствительности относительно чувствительности у рта в зависимости от расстояния от гарнитуры;
Фиг.6 - характеристика ослабления при семи разных углах поступления сигнала от 0° до 180°;
Фиг.7 - диаграмма шаблона направленности системы с двумя ненаправленными микрофонами, измеренная в диапазоне 0,13 м (5 дюймов) от источника;
Фиг.8 - иллюстрация ослабления, образуемого Уравнением (7), как функции от разности величин сигнала переднего микрофона и сигнала заднего микрофона для варианта 3 дБ;
Фиг.9 - иллюстрация характеристики ослабления, производимого Уравнениями (8) и (9), в сравнении с ослаблением, производимым Уравнением (7);
Фиг.10 - структурная схема алгоритма применения способа ослабления сигнала без необходимости вычисления Уравнения (7) в масштабе реального времени;
Фиг.11 - иллюстрация структурной схемы способа обработки, в котором применяется полное ослабление выходного сигнала;
Фиг.12 - иллюстрация структурной схемы одного подхода вычисления для ограничения выхода ожидаемых сигналов;
Фиг.13 - пример таблицы предельных значений;
Фиг.14А и 14В - иллюстрации набора предельных значений в зависимости от частоты;
Фиг.15 - иллюстрация графика чувствительности как функции от расстояния источника от микрофонной матрицы вдоль главной оси согласно настоящему изобретению и согласно предшествующему уровню техники; и
Фиг.16 - иллюстрация данных с Фиг.15, отображенных по логарифмической шкале для лучшей демонстрации улучшения.
Подробное описание изобретения
Варианты осуществления настоящего изобретения описаны ниже в контексте систем захвата ближнего поля. Специалистам в данной области техники будет очевидно, что следующее подробное описание является иллюстративным, и оно не должно интерпретироваться как ограничивающее. При изучении настоящего раскрытия подобные варианты осуществления будут очевидны для специалистов в данной области техники. Ниже следует подробное описание примеров осуществления настоящего изобретения, которые проиллюстрированы в прилагаемых чертежах. Одинаковые ссылочные знаки используются в чертежах и следующем подробном описании для обозначения одинаковых или похожих деталей.
В целях ясности показаны и описаны не все рутинные элементы. Само собой разумеется, что при разработке какого-либо подобного варианта должны быть определены различные специфичные решения для достижения специфичных целей разработки, таких как соответствие с конкретным приложением и экономические ограничения, и подобные специфичные цели будут отличаться для разных реализаций и для разных разработчиков. Более того, следует понимать, что подобная разработка может быть сложной и требующей времени, но при помощи настоящего раскрытия она, все же, будет иметь форму инжиниринговой задачи для специалистов в данной области техники.
Описанная в настоящем документе система основана на применении управляемой разности амплитуды двух детектированных сигналов, чтобы с идеальной точностью сохранять сигналы, исходящие из близлежащих точек, и между тем значительно ослаблять сигналы, исходящие из удаленных точек. Несмотря на то, что настоящее изобретение не ограничивается устройствами детектирования звука, в настоящее время наилучшим применением являются головные гарнитуры и, в частности, беспроводные устройства, известные как гарнитуры Bluetooth®.
С учетом того, что при распространении из источника энергетические волны, по существу, имеют сферическую форму, можно заметить, что подобные волны, исходящие из близкорасположенных источников (ближнего поля), имеют большую кривизну, тогда как волны, исходящие из удаленных источников (дальнего поля), имеют почти плоскую форму. Интенсивностью энергетической волны является отношение ее мощности к единице площади. По мере распространения энергии интенсивность падает по закону 1/r2, где r являет собой расстояние от источника. Величина вычисляется как квадратный корень интенсивности, так что величина уменьшается по закону 1/r. Чем больше разность расстояний двух детекторов от источника, тем больше разность в величинах детектированных сигналов.
В настоящей системе применяется уникальная комбинация пары микрофонов, расположенных у уха, и процесс, в котором используется разность величин, чтобы сохранять голосовой сигнал, между тем быстро ослабляя шумовые сигналы, поступающие из удаленных мест. Для настоящей системы падение чувствительности сигнала, как функция от расстояния, в два раза больше по сравнению с микрофоном с шумоподавлением, расположенным близко ко рту, таким как высококачественный подвесной микрофон, а между тем частотная характеристика все же имеет нулевой порядок, то есть частотная характеристика, по существу, является плоской. Шумоподавление достигается ненаправленным образом, так что все шумы, независимо от направления поступления удаляются. В добавление, благодаря характеристике чувствительности нулевого порядка система не подвержена эффекту близости и имеет стойкость к шуму ветра, в особенности, когда используется описанный ниже второй способ обработки.
Настоящая система эффективно предоставляет соответствующую микрофонную матрицу, используемую с аналоговыми и аналого-цифровыми схемами, спроектированными для сохранения необходимых для процесса "меток" сигнала в сочетании с самим системным процессом. Следует отметить, что входные сигналы часто бывают "загрязнены" значительной шумовой энергией. Шум даже может быть больше, чем желаемый сигнал. После применения обработки настоящей системы выходной сигнал очищается от шума и результирующий выходной сигнал, как правило, получается гораздо меньше. Таким образом, динамический диапазон канала входного сигнала должен быть устроен так, чтобы линейно сохранять динамический диапазон высоких значений входа, необходимого для охвата всех возможных амплитуд входных сигналов, тогда как требование динамического диапазона для выходного канала часто бывает гораздо ниже.
Микрофонная матрица
На фиг.1 показана микрофонная матрица, сформированная из, по меньшей мере, двух отдельных микрофонов, предпочтительно, расположенных вдоль линии (оси) между местоположением гарнитуры и ртом пользователя. В частности, целью является верхняя губа, так что детектируются как оральные звуки, так и назальные. Показаны только два микрофона, но может быть использовано их большее количество. Два микрофона, которые обозначены цифрами 10 и 12, установлены на или в корпусе 16. Корпус может иметь удлиняющую часть 14. Другая часть корпуса или подходящий компонент располагается в ушном канале, так что пользователь может слышать звуки из громкоговорителя устройства. Несмотря на то, что микрофонные элементы 10 и 12, предпочтительно, представляют собой ненаправленные блоки, также могут быть использованы направленные устройства с шумоподавлением и даже активные матричные системы. Когда используются направленные микрофоны или микрофонные системы, они, предпочтительно, направляются ко рту пользователя, чтобы обеспечить дополнительное шумоподавление для источников шума, расположенных в менее чувствительных направлениях от микрофонов.
Остальная часть описания сконцентрирована в основном на двух ненаправленных микрофонных элементах 10 и 12, с пониманием того, что также могут быть использованы другие типы микрофонов и микрофонных систем. В остальной части описания микрофон, расположенный наиболее близко ко рту, то есть микрофон 10, обозначен термином "передний" микрофон, а микрофон 12, расположенный дальше всего ото рта, обозначается термином "задний" микрофон.
По существу, используя пример двух раздельных микрофонов, расположенных у уха пользователя и на линии, примерно протягивающейся в направлении рта, два сигнала микрофона детектируются, оцифровываются, разделяются на временные кадры и преобразуются в частотную область, используя обычные способы Цифрового Преобразования Фурье (Digital Fourier Transform, DFT). В частотной области сигналы представляются комплексными числами. После опционального временного совмещения сигналов 1) разность между парами этих комплексных чисел вычисляется согласно математическому уравнению, или 2) их взвешенная сумма уменьшается согласно другому математическому уравнению, либо выполняются обе перечисленные операции. Поскольку в описанной в настоящем документе системе отсутствует ограничение по расстоянию между микрофонами (при условии, что оно не равно нулю), другие системные соображения являются побудительными факторами для выбора подхода совмещения по времени.
Отношение величин (модулей) или норм векторов используется в качестве меры "зашумленности" входных данных, чтобы управлять ослаблением шума, создаваемым каждым из упомянутых двух способов. Результатом этой обработки является выходной сигнал частотной области, в котором уменьшен шум и который впоследствии преобразуется с помощью обычного средства обратного преобразования Фурье во временную область, где выходные кадры перекрываются и суммируются, чтобы создать цифровую версию выходного сигнала. Впоследствии при необходимости может быть использовано цифроаналоговое преобразование, чтобы создать аналоговую версию выходного сигнала. В основе данного подхода лежит цифровая обработка частотной области, которая подробно описана в остальной части настоящего документа. Следует понимать, что альтернативные подходы могут включать в себя обработку в аналоговой области или цифровую обработку во временной области и т.п.
При нормализации акустических сигналов, воспринимаемых двумя микрофонами 10 и 12, к сигналам переднего микрофона 10 сигнал частотной области переднего микрофона согласно определению становится равным "1". То есть:
где представляет собой угловую частоту, представляет собой эффективный угол поступления акустического сигнала относительно направления ко рту (то есть оси матрицы), d представляет собой интервал между двумя портами микрофона, а r представляет собой дистанцию от переднего микрофона 10 до источника звука в приращениях d. Таким образом, сигнал частотной области с заднего микрофона 12 выражается как
с представляет собой эффективную скорость звука у матрицы, a i представляет собой мнимый оператор . Член rd(y-1)/c представляет разность (задержку) момента поступления акустического сигнала на два микрофонных порта. Из приведенных выше уравнений можно заметить, что, когда r имеет большое значение, то есть когда источник звука находится далеко от матрицы, величина заднего сигнала, так же как и величина переднего сигнала, равна "1".
Когда сигнал источника поступает по оси из точки вдоль линии рта пользователя ( =0), величина заднего сигнала равна
Например, предположим, что разработчик хочет, чтобы величина голосового сигнала была на 3 дБ больше в переднем микрофоне 10, чем в заднем микрофоне 12. В этом случае Соответственно r=2,42. Следовательно, передний микрофон 10 должен быть расположен на расстоянии 2,42·d от рта, а задний микрофон 12 должен быть расположен на расстоянии d за передним микрофоном. Если расстояние от рта до переднего микрофона будет равно, например, 12 см (4¾ дюйма), то желаемый интервал от порта до порта в микрофонной матрице - то есть расстояние между микрофонами 10 и 12 - будет равно 4,96 см (примерно 5 см или 2 дюйма). Само собой разумеется, что разработчик свободен в выборе отношения величин, требуемого для конкретной реализации.
Согласование микрофонов
Некоторые этапы обработки, которые могут быть применены к сигналам с микрофонов 10 и 12 в начальной стадии, описаны со ссылкой на фиг.1А. Полезно обеспечивать согласование микрофонов, и при использовании ненаправленных микрофонов это легко достижимо. Ненаправленные микрофоны представляют собой устройства с, по существу, плоской характеристикой и практическим отсутствием рассогласования между парами. Соответственно для данного приложения достаточно использовать любой способ согласования по предшествующему уровню техники. Подобные способы включают в себя приобретение предварительно согласованных микрофонных элементов для микрофонов 10 и 12, выбор согласованных элементов в заводских условиях, динамическое тестирование и регулировку с применением измерительной аппаратуры после сборки, измерение рассогласования после сборки посредством вставки согласующей "таблицы" в устройство для операционной коррекции на лету, а также динамическую коррекцию рассогласования по автоматическому алгоритму в масштабе реального времени.
Обработка аналогового сигнала
Как показано на фиг.1А, может быть выполнена аналоговая обработка сигналов микрофона, которая, как правило, состоит из предварительного усиления посредством усилителей 11 для увеличения обычно очень слабых выходных сигналов микрофонов, фильтрации посредством фильтров 13 для уменьшения внеполосного шума и для низкочастотной фильтрации до оцифровки сигналов, если применяется цифровая реализация. Тем не менее на этой стадии также может быть применена другая обработка, такая как ограничение, сжатие, аналоговое согласование (15) микрофонов и/или автоматическая регулировка усиления.
Описанная в настоящем документе система оптимально действует с линейными, неискаженными входными сигналами, так что аналоговая обработка используется для сохранения спектральной чистоты входных сигналов благодаря высокой линейности и адекватному динамическому диапазону, чтобы чисто сохранять все части входных сигналов.
Аналого-цифровое и цифроаналоговое преобразование
Выполняемая обработка сигнала может быть реализована посредством аналогового способа во временной области. Используя группу раздельных фильтров в сочетании с преобразованием Гильберта и известными средствами детектирования амплитуды сигнала для детектирования и измерения величины и фазы компонентов в каждом диапазоне, обработка может быть применена по каждому диапазону, причем выводы по множеству диапазонов комбинируются (суммируются), чтобы произвести конечный выходной аналоговый сигнал с уменьшенным шумом.
Альтернативно, обработка сигнала может быть применена цифровым образом либо во временной области, либо в частотной области. В цифровом способе временной области, например, те же этапы могут выполняться в том же порядке, что и для аналогового способа, или может быть применен другой подходящий способ.
Цифровая обработка также может быть выполнена в частотной области, используя Цифровое Преобразование Фурье (Digital Fourier Transform, DFT), вейвлет-преобразование, косинусное преобразование, преобразование Хартли или любое другое средство для разделения информации на частотные диапазоны до обработки.
Микрофонные сигналы являются аналоговыми, так что после применения любой аналоговой обработки результирующие аналоговые входные сигналы преобразуются в цифровые сигналы. Это является целью аналого-цифровых преобразователей (22, 24), показанных на фиг.1А и 2 - по одному каналу преобразования на входной сигнал. Обычное аналого-цифровое преобразование хорошо известно в технике, соответственно описание требований к низкочастотной фильтрации, частотной дискретизации, битовой глубине, линейности и т.п. опущено.
После завершения обработки уменьшения шума, например, выполняемой схемой 20 с фиг.2, создается единый цифровой выходной сигнал. Этот выходной сигнал может быть использован в цифровой системе без дальнейшего преобразования, либо, альтернативно, он может быть обратно преобразован в аналоговую форму, используя обычный цифроаналоговый преобразователь.
Совмещение по времени
Для наилучшего качества выходного сигнала, предпочтительно, но необязательно, чтобы два входных сигнала были совмещены по времени для целевого сигнала, то есть для голоса пользователя. Поскольку передний микрофон 10 расположен ближе ко рту, звук голоса сначала доходит до переднего микрофона, и немного позже - до заднего микрофона 12. Это и есть временная задержка, для которой должна быть применена компенсация, то есть передний сигнал должен быть задержан, например, посредством схемы 26 с фиг.2 на время, равное времени распространения звука вокруг гарнитуры от местоположения порта переднего микрофона 10 до порта заднего микрофона 12. Для выполнения совмещения по времени доступно множество обычных способов, включающих в себя, но не ограничивающихся перечисленным, аналоговые линии задержки, способы кубических сплайнов для цифровой интерполяции и способы модификации фазы DFT.
Одно из простых средств для выполнения задержки заключается в выборе, при разработке гарнитуры, такого интервала d между микрофонами, который позволяет сдвигать цифровой поток данных из аналого-цифрового преобразования первого сигнала на некоторое количество выборок. Например, когда расстояние между портами в сочетании с эффективной скоростью звука в местоположении гарнитуры дает временную задержку сигнала величиной, например, 62,5 мс или 125 мс, то при частоте дискретизации в 16 кГц первая упомянутая задержка может быть выполнена путем сдвига данных на одну выборку, а вторая упомянутая задержка может быть выполнена путем сдвига данных на две выборки. Поскольку многие приложения связи работают с частотой дискретизации 8 кГц, то последняя задержка может быть выполнена со сдвигом данных на одну выборку. Данный способ достаточно простой, имеет низкую стоимость и низкое потребление вычислительной мощности, а также обеспечивает высокую точность.
Способ перекрытия и суммирования
Упомянутая обработка также может использовать хорошо известный способ "перекрытия и суммирования". Использование этого способа часто может включать в себя применение окна, такого как окно Хенинга или другое окно, или другие известные в технике способы.
Преобразование (Фурье) частотной области
Одним из простейших и наиболее распространенных средств для разделения многодиапазонных сигналов в частотной области является Кратковременное Преобразование Фурье (Short-Time Fourier Transform, STFT), цифровой реализацией которого является Быстрое Преобразование Фурье (Fast Fourier Transform, FFT). Несмотря на то, что для многодиапазонной обработки применимы альтернативные средства, в настоящем документе описана стандартная пара цифрового FFT/IFFT для преобразования и обработки.
Фиг.2 представляет собой общую структурную схему системы 20 для выполнения уменьшения шума с помощью средства цифрового преобразования Фурье. Сигналы из переднего микрофона (10) и заднего микрофона (12) применяются к аналого-цифровым преобразователям 22, 24. Опциональная схема 26 выравнивания по времени действует на, по меньшей мере, одном из преобразованных цифровых сигналов. За схемой 26 следуют схемы 28 и 29 обработки кадра и окна, которые также генерируют представления частотной области сигналов с помощью описанного выше средства Цифрового Преобразования Фурье (Digital Fourier transform, DFT). Два результирующих сигнала подаются на процессор 30, который действует на основании уравнения разности, применяемого к каждой паре узкополосных, совмещенных по времени входных сигналов в частотной области. Широкие стрелки указывают, что множество пар входных сигналов параллельно подвергаются обработке. Следует понимать, что описанные сигналы являются отдельными узкополосными частотными "подсигналами", причем пара образуется из двух подсигналов соответствующей частоты, исходящих из двух микрофонов.
Во-первых, каждый подсигнал заданной пары разделяется на норму, также известную как величина, и его единичный вектор, причем единичный вектор представляет собой вектор, нормализованный к величине "1" путем разделения на ее норму. Соответственно
где представляет собой норму вектора ,
a представляет собой единичный вектор вектора . Таким образом, вся информация о величине входного сигнала заключается в норме, тогда как вся информация об угле заключается в единичном векторе. Для сигналов по оси, описанных выше со ссылкой на уравнения 2~4, и
Аналогично,
и для вышеупомянутых сигналов и .
Тогда выходной сигнал из схемы 30 выражается следующим образом
Здесь можно заметить, что амплитуда выходного сигнала пропорциональна разности величин двух входных сигналов, тогда как угол выходного сигнала являет собой угол суммы единичных векторов, который равен среднему значению электрических углов двух входных сигналов.
Эта обработка сигнала, выполняемая в схеме 30, более подробно проиллюстрирована в структурной схеме с Фиг.3. Несмотря на то, что она предоставляет функцию уменьшения помех, эта форма обработки не очень интуитивна с точки зрения того, как фактически происходит уменьшение шума.
Отбрасывая общие переменные ( , ,d,r) для ясности и преобразуя члены, Уравнение 8 принимает следующий вид:
где стрелки представляют векторы. Можно заметить, что выходной сигнал частотной области для каждого частотного диапазона представляет собой произведение двух членов: первый член (часть до знака умножения) являет собой скалярную величину, которая пропорциональна ослаблению сигнала. Это ослабление представляет собой функцию от отношения норм двух входных сигналов и, следовательно, функцию от расстояния между источником звука и матрицей. Второй член Уравнения (9) (часть после знака умножения) представляет собой среднее значение двух входных сигналов, каждый из которых сначала нормализуется до величины, равной половине среднего гармонического двух отдельных величин сигнала. Это вычисление создает промежуточный вектор сигнала, который обеспечивает оптимальное уменьшение для любого набора независимых компонентов случайного шума во входных сигналах. Упомянутое вычисление тогда ослабляет промежуточный сигнал согласно мере расстояния до источника звука путем умножения вектора промежуточного сигнала на скалярную величину первого члена.
Следует отметить, что эта обработка является "мгновенной", то есть она не зависит от какой-либо предварительной информации из ранних кадров и, следовательно, она не подвержена задержке адаптации. Следует отметить, что нижеописанная переменная X( , ,d,r) вычисляется как отношение величин для случая линейной области, или как разность логарифмов (обычно выражаемая в единицах дБ) для случая логарифмической области. Таким образом, X обозначает отношение, когда речь идет о линейной области, и X обозначает разность, когда речь идет об использовании в логарифмической области. При вычислении процесса уменьшения на практике важно, чтобы оно выполнялось как можно эффективней для достижения высокой скорости при низком потреблении вычислительной мощности. Ниже описан еще один способ выражения этих уравнений, который более эффективен с вычислительной точки зрения.
Сначала получают отношение X( , ,d,r) величин преобразованных входных сигналов, где
Используя это отношение величин и исходные входные сигналы, выходной сигнал вычисляется следующим образом:
Следует обратить внимание на знак минуса в середине Уравнения (11). В подходах предшествующего уровня техники прямое суммирование двух независимых уравнений шумоподавления способствует достижению большего уменьшения шума дальнего поля, чем при использовании какого-либо из этих уравнений в отдельности. В настоящей системе одно уравнение (11) разности используется без суммирования. В результате, получается уникальная, почти ненаправленная система распознавания ближнего поля.
Фиг.4 представляет собой структурную схему части обработки сигнала этого способа прямого уравнения для создания вектора выходных сигналов с уменьшенным шумом из двух векторов
и входных сигналов.
Этот способ уравнения действует в следующем порядке:
1) Предположим, что источник шума расположен в дальнем поле. В этом случае величины двух входных сигналов практически равны друг другу из-за распространения сигнала по закону 1/r. Когда величины равны друг другу, как в данном случае, X равно "1", так что как 1-Х-1 , так и 1-Х равны нулю. Таким образом, согласно Уравнению (11) выходной сигнал практически равен нулю, следовательно, сигналы дальнего поля сильно ослаблены.
2) Предположим, что голосовой сигнал исходит с осевого направления с разностью величин сигнала, равной, например, 3 дБ. В этом случае X 1,4, так что 1-Х-1 0,29 и 1-Х -0,41. Эти значения обратно пропорциональны разности величин входных сигналов. Когда эти два значения применяются в Уравнении (11), они имеют эффект выравнивания или нормализации двух входных сигналов к среднему значению. Таким образом, выходной сигнал становится средним вектором двух входных сигналов после нормализации. Следует отметить, что результатом является не разность векторов, как, например, в распознавании градиентного поля.
3) Двойная разность, наблюдаемая в Уравнении (11), приводит к наклону второго уровня в характеристике зависимости ослабления от расстояния. Фиг.5 представляет собой иллюстрацию осевой чувствительности относительно чувствительности у рта в зависимости от расстояния от гарнитуры. Так, на фиг.5 чувствительность сигнала у рта находится в левом конце кривой и имеет значение 0 дБ. Значение ниже нуля пропорционально ослаблению сигнала, производимому системой, и здесь она отражена на частотах 300 Гц, 500 Гц, 1 кГц, 2 кГц, 3 кГц и 5 кГц. Очевидно, что частотная характеристика идентична на всех частотах, поскольку все кривые ослабления идентичны (все они накладываются друг на друга). Наличие идентичной частотной характеристики полезно, поскольку она предотвращает окрашивание частотной характеристики сигнала как функции от расстояния, то есть источники шума звучат естественно, хотя и сильно ослаблены. Этот наклон второго порядка обеспечивает совершенную характеристику ослабления шума системы.
Наклон ослабления имеет лишь небольшую направленность. Источники шума, которые расположены под разными углами относительно гарнитуры, ослабляются в равной степени или в несколько большей степени. Фиг.6 представляет собой характеристику ослабления при семи разных углах поступления сигнала от 0° до 180° для частоты 1 кГц. Следует отметить, что характеристика ослабления почти идентична при всех углах, за исключением большего ослабления шума при угле 90°. Это имеет место из-за шаблона направленности "в форме восьмерки" (шумоподавления). Характеристика ослабления при всех углах, которые расположены вне оси, превышают характеристику осевого ослабления, показанного на фиг.5.
4) Двойная разность, показанная в Уравнении 11, также создает подавление любой частотной характеристики первого порядка (хотя не для направленности), так что общая частотная характеристика имеет нулевой порядок, даже несмотря на то, что характеристика направленности имеет первый порядок. Это означает, что частотная характеристика "плоская", когда используются ненаправленные микрофоны с плоской характеристикой. В действительности, частотная характеристика выбранного микрофона сохраняется на выходе без изменения или модификации. Эта желаемая характеристика не только обеспечивает превосходную точность для желаемого сигнала, но также устраняет эффект близости, наблюдаемый в обычных системах уменьшения шума направленных микрофонов.
Как упомянуто выше, чувствительность ближнего поля демонстрирует классический шаблон направленности шумоподавления "в форме восьмерки". Фиг.7 представляет собой график шаблона направленности системы, в которой используются два ненаправленных микрофона, причем данный график приведен для расстояния источника 0,13 м (5 дюймов), хотя этот шаблон направленности, по существу, имеет такую же форму для любого расстояния источника. Это типичная дистанция от гарнитуры до рта и, следовательно, график направленности иллюстрирует угловую терпимость к отклонению гарнитуры. Ось матрицы лежит в направлении 0° и показана на правой стороне данного графика. Можно заметить, что чувствительность сигнала лежит в пределах 3 дБ сверх диапазона ориентации ±40 градусов от оси матрицы, тем самым предоставляя превосходный допуск для отклонения гарнитуры. Шаблон направленности вычислен для частот 300 Гц, 500 Гц, 1 кГц, 2 кГц, 3 кГц и 5 кГц, что также показывает совершенную частотную невосприимчивость к источникам на оси матрицы или близко к ней. Это постоянство чувствительности обозначается термином «плоская характеристика» и оно крайне полезно.
Поскольку выражение частотной области для каждого узкополосного входного сигнала являет собой комплексное число, представляющее вектор, результатом описанной обработки является формирование выходного комплексного числа (то есть вектора) для каждого узкополосного частотного подсигнала. Когда используются способы Фурье, эти сигналы отдельных частотных диапазонов обычно обозначаются терминалом "элемент разрешения". Таким образом, при комбинировании выходные сигналы элемента разрешения формируют выходную преобразованную форму Фурье, представляющую выходной сигнал с уменьшенным шумом, который может быть использован напрямую, может быть подвергнут обратному преобразованию Фурье в частотной области и далее использован цифровым образом, или он может быть подвергнут обратному преобразованию и впоследствии преобразован из частотной формы в аналоговую для формирования аналогового сигнала временной области.
Также может быть применен другой подход обработки. По существу, эффект применения Уравнения (11) заключается в сохранении, с небольшим затуханием, компонентов сигнала из источников ближнего поля и одновременном сильном ослаблении компонентов из источников дальнего поля. Фиг.8 представляет собой иллюстрацию ослабления, достигаемого посредством Уравнения (11), как функции от разности величин между сигналом переднего микрофона (10) и сигналом заднего микрофона (12) для варианта 3 дБ, описанного выше. Следует отметить, что к голосовым сигналам применяется небольшое или нулевое ослабление, то есть отношение величин равно или близко к значению 3 дБ. Тем не менее для сигналов дальнего поля, то есть для сигналов, разность величин которых очень близка к нулевому значению, ослабление имеет очень большое значение. Таким образом, шумовые сигналы дальнего поля сильно ослабляются, тогда как требуемые сигналы источника ближнего поля сохраняются системой.
Принимая во внимание, что эффект применения вышеописанной обработки схож с процессом затухания, может быть определен более простой подход для выполнения шумоподавления. Используя значение X( , ,d,r), значение ослабления может быть произведено напрямую, и это значение ослабления может быть применено либо только ко входному сигналу, либо к комбинации из двух входных сигналов (например, их среднему значению или т.п.). Этот подход упрощает вычисления и, таким образом, уменьшает потребляемую вычислительную мощность. В свою очередь, экономия вычислительной мощности приводит к увеличению срока службы батареи, а также к сокращению ее стоимости и размеров.
Значение ослабления, которое должно быть применено, может быть получено из справочной таблицы или может быть вычислено в масштабе реального времени посредством простой функции или посредством любого другого общего средства для создания одной величины при заданной другой величине. Таким образом, в масштабе реального времени должно быть вычислено только Уравнение (10) и результирующее значение X( , ,d,r), становится ссылкой или указателем на предварительно вычисленную таблицу ослабления или оно сравнивается с фиксированным предельным значением или предельными значениями, содержащимися в справочной таблице. Альтернативно, значение X( , ,d,r) становится значением независимой переменной в функции ослабления. В целом, подобная функция ослабления проще для вычисления, чем вышеописанное Уравнение (11).
Следует отметить, что разность X( , ,d,r)2 интенсивности входного сигнала содержит ту же информацию, что и разность X( , ,d,r) величин входных сигналов. Следовательно, в этом способе вместо разности величин может быть использована разность интенсивности с соответствующей корректировкой. Используя отношение интенсивности, можно сэкономить вычислительную мощность, потребляемую операцией извлечения квадратного корня в Уравнении (10), и достигается более эффективная реализация системного процесса. Аналогично, разность мощности или энергии и т.п. также может быть использована взамен разности Х( , ,d,r) величин.
В одной реализации отношение величин между сигналом переднего микрофона и сигналом заднего микрофона, X( , ,d,r), используется напрямую, без коррекции смещения, либо как ссылка на справочную таблицу, либо как значение входной переменной в функции ослабления, которое вычисляется в течение применения процесса. Если используется таблица, то она содержит предварительно вычисленные значения из той же или схожей функции ослабления. Ниже приведены два примера подходящих функций. Тем не менее эти функции не являются единственными возможными функциями ослабления, и специалистам в данной области техники будет очевидно, что любая подобная функция входит в объем настоящего изобретения.
Как описано выше, фиг.8 иллюстрирует характеристику ослабления, которая производится путем использования Уравнений (10) и (11). Желательно получить такую же характеристику, используя данный способ прямого ослабления. Эта цель может быть достигнута путем применения следующей функции, чтобы напрямую вычислить ослабление, которое должно быть применено.
где rm представляет собой расстояние до желаемого или целевого источника (в этом примере - это рот пользователя), причем согласно вышеприведенному примеру log(X( , ,d,rm))=3 дБ/20. Ожидается, что значение attn( , ,d,r) меняется в диапазоне от 0 до 1 по мере приближения источника звука с удаленного местоположения к местоположению рта пользователя. Без изменения диапазона ослабления форма характеристики ослабления, обеспечиваемого Уравнением (12), может быть модифицирована путем изменения степени с квадратной на другую, например на 1,5 или 3, что в итоге модифицирует ослабление с менее агрессивного к более агрессивному уменьшению шума.
На фиг.9 характеристика ослабления, обеспечиваемого Уравнением (12), показана сплошной линией, и для сравнения характеристика ослабления, обеспечиваемого Уравнением (11), показана пунктирной линией. В этом графике масштаб разности величин входных сигналов увеличен, чтобы показать производительность в диапазоне 6 дБ. Обе характеристики ослабления идентичны в диапазоне разности величин входных сигналов от 0 до 3 дБ. Однако характеристика ослабления по Уравнению (11) продолжает расти для разностей входного сигнала выше 3 дБ, тогда как характеристика по Уравнению (12) для тех же значений уменьшается и возвращается к нулевому значению для разностей 6 дБ. Таким образом, этот способ может создать выходной сигнал с более эффективным уменьшением шума.
Само собой разумеется, что теоретически разности не должны превышать 3 дБ, но с практической точки зрения определенные помехи, такие как шум ветра, микрофонный эффект и статическая переменность, которая возникает при краткосрочных измерениях, могут создать подобные разности сигналов. В любом случае их дополнительное ослабление будет полезным.
На фиг.9 в виде кривой а также показана еще одна опциональная характеристика ослабления, иллюстрирующая то, как могут быть применены кривые ослабления. Кривая а является результатом использования следующей функции ослабления:
где w представляет собой параметр, который управляет шириной характеристики ослабления, a fl представляет собой параметр, который управляет плоскостью вершины характеристики ослабления. В данном случае параметры установлены в значения w=1,6 и fl=4, но также могут быть применены другие значения. Кроме того, в этом случае также могут быть применены пороговые значения ослабления, как описано ниже.
Фиг.10 представляет собой структурную схему, иллюстрирующую порядок реализации подобного алгоритма для создания процесса уменьшения шума без необходимости вычисления Уравнения (11) в масштабе реального времени.
Здесь следует отметить, что использование способов STFT к действительным сигналам часто не дает идеальных результатов, и существует множество причин, по которым в сигналах будет присутствовать некоторая статическая переменность. Так, будут ситуации, когда значение X( , ,d,r) превышает разность 3 дБ, и ситуации, когда она будет меньше разности 0 дБ. В этих случаях можно предположить, что текущий сигнал не дольше интересующего сигнала, и что он может быть полностью ослаблен. Таким образом, ослабление может быть модифицировано путем полного ослабления этих экстремальных случаев. Следующее уравнение реализует это дополнительное полное ослабление, однако в рамках объема настоящего изобретения также могут использоваться другие способы.
Уравнение (14) принудительно обнуляет вывод, когда разность величин входных сигналов находится вне ожидаемого диапазона. Специалисты в данной области техники также могут выбрать другие пороговые значения полного ослабления. Фиг.11 представляет собой структурную схему этого способа обработки, который применяет полное ослабление выходного сигнала, создаваемого в блоке 32 обработки "вычислить вывод". Выходной сигнал, созданный в этом блоке, может использоваться для вычисления, описанного на подходе согласно Уравнению (11), например.
Более простая функция ослабления может быть достигнута путем проведения выбранного сигнала, когда X( , ,d,r) близко по значению к Х( , ,d,rm), и путем установки выходного сигнала в нулевое значение, когда X( , ,d,r) находится вне диапазона. То есть к сигналу применяется простое ослабление посредством "набора узкополосных фильтров", чтобы полностью ослабить сигнал, когда он вне диапазона. Например, в графике с Фиг.9 для всех разностей величин входных сигналов ниже 0 дБ или выше 6 дБ вывод может быть установлен в нулевое значение, тогда как промежуточные значения могут быть подвержены ослаблению согласно характеристике ослабления, такой как описанные выше, или просто проведены без ослабления. Таким образом, на выход системы проводятся только желаемые и ожидаемые сигналы.
Еще одна альтернатива заключается в сравнении значений разности X( , ,d,r) величин входных сигналов с верхним и нижним пороговыми значениями, содержащимися в таблице значений, проиндексированных посредством номеров элементов частотного разрешения. Когда значение Х( , ,d,r) лежит между этими двумя пороговыми значениями, выбранное значение входного сигнала или значение комбинированного сигнала используется в качестве выходного значения. Когда значение X( , ,d,r) больше верхнего порогового значения или ниже нижнего порогового значения, выбранное значение входного сигнала или комбинированного сигнала ослабляется либо путем установки вывода в нулевое значение, либо путем плавного ослабления как функции от величины, на которую X( , ,d,r) смещено от соответствующего порогового значения. Один простой способ плавного ослабления заключается в применении величины ослабления, вычисленной согласно следующей функции ослабления:
где R определяет степень ослабления. Если R= (или, более конкретно, когда R равно любому очень большому числу), то ослабление эффективно устанавливается в нулевое значение, когда разность сигналов находится вне намеченного диапазона, как описано выше. При более низких значениях параметра R ослабление выполняется более плавно, когда разность величин входных сигналов превышает какой-либо из пределов. Фиг.12 представляет собой иллюстрацию структурной схемы одного подхода вычисления для ограничения вывода ожидаемых сигналов. Так, значение разности X( , ,d,r) величин входных сигналов сравнивается с парой пороговых значений, по одной паре на элемент частотного разрешения, которые были предварительно вычислены и сохранены в справочной таблице. Альтернативно, пороговые значения могут вычисляться в масштабе реального времени согласно соответствующему набору функций или уравнений за счет дополнительной вычислительной мощности, но с экономией использования памяти. Альтернативно, пороговые значения могут представлять собой одну фиксированную пару значений, которые одинаковым образом применяются ко всем частотам. Если X находится в допустимом диапазоне, то вычисленный сигнал пропускается на выход, тогда как если значение X лежит вне доступного диапазона, то сигнал ослабляется либо полностью (R= ), либо частично.
Фиг.13 представляет собой пример таблицы пороговых значений, вычисленных согласно следующим функциям:
где n представляет собой номер элемента частотного разрешения для преобразования Фурье, N представляет собой размер DFT, выраженный как степень числа 2 (здесь использовано значение 7), q представляет собой параметр, который определяет плавность частоты (в настоящем примере использовано значение 3,16), z представляет собой максимальную величину Lolim (в данном примере 1,31), a представляет собой минимальную величину Hilim (в данном примере 1,5). Фиг.14А и 14В представляют собой иллюстрации этого набора пороговых значений в сочетании с частотой элемента разрешения для частоты дискретизации 8 кГц.
В обоих графиках линии а и b иллюстрируют график пороговых значений. Верхняя линия а иллюстрирует набор значений Hilim, a нижняя линия b иллюстрирует набор значений Lolim. Пунктирная линия с представляет собой ожидаемое геометрическое место точек сигнала цели или рта, тогда как точечная линия d представляет собой ожидаемое геометрическое место точек шума дальнего поля.
На фиг.14А линия е представляет фактические данные из реальных акустических измерений, полученных из системы обработки, где сигнал представлял собой розовый шум, производимый искусственным голосом в тестовом манекене. Гарнитура находилась на правом ухе манекена. Следует отметить, что линия е, иллюстрирующая график разности величин входных сигналов для этих измеренных данных, с большой точностью совпадает с пунктирной линий с, хотя присутствуют некоторые отклонения из-за статической случайности этого сигнала и применения STFT. В графике с фиг.14В сигнал розового шума вместо этого воспроизводится громкоговорителем, расположенным на расстоянии 2 м от манекена. Линия е, иллюстрирующая разность величин входных сигналов для измененных данных шума, с большой точностью совпадает с точечной линией с небольшим отклонением.
Используя описанный выше принцип ослабления, сигналы, попадающие вне "конуса", образуемого линиями а и b, будут ослаблены. Таким образом, легко заметить, что большая часть шума (в частности, с частотой выше 1000 Гц) будет ослаблена, тогда как большая часть голосового сигнала будет проведена на выход с небольшой модификацией или без нее. В верхнем правом углу каждого графика показан выходной сигнал как функция от времени. Для каждого измерения был установлен идентичный уровень громкости у гарнитуры, так что уменьшение сигнала на этих графиках временной области обусловлено обработкой ослабления, а не эффектом 1/r.
Само собой разумеется, что существует множество функций для образования плавности и ограничения, которые могут быть применены вместо функций согласно Уравнениям (11), (12) и (13), и в настоящем документе подразумевается применение любой подобной функции.
Функция ослабления или коэффициенты функции ослабления могут различаться для каждого элемента частотного разрешения. Аналогично, пороговые значения для полного ослабления могут отличаться для каждого элемента частотного разрешения. На самом деле, в приложении гарнитуры для голосовой связи полезно плавно менять характеристику ослабления и/или пороговые значения полного ослабления таким образом, чтобы диапазон значений X( , ,d,r), для которого неослабленный сигнал проходит на выход, становился уже, то есть ослабление становилось более агрессивным для высоких частот, как показано на Фиг.14А и 14В.
Во второй реализации применяется перестановка ролей, выполняемых разностью величин входных сигналов. Если заранее определить разность уровней целевого сигнала на микрофонах до обработки, то можно компенсировать эту разность уровней посредством предварительно вычисленной коррекции. После корректировки разности величин входных сигналов для целевого сигнала два входных целевых сигнала согласуются (то есть разность величин входных сигналов будет равна 0 дБ), но величины сигналов для источников шума дальнего поля больше не будут согласованы.
Данный пример отличается от согласованных характеристик преобразователей, описанных выше. Если характеристики преобразователей согласованы, то это означает, что каждый согласованный преобразователь выводит одинаковый сигнал, когда он установлен в одно и то же место и возбуждается одним и тем же комплексным акустическим входным сигналом. В данном случае согласование происходит для сигналов, выводимых каждым преобразователем, но когда эти преобразователи находятся в отдельных (разных) местоположениях, где они принимают разные комплексные входные сигналы. Этот тип согласования обозначается термином "согласование сигналов".
Согласование сигналов для целевого сигнала легче выполнить и оно более надежно, что, частично, обусловлено тем, что статистически с большей вероятностью целевой сигнал будет наибольшим входным сигналом, что облегчает его детектирование и использование для целей согласования. Это предоставляет широкие возможности для применения непрерывных, автоматических алгоритмов согласования реального времени для простоты изготовления и надежной работы. В подобных алгоритмах согласования используется так называемый Детектор Голосовой Активности (Voice Activity Detector, VAD), чтобы определять доступность целевого сигнала и, далее, выполняется обновление таблицы согласования или величины усиления сигнала, которая может быть применена цифровым образом после аналого-цифрового преобразования или применена путем управления коэффициентом(ами) усиления, например, чтобы выполнить согласование. В течение периодов, когда вывод VAD указывает, что целевой сигнал отсутствует, предыдущие коэффициенты согласования сохраняются и используются, но не обновляются. Часто это обновление может происходить с очень низкой частотой, от нескольких минут до нескольких дней, поскольку любой сдвиг сигнала очень медленный, и это означает, что объем вычислений для поддержки подобного согласования может быть чрезвычайно малым, при котором потребляется только небольшая доля дополнительной вычислительной мощности.
В литературе описано множество систем VAD по предшествующему уровню техники. Они включают в себя как простые детекторы, так и более сложные детекторы. Простое детектирование часто основано на восприятии величины, энергии, интенсивности или других характеристик мгновенного уровня сигнала, и на последующем определении наличия голоса на основании того, находится ли эта характеристика выше некоторого порогового значения, которое может быть фиксированным или адаптивно модифицируемым пороговым значением, которое отслеживает средний уровень или некоторый общий уровень сигнала, чтобы учитывать медленные изменения уровня сигнала. В более сложных системах VAD может использоваться разная статистическая информация о сигналах, чтобы определять модуляцию сигнала и детектировать активность голосовой части сигнала, либо детектировать, что в данный момент сигнал являет собой просто шум.
Если определяется, что сигналы преобразователя имеют одинаковую частотную характеристику и не будет сдвига, достаточного для возникновения проблемы, а только будет изменение в уровне сигнала, то согласование сводится к предоставлению усиления предусилителя заднего микрофона, причем величина упомянутого усиления должна быть больше на величину, которая корректирует небаланс уровня сигнала. В описанном примере эта величина будет равной 3 дБ. Та же коррекция, альтернативно, может быть выполнена путем установки аналого-цифрового масштаба заднего микрофона более чувствительным, или даже в цифровой области путем умножения каждой выборки на корректирующую величину. Если определяется, что частотные характеристики не согласуются, то усиление сигнала в частотной области после преобразования может обеспечить некоторое преимущество, поскольку каждая частотная полоса или элемент разрешения может быть усилен на разную величину согласования, чтобы скорректировать рассогласование по частоте. Альтернативно, может быть уменьшен или ослаблен сигнал переднего микрофона, чтобы обеспечить согласование.
Значения усиления/ослабления, используемые для согласования, могут содержаться в таблице согласования и считываться оттуда при необходимости, либо они могут быть вычислены в масштабе реального времени. Если используется таблица, то значения таблицы могут быть фиксированными или регулярно обновляться посредством алгоритмов согласования, как описано выше.
После согласования уровней частей целевого сигнала для уменьшения шума может быть применен любой из способов ослабления, описанных выше, но разность величин введенных сигналов сначала сдвигается на значение коррекции согласования или значения таблицы ослабления сдвигаются на величину коррекции согласования.
Например, если задний сигнал усиливается на 3 дБ, чтобы обеспечить согласование целевого сигнала, то отношение величин входных сигналов X( , ,d,rm)=1 (то есть 0 дБ), когда на входе присутствует целевой сигнал, и Х( , ,d,r)=0,707 (то есть -3 дБ), когда присутствует шум. Для применения ослабления согласно первому подходу ослабления Х( , ,d,r) сначала сдвигается на коэффициент усиления согласования, который в данном случае равен 3 дБ. Таким образом, Хс ( , ,d,r)=1,414×X( , ,d,r) и Хс( , ,d,rm)=1,414×X( , ,d,rm) используются в Уравнении (12), чтобы найти соответствующее ослабление, где нижний индекс с обозначает скорректированное отношение величин.
Устойчивость к шуму ветра
Еще одним шумовым компонентом, который должен учитываться в любой микрофонной системе, является шум ветра. Шум ветра в действительности не является акустическим, он скорее вызван эффектом турбулентности воздуха, движущегося вдоль портов микрофонов. Следовательно, шум ветра в каждом порте эффективно не корректируется, тогда как акустические звуки корректируются с высокой степенью точности.
Среди направленных микрофонов градиента давления ненаправленные микрофоны или микрофоны нулевого порядка имеют самую низкую чувствительность к шуму ветра, и описанная здесь система обеспечивает характеристики нулевого порядка. Это делает описанную систему, по существу, устойчивой к шуму ветра.
Тем не менее нижеописанные способы ослабления еще более эффективны для противодействия шуму ветра. Поскольку шум ветра является некоррелированным на портах каждого микрофона матрицы, статистически большая часть шума ветра имеет разность X( , ,d,r) величин входных сигналов, которая находится вне полезного диапазона для акустических сигналов. Поскольку полезный диапазон для акустических сигналов в настоящем примере гарнитуры определяется значениями от 0 дБ до 3 дБ, другие комбинации сигналов, которые производят значения для Х( , ,d,r) вне полезного диапазона, автоматически будут уменьшены до нулевого значения, тем самым усиливая выходной сигнал только тогда, когда они находятся в полезном диапазоне. Статистически, это происходит очень нечасто, и результатом является то, что шум ветра, по существу, уменьшается благодаря описанному ограничивающему эффекту.
Комбинирование описанных выше подходов может быть полезным. Например, выходной сигнал, созданный посредством одного из описанных подходов, может быть подвержен дополнительному уменьшению шума путем последующего применения второго описанного подхода. Одна особенно полезная комбинация заключается в применении подхода пороговых значений согласно Уравнению 14 к выходному сигналу по подходу согласно Уравнению 11. Эта комбинация проиллюстрирована посредством структурной схемы обработки, показанной на фиг.12.
Альтернативные применения
Когда доступно средство для получения чистого сигнала в условиях (значительного) шума, это средство может быть использовано в качестве компонента в более сложных системах для достижения других целей. Использование описанной системы и матрицы сенсоров для произведения чистых голосовых сигналов означает, что эти чистые голосовые сигналы доступны для других применений, например в качестве эталонного сигнала в системе спектрального вычитания. Если исходный шумовой сигнал, например шумовой сигнал с переднего микрофона, направляется в процесс спектрального вычитания вместе с чистым голосовым сигналом, то часть чистого голоса может быть точно вычтена из шумового сигнала, оставляя только точную, мгновенную версию самого шума. Этот сигнал, содержащий только шум, может быть использован в наушниках с шумоподавлением или других системах шумоподавления для повышения их эффективности. Аналогично, если эхо представляет проблему в двухсторонней системе связи, то имея чистую версию сигнала эха, можно существенно улучшить эффективность способов и систем подавления эха.
Еще одно применение заключается в чистом захвате отдаленных сигналов с игнорированием и ослаблением сигналов ближнего поля. Здесь "шум" дальнего поля представляет желаемый сигнал. Подобная система применима в слуховых аппаратах, микрофонных системах дальнего поля, таких как используемые для спортивных мероприятий, астрономии и радиоастрономии, когда локальные электромагнитные источники создают помехи при просмотре и измерениях, для интервью в сфере радио и телевидения и т.п.
Еще одно применение заключается в сочетании множества систем, описанных в настоящем документе, для достижения лучшего уменьшения шума путем суммирования их выводов или даже путем подавления вывода, когда два сигнала отличаются. Например, применение двух датчиков типа гарнитуры, внедренных в военную каску на каждой из сторон или на одной и той же стороне, обеспечивает возможность превосходного, надежного и избыточного захвата голоса в условиях чрезвычайно сильного шума, без применения подвесного микрофона, который подвержен повреждениям и неисправностям.
Несмотря на то, что описание приведено для использования в маленьких наушных гарнитурах, настоящая система предоставляет подход для создания большой дискриминации между сигналами ближнего поля и сигналами дальнего поля в любом приложении восприятия волн. Настоящая система эффективна как с точки зрения потребления вычислительной мощности, заряда батареи, малых размеров и минимального количества чувствительных элементов, так и с точки зрения функциональности.
Фиг.15 иллюстрирует график чувствительности как функции от расстояния между источником и микрофонной матрицей вдоль оси матрицы. Нижняя кривая (обозначенная буквой а) представляет характеристику ослабления вышеописанного примера гарнитуры. А нижняя кривая (обозначенная буквой b) представляет характеристику ослабления обычного высококлассного подвесного микрофона, в котором используется микрофон градиента давления первого порядка с шумоподавлением, расположенный на расстоянии 1 дюйм от края рта. Эта конфигурация подвесного микрофона рассматривается большинством специалистов в области аудиотехнологий как наилучшая из доступных систем захвата голоса, и она используется во многих приложениях, где присутствует сильный шум, таких как концерты, воздушные суда и военная сфера. Следует отметить, что описанная система превосходит по характеристикам подвесной микрофон почти во всем диапазоне расстояний, то есть она имеет более низкую чувствительность к захвату шума.
Фиг.16 иллюстрирует те же данные, но в логарифмическом представлении. Здесь можно заметить, что кривая b, соответствующая обычному подвесному микрофону, начинается с точки, расположенной ближе к левому краю, поскольку он расположен ближе ко рту пользователя. Кривая, соответствующая характеристике описанной в настоящем документе системы, начинается в точке, расположенной ближе к правому краю, на расстоянии примерно 0,13 см (5 дюймов), поскольку это расстояние представляет дистанцию между ртом и передним микрофоном гарнитуры, установленной на ухе. За пределами диапазона в 0,3 м (1 фут) сигналы из источников шума ослабляются в значительно большей степени системой, описанной в настоящем документе, чем обычным подвесным микрофоном "золотого стандарта". Вместе с тем эта характеристика достигается посредством микрофонной матрицы, расположенной в пять раз дальше от источника желаемого сигнала. Эта улучшенная характеристика обеспечивается благодаря наклону отношения ослабления к расстоянию, которое в два раза больше соответствующего наклона для обычного устройства.
Преимущества, которые могут быть достигнуты, включают в себя любое или все из нижеперечисленных:
- Плоская характеристика целевого сигнала нулевого порядка - отсутствие эффекта близости
- Характеристика шума дальнего поля второго порядка - очень большой наклон зависимости ослабления от расстояния
- Невосприимчивость к шуму ветра
- Отражение и подавление эха
- Работа в окружениях с отрицательным отношением SNR
- Высокая точность голоса - для способности автоматического распознавания речи и качества работы устройств hands-free
- Очень сильное уменьшение шума - во всех условиях шума
- Работает как с нестационарным, так и со стационарным шумом - даже импульсными звуками
- "Мгновенная" адаптация - отсутствие задержки адаптации
- Совместимость с другим оборудованием связи и процессами сигналов
- Компактный размер - с легкостью вмещается в коммерчески доступные гарнитуры
- Низкая стоимость - минимальное количество элементов матрицы и высокая вычислительная эффективность
- Низкий уровень потребления заряда батареи - долгий срок службы батареи и быстрая перезарядка
- Малый вес
Альтернативные конфигурации, например, для восприятия дальнего поля, создания сигнала VAD и т.п.
Вышеописанные примеры осуществления настоящего изобретения не предназначены для определения его рамок. Специалистам в данной области техники должно быть очевидно, что могут быть выполнены различные модификации настоящего изобретения в рамках его сущности, и рамки настоящего изобретения определяются нижеследующей формулой изобретения.
Класс G06F3/16 ввод с помощью звука; вывод в виде звука