средство обнаружения голосовой активности с использованием нескольких микрофонов
Классы МПК: | G10L11/02 обнаружение наличия или отсутствия сигналов речи G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала |
Автор(ы): | ВАН Сун (US), ГУПТА Самир Кумар (US), ЧОЙ Эдди Л.Т. (US) |
Патентообладатель(и): | КВЭЛКОММ ИНКОРПОРЕЙТЕД (US) |
Приоритеты: |
подача заявки:
2008-09-26 публикация патента:
10.05.2012 |
Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов. Техническим результатом является повышение надежности обнаружения голосовой активности. Указанный результат достигается тем, что в способе обнаружения голосовой активности принимают речевой сигнал от микрофона для восприятия речи, принимают шумовой сигнал от микрофона для восприятия шумов, отличного от микрофона для восприятия речи, определяют характеристическое значение речи на основе, по меньшей мере, частично, речевого сигнала, причем этап определения характеристического значения речи содержит этап, на котором определяют абсолютное значение автокорреляции речевого сигнала, определяют объединенное характеристическое значение на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, причем этап определения объединенного характеристического значения содержит этап, на котором определяют взаимную корреляцию на основе речевого сигнала и шумового сигнала, определяют метрику голосовой активности на основе, по меньшей мере, частично, одного из речевого характеристического значения и объединенного характеристического значения и отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции и определяют состояние голосовой активности на основе метрики голосовой активности. 5 н. и 17 з.п. ф-лы, 9 ил.
Формула изобретения
1. Способ обнаружения голосовой активности, содержащий этапы, на которых:
принимают речевой сигнал от микрофона для восприятия речи;
принимают шумовой сигнал от микрофона для восприятия шумов, отличного от микрофона для восприятия речи;
определяют характеристическое значение речи на основе, по меньшей мере, частично, речевого сигнала, причем этап определения характеристического значения речи содержит этап, на котором определяют абсолютное значение автокорреляции речевого сигнала;
определяют объединенное характеристическое значение на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, причем этап определения объединенного характеристического значения содержит этап, на котором определяют взаимную корреляцию на основе речевого сигнала и шумового сигнала;
определяют метрику голосовой активности на основе, по меньшей мере, частично, одного из речевого характеристического значения и объединенного характеристического значения и отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции; и
определяют состояние голосовой активности на основе метрики голосовой активности.
2. Способ по п.1, дополнительно содержащий этап, на котором формируют диаграмму направленности, по меньшей мере, либо речевого сигнала, либо шумового сигнала.
3. Способ по п.1, дополнительно содержащий этап, на котором выполняют слепое разделение источников (BSS) применительно к речевому сигналу и шумовому сигналу для выделения речевого компонента сигнала в речевом сигнале.
4. Способ по п.1, дополнительно содержащий этап, на котором выполняют спектральное вычитание применительно, по меньшей мере, к речевому или шумовому сигналу.
5. Способ по п.1, дополнительно содержащий этап, на котором определяют характеристическое значение шумов на основе, по меньшей мере, частично, шумового сигнала, и причем метрика голосовой активности основывается, по меньшей мере, частично, на характеристическом значении шумов.
6. Способ по п.1, в котором речевой сигнал включает в себя наличие или отсутствие речевой активности.
7. Способ по п.6, в котором автокорреляция содержит взвешенную сумму предшествующей автокорреляции с речевой энергией в конкретном интервале времени.
8. Способ по п.1, в котором этап определения речевого характеристического значения содержит этап, на котором определяют энергию речевого сигнала.
9. Способ по п.1, в котором этап определения состояния голосовой активности содержит этап, на котором сравнивают метрику голосовой активности с пороговым значением.
10. Способ по п.1, в котором:
микрофон для восприятия речи содержит, по меньшей мере, один речевой микрофон;
микрофон для восприятия шумов содержит, по меньшей мере, один шумовой микрофон, отличный, по меньшей мере, от одного речевого микрофона;
этап определения речевого характеристического значения содержит этап, на котором определяют автокорреляцию на основе речевого сигнала; и
этап определения состояния голосовой активности содержит этап, на котором сравнивают метрику голосовой активности, по меньшей мере, с одним пороговым значением.
11. Способ по п.10, дополнительно содержащий этап, на котором выполняют выделение, по меньшей мере, или речевого, или шумового сигнала и где метрика голосовой активности основывается, по меньшей мере, частично, либо на выделенном речевом сигнале, либо на выделенном шумовом сигнале.
12. Способ по п.10, дополнительно содержащий этап, на котором изменяют рабочий параметр на основе состояния голосовой активности.
13. Способ по п.12, в котором рабочий параметр содержит усиление, применяемое к речевому сигналу.
14. Способ по п.12, в котором рабочий параметр содержит состояние средства кодирования речи, оперирующего с речевым сигналом.
15. Устройство, сконфигурированное для обнаружения голосовой активности, содержащее:
микрофон для восприятия речи, сконфигурированный для вывода речевого сигнала;
микрофон для восприятия шумов, сконфигурированный для вывода шумового сигнала;
генератор речевых характеристических значений, соединенный с микрофоном для восприятия речи, а также сконфигурированный для определения речевого характеристического значения, причем этап определения речевого характеристического значения содержит этап, на котором определяют абсолютное значение автокорреляции речевого сигнала;
генератор объединенных характеристических значений, соединенный с микрофоном для восприятия речи и микрофоном для восприятия шумов, а также сконфигурированный для определения объединенного характеристического значения, причем этап определения объединенного характеристического значения содержит этап, на котором определяют взаимную корреляцию на основе речевого сигнала и шумового сигнала;
модуль метрики голосовой активности, сконфигурированный для определения метрики голосовой активности на основе, по меньшей мере, частично, одного из характеристического значения речи и объединенного характеристического значения и отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции; и
средство сравнения, сконфигурированное для сравнения метрики голосовой активности с пороговым значением, а также для вывода состояния голосовой активности.
16. Устройство по п.15, в котором микрофон для восприятия речи включает в себя несколько микрофонов.
17. Устройство по п.15, в котором генератор характеристических значений речи сконфигурирован для определения средневзвешенного значения на основе экспоненциального затухания предшествующих речевых характеристических значений.
18. Устройство по п.15, в котором модуль метрики голосовой активности сконфигурирован для определения отношения речевого характеристического значения к шумовому характеристическому значению.
19. Устройство, сконфигурированное с возможностью обнаружения голосовой активности, содержащее:
средство для приема речевого сигнала;
средство для приема шумового сигнала;
средство для определения автокорреляции на основе речевого сигнала;
средство для определения взаимной корреляции на основе речевого сигнала и шумового сигнала;
средство для определения метрики голосовой активности на основе, частично, отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции;
средство для определения состояния голосовой активности посредством сравнения метрики голосовой активности, по меньшей мере, с одним пороговым значением; и
средство для калибровки спектральной чувствительности пути прохождения речевого сигнала так, чтобы она была, по существу, аналогичной спектральной чувствительности пути прохождения шумового сигнала.
20. Машиночитаемый носитель информации, включающий в себя команды, которые, при исполнении одним или более процессором, предписывают одному или более процессорам выполнять способ обнаружения голосовой активности, причем команды включают в себя:
команды для определения речевого характеристического значения на основе, по меньшей мере, частично, речевого сигнала, по меньшей мере, от одного микрофона для восприятия речи, причем этап определения речевого характеристического значения содержит этап, на котором определяют абсолютное значение автокорреляции речевого сигнала;
команды для определения объединенного характеристического значения на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, по меньшей мере, от одного микрофона для восприятия шумов, причем этап определения объединенного характеристического значения содержит этап, на котором определяют взаимную корреляцию на основе речевого сигнала и шумового сигнала;
команды для определения метрики голосовой активности на основе, по меньшей мере, частично, одного из речевого характеристического значения и объединенного характеристического значения и отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции; и
команды для определения состояния голосовой активности на основе метрики голосовой активности.
21. Схема, сконфигурированная с возможностью обнаружения голосовой активности, содержащая:
первый блок, выполненный с возможностью приема выходного речевого сигнала от микрофона для восприятия речи;
второй блок, выполненный с возможностью приема выходного сигнала от микрофона для восприятия шумов;
третий блок, содержащий генератор речевых характеристических значений, соединенный с первым блоком, сконфигурированный для определения речевого характеристического значения, причем этап определения речевого характеристического значения содержит этап, на котором определяют абсолютное значение автокорреляции речевого сигнала;
четвертый блок, содержащий генератор объединенных характеристических значений, соединенный с первым блоком и вторым блоком, сконфигурированный для определения объединенного характеристического значения, причем этап определения объединенного характеристического значения содержит этап, на котором определяют взаимную корреляцию на основе речевого сигнала и шумового сигнала;
пятый блок, содержащий модуль метрики голосовой активности, сконфигурированный для определения метрики голосовой активности на основе, по меньшей мере, частично, одного из речевого характеристического значения и объединенного характеристического значения и отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции; и
средство сравнения, сконфигурированное для сравнения метрики голосовой активности с пороговым значением, а также для вывода состояния голосовой активности.
22. Схема по п.21, в которой любые два блока группы, состоящей из первого блока, второго блока, третьего блока, четвертого блока и пятого блока, содержат подобную схему.
Описание изобретения к патенту
Перекрестные ссылки на родственные заявки
Настоящая заявка относится к одновременно рассматриваемой заявке «Enhancement techniques for blind source separation» (реестровый номер поверенного 061193), переуступленной заявки на патент США № 11/551.509, поданной 20 октября 2006 года, а также к одновременно рассматриваемой заявке «Apparatus and method of noise and echo reduction in multiple microphone audio systems» (реестровый номер поверенного 061521), поданной одновременно с настоящей заявкой.
Область техники, к которой относится изобретение
Раскрытие относится к области обработки звука. В частности, раскрытие относится к обнаружению голосовой активности с использованием нескольких микрофонов.
Уровень техники
Средства обнаружения сигнальной активности, такие как средства обнаружения голосовой активности, могут быть использованы для минимизации нецелесообразной обработки в электронном устройстве. Средство обнаружения голосовой активности может выборочно управлять одним или несколькими этапами обработки сигналов, следующими после микрофона.
Например, устройство записи может реализовать средство обнаружения голосовой активности для минимизации обработки и записи шумовых сигналов. Средство обнаружения голосовой активности может отключить или иным способом дезактивировать обработку и запись сигналов в периодах отсутствия голосовой активности. Подобным образом устройство связи, такое как мобильный телефон, личное цифровое устройство или ноутбук, может реализовать средство обнаружения голосовой активности для сокращения мощности обработки, выделяемой шумовым сигналам, а также для сокращения шумовых сигналов, которые передаются или сообщаются удаленному приемному устройству иным способом. Средство обнаружения голосовой активности может отключить или дезактивировать обработку речи, а также передачу в периодах отсутствия голосовой активности.
Удовлетворительной работе средства обнаружения голосовой активности можно воспрепятствовать посредством изменения характеристик по шуму, а также характеристик по шуму, имеющих существенную энергию шумов. Работа средства обнаружения голосовой активности может быть дополнительно усложнена в случае, когда обнаружение голосовой активности интегрировано в мобильном устройстве, которое находится в динамической среде с наличием шумов. Мобильное устройство может работать как в средах с наличием малого количества шумов, так и в средах с наличием существенного количества шумов, где энергия шумов находится на порядке энергии речи.
Присутствие динамической среды с наличием шумов усложняет определение голосовой активности. Ошибочный индикатор голосовой активности может повлечь за собой обработку и передачу шумовых сигналов. Обработка и передача шумовых сигналов могут привести к низкокачественному восприятию пользователем, в частности, когда на основе индикатора отсутствия голосовой активности периоды передачи шумов вставляются средством обнаружения голосовой активности в периоды отсутствия активности.
С другой стороны, низкокачественное обнаружение речевой активности может привести к потере существенных частей речевых сигналов. Потеря начальных частей голосовой активности может привести к тому, что пользователь будет вынужден периодически повторять части речи, что является нежелательным.
Традиционные алгоритмы обнаружения голосовой активности (VAD) используют сигнал лишь от одного микрофона. Ранние алгоритмы VAD используют критерии, основанные на энергии. Этот тип алгоритма определяет пороговое значение для определения голосовой активности. Алгоритм VAD с использованием одного микрофона может нормально работать при стационарном шуме. Однако алгоритм VAD с использованием одного микрофона испытывает некоторые затруднения, связанные с нестационарным шумом.
Другая технология VAD подсчитывает нулевые пересечения сигналов, а также определяет голосовую активность на основе частоты нулевых пересечений. Этот способ может четко работать в случае, когда фоновый шум не является речевыми сигналами. В случае, когда фоновый сигнал является сигналом, подобным речевому, этот способ не может выполнить надежное определение. Для обнаружения голосовой активности также могут быть использованы другие отличительные признаки, такие как высота, форма форманта, кепстр и периодичность. Эти отличительные признаки обнаруживаются и сравниваются с речевым сигналом для определения голосовой активности.
Вместо использования речевых отличительных признаков для определения голосовой активности также могут быть использованы статистические модели наличия и отсутствия речи. В таких вариантах реализации статистические модели обновляются, а голосовая активность определяется на основе отношения правдоподобия статистических моделей. Другой способ для предварительной обработки сигнала использует сеть с одним микрофоном-источником. Определение выполняется с использованием выправленного сигнала ошибки нейронных сетей Лагранжа и адаптивного порогового значения активности.
Также были исследованы алгоритмы VAD на основе нескольких микрофонов. Варианты осуществления с использованием нескольких микрофонов для достижения надежного обнаружения могут объединить подавление шумов, адаптацию порогового значения и обнаружение высоты. Вариант осуществления использует линейную фильтрацию для максимизации отношения сигнал/шум (SNR). Затем для обнаружения голосовой активности с использованием выделенного сигнала используется способ, основанный на статистической модели. Другой вариант осуществления использует линейную решетку микрофонов и преобразования Фурье для формирования частотного представления выходного вектора решетки. Для определения отношения сигнал/шум (SNR) могут быть использованы частотные представления, а для обнаружения голосовой активности может быть использовано предварительно определенное пороговое значение. Другой вариант осуществления в способе VAD, основанном на двух средствах обнаружения, для обнаружения голосовой активности предлагает использовать когерентность квадрата величины (MSC) и адаптивное пороговое значение.
Многие алгоритмы обнаружения голосовой активности требуют больших затрат в вычислительном отношении и являются неподходящими для мобильного применения, где потребляемая энергия и вычислительная сложность представляют особый интерес. Однако мобильные применения также представляют неблагоприятные среды обнаружения голосовой активности, частично из-за динамической среды с наличием шумов, а также из-за нестационарной природы шумовых сигналов, возникающих на мобильном устройстве.
Сущность изобретения
Обнаружение голосовой активности с использованием нескольких микрофонов может быть основано на взаимосвязи между энергией в каждом микрофоне для восприятия речи и микрофоне для восприятия шумов. На выходе каждого микрофона для восприятия речи и микрофона для восприятия шумов может быть определена энергия. Отношение энергии речи к энергии шумов может быть определено и сравнено с предварительно определенным пороговым значением голосовой активности. В другом варианте осуществления определяется абсолютное значение корреляции речи и автокорреляции и/или абсолютное значение автокорреляции шумовых сигналов, а также на основе значений корреляции определяется отношение. Отношения, которые превышают предварительно определенное пороговое значение, могут указать на наличие речевого сигнала. Энергия речи и шумов или корреляции могут быть определены с использованием средневзвешенного значения или по размеру дискретного кадра.
Аспекты изобретения включают в себя способ обнаружения голосовой активности. Способ включает в себя этапы приема речевого сигнала от микрофона для восприятия речи, приема шумового сигнала от микрофона для восприятия шумов, отличного от микрофона для восприятия речи, определения характеристического значения речи на основе, по меньшей мере, частично, речевого сигнала, определения объединенного характеристического значения на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения и определения состояния голосовой активности на основе метрики голосовой активности.
Аспекты изобретения включают в себя способ обнаружения голосовой активности. Способ включает в себя этапы приема речевого сигнала, по меньшей мере, от одного микрофона для восприятия речи, приема шумового сигнала, по меньшей мере, от одного микрофона для восприятия шумов, отличного от микрофона для восприятия речи, определения абсолютного значения автокорреляции на основе речевого сигнала, определения взаимной корреляции на основе речевого сигнала и шумового сигнала, определения метрики голосовой активности на основе, частично, отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции и определения состояния голосовой активности посредством сравнения метрики голосовой активности, по меньшей мере, с одним пороговым значением.
Аспекты изобретения включают в себя устройство, сконфигурированное для обнаружения голосовой активности. Устройство включает в себя микрофон для восприятия речи, сконфигурированный для вывода речевого сигнала, микрофон для восприятия шумов, сконфигурированный для вывода шумового сигнала, генератор характеристических значений речи, соединенный с микрофоном для восприятия речи, а также сконфигурированный для определения характеристического значения речи, генератор объединенных характеристических значений, соединенный с микрофоном для восприятия речи и микрофоном для восприятия шумов, а также сконфигурированный для определения объединенного характеристического значения, модуль метрики голосовой активности, сконфигурированный для определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения, и средство сравнения, сконфигурированное для сравнения метрики голосовой активности с пороговым значением, а также для вывода состояния голосовой активности.
Аспекты изобретения включают в себя устройство, сконфигурированное для обнаружения голосовой активности. Устройство включает в себя средство для приема речевого сигнала, средство для приема шумового сигнала, средство для определения абсолютного значения автокорреляции на основе речевого сигнала, средство для определения взаимной корреляции на основе речевого сигнала и шумового сигнала, средство для определения метрики голосовой активности на основе, частично, отношения автокорреляции речевого сигнала к взаимной корреляции, а также средство для определения состояния голосовой активности посредством сравнения метрики голосовой активности, по меньшей мере, с одним пороговым значением.
Аспекты изобретения включают в себя считываемый процессором носитель, содержащий команды, которые могут быть использованы посредством одного или нескольких процессоров. Команды включают в себя команды для определения характеристического значения речи на основе, по меньшей мере, частично, речевого сигнала, по меньшей мере, от одного микрофона для восприятия речи, команды для определения объединенного характеристического значения на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, по меньшей мере, от одного микрофона для восприятия шумов, команды для определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения, а также команды для определения состояния голосовой активности на основе метрики голосовой активности.
Краткое описание чертежей
Отличительные признаки, задачи и преимущества вариантов осуществления раскрытия станут более понятны после прочтения подробного описания, изложенного ниже со ссылкой на чертежи, на которых одинаковым элементам присвоены одинаковые ссылочные номера.
Фиг.1 изображает упрощенную функциональную блок-схему устройства с несколькими микрофонами, работающего в среде с наличием шумов.
Фиг.2 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов.
Фиг.3 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности и компенсацией эхо.
Фиг.4A изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности с выделением сигналов.
Фиг.4B изображает упрощенную функциональную блок-схему выделения сигналов с использованием формирования диаграммы направленности.
Фиг.5 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности с выделением сигналов.
Фиг.6 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности с кодированием речи.
Фиг.7 изображает блок-схему упрощенного способа обнаружения голосовой активности.
Фиг.8 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов.
Подробное описание вариантов осуществления изобретения
Раскрыто устройство и способы обнаружения голосовой активности (VAD) с использованием нескольких микрофонов. Устройство и способы используют первый комплект или группу микрофонов, сконфигурированную, по существу, в ближнем поле точки полости рта (MRP), причем точка MRP считается позицией источника сигналов. Второй комплект или группа микрофонов может быть сконфигурирована, по существу, в позиции с более слабым речевым сигналом. В идеальном случае второй комплект микрофонов устанавливается, по существу, в среде с наличием шумов, аналогичной по отношению к среде первого комплекта микрофонов, но, по существу, не воспринимает ни один речевой сигнал. Некоторые мобильные устройства не допускают такую оптимальную конфигурацию, а допускают конфигурацию, в которой речевой сигнал, принятый первым комплектом микрофонов, является более мощным по сравнению с речевым сигналом, принятым посредством второго комплекта микрофонов.
Первый комплект микрофонов принимает и преобразовывает речевой сигнал, то есть, как правило, лучшего качества по сравнению со вторым комплектом микрофонов. По существу, первый комплект микрофонов можно считать микрофонами для восприятия речи, а второй комплект микрофонов можно считать микрофонами для восприятия шумов.
Модуль VAD может первоначально определить параметр на основе сигналов с каждого микрофона для восприятия речи и микрофона для восприятия шумов. Характеристические значения, соответствующие микрофонам для восприятия речи и микрофонам для восприятия шумов, используются для определения голосовой активности.
Например, модуль VAD может быть сконфигурирован для вычисления, оценки или иного определения энергии каждого сигнала от микрофонов для восприятия речи и микрофонов для восприятия шумов. Энергия может быть вычислена в предварительно определенные периоды речи и шумов, или же могут быть вычислены на основе кадра образцов речи и шумов.
В другом примере модуль VAD может быть сконфигурирован для определения автокорреляции сигналов каждого микрофона для восприятия речи и микрофона для восприятия шумов. Значения автокорреляции могут соответствовать предварительно определенному периоду или же могут быть вычислены по предварительно определенному интервалу кадра.
Модуль VAD может вычислить или иначе определить метрику активности на основе, по меньшей мере, частично, отношения характеристических значений. В одном варианте осуществления модуль VAD сконфигурирован для определения отношения энергии микрофонов для восприятия речи к энергии микрофонов для восприятия шумов. Модуль VAD может быть сконфигурирован для определения отношения автокорреляции микрофонов для восприятия речи к автокорреляции микрофонов для восприятия шумов. В другом варианте осуществления квадратный корень одного из вышеописанных отношений используется в качестве метрики активности. Модуль VAD сравнивает метрику активности с предварительно определенным пороговым значением для определения наличия или отсутствия голосовой активности.
Фиг.1 изображает упрощенную функциональную блок-схему рабочей среды 100, включающей в себя мобильное устройство 110 с несколькими микрофонами для обнаружения голосовой активности. Несмотря на то, что вышеописанное применительно к мобильному устройству, очевидно, что раскрытое в настоящем документе устройство и способы обнаружения голосовой активности не ограничиваются применением в мобильных устройствах и могут быть реализованы в стационарных устройствах, портативных устройствах, мобильных устройствах, а также могут функционировать в случаях, когда главное устройство является мобильным или стационарным.
Рабочая среда 100 изображает мобильное устройство 110 с несколькими микрофонами. Устройство с несколькими микрофонами включает в себя, по меньшей мере, один микрофон 112 для восприятия речи, изображенный на передней поверхности мобильного устройства 110, и, по меньшей мере, один микрофон 114 для восприятия шумов, изображенный на противоположной стороне мобильного устройства 110, по отношению к микрофону 112 для восприятия речи.
Несмотря на то, что мобильное устройство 110, изображенное на фиг.1, а также, в целом, изображенные на чертежах варианты осуществления изображают один микрофон 112 для восприятия речи и один микрофон 114 для восприятия шумов, мобильное устройство 110 может реализовать группу микрофонов для восприятия речи, а также группу микрофонов для восприятия шумов. Каждая группа микрофонов для восприятия речи, а также группа микрофонов для восприятия шумов может включать в себя один или несколько микрофонов. Группа микрофонов для восприятия речи может включать в себя отличное или аналогичное количество микрофонов по отношению к количеству микрофонов в группе микрофонов для восприятия шумов.
Кроме того, микрофоны группы микрофонов для восприятия речи, как правило, отличаются от микрофонов группы микрофонов для восприятия шумов, но это не является абсолютным ограничением, поскольку один или несколько микрофонов могут совместно использоваться в двух группах микрофонов. Однако связка группы микрофонов для восприятия речи с группой микрофонов для восприятия шумов включает в себя, по меньшей мере, два микрофона.
Микрофон 112 для восприятия речи изображен на поверхности мобильного устройства 110, то есть, в целом, противоположной по отношению к поверхности, имеющей микрофон 114 для восприятия шумов. Размещение микрофона 112 для восприятия речи и микрофона 114 для восприятия шумов не ограничивается никакой физической ориентацией. Размещением микрофонов, как правило, управляют с учетом возможности изоляции речевых сигналов от микрофона 114 для восприятия шумов.
В целом, микрофоны двух групп микрофонов монтируются в различных позициях мобильного устройства 110. Каждый микрофон принимает свою собственную версию комбинации желательной речи и фоновых шумов. Как предполагается, речевой сигнал может исходить из источников ближнего поля. Уровень звукового давления (SPL) в двух группах микрофонов может быть различным, в зависимости от позиции микрофонов. Если один микрофон находится близко к точке полости рта (MRP) или источнику 130 речи, то может быть принят больший уровень SPL по сравнению с другим микрофоном, расположенным дальше от точки MRP. Микрофон с большим уровнем SPL называется микрофоном 112 для восприятия речи или первичным микрофоном, который формирует речевой сигнал, обозначенный sSP(n). Микрофон, имеющий меньший уровень SPL от точки MRP источника 130 речи, называется микрофоном 114 для восприятия шумов или вторичным микрофоном, который формирует шумовой сигнал, обозначенный sNS(n). Следует отметить, что речевой сигнал, как правило, содержит фоновые шумы, а шумовой сигнал также может содержать желательную речь.
Мобильное устройство 110 может включать в себя обнаружение голосовой активности, как более подробно описано ниже, для определения наличия речевого сигнала от источника 130 речи. Операция по обнаружению голосовой активности может быть усложнена посредством количества и распределения источников шумов, которые могут находиться в рабочей среде 100.
Шумы, возникающие на мобильном устройстве 110, могут иметь компонент существенного некоррелированного белого шума, а также может включать в себя один или несколько источников цветных шумов, например источников 140-1-140-4. Кроме того, мобильный телефон 110 может самостоятельно формировать помехи, например, в форме эхо-сигнала, которые передаются с выходного преобразователя 120 либо на микрофон 112 для восприятия речи, либо на микрофон 114 для восприятия шумов, либо на оба вышеупомянутых микрофона.
Один или несколько источников цветных шумов могут формировать шумовые сигналы, каждый из которых исходит из различных позиций и направлений по отношению к мобильному устройству 110. Как первый источник 140-1 шумов, так и второй источник 140-2 шумов может быть расположен ближе или на более прямом пути по отношению к микрофону 112 для восприятия речи, в то время как третий и четвертый источники 140-3 и 140-4 шумов могут быть расположены ближе или на более прямом пути по отношению к микрофону 114 для восприятия шумов. Кроме того, один или несколько источников шумов, например 140-4, могут формировать шумовой сигнал, который отражается от поверхности 150 или иначе преодолевает несколько путей до мобильного устройства 110.
Несмотря на то, что каждый источник шумов может внести существенный сигнал в микрофоны, каждый источник 140-1-140-4 шумов, как правило, располагается в дальнем поле и, следовательно, вносит, по существу, подобные уровни звукового давления (SPL) в каждый микрофон 112 для восприятия речи и микрофон 114 для восприятия шумов.
Динамическая природа величины, позиции и частотной характеристики, связанной с каждым шумовым сигналом, содействует сложности процесса обнаружения голосовой активности. Кроме того, мобильное устройство 110, как правило, питается энергией аккумулятора, и, следовательно, может быть затронуто потребление энергии, связанное с обнаружением голосовой активности.
Мобильное устройство 110 может выполнить обнаружение голосовой активности посредством обработки каждого сигнала от микрофона 112 для восприятия речи, а также микрофона 114 для восприятия шумов, для формирования соответствующих речевых и характеристических значений шумов. Мобильное устройство 110 может формировать метрику голосовой активности на основе, частично, характеристических значений речи и шумов, а также может определить голосовой активность посредством сравнения метрики голосовой активности с пороговым значением.
Фиг.2 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 110 с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов. Мобильное устройство 110 включает в себя микрофон 112 для восприятия речи, который может являться группой микрофонов, а также микрофон 114 для восприятия шумов, который может являться группой микрофонов для восприятия шумов.
Выход микрофона 112 для восприятия речи может быть соединен с первым аналого-цифровым преобразователем 212 (ADC). Несмотря на то, что мобильное устройство 110, как правило, реализовывает аналоговую обработку сигналов микрофона, такую как фильтрация и усиление, для ясности и краткости аналоговая обработка речевых сигналов не показана.
Выход микрофона 114 для восприятия шумов может быть соединен со вторым преобразователем 214 ADC. Аналоговая обработка шумовых сигналов, как правило, может быть, по существу, аналогичной аналоговой обработке, выполняемой по отношению к речевым сигналам, для поддержки, по существу, аналогичной спектральной чувствительности. Однако спектральная чувствительность частей аналоговой обработки не должна быть аналогичной, поскольку средство 220 калибровки может выполнить некую коррекцию. Кроме того, некоторые или же все функции средства 220 калибровки могут быть реализованы в частях аналоговой обработки, а не при цифровой обработке, изображенной на фиг.2.
Как первый, так и второй преобразователи 212 и 214 ADC преобразовывают свои соответствующие сигналы в цифровое представление. Оцифрованный выход первого и второго преобразователей 212 и 214 ADC соединен со средством 220 калибровки, которое функционирует, по существу, для уравнения спектральной чувствительности путей речевых и шумовых сигналов до обнаружения голосовой активности.
Средство 220 калибровки включает в себя калибровочный генератор 222, который сконфигурирован для определения коррекции выборочной частоты, а также для управления скаляром/фильтром 224, размещенным либо по пути прохождения речевого сигнала, либо по пути прохождения шумового сигнала. Калибровочный генератор 222 может быть сконфигурирован для управления скаляром/фильтром 224 для обеспечения фиксированной кривой чувствительности калибровки, или же калибровочный генератор 222 может быть сконфигурирован для управления скаляром/фильтром 224 для обеспечения динамической кривой чувствительности калибровки. Калибровочный генератор 222 может управлять скаляром/фильтром 224 для обеспечения изменяемой кривой чувствительности калибровки на основе одного или нескольких эксплуатационных параметров. Например, калибровочный генератор 222 может включать в себя или иначе обращаться к средству обнаружения мощности сигнала (не показан), а также может менять чувствительность скаляра/фильтра 224 в ответ на мощность речевого или шумового сигнала. Другие варианты осуществления могут использовать другие параметры или комбинацию параметров.
Средство 220 калибровки может быть сконфигурировано для определения калибровки, выполняемой посредством скаляра/фильтра 224 в период калибровки. Мобильное устройство 110 может быть первоначально откалибровано, например, на стадии изготовления или же может быть откалибровано согласно графику калибровки, который может инициировать калибровку после одного или нескольких событий, интервалов или комбинации событий и интервалов. Например, средство 220 калибровки может инициировать калибровку при каждом включении мобильного устройства или же при включении только по истечении предварительно определенного времени после последней калибровки.
В течение калибровки мобильное устройство 110 может находиться в состоянии, когда присутствуют источники дальнего поля, и оно не испытывает сигналы ближнего поля либо в микрофоне 112 для восприятия речи, либо в микрофоне 114 для восприятия шумов. Калибровочный генератор 222 отслеживает каждый речевой сигнал и шумовой сигнал, а также определяет относительную спектральную чувствительность. Калибровочный генератор 222 формирует или иначе характеризует сигнал управления калибровкой, который при применении к скаляру/фильтру 224 побуждает скаляр/фильтр 224 к компенсации относительных различий в спектральной чувствительности.
Скаляр/фильтр 224 может ввести усиление, ослабление, фильтрацию или некую другую обработку сигнала, которая, по существу, может компенсировать спектральные различия. Скаляр/фильтр 224 изображен размещенным на пути прохождения шумового сигнала, что может являться целесообразным для предотвращения искажения речевых сигналов посредством скаляра/фильтра. Однако части или весь скаляр/фильтр 224 может быть размещен на пути прохождения речевого сигнала, а также может быть распределен по путям прохождения аналогового и цифрового сигналов, либо пути прохождения речевого сигнала, либо пути прохождения шумового сигнала, либо их обоих.
Средство 220 калибровки подает откалиброванные речевые и шумовые сигналы на соответствующие входы модуля 230 обнаружения голосовой активности (VAD). Модуль 230 VAD включает в себя генератор 232 характеристических значений речи, генератор 234 характеристических значений шумов, модуль 240 метрики голосовой активности, функционирующий с характеристическими значениями речи и шумов, а также средство 250 сравнения, сконфигурированное для определения наличия или отсутствия голосовой активности на основе метрики голосовой активности. Модуль 230 VAD может дополнительно включать в себя генератор 236 объединенных характеристических значений, сконфигурированный для формирования параметра на основе комбинации речевого и шумового сигналов. Например, генератор 236 объединенных характеристических значений может быть сконфигурирован для определения взаимной корреляции речевых и шумовых сигналов. Может быть взято абсолютное значение взаимной корреляции или же могут быть возведены в квадрат компоненты взаимной корреляции.
Генератор 232 характеристических значений речи может быть сконфигурирован для формирования значения, которое основывается, по меньшей мере, частично, на речевом сигнале. Генератор 232 характеристических значений речи может быть сконфигурирован, например, для формирования характеристического значения, такого как энергия речевого сигнала в определенном интервале (E SP(n)), автокорреляция речевого сигнала в определенном интервале ( SP(n)), или может быть взято какое-либо другое характеристическое значение сигнала, подобное абсолютному значению автокорреляции речевого сигнала или компонентам автокорреляции.
Генератор 234 характеристических значений шумов может быть сконфигурирован для формирования дополнительного характеристического значения шумов. То есть генератор 234 характеристических значений шумов может быть сконфигурирован для формирования значения энергии шумов в определенном интервале (ESN(n)) в случае, если генератор 232 характеристических значений речи формирует значение энергии речи. Подобным образом генератор 234 характеристических значений шумов может быть сконфигурирован для формирования значения автокорреляции шумов в определенном интервале ( NS(n)) в случае, если генератор 232 характеристических значений речи формирует значение автокорреляции речи. Также может быть взято абсолютное значение значения автокорреляции шума или же компоненты значения автокорреляции шумов.
Модуль 240 метрики голосовой активности может быть сконфигурирован для формирования метрики голосовой активности на основе характеристического значения речи, характеристического значения шумов и, дополнительно, значения взаимной корреляции. Модуль 240 метрики голосовой активности может быть сконфигурирован, например, для формирования метрики голосовой активности, которая не является сложной в вычислительном отношении. Следовательно, модуль 230 VAD может сформировать сигнал обнаружения голосовой активности, по существу, в реальном времени, с использованием относительно небольшого количества ресурсов обработки. В одном варианте осуществления модуль 240 метрики голосовой активности сконфигурирован для определения отношения одного или нескольких характеристических значений, или отношения одного или нескольких характеристических значений и значения взаимной корреляции, или отношения одного или нескольких характеристических значений и абсолютного значения взаимной корреляции.
Модуль 240 метрики голосовой активности подает метрику на средство 250 сравнения, которое может быть сконфигурировано для определения наличия голосовой активности посредством сравнения метрики голосовой активности с одним или несколькими пороговыми значениями. Каждое пороговое значение может являться фиксированным предварительно определенным пороговым значением, или же одно или несколько пороговых значений могут являться динамическим пороговым значением.
В одном варианте осуществления модуль 230 VAD определяет три различные корреляции для определения голосовой активности. Генератор 232 характеристических значений речи формирует автокорреляцию речевого сигнала SP{n), генератор 234 характеристических значений шумов формирует автокорреляцию шумового сигнала NS(n), а модуль 236 взаимной корреляции формирует взаимную корреляцию абсолютных значений речевого сигнала и шумового сигнала С(n). В данном случае n представляет собой временной показатель. Во избежание чрезмерной задержки корреляции могут быть приблизительно вычислены с использованием способа экспоненциального окна с использованием следующих уравнений. Для автокорреляции уравнение имеет следующий вид:
(n)= (n-1)+s(n)2 или (n)= (n-1)+(1- )s(n)2.
Для взаимной корреляции уравнение имеет следующий вид:
С(n)= С(n-1)+|sSP(n)s NS(n)| или С(n)= С(n-1)+(1- )|sSP(n)sNS(n)|.
В вышеупомянутых уравнениях (n) является корреляцией в момент n. s(n) является либо сигналом микрофона для восприятия речи, либо сигналом микрофона для восприятия шумов в момент n. является константой между 0 и 1. | | представляет собой абсолютное значение. Корреляция также может быть вычислена с использованием квадратного окна с размером N следующим образом:
(n)= (n-1)+s(n)2- s(n-N)2 или
C(n)= C(n-1)+|SSP(n)s NS(n)|-|sSP(n-N)sNS (n-N)|.
Определение VAD может быть выполнено на основе SP(n), NS(n) и c(n).
В целом,
D(n)=vad( SP(n), NS(n), c(n))
В следующих примерах описаны две категории определения VAD. Одна категория является способом определения VAD на основе образца. Другая категория является способом определения VAD на основе кадра. В целом, способы определения VAD, которые основаны на использовании абсолютного значения автокорреляции или взаимной корреляции, могут учитывать меньший динамический диапазон взаимной корреляции или автокорреляции. Сокращение динамического диапазона может учесть более устойчивые переходы в способах определения VAD.
Определение VAD на основе образца
Модуль VAD может определить VAD для каждой пары речевого и шумового образцов в момент n на основе корреляций, вычисленных в момент n. В качестве примера модуль метрики голосовой активности может быть сконфигурирован для определения метрики голосовой активности на основе взаимосвязи между тремя значениями корреляции.
R(n)=f( SP(n), NS(n), c(n))
Величина Т(n) может быть определена на основе SP(n), NS(n), c(n) и R(n).
Например:
Т(n)=g( SP(n), NS(n), c(n),R(n))
Средство сравнения может определить VAD на основе R(n) и T(n).
Например:
D(n)=vad(R(n), T(n)).
В качестве конкретного примера метрика голосовой активности R(n) может быть определена для того, чтобы являться отношением между значением автокорреляции речи SP(n) от генератора 232 характеристических значений речи и взаимной корреляции С(n) от модуля 236 взаимной корреляции. В момент n метрика голосовой активности может являться отношением, определенным как:
R(n)= ,
В вышеупомянутом примере метрики голосовой активности модуль 240 метрики голосовой активности ограничивает значение. Модуль 240 метрики голосовой активности ограничивает значение посредством ограничения знаменателя значением, не меньшим , где является маленьким положительным числом, для предотвращения деления на ноль. В качестве другого примера R(n) может являться отношением между c(n) и NS(n), определенным как, например:
R(n)= .
В качестве конкретного примера величина T(n) может являться фиксированным пороговым значением. Пусть RSP(n) будет минимальным отношением, когда желательная речь присутствует до момента n. Пусть RNS(n) будет максимальным отношением, когда желательная речь отсутствует до момента n. Пороговое значение Т(n) может быть определено или выбрано иным способом так, чтобы находиться между RNS(n) и RSP(n) или эквивалентно:
RNS(n) Th(n) RSP{n).
Пороговое значение также может быть переменным и может изменяться на основе, по меньшей мере, частично, изменения желательной речи и фоновых шумов. В таком случае RSP(n) и R NS(n) могут быть определены на основе свежих сигналов микрофона.
Средство 250 сравнения сравнивает пороговое значение с метрикой голосовой активности, в данном случае отношение R(n), для определения голосовой активности. В этом конкретном примере функция определения vad( , ) может быть определена следующим образом:
Определение VAD на основе кадра
Определение VAD также может быть выполнено так, что целый кадр образцов формирует и совместно использует одно определение VAD. Кадр образцов может быть сформирован или принят иным способом между моментом m и моментом m+М-1, где М является размером кадра.
В качестве примера генератор 232 характеристических значений речи, генератор 234 характеристических значений шумов и генератор 236 объединенных характеристических значений могут определить корреляции для целого кадра данных. По сравнению с корреляциями, вычисленными с использованием квадратного окна, корреляция кадра эквивалентна корреляции, вычисленной в момент m+М-1, например (m+М-1).
Определение VAD может быть выполнено на основе энергии или значений автокорреляции двух сигналов микрофона. Подобным образом модуль 240 метрики голосовой активности может определить метрику активности на основе взаимосвязи R{n), как было описано выше в варианте осуществления, основанном на образце. Средство сравнения может базировать определение голосовой активности на пороговом значении T(n).
Определение VAD на основе сигналов после выделения
Если отношение SNR речевого сигнала является малым, то определение VAD имеет тенденцию к активности. Начальная часть и часть смещения речи могут быть классифицированы так, чтобы являться неречевым сегментом. Если уровни сигналов от микрофона для восприятия речи и микрофона для восприятия шумов аналогичны друг другу, в случае присутствия желательного речевого сигнала, то вышеописанное устройство и способы VAD не могут обеспечить надежного определения VAD. В таких случаях для содействия в выполнении надежного определения VAD по отношению к одному или нескольким сигналам микрофона может быть применено дополнительное выделение сигналов.
Выделение сигналов может быть реализовано для сокращения количества фоновых шумов в речевом сигнале без изменения желательного речевого сигнала. Выделение сигналов также может быть реализовано для сокращения уровня или количества речи в шумовом сигнале без изменения фоновых шумов. В некоторых вариантах осуществления выделение сигналов может выполнить комбинацию выделения речи и выделения шумов.
Фиг.3 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 110 со средством обнаружения голосовой активности и компенсацией эхо. Мобильное устройство 110 изображено без средства калибровки, изображенного на фиг.2, но вариант реализации компенсации эхо в мобильном устройстве 110 не исключает калибровку. Кроме того, мобильное устройство 110 реализовывает компенсацию эхо в цифровом представлении, однако же некая часть или полная компенсация эхо может быть выполнена и в аналоговом представлении.
Блок обработки речи мобильного устройства 110 может являться, по существу, аналогичным по отношению к блоку, иллюстрированному на фиг.2. Микрофон 112 для восприятия речи или группа микрофонов принимает речевой сигнал и преобразовывает уровень SPL из звукового сигнала в электрический речевой сигнал. Первый преобразователь 212 ADC преобразовывает аналоговый речевой сигнал в цифровое представление. Первый преобразователь 212 ADC подает оцифрованный речевой сигнал на первый вход первого средства 352 объединения.
Подобным образом микрофон 114 для восприятия шумов или группа микрофонов принимает шумовые сигналы и формирует шумовой сигнал. Второй преобразователь 214 ADC преобразовывает аналоговый шумовой сигнал в цифровое представление. Второй преобразователь 214 ADC подает оцифрованный шумовой сигнал на первый вход второго средства 354 объединения.
Первое и второе средства 352 и 354 объединения могут являться частью блока компенсации эхо мобильного устройства 110. Первое и второе средства 352 и 354 объединения могут являться, например, сумматорами сигналов, вычитателями сигналов, объединителями, модуляторами и т.п. или неким другим устройством, сконфигурированным для комбинирования сигналов.
Мобильное устройство 110 может реализовать компенсацию эхо для эффективного удаления эхо-сигнала, свойственного звуковому выводу мобильного устройства 110. Мобильное устройство 110 включает в себя выходной цифроаналоговый преобразователь 310 (DAC), который принимает оцифрованный выходной звуковой сигнал от источника сигналов (не показан), такого как процессор группового спектра, и преобразовывает оцифрованный звуковой сигнал в аналоговое представление. Выход преобразователя 310 DAC может быть соединен с выходным преобразователем, таким как динамик 320. Динамик 320, который может являться приемником или громкоговорителем, может быть сконфигурирован для преобразования аналогового сигнала в звуковой сигнал. Мобильное устройство 110 может реализовать один или несколько этапов обработки звука между преобразователем 310 DAC и динамиком 320. Однако для краткости этапы обработки выходных сигналов не иллюстрированы.
Цифровой выходной сигнал также может быть подан на входы первого средства 342 компенсации эхо и второго средства 344 компенсации эхо. Первое средство 342 компенсации эхо может быть сконфигурировано для формирования сигнала компенсации эхо, который применяется к речевому сигналу, а второе средство 344 компенсации эхо может быть сконфигурировано для формирования сигнала компенсации эхо, который применяется к шумовому сигналу.
Выход первого средства 342 компенсации эхо может быть соединен со вторым входом первого средства 342 объединения. Выход второго средства 344 компенсации эхо может быть соединен со вторым входом второго средства 344 объединения. Средства 352 и 354 объединения подают объединенные сигналы на модуль 230 VAD. Модуль 230 VAD может быть сконфигурирован для работы согласно способу, описанному со ссылкой на фиг.2.
Каждое средство 342 и 344 компенсации эхо может быть сконфигурировано для формирования сигнала компенсации эхо, который сокращает или, по существу, исключает эхо-сигнал в соответствующих сигнальных линиях. Каждое средство 342 и 344 компенсации эхо может включать в себя вход, который отбирает или иначе контролирует сигнал компенсации эхо на выходе соответствующих средств 352 и 354 объединения. Выход средств 352 и 354 объединения функционирует в качестве сигнала ошибки обратной связи, который может быть использован соответствующими средствами 342 и 344 компенсации эхо для минимизации остаточного эхо.
Каждое средство 342 и 344 компенсации эхо может включать в себя, например, усилители, ослабители (аттенюаторы), фильтры, модули задержки или некую комбинацию вышеперечисленных средств для формирования сигнала компенсации эхо. Высокая корреляция между выходным сигналом и эхо-сигналом может позволить средствам 342 и 344 компенсации эхо с большей легкостью обнаруживать и компенсировать эхо-сигнал.
В других вариантах осуществления может быть желательным дополнительное выделение сигналов в связи с тем, что предположение того, что микрофоны для восприятия речи размещены близко к точке полости рта, не поддерживается. Например, два микрофона могут быть размещены настолько близко друг к другу, что различие между двумя сигналами микрофонов является слишком малым. В этом случае невыделенные сигналы могут привести к ненадежному определению VAD. В этом случае выделение сигналов может быть использовано для повышения качества определения VAD.
Фиг.4 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 110 со средством обнаружения голосовой активности с выделением сигналов. Как и прежде, устройство и способы калибровки и компенсации эхо, описанные выше со ссылкой на фиг.2 и 3, могут быть реализованы в дополнение к выделению сигналов.
Мобильное устройство 110 включает в себя микрофон 112 для восприятия речи или группу микрофонов, сконфигурированную для приема речевого сигнала, а также для преобразования уровня SPL из звукового сигнала в электрический речевой сигнал. Первый преобразователь 212 ADC преобразовывает аналоговый речевой сигнал в цифровое представление. Первый преобразователь 212 ADC подает оцифрованный речевой сигнал на первый вход модуля 400 выделения сигналов.
Подобным образом микрофон 114 для восприятия шумов или группа микрофонов принимает шумовые сигналы и формирует шумовой сигнал. Второй преобразователь 214 ADC преобразовывает аналоговый шумовой сигнал в цифровое представление. Второй преобразователь 214 ADC подает оцифрованный шумовой сигнал на второй вход модуля 400 выделения сигналов.
Модуль 400 выделения сигналов может быть сконфигурирован для формирования выделенного речевого сигнала и выделенного шумового сигнала. Модуль 400 выделения сигналов подает выделенные речевые и шумовые сигналы на модуль 230 VAD. Модуль VAD 230 оперирует с выделенными речевыми и шумовыми сигналами для определения голосовой активности.
Определение VAD на основе сигналов после формирования диаграммы направленности или разделения сигналов
Модуль 400 выделения сигналов может быть сконфигурирован для выполнения адаптивного формирования диаграммы направленности для вывода коэффициента направленного действия средства обнаружения. Модуль 400 выделения сигналов выполняет адаптивное формирование диаграммы направленности с использованием ряда фильтров и обработкой микрофонов в качестве решетки средств обнаружения. Этот коэффициент направленного действия средства обнаружения может быть использован для извлечения желательного сигнала в случае присутствия нескольких источников сигналов. Для получения коэффициента направленного действия средства обнаружения доступно множество алгоритмов формирования диаграммы направленности. Один алгоритм формирования диаграммы направленности или комбинация алгоритмов формирования диаграммы направленности называются средством формирования диаграммы направленности. При речевой связи с использованием двух микрофонов средство формирования диаграммы направленности может быть использовано для направления средства обнаружения к точке полости рта для формирования выделенного речевого сигнала, в котором могут быть компенсированы фоновые шумы. А также может быть сформирован выделенный шумовой сигнал, в котором может быть компенсирована желательная речь.
Фиг.4B изображает упрощенную функциональную блок-схему варианта осуществления модуля 400 выделения сигналов, выполняющего формирование диаграммы направленности микрофонов 112 и 114 для восприятия речи и шумов.
Модуль 400 выделения сигналов включает в себя комплект микрофонов 112-1-112-n для восприятия речи, содержащий первую решетку микрофонов. Выход каждого микрофона 112-1-112-n для восприятия речи может быть соединен с соответствующим фильтром 412-1-412-n. Каждый фильтр 412-1-412-n выдает ответ, которым можно управлять с помощью первого средства 420-1 управления формированием диаграммы направленности. Каждым фильтром, например 412-1, можно управлять для обеспечения переменной задержки, спектральной чувствительности, усиления или какого-либо другого параметра.
Первое средство 420-1 управления формированием диаграммы направленности может быть сконфигурировано с предварительно определенным набором сигналов управления фильтром, соответствующим предварительно определенному набору лучей, или же может быть сконфигурировано для изменения ответов фильтра, в соответствии с предварительно определенным алгоритмом, для эффективного непрерывного направления луча.
Каждый фильтр 412-1-412 выдает свой отфильтрованный сигнал на соответствующий вход первого средства 430-1 объединения. Выход первого средства 430-1 объединения может являться речевым сигналом со сформированной диаграммой направленности.
Шумовой сигнал также может быть подвергнут формированию диаграммы направленности с использованием комплекта микрофонов 114-1-114-k для восприятия шумов, содержащего вторую решетку микрофонов. Количество k микрофонов для восприятия шумов может отличаться от количества n микрофонов для восприятия речи или же может быть одинаковым.
Несмотря на то, что изображенное на фиг.4В мобильное устройство 110 иллюстрирует различные микрофоны 112-1-112-n для восприятия речи и микрофоны 114-1-114-k для восприятия шумов, в других вариантах осуществления некоторые или же все микрофоны 112-1-112-n для восприятия речи могут быть использованы в качестве микрофонов 114-1-114-k для восприятия шумов. Например, комплект микрофонов 112-1-112-n для восприятия речи может быть аналогичным по отношению к микрофонам, используемым в комплекте микрофонов 114-1-114-k для восприятия шумов.
Каждый микрофон 114-1-114-k для восприятия шумов выводит свой сигнал на соответствующий фильтр 414-1-414-k. Каждый фильтр 414-1-414-k выдает ответ, которым можно управлять с помощью второго средства 420-2 управления формированием диаграммы направленности. Каждым фильтром, например 414-1, можно управлять для обеспечения переменной задержки, спектральной чувствительности, усиления или какого-либо другого параметра. Второе средство 420-2 управления формированием диаграммы направленности может управлять фильтрами 414-1-414-k для обеспечения предварительно определенного дискретного количества конфигураций лучей или же может быть сконфигурировано для, по существу, непрерывного направления луча.
В изображенном на фиг.4B модуле 400 выделения сигналов различные средства 420-1 и 420-2 управления формированием диаграммы направленности используются для независимого формирования диаграммы направленности речевых и шумовых сигналов. Однако в других вариантах осуществления одно средство управления формированием диаграммы направленности может быть использовано для формирования диаграммы направленности как речевых, так и шумовых сигналов.
Модуль 400 выделения сигналов может выполнить слепое разделение источников. Слепое разделение источников (BSS) является способом восстановления сигналов независимых источников с использованием измерения смесей этих сигналов. В данном случае термин «слепой» имеет два значения. Во-первых, исходные сигналы или сигналы источников не известны. Во-вторых, процесс смешивания может быть неизвестен. Существует множество алгоритмов, доступных для достижения разделения сигналов. В речевой связи с использованием двух микрофонов способ BSS может быть использован для отделения речи от фоновых шумов. После разделения сигналов в речевом сигнале могут быть незначительно сокращены фоновые шумы, а также может быть незначительно сокращена речь в шумовом сигнале.
Например, модуль 400 выделения сигналов может реализовать устройство и способы BSS, описанные в любом из S. Amari, A. Cichocki, и H. H. Yang, «A new learning algorithm for blind signal separation», In Advances in Neural Information Processing Systems 8, MIT Press, 1996, L. Molgedey и H. G. Schuster, «Separation of a mixture of independent signals using time delayed correlations», Phys. Rev. Lett, 72(23): 3634-3637, 1994, или L. Parra и C. Spence, «Convolutive blind source separation of non-stationary sources», IEEE Trans, on Speech and Audio Processing, 8(3): 320-327, май 2000.
Определение VAD на основе более активного выделения сигналов
Иногда уровень фоновых шумов настолько высок, что отношение SNR сигнала остается неудовлетворительным после разделения сигналов или же после формирования диаграммы направленности. В этом случае отношение SNR речевого сигнала может быть дополнительно увеличено. Например, модуль 400 выделения сигналов может выполнить спектральное вычитание для дополнительного увеличения отношения SNR речевого сигнала. В этом случае шумовой сигнал может нуждаться в выделении.
Например, модуль 400 выделения сигналов может реализовать устройство и способы спектрального вычитания, описанные в любом из S. F. Boll, «Suppression of Acoustic Noise in Speech Using Spectral Subtraction», IEEE Trans. Acoustics, Speech and Signal Processing, 27(2): 112-120, апрель 1979, R. Mukai, S. Araki, H. Sawada и S. Makino, «Removal of residual crosstalk components in blind source separation using LMS filters», в Proc. of 12ый IEEE Workshop on Neural Networks for Signal Processing, pp. 435-444, Martigny, Switzerland, сентябрь 2002, или R. Mukai, S. Araki, H. Sawada и S. Makino, «Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction», в Proc. ofICASSP2002, pp. 1789-1792, май 2002.
Возможные варианты применения
Описанное в настоящем документе устройство и способы VAD могут быть использованы для подавления фоновых шумов. Нижеприведенные примеры не являются полным списком возможных вариантов применения, а также не ограничивают применение описанных в настоящем документе устройства и способов VAD с использованием нескольких микрофонов. Описанные устройство и способы VAD могут потенциально использоваться в любом варианте применения, в котором необходимо определение VAD, а также доступны сигналы нескольких микрофонов. Определение VAD подходит для обработки сигналов в реальном времени, а также не ограничивается от потенциальной реализации в вариантах применения с автономной обработкой сигналов.
Фиг.5 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 110 со средством обнаружения голосовой активности с дополнительным выделением сигналов. Определение VAD от модуля 230 VAD может быть использовано для управления усилением усилителя 510 с переменным усилением.
Модуль 230 VAD может подать выходной сигнал обнаружения голосовой активности на вход генератора 520 усиления или средства управления, которое сконфигурировано для управления усилением, применяемым к речевому сигналу. В одном варианте осуществления генератор 520 усиления сконфигурирован для управления усилением, применяемым посредством усилителя 510 с переменным усилением. Усилитель 510 с переменным усилением изображен реализованным в цифровом представлении, он может быть реализован, например, в качестве скаляра, умножителя, регистра сдвига, регистра циклического сдвига и т.п. или в качестве некой комбинации вышеперечисленного.
В качестве примера скалярное усиление, которым управляют посредством VAD с использованием двух микрофонов, может быть применено к речевому сигналу. В качестве конкретного примера усиление усилителя 510 с переменным усилением может быть задано равным 1 в случае обнаружения речи. В случае, когда речь не обнаружена, усиление усилителя 510 с переменным усилением может быть задано меньшим 1.
Усилитель 510 с переменным усилением изображен в цифровом представлении, но переменное усиление может быть применено непосредственно к сигналу микрофона 112 для восприятия речи. Переменное усиление также может быть применено к речевому сигналу в цифровом представлении или же выделенному речевому сигналу, полученному от модуля 400 выделения сигналов, как показано на фиг.5.
Описанные в настоящем документе устройство и способы VAD также могут быть использованы для содействия современному кодированию речи. Фиг.6 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 110 со средством обнаружения голосовой активности, управляющим кодированием речи.
В изображенном на фиг.6 варианте осуществления модуль 230 VAD подает определение VAD на вход управления средства 600 кодирования речи.
В целом, современные средства кодирования речи могут иметь внутренние средства обнаружения голосовой активности, которые, как правило, используют сигнал или выделенный сигнал от одного микрофона. При выделении сигнала с использованием двух микрофонов, как например, обеспечиваемом посредством модуля 400 выделения сигналов, сигнал, принятый посредством внутреннего VAD, может быть иметь большее отношение SNR по сравнению с исходным сигналом микрофона. Следовательно, существует вероятность того, что внутренний VAD, при использовании выделенного сигнала, может более надежно выполнить определение. Посредством комбинирования определения от внутреннего и внешнего VAD при использовании двух сигналов возможно получить более надежное определение VAD. Например, средство 600 кодирования речи может быть сконфигурировано для выполнения логической комбинации внутреннего определения VAD и определения VAD от модуля 230 VAD. Например, средство 600 кодирования речи может оперировать с «логическим И» или «логическим ИЛИ» двух сигналов.
Фиг.7 изображает блок-схему упрощенного способа 700 обнаружения голосовой активности. Способ 700 может быть реализован посредством мобильного устройства, изображенного на фиг.1, а также одного или комбинации устройств и способов, описанных со ссылкой на фиг.2-6.
Способ 700 описывается с некоторыми дополнительными этапами, которые в конкретных вариантах реализации могут быть опущены. Кроме того, способ 700 описывается в конкретном порядке выполнения исключительно в иллюстративных целях, и некоторые этапы могут быть выполнены в другом порядке.
Способ начинается с этапа 710, на котором мобильное устройство первоначально выполняет калибровку. Например, мобильное устройство может ввести частотно-избирательное усиление, ослабление или задержку, чтобы существенно уравнять ответ путей прохождения речевых и шумовых сигналов.
После калибровки мобильное устройство переходит на этап 722 и принимает речевой сигнал от микрофонов. Речевой сигнал может включать в себя присутствие или отсутствие голосовой активности.
Мобильное устройство переходит на этап 724 и попутно принимает откалиброванный шумовой сигнал от модуля калибровки на основе сигнала от микрофона для восприятия шумов. Как правило, микрофон для восприятия шумов подает речевой сигнала пониженного уровня по отношению к микрофонам для восприятия речи.
Мобильное устройство переходит на дополнительный этап 728 и выполняет компенсацию эхо применительно к принятым речевым и шумовым сигналам, например, когда мобильное устройство выводит звуковой сигнал, который может быть связан либо с речевым сигналом, либо с шумовым сигналом, либо с обоими вышеупомянутыми сигналами.
Мобильное устройство переходит на этап 730 и дополнительно выполняет выделение речевых и шумовых сигналов. Мобильное устройство может включать в себя выделение сигналов в устройствах, которые не могут четко отделить микрофон для восприятия речи от микрофона для восприятия шумов, например, из-за физических ограничений. Если мобильная станция выполняет выделение сигналов, то применительно к выделенному речевому сигналу и выделенному шумовому сигналу может быть выполнена последующая обработка. Если выделение сигналов опущено, то мобильное устройство может оперировать с речевыми и шумовыми сигналами.
Мобильное устройство переходит на этап 742 и определяет, вычисляет или иначе формирует характеристическое значение речи на основе речевого сигнала. Мобильное устройство может быть сконфигурировано для определения характеристического значения речи, которое относится к конкретному образцу, на основе нескольких образцов, на основе средневзвешенного значения предшествующих образцов, на основе экспоненциального затухания предшествующих образцов или на основе предварительно определенного окна образцов.
В одном варианте осуществления мобильное устройство сконфигурировано для определения автокорреляции речевого сигнала. В другом варианте осуществления мобильное устройство сконфигурировано для определения энергии принятого сигнала.
Мобильное устройство переходит на этап 744 и определяет, вычисляет или иначе формирует дополнительное характеристическое значение шумов. Мобильная станция, как правило, определяет характеристическое значение шумов с использованием способов, аналогичных по отношению к способам, используемым для формирования характеристического значения речи. То есть если мобильное устройство определяет характеристическое значение речи на основе кадра, то мобильное устройство аналогично определяет характеристическое значение шумов на основе кадра. Подобным образом, если мобильное устройство определяет автокорреляцию в качестве характеристического значения речи, то мобильное устройство определяет автокорреляцию шумового сигнала в качестве характеристического значения шумов.
Мобильная станция может дополнительно перейти на этап 746 и определить, вычислить или иначе сформировать дополнительное объединенное характеристическое значение на основе, по меньшей мере, частично, как речевого сигнала, так и шумового сигнала. Например, мобильное устройство может быть сконфигурировано для определения взаимной корреляции двух сигналов. В других вариантах осуществления мобильное устройство может опустить определение объединенного характеристического значения, например, когда метрика голосовой активности не основывается на объединенном характеристическом значении.
Мобильное устройство переходит на этап 750 и определяет, вычисляет или иначе формирует метрику голосовой активности на основе, по меньшей мере, частично, одного или нескольких характеристических значений речи, характеристических значений шумов и объединенных характеристических значений. В одном варианте осуществления мобильное устройство сконфигурировано для определения отношения значения автокорреляции речи к объединенному значению взаимной корреляции. В другом варианте осуществления мобильное устройство сконфигурировано для определения отношения значения энергии речи к значению энергии шумов. Подобным образом мобильное устройство может определить другие голосовые активности с использованием других способов.
Мобильное устройство переходит на этап 760 и определяет голосовую активность или определяет состояние голосовой активности иным способом. Например, мобильное устройство может определить голосовую активность посредством сравнения метрики голосовой активности с одним или несколькими пороговыми значениями. Пороговые значения могут являться фиксированными или динамическими. В одном варианте осуществления мобильное устройство определяет наличие голосовой активности в случае, если метрика голосовой активности превышает предварительно определенное пороговое значение.
После определения состояния голосовой активности мобильное устройство переходит на этап 770 и изменяет, настраивает или иначе модифицирует один или несколько параметров, или же управляет, частично основываясь на состоянии голосовой активности. Например, мобильное устройство может задать усиление усилителю речевых сигналов на основе состояния голосовой активности, может использовать состояние голосовой активности для управления средством кодирования речи или же может использовать состояние голосовой активности в комбинации с другим определением VAD для управления состоянием средства кодирования речи.
Мобильное устройство переходит на этап 780 определения для определения того, желательна ли повторная калибровка. Мобильное устройство может выполнить калибровку по истечении одного или нескольких событий, интервалов и т.п. или некой комбинации вышеперечисленного. В случае, если повторная калибровка желательна, мобильное устройство возвращается на этап 710. В противном случае мобильное устройство может вернуться на этап 722 для продолжения мониторинга речевых и шумовых сигналов на предмет голосовой активности.
Фиг.8 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 800 с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов и выделением сигналов. Мобильное устройство 800 включает в себя микрофоны 812 и 814 для восприятия речи и шумов, средства 822 и 824 для преобразования речевых и шумовых сигналов в цифровые представления, а также средства 842 и 844 для компенсации эхо в речевых и шумовых сигналах. Средство для компенсации эхо оперируют в связи со средствами 832 и 834 для объединения сигналов с выходом от средства для компенсации.
Речевые и шумовые сигналы с компенсированным эхо могут быть поданы на средство 850 для калибровки спектральной чувствительности пути прохождения речевого сигнала так, чтобы она была, по существу, подобной спектральной чувствительности пути прохождения шумового сигнала. Речевые и шумовые сигналы также могут быть поданы на средство 856 для выделения, по меньшей мере, либо речевого, либо шумового сигнала. В случае использования средства 856 для выделения метрика голосовой активности основывается, по меньшей мере, частично, либо на выделенном речевом сигнале, либо на выделенном шумовом сигнале.
Средство 860 для обнаружения голосовой активности может включать в себя средство для определения автокорреляции на основе речевого сигнала, средство для определения взаимной корреляции на основе речевого сигнала и шумового сигнала, средство для определения метрики голосовой активности на основе, частично, отношения автокорреляции речевого сигнала к взаимной корреляции, а также средство для определения состояния голосовой активности посредством сравнения метрики голосовой активности, по меньшей мере, с одним пороговым значением.
В настоящем документе описаны устройство и способы для обнаружения голосовой активности, а также изменения работы одного или нескольких блоков мобильного устройства на основе состояния голосовой активности. Представленные в настоящем документе устройство и способы VAD могут быть использованы по отдельности, они могут быть объединены с традиционным устройством и способами VAD для более надежного определения VAD. В качестве примера раскрытый способ VAD может быть объединен со способом нулевого пересечения для более надежного определения голосовой активности.
Следует отметить, что специалисту в данной области техники будет понятно, схема может реализовать некоторые или же все вышеописанные функции. Все функции может реализовать одна схема. Также все функции могут реализовать несколько блоков схемы в комбинации со второй схемой. В целом, если несколько функций реализовываются в схеме, то она может являться интегральной схемой. С помощью текущих технологий мобильных платформ интегральная схема содержит, по меньшей мере, один цифровой сигнальный процессор (DSP) и, по меньшей мере, один процессор ARM для управления и/или взаимодействия, по меньшей мере, с одним процессором DSP. Схема может быть описана с помощью блоков. Зачастую для выполнения различных функций блоки используются повторно. Следовательно, при описании схем, включающих в себя некоторые из вышеописанных блоков, специалистам в данной области техники должно быть понятно, что первый блок, второй блок, третий блок, четвертый блок и пятый блок схемы могут являться одной и той же схемой или различными схемами, которые являются частью большей схемы или комплектом схем.
Схема может быть сконфигурирована для обнаружения голосовой активности и содержать первый блок, адаптированный для приема выходного речевого сигнала от микрофона для восприятия речи. Одна схема, другая схема или второй блок одной или другой схемы может быть сконфигурирован для приема выходного сигнала от микрофона для восприятия шумов. Кроме того, одна схема, другая схема или третий блок той же самой или другой схемы, содержащий генератор характеристических значений речи, соединенный с первым блоком, сконфигурирован для определения характеристического значения речи. Четвертый блок, содержащий генератор объединенных характеристических значений, соединенный с первым и вторым блоками, сконфигурированный для определения объединенного характеристического значения, также может являться частью интегральной схемы. Кроме того, пятый блок, содержащий модуль метрики голосовой активности, сконфигурированный для определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения, может являться частью интегральной схемы. Для сравнения метрики голосовой активности с пороговым значением, а также для вывода состояния голосовой активности может быть использовано средство сравнения. В целом, любой блок (первый, второй, третий, четвертый или пятый) может являться частью интегральной схемы или отделен от нее. То есть каждый блок может являться частью одной большей схемы, или же каждый блок может являться отдельной интегральной схемой или их комбинацией.
Как было описано выше, микрофон для восприятия речи содержит несколько микрофонов, а генератор характеристических значений речи может быть сконфигурирован для определения автокорреляции речевого сигнала и/или для определения энергии речевого сигнала и/или для определения средневзвешенного значения на основе экспоненциального затухания предшествующих характеристических значений речи. Функции генератора характеристических значений речи могут быть реализованы в одном или нескольких блоках схемы, как было описано выше.
Используемые в настоящем документе термины «связанный» и «соединенный» используются для обозначения косвенной связи, а также и прямой связи или соединения. Между двумя и более соединенными блоками, модулями или устройствами может находиться один или несколько промежуточных блоков.
Различные иллюстративные логические блоки, модули и схемы, описанные в связи с вариантами осуществления, раскрытыми в настоящем документе, могут быть реализованы или выполнены с помощью универсального процессора, цифрового сигнального процессора (DSP), процессора с сокращенным набором команд (RISC), специализированной интегральной микросхемы (ASIC), логической матрицы с эксплуатационным программированием (FPGA) или другого программируемого логического устройства, логического элемента на дискретных компонентах или транзисторной логики, дискретных компонентов аппаратных средств или с помощью любой комбинации вышеперечисленных компонентов, разработанной для выполнения описанных в настоящем документе функций. Универсальный процессор может являться микропроцессором, но в альтернативе, процессор может являться любым процессором, контроллером, микроконтроллером или конечным автоматом. Процессор также может быть реализован в качестве комбинации вычислительных устройств, например, комбинации процессора DSP и микропроцессора, множества микропроцессоров, одного или нескольких микропроцессоров, находящихся в связи с ядром процессора DSP или с помощью любой другой подобной конфигурации.
Этапы способа, процесса или алгоритма, описанные в связи с раскрытыми в настоящем документе вариантами осуществления, могут быть реализованы непосредственно в аппаратных средствах, в программном модуле, выполнимом посредством процессора, или в их комбинации. Различные этапы или действия способа или процесса могут быть выполнены в изображенном порядке или же могут быть выполнены в другом порядке. Кроме того, один или несколько этапов процесса или способа могут быть опущены, или же один или несколько этапов процесса или способа могут быть добавлены в способы и процессы. Дополнительный этап, блок или действие могут быть добавлены в начале, в конце или вставлены существующие элементы способов и процессов.
Вышеупомянутое описание раскрытых вариантов осуществления обеспечено для предоставления любому специалисту в данной области техники возможности создания или использования раскрытия. Различные модификации этих вариантов осуществления будут полностью ясны специалистам в данной области техники, а определенные в настоящем документе родовые принципы могут быть применены к другим вариантам осуществления, не отступая от сущности или объема раскрытия. Следовательно, раскрытие не предназначено для ограничения изображенными в настоящем документе вариантами осуществления и должно получить самый широкий объем, совместимый с принципами и новыми отличительными признаками, раскрытыми в настоящем документе.
Класс G10L11/02 обнаружение наличия или отсутствия сигналов речи
Класс G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала