способ оценки шума с использованием пошагового байесовского изучения
Классы МПК: | G10L15/20 техника распознавания речи, специально предназначенная для крайне неблагоприятных условий окружения, например в шуме, при речи, вызванной стрессом G06K9/00 Способы и устройства для считывания и распознавания напечатанных или написанных знаков или распознавания образов, например отпечатков пальцев |
Автор(ы): | АСЕРО Алехандро (US), ДЕНГ Ли (US), ДРОППО Джеймс Дж. (US) |
Патентообладатель(и): | МАЙКРОСОФТ КОРПОРЕЙШН (US) |
Приоритеты: |
подача заявки:
2004-03-30 публикация патента:
20.10.2009 |
Изобретение относится к оценке шума, в частности к оценке шума в сигналах, используемых для распознавания образов. Способ и устройство оценивают аддитивный шум в сигнале с помехами с использованием пошагового байесовского изучения, причем допускают априорное распределение изменяющегося во времени шума, и гиперпараметры (среднее значение и дисперсию) рекурсивно корректируют с использованием аппроксимации для апостериорного шума, вычисленной на предыдущем этапе времени. Аддитивный шум во временной области представляют в области логарифмического спектра или кепстра перед применением пошагового байесовского изучения. Результаты обеих оценок среднего значения и дисперсии для шума для каждого из отдельных кадров используют для выполнения расширения признаков речи в той же самой области логарифмического спектра или кепстра. Технический результат - повышение эффективности оценки шума в сигналах при распознавании образов. 5 н. и 15 з.п. ф-лы, 4 ил.
Формула изобретения
1. Способ, предназначенный для оценки шума в сигнале с помехами, заключающийся в том, что
разделяют сигнал с помехами на кадры и
определяют оценку шума, включающую в себя изменяющиеся во времени среднее значение и дисперсию, для каждого кадра на основе выполнения пошагового логического вывода Байеса, причем допускают априорное распределение изменяющегося во времени шума и оценку шума рекурсивно корректируют с использованием аппроксимации для апостериорного шума, вычисленной в предыдущем кадре,
причем при определении оценки шума для текущего кадра сигнала с помехами с использованием аппроксимации для апостериорного шума, вычисленной в предыдущем кадре, вычисляют вероятность данных для текущего кадра сигнала с помехами и используют оценку шума для предыдущего кадра.
2. Способ по п.1, отличающийся тем, что при определении оценки вероятности данных для текущего кадра используют оценку вероятности данных для текущего кадра в уравнении, которое частично основано на определении сигнала с помехами как нелинейной функции чистого сигнала и сигнала шума.
3. Способ по п.2, отличающийся тем, что уравнение дополнительно основано на аппроксимации для нелинейной функции.
4. Способ по п.3, отличающийся тем, что аппроксимация равна нелинейной функции в точке, частично определенной с помощью оценки шума для предыдущего кадра.
5. Способ по п.4, отличающийся тем, что аппроксимация является разложением в ряд Тейлора.
6. Способ по п.5, отличающийся тем, что аппроксимация дополнительно содержит взятие аппроксимации Лапласа.
7. Способ по п.1, отличающийся тем, что при использовании оценки вероятности данных для текущего кадра используют оценку шума для предыдущего кадра как точку разложения для разложения в ряд Тейлора нелинейной функции.
8. Способ по п.1, отличающийся тем, что при использовании аппроксимации для апостериорного шума используют гауссову аппроксимацию.
9. Способ по п.1, отличающийся тем, что каждая оценка шума основана на гауссовой аппроксимации.
10. Способ по п.9, отличающийся тем, что при определении оценки шума определяют оценку шума последовательно для каждого кадра.
11. Способ, предназначенный для оценки шума в сигнале с помехами, заключающийся в том, что
разделяют сигнал с помехами на кадры и
для каждого кадра последовательно оценивают шум в каждом кадре таким образом, что оценка шума для текущего кадра основана на гауссовой аппроксимации вероятности данных для текущего кадра и гауссовой аппроксимации шума в последовательности предыдущих кадров.
12. Способ по п.11, отличающийся тем, что при оценке шума в каждом кадре используют уравнение, которое частично основано на определении сигнала с помехами как нелинейной функции чистого сигнала и сигнала шума для определения аппроксимации для вероятности данных в текущем кадре.
13. Способ по п.12, отличающийся тем, что уравнение дополнительно основано на аппроксимации для нелинейной функции.
14. Способ по п.13, отличающийся тем, что аппроксимация равна нелинейной функции в точке, частично определенной с помощью оценки шума для предыдущего кадра.
15. Способ по п.14, отличающийся тем, что аппроксимация является разложением в ряд Тейлора.
16. Способ по п.15, отличающийся тем, что аппроксимация дополнительно включает в себя аппроксимацию Лапласа.
17. Способ по п.11, отличающийся тем, что оценка шума содержит оценку среднего значения шума и оценку дисперсии шума.
18. Доступный для чтения с помощью компьютера носитель информации, включающий в себя команды, доступные для чтения с помощью компьютера, которые при реализации заставляют компьютер выполнять способ по п.1.
19. Доступный для чтения с помощью компьютера носитель информации, включающий в себя команды, доступные для чтения с помощью компьютера, которые при реализации заставляют компьютер выполнять способ по п.11.
20. Система для оценки шума в сигнале с помехами, содержащая
элемент составления кадров, принимающий входной сигнал с помехами, причем элемент составления кадров разделяет сигнал с помехами на кадры, и
элемент уменьшения шума, принимающий упомянутые кадры и определяющий оценку шума, включающую в себя изменяющиеся во времени среднее значение и дисперсию, для каждого кадра на основе пошагового логического вывода Байеса, причем допускают априорное распределение изменяющегося во времени шума и оценку шума рекурсивно корректируют с использованием аппроксимации для апостериорного шума, вычисленной в предыдущем кадре,
причем элемент уменьшения шума содержит элемент, вычисляющий вероятность данных для текущего кадра сигнала с помехами и использующий оценку шума для предыдущего кадра.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Настоящее изобретение относится к оценке шума. В частности, настоящее изобретение относится к оценке шума в сигналах, используемых в распознавании образов.
Уровень техники
Система распознавания образов, такая как система распознавания речи, принимает входной сигнал и пытается декодировать сигнал, чтобы найти образ, представленный сигналом. Например, в системе распознавания речи речевой сигнал (часто называемый тестовым сигналом) принимают с помощью системы распознавания и декодируют, чтобы распознать последовательность слов, представленных речевым сигналом.
Входные сигналы обычно искажены некоторым видом шума. Для того чтобы улучшить эффективность системы распознавания речи, часто желательно оценивать шум в сигнале с помехами.
В прошлом были использованы некоторые общие схемы для оценки шума в сигнале. В одной общей схеме использовались пакетные алгоритмы, которые оценивают шум в каждом кадре входного сигнала, независимо от шума, обнаруженного в других кадрах в сигнале. Затем отдельные оценки шума совместно усредняют для формирования согласованной величины шума для всех кадров. Во второй общей схеме используют рекурсивный алгоритм, который оценивает шум в текущем кадре на основании оценок шума для одного или нескольких предыдущих или последующих кадров. Такие рекурсивные способы допускают, чтобы шум медленно изменялся во времени.
В одном рекурсивном способе предполагают, что сигнал с помехами является нелинейной функцией сигнала без помех (чистого сигнала) и сигнала шума. Чтобы помочь в вычислении, эту нелинейную функцию часто аппроксимируют с помощью разложения в усеченный ряд Тейлора, которое вычисляют около некоторой точки разложения. Обычно разложение в ряд Тейлора обеспечивает свои наилучшие оценки функции в точке разложения. Следовательно, аппроксимация с помощью ряда Тейлора фактически определяется только выбором точки разложения. Однако в предшествующем уровне техники точка разложения для ряда Тейлора не была оптимизирована для каждого кадра. В результате оценка шума, производимая с помощью рекурсивных алгоритмов, была далека от идеальной.
Способы максимального правдоподобия вероятности (МП, ML) и максимальной апостериорной (вероятности) (МАВ, МАР) были использованы для последовательной оценки точки нестационарного шума с использованием итеративно линеаризованной нелинейной модели для акустической среды. Обычно, используя простую модель Гаусса для распределения шума, оценка МАВ обеспечивала лучшее качество оценки шума. Однако в способе МАВ параметры среднего значения и дисперсии, априори связанные с гауссовым шумом, фиксируют из сегмента каждого тестового высказывания без речи. Для нестационарного шума эта аппроксимация может неправильно отражать априорные статистические данные реального шума.
В свете этого необходим способ оценки шума, который является более эффективным при оценке шума в сигналах образов.
Сущность изобретения
Новый подход для оценки нестационарного шума использует пошаговое байесовское изучение. В одном аспекте этот способ может быть определен как допущение априорного распределения, изменяющегося во времени шума, причем оценку шума, которая может быть определена с помощью гиперпараметров (среднее значение и дисперсия), рекурсивно корректируют с использованием аппроксимации, апостериорно вычисленной на предыдущем этапе времени или кадра. В другом аспекте этот способ может быть определен таким образом, что для каждого кадра последовательно оценивают шум в каждом кадре таким образом, что оценка шума для текущего кадра основана на гауссовом распределении вероятности данных для текущего кадра и гауссовом распределении шума в последовательности предыдущих кадров.
Краткое описание чертежей
Фиг.1 - блок-схема вычислительной среды, в которой может быть применено настоящее изобретение.
Фиг.2 - блок-схема альтернативной вычислительной среды, в которой может быть применено настоящее изобретение.
Фиг.3 - блок-схема способа оценки шума в соответствии с одним вариантом осуществления настоящего изобретения.
Фиг.4 - блок-схема системы распознавания образов, в которой может быть использовано настоящее изобретение.
Подробное описание иллюстративных вариантов осуществления
Фиг.1 иллюстрирует пример подходящей вычислительной среды 100 системы, в которой может быть реализовано изобретение. Вычислительная среда 100 системы является только одним примером подходящей вычислительной среды и не предполагаются какие-либо ограничения относительно объема использования или функциональных возможностей изобретения. Также вычислительную среду 100 не следует интерпретировать как имеющую какую-либо зависимость или требование относительно любого из компонентов или комбинации компонентов, проиллюстрированных в примерной рабочей среде 100.
Изобретение может работать с другими многочисленными вычислительными средами или конфигурациями систем общего назначения или специализированных систем. Примеры известных вычислительных систем, сред и/или конфигураций, которые могут быть подходящими для использования с изобретением, включают персональные компьютеры, компьютеры серверов, карманные или портативные устройства, мультипроцессорные системы, системы на основе микропроцессоров, телевизионные приставки, программируемую бытовую электронику, сетевые ПК, миникомпьютеры, универсальные ЭВМ, телефонные системы, распределенные вычислительные среды, которые включают в себя любые из вышеупомянутых систем или устройств и тому подобные, но не ограничены этим.
Изобретение может быть описано в общем контексте доступных для выполнения с помощью компьютера команд, таких как программные модули, выполняемые с помощью компьютера. Обычно программные модули включают в себя подпрограммы, программы, объекты, компоненты, структуры данных и т.д., которые выполняют определенные задачи или реализуют определенные абстрактные типы данных. Задачи, выполняемые программами и модулями, описаны ниже и с помощью фигур. Специалисты в данной области техники могут реализовать описание и/или фигуры, приведенные в настоящем описании, в виде выполняемых с помощью компьютера команд, которые могут быть осуществлены на любом виде доступных для чтения с помощью компьютера носителей информации, обсужденных ниже.
Изобретение может быть применено также в распределенных вычислительных средах, в которых задачи выполняются с помощью дистанционных обрабатывающих устройств, которые связаны через коммуникационную сеть. В распределенной вычислительной среде программные модули могут быть расположены на запоминающем носителе информации как местного, так и удаленного компьютера, включая запоминающие устройства памяти.
Со ссылкой на фиг.1 примерная система, предназначенная для реализации изобретения, включает в себя вычислительное устройство общего назначения в виде компьютера 110. Компоненты компьютера 110 могут включать в себя процессор 120, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, включая системную память, с процессором 120, но не ограничены этим. Системная шина 121 может быть любого типа из нескольких типов конструкций шин, включая шину памяти или контроллер памяти, периферийную шину и местную шину, использующих любую из множества архитектур шин. В качестве примера, а не ограничения, такие архитектуры включают в себя шину промышленной стандартной архитектуры (ПСА, ISA), шину микроканальной архитектуры (МКА, МСА), локальную шину расширенной ПСА, шину Ассоциации по стандартам видеоэлектроники (АСВ, VESA) и шину межсоединения периферийных компонентов (МПК, PCI), также известную как шина второго уровня.
Компьютер 110 обычно включает в себя множество доступных для чтения с помощью компьютера носителей информации. Доступные для чтения с помощью компьютера носители информации могут быть любыми имеющимися носителями информации, к которым можно осуществлять доступ с помощью компьютера 110, и включают в себя как энергозависимые, так и энергонезависимые носители информации, сменные и постоянные носители информации. В качестве примера, а не ограничения, доступные для чтения с помощью компьютера носители информации могут содержать компьютерные запоминающие носители информации и носители для передачи информации. Компьютерные запоминающие носители информации включают в себя как энергозависимые, так и энергонезависимые носители информации, сменные и постоянные носители информации, реализованные с помощью любого способа или технологии для запоминания информации, такой как доступные для чтения с помощью компьютера команды, структуры данных, программные модули или другие данные. Компьютерные запоминающие носители информации включают в себя ОЗУ (RAM), ПЗУ (ROM), ЭСППЗУ (ЕЕPROM) (электрически стираемое программируемое ПЗУ), флэш-память и другие технологии памяти, ПЗУ на компакт-диске, цифровые универсальные диски (ЦУД, DVD) или другие запоминающие устройства на оптическом диске, магнитные кассеты, магнитные ленты, запоминающие устройства на магнитном диске или другие магнитные запоминающие устройства или любые другие носители, которые могут быть использованы для запоминания необходимой информации и к которым можно осуществлять доступ с помощью компьютера 110, но не ограничены упомянутым перечнем. Носители для передачи информации обычно осуществляют доступные для чтения с помощью компьютера команды, структуры данных, программные модули и другие данные в модулированном сигнале данных, таком как сигнал несущей частоты или другой механизм переноса, и включают в себя любые носители доставки информации. Понятие модулированный сигнал данных означает сигнал, который имеет один или несколько своих параметров, установленных или измененных таким образом, чтобы кодировать информацию в сигнале. В качестве примера, а не ограничения носитель для передачи информации включает в себя проводной носитель информации, такой как проводная сеть или непосредственное проводное соединение и беспроводной носитель информации, такой как акустический, РЧ (радиочастотный), инфракрасный и другой беспроводной носитель информации. Комбинации из любого из вышеперечисленного также должны быть включены в объем доступного для чтения с помощью компьютера носителя информации.
Системная память 130 включает в себя компьютерный запоминающий носитель информации в виде энергозависимой и/или энергонезависимой памяти, такой как память, предназначенная только для чтения (ПЗУ, ROM) 131, и память произвольного доступа (ОЗУ, RAM) 132. Базовая система ввода/вывода 133 (BIOS), содержащая базовые подпрограммы, которые помогают передавать информацию между элементами внутри компьютера 110, например во время запуска, обычно хранится в ПЗУ 131. ОЗУ 132 обычно содержит данные и/или программные модули, которые являются оперативно доступными с помощью процессора 120 и/или являются выполняемыми в текущий момент в процессоре 120. В качестве примера, а не ограничения фиг.1 иллюстрирует операционную систему 134, прикладные программы 135, другие программные модули и программные данные 137.
Компьютер также может включать в себя другие сменные/постоянные энергозависимые/энергонезависимые компьютерные запоминающие носители информации. Только в качестве примера фиг.1 иллюстрирует накопитель 141 на жестком диске, который считывает с постоянного энергонезависимого магнитного носителя информации и записывает на него, накопитель 151 на магнитом диске, который считывает со сменного энергонезависимого магнитного диска 152 или записывает на него, и накопитель 155 на оптическом диске, который считывает со сменного энергонезависимого оптического диска 156, такого как ПЗУ на компакт-диске или другой оптический носитель информации, или записывает на него. Другие сменные/постоянные энергозависимые/энергонезависимые компьютерные запоминающие носители информации, которые можно использовать в примерной операционной среде, включают в себя кассеты на магнитных лентах, платы флэш-памяти, цифровые универсальные диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и тому подобное, но не ограничены этим. Накопитель 141 на жестком диске обычно соединен с системной шиной 121 через интерфейс постоянной памяти, такой как интерфейс 140, а накопитель 151 на магнитном диске и накопитель 155 на оптическом диске обычно соединены с системной шиной 121 с помощью интерфейса сменной памяти, такого как интерфейс 150.
Накопители и связанные с ними компьютерные запоминающие носители информации, обсужденные выше и проиллюстрированные на фиг.1, обеспечивают хранение доступных для чтения с помощью компьютера команд, структур данных, программных модулей и других данных для компьютера 110. Например, на фиг.1 накопитель 141 на жестком диске изображен как хранящий операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Заметим, что эти компоненты могут быть либо теми же самыми, как операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные, или отличными от них. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и программным данным 147 на фиг.1 даны разные номера для того, чтобы проиллюстрировать, что они, как минимум, являются разными экземплярами.
Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, например клавиатуру 162, микрофон 163 и указывающее устройство 161, такое как мышь , шаровой манипулятор или сенсорная панель. Другие устройства ввода (не изображены) могут включать в себя джойстик, игровую панель, антенну спутниковой связи, сканер или тому подобные. Эти и другие устройства ввода часто соединены с процессором 120 через пользовательский входной интерфейс 160, который соединен с системной шиной, но могут быть соединены с помощью других конструкций интерфейса и системной шины, таких как параллельный порт, игровой порт или универсальная последовательная шина (УПШ, USB). Монитор 191 или другой тип устройства отображения также соединен с системной шиной 121 через интерфейс, такой как видеоинтерфейс 190. Кроме монитора компьютеры также могут включать в себя другие периферийные устройства вывода, такие как громкоговорители 197 и принтер 196, которые могут быть соединены через выходной периферийный интерфейс 190.
Компьютер 110 может работать в сетевой среде с использованием логических соединений с одним или несколькими удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, карманным компьютером, сервером, маршрутизатором, сетевым ПК, устройством однорангового узла сети или другим обычным узлом сети и обычно включает в себя многие или все элементы, описанные выше относительно компьютера 110. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (ЛС, LAN) 171 и глобальную сеть (ГС, WAN) 173, но также могут включать в себя другие сети. Такие сетевые среды являются обыкновенными в учреждениях, в компьютерных сетях предприятий, в интрасетях и в Интернете.
При использовании в сетевой среде ЛС компьютер 110 соединен с ЛС 171 через сетевой интерфейс или адаптер 170. При использовании в сетевой среде ГС компьютер 110 обычно включает в себя модем 172 или другое средство для установления связи через ГС 173, такую как Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через пользовательский входной интерфейс 160 или другой подходящий механизм. В сетевой среде программные модули, изображенные относительно компьютера 110, или их части можно запоминать в удаленном запоминающем устройстве. В качестве примера, а не ограничения фиг.1 изображает дистанционные прикладные программы 185, которые находятся в удаленном компьютере 180. Будет понятно, что изображенные сетевые соединения являются примерными и можно использовать любые другие средства установления линии связи между компьютерами.
Фиг.2 - блок-схема подвижного устройства 200, которое является примерной вычислительной средой. Подвижное устройство 200 включает в себя микропроцессор 202, память 204, компоненты 206 ввода/вывода (I/O, Вв/Выв) и интерфейс 208 связи, предназначенный для связи с удаленными компьютерами или другими подвижными устройствами. В одном варианте осуществления вышеупомянутые компоненты соединены для связи друг с другом через соответствующую шину 210.
Память 204 реализована как энергонезависимая электронная память, например память произвольного доступа (ОЗУ, RAM) с модулем батарейной поддержки (не изображен), таким образом, что информация, запомненная в памяти 204, не теряется, когда выключается общее питание в подвижное устройство 200. Часть памяти 204 предпочтительно выделена как адресуемая память, предназначенная для выполнения программы, в то время как другая часть памяти 204 предпочтительно используется для запоминания таким образом, чтобы имитировать запоминание на дисководе.
Память 204 включает в себя операционную систему 212, прикладные программы 214, а также объектно-ориентированную память 216. Во время работы операционная система 212 предпочтительно выполняется с помощью процессора 202 из памяти 204. Операционная система 212 в одном предпочтительном варианте осуществления является операционной системой товарной марки WINDOWS® СЕ, коммерчески доступной от корпорации Microsoft. Операционная система 212 предпочтительно предназначена для подвижных устройств и реализует средства базы данных, которые могут быть использованы приложениями 214 посредством множества объявленных интерфейсов и способов прикладного программирования. Объекты в объектно-ориентированной памяти 216 поддерживают с помощью приложений 214 и операционной системы 212 по меньшей мере частично в ответ на обращения к объявленным интерфейсам и способам прикладного программирования.
Интерфейс 208 связи представляет многочисленные устройства и технологии, которые дают возможность подвижному устройству 200 посылать и принимать информацию. Устройства включают в себя, например, проводные и беспроводные модемы, спутниковые приемники и широковещательные согласующие устройства. Подвижное устройство также может быть непосредственно соединено с компьютером для обмена с ним данными. В таких случаях интерфейс 208 связи может быть инфракрасным приемопередатчиком или последовательным или параллельным соединением связи, все из которых могут передавать поточную информацию.
Компоненты 206 ввода/вывода включают в себя множество устройств ввода, таких как сенсорный экран, кнопки, ролики и микрофон, а также множество устройств вывода, включая звуковой генератор, вибрационное устройство и дисплей. Устройства, перечисленные выше, представлены в качестве примера и необязательно все должны присутствовать в подвижном устройстве 200. Кроме того, другие устройства ввода/вывода могут быть присоединены к подвижному устройству 200 или находиться с ним в рамках объема настоящего изобретения.
В соответствии с одним аспектом настоящего изобретения предложены система и способ, которые оценивают шум в сигналах распознавания образов. Для того чтобы выполнять это, настоящее изобретение использует рекурсивный алгоритм, предназначенный для оценки шума в каждом кадре сигнала с помехами частично на основании оценки шума, найденной, по меньшей мере, для одного соседнего кадра. В соответствии с настоящим изобретением шум оценивают для одного кадра с помощью использования пошагового байесовского изучения, причем допускают априорное распределение изменяющегося во времени шума и оценку шума рекурсивно корректируют с использованием аппроксимации для апостериорного шума, вычисленного в предыдущем кадре. Посредством этого рекурсивного процесса оценка шума может отслеживать нестационарный шум.
Пусть у1 t=у1,у2, ,уr, ,yt является последовательностью данных наблюдения речи с помехами, представленных в логарифмической области (такой как логарифмический спектр или кепстр), и допускают, что они являются скалярными величинами без потери общности. Данные у 1 t используют для последовательной оценки искажающей шумовой последовательности n1 t=n1,n2, ,nt с той же самой длительностью t данных. В общей схеме байесовского изучения допускают, что знание о шуме n (рассматриваемом как неизвестный параметр) содержится в данном априорном распределении p(n). Если шумовая последовательность является стационарной, т.е. статистические характеристики шума не изменяются во времени, тогда традиционный байесовский логический вывод (т.е. вычисление апостериорного распределения) относительно параметра n шума в любой момент времени может быть выполнен посредством правила Байеса пакетного режима :
где - допустимая область пространства параметра шума. При условии p(n|y1 t) в принципе возможна любая оценка относительно шума n. Например, традиционную оценку точки МАВ относительно шума n вычисляют как глобальный или локальный максимум апостериорного распределения p(n|y1 t). Оценка минимальной среднеквадратичной погрешности (МСКП, MMSE) является математическим ожиданием апостериорного распределения p(n|y1 t).
Однако, когда шумовая последовательность является нестационарной, а обучающие данные речи у1 t с помехами представлены последовательно, как в большинстве практических приложений расширения признаков речи, требуются новые способы оценки шума для отслеживания статистических данных шума, которые изменяются во времени. В итеративном приложении правило Байеса может быть записано как:
Допуская условную независимость между речью уt с помехами и ее предыдущим
у1 t-1 при условии nt или p(уt |y1 t-1,nt)=p(yt|nt ) и допуская плавность в апостериорном распределении: p(n t|y1 t-1) p(nt-1|y1 t-1), предыдущее уравнение может быть записано как:
Пошаговое изучение нестационарного шума может быть теперь установлено с помощью повторного использования уравнения (1) следующим образом. Сначала при отсутствии данных у речи без помех апостериорная функция распределения вероятностей (ФРВ, PDF) получается из известного априорного распределения p(n0|y0)= p(n0), где p(n 0) получают из анализа только кадров с известным шумом и при допущении нормального (гауссова) распределения. Затем использование уравнения (1) для t=1 дает
а для t=2 оно дает
используя p(n1|у1 ), уже вычисленное из уравнения (2). Для t=3 уравнение 1 становится
и т.д. Таким образом, этот процесс рекурсивно генерирует последовательность апостериорных распределений (при условии, что имеется p(yt|nt)
что обеспечивает основу для выполнения пошагового логического вывода Байеса относительно последовательности n1 t нестационарного шума. Таким образом, обсужденный общий принцип пошагового логического вывода Байеса теперь будет применен к конкретной модели акустических искажений, которая поставляет ФРВ p(yt|nt) известных данных кадров, и при упрощающем допущении, что шум априорно является гауссовым.
Как применяемое к шуму пошаговое байесовское изучение корректирует текущее априорное распределение относительно шума, используя апостериорное распределение, при условии наблюдаемых данных до самого недавнего последнего момента, поскольку это апостериорное распределение является наиболее полной информацией относительно параметра, предшествующего текущему моменту времени. Этот способ проиллюстрирован на фиг.3, на которой на первом этапе сигнал 300 с помехами разделяют на кадры. На этапе 302 для каждого кадра применяют пошаговое байесовское изучение, причем оценка шума каждого кадра допускает априорное распределение изменяющегося во времени шума и оценку шума рекурсивно корректируют, используя аппроксимацию для апостериорного шума, вычисленного в кадре предыдущего момента времени. Следовательно, апостериорная последовательность в уравнении 3 становится изменяющейся во времени априорной последовательностью (т.е. перед изменением) для рассматриваемых параметров распределения шума (со сдвигом времени на один кадр). В одном варианте осуществления этап 302 может включать в себя вычисление вероятности p(yt|n t) данных для текущего кадра в то же время при использовании оценки шума в предыдущем кадре, предпочтительно в непосредственно предыдущем кадре, которое предполагает плавность апостериорного распределения, как указано с помощью уравнения 1.
Для вероятности p(yt|nt) данных, которая является не гауссовой (и будет кратко описана), апостериорное распределение обязательно является не гауссовым. Последовательное применение уравнения 1 дало бы в результате быстрое расширение комбинации предыдущих апостериорных распределений и привело бы к неустойчивым представлениям. Необходима апроксимация, чтобы преодолеть неустойчивость. Апроксимацией, которая используется, является разложение в ряд Тейлора первого порядка, чтобы линеаризировать нелинейную зависимость между yt и nt. Это приводит к гауссовому представлению p(yt|nt ). Следовательно, априорная ФРВ p(n +1) изменяющегося во времени шума, которая унаследована из апостериорной вероятности для предыстории данных p(n у1 ), может быть аппроксимирована с помощью гауссова распределения
где µn и 2 n называются гиперпараметрами (средним значением и дисперсией), которые определяют априорную ФРВ. Затем апостериорная последовательность в уравнении 3, вычисленная из рекурсивного правила Байеса, предлагает принципиальный способ определения временного изменения гиперпараметров, который описан ниже.
Теперь будут предоставлены модели акустических искажений и речи без помех для вычисления вероятности p(yt|n t) данных. Во-первых, заявитель допускает неизменяющуюся во времени смешанную гауссову модель для логарифмического спектра речи без помех
Затем можно использовать простую нелинейную модель акустических искажений в логарифмической области спектра
где нелинейная функция является:
Для того чтобы получить полезное представление для вероятности p(yt|nt) данных, используют разложение в ряд Тейлора для линеаризации нелинейности g в уравнении 6. Это дает линеаризованную модель вида
где n0 - точка разложения в ряд Тейлора, а коэффициент разложения в ряд первого порядка можно легко вычислить как:
При вычислении функций g и g в уравнении 7 значение речи без помех взято как среднее значение (µ (m0)) оптимальной гауссовой составляющей m0 смеси.
Уравнение 7 определяет линейное преобразование произвольных переменных в у (после фиксирования n). На основании этого преобразования получают ФРВ относительно у ниже из ФРВ относительно (уравнение 5) с помощью аппроксимации Лапласа
где оптимальную составляющую смеси определяют с помощью
и где средним значением и дисперсией приближенных гауссовых составляющих являются
Как будет показано ниже, чтобы разработать этот алгоритм, используют гауссову оценку для p(yt |nt). Несмотря на то, что вышепредставленное описание использовало разложение в ряд Тейлора и аппроксимацию Лапласа для обеспечения гауссовой оценки для p(yt|nt ), следует понять, что могут быть использованы другие способы для обеспечения гауссовой оценки не выходя за рамки объема настоящего изобретения. Например, кроме использования аппроксимации Лапласа в уравнении (8) могут быть использованы численные способы для аппроксимации или гауссовой модели смеси (с малым числом составляющих).
Теперь будет предоставлен алгоритм, предназначенный для оценки изменяющихся во времени среднего значения и дисперсии. При условии приближенного гауссового представления для p(y t|nt), как в уравнении 8, и для p(n |у1 ), как в уравнении 4, может быть предоставлен алгоритм для определения априорного изменения шума, выраженного как последовательные оценки изменяющихся во времени гиперпараметров среднего значения µn и дисперсии 2 n . С помощью подстановки уравнений 4 и 8 в уравнение 1 может быть получено следующее выражение:
где µ1=уt -µ (m0)-gm0+g m0n0,
и было использовано допущение плавности изменения шума. Средние значения и дисперсии соответственно левых и правых частей отождествляют в уравнении 10 для получения формулы априорного изменения:
где 1=уt-µ (m0)-gm0+g m0µnt-1. При составление уравнения 11 использовано априорное среднее значение предыдущего момента времени как точка разложения в ряд Тейлора, т.е. n0 =µnt-1. Также был использован хорошо установленный результат в гауссовом вычислении (установка а1= g m0):
На основании множества еще упрощенных эффективных допущений используют приравнивание квадратного члена приближенного рекурсивного правила Байеса для последовательного получения формул априорного изменения шума, как суммировано в уравнении 11. Оценка среднего значения шума оказалась более точно измеренной с помощью уменьшения (среднеквадратической ошибки) (СКО, RMS), в то время как информация о дисперсии может быть использована для обеспечения показателя надежности.
Способы оценки шума, описанные выше, могут быть использованы в способе нормализации шума или удаления шума, таких как обсуждены в заявке на патент, озаглавленной "Способ уменьшения шума с использованием корректирующих векторов на основании динамических аспектов речи и нормализации шума , № 10/117142, поданной 5 апреля 2002 г. Изобретение также может быть использовано непосредственно как часть системы уменьшения шума, в которой оцененный шум, определенный для каждого кадра, удаляют из сигнала с помехами для создания сигнала без помех, такой как описана в заявке на патент, озаглавленной Нелинейная модель наблюдения для удаления шума из искаженных сигналов , № 10/237163, поданной 6 сентября 2002 г.
Фиг.4 представляет блок-схему среды, в которой может быть использован способ оценки шума настоящего изобретения для выполнения уменьшения шума. В частности, фиг.4 изображает систему распознавания речи, в которой может быть использован способ оценки шума настоящего изобретения для уменьшения шума в обучающем сигнале, используемом для обучения акустической модели и/или для уменьшения шума в тестовом сигнале, который подают в акустическую модель, чтобы идентифицировать лингвистическое содержание тестового сигнала.
На фиг.4 говорящий абонент 400, или обучающее устройство, или пользователь говорит в микрофон 404. Микрофон 404 также принимает аддитивный шум из одного или нескольких источников 402 шума. Звуковые сигналы, обнаруженные с помощью микрофона 404, преобразуют в электрические сигналы, которые подают в аналого-цифровой преобразователь 406.
Несмотря на то, что аддитивный шум 402 изображен входящим через микрофон 404 в варианте осуществления фиг.4, в других вариантах осуществления аддитивный шум может быть суммирован с входным речевым сигналом, который становится цифровым сигналом после аналого-цифрового преобразователя 406.
Аналого-цифровой преобразователь 406 преобразует аналоговый сигнал из микрофона 404 в ряд цифровых величин. В нескольких вариантах осуществления аналого-цифровой преобразователь 406 квантует аналоговый сигнал с частотой 16 кГц и с 16-ю битами на выборку, таким образом создавая 32 килобайта данных речи в секунду. Эти цифровые величины подают в устройство 407 составления кадров, которое в одном варианте осуществления группирует величины в кадры длительностью 25 миллисекунд, которые разделяются 10 миллисекундами.
Кадры данных, созданные с помощью устройства 407 составления кадров, подают в устройство 407 извлечения признаков, которое извлекает признак из каждого кадра. Примеры модулей извлечения признаков включают в себя модули, предназначенные для выполнения линейного кодирования с предсказанием (ЛКП, LPC), ЛКП производного кепстра, линейного предсказания восприятия (ЛПВ, PLP), извлечения признака слуховой модели и извлечения признака коэффициентов кепстра частоты мелодики. Заметим, что изобретение не ограничено этими модулями извлечения признаков, и что другие модули могут использоваться в контексте настоящего изобретения.
Модуль извлечения признаков создает поток векторов признаков, каждый из которых связан с кадром речевого сигнала. Этот поток векторов признаков подают в модуль 410 уменьшения шума, который использует способ оценки шума настоящего изобретения для оценки шума в каждом кадре.
Выходным сигналом модуля 410 уменьшения шума является последовательность векторов признаков без помех . Если входным сигналом является обучающий сигнал, эту последовательность векторов признаков без помех подают в устройство 424 обучения, которое использует векторы признаков без помех и обучающий текст 424 для обучения акустической модели 418. Способы, предназначенные для обучения таких моделей, известны в данной области техники, и их описание не требуется для понимания настоящего изобретения.
Если входной сигнал является тестовым сигналом, векторы признаков без помех подают в декодер 412, который идентифицирует наиболее вероятную последовательность слов на основании потока векторов признаков, лексикона 414, модели 416 языка и акустической модели 418. Конкретный способ, используемый для декодирования, не важен для настоящего изобретения, и могут быть использованы любые из нескольких известных способов декодирования.
Наиболее вероятную последовательность слов гипотез подают в модуль 420 степени доверия. Модуль 420 степени доверия идентифицирует, какие слова, наиболее вероятно, неправильно идентифицированы с помощью устройства распознавания речи, частично на основании вторичной акустической модели (не изображена). Затем модуль 420 степени доверия подает последовательность слов гипотез в выходной модуль 422 вместе с идентификаторами, указывающими, какие слова, возможно, неправильно идентифицированы. Специалисты в данной области техники поймут, что модуль 420 степени доверия является необязательным для применения настоящего изобретения.
Несмотря на то, что фиг.4 изображает систему распознавания речи, настоящее изобретение может быть использовано в любой системе распознавания образов и не ограничено речью.
Несмотря на то, что настоящее изобретение описано со ссылкой на конкретные варианты осуществления, специалисты в данной области техники поймут, что могут быть сделаны изменения по форме и в деталях не выходя за рамки сущности и объема изобретения.
Класс G10L15/20 техника распознавания речи, специально предназначенная для крайне неблагоприятных условий окружения, например в шуме, при речи, вызванной стрессом
Класс G06K9/00 Способы и устройства для считывания и распознавания напечатанных или написанных знаков или распознавания образов, например отпечатков пальцев