способ распознавания слов в слитной речи

Классы МПК:G10L15/02 выделение признаков для распознавания речи; выбор блока распознавания
Автор(ы):, , ,
Патентообладатель(и):Федеральное государственное научное учреждение научно-исследовательский институт "Специализированные вычислительные устройства защиты и автоматика" (RU)
Приоритеты:
подача заявки:
2005-03-30
публикация патента:

Изобретение относится к автоматике и вычислительной технике. Его использование в системах управления технологическим, бытовым и другим оборудованием, в автоматических справочных системах, системах автоматического перевода, системах понимания речи и т.д. позволяет получить технический результат в виде повышения точности распознавания слов в слитной речи. Способ состоит в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании, для чего применяют сеть лексического декодирования, которая задает закономерности следования эталонных акустических состояний в языке. Технический результат достигается за счет того, что проводится поиск рабочей гипотезы, являющийся оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, что обеспечивается использованием алгоритма перемещаемого маркера, при этом рабочую гипотезу восстанавливают из маркера, который в этот момент времени находится в конечной вершине сети лексического декодирования. 3 з.п. ф-лы, 12 ил. способ распознавания слов в слитной речи, патент № 2297676

способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676 способ распознавания слов в слитной речи, патент № 2297676

Формула изобретения

1. Способ распознавания слов в слитной речи, состоящий в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании, для чего применяют сеть лексического декодирования, которая задает закономерности следования эталонных акустических состояний в языке, отличающийся тем, что проводится поиск рабочей гипотезы, являющийся оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, что обеспечивается использованием алгоритма перемещаемого маркера, при этом рабочую гипотезу восстанавливают из маркера, который в этот момент времени находится в конечной вершине сети лексического декодирования.

2. Способ распознавания слов в слитной речи по п.1, в котором сеть лексического декодирования создают на основе модели языка.

3. Способ распознавания слов в слитной речи по п.1, в котором при создании сети лексического декодирования используют вероятности перехода между состояниями, которые задают средние длительности акустических состояний.

4. Способ распознавания слов в слитной речи по п.2, в котором при создании сети лексического декодирования используют вероятности перехода между состояниями, которые задают средние длительности акустических состояний.

Описание изобретения к патенту

Изобретение относится к автоматике и вычислительной технике и может быть использовано в системах управления технологическим, бытовым и другим оборудованием, в автоматических справочных системах, системах автоматического перевода, системах понимания речи и т.д.

Известен способ распознавания слов в слитной речи, реализованный в системе автоматического понимания речи фирмы LDC [1].

Суть способа состоит в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании.

Особенностью известного способа является то, что последовательность текущих акустических состояний преобразуют в А-матрицу, которая используется при дальнейшем анализе вместо исходного речевого сигнала. А-матрица содержит различные параметры речевого сигнала, включая его фонетическую транскрипцию. На основе А-матрицы получают рабочую гипотезу, т.е. последовательность слов, которая предположительно произнесена в исходном речевом высказывании. Обработку А-матрицы производят слева направо - блок предварительного выделения слов обрабатывает слова из списка наиболее вероятных слов и формирует информацию о степени совпадения данного слова и начального участка речевого сигнала, далее блок управления анализирует полученную информацию и при помощи имеющейся синтаксической и семантической информации определяет список слов, которые могут следовать за данным словом, и передает их в блок предварительного выделения слов, далее процедура повторяется, пока не достигнут конец речевого высказывания.

Недостатком этого способа является низкая точность распознавания, обусловленная тем, что: 1) стратегия поиска рабочей гипотезы не является оптимальной в смысле максимума степени ее совпадения с исходным речевым сигналом, поскольку решение об оптимальности гипотезы принимается при каждом сравнении слова с речевым сигналом и возможна потеря оптимальной гипотезы; 2) поиск рабочей гипотезы является двухэтапным процессом - на первом этапе вычисляется А-матрица, на втором этапе находится гипотеза, таким образом, поиск рабочей гипотезы основывается на фонетической транскрипции, которая может содержать ошибки.

Известен способ распознавания слов в слитной речи, реализованный в системе автоматического понимания речи HWIM фирмы BBN [2].

Суть способа состоит в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании.

Особенность этого способа состоит в том, что последовательность текущих акустических состояний преобразуют в ряд фонетических транскрипций, которые записывают в виде сегментной сетки. Полученную сегментную сетку используют при поиске рабочей гипотезы. Конструкции, в наибольшей степени соответствующие словам, независимо от их расположения, направляются в блок проверки слов, где производится оценка степени совпадения. Результаты проверки объединяются с результатами лексического подбора, и, если показатель этого объединенного результата достаточно высок, слова направляются в блок синтаксического предсказания. Слова, сформированные в блоке синтаксического предсказания в соответствии с правилами используемой грамматики, добавляются справа и слева к основному слову и направляются в блок проверки слов. Далее процесс повторяется, пока не будет распознан весь речевой сигнал. Подбор слов осуществляется при помощи лексических декодирующих сетей, которые представляют всевозможные фонетические представления слова во всех возможных фонетических контекстах.

Недостатком этого способа является низкая точность распознавания, обусловленная следующими факторами: 1) стратегия поиска рабочей гипотезы не является оптимальной в смысле максимума степени ее совпадения с исходным речевым сигналом, поскольку решение об оптимальности гипотезы принимается при каждом сравнении слова с речевым сигналом и возможна потеря оптимальной гипотезы; 2) поиск рабочей гипотезы является двухэтапным процессом - на первом этапе вычисляется сегментная сетка, на втором этапе находится рабочая гипотеза, таким образом, поиск рабочей гипотезы основывается на сегментной сетке, которая может содержать ошибки, однако в отличие от первого аналога этот способ является более устойчивым к ошибкам фонетического транскрибирования.

Наиболее близким к предлагаемому является способ распознавания слов в слитной речи [3], принятый за прототип, состоящий в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании.

Особенностью этого способа является то, что рабочая гипотеза находится непосредственно из последовательности текущих акустических состояний при помощи сети лексического декодирования, вершинами которой являются эталонные акустические состояния, а переходы между ними задают следующие возможные эталонные акустические состояния. Сеть лексического декодирования задает закономерности следования эталонных акустических состояний в соответствии с грамматическими и фонетическими правилами языка.

Процесс декодирования начинается с выбора начальных вершин сети лексического декодирования и нахождения вершины, которой соответствует эталонное акустическое состояние, наиболее близкое текущему акустическому состоянию. Номер наиболее близкой вершины фиксируется в блоке хранения рабочего пути, который представляет собой последовательность номеров вершин. Очередное текущее акустическое состояние сравнивается с состояниями, связанными со следующими возможными вершинами сети. Наиболее близкая вершина фиксируется в блоке хранения рабочего пути. Процесс повторяется до завершения поступления текущих акустических состояний, соответствующих речевому сигналу. После завершения процесса найденный рабочий путь преобразуется в рабочую гипотезу.

Недостатком прототипа является низкая точность распознавания, связанная со следующими факторами: 1) стратегия поиска рабочей гипотезы не является оптимальной в смысле максимума степени ее совпадения с исходным речевым сигналом, поскольку решение об оптимальности гипотезы принимается в каждый момент времени; 2) при построении сети лексического декодирования не используется модель языка [5, стр.539]; 3) при расчете степени совпадения не учитывается информация о средней длительности акустических состояний [4, стр.259].

Технический результат, получаемый от внедрения изобретения, заключается в повышении точности распознавания слов в слитной речи.

Данный технический результат достигают за счет того, что в известном способе распознавания слов в слитной речи, заключающемся в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании путем применения сети лексического декодирования, задающей закономерности следования эталонных акустических состояний в языке, при этом с целью повышения точности распознавания проводится поиск рабочей гипотезы, являющейся оптимальной в смысле максимума степени ее совпадения с исходным речевым сигналом, путем использования алгоритма перемещаемого маркера, а рабочую гипотезу восстанавливают из маркера, находящегося в данный момент времени в конечной вершине сети лексического декодирования.

Особенностью данного способа является то, что поиск рабочей гипотезы является оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, поскольку в основе алгоритма перемещаемого маркера, который используется для поиска рабочей гипотезы, лежит метод динамического программирования [6, стр.74].

Также при построении сети лексического декодирования могут быть использованы модель языка [5, р.539] и/или вероятности перехода между состояниями, посредством которых учитывают средние длительности фонем.

Изобретение поясняется чертежами, где на фиг.1-7 которого представлены этапы построения сети лексического декодирования; на фиг.8, 9 - алгоритм перемещаемого маркера; на фиг.10-12 - устройство, реализующее способ.

Сеть лексического декодирования создается путем выполнения следующих операций: представление речи конечным набором слов, построение возможных фонетических представлений слов, построение модели языка, создание базы данных контекстно-зависимых фонем (Трифонов), создание графа слов на основе модели языка, создание для каждого слова из множества Y фонетической сети слова, задающей возможные фонетические реализации слова, расширение графа слов при помощи фонетических сетей и замены фонем на трифоны.

Суть этих операций состоит в следующем.

1) Представляют речь конечным набором слов:

способ распознавания слов в слитной речи, патент № 2297676

где wi - i-е слово, i=1, ..., nY.

2) Представляют слова как последовательности фонем:

способ распознавания слов в слитной речи, патент № 2297676

где nр - количество возможных фонетических представлений слова wi, n fj - количество фонем в j-м фонетическом представлении слова wi, fkj - k-я фонема в j-м фонетическом представлении слова w i.

3) Создают модель языка, для этого вычисляют вероятности:

p(wi/Wn),

где Wn - последовательность слов, предшествующих слову wi, длиной n.

4) Создают базу данных моделей контекстно-зависимых фонем (Трифонов), представляющих собой сеть (фиг.6), вершинами которой являются эталонные акустические состояния, а переходы между ними задают возможные переходы между эталонными акустическими состояниями в языке. С переходами связаны вероятности перехода между состояниями, которые неявным образом задают длительности акустических состояний.

5) Конструируют сеть лексического декодирования с учетом п.1, п.2, п.3, п.4.

Этапы построения сети лексического декодирования представлены на примере сети, использующей двуграммную модель языка.

Этапы построения сети лексического декодирования поясняются чертежами: на фиг.1 изображены орфографическое и фонетическое представление слов; на фиг.2 - граф слов, основанный на двуграммной модели языка, который используется для задания возможных в языке последовательностей слов; фиг.3 - подграф UNK, используемый для моделирования слов, не входящих во множество Y; фиг.4 - фонетическая сеть слова "АДВОКАТ"; фиг.5 - трифонная сеть слова "АДВОКАТ"; фиг.6 - сеть слова адвокат, вершинами которой являются акустические состояния; фиг.7 - лексическая сеть декодирования.

На первом этапе определяют словарь Y речевого общения. Множество Y содержит слово-класс UNK, который отвечает за слова, не попавшие в это множество. Далее определяют лексическое и фонетическое представление каждого слова (фиг.1), строят модель языка для данного словаря Y и базу данных Трифонов языка. На втором этапе создается шаблон сети декодирования (фиг.2) в соответствии с имеющейся моделью языка. Шаблон сети декодирования содержит начальный узел, в котором система находится перед началом процесса распознавания, и конечный узел, в котором система находится после завершения процесса распознавания. Узел, соответствующий слову UNK, является подграфом (фиг.3) и предназначен для моделирования слов, не входящих в словарь. Структура подграфа UNK выбрана таким образом, чтобы он мог моделировать любую последовательность фонем. На третьем этапе для каждого слова строится граф, который моделирует все ожидаемые фонетические представления слов (фиг.4). Вершинами графа являются фонемы, а дугами - указатели на следующие возможные фонемы. Конечное состояние графа слова обозначено прямоугольником. Оно предназначено для того, чтобы обозначать конец слова. Далее вместо фонем подставляют контекстно-зависимые фонемы (трифоны) (фиг.5) и далее акустические состояния, из которых они состоят (фиг.6), которые берут из базы данных Трифонов. На четвертом этапе построенные графы слов подставляют в шаблон сети декодирования, в результате чего получают сеть лексического декодирования (фиг.7).

Работа алгоритма перемещаемого маркера поясняется фиг.8, 9; фиг.8 представляет структуру данных, называемую маркером, фиг.9 представляет алгоритм перемещаемого маркера.

Для реализации алгоритма перемещаемого маркера (фиг.9) каждая вершина сети лексического декодирования содержит указатель на структуру данных, называемую маркером (фиг.8), которая хранит информацию о частичном пути, заканчивающемся в данной вершине сети лексического декодирования. Структуру маркера можно представить в виде способ распознавания слов в слитной речи, патент № 2297676 , где способ распознавания слов в слитной речи, патент № 2297676 - степень совпадения частичного пути, прошедшего через вершину j в момент времени t, способ распознавания слов в слитной речи, патент № 2297676 - запись о состоянии, соответствующем вершине j в момент времени t.

При инициализации алгоритма в начальный узел сети помещают маркер с нулевой степенью совпадения. Далее начинается работа алгоритма. При поступлении очередного текущего акустического состояния копии маркеров из каждой вершины сети лексического декодирования перемещаются во все вершины, которые возможны после данной, при этом степень совпадения маркера пересчитывается в соответствии с формулой

способ распознавания слов в слитной речи, патент № 2297676

где способ распознавания слов в слитной речи, патент № 2297676 - предыдущее значение степени совпадения, р ij - вероятность перехода между эталонными состояниями, связанными с вершинами сети лексического декодирования i и j, bj(Vt) - степень совпадения между текущим акустическим состоянием V t и эталонным состоянием, связанным с вершиной сети лексического декодирования j, wi - слово, которому принадлежит состояние i, wj. - слово, которому принадлежит состояние, связанное с вершиной сети лексического декодирования j. Далее исходные маркеры удаляются. В каждой вершине сети лексического декодирования удаляются все маркеры, кроме маркера, имеющего максимальную степень совпадения, эта процедура называется нормализацией множества маркеров. После того, как обработаны все текущие акустические состояния, соответствующие речевому сигналу, работа алгоритма завершается. Из маркера, находящегося в конечной вершине сети лексического декодирования, извлекается рабочий путь, из которого находится рабочая гипотеза.

Устройство для реализации способа распознавания слов в слитной речи может быть выполнено в виде программы для ЭВМ. В этом случае устройство представляет собой структуры данных в оперативной памяти ЭВМ.

Устройство для реализации способа распознавания слов в слитной речи представлено на фиг.10, 11 и 12. На фиг.10 изображена структурная схема системы; на фиг.11 - структурная схема блока акустического анализатора; на фиг.12 - структурная схема лексического анализатора.

Устройство распознавания слов в слитной речи, использующее сеть лексического декодирования представлено на фиг.10. Оно состоит из акустического анализатора, представленного блоком 1, и лексического анализатора, представленного блоком 2.

Блок 1 предназначен для определения текущего акустического состояния V t.

Блок 2 предназначен для поиска рабочей гипотезы. Вход блока 1 соединен с микрофоном. Выход блока 1 соединен со входом блока 2. С выхода блока 2 получают искомый результат.

Блок 1, структурная схема которого представлена на фиг.11, содержит: блок 3 - частотный анализатор спектра, блок 4 - вычислитель текущего акустического состояния Vt.

Блок 2, структурная схема которого представлена на фиг.12, содержит: блок 5 -хранилище множества состояний; блок 6 - хранилище сети лексического декодирования; блок 7 - вычислитель степени совпадения bj(Vt) между текущим акустическим состоянием Vt и эталонным акустическим состоянием, связанным с текущей вершиной сети лексического декодирования j; блок 8 - хранилище маркеров; блок 9 - формирователь результата распознавания; блок 10 - хранилище пересчитанных маркеров; блок 11 - блок нормализации множества маркеров; блок 12 - блок вывода результатов распознавания; блок 13 - блок управления.

Блок 3 предназначен для вычисления спектра текущего участка речевого высказывания и преобразования его в цифровой вид.

Блок 4 предназначен для вычисления текущего акустического состояния Vt, соответствующего текущему речевому участку речи.

Блок 5 представляет собой устройство, в котором хранится база данных акустических состояний.

Блок 6 представляет собой устройство, в котором хранится сеть лексического декодирования.

Блок 7 предназначен для вычисления оценки степени совпадения bj(V t) между текущим акустическим состоянием V t и эталонным акустическим состоянием, соответствующим данной вершине сети лексического декодирования j.

Блок 8 представляет собой устройство, в котором хранится база данных маркеров.

Блок 9 предназначен для формирования результатов распознавания с использованием информации, хранящейся в маркере из конечной вершины в конечный момент времени.

Блок 10 представляет собой устройство, в котором хранится база данных пересчитанных маркеров.

Блок 11 предназначен для нормализации множества маркеров.

Блок 12 предназначен для вывода результатов распознавания.

Блок 13 предназначен для управления системой распознавания.

Работа системы распознавания слов в слитной речи осуществляется следующим образом (см. фиг.10, 11 и 12). Входное высказывание с микрофона поступает на вход блока 3 акустического анализатора 1.

Блок 3 с помощью полосовых фильтров выделяет частотный спектр и преобразует его в цифровую форму в соответствии с прототипом. Эти оцифрованные сигналы подаются на вход блока 4.

Блок 4 вычисляет текущее акустическое состояние V t и одновременно определяет содержит ли текущий участок сигнала речь в соответствии с прототипом. После этого текущее акустическое состояние передается на вход блока 13 лексического анализатора.

Блок 13 в отличие от прототипа управляет работой лексического анализатора. Получив от акустического анализатора текущее акустическое состояние, блок управления дает команду блоку 7 создать маркер способ распознавания слов в слитной речи, патент № 2297676 , связанный с начальной вершиной сети лексического декодирования 0.

Блок 7 в отличие от прототипа создает маркер способ распознавания слов в слитной речи, патент № 2297676 , связанный с начальной вершиной сети лексического декодирования 0, и через блоки 10 и 11 передает его в блок 8. Далее блок 13 дает команду блоку 6 начать обход вершин сети лексического декодирования.

Блок 6 переходит к рассмотрению очередной вершины i сети лексического декодирования и передает на вход блока 8 индекс маркера способ распознавания слов в слитной речи, патент № 2297676 , связанного с данной вершиной. Также на вход блока 5 передается последовательность номеров состояний, связанных с вершинами, в которые система может перейти из текущей вершины.

Блок 8 на вход блока 7 передает текущий маркер способ распознавания слов в слитной речи, патент № 2297676 .

Блок 5, получив команду с блока управления, передает на вход блока 7 очередное состояние, связанное с вершиной j сети лексического декодирования.

Блок 7 создает копию маркера способ распознавания слов в слитной речи, патент № 2297676 , полученного из блока 8, для состояния, связанного с вершиной j, полученного из блока 5, пересчитывая степень совпадения по формуле (1). Вновь созданный маркер способ распознавания слов в слитной речи, патент № 2297676 передается в блок 10, который является хранилищем созданных маркеров.

После того, как обход всех вершин сети лексического декодирования выполнен, блок управления подает на вход блока 10 сигнал о нормализации маркеров, накопленных в блоке 10. Для нормализации маркеры передаются в блок 11.

Блок 11 выполняет нормализацию множества маркеров, удаляя все маркеры, связанные с одной вершиной сети лексического декодирования, кроме маркера, имеющего максимальную величину степени совпадения способ распознавания слов в слитной речи, патент № 2297676 . Нормализованное множество маркеров передается на вход блока 8.

На этом обработка текущего акустического состояния V1 завершается. Система переходит к следующему текущему акустическому состоянию V2. Процедура распознавания завершается, когда текущий речевой участок не содержит речь. В этом случае блок управления подает сигнал на вход блока 6 о завершении процедуры распознавания. Блок 6 передает в блок 8 индекс маркера способ распознавания слов в слитной речи, патент № 2297676 , связанного с конечной вершиной N сети лексического декодирования. Блок 8 передает в блок 9 данный маркер способ распознавания слов в слитной речи, патент № 2297676 , по которому блок 9 формирует результат распознавания в виде последовательности распознанных слов. Эта последовательность передается в блок 12, который отображает результат распознавания в удобном для оператора виде.

Таким образом, задача повышения точности распознавания достигается за счет того, что поиск рабочей гипотезы является оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, поскольку в основе используемого алгоритма перемещаемого маркера лежит метод динамического программирования, а также при построении сети лексического декодирования используется модель языка и вероятности перехода между состояниями, посредством которых учитывают средние длительности фонем.

Источники информации

1. Klatt D.H. Review of the ARPA Speech Understanding Project, J. Acoust. Soc. America, 62, №4, pp.1366, 1977.

2. Woods W.A., Bates M., Brown G., et al. Speech Understanding Systems: Final Tech. Progress Report, Bolt, Beranek, Newman, Inc. Rep. №3438, Cambridge, 1976.

3. Патент РФ №2101782 С1,кл. 7 G10L 15/00.

4. Rabiner L.R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, proceedings of the IEEE, vol. 77, №2, February 1989.

5. Huang X., Acero A., Hon H.-W. Spoken Language Processing: a guide to theory, algorithms, and system development. - Prentice-Hall, Inc., 2001.

6. Моттль В.В., Мучник И.Б. Скрытые Марковские модели в структурном анализе сигналов. - M.: ФИЗМАТЛИТ, 1999.

Класс G10L15/02 выделение признаков для распознавания речи; выбор блока распознавания

способ распознавания музыкальных произведений и устройство для его осуществления -  патент 2295163 (10.03.2007)
маркерный способ идентификации сигнала -  патент 2189075 (10.09.2002)
способ сжатия изолированных слов -  патент 2180974 (27.03.2002)
Наверх