способ распознавания фонем речи и устройство для реализации способа
Классы МПК: | G10L15/06 создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего G10L11/04 определение пика речевых сигналов |
Автор(ы): | Гиголо Людмила Антоновна (RU), Сахаров Виталий Олегович (RU) |
Патентообладатель(и): | Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" (RU) |
Приоритеты: |
подача заявки:
2004-03-30 публикация патента:
20.01.2006 |
Изобретение относится к области анализа и распознавания речевых сигналов и касается способа распознавания фонем речи. Техническим результатом является повышение точности распознавания фонем речи, достигающийся тем, что формирование признаков фонем для распознавания фонем речи основано на применении биспектрального анализа, базирующегося на преобразовании цифровых последовательностей кодов, соответствующих речевым сигналам, в биспектральную область, характеризующую взаимодействия между значениями компонентов Фурье на разных частотах в диапазоне речи, таким образом, обеспечивается выделение дополнительной, существенно новой информации из речевых сигналов, что повышает точность при распознавании фонем, а устройство, реализующее заявленный способ распознавания фонем речи, содержит: вычислительную систему, включающую тактовый генератор, контроллер, оперативное запоминающее устройство, процессор, предназначенный для формирования биспектральных признаков и распознавания на их основе фонем речи, цифроаналоговый преобразователь, долговременное запоминающее устройство, видеоконтроллер и аналого-цифровой преобразователь, а также клавиатуру, дисплей, наушники, микрофон. 2 н.п. ф-лы, 5 ил.
Формула изобретения
1. Способ распознавания фонем речи, заключающийся в приеме звуковых сигналов, соответствующих речевым командам, и их преобразовании в электрические сигналы в микрофоне, в преобразовании электрических сигналов в цифровые последовательности кодов в аналого-цифровом преобразователе (АЦП), отличающийся тем, что цифровые последовательности кодов, полученные при аналого-цифровом преобразовании электрических сигналов, передаются в соответствии с тактовыми импульсами, поступающими из тактового генератора, в оперативное запоминающее устройство (ОЗУ) и долговременное запоминающее устройство (ДЗУ) вычислительной системы, преобразование цифровых последовательностей кодов, соответствующих речевым командам, в графические функции во времени осуществляется в процессоре, после чего для создания эталонов фонем производится их передача на видеоконтроллер для преобразования в видеосигнал и отображения на дисплее, в цифроаналоговом преобразователе (ЦАП) цифровые последовательности кодов преобразуются в электрические сигналы, в наушниках электрические сигналы преобразуются в звуковые сигналы, оператором производится видеоанализ информации на дисплее, и аудиоанализ звукового сигнала в наушниках с целью ручного выделения границ фонемы в составе речевой команды, ввод с помощью клавиатуры состава речевой команды и буквенного кода выделенной фонемы и передача этой информации для хранения в ОЗУ и ДЗУ, в процессоре по программе проводится обработка цифровых последовательностей кодов, соответствующих выделенным интервалам фонем, включающая вычисление массива значений модуля спектра, определяемого по алгоритму быстрого преобразования Фурье, преобразующему цифровую последовательность кодов, соответствующую выделенному интервалу фонемы, в массив значений модуля спектра |F(jf)|, где f - частота, соответствующая исследуемому речевому диапазону, далее проводится вычисление массива значений модуля биспектра |S(f 1, f2)| как произведение трех значений модуля спектра по формуле
|S(f1, f2)|=|F[-j(f1+f 2)]|·|F(jf1)|·|F(jf 2)|,
где f1, f 2 - частоты, соответствующие исследуемому речевому диапазону,
а в качестве значений модуля спектра |F[-j(f 1+f2)]|, |F(jf1 )|, |F(jf2)| используются значения из ранее вычисленного массива значений модуля спектра, при обработке массива значений модуля биспектра осуществляется выделение максимумов модуля биспектра (ММБ), фиксация положений ММБ, после чего, повторяя операции по вычислению массива значений модуля спектра, вычислению массива значений модуля биспектра, выделению ММБ и определению их положений на частотной плоскости f1 и f2 по всем одинаковым по буквенному коду фонемам из всего объема речевых команд формируются эталоны фонем, представляющие собой совокупные матрицы ММБ в точках частотной плоскости, после чего перед распознаванием оператором осуществляется ввод в ОЗУ значения порога по вероятности наличия ММБ, используемого при распознавании фонем, при распознавании произносимой оператором речевой команды оператором осуществляется выбор фонемы, подвергаемой распознаванию, в ОЗУ хранится буквенный код распознаваемой фонемы, в процессоре производится вычисление массива значений модуля спектра распознаваемой фонемы, вычисление массива значений модуля биспектра для распознаваемой фонемы, выделение в полученном массиве ММБ и фиксация положений ММБ, принятие решения о распознанной фонеме по максимуму отношения числа совпадающих по положению ММБ распознаваемой фонемы с ММБ каждого из эталонов фонем, к общему числу ММБ каждого из эталонов фонем, при этом вероятность наличия ММБ в эталонах выше либо равна пороговому значению, определенному ранее оператором, сравнение в процессоре буквенного кода распознанной фонемы и буквенного кода распознаваемой фонемы, извлеченного из ОЗУ, принятие решения о точности распознавания фонем речи и передача через видеоконтроллер для отображения на дисплее буквенных кодов распознаваемой и распознанной фонем, а также решения о точности распознавания фонем речи.
2. Устройство распознавания фонем речи, содержащее микрофон и АЦП, при этом выход микрофона соединен с первым входом АЦП, отличающееся тем, что в него дополнительно введена вычислительная система, включающая тактовый генератор, контроллер, ОЗУ, процессор, предназначенный для формирования биспектральных признаков и распознавания на их основе фонем речи, ЦАП, ДЗУ, видеоконтроллер и АЦП, который выполнен с шестнадцатью выходами, а также в устройство входят клавиатура, дисплей, наушники, причем выход тактового генератора соединен со вторым входом АЦП, с первым входом контроллера, с первым входом процессора, с первым входом ОЗУ, с первым входом ЦАП, с первым входом ДЗУ, с первого по шестнадцатый выходы АЦП соединены со вторым по семнадцатый входами - выходами процессора, со вторым по семнадцатый входами - выходами ОЗУ, со вторым по семнадцатый входами - выходами ДЗУ, со вторым по семнадцатый входами - выходами контроллера, со вторым по семнадцатый входами ЦАП, с первым по шестнадцатый входами видеоконтроллера, выход ЦАП соединен со входом наушников, с первого по пятый выходы клавиатуры соединены с восемнадцатым по двадцать второй входами контроллера, с первого по пятнадцатый выходы видеоконтроллера соединены с первым по пятнадцатый входами дисплея.
Описание изобретения к патенту
Изобретение относится к области анализа и распознавания речевых сигналов и касается способа распознавания фонем речи на основе использования сформированных биспектральных признаков фонем и устройства для реализации способа.
Известен способ распознавания слов речи [1], в котором слова хранятся в словаре в виде фонетической модели, составленной из последовательности фонетических символов, соответствующих фонемам слова. Для каждой фонемы из слова определяются характерные параметры (признаки). Для получения признаков фонем используют представление речевого сигнала в спектральной области, т.е. речевой сигнал подвергается спектральному анализу, который осуществляется с помощью алгоритмов быстрого преобразования Фурье (БПФ).
Формирование признаков фонем в данном способе основано на выделении контура особенностей спектра путем оценки спектральной плотности мощности в различных частотных полосах, нахождении максимумов энергии спектра (измерении формантных частот).
Недостатком данного способа является то, что спектральные признаки не всегда являются устойчивыми и не обеспечивают высокой точности распознавания фонем.
Известен также способ выделения такого признака фонем вокализованных звуков, как частота основного тона [2]. Способ основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, оценке средней частоты основного тона исследуемого речевого сигнала, соответствующего фонеме вокализованного звука, путем аппроксимации оценок частоты основного тона, полученных с помощью трех видов параллельных выделителей.
Недостатком данного способа является не очень высокая точность в определении частоты основного тона, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в ее состав.
Наиболее близким к предлагаемому способу является способ распознавания фонем речи, принятый за прототип, реализованный в системе распознавания речи в реальном времени на базе средств вычислительной техники [3], базирующийся на представлении слов в виде последовательностей характерных сегментов, в целом соответствующих фонемам речи. Каждый сегмент описывается ограниченным набором признаков, а каждое слово описывается последовательностью таких сегментов.
Для выделения признаков речевой сигнал, соответствующий сегменту (фонеме) речи, преобразуется в аналого-цифровом преобразователе (АЦП) в цифровые последовательности кодов, подвергаемые в анализаторе спектра спектральному анализу с помощью использования алгоритма быстрого преобразования Фурье (БПФ).
Путем анализа полученных последовательных спектров в блоке обработки данных и управления производится формирование таких признаков фонем, как положения формантных частот (с помощью нахождения максимумов спектра), динамика изменения энергии спектра в специально подобранных частотных полосах. Процедура распознавания фонем в данном способе основана на сравнении сформированных признаков сегмента речи с признаками эталонов фонем, либо классов фонем, хранящихся в памяти блока обработки данных и управления, в результате чего последовательно осуществляется отнесение распознаваемой фонемы к классу фонем, а затем идентифицируется конкретная фонема.
Таким образом, признаки фонем в данном способе формируются, учитывая свойства спектров соответствующих участков речи.
Недостатком данного способа является невысокая точность распознавания фонем вследствие использования неустойчивых информативных признаков фонем, базирующихся на использовании спектрального представления.
Задачей изобретения в части способа является повышение точности распознавания фонем речи.
Принципиально новым подходом к решению задачи повышения точности распознавания фонем является применение для формирования признаков и распознавания фонем биспектрального анализа, базирующегося на особого вида преобразовании цифровых последовательностей кодов, соответствующих речевым сигналам, в биспектральную область, характеризующую взаимодействия между значениями компонентов Фурье на разных частотах в диапазоне речи, таким образом обеспечивается выделение дополнительной, существенно новой информации из распознаваемых речевых сигналов.
Задача изобретения достигается тем, что в способе распознавания фонем речи осуществляется прием звуковых колебаний, соответствующих речевым командам, и их преобразование в электрические сигналы, аналого-цифровое преобразование электрических сигналов в цифровые последовательности кодов, которые преобразуют к виду графических функций во времени, при анализе которых на дисплее оператор устанавливает границы фонем в составе речевых команд, одновременно прослушивая в наушниках звуковые сигналы, соответствующие выделенным участкам речевых команд.
В вычислительной системе по интервалам внутри выделенных границ фонем осуществляется обработка соответствующих цифровых последовательностей кодов, заключающаяся в формировании биспектральных признаков фонем. Формирование биспектральных признаков основано на преобразовании цифровых последовательностей кодов в область биспектра, который, благодаря своим свойствам, обеспечивает более полное выделение информации из сигнала, что дает повышение точности при распознавании фонем.
Накапливая сформированные биспектральные признаки для одинаковых по буквенному коду фонем из разных речевых команд, формируются эталоны фонем (совокупные матрицы биспектральных признаков). При распознавании фонем оператор на основе аудиовизуального анализа выделяет границы фонемы, подвергаемой распознаванию (ее буквенный код хранится в памяти вычислительной системы). Для цифровых последовательностей кодов, соответствующих выделенному интервалу, осуществляется формирование биспектральных признаков и их сравнение с эталонами всех фонем для получения решения о распознанной фонеме.
Точность распознавания фонем определяется путем сравнения буквенного кода распознанной фонемы с буквенным кодом распознаваемой фонемы, извлекаемым из памяти вычислительной системы.
Изобретение поясняется чертежами.
На фиг.1 показаны области симметрии и область существования модуля биспектра в частотной плоскости f1 , f2, где f1, f 2 - оси частот, соответствующих исследуемому диапазону речевого сигнала (0-8 кГц).
Модулю биспектра присущи свойства симметрии, которые отражаются на фиг.1 в виде областей симметрии. Для полного описания модуля биспектра достаточно использовать только одну область симмметрии, называемую областью существования модуля биспектра, ограниченную заштрихованным треугольником ОЕХ на фиг.1.
На фиг.2 - 4 показаны примеры графических изображений массивов значений модулей биспектра фонем А, С, Б, эквивалентных области, ограниченной треугольником OXY, включающем две симметричные области ОЕХ и OEY, показанные на фиг.1.
Массивы значений модуля биспектра в указанных примерах вычислены по заявляемому способу, где f1, f2 - оси частот (шаг дискретизации 125 Гц).
На фиг.5 представлена функциональная схема устройства для реализации способа.
Схема включает следующие элементы:
1. Микрофон - осуществляет прием звуковых колебаний, соответствующих речевым командам, и преобразование их в электрические сигналы;
2. Аналого-цифровой преобразователь (АЦП) - преобразует электрические сигналы в цифровые последовательности кодов;
3. Контроллер - осуществляет управление информацией в вычислительной системе;
4. Оперативное запоминающее устройство (ОЗУ) - накапливает и сохраняет цифровую информацию о фонемах, используемую в оперативном режиме;
5. Процессор - производит по программе необходимые преобразования и вычисления;
6. Тактовый генератор - производит синхронизацию работы АЦП, процессора, контроллера, ОЗУ, цифроаналогового преобразователя (ЦАП), долговременного запоминающего устройства (ДЗУ);
7. Долговременное запоминающее устройство (ДЗУ) - накапливает цифровую информацию о фонемах, необходимую для долгосрочного хранения;
8. Клавиатура - предназначена для ввода оператором информации по анализируемым и распознаваемым фонемам из речевых команд;
9. Дисплей - производит отображение информации о фонемах для оператора;
10. Цифроаналоговый преобразователь (ЦАП) - осуществляет преобразование цифровых последовательностей кодов, соответствующих фонемам речи, в электрические сигналы;
11. Наушники - преобразуют электрические сигналы в звуковые сигналы;
12. Видеоконтроллер - преобразует информацию в видеосигнал для отображения на дисплее;
13. Вычислительная система - включает в свой состав блоки, осуществляющие: преобразование электрических сигналов, соответствующих звуковым колебаниям, в цифровые последовательности кодов, вычисление параметров, необходимых для формирования признаков и распознавания фонем, передачу информации в другие блоки устройства.
Заявляемый способ осуществляется следующим образом:
прием звуковых колебаний, соответствующих произносимым оператором речевым командам, и их преобразование в электрические сигналы осуществляется микрофоном 1, затем сигнал поступает в аналого-цифровой преобразователь (АЦП) 2, где осуществляется преобразование электрических сигналов в цифровые последовательности кодов, которые при управлении контроллера 3 вычислительной системы 13 передаются в оперативное запоминающее устройство (ОЗУ) 4 для хранения и использования при последующей обработке в процессоре 5,
синхронизация работы АЦП 2, контроллера 3, ОЗУ 4, долговременного запоминающего устройства (ДЗУ) 7, цифроаналогового преобразователя (ЦАП) 10 и процессора 5 осуществляется тактовым генератором 6,
для обучения системы распознаванию фонем создаются эталоны фонем, с этой целью цифровые последовательности кодов, соответствующие произнесенным оператором командам, передаются из ОЗУ 4 в процессор 5, где с помощью программы осуществляется их преобразование к виду графической функции во времени, передаваемой через видеоконтроллер 12 на дисплей 9,
оператор, анализируя видеоинформацию, представленную на экране дисплея 9, соответствующую произнесенной команде, осуществляет ручную разметку, заключающуюся в установке границ фонемы в составе команды,
одновременно оператор прослушивает с помощью наушников 11 звуковой сигнал, соответствующий выделенной фонеме, получаемый путем обработки цифровых последовательностей кодов в процессоре 5, передачи их в ЦАП 10, где осуществляется их преобразование в электрический сигнал, преобразуемый в наушниках 11 в звуковой сигнал,
оператор вводит с помощью клавиатуры 8 состав команды и букву, соответствующую выделенной фонеме,
в ОЗУ 4 накапливаются номера дискретных отсчетов начала и конца выделенных фонем и соответствующие им буквенные коды, а также команды, в составе которых выделены границы фонем,
накопленная информация передается для хранения в ДЗУ 7,
для формирования эталонов фонем процессором 5 по программе на основании буквенного кода фонемы производится выбор из ДЗУ 7 соответствующих цифровых последовательностей кодов,
далее в процессоре 5 с помощью алгоритма БПФ вычисляется массив значений модуля спектра |F(jf)|,
где f - частота, соотвествующая речевому диапазону 0-8 кГц,
массив значений модуля биспектра вычисляется как произведение трех преобразований Фурье (модулей спектра) [4, 5] в следующем виде:
|S(f1 , f2)|=|F[-j(f1+f 2)]|·|F(jf1)|·|F(jf 2)|
где f1, f 2 - частоты, соответствующие исследуемому диапазону речевого сигнала (0-8 кГц с шагом дискретизации 125 Гц),
причем в качестве значений модулей спектра |F[-j (f1 +f2)]|, |F(jf1)|, |F(jf2)| используются значения из ранее вычисленного массива значений модуля спектра.
На фиг.2, фиг.3, фиг.4 показаны примеры графических изображений массивов значений модуля биспектра фонем А, С, Б, вычисленных по заявляемому способу; представленные примеры показывают различные распределения максимумов в массиве значений модуля биспектра для разных фонем. Анализ одинаковых по буквенному коду фонем показывает близость областей наличия максимумов модуля биспектра. При этом каждая из фонем характеризуется индивидуальным расположением областей наличия значений максимумов модуля биспектра высокой интенсивности, в частности, как видно из фиг.2, фиг.3, фиг.4, для фонем А, Б характерно наличие значений максимумов модуля биспектра высокой интенсивности в области низких частот (до 2-х кГц), а для фонемы С - в области высоких частот (выше 4-х кГц). Эти свойства использовались в заявляемом способе при распознавании фонем.
В полученном массиве значений модуля биспектра выделяются максимумы и определяются их положения в частотной плоскости f1, f2,
для одинаковых по буквенному коду фонем производится накопление положений максимумов модуля биспектра (ММБ) в виде совокупной матрицы ММБ в частотной плоскости f1, f2, являющейся эталоном фонемы, эталоны фонем накапливаются в ДЗУ 7,
перед распознаванием фонем оператор вводит значение порога по вероятности наличия ММБ, которое используется в процессе распознавания и хранится в ОЗУ 4,
при распознавании фонем оператор с помощью клавиатуры 8 набирает команду, в составе которой необходимо распознать фонему, при этом графическая реализация выбранной команды извлекается из ДЗУ 7 и через видеоконтроллер 12 передается на дисплей 9,
оператор выбирает фонему, которую необходимо распознать, и вводит ее буквенный код, сохраняемый в ОЗУ 4,
по цифровым последовательностям кодов, соответствующим выбранной фонеме, производятся аналогичные описанным выше операции: вычисление массива значений модуля спектра; вычисление массива значений модуля биспектра; выделение ММБ и определение их положений на частотной плоскости f1, f 2,
далее производится сравнение положений ММБ распознаваемой фонемы с положениями ММБ каждого из эталонов фонем, при этом вероятность наличия ММБ в эталонах выше либо равна пороговому значению, определенному ранее оператором и хранящемся в ОЗУ 4,
решение о распознавании фонемы принимается по отношению числа совпадающих по положению ММБ распознаваемой фонемы с ММБ каждого из эталонов фонем и общим числом ММБ каждого из эталонов фонем. Та фонема, для эталона которой достигнут максимум этого отношения, считается распознанной, в соответствии с ней формируется буквенный код и сравнивается с буквенным кодом фонемы, ранее введенным оператором и извлекаемым из ОЗУ 4; в случае их совпадения фонема считается правильно распознанной; на дисплей 9 выводится распознаваемая и распознанная фонемы и решение о точности распознавания фонемы.
2. Устройство для реализации способа.
Для реализации способа распознавания фонем речи предлагается устройство, представленное на фиг.5.
Прототипом данного устройства является устройство [3], которое характеризуется наличием
микрофона для приема звуковых колебаний и преобразования их в электрические сигналы,
аналого-цифрового преобразователя, осуществляющего преобразование электрических сигналов в цифровую последовательность кодов,
блока обработки данных и управления (БОДУ), принимающего цифровую последовательность кодов,
анализатора спектра, входящего в состав БОДУ, реализованного на интегральной микросхеме, осуществляющего цифровой спектральный анализ речевых сигналов, используя алгоритм БПФ,
в БОДУ производится:
логический анализ последовательных спектров для формирования признаков сегментов речи,
отнесение сегмента речи к определенному классу фонем на основе сравнения признаков распознаваемого сегмента речи с признаками всех классов фонем, находящимися в памяти БОДУ,
идентификация конкретной фонемы, относящейся к ранее определенному классу фонем, на основе сравнения спектральных признаков распознаваемой фонемы со спектральными признаками, однозначно характеризующими фонему на базе статистики голосов дикторов.
Данное устройство по технической сущности является наиболее близким аналогом предлагаемого изобретения.
Недостатком такого устройства является низкая точность распознавания фонем, обусловленная тем, что используются особенности спектра сигнала, соответствующего распознаваемой фонеме, которые не являются достаточно информативными и устойчивыми признаками из - за ограниченности размерности частотного пространства.
Задачей предлагаемого устройства является повышение точности распознавания фонем речи.
Поставленная задача достигается тем, что в устройство для реализации способа, содержащее микрофон и АЦП, дополнительно введена вычислительная система, включающая тактовый генератор, контроллер, оперативное запоминающее устройство (ОЗУ), процессор, цифроаналоговый преобразователь (ЦАП), долговременное запоминающее устройство (ДЗУ), видеоконтроллер и АЦП, при этом АЦП выполнен с дополнительным входом, соединенным с тактовым генератором и с шестнадцатью выходами, а также в устройство входят клавиатура, дисплей, наушники.
На фиг.5 представлена функциональная схема устройства для реализации способа распознавания фонем речи, необходимая для выполнения предлагаемого способа как процесса выполнения действий над материальным объектом с помощью материальных средств, необходимых для осуществления заявленного изобретения, где
1. Микрофон.
2. Аналого-цифровой преобразователь (АЦП).
3. Контроллер.
4. Оперативное запоминающее устройство (ОЗУ).
5. Процессор.
6. Тактовый генератор.
7. Долговременное запоминающее устройство (ДЗУ).
8. Клавиатура.
9. Дисплей.
10. Цифроаналоговый преобразователь (ЦАП).
11. Наушники.
12 Видеоконтроллер.
13. Вычислительная система.
Пояснение работы устройства согласно фиг.5.
Устройство содержит вычислительную систему 13, включающую АЦП 2, тактовый генератор 6, контроллер 3, ОЗУ 4, процессор 5, ЦАП 10, ДЗУ 7, видеоконтроллер 12, а также микрофон 1, клавиатуру 8, дисплей 9, наушники 11, причем
выход микрофона 1 соединен с первым входом АЦП 2,
выход тактового генератора 6 соединен со вторым входом АЦП 2, с первым входом контроллера 3, с первым входом процессора 5, с первым входом ОЗУ 4, с первым входом ЦАП 10, с первым входом ДЗУ 7,
с первого по шестнадцатый выходы АЦП 2 соединены со второго по семнадцатый входами - выходами процессора 5, который предназначен для формирования биспектральных признаков и распознавания на их основе фонем речи, со второго по семнадцатый входами - выходами ОЗУ 4, со второго по семнадцатый входами - выходами ДЗУ 7, со второго по семнадцатый входами - выходами контроллера 3, со второго по семнадцатый входами ЦАП 10, с первого по шестнадцатый входами видеоконтроллера 12,
выход ЦАП 10 соединен со входом наушников 11,
с первого по пятый выходы клавиатуры 8 соединены с восемнадцатого по двадцать второй входами контроллера 3,
с первого по пятнадцатый выходы видеоконтроллера 12 соединены с первого по пятнадцатый входами дисплея 9.
При произнесении речевой команды оператором осуществляется генерация звуковых колебаний, которые поступают на вход микрофона 1, где пьезоэлектрически осуществляется их преобразование в электрические сигналы.
С выхода микрофона 1 электрические сигналы поступают на первый вход АЦП 2, где осуществляется их преобразование в цифровые последовательности шестнадцати разрядных двоичных кодов.
Синхронизация работы АЦП 2, процессора 5, контроллера 3, ОЗУ 4, ЦАП 10, ДЗУ 7 осуществляется тактовым генератором 6. В соответствии с импульсами тактового генератора 6, поступающими на второй вход АЦП 2, со второго по семнадцатый выходов АЦП 2 при управлении контроллера 3 осуществляется передача цифровых последовательностей кодов на второй... семнадцатый входы - выходы ОЗУ 4 для их оперативного хранения и на второй... семнадцатый входы - выходы ДЗУ 7 для долгосрочного хранения.
Для обучения системы распознаванию фонем создаются эталоны фонем. Для этого цифровые последовательности кодов, соответствующие произнесенным оператором речевым командам, передаются со второго по семнадцатый входов - выходов ОЗУ 4 на второй... семнадцатый входы - выходы процессора 5, где с помощью соответствующей программы осуществляется их преобразование к виду графической функции во времени, которая передается через видеоконтроллер 12 на дисплей 9.
Оператор, анализируя видеоинформацию, представленную на экране дисплея 9, соответствующую произнесенной команде, осуществляет ручную разметку, заключающуюся в установке границ фонемы в составе команды.
При фиксировании границ фонем информация о номерах отсчетов поступает на восемнадцатый... двадцать второй входы контроллера 3 и через второй... семнадцатый входы - выходы контроллера 3 поступает на второй... семнадцатый входы - выходы процессора 5, где обрабатывается, после чего передается на второй... семнадцатый входы ЦАП 10, где осуществляется их преобразование в электрический сигнал, поступающий с выхода ЦАП 10 на вход наушников 11, где электрический сигнал преобразуется в звуковой сигнал.
Оператор прослушивает с помощью наушников 11 звуковой сигнал, соответствующий выделенной фонеме, и вводит с помощью клавиатуры 8 состав команды и букву, соответствующие выделенной фонеме. Через контроллер 3 на второй... семнадцатый входы - выходы ОЗУ 4 поступают и накапливаются номера дискретных отсчетов начала и окончания фонем и соответствующие им буквенные коды, а также команды, в составе которых выделены границы фонем.
Накопленная информация для долгосрочного хранения передается на второй... семнадцатый входы - выходы ДЗУ 7.
Для формирования эталонов фонем в процессоре 5 по программе производится выбор из ДЗУ 7 цифровых последовательностей кодов на основании информации о буквенном коде фонемы. Эта информация поступает на второй... семнадцатый входы - выходы процессора 5, где по программе с помощью алгоритма БПФ вычисляется массив значений модуля спектра.
Используя массив значений модуля спектра как промежуточную операцию, в процессоре 5 вычисляется массив значений модуля биспектра, примеры графических изображений которого для фонем А, С, Б показаны на фиг.2, фиг.3, фиг.4, (см. способ изобретения), выделяют максимумы значений модуля биспектра (ММБ) и определяют их положения в частотной плоскости f 1, f2, формируют эталоны фонем, которые представляют собой совокупные матрицы биспектральных признаков, и передаются со второго по семнадцатый входов - выходов процессора 5 для долговременного хранения на второй... семнадцатый входы - выходы ДЗУ 7.
Информация об окончании формирования эталонов фонем поступает на первый... пятнадцатый входы дисплея 9.
Оператор перед распознаванием фонем вводит с помощью клавиатуры 8 значение порога по вероятности наличия ММБ, которое, проходя через контроллер 3, поступает для хранения на второй... семнадцатый входы -выходы ОЗУ 4.
При распознавании фонем оператор с помощью клавиатуры 8 вводит команду, в составе которой необходимо распознать фонему. Эта информация поступает на восемнадцатый... двадцать второй входы контроллера 3 и далее на второй... семнадцатый входы - выходы ДЗУ 7, из которого извлекается графическая реализация выбранной команды, поступающая через видеоконтроллер 12 на первый... пятнадцатый входы дисплея 9.
Оператор по графической реализации речевой команды выбирает фонему, которую необходимо распознать, и вводит с помощью клавиатуры 8 ее буквенный код, который через контроллер 3 передается на второй... семнадцатый входы - выходы ОЗУ 4 для хранения. Цифровые последовательности кодов, соответствующие выбранной оператором фонеме, обрабатываются, включая процедуру распознавания, в процессоре 5 по программе (см. способ изобретения).
Буквенный код распознанной фонемы в процессоре 5 сравнивается с буквенным кодом распознаваемой фонемы, поступающим из ОЗУ 4, с целью оценки точности распознавания фонем. Буквенные коды распознаваемой и распознанной фонем, а также решение о точности распознавания передаются со второго по семнадцатый входов - выходов процессора 5 на первый... шестнадцатый входы видеоконтроллера 12, где преобразуются в видеосигнал, который с первого по пятнадцатый выходов видеоконтроллера 12 передается для отображения на первый... пятнадцатый входы дисплея 9.
Для выполнения заявляемого устройства используются следующие стандартные элементы:
микрофон 1 - совместимый по стандарту АС'97;
аналого-цифровой преобразователь (АЦП) 2 - реализован в виде микросхемы по стандарту АС'97, известен из [6,стр.50];
контроллер 3 - реализован в виде микросхемы EVA-X1630C фирмы "ADVANTECH", известен из [6,стр.49];
оперативное запоминающее устройство (ОЗУ) 4 - реализовано в виде микросхемы SDDIMM [6,стр.50];
процессор 5 - стандартная микросхема INTEL CELERON 400 [6,стр.50];
тактовый генератор 6 - входит в состав микросхемы контроллера 3;.
долговременное запоминающее устройство (ДЗУ) 7 - выполнено в стандарте Compact Flash, объем памяти не менее 64 Мбайт [6,стр.205];
клавиатура 8 - совместимая по стандарту PS/2;
дисплей 9 - совместимый по стандарту SVGA;
цифроаналоговый преобразователь (ЦАП) 10 - реализован в составе микросхемы по стандарту АС'97 [6, стр.50];
наушники 11 - совместимые по стандарту АС'97;
видеоконтроллер 12 -микросхема SMI 721 [6, стр.51];
вычислительная система 13 - модуль SOM-ETX4400 в виде печатной платы [6, стр. 50].
Использование изобретения позволит повысить точность распознавания фонем речи.
Источники информации
1. Патент ЕВП №420825 кл. G 10 L 5/06, опубликован в 1991 г.
2. Патент RU №2184399 кл. G 10 L 15/00//G 10 L 101:02, опубликован в 2002 г.
3. Патент US №4852170 кл. 381/41, опубликован в 1989 г.
4. Ломанн А.В., Вирнитцер Б.В. Корреляционная функция третьего порядка// ТИИЭР, 1984, Т.72, №7.
5. В.В.Латышев, И.С.Рыжак. Применение моментов, кумулянтов и спектров высоких порядков в современных методах обработки сигналов. - М.: МАИ. 1998.
6. ProSoft 9.0. Краткий каталог продукции 2003/2004.
Класс G10L15/06 создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего
Класс G10L11/04 определение пика речевых сигналов