Распознавание речи – G10L 15/00

МПКРаздел GG10G10LG10L 15/00
Раздел G ФИЗИКА
G10 Музыкальные инструменты; акустика
G10L Анализирование или синтезирование речи; распознавание речи
G10L 15/00 Распознавание речи

G10L 15/02 .выделение признаков для распознавания речи; выбор блока распознавания
G10L 15/04 .сегментация или определение границы слова
G10L 15/06 .создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего
 15/14 имеет преимущество
G10L 15/08 .классификация речи или поиск
распознавание знаков  G 06K 9/00
G10L 15/10 ..с использованием измерения расстояний или искажений между неизвестным речевым и эталонным шаблонами
G10L 15/12 ..с использованием техники динамического программирования, например динамическая деформация шкалы времени (DTW)
G10L 15/14 ..с использованием статистических моделей, например Скрытые модели Маркова (HMM)
 15/18 имеет преимущество
G10L 15/16 ..с использованием искусственных нейронных сетей
G10L 15/18 ..с использованием моделирования естественного языка
G10L 15/20 .техника распознавания речи, специально предназначенная для крайне неблагоприятных условий окружения, например в шуме, при речи, вызванной стрессом
 21/02 имеет преимущество
G10L 15/22 .методы, используемые в процессе распознавания речи, например диалог человека с машиной
G10L 15/24 .распознавание речи, использующее неакустические особенности, например положение губ
G10L 15/26 .речь для текстовых систем
 15/08 имеет преимущество
G10L 15/28 .конструктивные детали систем распознавания речи

Патенты в данной категории

ОСНОВАННЫЕ НА ЯЗЫКЕ РАЗМЕТКИ ВЫБОР И ИСПОЛЬЗОВАНИЕ РАСПОЗНАВАТЕЛЕЙ ДЛЯ ОБРАБОТКИ ПРОИЗНЕСЕНИЯ

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания. Принимают документ на языке разметки и произнесение в вычислительном устройстве. Выбирают один или более распознавателей из числа распознавателей для возврата набора результатов для произнесения на основании языка разметки в документе на языке разметки. Распознают грамматику, используемую в произнесении. Производят синтаксический разбор документа в поисках по меньшей мере одного тэга языка разметки. Принимают набор результатов от одного или более выбранных распознавателей в формате, определенном способом обработки, заданным в документе на языке разметки. Объединяют набор результатов с по меньшей мере одним ранее принятым набором результатов для создания множества наборов результатов. 3 н. и 12 з.п. ф-лы, 5 ил.

2525440
выдан:
опубликован: 10.08.2014
ЭЛЕКТРОННО-ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО

Изобретение относится к вычислительной технике. Технический результат заключается в распознавании речи злектронно-вычислительным устройством, используя чтение по губам. Электронно-вычислительное устройство содержит оперативное запоминающее устройство, выход которого соединен с арифметическо-логическим узлом, а также ряды фотоэлементов, реагирующие на красный цвет, соединенные через ключи с оперативным запоминающим устройством. Выход арифметическо-логического узла соединен через ключи с тридцатью узлами сравнения. Выходы тридцати узлов сравнения соединены соответственно с управляющими электродами тридцати ключей. Генератор импульсов соединен с входами тридцати ключей, выходы которых соединены соответственно с входами тридцати ключей. Выходы тридцати ключей соединены с оперативным запоминающим устройством растрового дисплея. 6 ил.

2523220
выдан:
опубликован: 20.07.2014
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ ПО ГОЛОСУ

Изобретение относится к средствам распознавания эмоций человека по голосу. Технический результат заключается в повышении точности определения эмоционального состояния русскоязычного абонента. Обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос, соответственно, и обнаруживают в виде величины времени, интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала. Получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, и вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени. Вводят голосовой сигнал русскоязычного абонента, а затем обнаруживают интенсивности голоса и темпа. После того как получают третью величину измерения обнаруживают частоту основного тона голосового сигнала и получают четвертую величину изменения, указывающую изменение частоты основного тона в направлении оси времени, генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали и удовольствия, соответственно, на основе указанных первой, второй, третьей и четвертой величин изменения. 3 ил.

2510955
выдан:
опубликован: 10.04.2014
СПОСОБ И СИСТЕМА ДЛЯ ПРЕДОСТАВЛЕНИЯ РЕЧЕВОГО ИНТЕРФЕЙСА

Изобретение относится к пользовательскому интерфейсу на основе речевых команд. Техническим результатом является обеспечение более быстрого доступа к информации и решению задач, а также эффективная обработка предпочтений пользователя и контекста. Классифицирующий речевой интерфейс пользовательского терминала может принять запрос, произвести его анализ для идентификации атрибута и обработать запрос для выбора первого зависящего от домена речевого интерфейса из множества зависящих от домена речевых интерфейсов на основе указанного атрибута, при этом каждый зависящий от домена речевой интерфейс содержит информацию для обработки запросов различных типов. Кроме того, классифицирующий речевой интерфейс может подавать команду первому зависящему от домена речевому интерфейсу обработать указанный запрос и выдавать в речевой форме ответ первого зависящего от домена речевого интерфейса на указанный запрос. 6 н. и 21 з.п. ф-лы, 8 ил.

2494476
выдан:
опубликован: 27.09.2013
УСТРОЙСТВО И СПОСОБ ОСНОВАННОГО НА КОНТЕКСТЕ АРИФМЕТИЧЕСКОГО КОДИРОВАНИЯ И УСТРОЙСТВО И СПОСОБ ОСНОВАННОГО НА КОНТЕКСТЕ АРИФМЕТИЧЕСКОГО ДЕКОДИРОВАНИЯ

Изобретение относится к способам кодирования и декодирования аудиосигнала без потерь. Техническим результатом является повышение эффективности кодирования и снижение требуемого для кодирования объема памяти. Раскрыты устройство и способ основанного на контексте арифметического кодирования, а также устройство и способ основанного на контексте арифметического декодирования. Устройство, основанное на контексте арифметического декодирования может определять контекст текущего кортежа из N элементов, который должен быть декодирован, определять контекст старшего бита (MSB), соответствующий MSB-символу текущего кортежа из N элементов, и определять вероятностную модель с использованием контекста кортежа из N элементов и MSB-контекста. Затем устройство основанного на контексте арифметического декодирования может выполнять декодирование для MSB на основе определенной вероятностной модели и выполнять декодирование для младшего бита (LSB) на основе битовой глубины LSB, извлеченного из процесса декодирования для управляющего кода. 28 н. и 51 з.п. ф-лы, 29 ил.

2493652
выдан:
опубликован: 20.09.2013
АРХИТЕКТУРА РАСПОЗНАВАНИЯ ДЛЯ ГЕНЕРАЦИИ АЗИАТСКИХ ИЕРОГЛИФОВ

Изобретение относится к распознаванию речи на азиатском языке. Техническим результатом является облегчение ввода иероглифов, когда движок распознавания речи возвращает неверные иероглифы при диктовке, и, соответственно, повышение точности распознавания иероглифов при речевом вводе. Система перевода включает в себя компонент распознавания речи и компонент орфографии/исправления. Компонент распознавания речи выполнен с возможностью переключения между множеством систем письма на основе речевого ввода. Режим проверки орфографии запускают в ответ на прием речевого ввода, причем режим проверки орфографии предназначен для исправления неверного написания результатов распознавания или для генерации новых слов. Исправление получают с использованием речевого и/или мануального выбора и входа. Слова, исправленные с использованием режима проверки орфографии, исправляются как единое целое и рассматриваются как слово. Режим проверки орфографии применяется к языкам, по меньшей мере, азиатского континента, например упрощенному китайскому, традиционному китайскому и/или другим азиатским языкам, например японскому. 3 н. и 15 з.п. ф-лы, 30 ил.

2477518
выдан:
опубликован: 10.03.2013
СПОСОБ ЭЛЕКТРОННОГО АНАЛИЗА ДИАЛОГА И СИСТЕМА ДЛЯ ОСУЩЕСТВЛЕНИЯ ЭТОГО СПОСОБА

Изобретение относится к средствам электронного оценивания диалога. Технический результат заключается в повышении эффективности оценивания диалога. Получают видеоданные, отображающие, по меньшей мере частично, двух людей. Анализируют видеоданные с целью определения, имеет ли место визуальное взаимодействие, по меньшей мере, между указанными двумя людьми в процессе диалога, включающее определение того, смотрят ли друг на друга, по меньшей мере, двое указанных людей, путем детектирования положения их зрачков. Анализируют микродвижения глаз, по меньшей мере, двух людей с целью определить, являются ли направления микродвижений глаз однотипными. 2 н. и 23 з.п. ф-лы, 15 ил.

2472219
выдан:
опубликован: 10.01.2013
СИСТЕМА И СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ

Изобретение относится к технологиям распознавания речи, т.е. системам и способам перевода звукового сигнала, содержащего речь, в текст, состоящий из слов, входящих в лексический и произносительный словари системы распознавания речи. Техническим результатом является сокращение длительности и высокая точность распознавания речи. Указанный результат достигается тем, что используют систему и способ распознавания речи, осуществляющие прием речевого сигнала на входе блока приема; обработку речевого сигнала блоком обработки информации, включающую его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектральный анализ сегментов речевого сигнала и нормализацию спектра на высоких частотах; выделение в нормализованном спектре пауз, шумов и звуковых сигналов. Далее определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых сравнивают с предустановленными в блоке памяти параметрами групп фонем, и по результатам сравнения осуществляют формирование последовательности символов, обозначающих группы фонем, соответствующих комбинаторным наборам акустических признаков каждого сегмента, преобразование которой в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря, размеченного по символам групп фонем. 2 н. и 17 з.п. ф-лы, 5 ил., 3 табл.

2466468
выдан:
опубликован: 10.11.2012
УСТРОЙСТВО И СПОСОБ ФОРМИРОВАНИЯ СИГНАТУРЫ АКУСТИЧЕСКОГО СИГНАЛА, УСТРОЙСТВО ИДЕНТИФИКАЦИИ АКУСТИЧЕСКОГО СИГНАЛА

Изобретение относится к технике идентификации акустических сигналов и, в частности, к устройству и способу распознавания акустического сигнала. Способ формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включает выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1 n N) фрейма. При этом для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные, для каждого n-го фрейма, начиная с (1+t)-го (где 1 t N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма, полученные дифференциальные отсчеты объединяют в подгруппы, находят сумму дифференциальных отсчетов каждой из подгрупп, объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов, из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t) n N)) фрейма акустического сигнала. Приведены варианты реализации устройства формирования сигнатуры акустического сигнала и устройства идентификации акустического сигнала. Технический результат - обеспечение высокой вероятности обнаружения искаженных акустических сигналов при фиксированной вероятности ложного обнаружения. 3 н. и 8 з.п. ф-лы, 6 ил.

2459281
выдан:
опубликован: 20.08.2012
СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА В ЧАСТОТНОЙ ОБЛАСТИ

Изобретение относится к области обработки сигналов и может быть использовано при выполнении предварительной обработки речевого сигнала в системах распознавания речи. Предложен способ обработки речевого сигнала, основанный на полосовой фильтрации логарифмического амплитудного спектра фильтром с нечетной импульсной характеристикой и выявлении дополнительных информативных признаков в спектре речевого сигнала. Такими признаками являются локальные положительные и отрицательные наклоны в спектре речевого сигнала, формируемые частотной характеристикой речевого тракта. Технический результат - получение устойчивого и более полного описания речевого сигнала в частотной области путем выявления в логарифмическом амплитудном спектре дополнительных локальных информативных признаков в спектре речевого сигала. 1 з.п. ф-лы, 5 ил.

2454735
выдан:
опубликован: 27.06.2012
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ

Изобретение относится к системам установления или подтверждения личности говорящего. Сущность способа акустической идентификации личности состоит в том, что в качестве акустических параметров используют уникальную амплитудно-частотную характеристику тела человека, которая вычисляется как отношение спектральной плотности мощности акустического сигнала для некоторой области регистрации на теле человека к спектральной плотности мощности речевого сигнала. Сформированные на основе амплитудно-частотных характеристик эталоны хранятся в банке данных акустических биометрических образов. Амплитудно-частотная характеристика тела идентифицируемого человека используется для формирования взвешенной Евклидовой невязки параметров амплитудно-частотной характеристики тела идентифицируемого человека и эталона. На основании степени различия между идентифицируемой личностью и эталоном принимается решение о принадлежности акустического биометрического образа идентифицируемой личности человеку, чьи акустические параметры были использованы при формировании эталона. Технический результат - повышение потенциальной точности идентификации личности, обеспечение высокой помехоустойчивости идентификации при наличии шумов, а также повышение степени защищенности акустического биометрического образа. 1 ил.

2451346
выдан:
опубликован: 20.05.2012
УНИВЕРСАЛЬНЫЕ ОРФОГРАФИЧЕСКИЕ МНЕМОСХЕМЫ

Изобретение относится к прогаммным приложениям распознавания голоса, более конкретно к способу управления характерными особенностями фразы посредством приложения распознавания голоса. Система и способ создания Языковой Модели мнемосхем предназначены для использования в программном приложении распознавания речи, причем способ включает в себя формирование n-граммной Языковой Модели, содержащей заданный большой набор символов, причем n-граммная Языковая Модель содержит, по меньшей мере, один символ из заданного большого набора символов, построение новой лексемы Языковой Модели (ЯМ) для каждого, по меньшей мере, одного символа, извлечение произношений для каждого, по меньшей мере, одного символа, соответствующего заданному словарю произношений для получения представления произношения символа, создание, по меньшей мере, одного альтернативного произношения для каждого, по меньшей мере, одного символа, соответствующего представлению произношения символа для создания альтернативного словаря произношений и компиляцию n-граммной Языковой Модели для использования в программном приложении распознавания речи, где компиляция указанной Языковой Модели соответствует новой лексеме Языковой Модели и альтернативному словарю произношений. Технический результат - обеспечение увеличения вероятности распознавания речи. 3 н. и 11 з.п. ф-лы, 4 ил.

2441287
выдан:
опубликован: 27.01.2012
ДЕТЕКТИРОВАНИЕ АВТООТВЕТЧИКА ПУТЕМ РАСПОЗНАВАНИЯ РЕЧИ

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком. Техническим результатом является повышение точности детектирования автоответчика. Указанный результат достигается тем, что способ содержит посредством процессора прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами и автоматическими системами, наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком. Классификатор является отдельным от языковой модели. Обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями. Статистический анализ проверяет содержимое вывода, указывающего распознанную речь, и, на основании этой проверки, определяет, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми или автоматическими системами. 3 н. и 15 з.п. ф-лы, 6 ил.

2439716
выдан:
опубликован: 10.01.2012
СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВЫХ СИГНАЛАХ И УСТРОЙСТВО ЕГО РЕАЛИЗУЮЩЕЕ

Изобретение относится к технике цифровой обработки речевых сигналов. Технический результат заключается в сокращении объема вычислительных операций при цифровой обработке речевых сигналов. Указанный технический результат достигается тем, что речевой сигнал с выхода электроакустического преобразователя суммируют с новым стабильным по частоте и амплитуде сигналом, полученную сумму сигналов усиливают, ограничивают по амплитуде и преобразуют путем перемножения с копией первичного речевого сигнала в новый сигнал, который сравнивают с установленным порогом и при превышении амплитуды полученного сигнала установленного значения порога принимают решение о наличии паузы в речевом сигнале. 2 н.п. ф-лы, 3 ил.

2436173
выдан:
опубликован: 10.12.2011
СПОСОБ МАШИННОЙ ОЦЕНКИ КАЧЕСТВА ПЕРЕДАЧИ РЕЧИ

Изобретение относится к способам анализа звуковых сигналов, передаваемых по каналам радиосвязи, телефонии и трактам переговорных устройств. Сущность способа машинной оценки качества передачи речи заключается в том, что осуществляют загрузку звукового сигнала в оперативную память компьютера, выделяют в сигнале фрагменты активной и неактивной фаз, вычисляют спектры для каждой фазы, которые разделяют на критические полосы, и рассчитывают значения спектральных параметров для каждой критической полосы, причем параметры сигнала вычисляют как в спектральной, так и во временной областях, исключают из обработки фрагменты активной фазы, соответствующие тональному набору, до деления на критические полосы, осуществляют многоуровневую психоакустическую фильтрацию спектров, полученные параметры обрабатываемого сигнала сравнивают с ассоциациями, хранящимися в базе данных, и выбирают ассоциации, наиболее близкие по всем параметрам к обрабатываемому сигналу, а оценку качества речи определяют как сумму взвешенных значений степеней близости. Технической результат - обеспечение машинной оценки речевого сигнала путем сравнения параметров обрабатываемого сигнала с моделями речи, хранящимися в базе ассоциаций. 3 з.п. ф-лы, 5 табл., 8 ил.

2435232
выдан:
опубликован: 27.11.2011
СПОСОБ И УСТРОЙСТВО ДЛЯ ЕСТЕСТВЕННО-РЕЧЕВОГО РАСПОЗНАВАНИЯ РЕЧЕВОГО ВЫСКАЗЫВАНИЯ

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. Техническим результатом является создание способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Указанный технический результат достигается тем, что способ для естественно-речевого распознавания речевого высказывания включает анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26). Способ включает одновременную подачу речевого сигнала (10) к первой и второй ветвям распознавания речи, включающим в себя соответственно первую грамматику (12) и вторую грамматику (14) для анализа речевого сигнала. В случае распознавания или нераспознавания речевого высказывания посредством первой грамматики (12) или второй грамматики (14) получают первый или второй положительные результаты распознавания или первый или второй отрицательные результаты распознавания. Решение об успешном распознавании речевого высказывания принимают на основании оценки первого и второго результатов распознавания. Посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывания, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания. Используют либо выданный первой грамматикой (12) результат распознавания, либо результат распознавания с наибольшей надежностью распознавания. 2 н. и 1 з.п. ф-лы, 2 ил., 1 табл.

2432623
выдан:
опубликован: 27.10.2011
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ПАРОЛЬНОЙ ФРАЗЕ

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. Техническим результатом является повышение достоверности распознавания диктора при использовании парольной фразы ограниченной длины. Указанный технический результат достигается тем, что осуществляют сравнение параметров входного речевого сигнала диктора в виде парольной фразы с заданной точностью с заранее сохраненными эталонами параметров входных речевых сигналов в виде той же парольной фразы, произносимых заранее известными дикторами, с последующей аутентификацией. В качестве упомянутых параметров берется низкочастотная часть вейвлет преобразования от нормированной функции распределения особых точек вдоль звукового файла, отвечающего входному речевому сигналу диктора в виде парольной фразы, выделенных сравнением отсчета в этой точке в звуковом файле с предшествующими и последующими отсчетами посредством обобщенных коэффициентов линейного предсказания и порога Т. Нормирование функции распределения сводится к приведению ее к стандартной длине Len, принятой при подсчете эталонных параметров входных речевых сигналов в виде парольной фразы, произносимых заранее известными дикторами. 1 ил.

2422921
выдан:
опубликован: 27.06.2011
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ПАРОЛЬНОЙ ФРАЗЕ

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. Техническим результатом является повышение достоверности распознавания диктора при использовании парольной фразы ограниченной длины. Указанный технический результат достигается тем, что осуществляют посегментное сравнение входного речевого сигнала диктора с заранее сохраненными эталонами параметров эталонных фраз, произносимых заранее известными дикторами, для чего осуществляют сравнение параметрических описаний последовательных сегментов входного речевого сигнала с параметрическими описаниями последовательных сегментов из выбранных для сравнения с упомянутым эталоном с последующей аутентификацией диктора. В качестве параметрических описаний берут матрицу переходов, для этого строят последовательность особых точек, выделенных сравнением отсчета в сегменте с окружением отсчёта, определенным посредством обобщенных коэффициентов линейного предсказания и порога Т, далее агрегируют последовательности особых точек в блоки длины L, строят матрицу переходов, аналогичную матрице переходов в цепи Маркова, по числу особых точек в блоке, и сравнивают полученную матрицу с образцом эталонной матрицы с заданной точностью и принимают решение о правильности аутентификации диктора. 1 ил.

2422920
выдан:
опубликован: 27.06.2011
ПОВЫШЕНИЕ КАЧЕСТВА РЕЧИ С ИСПОЛЬЗОВАНИЕМ МНОЖЕСТВА ДАТЧИКОВ С ПОМОЩЬЮ МОДЕЛИ СОСТОЯНИЙ РЕЧИ

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости. Техническим результатом является формирование речевого сигнала повышенного качества. Указанный технический результат достигается тем, что генерируют сигнал альтернативного датчика, причем альтернативный датчик является менее чувствительным к окружающему шуму, чем микрофон, основанный на принципе воздушной проводимости, генерируют сигнал микрофона, основанного на принципе воздушной проводимости, используют сигнал альтернативного датчика и сигнал микрофона, основанного на принципе воздушной проводимости, для оценивания правдоподобия L(St) состояния St речи, посредством оценивания отдельной составляющей правдоподобия для каждой из набора частотных составляющих и объединение отдельных составляющих правдоподобия для формирования оценки правдоподобия состояния речи, используют правдоподобие состояния речи для оценивания значения сниженного шума, которое моделирует значение сниженного шума при заданном состоянии речи. Правдоподобие состояния речи используется вместе с сигналом альтернативного датчика и сигналом микрофона, основанного на принципе воздушной проводимости, для того, чтобы оценить значение чистой речи для сигнала чистой речи. 3 н. и 10 з.п. ф-лы, 6 ил.

2420813
выдан:
опубликован: 10.06.2011
СПОСОБ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ НА ОСНОВЕ ФОРМАНТНОГО ВЫРАВНИВАНИЯ

Изобретение относится к области опознавания говорящего по голосу, в частности к способам идентификации говорящего по фонограммам произвольной устной речи, предназначенным в том числе для криминалистических исследований. Сущность способа состоит в том, что идентификацию говорящего по фонограммам устной речи осуществляют путем оценки сходства между первой фонограммой говорящего и второй эталонной фонограммой. Для указанной оценки на первой и второй фонограммах выбирают опорные фрагменты речевых сигналов, на которых присутствуют формантные траектории, по крайней мере, трех формантных частот, сравнивают между собой опорные фрагменты, в которых совпадают значения, по крайней мере, двух формантных частот, оценивают сходство сравниваемых опорных фрагментов по совпадению значений остальных формантных частот, а сходство фонограмм в целом определяют по суммарной оценке сходства всех сравниваемых опорных фрагментов. Технический результат - обеспечивают надежную идентификацию говорящего как для длинных, так и для коротких фонограмм, фонограмм, записанных в различных каналах с высоким уровнем помех и искажений, а также фонограмм с произвольной устной речью дикторов, находящихся в различных психофизиологических состояниях, говорящих на разных языках. 5 з.п. ф-лы, 8 ил.

2419890
выдан:
опубликован: 27.05.2011
СПОСОБ ОРГАНИЗАЦИИ СИНХРОННОГО ПЕРЕВОДА УСТНОЙ РЕЧИ С ОДНОГО ЯЗЫКА НА ДРУГОЙ ПОСРЕДСТВОМ ЭЛЕКТРОННОЙ ПРИЕМОПЕРЕДАЮЩЕЙ СИСТЕМЫ

Изобретение относится к области электроники, в частности к переводу фраз с первого языка на второй. Техническим результатом является повышение точности преобразования входящего в передающий терминал аудиосигнала в речевой форме в кодированную текстовую форму на входном языке при обеспечении возможности применения в данном терминале запоминающего устройства с относительно небольшим объемом памяти. Технический результат достигается за счет следующего. Процесс электронного перевода кодовой формы текста (КФТ) на входном языке в КФТ на выходном языке организуют в два этапа. На первом этапе обеспечивают преобразования КФТ на входном языке в КФТ на промежуточном языке. На втором этапе обеспечивают преобразования КФТ на промежуточном языке в КФТ на выходном языке. При этом перевод текста в текст организуют как машинный поиск отдельных словосочетаний, предложений или групп предложений из базы данных переводов, предварительно выполненных профессиональными переводчиками и хранящихся в мобильной сети, например, «Интернет». Базу данных переводов мобильной сети постоянно пополняют посредством того, что текстовые формы, которые запрашиваются для перевода, но отсутствуют в базе переводов, выставляют в открытый доступ и предлагают для перевода, например, на коммерческой основе профессиональным переводчикам. Кроме того, перед началом использования терминала связи на нем однократно осуществляют верификацию речи владельца терминала связи относительно ее письменной формы, программно структурируемой посредством данного терминала связи. 5 з.п. ф-лы, 4 ил.

2419142
выдан:
опубликован: 20.05.2011
КЛАССИФИКАТОР НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ВЫДЕЛЕНИЯ АУДИО ИСТОЧНИКОВ ИЗ МОНОФОНИЧЕСКОГО АУДИО СИГНАЛА

Изобретение относится к выделению множества произвольных и заранее неизвестных аудио источников, микшированных в отдельный монофонический аудио сигнал на основе нейронной сети. Это достигается посредством разбивки монофонического аудио сигнала на базовые кадры (возможно перекрывающиеся), разбивки кадров на окна, извлечения ряда описательных параметров в каждом кадре и использования предварительно обученной нелинейной нейронной сети в качестве классификатора. Каждый выход нейронной сети демонстрирует присутствие заданного типа источника аудио в каждом базовом кадре монофонического аудио сигнала. Выходные сигналы классификатора могут использоваться в качестве входных данных для создания множества аудио каналов для алгоритма разделения источников (например, ICA) или в качестве параметров в алгоритме пост-обработки (например, для категоризации музыки, трекинга источников, для генерирования аудио индексов для целей навигации, инверсного микширования, безопасности и наблюдения, телефонной и беспроводной связи, и телеконференций). Технический результат - классификатор на основе нейронных сетей хорошо приспособлен, чтобы соответствовать изменяющимся в широких пределах параметрам сигнала и источников, временной и частотной области перекрывания источников, и реверберации и помех от сигналов обычной жизни. 3 н. и 25 з.п. ф-лы, 14 ил.

2418321
выдан:
опубликован: 10.05.2011
СИСТЕМА ЭМОЦИОНАЛЬНОЙ СТАБИЛИЗАЦИИ РЕЧЕВЫХ КОММУНИКАЦИЙ "ЭМОС"

Изобретение относится к психофизиологии и клинической нейрофизиологии Система содержит модуль ввода, распознавания и преобразования речевого сигнала, модуль анализа и накопления частотно-амплитудных характеристик (АЧХ) речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала, электронную базу данных эталонных шаблонов, модуль визуализации, модуль дискриминации с образованием последовательно соединенных между собой модуля распознавания отклонений спектров текущего речевого сигнала, модуля дискриминации и модуля визуализации, а также модуль психоэмоциональной коррекции, последовательно соединенный с модулем визуализации, при этом модуль анализа и накопления АЧХ речевого сигнала выполнен с возможностью определения временных колебаний высоко/низкочастотных спектров речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала выполнен с возможностью определения отклонения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала от эталонных шаблонов, модуль дискриминации выполнен с возможностью передачи генерируемого им управляющего сигнала временного прерывания к модулю ввода, распознавания и преобразования, а модуль психоэмоциональной коррекции выполнен с возможностью воспроизведения релаксирующего музыкального и/или речевого сопровождения или обратной трансляции фрагмента речевой коммуникации. Технический результат - снижение активности и нейтрализации неблагоприятных речевых сигналов. 3 з.п. ф-лы, 1 ил.

2408087
выдан:
опубликован: 27.12.2010
АУТЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЯ ПОСРЕДСТВОМ КОМБИНИРОВАНИЯ УСТАНОВЛЕНИЯ ЛИЧНОСТИ ГОВОРЯЩЕГО И ОБРАТНОГО ТЕСТА ТЬЮРИНГА

Изобретение относится к технике аутентификации пользователя. Технический результат - повышение защиты от несанкционированного доступа. Предложены способы и система для осуществления доступа, основанные на использовании набора персональной информации с применением динамического компонента для получения внятного ответа и на совместном анализе содержания упомянутого ответа профиля голоса. 5 н. и 34 з.п. ф-лы, 6 ил.

2406163
выдан:
опубликован: 10.12.2010
СПОСОБ РАСПОЗНАВАНИЯ КЛЮЧЕВЫХ СЛОВ В СЛИТНОЙ РЕЧИ

Изобретение относится к системам обработки информации и управления, в частности к способам построения систем распознавания речи. Техническим результатом является обеспечение возможности распознавания ключевых слов в потоке слитной речи и повышение быстродействия системы. Указанный технический результат достигается тем, что проводят вейвлет-преобразование акустического сигнала с вычислением вейвлет-коэффициентов, которые затем разбивают на сегменты фиксированной длительности, с применением быстрого преобразования Фурье находят Фурье-спектр каждого из сегментов вейвлет-коэффициентов, вычисляют его энергию и определяют границы между гласными и согласными фонемами речевого сигнала, а отбор наиболее вероятных кандидатов слов для анализируемого сигнала производят путем сравнения фонем сигнала с фонемами слова в словаре. 4 ил.

2403628
выдан:
опубликован: 10.11.2010
СИСТЕМА ИСКАЖЕНИЯ ГОЛОСА ДИКТОРА

Изобретение относится к технике противодействия опознаванию личности по голосу и предназначено для использования, например, в охранных системах. Система содержит генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, формирователь порогового уровня, блок питания, формирователь параметров смещения позиций значимых интервалов спектра, цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, основной и два дополнительных блока нормирования спектра Фурье, основной и дополнительный блоки формирования огибающей спектра Фурье, блок формирования параметров изменения огибающей спектра Фурье, основной и дополнительный компараторы, основной и дополнительный сумматоры, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений и соответствующих им аргументов, блок динамического программирования, блок принятия решений, блок определения позиций значимых интервалов спектра, блок определения смещенных позиций значимых интервалов спектра, блок обратного преобразования Фурье, блок памяти, блок сглаживания фазы и блок воспроизведения. Принцип действия системы основан на использовании статистических методов обработки сигналов и средств формирования спектральных характеристик голоса диктора. Система может применяться для обеспечения возможности искажения голоса диктора в соответствии с заданными параметрами, прослушивания искаженного голоса диктора, выбора конечного варианта искажения, а также для передачи в режиме реального времени искаженного голоса диктора на выход аудиоустройства с возможностью дальнейшей трансляции по каналам связи. Использование предложенной системы позволяет снизить значение вероятности распознавания голоса за счет применения различных вариантов трансформации спектральных характеристик исходного голоса диктора. 7 ил.

2403627
выдан:
опубликован: 10.11.2010
СПОСОБ И УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ

Изобретение относится к распознаванию речи. Способ распознавания речи, включающий прием кадров, содержащих выборки аудиосигнала; формирование вектора признаков, содержащего первое число компонентов вектора для каждого кадра; проецирование вектора признаков по меньшей мере на два подпространства так, что число компонент каждого проецированного вектора признаков меньше чем первое число, а общее число компонент проецированного вектора признаков равно первому числу; установление для каждого проецированного вектора набора моделей смешивания, который обеспечивает наивысшую вероятность наблюдения; и анализ набора моделей смешивания для определения результата распознавания. Когда результат распознавания найден, определяют меру достоверности результата распознавания; это определение включает определение вероятности того, что результат распознавания корректен, определение нормализующего члена и деление этой вероятности на нормализующий член. Технический результат - повышение надежности и эффективности распознавания речи. 3 н. и 11 з.п. ф-лы, 2 ил.

2393549
выдан:
опубликован: 27.06.2010
СИСТЕМА ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ДИКТОРА

Изобретение относится к технике опознавания личности и может быть использовано в системах связи экипажей самолетов с наземными службами, в охранных автомобильных системах, а также в call-центрах, мобильных и стационарных телефонах. Система содержит генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, блок формирования последовательности векторов признаков, формирователь порогового уровня, блок формирования потенциалов единичных зарядов, блок формирования модуля градиентов, блок памяти идентификационных номеров дикторов, цифровое запоминающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений, блок динамического программирования, дополнительный компаратор, блок принятия решений, переключатель режимов, блок определения условной вероятности, блок умножения, дополнительный блок принятия решений, блок упорядочивания векторов, селектор, блок предварительной кластеризации последовательности векторов признаков, блок определения статистических характеристик кластеров и блок памяти вероятностных характеристик. В процессе работы системы обнаруживается речь на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а вектор признаков сигналов формируется устойчивым к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация. Изобретение обеспечивает возможность автоматической текстонезависимой идентификации диктора по голосу и автоматического разрешения или запрещения соединения с идентифицированной личностью. Изобретение позволяет повысить вероятность голосовой идентификации. 4 ил.

2385272
выдан:
опубликован: 27.03.2010
КОРРЕКЦИЯ ОШИБОК ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

Изобретение относится к прикладным программным продуктам, предназначенным для исправления слов в последовательности слов, которая получена при распознавании входной речевой последовательности. Технический результат - повышение средней точности распознавания слитной речи. Слова в последовательности слов, полученной после распознавания входной речевой последовательности, представляют пользователю, и одно из слов в последовательности слов заменяют, когда оно выбрано пользователем для исправления. Слова с низким значением достоверности распознавания выделяют; альтернативные слова-кандидаты для одного выбранного слова упорядочивают согласно критерию упорядочивания; после замены слова порядок альтернативных слов-кандидатов для соседних слов в последовательности может быть обновлен; слово, которое заменяют, может быть получено из речевого представления одного выбранного слова с помощью распознавания речи с ограниченным словарем; а слово, которое заменяет одно выбранное слово, может быть получено из речевого и побуквенного представления одного выбранного слова. 12 н. и 16 з.п. ф-лы, 13 ил.

2379767
выдан:
опубликован: 20.01.2010
СПОСОБ ВВОДА ТЕКСТА

Изобретение относится к способу ввода текста в устройство. Изобретение позволяет повысить точность распознавания речи при вокализованном вводе текста в устройство без увеличения вычислительных мощностей устройства. При вводе текста в устройство обеспечивается первый ввод символа путем нажатия и удержания клавиши, указывающий первый символ текстового ввода. Затем воспринимается вокализация текстового ввода. После этого идентифицируется вероятное слово-кандидат для первого слова вокализации на основании первого ввода символа и анализа вокализации. Наконец, вероятное слово-кандидат отображается для пользователя. 2 н. и 37 з.п. ф-лы, 6 ил.

2377664
выдан:
опубликован: 27.12.2009
Наверх