способ автоматической идентификации личности
Классы МПК: | G10L17/00 Установление или подтверждение личности говорящего G10L11/04 определение пика речевых сигналов G10L11/06 распознавание выраженных голосом и не выраженных голосом звуков речевых сигналов G10L15/06 создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего G10L15/16 с использованием искусственных нейронных сетей |
Автор(ы): | Бочкарев С.Л., Иванов А.И., Андрианов В.В., Бочкарев В.Л., Оськин В.А. |
Патентообладатель(и): | Пензенский научно-исследовательский электротехнический институт |
Приоритеты: |
подача заявки:
1998-08-17 публикация патента:
10.01.2001 |
Изобретение относится к обработке информации и может быть использовано в телекоммуникационных системах. Техническим результатом является повышение надежности идентификации личности. Изобретение основано на том, что в вокализованных зонах речевого сигнала выделяют временные интервалы с определенной длительностью и определяют оценки коэффициентов корреляции параметров речевого сигнала. 2 з.п.ф-лы, 4 ил.
Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4
Формула изобретения
1. Способ автоматической идентификации личности по особенностям произношения парольной фразы этой личностью, заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах - в области максимумов интенсивности речевого сигнала, и, кроме этого, в начале первой и в конце последней вокализованных зон, для выделенных временных интервалов определяют параметры речевого сигнала, сравнивают их с эталонами, которые формируют с учетом математических ожиданий и допустимых разбросов этих параметров, на основании полученных параметров речевого сигнала и соответствующих им статистических характеристик принимают решение по идентификации личности, отличающийся тем, что в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интервалов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэффициенты корреляции параметров речевого сигнала. 2. Способ по п.1, отличающийся тем, что идентификацию личности осуществляют с учетом отклика нейросети, причем как на этапе обучения нейросети, так и при идентификации личности на вход нейросети одновременно предъявляют параметры речевого сигнала и оценки коэффициентов корреляции этих параметров. 3. Способ по п.1 или 2, отличающийся тем, что дополнительно вводят и обрабатывают речевой сигнал с ларингофона, контактирующего с телом говорящего.Описание изобретения к патенту
Областью применения изобретения является автоматическая идентификация личности, используемая для биометрического ограничения несанкционированного доступа (в том числе удаленного) в помещения, к телекоммуникационным и иным системам и устройствам, к средствам электронно-вычислительной техники, к информации конфиденциального характера. Известны различные системы, устройства и способы идентификации личности по голосу [1, 2, 3]. По публикации [1] для распознавания голоса зарегистрированной личности периодически (на временных интервалах фиксированной длительности) производят определение центра спектра и среднюю амплитуду речевого сигнала. На временном интервале с большой амплитудой вокализованного речевого сигнала положение центра спектра речевого сигнала сравнивают с центром спектра речевого сигнала, хранящегося в запоминающем устройстве в качестве эталона. Формирование эталонного значения центра спектра речевого сигнала производят предварительно на этапе регистрации личности (обучения системы). Далее определяют расхождение положений эталонного значения центра спектра речевого сигнала и центра спектра распознаваемого речевого сигнала и принимают решение по распознаванию голоса путем сравнения величины этого расхождения с заранее заданной величиной. Недостатками данной системы являются малое число контролируемых параметров, их усреднение по фиксированному временному интервалу, вносящее дополнительную погрешность, использование для распознавания только стационарных участков речевого сигнала, а также простое решающее правило определения "свой-чужой", что в совокупности не обеспечивает надежное распознавание голоса. По публикации [2] выделяют зоны непрерывного речевого сигнала, для каждого временного интервала речевого сигнала внутри зон определяют параметры акустического тракта человека, дополнительно в зонах определяют огибающие интенсивности речевого сигнала. Далее для каждой зоны деформируют контуры параметров акустического тракта идентифицируемого (тестируемого) человека в соответствии с функцией деформации, определенной по эталонному и тестовому произношениям. Так производят нелинейную временную нормализацию, исключающую темповую вариативность произношений. На основании ковариационных матриц деформированных параметров акустического тракта человека, учитывающих их связность между собой, и соответствующих им обратных матриц для каждого временного интервала речевого сигнала вычисляют меру расстояния с последующим усреднением мер расстояний по всему произношению и принятием решения "свой-чужой". Недостатками данной системы являются:- большая вычислительная нагрузка при определении функции деформации, а также при процедуре обращения матриц параметров акустического тракта человека на каждом временном интервале;
- ограниченное число контролируемых параметров акустического тракта человека, не превышающее 4-5, из-за ограничения размерности обращаемых матриц, не позволяющее существенно повысить надежность идентификации личности относительно достигнутого;
- наличие погрешности определения параметров акустического тракта человека из-за отсутствия синхронизации с периодом основного тона речевого сигнала, ухудшающее надежность идентификации личности;
- отсутствие автоматического выделения вокализованных участков речи на случайных фразах, ухудшающее надежность идентификации личности за счет учета мер расстояний на невокализованных временных интервалах речевого сигнала;
- необходимость достаточно качественных входных данных для процедуры обращения матриц, что не позволяет существенно уменьшить число итераций обучения при формировании эталонов (обучении системы). Данная система обеспечивает надежное опознавание голоса, но требует длительной фазы обучения и достаточно мощного вычислителя. Известен "Способ идентификации говорящего" [3], являющийся прототипом предлагаемого способа. Его суть сводится к тому, что произносят парольную фразу, разбивают речевой сигнал фразы на вокализованные зоны, выделяют определенное количество временных интервалов фиксированной длительности. Временные интервалы выделяют в начале первой и в конце последней вокализованных зон парольной фразы, а также в области максимумов интенсивности речевого сигнала. На выделенных временных интервалах определяют параметры речевого сигнала, в качестве которых используют:
- значения длительности интервалов между временными интервалами (T0 - T4, фиг. 2г прототипа),
- число экстремумов речевого сигнала во временных интервалах (N1э - N5э, фиг. 2д прототипа),
- соотношение










блока 1 усилителей;
блока 2 разбиения речевого сигнала парольной фразы на вокализованные зоны;
блока 3 долговременного запоминающего устройства для хранения вокализованных зон парольной фразы, а также диалоговых речевых сообщений (в случае их использования);
блока 4 определения периода основного тона речевого сигнала Tот;
блока 5 выделения временных интервалов;
блока 6 определения параметров речевого сигнала;
блока 7 определения математических ожиданий и дисперсий параметров речевого сигнала;
блока 8 определения оценок коэффициентов корреляций и коэффициентов корреляций параметров речевого сигнала;
блока 9 принятия решения "свой-чужой";
блока 10 управления. Блоки 4-10 могут быть реализованы средствами аналоговой и/или цифровой вычислительной техники. Входы блока 1 усилителей соединены с микрофоном и ларингофоном, а также с одним из выходов блока 3 долговременного запоминающего устройства (в случае диалога с идентифицируемой личностью). Один из выходов блока 1 усилителей соединен со входом блока 2 разбиения речевого сигнала парольной фразы на вокализованные зоны, другой - с динамиком (телефонным капсюлем) (в случае диалога с идентифицируемой личностью). Выход блока 2 разбиения речевого сигнала парольной фразы на вокализованные зоны соединен со входом блока 3 долговременного запоминающего устройства. Выход блока 3 долговременного запоминающего устройства соединен со входом блока 4 определения периода основного тона речевого сигнала Tот, одним из входов блока 5 выделения временных интервалов, одним из входов блока 6 определения параметров речевого сигнала и обеспечивает подачу на эти блоки вокализованной речи. Выход блока 4 определения периода основного тона речевого сигнала Tот соединен с одним из входов блока 5 выделения временных интервалов для передачи в этот блок значения периода основного тона. Выход блока 5 выделения временных интервалов соединен с одним из входов блока 6 определения параметров речевого сигнала. Выход блока 6 определения параметров речевого сигнала соединен со входом блока 7 определения математических ожиданий и дисперсий параметров речевого сигнала, одним из входов блока 8 определения оценок коэффициентов корреляций и коэффициентов корреляций параметров речевого сигнала, одним из входов блока 9 принятия решения "свой-чужой" для передачи в эти блоки параметров речевого сигнала. Выход блока 7 определения математических ожиданий и дисперсий параметров речевого сигнала соединен с одним из входов блока 8 определения оценок коэффициентов корреляций и коэффициентов корреляций параметров речевого сигнала и с одним из входов блока 9 принятия решения "свой-чужой". Выход блока 8 определения оценок коэффициентов корреляций и коэффициентов корреляций параметров речевого сигнала соединен с одним из входов блока 9 принятия решения "свой-чужой". Выход блока 9 принятия решения "свой-чужой" соединен со входом блока 10 управления для обеспечения возможности анализа выходного сигнала и одновременно является выходом устройства. Выход блока 10 управления соединен с одним из входов блока 9 принятия решения "свой-чужой" для обеспечения возможности его управления. Работа устройства происходит следующим образом. После воспроизведения хранимого в блоке 3 долговременного запоминающего устройства сообщения через усилитель и динамик (телефонный капсюль) (в случае диалога) идентифицируемый должен прижать ларингофон к телу в определенном месте и произнести соответствующую парольную фразу в микрофон. Речевой сигнал с микрофона и ларингофона через блок 1 усилителей поступает на блок 2 разбиения речевого сигнала парольной фразы на вокализованные зоны, использующий любой из известных методов определения вокализованности речевого сигнала, например аналогичный используемому в устройстве-прототипе и использующий набор узкополосных фильтров. В отличие от вокализованного шумоподобный сигнал имеет более равномерное распределение энергии в частотной области и соответственно более равномерный уровень сигнала на выходах всех фильтров, что позволяет исключить его из дальнейшей обработки. Вокализованный речевой сигнал сохраняют в блоке 3 долговременного запоминающего устройства и подают на блок 4 определения периода основного тона речевого сигнала Tот. Блок 4 определения периода основного тона аналогичен детектору 8 первой гармоники сигнала прототипа (смотри фиг. 1 прототипа). На блок 5 выделения временных интервалов подают вокализованный речевой сигнал из блока 3 долговременного запоминающего устройства и значение периода основного тона из блока 4 определения периода основного тона речевого сигнала Tот. При выделении временных интервалов их длительность выбирают кратной периоду основного тона речевого сигнала. Внутри вокализованных зон определяют несколько (например, шесть) максимумов интенсивности речевого сигнала и вблизи этих максимумов выделяют временные интервалы. Временные интервалы выделяют также в начале и конце каждой вокализованной зоны. На основании речевого сигнала из блока 3 долговременного запоминающего устройства и выделенных временных интервалов из блока 5 выделения временных интервалов в блоке 6 определения параметров речевого сигнала вычисляют параметры речевого сигнала pi, в качестве которых могут использоваться любые параметры речевого сигнала, например значения энергии в частотных областях, число переходов речевого сигнала через ноль, значение периода основного тона, коэффициенты линейного предсказания (значимыми являются 10-12 коэффициентов). При обучении (на N произношениях парольной фразы) полученные параметры речевого сигнала подают на блок 7 определения математических ожиданий и дисперсий параметров речевого тракта для определения их математических ожиданий m(pi), дисперсий



где 1




где 1



где i - число параметров. При использовании множества мер расстояний (каждая для соответствующего временного интервала) усреднение мер расстояний по всему произношению производят по следующей формуле:

где L - число временных интервалов. На основании этой меры расстояния, а также с учетом отклика нейросети принимают решение о принадлежности голоса зарегистрированной личности, производившей обучение. В соответствии с п.2 формулы изобретения в состав блока 9 принятия решения "свой-чужой" входит нейросеть [7]. В основе построения искусственных нейронных сетей лежит модель нейрона. Нейроны соединены друг с другом определенным образом, при этом с выходов других нейронов на вход каждого нейрона поступает множество сигналов, образующих входной вектор. Все сигналы, умноженные на соответствующие весовые коэффициенты, суммируют. Такие коэффициенты образуют весовой вектор, элементы которого соответствуют связям определенных нейронов. Результат суммирования поступает на пороговый элемент, характеризуемый величиной порога и некоторой функцией активации. Существует множество принципов организации нейросетей, которые могут содержать разное число слоев нейронов. Нейроны могут быть связаны как внутри слоев, так и между слоями. Одним из основных свойств нейронных сетей является их способность обучаться. На этапе обучения происходит подстройка нейровесов для получения требуемой реакции нейросети. Эти нейровеса, являющиеся неявным эталоном, формируют блоком 10 управления. Таким образом, применение нейросети, обеспечивающей сложное решающее правило определения "свой-чужой" и позволяющей отказаться от вычисления взвешенных мер расстояний и операций обращения матриц, увеличивает надежность идентификации личности. Использование дополнительных параметров речевого сигнала (десяти коэффициентов линейного предсказания) и коэффициентов корреляции (оценок коэффициентов корреляции) параметров речевого сигнала, увеличение числа временных интервалов (для похожей парольной фразы) до 10 увеличивает число контролируемых величин по сравнению с прототипом с 11 до 781, что существенно увеличивает надежность идентификации личности. По экспертным оценкам специалистов ПНИЭИ вероятность ложной идентификации личности способа-прототипа (или аналогичных ему) составляет порядка 0,1. По экспертным оценкам специалистов ПНИЭИ предложенный способ обеспечивает вероятность ложной идентификации личности не более 0,007, что подтверждено протоколами Предварительных испытаний изделия "Кордон". Копии этих протоколов при необходимости могут быть представлены. Таким образом, используя большее число нестационарных участков речевого сигнала, синхронизируя временные интервалы с периодом основного тона речевого сигнала, используя дисперсии, коэффициенты корреляции и оценки коэффициентов корреляции параметров речевого сигнала, применяя нейросеть, добиваются уменьшения имитируемости и суммарной погрешности определения параметров речевого сигнала, увеличения числа контролируемых величин и усложнения решающего правила "свой-чужой", что обеспечивает надежное опознавание голоса при незначительных вычислительных затратах и простой процедуре обучения. Использование дополнительной речевой информации с ларингофона, контактирующего с телом говорящего, позволяет обеспечить защиту от имитации голоса с помощью современных звуковоспроизводящих устройств. Истоники информации
1. US 4078154 A, 07.03.1978. 2. БОЧКАРЕВ С. Л. Система голосовой аутентификации по динамическим параметрам акустического тракта человека. Специальная техника средств связи. Серия системы, сети и технические средства конфиденциальной связи. - Пенза: ПНИЭИ, 1996, вып.1, с.93-102. 3. SU 1453442 A1, 23.01.1989. 4. КОРОТАЕВ Г.А. Анализ и синтез речевого сигнала методом линейного предсказания. Зарубежная радиоэлектроника, 1990, N 3, с.36. 5. US 4627323 A, 09.09.1986. 6. ВЕРХАГЕН К. и др. Распознавание образов. Состояние и перспективы. - М.: Радио и связь, 1985, с.39-45. 7. УОССЕРМЕН Ф. Нейрокомпьютерная техника: теория и практика. - М.: Мир, 1992, с.76.
Класс G10L17/00 Установление или подтверждение личности говорящего
Класс G10L11/04 определение пика речевых сигналов
Класс G10L11/06 распознавание выраженных голосом и не выраженных голосом звуков речевых сигналов
Класс G10L15/06 создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего
Класс G10L15/16 с использованием искусственных нейронных сетей