система голосовой идентификации диктора
Классы МПК: | B64D47/00 Оборудование, не отнесенное к другим группам B60R25/00 Оборудование транспортных средств для предотвращения или обнаружения недозволенного использования или кражи транспортных средств G10L15/00 Распознавание речи |
Автор(ы): | Зыков Александр Павлович (RU), Леднов Дмитрий Анатольевич (RU), Меркулов Максим Николаевич (RU) |
Патентообладатель(и): | Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" (RU) |
Приоритеты: |
подача заявки:
2009-04-30 публикация патента:
27.03.2010 |
Изобретение относится к технике опознавания личности и может быть использовано в системах связи экипажей самолетов с наземными службами, в охранных автомобильных системах, а также в call-центрах, мобильных и стационарных телефонах. Система содержит генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, блок формирования последовательности векторов признаков, формирователь порогового уровня, блок формирования потенциалов единичных зарядов, блок формирования модуля градиентов, блок памяти идентификационных номеров дикторов, цифровое запоминающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений, блок динамического программирования, дополнительный компаратор, блок принятия решений, переключатель режимов, блок определения условной вероятности, блок умножения, дополнительный блок принятия решений, блок упорядочивания векторов, селектор, блок предварительной кластеризации последовательности векторов признаков, блок определения статистических характеристик кластеров и блок памяти вероятностных характеристик. В процессе работы системы обнаруживается речь на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а вектор признаков сигналов формируется устойчивым к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация. Изобретение обеспечивает возможность автоматической текстонезависимой идентификации диктора по голосу и автоматического разрешения или запрещения соединения с идентифицированной личностью. Изобретение позволяет повысить вероятность голосовой идентификации. 4 ил.
Формула изобретения
Система голосовой идентификации диктора, содержащая генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, блок формирования последовательности векторов признаков, формирователь порогового уровня, блок формирования потенциалов единичных зарядов, блок формирования модуля градиентов, блок памяти идентификационных номеров дикторов и блок питания, подключенный к питающим входам составных блоков системы, последовательно соединенные цифровое запоминающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, последовательно соединенные компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений, блок динамического программирования, дополнительный компаратор, блок принятия решений, переключатель режимов, блок определения условной вероятности, блок умножения и дополнительный блок принятия решений, последовательно соединенные блок упорядочивания векторов, селектор, блок предварительной кластеризации последовательности векторов признаков, блок определения статистических характеристик кластеров и блок памяти вероятностных характеристик, при этом блок памяти идентификационных номеров дикторов подключен к соответствующему входу блока памяти вероятностных характеристик, выход которого подключен к соответствующему входу блока определения условной вероятности, входы интеграторов соединены с выходом блока нормирования спектра Фурье и выходом генератора базисных сигналов, а выходы параллельно подключены к входам компаратора и сумматора, выход формирователя параметров разбиения диапазона частот соединен с одним из входов блока определения максимумов и соответствующих им аргументов, выход формирователя порогового уровня подключен к задающему входу дополнительного компаратора, выход сумматора дополнительно соединен с соответствующим входом блока формирования последовательности векторов признаков, выход которого соединен с входом переключателя режимов, а соответствующий выход последнего дополнительно параллельно подключен к входам блока формирования потенциалов единичных зарядов и блока формирования модуля градиентов, выходы которых соединены с входами блока упорядочивания векторов.
Описание изобретения к патенту
Изобретение относится к технике опознавания личности и может быть использовано в системах связи экипажей самолетов с наземными службами, в охранных автомобильных системах, а также в call-центрах, мобильных и стационарных телефонах.
Известна система для выделения частоты основного тона с преобразованием речевых колебаний в импульсную последовательность, включающая в себя два селектора, ключ, формирователь сигнала равенства чисел, ключ и аналоговый сумматор (RU 2007763, 15.02.1994). При ее функционировании принимают, что каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход) и используют свойство, заключающееся в том, что на периоде основного тона последовательности межимпульсных интервалов повторяются.
Недостаток известной системы проявляется в пропуске интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит вследствие того, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.
Известна система для выделения частоты основного тона с помощью узкополосного фильтра (Вокодерная телефония. Под ред. А.А.Пирогова. М.: Связь, 1974). Указанным фильтром осуществляют слежение за изменением частоты первой гармоники речевого сигнала. При этом ширину полосы итерационно подстраивают под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря органу обратной связи. Это предопределяет высокое качество выделения частоты основного тона при условии, что фильтр подстраивается под диктора в течение нескольких минут.
Недостатком известной системы является ее непригодность для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.
Известна система для выделения основного тона с предварительной записью речевого сигнала и его последующей обработкой, охватывающая три канала обработки речевого сигнала (М.Е.Hernandez-Diaz Huici and J.V.Lorenzo Ginori Combined algorithm for pitch detection of speech signals // Electronics Letters 5-th January 1995 Vol.31, No.1, pp.15-16). В первом канале проводят амплитудную селекцию по схеме Голда, во втором канале используют аппроксимацию первой гармоники основного тона экспоненциальной функцией, а в третьем канале проводят вычисление корреляционной функции по схеме Медана. В том случае, когда разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину, считают, что частота основного тона найдена.
Недостаток известной системы связан с низкой точностью, обусловленной сильной зависимостью от точности реализации каждого из определяющих способ алгоритмов.
Известны различные системы, позволяющие в условиях присутствия шумовой составляющей в акустическом сигнале выделять речевую составляющую сигнала (RU 231830, 27.06.2004; RU 296376, 27.03.2007; RU 2271578, 10.03.2006; RU 2263358, 27.10.2005; RU 2103753, 27.01.1998; RU 2161826, 10.01.2001 и др.).
Однако они не позволяют проводить обнаружение речи на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума.
Известна система для выделения признаков речевого сигнала MFCC (Mel Frequency Cepstral Coefficients) с разбиением сигнала на окна (Fang Zheng, Guoliang Zhang and Zhanjiang Song, Comparison of Different Implementations of MFCC, J. Computer Science & Technology, 16(6): p.p.582-589, Sept. 2001). Разбиение сигнала в ней осуществляют на окна с длительностью 25 мс со смещением на 10 мс начала отсчета каждого последующего окна относительно начала каждого предыдущего окна. С помощью органов преобразования и вычисления над фрагментами сигнала в каждом окне выполняют преобразования Фурье, вычисляют спектр Фурье и параметры амплитудно-частотных характеристик множества интегрирующих фильтров, полосы пропускания которых изменяются в соответствии с известной из психоакустики мел-шкалой. Посредством интеграторов спектр Фурье интегрируют в соответствии с найденными параметрами интегрирующих фильтров. Дополнительными вычислительными органами осуществляют логарифмирование результатов интегрирования и выполнение косинус-преобразования над результатами логарифмирования.
Недостаток известной системы определяется неустойчивостью к изменению статистических свойств шума, на фоне которого проводится распознавание речи или идентификация диктора.
Наиболее близкой к предложенной является система для выделения частоты основного тона из речевого сигнала, представленная в RU 2184399, 27.06.2002. В ее состав входят последовательно соединенные блок вычисления спектра Фурье, интегратор, вычислитель значений определителя автокорреляционной матрицы, блок проверки синхронности и блок аппроксимации подпоследовательностей квадратичной функцией, а также выделитель основного тона по схеме Голда и блок выделения основного тона с полосовым фильтром, включенные между выходом указанного вычислителя и соответствующими входами блока проверки синхронности. Принцип действия известной системы основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, вычислении среднего значения аргумента последовательности полученных максимумов, оценке средней частоты основного тона исследуемого речевого сигнала, амплитудной селекции сигналов, вычислении значений определителя автокорреляционной матрицы и фильтрации этих значений.
Недостаток известной системы проявляется в невозможности обнаружения речи на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а также невозможность формирования вектора признаков сигналов для систем распознавания речи, идентификации дикторов и идентификации языка, устойчивого к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация.
Задачей изобретения является реализация возможности автоматической текстонезависимой идентификации диктора по голосу и автоматического разрешения или запрещения соединения с идентифицированной личностью.
Технический результат, достигаемый при решении задачи, выражается в повышении вероятности голосовой идентификации.
Технический результат обеспечивается при использовании системы голосовой идентификации диктора, содержащей генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, блок формирования последовательности векторов признаков, формирователь порогового уровня, блок формирования потенциалов единичных зарядов, блок формирования модуля градиентов, блок памяти идентификационных номеров дикторов и блок питания, подключенный к питающим входам составных блоков системы, последовательно соединенные цифровое запоминающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, последовательно соединенные компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений, блок динамического программирования, дополнительный компаратор, блок принятия решений, переключатель режимов, блок определения условной вероятности, блок умножения и дополнительный блок принятия решений, последовательно соединенные блок упорядочивания векторов, селектор, блок предварительной кластеризации последовательности векторов признаков, блок определения статистических характеристик кластеров и блок памяти вероятностных характеристик, при этом блок памяти идентификационных номеров дикторов подключен к соответствующему входу блока памяти вероятностных характеристик, выход которого подключен к соответствующему входу блока определения условной вероятности, входы интеграторов соединены с выходом блока нормирования спектра Фурье и выходом генератора базисных сигналов, а выходы параллельно подключены к входам компаратора и сумматора, выход формирователя параметров разбиения диапазона частот соединен с одним из входов блока определения максимумов и соответствующих им аргументов, выход формирователя порогового уровня подключен к задающему входу дополнительного компаратора, выход сумматора дополнительно соединен с соответствующим входом блока формирования последовательности векторов признаков, выход которого соединен с входом переключателя режимов, а соответствующий выход последнего дополнительно параллельно подключен к входам блока формирования потенциалов единичных зарядов и блока формирования модуля градиентов, выходы которых соединены с входами блока упорядочивания векторов.
На фиг.1 представлена функциональная схема предложенной системы голосовой идентификации диктора, на фиг.2 приведен график используемой вейвлет-функции, на фиг.3 - пример наложения вейвлет-функций в выбранном отсчете спектра Фурье и на фиг.4 - граф связей во времени между последовательностью состояний.
Система голосовой идентификации диктора (фиг.1) содержит генератор 1 базисных сигналов, формирователь 2 параметров разбиения диапазона частот, интеграторы 3-5, блок 6 формирования последовательности векторов признаков, формирователь 7 порогового уровня, блок 8 формирования потенциалов единичных зарядов, блок 9 формирования модуля градиентов, блок 10 памяти идентификационных номеров дикторов и блок 11 питания, подключенный к питающим входам составных блоков системы. В систему входят также последовательно соединенные цифровое запоминающее устройство 12, блок 13 дискретизации, блок 14 дискретного преобразования Фурье и блок 15 нормирования спектра Фурье, последовательно соединенные компаратор 16, сумматор 17, дополнительный сумматор 18, блок 19 определения максимумов и соответствующих им аргументов, регистратор 20 максимальных значений, блок 21 динамического программирования, дополнительный компаратор 22, блок 23 принятия решений, переключатель 24 режимов, блок 25 определения условной вероятности, блок 26 умножения и дополнительный блок 27 принятия решений, последовательно соединенные блок 28 упорядочивания векторов, селектор 29, блок 30 предварительной кластеризации последовательности векторов признаков, блок 31 определения статистических характеристик кластеров и блок 32 памяти вероятностных характеристик. Блок 10 памяти идентификационных номеров дикторов подключен к соответствующему входу блока 32 памяти вероятностных характеристик, выход которого подключен к соответствующему входу блока 25 определения условной вероятности. Входы интеграторов 3-5 соединены с выходом блока 15 нормирования спектра Фурье и выходом генератора 1 базисных сигналов, а выходы параллельно подключены к входам компаратора 16 и сумматора 17. Выход формирователя 2 параметров разбиения диапазона частот соединен с одним из входов блока 19 определения максимумов и соответствующих им аргументов. Выход формирователя 7 порогового уровня подключен к задающему входу дополнительного компаратора 22. Выход сумматора 17 дополнительно соединен с соответствующим входом блока 6 формирования последовательности векторов признаков, выход которого соединен с входом переключателя 24 режимов. Соответствующий выход переключателя 24 режимов дополнительно параллельно подключен к входам блока 8 формирования потенциалов единичных зарядов и блока 9 формирования модуля градиентов, выходы которых соединены с входами блока 28 упорядочивания векторов.
Система голосовой идентификации диктора функционирует следующим образом.
Акустический сигнал поступает на вход цифрового записывающего устройства 12, на выходе которого формируется записанный оцифрованный сигнал. В блоке 13 дискретизации осуществляется его оконное преобразование (дискретизация), при этом не перекрывающиеся интервалы окон имеют длительность не менее 0,032 с и следуют друг за другом со смещением, длительность которого не превышает 0,010 с.Для получения сигнала, соответствующего каждому окну, в блоке 14 происходит вычисление дискретного преобразования Фурье. Блок 15 определяет спектр Фурье и осуществляет его последующее нормирование в соответствии с зависимостью
где - компоненты нормированного спектра Фурье;
i - компоненты исходного спектра Фурье;
j - номер компоненты спектра Фурье;
n - количество компонент спектра Фурье.
Генератор 1 базисных сигналов формирует управляющие сигналы, структура которых определяется параметрами вейвлет-функции W={w(x,j )}Y (фиг.2), имеющей вид
где -шаг анализа частоты основного тона;
j - номер отсчета вейвлет-функции, j=0, ,Y;
min - минимальное значение частоты основного тона (~80 Гц);
max - максимальное значение частоты основного тона (~450 Гц);
- текущее значение частоты,
=3,14.
Примерное наложение вейвлет-функций в выбранном отсчете спектра Фурье соответствует фиг.3.
Управляющие базисные сигналы с выхода блока 1 поступают на входы интеграторов 3-5, которые проводят интегрирование нормированного спектра Фурье ( ) с параметрическим классом вейвлет-функций W={w(x,j )}Y. Результатом работы интегратора 3 является вычисление значения интегралов вида
где переменная определяет местоположение максимума вейвлет-функции на спектре.
Результатом работы интегратора 4 является вычисление значения интегралов вида
а результатом работы интегратора 5 является вычисление значения интегралов вида
С выхода интеграторов 3-5 сигналы поступают на входы сумматора 17 и компаратора 16. В компараторе 16 проводится сравнение значений сигналов, полученных с выходов интеграторов 3-5 для каждого значения положения вейвлет-функции и каждого значения основного тона j . На выходе компаратора появляется положительное значение +U, если выполняются условия
Если же условия (6) не выполняются, то на выходе компаратора появляется отрицательное значение -U.
Сумматор 17 при появлении на выходе компаратора 16 отрицательного значения -U, формирует на своем выходе ноль. Если же значение на выходе компаратора положительно +U, то он формирует на своем выходе значение gj( ), которое образуется на основе значений сигналов, полученных с выходов интеграторов 3-5, т.е.
В дополнительном сумматоре 18 суммируются значения сигналов gj( ) для различных значений смещения h и частоты основного тона j
где h - значение смещения.
В блоке 19 определения максимумов и соответствующих им аргументов определяются значения максимумов для каждого из трех диапазонов частот основного тона
и соответствующих аргументов максимумов
Эти значения сохраняются в регистраторе 20 максимальных значений. Границы диапазонов частот (от 90 до 180 Гц, от 180 до 360 Гц, от 360 до 450 Гц) заданы формирователем 2 параметров разбиения диапазона частот основного тона голоса, разбитого на три неперекрывающихся диапазона. Верхнюю границу первого диапазона выбирают из условия G1=2Gmin , где Gmin - известное минимальное значение частоты основного тона мужского голоса, верхнюю границу второго диапазона - из условия G2=4Gmin, а верхнюю границу третьего диапазона принимают равной известному максимальному значению частоты Gmax основного тона женского голоса. По мере накопления регистратором 20 максимальных значений 4-х значений они передаются в блок 21 динамического программирования, реализующего поиск наиболее вероятной траектории с использованием алгоритма динамического программирования.
Функционирование блока 21 динамического программирования осуществляется на основе введенной меры вероятностей следования пар (значение максимума, значение аргумента максимума) друг за другом
где - дисперсия частоты основного тона;
t - дискретное время,
- компоненты вектора информативных признаков, взятые в дискретные моменты времени t; t=1,2 ;
- максимальное значение интеграла (9), взятое в момент времени t;
- точность измерения частоты основного тона.
На выходе блока 21 динамического программирования формируется сигнал, соответствующий значению вероятности наиболее вероятной траектории и поступающий на вход дополнительного компаратора 22. Граф связей во времени между последовательностью состояний представлен на фиг.4. Значение порогового уровня задается формирователем 7 порогового уровня. Если значение сигнала с блока 21 динамического программирования превышает значение установленного порога, то блоком 23 принятия решений принимается решение о том, что на интервале времени, на котором получена последовательность из четырех спектров, присутствует основной тон и соответственно вокализированный участок речи. По первому найденному интервалу устанавливается граница начала речи, а по последнему интервалу, на котором вероятность траектории не преодолела порог, устанавливается окончание речи.
Посредством сигналов gj ( ), полученных в сумматоре 17, для которых в блоке 21 динамического программирования было установлено, что они принадлежат наиболее вероятной траектории, в блоке 6 формирования последовательности векторов признаков формируются сигналы, соответствующие последовательности векторов признаков H={st}T (T - количество векторов в последовательности) речевого сигнала с элементами
где - диапазон спектра исследуемого сигнала;
i - частота i-й гармоники основного тона;
mt - количество гармоник частоты основного тона в спектре в данный момент времени;
поступающие на вход переключателя 24, представляющего собой ключ и определяющего режимы работы системы, которыми являются режим обучения и режим идентификации. Также на вход переключателя 24 поступает информационный сигнал с блока 23 принятия решений.
В случае реализации режима обучения обработка сигналов, соответствующих передаче последовательности векторов признаков, следующая. Блок 8 формирования потенциалов единичных зарядов проводит вычисление значений потенциалов единичного заряда Et, а блок 9 формирования модуля градиентов - вычисление значений модуля градиентов единичного заряда
где
помещенного в точку фазового пространства с координатами векторов признаков. В результате работы блока 8 формирования потенциалов единичных зарядов и блока 9 формирования модуля градиентов каждый вектор последовательности Н характеризуется своим потенциалом и модулем градиента. Блок 28 упорядочивания векторов проводит упорядочение векторов последовательности Н по принципу Парето, где точка ht считается лучше точки hm, если выполняются два неравенства
Et>Em и t< m. Селектор 29 проводит выборку подмножества J наилучших по Парето точек из упорядоченного множества. Блок 30 предварительной кластеризации последовательности вектора признаков проводит предварительную сегментацию последовательности Н, реализованную посредством метода кластеризации k-средних, в котором в качестве начального приближения используются векторы подмножества J. Совместная работа блоков 8, 9, 28, 29, 30 соответствует предварительной кластеризации последовательности векторов признаков. В блоке 31 определения статистических характеристик кластеров определяются математические ожидания, дисперсии и априорные вероятности образовавшихся кластеров. Также в блоке 31 на основе ЕМ-алгоритма проводится переоценка полученных значений математических ожиданий, дисперсий и априорных вероятностей, после чего сигналы поступают в блок 32 памяти вероятностных характеристик, на вход которого из блока 10 памяти идентификационных номеров дикторов также поступают информационные сигналы, соответствующие идентификационному номеру диктора.
При реализации режима идентификации блок 25 определения условной вероятности на основе данных о математических ожиданиях, дисперсиях и априорных вероятностях кластеров (ассоциированных с диктором d), полученных из блока 32 памяти вероятностных характеристик, для каждого вектора последовательности Н проводит вычисление условной вероятности вида
где {µ(d)}, { (d)}, {p(d)} - математические ожидания, дисперсии и априорные вероятности, соответственно, ассоциированные с диктором d.
Блок 26 умножения проводит вычисление условной вероятности того, что данная последовательность векторов признаков Н порождена диктором d.
После этого дополнительный блок 27 принятия решений принимает решение, какому же диктору (из тех, чьи идентификационные номера содержались в блоке 10 памяти идентификационных номеров дикторов) принадлежала данная последовательность векторов признаков на основе вычисления аргумента максимума в соответствии с зависимостью
после чего формируется сигнал, соответствующий тому или иному идентификационному номеру диктора.
Питание системы осуществляется от блока 11 питания, подключенного к питающим входам составных блоков системы. При использовании системы идентификации голоса диктора повышается точность определения параметров за счет использования динамических параметров спектра информационного сигнала и вейвлет-функций в качестве опорных базисных сигналов, а также разделения диапазона частот на неперекрывающиеся области.
Класс B64D47/00 Оборудование, не отнесенное к другим группам
Класс B60R25/00 Оборудование транспортных средств для предотвращения или обнаружения недозволенного использования или кражи транспортных средств
Класс G10L15/00 Распознавание речи