способ идентификации личности по фонограммам произвольной устной речи

Классы МПК:
Автор(ы):	Байчаров Николай Владимирович, Карлин Игорь Петрович, Кураченкова Надежда Борисовна, Линьков Андрей Николаевич, Попов Николай Федорович, Савельев Юрий Иванович, Тимофеев Игорь Николаевич, Фесенко Анатолий Владимирович
Патентообладатель(и):	Байчаров Николай Владимирович, Карлин Игорь Петрович, Кураченкова Надежда Борисовна, Линьков Андрей Николаевич, Попов Николай Федорович, Савельев Юрий Иванович, Тимофеев Игорь Николаевич, Фесенко Анатолий Владимирович
Приоритеты:	подача заявки: 1996-08-08 публикация патента: 27.03.1998

Изобретение касается криминалистического исследования фонограмм устной речи. Технический результат - повышение эффективности идентификации лиц по фонограммам их устной речи, в условиях наличия помех и искажений исследуемых сигналов. Фонограммы речи неизвестного и проверяемого дикторов преобразовывают в цифровую форму и хранят их оцифрованные образы в памяти ПЭВМ. Затем фонограммы речи подвергают акустическому и лингвистическому анализу. По оцифрованным образам речи в памяти ПЭВМ вычисляют акустические признаки исследуемых дикторов и выполняют процедуру сравнения векторов признаков с учетом результатов предварительного анализа (отношение сигнал/шум компонент амплитудно-частотного спектра и частотный диапазон речевых сигналов). Способ обеспечивает комплексное использование акустического и лингвистического анализов применением статистических критериев принятия решения и возможностью гибкой адаптации к качеству и длительности анализируемых фонограмм речи. возможностью настройки решающего правила на проверяемого диктора, а также наличием в лингвистическом анализе автоматизированного банка звучащих эталонов. 1 ил.

Рисунок 1

Формула изобретения

Способ идентификации личности по фонограммам произвольной устной речи, основанный на спектрально-полосно-временном анализе речевого сигнала, выделении характеристик индивидуальности устной речи и в сравнении этих характеристик с эталонными, отличающийся тем, что в качестве характеристик индивидуальности устной речи используют акустические интегральные признаки, являющиеся оценками парамтеров статистического распределения компонент текущего спектра и гистограмм распределения периодов и частот основного тона, измеренных на фонограммах речи как с произвольным, так и фиксированным контекстом, среди которых при адаптивном переобучении выбирают наиболее информативные признаки для речи данного проверяемого лица и независимые от помех и искажений, присутствующих в сравниваемых фонограммах, а также используют лингвистические признаки, фиксирумые экспертом при слуховом анализе фонограмм с применением автоматизированного банка опорных звуковых эталонов диалектных, акцентных и дефектных особенностей устной речи.

Описание изобретения к патенту

Изобретение касается криминалистического исследования фонограмм устной русской речи.

Известен способ идентификации личности по фонограммам, который проводится путем экстрагирования характерных особенностей диктора из произносимых однотипных фраз [2].

В данном способе речевой сигнал фильтруют с помощью гребенки из 24 полосовых фильтров, затем детектируют, сглаживают, далее с помощью аналого-цифрового преобразователя и коммутатора сигнал вводят в цифровое обрабатывающее устройство, где автоматически выделяют и сохраняют индивидуализирующие признаки, связанные с интегральным спектром речи.

Данный способ теряет работоспособность на фонограммах устной речи, полученных в условиях повышенных искажений и помех из-за ограниченного набора индивидуализирующих признаков. Также этот способ имеет большой процент отказов от решения по идентификации, поскольку он требует фонограмм неизвестного и проверяемого с одинаковым контекстом.

Известен способ, в котором для идентификации личности используются однотипные ключевые слова, выделяемые из фонограмм устной речи [3].

В данном способе речевой сигнал подвергается кратковременному спектральному анализу, затем выделяются контуры особенностей спектра и основного тона в зависимости от времени. Полученные контуры являются индивидуализирующими. Решающее правило основано на сравнении полученных контуров для фонограмм проверяемого и неизвестного дикторов.

Недостатком способа является зависимость результатов идентификации от качества фонограмм, полученных в условиях повышенных искажений и помех. Также этот способ имеет большой процент отказов от решения по идентификации, поскольку он требует фонограмм неизвестного и проверяемого с одинаковыми словами.

Прототип способа идентификации личности основан на спектрально-полосно-временном анализе речи произвольного контекста [1]. Для исключения зависимости результатов идентификации от смыслового содержания произносимого текста из речевого сигнала выделяют звонкие участки, усредняют по времени их существования значения энергии в каждом из 24 спектральных фильтров в области высших формантных участков. Основной тон определяют на основе экстракции первой гармоники сигнала. Также определяют темп речи. Перечисленные параметры используют в качестве индивидуализирующих признаков.

Данный способ неработоспособен на фонограммах устной речи, полученных в условиях повышенных искажений из-за потери надежности выделения набора индивидуализирующих признаков.

Целью изобретения является повышение эффективности идентификации лиц по фонограммам их устной речи в условиях наличия помех и искажений исследуемых сигналов.

Для этого по предлагаемому способу фонограммы речи неизвестного и проверяемого дикторов преобразовывают в цифровую форму с помощью аналого-цифрового преобразователя и хранят их оцифрованные образы в памяти ПЭВМ.

Сущность предлагаемого изобретения поясняется блок-схемой изображенной на чертеже.

В памяти ПЭВМ для каждой из фонограмм отделяют речевой сигнал интересующего диктора от речи оппонента и импульсных помех (блок 1). Фонограммы подвергают предварительному анализу (блок 2). С помощью данного анализа измеряют отношение сигнал/шум компонент амплитудно-частотного спектра и частотный диапазон речевых сигналов на имеющейся звукозаписи речи. Определение частотного диапазона речевых сигналов и отношения сигнал/шум компонент амплитудно-частотного спектра необходимо для адаптивного выбора рабочей полосы измерения спектральных признаков. Для обеспечения сопоставимости результатов идентификационного исследования по спектральным акустическим признакам речи неизвестного и проверяемого лица выбирают сопоставимый диапазон частот.

Также измеряют отклонение от номинала скорости звукозаписи магнитофона. В случае значительного отклонения скорости звукозаписи от номинала фонограмму подвергают перезаписи с коррекцией скорости.

Затем фонограммы речи подвергают двум видам анализа - акустическому и лингвистическому.

По оцифрованным образам речи в памяти ПЭВМ вычисляют акустические интегральные признаки, признаки, характеризующие отдельные фразы и слова (сопоставимый контекст), а также признаки, характеризующие отдельные звуки исследуемых дикторов (блоки 3 и 4).

В качестве акустических интегральных признаков и признаков для сопоставимого контекста выбраны следующие группы индивидуализирующих признаков, являющиеся оценками параметров статистического распределения компонент текущего спектра и основного тона анализируемого отрезка произвольной речи:

среднее значение спектра;

относительное время пребывания сигнала в полосах спектра;

медианные значения спектра речи в полосах;

относительная мощность спектра речи в полосах;

величины вариации огибающих спектра речи;

значения коэффициентов кросскорреляции спектральных огибающих между полосами спектра;

значения компонент гистограммы распределения длительности периодов основного тона;

значения компонент гистограммы распределения частоты основного тона.

В качестве признаков, характеризующих отдельные звуки исследуемых дикторов, выбраны следующие группы индивидуализирующих признаков, являющиеся оценками акустической модели речеобразования отдельных звуков:

значения частоты основного тона на гласных;

значения четырех форматных частот гласных звуков;

величина длительности гласных;

величины длительности согласных, окружающих гласный.

Вычислительные значения признаков нормируются таким образом, чтобы их значения не зависили от общего уровня речевого сигнала, а также от линейных (частотных) искажений при прохождении речевых сигналов по реальным трактам звукозаписи, имеющих различные передаточные характеристики.

Затем сравнивают разность значений соответствующих акустических признаков речи неизвестного и проверяемого дикторов с порогами решения. В случае установления сходства акустических признаков принимают решение о принадлежности фонограмм одному и тому же лицу, в случае несовпадения признаков - разным лицам (блок 7).

Пороги принятия решения получают посредством статистической обработки массивов разностей акустических признаков, вычисленных на обучающих массивах фонограмм речи при условии их принадлежности одному и тому же или разным дикторам. В обучающий массив включаются также фонограммы речи проверяемого лица. Оценивается информативность каждого из акустических признаков и выбирается группа признаков, наиболее информативная для фонограммы речи данного проверяемого лица (блоки 5 и 6), а также оценивается порог принятия решения по группе акустических признаков на адаптивно выбранной полосе частот сравнения речи проверяемого и неизвестного лица.

Лингвистические исследования фонограмм речи неизвестного и проверяемого проводятся методом слухового анализа и предназначены для выделения тембральных, интонационных, темпоральных, фонетических, лексико-грамматических и других особенностей речи (блоки 8 и 9).

Для исключения случайных ошибок эксперта, а также для объективизации его оценок в памяти ПЭВМ создается опорный эталонный звучащий массив диалектных, акцентных и дефектных особенностей русской устной речи, обеспечивающий быстрый и удобный доступ к различного рода справочной информации (блок 10).

Достоинство лингвистических признаков заключается в том, что эксперт при их выделении способен улавливать тончайшие нюансы звучания речи, оценивать различия, не подающиеся в настоящее время инструментальному измерению. При этом эксперт сравнительно легко адаптируется к достаточно высокому уровню помех и искажений, которые зачастую имеют место в спорных фонограммах.

Результаты раздельного лингвистического исследования представляются в виде перечня признаков, характеризующих анализируемую фонограмму, который запоминается в памяти ПЭВМ, где автоматически формируется соответствующий протокол для определения совпадающих и не совпадающих лингвистических признаков речи неизвестного и проверяемого лица (блок 11).

По результатам акустического и лингвистического исследований принимается решение по комплексному исследованию.

Предлагаемый способ идентификации лиц по устной речи был испытан в криминалистической лаборатории в/ч 34435. Результаты испытаний предлагаемого способа идентификации лиц по устной речи подтвердили правильность выбранного подхода для достижения поставленных целей.

Источники информации, принятые во внимание при экспертизе

1. Рамишвили Г. С. Способ идентификации личности по голосу (описание изобретения), кл. G 10 L 1/00, 1976.

2. Offenlegungsschrift DT 2431458. Verfahren zur automatischen Sprecherkennung, Bunge, Ernst, Int. Cl. G 10 L 1/04, OT:05.02.76.

3. United States Patent Office 3,466,394. Voice verification system, Walter K. French, Montrose N.Y., Int Cl H04m 1/24, Patented Sept. 9,1969.