система эмоциональной стабилизации речевых коммуникаций "эмос"

Классы МПК:	G10L15/00 Распознавание речи
Автор(ы):	Баклаев Александр Вадимович (RU), Струценко Алла Анатольевна (RU)
Патентообладатель(и):	Баклаев Александр Вадимович (RU), Струценко Алла Анатольевна (RU)
Приоритеты:	подача заявки: 2008-10-22 публикация патента: 27.12.2010

Изобретение относится к психофизиологии и клинической нейрофизиологии Система содержит модуль ввода, распознавания и преобразования речевого сигнала, модуль анализа и накопления частотно-амплитудных характеристик (АЧХ) речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала, электронную базу данных эталонных шаблонов, модуль визуализации, модуль дискриминации с образованием последовательно соединенных между собой модуля распознавания отклонений спектров текущего речевого сигнала, модуля дискриминации и модуля визуализации, а также модуль психоэмоциональной коррекции, последовательно соединенный с модулем визуализации, при этом модуль анализа и накопления АЧХ речевого сигнала выполнен с возможностью определения временных колебаний высоко/низкочастотных спектров речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала выполнен с возможностью определения отклонения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала от эталонных шаблонов, модуль дискриминации выполнен с возможностью передачи генерируемого им управляющего сигнала временного прерывания к модулю ввода, распознавания и преобразования, а модуль психоэмоциональной коррекции выполнен с возможностью воспроизведения релаксирующего музыкального и/или речевого сопровождения или обратной трансляции фрагмента речевой коммуникации. Технический результат - снижение активности и нейтрализации неблагоприятных речевых сигналов. 3 з.п. ф-лы, 1 ил.

система эмоциональной стабилизации речевых коммуникаций "эмос", патент № 2408087

Формула изобретения

1. Система эмоциональной стабилизации речевых коммуникаций, содержащая последовательно соединенные модуль ввода, распознавания и преобразования, модуль анализа и накопления частотно-амплитудных характеристик речевого сигнала и модуль распознавания отклонений спектров текущего речевого сигнала, а также электронную базу данных эталонных шаблонов и модуль визуализации, отличающаяся тем, что она снабжена модулем дискриминации с образованием последовательно соединенных между собой модуля распознавания отклонений спектров текущего речевого сигнала, модуля дискриминации и модуля визуализации, и модулем психоэмоциональной коррекции, последовательно соединенным с модулем визуализации, при этом модуль анализа и накопления частотно-амплитудных характеристик речевого сигнала выполнен с возможностью определения временных колебаний высоко/низкочастотных спектров речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала соединен с электронной базой данных электронных шаблонов, модуль дискриминации выполнен с возможностью передачи генерируемого им управляющего сигнала временного прерывания к модулю ввода, распознавания и преобразования в случае значительного превышения параметров, сопровождающихся выраженным риском, а модуль психоэмоциональной коррекции выполнен с возможностью воспроизведения релаксирующего музыкального и/или речевого сопровождения или обратной трансляции фрагмента речевой коммуникации.

2. Система по п.1, отличающаяся тем, что модуль ввода, распознавания и преобразования содержит в качестве устройства ввода речи телефон или средство громкой связи или конференцсвязи.

3. Система по п.2, отличающаяся тем, что модуль дискриминации выполнен с возможностью визуализации генерируемого управляющего сигнала посредством модуля визуализации в режиме реального времени.

4. Система по п.3, отличающаяся тем, что электронная база данных эталонных шаблонов содержит индивидуальные настройки эталонных шаблонов критических величин упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала и/или ключевые слова.

Описание изобретения к патенту

Изобретение относится к области медицины, а именно к психофизиологии и клинической нейрофизиологии. Изобретение может быть использовано для диагностики, верификации и раннего предупреждения и коррекции психоэмоциональных расстройств, синдрома информационной травмы (SIT) и информационного стресса в ситуациях межличностных речевых коммуникаций, сопровождающихся высоким риском возникновения реакций, негативно влияющих на психоэмоциональное здоровье человека.

На современном уровне технического развития известно устройство для диагностики эмоционального состояния индивидуума, содержащее анализатор речи, выполненный с возможностью принимать от устройства ввода сигнал, представляющий первый образец речи, сгенерированный индивидуумом, для извлечения из него значений параметров сигнала, причем упомянутые параметры сигнала включают в себя, по меньшей мере, одно из:

параметры сигнала, относящиеся к амплитудным пикам сигнала речи, и параметры сигнала, относящиеся к плоским участкам сигнала речи, упомянутый анализатор речи дополнительно выполнен с возможностью принимать от устройства ввода сигнал, представляющий другой образец речи, сгенерированный индивидуумом, для получения из него проверяемых значений параметров сигнала и устройство сообщения эмоционального состояния, выполненное с возможностью генерировать выходную индикацию эмоционального состояния индивидуума, на основании оценки упомянутых проверяемых значений в отношении значений, полученных из первого сигнала речи, при этом упомянутым устройством ввода речи является телефон, см., описание к пат. RU № 2294023, кл. G10L 15/00, опубликовано 2007.02.20. Известное устройство характеризуется достаточной точностью и быстротой исследования, относительной простотой применения и функциональностью, однако у него существует ряд ограничений, в частности, данное устройство не приспособлено для быстрой и эффективной коррекции психоэмоциональных расстройств, часто возникающих вследствие речевых коммуникаций.

Известна система обнаружения эмоций для обнаружения эмоции субъекта, содержащая блок ввода голоса для ввода голосового сигнала, блок обнаружения интенсивности для обнаружения интенсивности голоса на основе голосового сигнала, введенного указанным блоком ввода голоса, блок обнаружения темпа для обнаружения скорости, с которой появляется голос, в качестве темпа, на основе голосового сигнала, введенного указанным блоком ввода голоса, блок обнаружения интонации для обнаружения, в виде величины времени, интонации, которая выражает рисунок изменения интенсивности в слове, выполненном голосом, на основе голосового сигнала, введенного указанным блоком ввода голоса, блок обнаружения величины изменения для получения первой величины, указывающей изменение интенсивности голоса, обнаруженной указанным блоком обнаружения интенсивности, по оси времени, второй величины изменения, указывающей изменение темпа голоса, обнаруженного указанным блоком обнаружения темпа, по оси времени, и третьей величины изменения, указывающей изменение интонации голоса, обнаруженной указанным блоком обнаружения интонации, по оси времени, соответственно и блок обнаружения эмоций для выдачи сигналов, выражающих эмоциональные состояния по меньшей мере гнева, печали и удовольствия, соответственно, на основе указанных первой, второй и третьей величин изменения, обнаруженных указанным блоком обнаружения величины изменения, см. описание к пат. RU № 2287856, кл. G06N 5/00, опубликовано 2006.11.20. Указанный известный объект принят в качестве прототипа как наиболее близкий по назначению, технической сущности и достигаемому результату аналог. Система обнаружения эмоций согласно прототипу обеспечивает точное обнаружение эмоций человека и позволяет генерировать чувствительность, близкую чувствительности человека.

Недостатком прототипа является то, что в нем отсутствует возможность работы без оператора, сложность реализации в практической деятельности, а также стандарты применения базируются на усредненных показателях, без поправки на индивидуальные особенности всех партнеров речевой коммуникации. Кроме того, в прототипе не предусмотрена защищенность от информационных потоков, негативно влияющих на эмоциональное здоровье человека.

Изобретение направлено на достижение нового технического результата, который выражается в том, что система позволяет в режиме реального времени осуществлять оценку риска информационного стресса у реципиента речевого обмена. Кроме того, система характеризуется способностью снижения активности и нейтрализации неблагоприятных частотно-амплитудных характеристик речевого сигнала, а при необходимости осуществить генерирование управляющего сигнала на выдачу предупреждения о целесообразности прерывания и/или на прерывание речевой коммуникации. При этом в структуре системы максимально сохранены все положительные свойства прототипа, в том числе достоверность обнаружения эмоций человека. В конечном итоге, указанный технический результат позволяет улучшить экономические, функциональные и потребительские свойства системы, расширить область ее применения.

Указанный положительный технический результат достигается тем, что система эмоциональной стабилизации речевых коммуникаций, содержащая модуль ввода, распознавания и преобразования речевого сигнала, модуль анализа и накопления частотно-амплитудных характеристик речевого сигнала, модуль распознавания эмоций, электронную базу данных эталонных шаблонов, модуль визуализации, отличается от прототипа тем, что она снабжена модулем дискриминации, соединенным с модулем анализа и модулем визуализации, и модулем психоэмоциональной коррекции, последовательно соединенным с модулем визуализации. Модуль анализа и накопления частотно-амплитудных характеристик речевого сигнала выполнен с возможностью определения временных колебаний высоко/низкочастотных спектров речевого сигнала, а модуль распознавания эмоций выполнен с возможностью определения отклонения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала от эталонных шаблонов до критических значений. Модуль дискриминации выполнен с возможностью генерирования управляющего сигнала на выдачу предупреждения о целесообразности прерывания и/или на прерывание речевой коммуникации в случае значительного превышения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала их критических величин. Модуль психоэмоциональной коррекции выполнен с возможностью воспроизведения релаксирующего музыкального и/или речевого сопровождения или обратной трансляции фрагмента речевой коммуникации.

Оптимальным, с точки зрения достижения указанного технического результата, является использование в модуле ввода в качестве устройства ввода речи телефона или средства громкой связи или конференцсвязи. Дополнительно модуль дискриминации может быть выполнен с возможностью визуализации генерируемого управляющего сигнала посредством модуля визуализации в режиме реального времени. Электронная база данных эталонных шаблонов системы может содержать индивидуальные настройки эталонных шаблонов критических величин упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала и/или ключевые слова. Возможно выполнение системы с возможностью эмоциональной оптимизации речевой коммуникации различных социально-культурологических и профессиональных сред, наречий, диалектов и языков, а также совместного использования с устройствами стационарной и/или мобильной телефонии. Система может быть временно или непрерывно действующей. Во всех исполнениях система при необходимости может быть дополнена соответствующими модулями или программным обеспечением для анализа невербальных сигналов речевых коммуникаций и обеспечивать автоматическую настройку регулируемых параметров в режиме реального времени.

Получение и восприятие информации с выраженной негативной психоэмоциональной окраской (травма, страх, депрессии и др.) может приводить к развитию у личности хронического информационного стресса (IS) и синдрома информационной травмы (SIT). Ситуация усиливается в условиях отсутствия визуального контакта, снижения двигательной активности, вынужденного ограничения выбора стресс-реакций. Произвольное прерывание коммуникации одним из собеседников, как при личной беседе, так и посредством средств коммуникации, часто затруднено вследствие социокультурных аспектов, а также вследствие сложности определения и оценки превышения уровня нестабильных психоэмоциональных реакций. Зарубежные исследования в области нейропсихологии, психолингвистики и психоакустики достоверно показывают, что в состоянии эмоциональной нестабильности или агрессии меняются базовые параметры голоса человека, его частотно-амплитудные характеристики, интенсивность, темп, интонации и др.

Исследования, проведенные в Научно-исследовательском институте инфоэкологии (2003-2008 гг.), подтверждают, что при различного рода психоэмоциональных состояниях практически всегда меняются частота, тембр, интенсивность голосовых параметров. Одним из важнейших показателей являются временные колебания высокочастотного спектра голосовой волны, а также индивидуальные различия периода пауз. Данное исследование основано на анализе совокупности достоверных показателей и их сравнении в условиях различных эмоциональных реакций конкретного человека.

Система эмоциональной стабилизации речевых коммуникаций основана на принципе выделения сигнала из шума, широкополосного спектрального анализа частотно-амплитудных, интонационных голосовых параметров и соотношения фрагментов речевых сигналов в условиях комфортного психоэмоционального состояния и в условиях реакций информационного стресса. Система реализована в виде аппаратного комплекса с компьютерной системой эмоциональной стабилизации и соответствующим математическим программным обеспечением.

Возможно подключение системы к различным средствам мобильной и стационарной связи с внедрением в методики различных программ стабилизации информационного обмена. Система обладает способностью произвольного или самостоятельного изменения критических величин анализируемых параметров, а при значительном превышении параметров, сопровождающихся выраженным риском, возможно временное прекращение коммуникации. В более сложных вариантах исполнения системы предусматривается возможность изменения профиля, путем его индивидуализации, введения ключевых слов, позволяющих оптимизировать психоэмоциональный фон коммуникации.

Использование данной системы целесообразно в условиях межличностных коммуникаций (видеоконференцсвязи, мобильной или стационарной телефонии и т.п.), сопровождающихся высокой степенью риска, вербально-эмоциональной агрессии, как средства раннего предотвращения синдрома информационной травмы и информационного стресса.

Таким образом, все отличительные от прототипа признаки системы эмоциональной стабилизации речевых коммуникаций направлены на получение технического результата, а именно, обеспечение возможности осуществления в режиме реального времени оценки риска информационного стресса у реципиента речевого обмена, снижения активности и нейтрализации неблагоприятных речевых сигналов и улучшения тем самым экономических, функциональных и потребительских свойств, расширения области применения.

Техническое решение, характеризующееся описанной совокупностью существенных признаков, является новым, промышленно применимым и обладает изобретательским уровнем.

Техническое решение иллюстрировано чертежом, где изображена принципиальная схема системы эмоциональной стабилизации речевых коммуникаций.

Система состоит из последовательно соединенных между собой модуля ввода, распознавания и преобразования речевого сигнала 1, модуля анализа и накопления частотно-амплитудных характеристик речевого сигнала 2, модуля распознавания эмоций 3, модуля дискриминации 4, модуля визуализации 5 и модуля психоэмоциональной коррекции 6. При этом модуль распознавания эмоций 3 дополнительно соединен с электронной базой данных эталонных шаблонов 7 и посредством соединения с модулем дискриминации 4, имеет обратную связь с модулем ввода, распознавания и преобразования речевого сигнала 1. Каждый из вышеперечисленных модулей может быть представлен в виде отдельной блок-схемы, реализуемой на основе персонального компьютера.

Система эмоциональной стабилизации речевых коммуникаций функционирует в режиме постоянного мониторинга либо включается по желанию пользователя следующим образом.

На вход модуля 1 поступает, например, с помощью микрофона телефона, или средства громкой связи, или конференцсвязи, речевой сигнал, произносимый человеком в самых различных условиях. Электронный модуль 1 включает фильтр высоко- и низкочастотных модуляций, осуществляет распознавание вводимого сигнала путем фильтрации шума, выделения пауз и преобразует собственно речевой сигнал в формат, пригодный для дальнейшего анализа. Модуль 2, представляющий собой программный комплекс, содержит программатор анализированных параметров и модуль оперативной памяти, производит многофакторную оценку частотно-амплитудных характеристик поступающих фрагментов речевого сигнала путем определения временных колебаний высоко/низкочастотных спектров, их осреднение, классификацию и накопление. Модуль 3, также представляющий собой программный комплекс, производит сравнение частотно-амплитудных характеристик текущего сигнала с соответствующими параметрами базы данных 7 эталонных шаблонов путем определения отклонения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала от эталонных шаблонов вплоть до достижения критических значений. Электронная база данных эталонных шаблонов 7 создается предварительно, включает различные варианты акустических параметров речевых сигналов в условиях тревоги, страха, паники, депрессии, вербальной и невербальной агрессии в виде численных значений критических величин упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала и/или ключевых слов. Упомянутая база данных 7 предполагает индивидуальные настройки эталонных шаблонов, изменение и уточнение параметров речевого сигнала в зависимости от различных наречий, диалектов, языков, социально-культурологической и профессиональной среды, а также ключевых слов по индивидуальным критериям пользователей. База данных 7 представляет собой информационные массивы, передаваемые и хранимые в электронном виде. В результате сравнения выявляется общий психоэмоциональный фон актуального вербального воздействия и, в частности, степень риска возникновения информационного стресса. Модуль дискриминации 4, по существу, представляет собой электронный логический переключатель, который в случае значительного превышения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала их критических величин генерирует управляющий сигнал на выдачу предупреждения о целесообразности прерывания и/или на прерывание речевой коммуникации. Управляющий сигнал временного прерывания передается модулем дискриминации 4 к блоку 1 при значительном превышении параметров, сопровождающихся выраженным риском. Кроме того, к модулю дискриминации 4 подключен модуль визуализации 5, а к тому, в свою очередь, модуль психоэмоциональной коррекции 6 для обеспечения визуализации степени риска возникновения информационного стресса, выдачи рекомендаций по эмоциональной оптимизации речевой коммуникации. Модуль психоэмоциональной коррекции 6 содержит эффекторный модуль и модуль вывода анализируемых данных в графическом и цифровом вариантах (не показано) и предназначен также для осуществления релаксирующего музыкального и речевого сопровождения или обратной трансляции речевого фрагмента.

Описанный выше пример реализации системы эмоциональной стабилизации речевых коммуникаций не является исчерпывающим и приведен только с целью пояснения изобретения и подтверждения его научно-практического использования. Специалисты в данной области могут улучшить его и (или) осуществить альтернативные варианты в пределах сущности данного изобретения, отраженной в его описании.

Класс G10L15/00 Распознавание речи

основанные на языке разметки выбор и использование распознавателей для обработки произнесения - патент 2525440 (10.08.2014)
электронно-вычислительное устройство - патент 2523220 (20.07.2014)

способ обнаружения эмоций по голосу - патент 2510955 (10.04.2014)
способ и система для предоставления речевого интерфейса - патент 2494476 (27.09.2013)
устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования - патент 2493652 (20.09.2013)
архитектура распознавания для генерации азиатских иероглифов - патент 2477518 (10.03.2013)
способ электронного анализа диалога и система для осуществления этого способа - патент 2472219 (10.01.2013)
система и способ распознавания речи - патент 2466468 (10.11.2012)
устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала - патент 2459281 (20.08.2012)
способ обработки речевого сигнала в частотной области - патент 2454735 (27.06.2012)