последовательный мультимодальный ввод

Классы МПК:G10L15/26 речь для текстовых систем
H04M3/487 устройства для обеспечения информационных услуг, например для записи голоса, сообщение времени
Автор(ы):,
Патентообладатель(и):МАЙКРОСОФТ КОРПОРЕЙШН (US)
Приоритеты:
подача заявки:
2004-10-08
публикация патента:

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, более конкретно к последовательному мультимодальному вводу для мобильных или сотовых телефонов. Заявлен способ взаимодействия с архитектурой клиент/сервер с помощью мобильного телефона второго поколения (2G телефона), имеющего канал данных для передачи данных и голосовой канал для передачи речи, причем способ включает в себя прием Web-страницы от Web-сервера от соответствующего приложения через канал данных и воспроизведение этой Web-страницы на 2G телефоне. Речь принимается от пользователя в соответствии с, по меньшей мере, одним полем данных указанной Web-страницы. Вызов устанавливается с 2G телефона на сервер телефонной связи по голосовому каналу. Сервер телефонной связи является удаленным по отношению к 2G телефону и выполнен с возможностью обработки речи. Сервер телефонной связи получает Web-страницу с поддержкой речевых возможностей от Web-сервера в соответствии с Web-страницей, предоставленной 2G телефону. Речь передают от 2G телефона на сервер телефонной связи. Речь обрабатывают в соответствии с упомянутой Web-страницей с поддержкой речевых возможностей для получения текстовых данных, которые передают на Web-сервер. 2G телефон получает новую Web-страницу через канал данных и воспроизводит эту новую Web-страницу, имеющую текстовые данные. Технический результат - обеспечение эффективного речевого взаимодействия, заданного ограниченными способностями 2G телефона. 3 н. и 17 з.п. ф-лы, 9 ил. последовательный мультимодальный ввод, патент № 2355044

последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044 последовательный мультимодальный ввод, патент № 2355044

Формула изобретения

1. Способ взаимодействия с архитектурой клиент/сервер с помощью мобильного телефона второго поколения (2G телефона), имеющего канал данных для передачи данных и голосовой канал для передачи речи, при этом способ включает в себя этапы, на которых:

принимают Web-страницу от Web-сервера от соответствующего приложения через канал данных и воспроизводят эту Web-страницу на 2G телефоне, причем данная Web-страница содержит, по меньшей мере, одно поле данных;

принимают речь от пользователя в соответствии с упомянутым, по меньшей мере, одним полем данных на упомянутой Web-странице;

устанавливают вызов с 2G телефона на сервер телефонной связи по голосовому каналу, при этом сервер телефонной связи является удаленным по отношению к 2G телефону и выполнен с возможностью обработки речи;

получают Web-страницу с поддержкой речевых возможностей посредством сервера телефонной связи от Web-сервера в соответствии с Web-страницей, предоставленной 2G телефону;

передают речь от 2G телефона на сервер телефонной связи;

обрабатывают речь в соответствии с Web-страницей с поддержкой речевых возможностей посредством сервера телефонной связи для получения текстовых данных в соответствии с упомянутой речью, при этом текстовые данные соответствуют упомянутому, по меньшей мере, одному полю данных;

передают эти текстовые данные от сервера телефонной связи на Web-сервер; и

получают новую Web-страницу на 2G телефоне через канал данных и воспроизводят эту новую Web-страницу, содержащую упомянутые текстовые данные, введенные в соответствующее, по меньшей мере, одно поле данных.

2. Способ по п.1, в котором обработка речи включает в себя этап, на котором передают данные, представляющие принятую речь, речевому серверу, являющемуся удаленным по отношению к серверу телефонной связи, причем речевой сервер обрабатывает данные, представляющие принятую речь, для получения текстовых данных, при этом передача текстовых данных Web-серверу включает в себя этап, на котором речевой сервер передает текстовые данные.

3. Способ по п.1, в котором установление вызова с 2G телефона на сервер телефонной связи через голосовой канал включает в себя этап, на котором получают идентификатор, ассоциированный с 2G телефоном.

4. Способ по п.3, в котором получение Web-страницы с поддержкой речевых возможностей от Web-сервера в соответствии с Web-страницей, предоставленной 2G телефону, включает в себя этап, на котором используют идентификатор, ассоциированный с 2G телефоном.

5. Способ по п.4, в котором получение идентификатора включает в себя этап, на котором идентифицируют телефонный номер, соответствующий 2G телефону.

6. Способ по п.1, который дополнительно включает в себя этап, выполняемый перед получением новой Web-страницы от Web-сервера, на котором передают на 2G телефон сообщение о том, что новая страница доступна для получения с Web-сервера.

7. Способ по п.6, в котором передача указанного сообщения включает в себя этап, на котором передают сообщение службы коротких сообщений (SMS).

8. Способ по п.6, в котором передача сообщения включает в себя этап, на котором передают информацию относительно адреса новой Web-страницы.

9. Способ по п.8, в котором передача сообщения включает в себя этап, на котором передают ссылку на унифицированный указатель информационного ресурса (URL).

10. Способ по п.9, в котором передача сообщения включает в себя этап, на котором передают сообщения SMS.

11. Способ по п.6, который дополнительно включает в себя этап, на котором отключают голосовой канал перед тем, как сервер телефонной связи получает новую Web-страницу.

12. Способ по п.2, в котором удаленный речевой сервер приспособлен так, что он может представляться третьей стороной, отличающейся от поставщика упомянутого приложения на Web-сервере.

13. Способ взаимодействия с архитектурой клиент/сервер с помощью мобильного телефона второго поколения (2G телефона), имеющего канал данных для передачи данных и голосовой канал для передачи речи, при этом способ включает в себя этапы, на которых

принимают Web-страницу от Web-сервера от соответствующего приложения через канал данных и воспроизводят эту Web-страницу на 2G телефоне, причем данная Web-страница содержит, по меньшей мере, одно поле данных;

принимают речь от пользователя, причем речь соответствует упомянутому, по меньшей мере, одному полю данных на упомянутой Web-странице;

устанавливают вызов с 2G телефона на сервер телефонной связи через голосовой канал, при этом сервер телефонной связи является удаленным по отношению к 2G телефону и выполнен с возможностью обработки речи;

передают речь от 2G телефона на сервер телефонной связи; и

получают обновленную Web-страницу на 2G телефоне через канал данных и отображают эту обновленную Web-страницу, на которой соответствующее, по меньшей мере, одно поле данных обновлено в соответствии с упомянутой страницей.

14. Способ по п.13, в котором установление вызова с 2G телефона на сервер телефонной связи по голосовому каналу включает в себя этап, на котором отправляют идентификатор, ассоциированный с 2G телефоном.

15. Способ по п.14, в котором отправка идентификатора включает в себя этап, на котором идентифицируют телефонный номер, ассоциированный с 2G телефоном.

16. Способ по п.13, который дополнительно включает в себя этап, выполняемый перед получением новой Web-страницы от Web-сервера, на котором принимают сообщение о том, что новая Web-страница доступна для получения с Web-сервера.

17. Способ по п.16, в котором прием упомянутого сообщения включает в себя этап, на котором принимают сообщение службы коротких сообщений (SMS).

18. Способ по п.16, в котором прием сообщения включает в себя этап, на котором принимают информацию относительно адреса новой Web-страницы.

19. Способ по п.18, в котором прием сообщения включает в себя этап, на котором принимают ссылку на унифицированный указатель информационного ресурса (URL).

20. Способ взаимодействия с архитектурой клиент/сервер с помощью мобильного телефона второго поколения (2G телефона), имеющего канал данных для передачи данных и голосовой канал для передачи речи, при этом способ включает в себя этапы, на которых

передают Web-страницу с Web-сервера от соответствующего приложения через канал данных, пригодный для воспроизведения на 2G телефоне, причем данная Web-страница содержит, по меньшей мере, одно поле данных;

передают Web-страницу с поддержкой речевых возможностей на сервер телефонной связи от Web-сервера в соответствии с Web- страницей, предоставленной 2G телефону;

принимают от сервера телефонной связи текстовые данные, соответствующие распознанной речи для упомянутого, по меньшей мере, одного поля данных; и

передают на 2G телефон по каналу данных обновленную Web-страницу с упомянутыми текстовыми данными, введенными в соответствующее, по меньшей мере, одно поле данных.

Описание изобретения к патенту

Область техники, к которой относится изобретение

Настоящее изобретение имеет отношение к доступу и воспроизведению информации в компьютерных системах. В частности, настоящее изобретение имеет отношение к последовательному мультимодальному вводу в мобильных и сотовых телефонах второго поколения (2G).

Предшествующий уровень техники

Малые вычислительные устройства, такие как персональные информационные администраторы (PIM), устройства и переносные телефоны, используются людьми в своей повседневной деятельности все чаще и чаще. С увеличением вычислительной мощности, доступной сейчас для микропроцессоров, используемых в этих устройствах, функциональные возможности этих устройств увеличиваются, и, в некоторых случаях, объединяются. Например, многие переносные телефоны, в частности 2G телефоны, могут быть использованы сейчас для доступа и навигации (броузинга) по Интернету, а также для хранения персональной информации, телефонных номеров и тому подобное.

В виду того, что эти вычислительные устройства используются для навигации по Интернету или используются в других архитектурах клиент/сервер, необходимо вводить информацию в вычислительное устройство. К сожалению, вследствие требований к этим устройствам быть как можно меньше для простоты ношения, стандартные клавиатуры обычно не могут иметь всех букв алфавита в виде изолированных кнопок из-за ограниченной площади поверхности, доступной на корпусе вычислительных устройств. Таким образом, для навигации в архитектурах клиент/сервер, таких как Интернет, пользователь таких устройств должен управлять ограниченной клавиатурой таким образом, чтобы предоставлять текстовую информацию для заполнения полей для Web-страниц или предоставлять инструкции. Этот способ ввода ограничен пригодностью в Web-ориентированных приложениях, которые функционируют с этими ограничениями, и соответственно навигация в Интернете или в других системах клиент/сервер с использованием таких устройств не может быть в значительной степени успешной.

В последнее время, голосовые порталы, использующие SALT (спецификацию языковых тэгов (неотображаемых элементов разметки документа) для речевых приложений) или VoiceXML (расширяемый язык разметки для речи), позволили осуществлять доступ к клиенту (информационно значимому) содержимому Интернета с использованием только телефона. В таких архитектурах, сервер документов (например, Web-сервер) обрабатывает запросы от клиента через интерпретатор SALT/VoiceXML. Web-сервер может предоставлять в ответе документы SALT/VoiceXML, которые были обработаны интерпретатором SALT/VoiceXML и представлены для пользователя в слышимой форме. Используя речевые команды посредством распознавания речи, пользователь может осуществлять навигацию по Всемирной Паутине (Web). Этот способ навигации в Интернете также ограничен, в частности, когда информация, получаемая от Web-сервера, воспроизводится пользователю, поскольку она должна быть воспроизведена в слышимой форме голосом. Кроме того, без визуального подтверждения результатов распознавания пользователь не может быть уверен в правильности распознавания. Даже если подтверждения в слышимой форме о результатах распознавания могут быть предоставлены, такие подтверждения занимают время и, таким образом, затрудняют стройное или эффективное восприятие пользователем.

Таким образом, имеется насущная потребность совершенствования архитектуры и способов, используемых для доступа к информации в архитектуре «клиент/сервер», и, в частности, для доступа к информации сервера для устройства, такого как 2G телефон.

Сущность изобретения

Предоставляется способ взаимодействия с архитектурой «клиент/сервер» с помощью 2G мобильного телефона. Указанный 2G телефон содержит канал данных для передачи данных, голосовой канал для передачи речи и упрощенный экран для отображения текста или ограниченной графики. Указанный способ включает в себя прием Web-страницы от Web-сервера от соответствующего приложения через канал данных и воспроизведение этой Web-страницы в 2G телефоне. Речь, принимаемая от пользователя, соответствует по меньшей мере одному полю данных в этой Web-странице. С 2G телефона устанавливается вызов на сервер телефонной связи по голосовому каналу. Этот сервер телефонной связи является удаленным по отношению к 2G телефону и выполнен с возможностью обработки речи. Сервер телефонной связи получает Web-страницу с поддержкой речевых возможностей от Web-сервера в соответствии с Web-страницей, предоставленной 2G телефону. Речь передается от 2G телефона на сервер телефонной связи. Речь обрабатывается в соответствии с Web-страницей с поддержкой речевых возможностей для получения текстовых данных. Текстовые данные передаются на Web-сервер. 2G телефон получает новую Web-страницу по каналу данных и обрабатывает эту новую Web-страницу, имеющую текстовые данные.

Как видно из работы 2G телефона в качестве другого аспекта настоящего изобретения, указанный способ включает в себя прием Web-страницы от Web-сервера от соответствующего приложения через канал данных и воспроизведение этой страницы в 2G телефоне. Речь, принимаемая от пользователя, соответствует по меньшей мере одному полю данных в указанной Web-странице. Вызов осуществляется с 2G телефона на сервер телефонной связи через голосовой канал, при этом этот сервер телефонный связи является удаленным по отношению к 2G телефону и выполнен с возможностью обработки речи. Речь передается от 2G телефона на сервер телефонной связи. Новая Web-страница получается на 2G телефоне через канал данных и воспроизводится, имея текстовые данные в соответствии с речью.

Перечень чертежей

Фиг.1 - вид в плане операционной среды вычислительного устройства.

Фиг.2 - блок-схема вычислительного устройства по фиг.1.

Фиг.3 - вид в плане переносного 2G телефона.

Фиг.4 - блок-схема компьютера общего назначения.

Фиг.5 - блок-схема архитектуры для системы «клиент/сервер».

Фиг.6 - блок-схема, иллюстрирующая соединение между компонентами архитектуры по фиг.5, для предоставления последовательного мультимодального взаимодействия.

Фиг. 7А и 7Б вместе представляют блок-схему последовательности операций, показывающую иллюстративный способ обеспечения последовательного мультимодального взаимодействия.

Фиг.8 - графическое представление иллюстративных полей текста, отображаемых в 2G телефоне.

Фиг.9 - графическое представление иллюстративных полей текста с результатами распознавания, отображаемыми в 2G телефоне.

Подробное описание иллюстративных вариантов осуществления

Одним из аспектов настоящего изобретения является способ обеспечения мультимодального ввода с использованием распознавания речи, реализованный для телефона второго поколения (2G). Как используется в настоящем описании и как общеизвестно, 2G телефон выполнен с возможностью осуществления голосовых вызовов по голосовому каналу, но дополнительно включает в себя схемы, выполненные с возможностью отправки и приема цифровых данных через отдельный канал данных. Используя клавиатуру телефона, пользователь имеет возможность осуществлять навигацию по Web-сайту в архитектуре клиент/сервер и получать информацию, отправляя и принимая текстовые данные. Эти данные отображаются на малом дисплее. Один из аспектов настоящего изобретения позволяет пользователю представить речь как форму ввода в телефон, минуя таким образом обременительную задачу ввода эквивалентного текста.

На Фиг.5 показана архитектура 200 для Web-ориентированного распознавания речи, которое может быть использовано в настоящем изобретении. В общем, к информации, хранящейся на Web-сервере 202, можно осуществить доступ через мобильное устройство 30 (которое здесь также представляет и другие формы вычислительных устройств, имеющих экран для отображения и микрофон для ввода звукового сигнала) или через простой телефон 80, в котором информация запрашивается голосом или через тональные сигналы, генерируемые телефоном 80 в качестве ответа на нажатые кнопки, и в котором информация от Web-сервера 202 предоставляется обратно пользователю только в слышимой форме, или через 2G телефон 81, в котором информация также может быть получена от Web-сервера 202 и предоставлена в виде Web-страниц, например в виде страниц WML (языка разметки для беспроводных систем) или XHTML (расширенного гипертекстового языка разметки), переданных через WAP (прикладной протокол для беспроводных систем). Как изложено выше, при наличии ограниченных возможностей клавиатуры, архитектура 200, примененная в настоящем изобретении, позволяет использовать 2G телефон 81 с распознаванием речи для улучшения удобства его использования, при этом дополнительно достигается преимущество в плане возможностей визуального воспроизведения 2G телефона для отображения результатов распознавания.

Наиболее важно, однако, что архитектура 200 унифицирована в том, что независимо от того получается ли информация через устройство 30, простой телефон 80 или через 2G телефон 81, используя распознавание речи, один речевой сервер 204 может поддерживать каждый режим функционирования. В дополнение, архитектура 200 функционирует, используя расширения широко известных языков разметки, таких как HTML (гипертекстовый язык разметки), XHTML, cHTML (компактный HTML), XML (расширяемый язык разметки), WML и им подобные. Таким образом, к информации, хранящейся на Web-сервере 200, можно также осуществить доступ с использованием хорошо известных методов GUI (графического пользовательского интерфейса), имеющихся в этих языках разметки. С использованием расширений широко известных языков разметки авторская разработка на Web-сервере 202 осуществляется проще и уже существующие унаследованные приложения могут быть легко модифицированы для включения распознавания речи.

Перед дальнейшим описанием архитектуры 200 Web-ориентированного распознавания речи, в частности способа реализации Web-ориентированного распознавания речи для 2G телефона 81, может быть полезным описать в общих чертах другие вычислительные устройства, которые могут функционировать в архитектуре 200.

Как показано на Фиг.1, иллюстративная форма устройства управления данными (PIM), PDA (персональное цифровое информационное устройство или им подобные) показана под номером 30. Это мобильное устройство 30 включает в себя корпус 32 и имеет пользовательский интерфейс, включающий в себя дисплей 34, который использует чувствительный к прикосновению экран дисплея в сочетании с пишущим элементом (пером) 33. Пишущий элемент 33 используется для нажатия или прикосновения к дисплею 34 в назначенных координатах для выделения поля, для выборочного перемещения начальной позиции курсора или для предоставления другой управляющей информации. В качестве альтернативы, или в дополнение, одна или несколько кнопок 35 могут быть включены в устройство 30 для навигации. В дополнение могут быть предоставлены и другие средства ввода, такие как вращающиеся колесики, ролики или им подобные.

Как показано на Фиг.2, блок-схема иллюстрирует функциональные компоненты, включенные в мобильное устройство 30. Центральный процессор (CPU) 50 реализует программные функции управления. CPU 50 подсоединен к дисплею 34, поэтому текст и графические изображения, генерируемые в соответствии с управляющим программным обеспечением, появляются на дисплее 34. Громкоговоритель 43 может быть подсоединен к CPU 50, обычно через цифроаналоговый преобразователь 59, для обеспечения вывода в слышимой форме. Данные, которые загружены или введены пользователем в мобильное устройство 30, помещаются в энергонезависимое запоминающее устройство 54 с произвольным доступом для чтения и записи, двунаправленно подсоединенное к этому CPU 50.

RAM (память с произвольным доступом) 54 предоставляет энергозависимое хранилище для инструкций, исполняемых CPU 50, и хранилище для временных данных, таких как значения регистров. Значения по умолчанию для параметров конфигурации и другие переменные помещены в ROM (память только для чтения) 58. ROM 58 также может быть использована для хранения программного обеспечения операционной системы для устройства, выполняющего управление основными функциональными возможностями мобильного устройства 30, и для других функций ядра операционной системы (например, загрузка компонентов операционной системы в RAM 54). RAM 54 также служит хранилищем для кода, по аналогии с функциями жесткого диска в персональных компьютерах, который используется для хранения прикладных программ.

Сигналы беспроводной связи могут быть переданы/приняты этим мобильным устройством через приемопередатчик 52 беспроводной связи, который подсоединен к CPU 50. Необязательный коммуникационный интерфейс 60 может быть также предоставлен для загрузки данных непосредственно из компьютера (например, настольного компьютера), или из проводной сети, по желанию. Соответственно, интерфейс 60 может заключать в себе разнообразные формы устройств связи, например инфракрасное соединение, модем, сетевую карту или им подобные.

Мобильное устройство 30 включает в себя микрофон 29 и аналого-цифровой преобразователь (АЦП) 37 и, в необязательном порядке, программу распознавания речи, помещенную в хранилище 54. В ответ на голосовую информацию, инструкции или команды пользователя устройства 30, микрофон 29 предоставляет речевые сигналы, которые оцифровываются АЦП 37. Программа распознавания речи может выполнять нормализацию и/или выполнять функции выделения признаков оцифрованного речевого сигнала для получения промежуточных результатов распознавания речи. Используя приемопередатчик 52 беспроводной связи или коммуникационный интерфейс 60, речевые данные передаются на удаленный речевой сервер 204, описанный ниже и архитектура которого показана на Фиг.5. Результаты распознавания затем возвращаются этому мобильному устройству 30 для воспроизведения (например, визуального или голосового) на нем и окончательной передачи Web-серверу 202 (Фиг.5), причем Web-сервер 202 и мобильное устройство 30 функционируют с использованием отношения клиент/сервер.

Фиг.3 является видом сверху иллюстративного варианта осуществления 2G телефона 81. Телефон 81 включает в себя дисплей 82 и клавиатуру 84. Обычно телефон 81 включает в себя схемы для выполнения голосовых вызовов через голосовой канал, графически обозначенный позицией 87, так же как отправки и приема цифровых данных через канал данных, графически обозначенный позицией 85. 2G телефоны такого типа выпускаются большинством производителей и работают в соответствии с хорошо проработанными стандартами и протоколами. Специфические подробности относительно функционирования этой схемы не обязательны для понимания настоящего изобретения.

В дополнение к переносным или мобильным вычислительным устройствам, описанным выше, должно быть понятно, что настоящее изобретение может быть использовано с большим числом других вычислительных устройств, таких как обычный настольный компьютер. Например, архитектура 200 позволит пользователю с ограниченными физическими возможностями вводить текст в компьютер или в другое вычислительное устройство, в то время как использование им обычных устройств ввода, таких как полная алфавитно-цифровая клавиатура, сильно затруднено.

Нижеизложенное является кратким описанием компьютера общего назначения 120, изображенного на Фиг.4. Однако компьютер 120, опять таки, только один пример подходящей вычислительной среды и не подразумевает наложения каких-либо ограничений на возможности использования или на функциональность изобретения. Также компьютер 120 не должен быть интерпретирован как имеющий какие-либо зависимости или требования относительно любого одного компонента или их комбинации, здесь отображенных. В дополнение, этот персональный компьютер 120 может предоставить удобные операционные среды для других компонентов архитектуры 200, таких как, но не в ограничительном смысле, Web-сервер 202, речевой сервер 204 и телефонный голосовой браузер 212.

Это изобретение может быть описано в общем контексте машинно-исполняемых инструкций, таких как программные модули, исполняемые компьютером. Обычно программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют определенные абстрактные типы данных. Изобретение может быть осуществлено в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые соединены через сеть связи. В распределенной вычислительной среде, программные модули могут быть расположены и на локальных, и на удаленных компьютерных средствах хранения, включая запоминающие устройства. Задачи, выполняемые программами и модулями, описаны ниже с помощью рисунков. Специалисты в данной области техники могут реализовать описание и рисунки как инструкции, исполняемые процессором, которые могут быть записаны в любой форме на машиночитаемых носителях.

Со ссылкой на Фиг.4, компоненты компьютера 120 могут включать в себя, но не в ограничительном смысле, процессор 140, системную память 150 и системную шину 141, которая соединяет различные системные компоненты, включая системную память с процессором 140. Системной шиной может быть любая из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, с использованием любой из множества шинных архитектур. В качестве примера, но не в качестве ограничения, такие архитектуры включают в себя шину ISA (шина индустриальной стандартной архитектуры), шину USB (универсальная последовательная шина), шину MCA (шина микроканальной архитектуры), шину EISA (расширенная ISA шина), шину VESA (локальная шина Ассоциации Стандартов Видео Электроники) и шину PCI (шина межсоединения периферийных компонентов), также известную как мезонинная шина. Компьютер 120 обычно включает в себя разнообразные машиночитаемые носители. Машиночитаемые носители могут быть любыми доступными носителями, к которым компьютер 120 может осуществить доступ, и включают в себя энергонезависимые и энергозависимые носители, съемные и несъемные носители. В качестве примера, но не в качестве ограничения, машиночитаемые носители могут включать компьютерные запоминающие носители или среды передачи. Компьютерные запоминающие носители включают в себя как энергозависимые, так и энергонезависимые, как съемные, так и несъемные носители, реализованные с использованием любого способа или технологии хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Компьютерные носители для хранения включают в себя, но не в ограничительном смысле, RAM, ROM, EEPROM (электрически стираемое перепрограммируемое ПЗУ), флэш-память или память другой технологии, компакт-диск (CD-ROM), цифровой многоцелевой диск (DVD) или другое оптическое дисковое хранилище, магнитные кассеты, магнитная лента, магнитное дисковое хранилище или другое магнитное устройство хранения, или любой другой носитель, который может быть использован для хранения нужной информации и к которому компьютер 120 может осуществить доступ.

Среды передачи, как правило, воплощают машиночитаемые инструкции, структуры данных, программные модули или другие данные в виде модулированного информационного сигнала, такого как несущая или другой транспортный механизм, и включают любую среду доставки информации. Термин "модулированный информационный сигнал" означает сигнал, одна или более своих характеристик которого установлены или изменены таким образом, чтобы закодировать информацию в этот сигнал. В качестве примера, но не в качестве ограничения, среды передачи включают в себя проводные среды, такие как проводная сеть, или непосредственное проводное подключение, и беспроводные среды, такие как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Комбинация из любых вышеперечисленных сред и носителей также должна охватываться понятием «машиночитаемый носитель».

Системная память 150 включает в себя компьютерные носители данных в форме энергонезависимой и/или энергозависимой памяти, таких как RAM 151 или ROM 152. BIOS (основная система ввода/вывода), содержащая основные процедуры, которые помогают передавать информацию между элементами внутри компьютера 120, например, при запуске, обычно записывается в ROM 151. RAM 152 обычно содержит данные и/или программные модули, которые оперативно доступны и/или могут непосредственно обрабатываются процессором 140. В качестве примера, но не в качестве ограничения, Фиг.4 изображает операционную систему 54, прикладные программы 155, другие программные модули 156 и данные 157 программ.

Компьютер 120 может также включать в себя другие съемные/несъемные энергонезависимые/энергозависимые компьютерные носители данных. В качестве примера и только, Фиг.4 изображает накопитель 161 на жестких дисках, который читает с несъемного энергонезависимого магнитного носителя или записывает на него, дисковод 171 для магнитного диска, который читает со съемного энергонезависимого магнитного диска 172 или записывает на него, и дисковод 175 для оптического диска, который читает со съемного энергонезависимого оптического диска 176, такого как CD-ROM или другой оптический носитель, или записывает на него. Другие съемные/несъемные, энергонезависимые/энергозависимые компьютерные носители данных, которые могут быть использованы в конкретной операционной среде, включают в себя, но не в ограничительном смысле, кассеты с магнитной лентой, карты флэш-памяти, цифровые многоцелевые диски, цифровые видеоленты, твердотельные оперативные запоминающие устройства, твердотельные постоянные запоминающие устройства и им подобные. Накопитель 161 на жестких дисках обычно подсоединен к системной шине 141 через интерфейс несъемной памяти, такой как интерфейс 160, дисковод 171 для магнитного диска и дисковод 175 для оптического диска обычно подсоединены к системной шине 141 с помощью интерфейса съемной памяти, такого как интерфейс 170. Накопители и дисководы и связанные с ними компьютерные носители данных, обсуждаемые выше и изображенные на Фиг.4, предоставляют хранение машиночитаемых инструкций, структур данных, программных модулей и других данных для компьютера 120. На Фиг.4, например, накопитель 161 на жестких дисках изображен как хранящий операционную систему 164, прикладные программы 165, другие программные модули 166 и данные 167 программ. Нужно отметить, что эти компоненты могут быть такими же или отличаться от операционной системы 154, прикладных программ 155, других программных модулей 156 и данных 157 программ. Операционной системе 164, прикладным программам 165, другим программным модулям 166 и данным 167 программ присвоены здесь другие номера для иллюстрации того, что они являются, как минимум, другими копиями.

Пользователь может вводить команды и информацию в компьютер 120 через устройства ввода, такие как клавиатура 182, микрофон 183, координатно-указательное устройство, такое как мышь, шаровой манипулятор и сенсорный планшет. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровой планшет, спутниковую антенну, сканер и тому подобное. Эти и другие устройства обычно подключены к процессору 140 через интерфейс 180 пользовательского ввода, который подсоединен к системной шине, но могут быть подключены посредством других структур интерфейсов и шин, таких как параллельный порт, игровой порт или USB. Монитор 184 или устройство отображения другого типа также подсоединены к системной шине 141 посредством такого интерфейса, как видеоинтерфейс 185. В дополнение к монитору, компьютеры могут также включать в себя другие периферийные устройства вывода, такие как громкоговорители 187 и принтер 186, которые могут быть подсоединены через периферийный интерфейс 188 вывода.

Компьютер 120 может работать в сетевой среде с использованием логических соединений с одним или более удаленными компьютерами, такими как удаленный компьютер 194. Этот удаленный компьютер 194 может быть персональным компьютером, портативным устройством, сервером, маршрутизатором, сетевым персональным компьютером, одноранговым устройством или другим общим сетевым узлом, и, обычно, включает в себя многие или все элементы, описанные выше в отношении компьютера 120. Логические соединения, изображенные на Фиг.4, включают в себя LAN (локальную сеть) 191 и WAN (глобальную сеть) 193, но могут также включать и другие сети. Такие сетевые среды - обычное явление в офисах, компьютерных сетях предприятий, внутренних сетях (интрасетях) и Интернете.

При использовании в сетевых средах LAN компьютер 120 подсоединен к локальной сети через сетевой интерфейс или адаптер 190. При использовании в сетевых средах WAN, компьютер 120 обычно включает в себя модем 192 или другие средства для установления связи через WAN 193, такую как Интернет. Модем 192, который может быть внутренним или внешним, может быть подсоединен к системной шине 141 через интерфейс 180 пользовательского ввода или другое подходящее средство. В сетевых средах программные модули, изображенные относительно компьютера 120, или их комбинации, могут храниться на удаленных устройствах хранения. В качестве примера, но не как ограничение, Фиг.4 изображает удаленные прикладные программы 195 размещенными на удаленном компьютере 194. Понятно, что эти сетевые соединения показаны в качестве примера и что могут использоваться и другие способы для установления линии связи между компьютерами.

Фиг.5 изображает архитектуру 200 для Web-ориентированного распознавания речи, как она может быть использована в настоящем изобретении. Как сказано выше, к информации, хранящейся на Web-сервере 202, можно осуществить доступ через мобильное устройство 30, простой телефон 80 и 2G телефон 81. Архитектура 200 и используемый в ней язык разметки далее описаны в опубликованной патентной заявке США US 2002-0169806 A1 (14 ноября, 2002), которая включена в настоящее описание посредством ссылки во всей своей полноте.

В целом, начиная с устройства 30, устройство 30 исполняет скрипты (программы на макроязыке) HTML или им подобное, предоставляемые Web-сервером 202. Когда требуется распознавание речи, речевые данные, которые могут быть оцифрованными аудиосигналами или признаками речи, при этом эти аудиосигналы предварительно обработаны устройством 30 как описано выше, предоставляются речевому серверу 204 с указанием грамматической или лингвистической модели, подлежащей использованию в ходе распознавания речи. Реализация речевого сервера 204 хотя и может быть выполнена в разных формах, одна из которых показана, но обычно включает в себя распознаватель (средство распознавания) 211 речи. Результаты распознавания речи предоставляются обратно устройству 30 для локального воспроизведения, если потребуется или необходимо. После компиляции информации с использованием распознавания речи и, если используется, какого-либо графического пользовательского интерфейса, устройство 30 посылает информацию Web-серверу 202 для дальнейшей обработки и получения последующих скриптов HTML, если необходимо.

Как показано на Фиг.5, устройство 30, 2G телефон 81, Web-сервер 202, телефонный голосовой браузер 212 и речевой сервер 204 все вместе подсоединены к сети 205 и раздельно адресуются в сети 205, в данном случае WAN, такой как Интернет. Поэтому нет необходимости, чтобы любое из этих устройств было физически расположено одно рядом с другим. В частности, нет необходимости, чтобы Web-сервер 202 включал в себя речевой сервер 204. Таким образом, авторская разработка на Web-сервере 202 может быть сосредоточена на приложении, на которое она ориентирована, при этом авторам нет необходимости знать об устройстве речевого сервера 204. Также речевой сервер 204 может быть независимо спроектирован и подсоединен к сети 205 и поэтому может обновляться и усовершенствоваться без необходимости дальнейших изменений Web-сервера 202. В дополнение, речевой сервер 204 может обслуживать много клиентских устройств 30, телефонов 80 и 81 и/или Web-серверов 204.

В еще одном варианте осуществления, Web-сервер 202, речевой сервер 204 и клиент 30 могут быть скомбинированы в зависимости от возможностей реализующих их машин. Например, если клиент включает в себя компьютер общего назначения, такой как персональный компьютер, этот клиент может включать в себя и речевой сервер 204. Также, если необходимо, Web-сервер 202 и речевой сервер 204 могут быть размещены на одной машине.

Что касается клиентского устройства 30, способ выполнения распознавания речи в системах клиент/сервер включает в себя прием от сервера 202 страницы на языке разметки, имеющей расширения, сконфигурированные для получения речевых данных от пользователя клиентского устройства; исполнение страницы на языке разметки на клиентском устройстве; передачу речевых данных (представляющих речь, полученную от пользователя) и ассоциированной грамматики речевому серверу от удаленного клиента; и прием результатов распознавания от речевого сервера на клиенте. Могут быть предоставлены машиночитаемые носители, имеющие язык разметки для выполнения на клиентском устройстве в системе клиент/сервер, при этом язык разметки имеет инструкцию, обозначающую грамматику для ассоциирования с речью, вводимой через клиентское устройство.

Доступ к Web-серверу 202 через телефон 80 включает в себя подсоединение телефона 80 к проводной или беспроводной телефонной сети 208, которая, в свою очередь, подсоединяет телефон 80 к шлюзу третьей стороны 210. Шлюз 210 соединяет телефон 80 с телефонным голосовым браузером 212. Телефонный голосовой браузер 212 включает в себя мультимедийный сервер 214, который предоставляет интерфейс телефонной связи и голосовой браузер 216. Подобно устройству 30, телефонный голосовой браузер 212 принимает скрипты HTML или им подобное от Web-сервера 202. Более важно, однако, что эти скрипты HTML имеют форму, аналогичную форме скриптов HTML, предоставляемых устройству 30. Таким образом, Web-серверу 202 нет необходимости поддерживать устройство 30 и телефон 80 раздельно или даже раздельно поддерживать стандартных GUI-клиентов. Напротив, можно использовать общий язык разметки. В дополнение, подобно устройству 30, речь для распознавания из передаваемых телефоном 80 аудиосигналов предоставляется от голосового браузера 216 речевому серверу 204 либо через сеть 205, либо через выделенную линию 207, например, с использованием TCP/IP (протокол управления передачей/межсетевой протокол). Результаты распознавания и другая информация воспроизводятся пользователю в слышимой форме через телефонный голосовой браузер или через телефон 80.

Как показано выше, язык разметки, такой как HTML, XHTML, cHTML, XML, WML или с любой другой разметкой, основанной на SGML (стандартном обобщенном языке разметки), может включать в себя средства управления и/или объекты, которые обеспечивают распознавание речи в архитектуре клиент/сервер. Таким образом, пользователь может использовать все инструментальные средства и навыки в этих языках разметки, которые являются преобладающей платформой для Web-разработки, используемой в таких архитектурах.

Обычно средства управления и/или объекты могут включать в себя одну или более следующих функций: средства управления и/или объекты распознавателя для конфигурирования распознавателя, исполнение и/или окончательная обработка распознавателя; средства управления и/или объекты синтезатора для конфигурирования синтезатора и проигрывания приглашения; средства управления и/или объекты грамматики для задания входных грамматических ресурсов; и/или связывающие средства управления и/или объекты для обработки результатов распознавания. Упомянутые расширения разработаны как облегченный слой разметки, который добавляет средства речевого интерфейса к существующим языкам разметки. Так, упомянутые расширения могут оставаться независимыми от: высокоуровневой страницы, в которой они содержатся, например HTML; низкоуровневых форматов, которые расширения используют для связи с лингвистическими ресурсами, например форматы преобразования текста в речь и грамматические форматы; и отдельные параметры распознавания и платформ синтеза речи, используемых в речевом сервере 204.

Необходимо отметить, что настоящее изобретение может быть воплощено с использованием расширения языков разметки, такого как SALT. SALT является стандартом разработки для обеспечения возможности доступа к информации, приложениям и Web-услугам с персональных компьютеров, телефонов, карманных ПК и мобильных устройств беспроводной связи. SALT расширяет существующие языки разметки, такие как HTML, XHTML и XML. Спецификация SALT 1.0 доступна в интерактивном режиме по адресу http://www.SALTforum.org.

Мультимодальное взаимодействие предоставляется через 2G телефон 81 с помощью архитектуры 200, описанной выше. Вообще, мультимодальное взаимодействие позволяет осуществить доступ к информации Web-сервера 202 естественными путем, основывающемся на требованиях пользователя. В частности, вместо того, чтобы быть ограниченным в предоставлении команд в текстовом виде путем манипулирования клавиатурой и в приеме результатов в виде визуально отображаемого текста, пользователь может выбрать предоставление речи в качестве носителя входной информации и прием результатов визуальным образом или в виде синтезированной речи, если требуется.

Однако для таких устройств, как 2G телефон 81, с ограниченной вычислительной мощностью и дополнительным широко известным требованием в отношении того, что несмотря на то, что канал данных для подсоединения к сети, такой как Интернет, доступен и отдельный голосовой канал для осуществления вызовов также доступен, к этим двум каналам нельзя осуществлять доступ одновременно. Как результат, мультимодальные взаимодействия, для которых необходимы канал данных и голосовой канал, должны выполняться последовательно, что известно как последовательная мультимодальность. Тем не менее, архитектура 200, описанная выше, и способ, описанный ниже, могут быть использованы для предоставления последовательного мультимодального взаимодействия с Web-сервером 202. Интеграция 2G телефона 81 в упомянутую архитектуру является конкретным преимуществом, потому что доступ к Web-серверу 202 совместим с другими устройствами, такими как устройство 30 или телефон 80, так что Web-сервер 202 и приложения, исполняющиеся на нем, не требуют радикального изменения для поддержки 2G телефона 81 в дополнение к устройству 30 и телефону 80. Таким образом, разработчик приложения не обременен предоставлением отдельных приложений для того, чтобы поддерживать каждое из этих устройств, которые могут осуществлять доступ к информации, но может предоставить более унифицированный код, который может поддерживать много различных устройств с разнообразными возможностями.

Фиг.6 изображает последовательный мультимодальный сценарий, применимый для 2G телефона 81, где результаты распознавания речи представлены в текстовой форме с использованием страниц WML/XHTML через WAP.

Прикладной протокол для беспроводных систем (WAP) является открытой, широко известной спецификацией, которая дает возможность пользователям осуществлять доступ к информации через мобильные телефоны и отображать контент и простую графику на дисплее 82 этих мобильных телефонов. WAP лишен возможности взаимодействовать с голосом, и его функции ввода в основном ограничены двенадцатью кнопками, имеющимися у большинства мобильных телефонов.

Как известно, 2G телефон 81 также поддерживает SMS (служба коротких сообщений), которая является широко известной глобально распространенной услугой мобильной связи, которая дает возможность передавать алфавитно-цифровые сообщения на устройства беспроводной связи. Фиг. 7А и 7Б изображают отдельные этапы способа 300 для выполнения последовательного мультимодального распознавания речи с использованием 2G телефона 81.

На изображенном примере, предположим, что изначально делается запрос, показанный стрелкой 302 на Фиг.6, Web-серверу 202 на осуществление доступа к приложению, предназначенному для организации полета самолета, что обозначено этапом 304.

На этапе 306, Web-сервер 202 предоставляет 2G телефону 81 страницу (стрелка 307), которая в этом иллюстративном варианте осуществления включает в себя текстовое поле, или другую индикацию для поля ввода данных, для города вылета, и точно так же в виде текстового поля, или другой индикации для поля ввода данных, для штата вылета. Эти поля графически изображены на Фиг.8 под номерами 308 и 310. Передача Web-страницы от Web-сервера на 2G телефон происходит через беспроводной канал данных WAP/SMS 85.

В обычном 2G телефоне пользователь имел бы вариант ввода текста в каждое поле текста или поле данных 308 и 310. Однако при использовании 2G телефона пользователь обычно ограничен двенадцатью кнопками на клавиатуре 84, которыми он должен манипулировать для ввода каждого из общих алфавитно-цифровых символов.

В настоящем изобретении пользователь имеет возможность предоставлять речевой ввод в соответствии с каждым из полей данных 308 и 310, минуя таким образом громоздкие манипуляции с ограниченной клавиатурой 84.

На этапе 312, пользователь предоставляет указание о том, что дальше будет осуществляться речевой ввод. Указание может принимать форму нажатия одной из кнопок на клавиатуре 84 или нажатия специальной кнопки 89 на 2G телефоне 81. Тем не менее, другие формы указания могут включать в себя выбранную голосовую команду, которая может быть обработана и распознана локально на 2G телефоне 81.

На этапе 314, 2G телефон 81 инициирует голосовой вызов на телефонный голосовой браузер 212, который показан стрелкой 316 на Фиг.6. После установления соединения с телефонным голосовым браузером 212 на этапе 318, телефонный голосовой браузер 212 запрашивает Web-страницу с поддержкой речевых возможностей, имеющую тэги, ассоциированные с распознаванием речи, у Web-сервера 202 в соответствии с Web-страницей, предварительно переданной на этапе 306. Это показано стрелкой 320. В одном из вариантов осуществления, корректная Web-страница, предоставляемая телефонному голосовому браузеру 212 на этапе 321, как показано стрелкой 323, выбирается Web-сервером 202 по телефонному номеру или другому символьному идентификатору, ассоциированному со страницей, находящейся в текущий момент на 2G телефоне 81. Web-сервер 202 таким образом, через телефонный номер или другой идентификатор, может поддерживать правильную ассоциативную связь страниц, передаваемых по каналу данных 85 непосредственно на 2G телефон 81, а также этих страниц, передаваемых между Web-сервером 202 и телефонным голосовым браузером 212. Страница или страницы, переданные от Web-сервера 202 на телефонный голосовой браузер 212, содержат всю необходимую грамматику или ее указания для распознавания речи поля/полей данных, переданных на 2G телефон 81 для Web-страницы по этапу 306.

Если телефонный голосовой браузер 212 выполнен с возможностью приема речи от пользователя через голосовой канал 87, то пользователь предоставляет речь для поля или полей на этапе 324. Необходимо отметить, что в одном из вариантов осуществления подходящее приглашение, такое как тоновая или голосовая команда, может быть предоставлено пользователю телефонным голосовым браузером 212 или телефоном 81 для приглашения пользователя начать говорить. Телефонный голосовой браузер 212 может инициировать это приглашение после приема соответствующей Web-страницы с поддержкой речевых возможностей от Web-сервера 202. Однако, в другом варианте осуществления, телефонный голосовой браузер 212 может предоставить это приглашение до приема Web-страницы с поддержкой речевых возможностей и временно сохранять принятую речь в подходящем буфере или другом запоминающем устройстве, с тем чтобы минимизировать время с момента, когда пользователь указал, что будет передаваться речь на этапе 312 до момента, когда речь фактически предоставлена на этапе 324.

Введенная речь обрабатывается с использованием речевого сервера 204 точно так же, как в общем описано выше относительно операций с телефоном 80. В частности, телефонный голосовой браузер 212 предоставляет введенную речь речевому серверу 204 на этапе 326, как показано стрелкой 328. Речевой сервер 204 производит распознавание, результаты которого передаются обратно на Web-сервер 202 на этапе 330, как показано стрелкой 332 на Фиг.6.

Web-сервер 202 принимает результаты распознавания в соответствии с номером телефона или другим идентификатором, ассоциированным с этим 2G телефоном 81. На этапе 340 Web-сервер 202 передает SMS-сообщение на 2G телефон 81, используя канал данных 85, который показан стрелкой 342 на Фиг.6. Несмотря на то, что SMS-сообщение могло бы содержать результаты распознавания, в еще одном варианте осуществления SMS-сообщение может являться адресом для Web-страницы, например ссылкой на URL (унифицированный указатель информационного ресурса). После приема SMS-сообщения, пользователь может непосредственно, либо пользовательский агент может опосредованно использовать канал данных на этапе 344 для получения обновленной Web-страницы, содержащей результаты распознавания, как показано стрелкой 346, что прерывает голосовой вызов на телефонный голосовой браузер 212. В другом варианте осуществления, отключение голосового канала может быть осуществлено сервером телефонной связи после сбора всей необходимой информации со страниц голосового браузера.

На этапе 348 Web-сервер 202 затем предоставляет новую страницу для 2G телефона 81, содержащую результаты распознавания, как показано стрелкой 350. Фиг.9 изображает текстовые поля 308 и 310, где результаты распознавания речи добавлены на основании речевых входных данных, предоставленных пользователем.

Вышеприведенное описание является иллюстрацией последовательного мультимодального функционирования, обеспечивающего речевой ввод для 2G телефона. Архитектура, изображенная на Фиг.5, допускает повторяющиеся операции способа, показанного на Фиг. 7А и 7Б, для обеспечения речевого ввода для других полей, ассоциированных с этой Web-страницей, или полей, ассоциированных с другими Web-страницами, для обеспечения эффективного речевого взаимодействия при наличии ограниченных возможностей 2G телефона 81.

Несмотря на то, что настоящее изобретение было описано со ссылками на конкретные варианты осуществления, специалистам в данной области техники должно быть понятно, что изменения в форме и деталях могут быть сделаны без отхода от сущности и объема данного изобретения.

Класс G10L15/26 речь для текстовых систем

способ и система для предоставления речевого интерфейса -  патент 2494476 (27.09.2013)
способ ввода текста -  патент 2377664 (27.12.2009)
последовательный мультимодальный ввод -  патент 2355045 (10.05.2009)
система запросов на естественном языке для доступа к информационной системе -  патент 2269164 (27.01.2006)
автоматическое распознавание речи -  патент 2216052 (10.11.2003)

Класс H04M3/487 устройства для обеспечения информационных услуг, например для записи голоса, сообщение времени

Наверх