последовательный мультимодальный ввод
Классы МПК: | G10L15/26 речь для текстовых систем H04M3/487 устройства для обеспечения информационных услуг, например для записи голоса, сообщение времени |
Автор(ы): | ХОН Хсиао-Вуен (US), ВАНГ Куансан (US) |
Патентообладатель(и): | МАЙКРОСОФТ КОРПОРЕЙШН (US) |
Приоритеты: |
подача заявки:
2004-10-11 публикация патента:
10.05.2009 |
Изобретение относится к доступу и воспроизведению информации в компьютерной системе, более конкретно, к последовательному мультимодальному вводу для мобильных или сотовых телефонов. Сущность способа взаимодействия с архитектурой клиент/сервер, имеющей 2.5G мобильный телефон, имеющий канал данных для передачи данных и речевой канал для передачи речи, заключается в том, что он включает в себя прием Веб-страницы от Веб-сервера, соответствующего приложению, по каналу данных и воспроизведение Веб-страницы на 2.5G-телефоне, причем воспроизведение содержит обработку Веб-страницы в ответ на речевой ввод. Речь, принятая от пользователя, соответствует по меньшей мере одному полю данных на Веб-странице. Вызов устанавливают из 2.5G-телефона к серверу телефонной связи по речевому каналу. Сервер телефонной связи является удаленным от 2.5G-телефона и приспособлен для обработки речи. Веб-страницу с разрешением использования речи получают от Веб-сервера, соответствующую Веб-странице, выданной к 2.5G-телефону. Речь передают от 2.5G-телефона на сервер телефонной связи. Речь обрабатывают в соответствии с Веб-страницей с разрешенной речью для получения текстовых данных в соответствии с речью. Текстовые данные передаются на Веб-сервер. Новую Веб-страницу получают на 2.5G-телефоне по каналу данных и воспроизводят как имеющую текстовые данные. Технический результат - обеспечение речевого ввода для полей, связанных с Веб-страницей, для эффективного речевого взаимодействия, заданного ограниченными способностями 2.5G-телефона. 2 н. и 12 з.п. ф-лы, 10 ил.
Формула изобретения
1. Способ взаимодействия с архитектурой клиент/сервер, имеющей 2.5G мобильный телефон, причем 2.5G телефон имеет канал данных для передачи данных и речевой канал для передачи речи, при этом способ содержит этапы:
принимают Веб-страницу от Веб-сервера, соответствующего приложению, по каналу данных и воспроизводят Веб-страницу на 2.5G телефоне, при этом воспроизведение включает в себя обработку Веб-страницы в ответ на ввод речи;
принимают речь от пользователя, соответствующую по меньшей мере одному полю данных на Веб-странице;
устанавливают вызов от 2.5G телефона к серверу телефонной связи по речевому каналу, при этом сервер телефонной связи удален от 2.5G телефона и приспособлен для обработки речи;
получают Веб-страницу с разрешением использования речи от Веб-сервера, соответствующую Веб-странице, выданной в 2.5G телефон;
передают речь от 2.5G телефона на сервер телефонной связи;
обрабатывают речь в соответствии с Веб-страницей с разрешением использования речи для получения текстовых данных в соответствии с речью;
передают текстовые данные на Веб-сервер; и
получают новую Веб-страницу на 2.5G телефон по каналу данных и воспроизводят новую Веб-страницу, имеющую текстовые данные.
2. Способ по п.1, в котором обработка речи включает в себя передачу данных, указывающих о принятой речи, на речевой сервер, удаленный от сервера телефонной связи, при этом речевой сервер обрабатывает данные, указывающие о принятой речи, чтобы получить текстовые данные, и при этом передача текстовых данных на Веб-сервер использует речевой сервер, передающий текстовые данные.
3. Способ по п.1, в котором установление вызова от 2.5G телефона на сервер телефонной связи по речевому каналу включает в себя получение идентификатора, связанного с 2.5G телефоном.
4. Способ по п.3, в котором получение Веб-страницы с разрешением использования речи от Веб-сервера, соответствующей Веб-странице, выданной на 2.5G телефон, включает в себя использование идентификатора, связанного с 2.5G телефоном.
5. Способ по п.4, в котором получение идентификатора включает в себя идентификацию телефонного номера, связанного с 2.5G телефоном.
6. Способ по п.1, дополнительно содержащий этап, в соответствии с которым перед получением новой Веб-страницы от Веб-сервера, обнаруживают завершение речевого ввода посредством сервера телефонной связи, разъединение речевого канала, и запрос новой Веб-страницы от Веб-сервера.
7. Способ по п.6, дополнительно содержащий операции 2.5G телефона для ввода неречевых данных по меньшей мере в одно другое поле данных на Веб-странице, передачу упомянутых данных для по меньшей мере одного другого поля к Веб-серверу.
8. Способ по п.7, дополнительно содержащий объединение в Веб-сервере упомянутых данных для по меньшей мере одного другого поля с текстовыми данными, чтобы формировать новую Веб-страницу.
9. Способ по п.8, дополнительно содержащий разъединение речевого канала до того как сервер телефонной связи получит новую Веб-страницу.
10. Способ взаимодействия с архитектурой клиент/сервер, имеющей 2.5G мобильный телефон, при этом 2.5G телефон имеет канал данных для передачи данных и речевой канал для передачи речи, причем способ содержит этапы:
принимают Веб-страницу от Веб-сервера, соответствующего приложению, по каналу данных и воспроизводят Веб-страницу на 2.5G телефоне, при этом воспроизведение включает в себя обработку Веб-страницы в ответ на речевой ввод;
принимают речь от пользователя, соответствующую по меньшей мере одному полю данных на Веб-странице;
устанавливают вызов от 2.5G телефона к серверу телефонной связи по речевому каналу, причем сервер телефонной связи является удаленным от 2.5G телефона и приспособлен для обработки речи;
передают речь от 2.5G телефона на сервер телефонной связи; и получают новую Веб-страницу на 2.5G телефон по каналу данных и воспроизводят новую Веб-страницу, имеющую текстовые данные в соответствии с речью.
11. Способ по п.10, в котором установление вызова из 2.5G телефона на сервер телефонной связи по речевому каналу включает в себя посылку идентификатора, связанного с 2.5G телефоном.
12. Способ по п.11, в котором посылка идентификатора включает в себя посылку телефонного номера, связанного с 2.5G телефоном.
13. Способ по п.1, дополнительно содержащий перед получением новой Веб-страницы от Веб-сервера этап обнаружения завершения речевого ввода сервером телефонной связи, разъединение речевого канала и запрос новой Веб-страницы от Веб-сервера.
14. Способ по п.13, дополнительно содержащий операции 2.5G телефона для ввода неречевых данных по меньшей мере в одно другое поле данных на Веб-странице, передачу упомянутых данных для упомянутого по меньшей мере одного другого поля к Веб-серверу.
Описание изобретения к патенту
Предшествующий уровень техники
Изобретение относится к доступу и воспроизведению информации в компьютерной системе. Более конкретно, настоящее изобретение относится к последовательному мультимодальному вводу для мобильных или сотовых телефонов второго поколения («2,5G-телефонов»).
Малые вычислительные устройства, такие как персональные информационные администраторы (PIM) (электронные записные книжки), устройства и портативные телефоны все более часто используются людьми в их повседневной деятельности. С увеличением мощности обработки данных, доступной в настоящее время для микропроцессоров, используемых для работы этих устройств, функциональные возможности этих устройств увеличиваются и в некоторых случаях объединяются. Например, множество портативных телефонов, и, в частности, 2,5G-телефонов, теперь могут использоваться для выполнения обращения и просмотра Интернет, а также могут использоваться для хранения персональной информации, такой как адреса, телефонные номера и т.п.
Ввиду того, что эти вычислительные устройства используются для просмотра Интернет или используются в других архитектурах клиент/сервер, необходимо поэтому вводить информацию в само вычислительное устройство. К сожалению, из-за желания сохранить эти устройства по возможности настолько малыми, чтобы их было легко переносить, использовать обычные клавиатуры, имеющие все символы алфавита в виде отдельных клавиш, обычно невозможно из-за ограниченной площади поверхности, доступной на корпусах компьютерного устройства. Таким образом, для того чтобы осуществлять навигацию в архитектуре клиент/сервер, такой как Интернет, пользователю такого устройства приходится пользоваться ограниченной клавиатурой таким образом, чтобы обеспечить заполнение текстовой информацией требуемых полей для Веб-страницы или иначе обеспечить команды. Хотя 2,5G-телефон включает в себя дополнительные модальности для ввода данных, такую как использование сенсорного экрана, который дает возможность визуализировать малую алфавитно-цифровую клавиатуру и использовать перо для ввода данных, по сравнению с указанным ранее 2,5G-телефоном, в котором используется только 12 клавиш ограниченной вспомогательной клавиатуры, пользователь все еще должен вручную выбирать символы так, чтобы заполнить текстовые окна и т.п. на данной Веб-странице. Этот способ ввода до сих пор является довольно медленным и, таким образом, препятствует способности пользователя вводить или принимать информацию.
Недавно были усовершенствованы звуковые порталы, например посредством использования SALT (тэги языка приложений речи), VoiceXML (расширяемый язык разметки речевых приложений), чтобы иметь доступ к содержимому Интернет, используя при этом только телефон. В этой архитектуре сервер документов (например, Веб-сервер) обрабатывает запросы от клиента посредством интерпретатора SALT/VoiceXML. Веб-Сервер может в ответ создавать SALT/VoiceXML документы, которые обрабатываются интерпретатором SALT/VoiceXML и воспроизводятся слышимым образом пользователю. Используя звуковые команды с помощью распознавания речи, пользователь может осуществлять навигацию в сети. Этот способ навигации в Интернет также является ограниченным, в особенности тогда, когда информация, полученная от Веб-сервера, воспроизводится пользователю, так как она должна быть воспроизведена слышимым образом. К тому же без визуального подтверждения распознанных результатов пользователь не может быть уверен, что произошло надлежащее распознавание. Хотя могут быть выданы слышимые подтверждения распознанных результатов, такие подтверждения требуют времени и таким образом уменьшают действительный или эффективный опыт пользователя.
Таким образом, существует потребность в усовершенствовании архитектуры и способов, используемых для доступа к информации в архитектуре сервер/клиент, и в частности, доступа к информации сервера для такого устройства, как 2,5G-телефон.
Сущность изобретения
Предлагается способ взаимодействия с архитектурой клиент/сервер с 2,5G мобильным телефоном, имеющим канал данных для передачи данных и речевой канал для передачи речи. Способ включает в себя прием Веб-страницы от Веб-сервера в соответствии с приложением по каналу данных и воспроизведение Веб-страницы на 2,5G-телефоне, где воспроизведение содержит обработку Веб-страницы в ответ на речевой ввод. Речь (речевой сигнал) принимается от пользователя в соответствии с по меньшей мере одним полем данных на Веб-странице. Вызов устанавливается от 2,5G-телефона к серверу телефонной связи по речевому каналу. Сервер телефонной связи является удаленным от 2,5G-телефона и приспособлен для обработки речи. Веб-страницу с разрешением использования речи получают от Веб-сервера, соответствующую Веб-странице, выданной в 2,5G-телефон. Речевой сигнал передается от 2,5G-телефона на сервер телефонной связи. Речевой сигнал обрабатывается в соответствии с Веб-страницей с разрешением использования речи для получения текстовых данных в соответствии с речевым сигналом. Текстовые данные передаются на Веб-сервер. Новая Веб-страница принимается на 2,5G-телефон по каналу данных и воспроизводится, имея текстовые данные.
При рассмотрении операций 2,5G-телефона в качестве другого аспекта настоящего изобретения способ включает в себя прием Веб-страницы от Веб-сервера в соответствии с приложением, с использованием канала данных, и воспроизведение Веб-страницы на 2,5G-телефоне, причем воспроизведение содержит обработку Веб-страницы в ответ на речевой ввод. Речь (речевой сигнал) принимается от пользователя в соответствии с по меньшей мере одним полем данных на Веб-странице. Вызов устанавливается от 2,5G-телефона к серверу телефонной связи по речевому каналу, причем сервер телефонной связи является удаленным от 2,5G-телефона и приспособленным для обработки речи. Речевой сигнал передается от 2,5G-телефона на сервер телефонной связи. Новая Веб-страница получается на 2,5G-телефоне по каналу данных и воспроизводится, имея текстовые данные в соответствии с речью.
Краткое описание чертежей
Фиг. 1 - общий вид рабочей среды вычислительного устройства .
Фиг. 2 - блок-схема вычислительного устройства согласно фиг. 1.
Фиг. 3 - общий вид 2,5G-портативного телефона.
Фиг. 4 - блок-схема компьютера общего назначения.
Фиг. 5 - блок-схема архитектуры для системы клиент/сервер.
Фиг. 6 - блок-схема, иллюстрирующая соединения, сделанные к компонентам архитектуры по фиг.5, чтобы обеспечить последовательное мультимодальное взаимодействие.
Фиг. 7A и 7B вместе представляют собой блок-схему последовательности операций, иллюстрирующей примерный способ обеспечения последовательного мультимодального взаимодействия.
Фиг. 8 - схематическое представление примерных текстовых окон, воспроизводимых на 2,5G-телефоне.
Фиг. 9 - схематическое представление примерных текстовых окон с результатами распознавания, воспроизводимыми на 2,5G-телефоне.
Подробное описание примеров осуществления
Одним из аспектов настоящего изобретения является способ обеспечения мультимодального ввода с распознаванием речи, осуществленным для второго поколения («2,5G») телефонов (2,5G-телефонов). Используемый здесь и являющийся общеизвестным 2,5G-телефон способен осуществить речевые вызовы по речевому каналу, но кроме этого включает в себя схемы, способные посылать и принимать цифровые данные по отдельному каналу данных. 2,5G-телефон вообще включает в себя чувствительный к нажатию дисплей, который может использоваться вместе с пером, чтобы обеспечить способность указывать на графические объекты на дисплее или взаимодействовать с программной клавиатурой, воспроизводимой на экране, или взаимодействовать с областью распознавания почерка. Используя эти устройства, пользователь способен осуществлять навигацию по Веб-сайту в архитектуре клиент/сервер и получать информацию, посылая и принимая текстовые данные. Данные воспроизводятся на маленьком дисплее. Один аспект настоящего изобретения позволяет пользователю обеспечивать речь (речевой сигнал) как форму ввода в телефон для выбранных полей, таким образом обходя то, что может представлять собой тяжелую задачу ввода эквивалентного текста.
Со ссылками на фиг. 5, архитектура 200 иллюстрируется для распознавания речи на основе Веб, как она может использоваться в настоящем изобретении. Обычно к информации, сохраненной на Веб-сервере 202, можно осуществлять доступ посредством мобильного устройства 30 (которое здесь также представляет другие формы вычислительных устройств, имеющих экраны дисплея, а также микрофон, чтобы обнаружить слышимые сигналы), или посредством простого телефона 80, причем информация запрашивается в слышимом виде или посредством тональных сигналов, сгенерированных телефоном 80 в ответ на нажатие клавиш, и при этом информация от Веб-сервера 202 обеспечивается только слышимым образом пользователю, или посредством 2,5G-телефона 81, причем информация может также быть доступна от Веб-сервера 202 и распознаваться в качестве страниц, например, страниц WML (язык разметки для беспроводных систем) или XHTML, передаваемых посредством WAP (протокол распространения информации в Интернет). Архитектура 200, используемая в настоящем изобретении, позволяет использовать 2,5G-телефон 81 в распознавании речи, чтобы улучшить его применимость, в то же время дополнительно извлекая преимущества возможностей 2,5G-телефона визуального воспроизведения, чтобы воспроизвести полученные результаты.
Более важно то, что архитектура 200 является унифицированной в том, получается ли информация через устройство 30, простой телефон 80 или 2,5G-телефон 81, с использованием распознавания речи, при этом одиночный речевой сервер 204 может поддерживать каждый режим работы. Кроме того, архитектура 200 предусматривает использование расширений хорошо известных языков разметки (например, HTML, XHTML, cHTML, XML, WML и т.п.). Таким образом, к информации, сохраненной на Веб-сервере 202, можно также обращаться, используя известные способы GUI (графического пользовательского интерфейса), имеющиеся в этих языках разметки. Используя расширение известных языков, система для творческой деятельности на Веб-сервере 202 является более легкой, и унаследованные приложения, существующие в настоящее время, могут быть также легко изменены, чтобы включить в себя распознавание речи.
Перед дальнейшим описанием архитектуры 200 основанного на Веб-сети распознавания речи и, в частности, способа осуществления основанного на Веб-сети распознавания речи для 2,5G-телефона 81, может быть полезно описать другие вычислительные устройства, которые могут функционировать в архитектуре 200.
Со ссылками на фиг. 1, примерная форма устройства управления данными (PIM, PDA или подобный) обозначена как 30. Мобильное устройство 30 включает в себя корпус 32 и имеет интерфейс пользователя, включающий в себя дисплей 34, который использует чувствительный к контакту экран дисплея с пером 33. Перо 33 используется для нажатия или контактирования с дисплеем 34 в обозначенных координатах для выбора поля, выборочного перемещения начальной позиции курсора, или обеспечения команды иным образом. Альтернативно или в дополнение, одна или более кнопок 35 могут быть включены в устройство 30 для осуществления навигации. Кроме того, можно также использовать другие механизмы ввода, например, вращательные колесики, ролики и т.п.
Со ссылками на фиг. 2, блок-схема иллюстрирует функциональные компоненты, содержащиеся в мобильном устройстве 30. Центральный процессор (ЦП) 50 реализует программные функции управления. ЦП 50 соединен с дисплеем 34 так, чтобы текстовые и графические значки (иконки), сформированные в соответствии с управляющим программным обеспечением, появлялись на дисплее 34. Динамик 43 может быть соединен с ЦП 50 обычно с помощью цифроаналогового преобразователя 59, чтобы обеспечить слышимые выходные сигналы. Данные, которые загружаются или вводятся пользователем в мобильное устройство 30, сохраняются в энергонезависимом запоминающем устройстве 54 чтения/записи с произвольным доступом, двунаправленно соединенным с ЦП 50. Запоминающее устройство с произвольным доступом (ОЗУ) 54 обеспечивает энергонезависимую память для команд, которые выполняет ЦП 50, и хранилище для временных данных, таких как регистровые данные. Значения «по умолчанию» для опций конфигурации и другие переменные сохраняются в постоянном запоминающем устройстве (ROM) 58. ROM 58 может также использоваться для хранения программного обеспечения операционной системы для устройства, которое управляет основными функциями мобильного устройства 30 и другими функциями ядра операционной системы (например, загрузка программных компонентов в ОЗУ 54). ОЗУ 54 также служит в качестве хранилища для кода способом, аналогичным функциям жесткого диска на персональном компьютере, который используется для сохранения прикладных программ.
Радиосигналы могут передаваться/приниматься мобильным устройством через беспроводной приемопередатчик 52, который соединен с ЦП 50. Необязательный коммуникационный интерфейс 60 может также быть предусмотрен для загрузки данных непосредственно от компьютера (например, настольного компьютера), или из проводной сети, при необходимости. Соответственно, интерфейс 60 может принимать различные формы устройств связи, например, инфракрасную линию связи, модем, сетевую плату или другие подобные устройства.
Мобильное устройство 30 включает в себя микрофон 29 и аналого-цифровой (A/D) преобразователь 37, и необязательную программу распознавания речи, хранимую в памяти 54. В ответ на слышимую информацию, инструкции или команды от пользователя устройства 30 микрофон 29 обеспечивает речевые сигналы, которые оцифровываются аналого-цифровым преобразователем 37. Программа распознавания речи может выполнять нормализацию и/или функции извлечения признаков над оцифрованными речевыми сигналами, чтобы получить промежуточные результаты распознавания речи. Используя беспроводной приемопередатчик 52 или интерфейс 60 связи, речевые данные передаются на удаленный речевой сервер 204, описанный ниже и показанный в архитектуре на фиг. 5. Результаты распознавания возвращаются на мобильное устройство 30 для воспроизведения (например, визуальным и/или слышимым образом) на нем, и возможна передача на Веб-сервер 202 (фиг. 5), причем Веб-сервер 202 и мобильное устройство 30 работают в отношении клиент/сервер.
Фиг. 3 представляет пример варианта осуществления 2,5G-телефона 81. Телефон 81 включает в себя дисплей 82 и вспомогательную клавиатуру, обычно в форме программной клавиатуры 84, визуализируемой на дисплее. Обычно телефон 81 включает в себя схему для выполнения речевых вызовов по речевому каналу, обозначенную как 87, а также для посылки и приема цифровых данных по каналу данных, обозначенную как 85. 2,5G-телефоны этого типа доступны, например, от множества производителей и работают согласно хорошо определенным стандартам и протоколам.
Специфические подробности, относящиеся к работе схемы, не необходимы для понимания настоящего изобретения. Однако, в общем, 2,5G-телефон имеет многие из функциональных блоков, изображенных на фиг. 2, которые работают одинаковым образом. 2,5G-телефон обычно обеспечивает распознавание речи и, таким образом, не включает в себя программу распознавания речи и связанные аппаратные средства для выполнения распознания речи. Беспроводный приемопередатчик предусмотрен для того, чтобы принимать речевые сигналы по речевому каналу 87, в то время как интерфейс связи предусмотрен для того, чтобы посылать и принимать данные по каналу данных 85.
В дополнение к портативным или мобильным вычислительным устройствам, описанным выше, должно также быть понятно, что настоящее изобретение может использоваться совместно с многочисленными вычислительными устройствами, например с обычным персональным компьютером. Например, архитектура 200 позволяет пользователю с ограниченными физическими способностями вводить или записывать текст в компьютер или другое вычислительное устройство, в то время как другие обычные устройства ввода данных, например, полная алфавитно-цифровая клавиатура, слишком трудны для работы.
Ниже представлено краткое описание универсального компьютера 120, изображенного на фиг. 4. Однако компьютер 120 является только одним из примеров подходящей вычислительной среды и не предназначен для задания какого-либо ограничения в использовании возможностей относительно объема или функциональных возможностей изобретения. Компьютер 120 не должен интерпретироваться как имеющий какую-либо зависимость или требование, касающиеся одного или комбинации иллюстрируемых компонентов. Кроме того, персональный компьютер 120 может обеспечивать подходящие рабочие окружения для других компонентов архитектуры 200, например, но не ограничиваясь ими, Веб-сервер 202 и речевой сервер 204 и средство 212 просмотра речевой телефонии (браузер).
Изобретение может быть описано в общем контексте выполняемых компьютером команд, таких как программные модули, выполняемые компьютером. Обычно программные модули включают в себя подпрограммы, программы, объекты, компоненты, структуры данных и т.д., которые исполняют конкретные задачи или реализуют специфические абстрактные типы данных. Изобретение может также применяться в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули могут быть расположены как в локальных, так и удаленных компьютерных средствах хранения, включая устройства хранения (память). Задачи, выполняемые в соответствии с программами и модулями, описываются ниже со ссылками на чертежи. Специалисты в этой области техники могут интерпретировать описание и чертежи как выполняемые процессором команды, которые могут быть написаны в любой форме считываемой компьютером среды.
В соответствии с фиг. 4, компоненты компьютера 120 могут включать в себя, но не ограничиваются ими, блок 140 обработки, системную память 150 и системную шину 141, которая подсоединяет различные элементы системы, включая системную память, к блоку 140 обработки. Системная шина 141 может быть любой из нескольких типов шинных структур, включая в себя шину памяти или контроллер памяти, шину периферийных устройств и локальную шину, используя любую из множества шинных архитектур. В качестве примера, но не ограничиваясь ими, такие архитектуры включают в себя шину, соответствующую архитектуре промышленного стандарта (ISA), универсальную последовательную шину (USB), шину микроканальной архитектуры (MCA), усовершенствованную шину ISA (EISA), локальную шину Ассоциации по стандартам в области видеоэлектроники (VESA) и шину соединения периферийных компонентов (PCI), так же известную как шина Mezannine. Компьютер 120 обычно включает в себя множество считываемых компьютером носителей. Считываемые компьютером носители могут быть любыми доступными носителями, к которым может обращаться компьютер 120, и включают в себя и энергозависимую и энергонезависимую среды, съемные и несъемные носители. В качестве примера, но не ограничиваясь ими, считываемые компьютером носители могут включать в себя компьютерные средства хранения и среду связи. Компьютерные средства хранения включают в себя и энергозависимые и энергонезависимые, съемные и несъемные средства, реализованные любым способом или по любой технологии, для хранения информации, например, считываемых компьютером команд, структур данных, программных модулей или других данных. Компьютерные средства хранения включают в себя, но не ограничиваются ими, оперативную память (RAM), постоянное запоминающее устройство (ROM), электрически перепрограммируемую постоянную память (EEPROM), флэш-память или другую технологию памяти, CD-ROM (постоянное запоминающее устройство на компакт-диске), цифровые универсальные диски (DVD) или другую память на оптических дисках, магнитные кассеты, магнитную ленту, память на магнитном диске или другие магнитные устройства хранения, или любую другую среду, которая может использоваться для хранения требуемой информации и к которой может обращаться компьютер 120.
Среда связи обычно воплощает считываемые компьютером команды, структуры данных, программные модули или другие данные в модулируемом сигнале данных, например, сигнале несущей или другом транспортном механизме, и включает в себя любые средства доставки информации. Термин «модулированный сигнал данных» означает сигнал, который имеет один или более одного из его набора параметров, установленных или измененных таким образом, чтобы кодировать информацию в сигнале. В качестве примера, но не ограничиваясь ими, среда связи включает в себя проводные средства, такие как проводная сеть или непосредственное проводное подключение, и беспроводную среду, такую как акустическая, РЧ, инфракрасного излучения и другую беспроводную среду. Комбинации любых вышеупомянутых сред также могут быть включены в понятие считываемой компьютером среды.
Системная память 150 включает в себя компьютерную среду хранения в форме энергозависимой и/или энергонезависимой памяти, например, в виде запоминающего устройства только для чтения (ROM) 151 и запоминающего устройства 152 с произвольным доступом (ОЗУ). Базовая система ввода-вывода 153 (БСВВ, BIOS), содержащая основные подпрограммы, которые помогают передавать информацию между элементами в компьютере 120, например, во время запуска, сохраняется в ROM 151. ОЗУ 152 также содержит данные и/или программные модули, которые являются непосредственно доступными для работы или обрабатываемыми в настоящее время блоком 140 обработки. В качестве примера, но не ограничиваясь ими, фиг. 4 иллюстрирует операционную систему 54, прикладные программы 155, другие программные модули 156 и данные программы 157.
Компьютер 120 может также включать в себя другие съемные/несъемные энергозависимые/энергонезависимые компьютерные средства хранения. Только в качестве примера фиг. 4 иллюстрирует привод 161 жесткого диска, который осуществляет считывание или запись на несъемную энергонезависимую магнитную среду, привод 171 магнитного диска, который осуществляет считывание или запись на съемный энергонезависимый магнитный диск 172, и привод 175 оптических дисков, который осуществляет считывание или запись на съемный энергонезависимый оптический диск 176, такой как CD-ROM или другую оптическую среду. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные средства хранения, которые могут использоваться в примерной среде, включают в себя, но не ограничиваются ими, кассеты магнитной ленты, карты с флэш-памятью, цифровые универсальные диски, ленту цифровой видео записи, твердотельное ОЗУ, твердотельное ПЗУ и т.п. Привод 161 жесткого диска обычно соединяется с системной шиной 141 через интерфейс несъемной памяти, например, интерфейс 160, а привод 171 магнитных дисков и привод 175 оптических дисков обычно соединяется с системной шиной 141 интерфейсом съемной памяти, таким как интерфейс 170.
Приводы и связанные с ними компьютерные средства хранения, описанные выше и изображенные на фиг. 4, обеспечивают хранение считываемых компьютером команд, структур данных, программных модулей и других данных для компьютера 120. На фиг. 4, например, привод 161 жесткого диска показан как хранящий операционную систему 164, прикладные программы 165, другие программные модули 166 и данные программы 167. Следует заметить, что эти компоненты могут быть такими же или отличными от операционной системы 154, прикладных программ 155, других программных модулей 156 и программных данных 157. Операционной системе 164, прикладным программам 165, другим программным модулям 166 и программным данным 167 присвоены различные номера так, чтобы указать, что, как минимум, они являются различными копиями.
Пользователь может вводить команды и информацию в компьютер 120 посредством устройств ввода данных, например, клавиатуры 182, микрофона 183 и устройства 181 управления позицией, например, мыши, трекбола или сенсорной панели. Другие устройства ввода данных (не показаны) могут включать в себя джойстик, игровую клавиатуру, спутниковую антенну, сканер и т.п. Эти и другие устройства ввода данных часто соединяются с блоком 140 обработки через интерфейс 180 пользовательского ввода, который подсоединен к системной шине, но могут быть подсоединены и другим интерфейсом и шинными структурами, например, через параллельный порт, игровой порт или универсальную последовательную шину (USB). Монитор 184 или другой тип устройства отображения также связан с системной шиной 141 через интерфейс, например, видео интерфейс 185. В дополнение к монитору компьютеры могут также включать в себя другие периферийные устройства вывода, такие как динамики 187 и принтеры 186, которые могут быть связаны через интерфейс 188 периферийных устройств вывода.
Компьютер 120 может работать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 194. Удаленный компьютер 194 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, одноранговым устройством или другим обычным сетевым узлом и обычно включает в себя многие или все элементы, описанные выше применительно к компьютеру 120. Логические соединения, изображенные на фиг. 4, включают в себя локальную сеть (ЛС, LAN) 191 и глобальную сеть связи (ГС, WAN) 193, но могут также включать в себя другие сети. Такие сетевые среды являются обычными в офисах, компьютерных сетях предприятия, интрасетях и Интернет.
При использовании в сетевой среде ЛС компьютер 120 связан с ЛС 191 через сетевой интерфейс или адаптер 190. При использовании в сетевой среде ГС компьютер 120 также включает в себя модем 192 или другие средства для установления связи по ГС 193, например, Интернет. Модем 192, который может быть встроенным или выносным, может быть связан с системной шиной 141 через интерфейс 180 пользовательского ввода или другой соответствующий механизм. В сетевой среде программные модули, изображенные применительно к компьютеру 120 или его частям, могут быть сохранены в удаленном устройстве хранения. В качестве примера, но не ограничиваясь им, фиг. 4 иллюстрирует удаленные прикладные программы 195 как постоянно находящиеся на удаленном компьютере 194. Следует заметить, что показанные сетевые подключения являются примерными, и могут использоваться другие средства установления линии связи между компьютерами.
Фиг. 5 иллюстрирует архитектуру 200 для распознавания речи, основанную на Веб-сети, которую может использоваться в настоящем изобретении. Как упомянуто выше, к информации, сохраненной на Веб-сервере 202, можно обращаться посредством мобильного устройства 30, простого телефона 80 или 2,5G-телефона 81. Используемые архитектура 200 и язык разметки дополнительно описаны в опубликованной заявке на патент США 2002-0169806 A1 (14 ноября, 2002), которая включена в настоящее описание во всей ее полноте.
Начиная рассмотрение с устройства 30, обычно устройство 30 выполняет сценарии (скрипты) HTML+ или им подобные, предоставляемые Веб-сервером 202. Когда требуется распознавание речи, речевые данные, которые могут быть представлены в виде оцифрованных аудио сигналов или особенностей речи, при этом аудио сигналы являются предварительно обработанными устройством 30, как описано выше, подаются на речевой сервер 204 с указанием грамматической или языковой модели для использования во время распознавания речи. Реализация речевого сервера 204 может принимать множество форм, одна из которых иллюстрируется, но обычно она включает в себя блок 211 распознавания речи. Результаты распознавания речи передаются назад на устройство 30 для локального воспроизведения при необходимости или в случае, если это является приемлемым. После объединения информации посредством распознавания речи и любого графического интерфейса пользователя, если он используется, устройство 30 посылает информацию на Веб-сервер 202 для дальнейшей обработки и приема дальнейших сценариев HTML, в случае необходимости.
Как изображено на фиг. 5, устройство 30, 2,5G-телефон 81, Веб-сервер 202, средство 212 просмотра речевой телефонии и речевые серверы 204 обычно соединяются и являются отдельно адресуемыми посредством сети 205, в данном случае - это глобальная сеть, например, Интернет. Поэтому нет необходимости в том, чтобы любые из этих устройств были физически расположены в непосредственной близости друг к другу. В частности, не обязательно, чтобы Веб-сервер 202 включал в себя речевой сервер 204. Таким образом, средства авторской разработки в Веб-сервере 202 могут быть сосредоточены (сфокусированы) на приложении, для которого они предназначаются, без необходимости знания авторами о сложности речевого сервера 204. Вместо этого речевой сервер 204 может быть независимо разработан и соединен с сетью 205 и таким образом может быть модифицирован и усовершенствован без дополнительных изменений, требуемых на Веб-сервере 202. Кроме того, речевой сервер 204 может обслуживать множество клиентских устройств 30, телефонов 80 и 81 и/или Веб-серверов 202.
В другом варианте осуществления Веб-сервер 202, речевой сервер 204 и клиент 30 могут быть объединены в зависимости от возможностей реализующих их машин. Например, если клиент содержит универсальный компьютер, например персональный компьютер, клиент может включать в себя речевой сервер 204. Аналогично, если необходимо, Веб-сервер 202 и речевой сервер 204 могут быть включены в единую машину.
Применительно к клиентскому устройству 30, способ для обработки распознавания речи в системе клиент/сервер включает в себя этапы: прием от сервера 202 страницы на языке разметки, имеющую расширения, сконфигурированные так, чтобы получать речевые данные от пользователя клиентского устройства; выполнение страницы на языке разметки на клиентском устройстве; передачу речевых данных (указывающие речь, полученную от пользователя) и связанную грамматику на речевой сервер, удаленный от клиента; и прием на клиенте результата распознавания от речевого сервера. Может быть обеспечена считываемая компьютером среда, имеющая язык разметки для выполнения команд на клиентском устройстве в системе клиент/сервер, причем язык разметки имеет команду, указывающую грамматику для связывания с речью, введенной через клиентское устройство.
Доступ к Веб-серверу 202 через телефон 80 включает в себя подсоединение телефона 80 к проводной или беспроводной телефонной сети 208, которая, в свою очередь, подсоединяет телефон 80 к шлюзу 210 третьей стороны. Шлюз 210 соединяет телефон 80 со средством 212 просмотра речевой телефонии. Средство 212 просмотра речевой телефонии включает в себя сервер 214 мультимедийной информации, который обеспечивает интерфейс телефонной связи, и речевой браузер 216. Подобно устройству 30, средство 212 просмотра речевой телефонии принимает HTML-сценарии или им подобные от Веб-сервера 202. Более важно однако то, что HTML-сценарии имеют форму, подобную HTML-сценарию, подаваемому на устройство 30. Таким образом, Веб-сервер 202 не имеет необходимости в поддержке устройства 30 и телефона 80 по отдельности или даже в поддержке стандартного GUI (графического пользовательского интерфейса) отдельных клиентов. Вместо этого может использоваться общий язык разметки. Кроме того, подобно устройству 30, распознавание речи из слышимых сигналов, переданных телефоном 80, обеспечивается от речевого браузера 216 на речевой сервер 204 или через сеть 205 или через выделенную линию 207 связи, например, используя TCP/IP. Результаты распознавания и другая информация воспроизводится для пользователя с помощью средства 212 просмотра речевой телефонии и телефона 80.
Как указано выше, языки разметки, например, HTML, XHTML cHTML, XML, WML или с любой другой производной от SGML (стандартного обобщенного языка разметки документа) разметкой могут включать в себя средства управления и/или объекты, которые обеспечивают распознавание речи в архитектуре клиент/сервер. Таким образом, используя такую архитектуру, авторы могут использовать все инструментальные средства и профессиональные знания об этих языках разметки, которые являются преобладающей платформой развития Веб-сети.
Обычно средства управления и/или объекты могут включать в себя одно или более следующих функциональных средств: средство управления блоком распознавания и/или объекты для конфигурации блока распознавания, средство выполнения распознавания и/или пост-обработки; средство управления синтезатором и/или объекты для конфигурации синтезатора и запрос воспроизведения; средства управления грамматикой и/или объекты для задания ресурсов входной грамматики; и/или средство управления связыванием и/или объекты для обработки результатов распознавания. Эти расширения предназначены для того, чтобы обеспечить легкий уровень разметки, который добавляет возможности речевого интерфейса к существующим языкам разметки. Как таковые, расширения могут оставаться независимыми от: страницы высокого уровня, в которой они содержатся, например, HTML; форматов низкого уровня, которые расширения используют для обращения к лингвистическим ресурсам, например, форматов «текст-в-речь» и форматов грамматики; и индивидуальные свойства распознавания и платформ синтеза речи, используемых в речевом сервере 204.
Следует отметить, что настоящее изобретение может быть реализовано с использованием расширения языка разметки, например, тэгов языка приложений речи (SALT). SALT является развивающимся стандартом для предоставления доступа к информации, приложениям и услугам сети, например, от персональных компьютеров, телефонов, планшетных персональных компьютеров и беспроводных мобильных устройств. SALT расширяет существующие языки разметки, такие как HTML, XHTML и XML. Технические требования к SALT 1,0 могут быть найдены интерактивно по адресу http://www.SALTforum.org.
Мультимодальное взаимодействие обеспечивается посредством 2,5G-телефона 81 с архитектурой 200, описанной выше. В целом, мультимодальное взаимодействие предоставляет доступ к информации от Веб-сервера 202 естественным способом, основанным на желаниях пользователя. В частности, вместо существующего ограничения выдачи команд в текстовом формате посредством манипуляций пером и приема результатов в качестве визуально отображенного текста пользователь при желании может выбрать обеспечивать речь в виде носителя входного сигнала и принимать результаты визуально или в виде синтезированной речи. Однако, для устройств, таких как 2,5G-телефон 81, с ограниченной мощностью обработки и дополнительными такими хорошо известными требованиями, заключающимися в том, что, хотя канал данных для подсоединения к сети, например, Интернет, является доступным, и отдельный речевой канал для выполнения вызовов также доступен, к этим каналам нельзя обращаться одновременно. В результате, мультимодальные взаимодействия, которые требуют каналов данных и речи, должны быть выполнены последовательно, что соответствует известному термину «последовательная мультимодальность». Тем не менее, может использоваться архитектура 200, описанная выше, и способ, описанный ниже, чтобы обеспечить последовательное мультимодальное взаимодействие с Веб-сервером 202. Интеграция 2,5G-телефона 81 в архитектуру особенно выгодна, потому что доступ к Веб-серверу 202 согласуется с другими устройствами, например, устройством 30 или телефоном 80 так, что Веб-сервер 202 и приложения, выполняющиеся на нем, не должны быть значительно изменены для того, чтобы поддерживать 2,5G-телефон 81 в дополнение к устройству 30 и телефону 80. Таким образом, разработчик прикладной программы не обременен обеспечением отдельных приложений для того, чтобы поддерживать каждое из устройств, которые могут осуществлять доступ к информации, а вместо этого может использовать более унифицированный код, который может поддерживать много различных устройств с изменяющимися особенностями.
Фиг. 6 иллюстрирует последовательный мультимодальный сценарий, применимый к 2,5G-телефону 81, где результаты распознавания речи представлены в текстовой форме, используя HTML- или эквивалентные страницы.
Фиг. 7A и 7B иллюстрируют примерные этапы способа 300 для выполнения последовательного мультимодального распознавания речи в 2,5G-телефоне 81.
В иллюстративном примере предполагается, что запрос, обозначенный стрелкой 302 на фиг. 6, первоначально выполняется к Веб-серверу 202 так, чтобы осуществить доступ к приложению, связанному с организацией полета самолета, как указано на этапе 304.
На этапе 306 Веб-сервер 202 выдает страницу на 2,5G-телефон 81 (стрелка 307), которая в этом примере варианта осуществления включает в себя текстовое окно или другую индикацию записи поля данных о городе, из которого выполняют вылет, а также текстовое окно или другую индикацию записи поля данных о штате, из которого выполняют вылет. Эти поля иллюстрируются на фиг. 8 позициями 308 и 310. Передача страницы сети от Веб-сервера до 2,5G-телефона осуществляется по беспроводному каналу 85 данных.
В обычном 2,5G-телефоне пользователь может иметь такую опцию для ввода текста в каждое из текстовых окон или полей данных 308 и 310, управляя пером или другим устройством управления позицией (устройством указания) для выбора требуемых алфавитно-цифровых символов. Например, пользователь может выбирать «разворачивающееся вниз» меню, содержащее список штатов США, и пролистывать вниз до тех пор, пока не отобразится требуемый штат, и затем выбрать требуемый штат так, чтобы он был воспроизведен в текстовом окне 310. Однако запись информации о городе может быть не реализована в разворачивающемся вниз меню, в этом случае пользователь может использовать перо, чтобы выбрать каждую из букв города посредством программной клавиатуры.
В настоящем изобретении пользователь имеет возможность обеспечить речевой ввод в соответствии с каждым из полей данных 308 и 310, если необходимо, таким образом избегая манипуляции устройствами ввода данных.
На этапе 312 пользователь вводит индикацию, что будет обеспечивать речевой ввод. Такая индикация может иметь много форм, например, такую как активация программной или аппаратной кнопки на телефоне. В одном особенно удобном конструктивном исполнении пользователь просто нажимает на текстовое окно, в которое будет обеспечиваться речевой ввод, способом, аналогичным таковому в работе клиентского устройства 300. Однако другие формы индикации могут включать в себя выбранную речевую команду, которая может быть обработана и распознана локально на 2,5G-телефоне 81.
На этапе 314 2,5G-телефон 81 инициирует речевой вызов в средство 212 просмотра речевой телефонии, как указано стрелкой 316 на фиг. 6. Тут следует отметить, что веб-страница, выданная на этапе 306, аналогична описанной выше Веб-странице с разрешением использования речи, обеспеченной на клиентском устройстве 30, в том, что присутствуют теги для указания того, что будет предусмотрена речь для выбранного ввода, например, в текстовое окно. Однако теги не функционируют одинаковым образом посредством инициирования передачи данных речевых данных на речевой сервер, а вместо этого используются для инициирования вызова к средству 212 просмотра речевой телефонии, чтобы обеспечить входную речь (речевой сигнал) от пользователя на средство 212 просмотра речевой телефонии по речевому каналу 87.
После соединения со средством 212 просмотра речевой телефонии на этапе 318 средство 212 просмотра речевой телефонии запрашивает Веб-страницу с разрешением использования речи, имеющую связанные (ассоциированные) теги для распознавания речи, от Веб-сервера 202 в соответствии с Веб-страницей, предварительно переданной на этапе 306. Это обозначено стрелкой 320. В одном варианте осуществления правильная Веб-страница, которая должна быть выдана к средству 212 просмотра речевой телефонии на этапе 321, как обозначено стрелкой 323, устанавливается Веб-сервером 202 с помощью телефонного номера или другого символьного идентификатора, связанного с 2,5G-телефоном 81. Веб-сервер 202, таким образом, посредством телефонного номера или другого идентификатора может поддерживать правильную ассоциацию страниц, переданных по каналу данных 85 непосредственно к 2,5G-телефону 81, так же как и страниц, передаваемых между Веб-сервером 202 и средством 212 просмотра речевой телефонии. Страница или страницы, переданные от Веб-сервера 202 к средству 212 просмотра речевой телефонии, содержат все необходимые грамматики или их индикации для распознавания речи для поля(ей) данных, переданных к 2,5G-телефону 81 для Веб-страницы на этапе 306.
Когда средство 212 просмотра речевой телефонии способно принимать речь (речевой сигнал) от пользователя по речевому каналу 87, этот пользователь вводит речь для поля или полей на этапе 324. Следует отметить, что в одном варианте осуществления подходящий запрос (подсказка), например, тональная или речевая команда, может быть выдана пользователю средством 212 просмотра речевой телефонии или телефоном 81, чтобы запросить пользователя о начале разговора. Средство 212 просмотра речевой телефонии может инициировать эту подсказку после приема соответствующей страницы с разрешением использования речи от Веб-сервера 202. Однако в другом варианте осуществления средство 212 просмотра речевой телефонии может выдать эту подсказку перед приемом Веб-страницы с разрешением использования речи и временно сохранить принятую речь в подходящем буфере или другом устройстве памяти, чтобы минимизировать время от момента, когда пользователь указал, что будет вводиться речь на этапе 312, до момента времени, когда речь фактически вводится на этапе 324.
Входная речь (речевой сигнал) обрабатывается, используя речевой сервер 202, таким же образом, как в общем было описано выше применительно к работе с телефоном 80. В частности, средство 212 просмотра речевой телефонии подает входную речь на речевой сервер 204 на этапе 326, как обозначено стрелкой 328.
Средство 212 просмотра речевой телефонии обрабатывает речь, вводимую от пользователя по речевому каналу 87, до тех пор, пока средство 212 просмотра речевой телефонии не обнаружит, что речь больше не вводится, например, из-за того, что уровень громкости в течение некоторой продолжительности времени находится ниже выбранного уровня. В этот момент времени средство 212 просмотра речевой телефонии передает сигнал «трубка повешена» для дезактивации речевого канала 87 на этапе 332, как обозначено стрелкой 334. Дополнительно или альтернативно, до или после этапа 332 речевой сервер 204 выполняет распознавание, результаты которого передаются назад Веб-серверу 202 на этапе 336, как обозначено стрелкой 338 на фиг. 6. Веб-сервер 202 принимает результаты распознавания в соответствии с телефонным номером, или другим идентификатором, связанным с 2,5G-телефоном 81.
На этапе 340 2,5G-телефон делает новый запрос, как обозначено стрелкой 342, к Веб-серверу 202 за обновленной страницей для включения результатов распознавания речи. Следует также отметить, что запрос может включать в себя другую информацию, собранную 2,5G-телефоном, используя различные модальности. Например, как описано выше, пользователь может выбирать для использования «раскрывающееся меню» и перо для выбора штата в текстовом окне 310. Запрос, посланный на этапе 340 на Веб-сервер, может включать в себя эту информацию.
На этапе 344 Веб-сервер 202 объединяет результаты распознавания речи, принятые от речевого сервера 204, соответствующие вводу, осуществленному в 2,5G-телефон 81, как идентифицировано, например, телефонным номером, с любым другим вводом (вводимыми данными), обеспеченным неречевыми модальностями, которые переданы телефоном 2,5G на этапе 340. Это может повлечь за собой небольшую задержку, в этом случае запрос новой обновленной страницы на этапе 340 предшествует передаче результата распознавания речи из речевого сервера 204 на этапе 336. В одном варианте осуществления Веб-сервер 202 использует ASP+ (активные серверные страницы) корпорации Microsoft (Редмонд, Вашингтон), где могут использоваться команды в форме «runat=server», чтобы дать команду Веб-серверу об объединении информации, переданной от 2,5G-телефона, с результатами распознавания речи, выданными речевым сервером 204, чтобы сгенерировать новую обновленную Веб-страницу. Подходящие идентификаторы состояния сеанса используются и поддерживаются Веб-сервером 202, чтобы гарантировать, что Веб-страницы одного и того же формата являются идентифицированными относительно времени для того, чтобы должным образом объединить информацию. На этапе 350 новая Веб-страница передается обратно в 2,5G-телефон 81, как обозначено стрелкой 352, имеющая в примерном варианте осуществления данные для текстовых окон 308 и 310. Фиг. 9 иллюстрирует новую Веб-страницу, принятую на этапе 350.
Вышеприведенное описание иллюстрирует последовательную мультимодальную операцию, обеспечивающую речевой ввод для 2,5G-телефона. Архитектура, изображенная на фиг. 5, допускает повторные операции способа, иллюстрируемые на фиг. 7A и 7B для обеспечения речевого ввода для других полей, связанных с Веб-страницей, или полей, связанных с другими Веб-страницами, чтобы обеспечить эффективное речевое взаимодействие, заданное ограниченными способностями 2,5G-телефона 81.
Хотя настоящее изобретение было описано со ссылками на конкретные варианты осуществления, специалистам в данной области техники очевидно, что могут быть сделаны изменения в форме без отклонения от сущности и объема изобретения.
Класс G10L15/26 речь для текстовых систем
Класс H04M3/487 устройства для обеспечения информационных услуг, например для записи голоса, сообщение времени