коснитесь любого места, чтобы говорить
Классы МПК: | G06F3/01 вводные устройства или комбинированные вводные и выводные устройства для взаимодействия пользователя с компьютером G10L21/00 Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость |
Автор(ы): | САЛЛИВАН Энн К. (US), ШТИФЕЛЬМАН Лиза (US), ЛИ Кэтлин Дж. (US), ЛЕОНГ Су Чуин (US) |
Патентообладатель(и): | МАЙКРОСОФТ КОРПОРЕЙШН (US) |
Приоритеты: |
подача заявки:
2010-06-10 публикация патента:
27.08.2014 |
Изобретение относится к мобильным вычислительным устройствам. Технический результат заключается в предоставлении максимальной величины целевой поверхности экрана для начала прослушивания блока распознавания речи. Такой результат достигается тем, что принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства, после приема индикации касания в любом месте на интерфейсе сенсорного экрана активируют механизм прослушивания блока распознавания речи и отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание. 3 н. и 12 з.п. ф-лы, 7 ил.
Формула изобретения
1. Способ предоставления функциональности ввода для блока взаимодействия с распознаванием речи, содержащий этапы, на которых:
принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 415;
после приема индикации касания в любом месте на интерфейсе сенсорного экрана активируют механизм прослушивания блока распознавания речи 425; и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание 431.
2. Способ по п.1, дополнительно содержащий этап, на котором:
формируют подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 420.
3. Способ по п.1, в котором при приеме индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства принимают индикацию касания и удерживания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 415.
4. Способ по п.1, в котором при активации механизма прослушивания блока распознавания речи:
определяют, принял ли интерфейс сенсорного экрана касание 415; и
активируют механизм прослушивания 425.
5. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме визуальной обратной связи 420.
6. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме звуковой обратной связи 420.
7. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме тактильной обратной связи 420.
8. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме комбинации звуковой, визуальной и/или тактильной обратной связи 420.
9. Способ предоставления функциональности ввода для блока взаимодействия с распознаванием речи, содержащий этапы, на которых:
принимают индикацию касания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 715; и
после приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана:
определяют контекстные данные касания и определяют идентификацию касания в связи с этими определенными контекстными данными 732:
передают идентификацию касания одному или более приложениям программного обеспечения 733;
активируют механизм прослушивания блока распознавания речи 725
принимают произносимое высказывание 730
используют идентификацию касания в связи с упомянутыми определенными контекстными данными 750, и вызывают выполнение функциональности этих одного или более приложений программного обеспечения на основании упомянутых определенных контекстных данных и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание внутри контекстной зоны 731.
10. Способ по п.9, дополнительно содержащий этап, на котором формируют подтверждение в ответ на прием индикации касания в любом месте внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 720.
11. Способ по п.10, в котором подтверждение приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана может быть представлено в форме звуковой обратной связи, визуальной обратной связи, тактильной обратной связи или любой комбинации их трех 720.
12. Способ по п.9, в котором на этапе приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства принимают индикацию приема касания и удерживания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 715.
13. Машиночитаемый носитель, содержащий машиноисполняемые команды, которыми при их исполнении компьютером выполняется способ предоставления функциональности ввода для блока взаимодействия с распознаванием речи, содержащий этапы, на которых:
принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 100;
активируют механизм прослушивания блока распознавания речи 330;
формируют подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства; и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание внутри контекстной зоны.
14. Машиночитаемый носитель по п.13, при этом при приеме индикации касания в любом месте на интерфейсе сенсорного экрана 105 мобильного вычислительного устройства 100 принимают индикацию касания внутри контекстной зоны на интерфейсе сенсорного экрана.
15. Машиночитаемый носитель по п.14, в котором при приеме индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана 105:
принимают касание на части интерфейса сенсорного экрана, в которой заданная информация отображается приложением программного обеспечения, работающим в мобильном вычислительном устройстве 100;
определяют контекстные данные, связанные с контекстной зоной на интерфейсе сенсорного экрана;
принимают произносимое высказывание посредством активированного механизма прослушивания блока 330 распознавания речи, связанного с упомянутыми определенными контекстными данными;
передают команду, представляющую принятое произносимое высказывание, одному или более приложениям 266 программного обеспечения, приспособленным для выполнения функции, связанной с упомянутыми определенными контекстными данными; и
предписывают упомянутому приложению 266 программного обеспечения выполнить функцию, связанную с упомянутыми определенными контекстными данными, и отобразить результат выполненной функции на интерфейсе сенсорного экрана 105.
Описание изобретения к патенту
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
Мобильные вычислительные устройства, такие как мобильные телефоны и персональные цифровые секретари, стали повсеместной технологией в сегодняшнем обществе. Такие устройства в настоящее время предоставляют интерфейсы, которые позволяют пользователю взаимодействовать с различными мобильными приложениями с помощью множества механизмов ввода (например, цифровая клавиатура, QWERTY-клавиатура, сенсорный экран, распознавание речи, и так далее). Недавно произошел подъем технологий распознавания речи для ввода. С распознаванием речи, речевые команды пользователя записываются в виде звуковых файлов, и либо обрабатываются с помощью встроенного блока распознавания речи, расположенного на мобильном устройстве, либо передаются через беспроводное соединение на сервер, где они обрабатываются. Одним из способов включения механизма прослушивания блока распознавания речи является модель взаимодействия нажать-чтобы-говорить, которая позволяет пользователю подавать сигнал, когда приложению стоит начать и закончить запись с помощью механизма ввода. Многие мобильные приложения используют существующую аппаратную клавишу устройства, многофункциональную клавишу или заданную границу кнопки на интерфейсе сенсорного экрана в качестве механизма ввода для включения механизма прослушивания блока распознавания речи.
Ввод с помощью многофункциональных клавиш или специализированных аппаратных интерфейсов, таких как кнопки, колесики прокрутки и так далее, может быть обременительным из-за множества факторов, которое не ограничивается малым размером кнопок, сложностью обнаружения или нахождения кнопки и/или наличием у пользователя слепой зоны расположения кнопок (например, расположенной на стороне мобильного устройства). Даже если кнопку легко обнаружить и найти, она доступна в данном приложении и находится в эргономическом местоположении, пользователь может быть занят другой задачей (например, он идет, ведет автомобиль и так далее), что может сделать сложным посмотреть на ее/его мобильное устройство и/или попасть в кнопку. При использовании специализированного аппаратного интерфейса, такого как кнопка, для включения режима прослушивания распознавания речи, из-за ее расположения на устройстве нажатие на нее может закрыть микрофон, что может негативно повлиять на выполнение распознавания речи.
Многие мобильные вычислительные устройства сегодня используют интерфейсы сенсорного экрана. Сенсорный экран может иметь выбираемые графические объекты, которые соответствуют нажимным кнопкам традиционных телефонов, клавишам традиционной клавиатуры и различным мобильным задачам. Сенсорными экранами и устройствами ввода, содержащими сенсорные экраны, иногда сложно управлять. Например, пользователь, который использует кончик своего пальца для активации сенсорного экрана, может легко коснуться активной поверхности сенсорного экрана в положении, в котором пользователь не намеревался активировать сенсорный экран. Во многих случаях такая непреднамеренная активация приводит к выполнению непреднамеренных функций.
Именно ввиду этих и других соображений было создано настоящее изобретение.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Варианты осуществления настоящего изобретения направлены на предоставление пользовательского интерфейса на мобильном вычислительном устройстве для предоставления максимальной величины целевой поверхности на экране для начала прослушивания блока распознавания речи. Согласно вариантам осуществления, пользователь может нажать на любое место сенсорного экрана мобильного вычислительного устройства для активации прослушивания во взаимодействии с распознаванием речи. Вместо поиска сложной для обнаружения кнопки или нажатия на маленькую электростатическую клавишу, требующего от пользователя посмотреть на ее/его мобильное вычислительное устройство, весь сенсорный экран является механизмом ввода для активации устройства прослушивания блока распознавания речи.
Согласно варианту осуществления, когда мобильное вычислительное устройство принимает индикацию касания в любом месте на его интерфейсе сенсорного экрана, механизм прослушивания активируется и становится способным принимать ввод речи, и может формироваться подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана, чтобы уведомить пользователя о том, что механизм прослушивания был активирован. Согласно другому варианту осуществления, визуальная обратная связь, указывающая на измеряемый уровень громкости принятого ввода речи, может формироваться на сенсорном экране в местоположении, в котором принято касание.
Согласно другому варианту осуществления настоящего изобретения, контекст дисплея (экрана) также может использоваться в качестве ввода вдобавок к вводу речи для завершения набора задач. Например, дополнительный контекстный ввод может помочь в сужении результатов поиска для предоставления пользователю улучшенного качества распознавания речи.
Эти и другие признаки и преимущества будут очевидны из прочтения нижеследующего подробного описания и обзора связанных с ним чертежей. Стоит понимать, что как предыдущее общее описание, так и нижеследующее подробное описание являются лишь примерными и не являются ограничивающими заявленное изобретение.
Это краткое изложение сущности изобретения предоставлено, чтобы ввести подборку понятий в упрощенной форме, которые дополнительно описываются ниже в подробном описании. Это краткое изложение сущности изобретения не предназначено для определения ключевых признаков или важнейших признаков заявленного изобретения, и не предназначено для использования в качестве поддержки при определении объема заявленного изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 является диаграммой примерного мобильного вычислительного устройства.
Фиг. 2 является упрощенной блок-схемой, иллюстрирующей компоненты мобильного вычислительного устройства, которое может служить в качестве примерной среды функционирования для вариантов осуществления настоящего изобретения.
Фиг. 3 является упрощенной блок-схемой компьютерной архитектуры для использования блока коснуться-любого-места-чтобы-говорить, чтобы задействовать механизм прослушивания во взаимодействии с распознаванем речи на мобильном вычислительном устройстве.
Фиг. 4 является логической блок-схемой последовательности операций способа задействования механизма прослушивания во взаимодействии с распознаванием речи, используя блок коснуться-любого-места-чтобы-говорить.
Фиг. 5 является иллюстрацией примера визуальной обратной связи, предоставляемой блоком коснуться-любого-места-чтобы-говорить.
Фиг. 6 является иллюстрацией примера отображения индикатора уровня громкости, предоставляемого блоком коснуться-любого-места-чтобы-говорить.
Фиг. 7 является логической блок-схемой последовательности операций, иллюстрирующей способ для включения механизма прослушивания во взаимодействии с распознаванием речи, используя блок коснуться-любого-места-чтобы-говорить, в связи с указанием и использованием контекстных данных касания.
ПОДРОБНОЕ ОПИСАНИЕ
Как кратко описано выше, варианты осуществления настоящего изобретения направлены на задействование механизма прослушивания во взаимодействии с распознаванием речи на мобильном вычислительном устройстве. Посредством нажатия на любую заданную зону экрана мобильного вычислительного устройства блок коснуться-любого-места-чтобы-говорить (TATS) активирует механизм прослушивания блока распознавания речи для приема голосового ввода пользователя таким образом, чтобы блок распознавания речи мог преобразовать произносимые слова в машинно-читаемый ввод. Приложения распознавания речи могут использоваться на мобильных вычислительных устройствах для множества задач, включая, но не в качестве ограничения, голосовой набор номера (например, "позвонить Бобу"), открытый поиск в интернете (например, "пицца Сан-Франциско Калифорния" для нахождения ресторанов пиццы в Сан-Франциско), и преобразование речи в текст (например, текстовые сообщения или электронные письма).
Существует много способов ввода для задействования механизма прослушивания во взаимодействии с распознаванием речи на мобильном вычислительном устройстве, каждый из которых имеет свой собственный набор недостатков и иногда с трудом перевешивает выгоды от использования распознавания речи. Многие пользователи используют распознавание речи, потому что они используют свои мобильные вычислительные устройства в отвлекающей обстановке (например, во время ходьбы или вождения), что делает сложным смотреть на экран их устройства для выполнения задачи, используя аппаратные клавиши, многофункциональные клавиши, или заданные границы кнопок на интерфейсе сенсорного экрана. Варианты осуществления настоящего изобретения используют максимальную величину целевой поверхности на экране мобильного вычислительного устройства для активации механизма прослушивания, позволяя использование без зрительного взаимодействия. Включение режима прослушивания распознавания речи с вариантами осуществления настоящего изобретения не требует, чтобы пользователь смотрел на экран его/ее устройства, чтобы узнать, попадает ли он/она в конкретную целевую зону, также он/она не должен будет смотреть на или нащупывать тактильную кнопку, чтобы убедиться, что он/она нажимает на правильную кнопку.
Когда пользователь нажимает и удерживает экран мобильного вычислительного устройства своим пальцем, стилусом или другим устройством выбора, блок коснуться-любого-места-чтобы-говорить может дать либо визуальную, либо звуковую, либо тактильную индикацию, либо комбинацию их трех, чтобы указать, что механизм прослушивания активирован и блок распознавания речи готов записывать ввод речи. Когда получена индикация того, что пользователь закончил свой ввод речи, блок коснуться-любого-места-чтобы-говорить может дать любую другую индикацию (визуальную, звуковую, тактильную, или комбинацию их трех), чтобы указать, что механизм прослушивания деактивирован. Блок распознавания речи может либо обрабатывать данные локально на устройстве, либо удаленно через беспроводное соединение с сервером, на котором они могут обрабатываться. Приложение распознавания речи может затем принимать распознанный вывод и после этого может либо активировать заданное приложение, либо отобразить заданную информацию, либо выполнить заданную задачу, которую указал пользователь через приложение распознавания речи.
Согласно другому варианту осуществления, блок TATS может также быть реализован в виде "слоя" над существующим пользовательским интерфейсом. Когда блок TATS реализован в виде "слоя" над существующим пользовательским интерфейсом, он может использовать также чувствительную к контексту информацию визуального интерфейса вдобавок к неограниченным временным командам, чтобы помочь пользователю выполнить набор задач. На основании контекста экрана мобильного устройства и/или местоположения на экране, которого касается пользователь, может быть сделано определение контекста ввода речи пользователя. Например, если пользователь просматривает карту на своем мобильном вычислительном устройстве, он/она может коснуться конкретной зоны на интерфейсе карты и сказать "кинотеатры". Блок TATS может принять голосовой ввод, "кинотеатры", также как и содержащее контекст местоположение на интерфейсе карты, которого пользователь коснулся, чтобы получить информацию, относящуюся к кинотеатрам в окрестности географической зоны, связанной с выбранной зоной на интерфейсе карты. В качестве другого примера, касаясь картинки или веб-страницы и говоря "послать Бобу", пользователь мог бы послать объект, которого он коснулся, распознанному контакту, Бобу.
Нижеследующее подробное описание ссылается на сопроводительные чертежи. Где это возможно, одинаковые ссылочные числа используются на чертежах и в нижеследующем описании, чтобы указывать на одинаковые или схожие элементы. В то время как варианты осуществления изобретения могут быть описаны, возможны изменения, приспособления и другие осуществления. Например, замены, добавления или изменения могут быть произведены с элементами, проиллюстрированными на чертежах, а способы, описываемые в материалах настоящей заявки, могут быть изменены путем замены, переупорядочения или добавления этапов к раскрытым способам. Соответственно, нижеследующее подробное описание не ограничивает изобретение, а вместо этого точный объем изобретения определен прилагаемой формулой изобретения.
Стоит понимать, что различные варианты осуществления настоящего изобретения могут быть реализованы (1) в виде последовательности выполняемых компьютером действий или программных модулей, исполняемых на вычислительной системе и/или (2) в виде взаимосвязанных машинных логических схем или схемных модулей внутри вычислительной системы. Реализация является вопросом выбора, зависящим от требований производительности вычислительной системы, реализующей изобретение. Соответственно, логические операции, включающие связанные алгоритмы, могут упоминаться различными способами как операции, структурные устройства, действия или блоки. Специалисту в данной области техники будет понятно, что эти операции, структурные устройства, действия и блоки могут быть реализованы в программном обеспечении, микропрограммном обеспечении, цифровой логической схеме специального назначения и любой их комбинации без отклонения от существа и объема настоящего изобретения, определяемого формулой изобретения, приведенной в материалах настоящей заявки.
Нижеследующее является описанием подходящего мобильного вычислительного устройства, например мобильного телефона, с помощью которого могут быть осуществлены на практике варианты осуществления настоящего изобретения. Со ссылкой на фиг. 1, проиллюстрирован пример мобильного вычислительного устройства 100 для реализации вариантов осуществления. В базовой конфигурации мобильное вычислительное устройство 100 является портативным компьютером, имеющим как элементы ввода, так и элементы вывода. Элементы ввода могут включать в себя сенсорный дисплей 105 и кнопки 115 ввода, которые позволяют пользователю вводить информацию в мобильное вычислительное устройство 100. Мобильное вычислительное устройство 100 может также включать в себя необязательный боковой элемент 125 ввода, делающий возможным дополнительный пользовательский ввод. Необязательный боковой элемент 125 ввода может являться поворотным переключателем, кнопкой или любым другим типом элемента ручного ввода. В альтернативных вариантах осуществления мобильное вычислительное устройство 100 может включать в себя больше или меньше элементов ввода. Например, дисплей 105 может не являться сенсорным в некоторых вариантах осуществления. В еще одном варианте осуществления, мобильное вычислительное устройство является системой портативного телефона, такой как сотовый телефон, имеющий дисплей 105 и кнопки ввода 115. Мобильное вычислительное устройство 100 может также включать в себя необязательную клавиатуру 115. Необязательная клавиатура 115 может являться физической клавиатурой, или "мягкой" клавиатурой, формируемой на сенсорном дисплее.
Мобильное вычислительное устройство 100 включает в себя элементы вывода, такие как дисплей 105, который может отображать графический пользовательский интерфейс (GUI). Другие элементы вывода включают в себя динамик 130 и светодиодный (СИД, LED) индикатор 120. Вдобавок, мобильное вычислительное устройство 100 может включать в себя блок вибрации (не показано), который вызывает вибрацию мобильного вычислительного устройства 100, чтобы уведомить пользователя о событии. В еще одном варианте осуществления, мобильное вычислительное устройство 100 может включать в себя разъем для наушников (не показано) для предоставления еще одного средства предоставления выходных сигналов.
Хотя изобретение описано в материалах настоящей заявки в сочетании с мобильным вычислительным устройством 100, в альтернативных вариантах осуществления оно может использоваться в сочетании с любым количеством компьютерных систем, таких как среда настольной системы, компьютерные системы ноутбука, многопроцессорные системы, основанной на микропроцессоре или программируемой бытовой электронике, сетевые персональные компьютеры (ПК, PC), миникомпьютеры, мейнфреймы и тому подобное. Варианты осуществления изобретения могут также осуществляться в распределенных компьютерных средах, в которых задачи выполняются удаленными обрабатывающими устройствами, которые соединены через сеть связи в распределенной компьютерной среде; программы могут быть расположены как на локальных, так и на удаленных запоминающих устройствах. В итоге, любая компьютерная система, имеющая множество датчиков среды, множество элементов вывода для предоставления уведомлений пользователю и множество типов событий уведомления, может включать в себя варианты осуществления настоящего изобретения.
Фиг. 2 является блок-схемой, иллюстрирующей компоненты мобильного вычислительного устройства, используемого в одном из вариантов осуществления, такого как мобильное вычислительное устойство, показанное на фиг. 1. То есть мобильное вычислительное устройство 100 (фиг. 1) может включать в себя систему 200 для реализации некоторых вариантов осуществления. Например, система 200 может использоваться в реализации "смартфона", который может выполнять одно или более приложений, схожих с приложениями на настольном компьютере или ноутбуке, такими как, например, браузер, электронная почта, составление расписания, мгновенный обмен сообщениями и приложения медиа проигрывателя. Система 200 может выполнять операционную систему (ОС, OS), такую как WINDOWS XP®, WINDOWS CE®, доступные от корпорации Майкрософт, Редмонд, Вашингтон. В некоторых вариантах осуществления система 200 встроена в виде вычислительного устройства, такого как встроенный персональный цифровой секретарь (PDA) и беспроводной телефон.
Одна или более прикладных программ 266 могут загружаться в память 262 и выполняться на или в связи с операционной системой 264. Примеры прикладных программ включают в себя программы набора номера, программы электронной почты, программы личной информационной системы (PIM), программы текстовой обработки, программы обработки электронных таблиц, программы Интернет браузера, программы отправки сообщений и так далее. Система 200 также включает в себя энергонезависимое запоминающее устройство 268 в составе памяти 262. Энергонезависимое запоминающее устройство 268 может использоваться для хранения постоянной информации, которая не должна теряться, если система 200 выключается. Приложения 266 могут использовать и хранить информацию в энергонезависимом запоминающем устройстве 268, такую как электронные письма или другие сообщения, используемые приложением электронной почты и тому подобное. Приложение синхронизации (не показано) также находиться в системе 200 и запрограммировано взаимодействовать с соответствующим приложением синхронизации, находящемся на главном компьютере, чтобы поддерживать информацию, хранимую в энергонезависимом запоминающем устройстве 268, синхронизированной с соответствующей информацией, хранимой на главном компьютере. Стоит понимать, что другие приложения также могут загружаться в память 262 и выполняться на устройстве 100.
Согласно варианту осуществления, приложение 265 коснуться-любого-места-чтобы-говорить приспособлено для активации механизма прослушивания блока распознавания речи, выполненного с возможностью приема речевой информации от пользователя для использования в различных приложениях, как описано ниже.
Система 200 имеет источник 270 питания, который может быть реализован в виде одной или более батарей. Источник 270 питания может дополнительно включать в себя внешний источник энергии, такой как внешний блок питания или питаемое установочное гнездо, которое дополняет или перезаряжает батареи.
Система 200 может также включать в себя радио 272, которое выполняет функцию передачи и приема радиочастотной связи. Радио 272 обеспечивает беспроводную связь между системой 200 и "внешним миром" с помощью коммуникационного носителя или поставщика услуг. Передачи на и с радио 272 выполняются под управлением ОС 264. Другими словами, передачи, принимаемые радио 272, могут быть распределены по программам 266 с помощью ОС 264, и наоборот.
Радио 272 позволяет системе 200 осуществлять связь с другими вычислительными устройствами, например, через сеть. Радио 272 является одним из примеров средств связи. Среды связи могут типично воплощать машинно-читаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и включают любые среды доставки информации. Термин "модулированный сигнал данных" означает сигнал, который имеет одну или более характеристик, устанавливаемых или изменяемых таким образом, чтобы закодировать информацию в сигнале. В качестве примера, но не ограничения, среды связи включают в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустические, радиочастотные (РЧ, RF), инфракрасные и другие беспроводные среды. Термин машинно-читаемый носитель , используемый в материалах настоящей заявки, охватывает как носители данных, так и среды связи.
Этот вариант осуществления системы 200 показан с двумя устройствами вывода уведомлений, СИД 120, который может использоваться для предоставления визуальных уведомлений, и аудио интерфейс 274, который может использоваться с динамиком 130 для предоставления звуковых уведомлений. Эти устройства могут быть прямо подключены к источнику 270 питания таким образом, чтобы при активации они оставались включенными в течение времени, определенного механизмом уведомления, даже если процессор 260 и другие компоненты могут выключиться для сохранения заряда батареи. СИД 120 может быть запрограммирован оставаться включенным неограниченно до тех пор, пока пользователь выполняет действие, чтобы указывать на включенный статус устройства. Аудио интерфейс 274 используется, чтобы предоставлять звуковые сигналы пользователю и принимать звуковые сигналы от него. Например, вдобавок к тому, что аудио интерфейс 274 соединен с динамиком 130, он также может быть соединен с микрофоном, чтобы принимать звуковой ввод, например, чтобы способствовать телефонному разговору. В соответствии с вариантами осуществления настоящего изобретения, микрофон также может служить в качестве звукового датчика, чтобы способствовать управлению уведомлениями, как будет описано ниже.
Система 200 может дополнительно включать в себя видео интерфейс 276, который делает возможным функционирование встроенной камеры 135 для записи неподвижных изображений, потока видео и тому подобного.
Мобильное вычислительное устройство, реализующее систему 200, может иметь дополнительные признаки или функциональность. Например, устройство может также включать в себя дополнительные запоминающие устройства (сменные и/или несменные), такие как магнитные диски, оптические диски или лента. Такое дополнительное запоминающее устройство проиллюстрировано на фиг. 2 с помощью запоминающего устройства 268. Компьютерные носители данных могут включать в себя энергозависимые и энергонезависимые, сменные и несменные носители, реализуемые любым способом или технологией для хранения информации, такой как машинно-читаемые команды, структуры данных, программные модули или другие данные.
Данные/информация, формируемые или записываемые устройством 100 и сохраняемые с помощью системы 200, могут храниться локально на устройстве 100, как описано выше, или данные могут храниться на любом количестве носителей данных, к которым можно осуществить доступ с помощью радио 272 или с помощью проводного соединения между устройством 100 и отдельным вычислительным устройством 330, связанным с устройством 100, например, серверным компьютером в распределенной вычислительной сети 320, такой как Интернет. Как стоит понимать, к таким данным/информации можно осуществить доступ с помощью устройства 100 посредством радио 272 или посредством распределенной вычислительной сети 320. Подобным образом, такие данные/информация могут быть переданы между вычислительными устройствами для хранения и использования согласно известным средствам передачи и хранения данных/информации, включая электронные письма и системы совместного использования общих данных/информации.
Фиг. 3 является упрощенной блок-схемой компьютерной архитектуры для использования блока 265 коснуться-любого-места-чтобы-говорить (TATS) для инициирования прослушивания блока 330 распознавания речи на мобильном вычислительном устройстве 100. Согласно варианту осуществления, после того, как индикация касания экрана 105 мобильного вычислительного устройства 100 принимается блоком 265 TATS, процесс распознавания речи, посредством которого распознается принимаемый звуковой ввод, может быть выполнен с помощью архитектуры распознавания речи, как проиллюстрировано на фиг. 4. Как стоит понимать, архитектура 330 распознавания речи, проиллюстрированная на фиг. 4, может быть объединена с блоком 265 TATS, или архитектура распознавания речи, проиллюстрированная на фиг. 4, может вызываться блоком 265 TATS для получения распознавания звукового ввода.
Согласно одному из вариантов осуществления, как только заданный звуковой ввод распознается как текстовая строка, например, "пицца город Нью-Йорк", и идентифицируется, как связанный с заданной задачей, например, Интернет поиском, блок 340 действия может активироваться, чтобы передать распознанную текстовую строку на локальный источник 310 информации или через распределенную вычислительную сеть 320 на удаленный источник 350 для извлечения информации, применимой к текстовой строке. Например, если звуковой ввод, "Боб", распознается блоком 330 распознавания как контакт в адресной книге пользователя или списке контактов, то блок 340 действия может передать идентифицированную текстовую строку на все источники информации, содержащиеся на локальном источнике 310 и/или удаленном источнике 350, через распределенную вычислительную сеть 320 для получения доступной информации, связанной с выбранной текстовой строкой. Согласно варианту осуществления, блок 340 действия может предоставлять пользователю варианты выполнения мобильной задачи, связанной с распознанным контактом. Вновь со ссылкой на вышеприведенный пример, в котором пользователь говорит "Боб" и ввод распознается как контакт в адресной книге пользователя, блок 340 действия может предоставить пользователю варианты выполнения действия, например, заказать разговор по телефону либо отправить электронное письмо или мгновенное сообщение распознанному контакту, Бобу.
Информация, соответствующая текстовой строке, из каждого доступного источника может возвращаться на блок 265 TATS для предоставления пользователю для последовательного использования в желаемом приложении программного обеспечения или мобильной задаче. Например, если было обнаружено, что звуковой ввод "Боб" соответствует двум возможным совпадениям, "Боб Смит" и "Боб Дэвис", тогда обе соответствующих записи могут быть представлены пользователю на пользовательском интерфейсе, отображаемом на его/ее мобильном вычислительном устройстве 100, чтобы позволить пользователю выбрать его/ее желаемую запись. Как только пользователь выберет желаемую запись, выбранная текстовая строка может быть передана одному или более приложениям программного обеспечения, как более подробно описано ниже. Как стоит понимать, блок 330 распознавания речи может быть запрограммирован для распознавания многих типов данных, например команд, адресов, географических местоположений, названий книг, названий фильмов и так далее. Если пользователю представлены варианты (опции), которые не соответствуют желаемой для пользователя записи, пользователь может осуществить нажатие на и удерживать экран 105 мобильного вычислительного устройства 100, чтобы вновь обеспечить звуковой ввод, или он/она может осуществить нажатие вне зоны отображаемых соответствий, чтобы избежать необходимости возврата к предыдущему экрану ввода, чтобы нажать и говорить.
Фиг. 4 является логической блок-схемой последовательности операций, иллюстрирующей способ для предоставления блока 265 коснуться-любого-места-чтобы-говорить (TATS) для задействования механизма прослушивания во взаимодействии с распознавание речи на мобильном вычислительном устройстве 100. Описав выше примерную среду функционирования и аспекты вариантов осуществления настоящего изобретения относительно фиг. 1-3, теперь полезно описать примерное функционирование варианта осуществления настоящего изобретения. Со ссылкой на фиг. 4, способ 400 начинается в операции 405 начала и переходит к операции 410, в которой блок 265 TATS выбирается и открывается пользователем. Пользователь может открывать блок 265 TATS с помощью известных способов ввода, например, касаясь ярлыка или текстовой строки, представляющей блок 265 TATS на экране 105 мобильного вычислительного устройства 100.
После того как блок 265 TATS открыт, способ переходит к операции 415, в которой блок TATS принимает индикацию касания любого места на сенсорном экране 105 мобильного вычислительного устройства 100. Как следует понимать, касание может быть касанием пальца пользователя или посредством устройства, такого как стилус. Согласно вариантам осуществления изобретения, принятое касание является способом, посредством которого режим прослушивания включается во взаимодействии распознавания речи. То есть варианты осуществления настоящего изобретения позволяют пользователю касаться любого места на сенсорном экране 105 устройства 100, чтобы указать блоку распознавания речи начать прослушивание звукового ввода. Варианты осуществления настоящего изобретения позволяют пользователю касаться любого места на экране 105 устройства 100, чтобы задействовать механизм прослушивания, в противоположность взаимодействию нажать-чтобы-говорить с помощью альтернативного способа ввода, такого как аппаратный боковой элемент 125 ввода, который может являться поворотным переключателем, кнопкой или любым другим типом элемента ручного ввода, аппаратными кнопками 115 ввода, многофункциональными кнопками, заданными границами кнопок на интерфейсе сенсорного экрана 105, или другими известными элементами.
Согласно варианту осуществления, касание может являться компонентом модели взаимодействия нажать-и-удерживать, где пользователь касается экрана 105, чтобы активировать прослушивание, удерживает свой палец (или другой механизм, используемый для касания интерфейса сенсорного экрана) на экране, пока он/она производит звуковой ввод, а затем отпускает свой палец или иной механизм касания, чтобы деактивировать прослушивание. Согласно другому варианту осуществления, касание может являться моделью взаимодействия нажать-и-отпустить, в которой, как и в предыдущей модели, пользователь касается экрана 105, чтобы активировать прослушивание; однако при отпускании его/ее пальца или иного механизма касания, приложение 330 распознавания речи остается в режиме прослушивания. Механизм прослушивания может быть деактивирован посредством индикации последующего касания, если тишина определяется в течение заданного промежутка времени, или с помощью другого способа, посредством которого индикация конца речи может быть обнаружена данным приложением.
После того, как индикация касания принята блоком 265 TATS, в операции 420 может быть предоставлена обратная связь, для подтверждения приема касания. Согласно варианту осуществления, и как проиллюстрировано на фиг. 5 в связи с фиг. 4, обратная связь 505 может являться визуальной обратной связью (например, анимированное отображение на экране 105), звуковой обратной связью (например, проигрываемый через динамик 130 звуковой тон), тактильной обратной связью (например, вибрация), или комбинацией их трех. Согласно варианту осуществления, визуальная обратная связь 505 может указывать, какого участка экрана 105 коснулся пользователь. Например, как проиллюстрировано на фиг. 5, изображение 505 может отображаться на экране 105, чтобы предупредить пользователя о том, что индикация касания была принята в местоположении, в котором отображается изображение. Обратная связь может предупредить пользователя о том, что блок 265 TATS принял ввод касания и, соответственно, был активирован механизм прослушивания, как показано в операции 425, как проиллюстрировано на фиг. 4. Согласно одному из вариантов осуществления блок 265 TATS может посылать обратную связь, подтверждающую прием касания, пользователю (операция 420) и активировать механизм прослушивания (операция 425) одновременно. Согласно другому варианту осуществления, операция 420 может происходить перед операцией 425. Согласно другому варианту осуществления, операция 425 может происходить перед операцией 420.
Как только механизм прослушивания активирован, блок 330 распознавания речи готов принимать звуковой ввод от пользователя. В операции 430 пользователь может говорить, а его произносимое высказывание может приниматься механизмом прослушивания. Как должно быть понятно специалистам в данной области техники, распознавание речи является известной технологией, которая не будет обсуждаться на протяжении материалов настоящей заявки.
В операции 431, в то время как принимается 430 произносимое высказывание, на экране отображается визуальная обратная связь измеряемого уровня громкости произносимого высказывания. Со ссылкой на фиг. 6 в связи с фиг. 4, обратная связь может являться индикатором 605 уровня громкости. Согласно варианту осуществления, индикатор уровня громкости может быть сформирован в виде последовательности концентрических колец, исходящих из тронутого местоположения по мере того, как обнаруживается больший уровень громкости. Согласно другому варианту осуществления, концентрические кольца могут изменять цвет или затенение по мере того, как уровень громкости возрастает. Как проиллюстрировано на фиг. 6, примерный индикатор 605 уровня громкости отображается на экране 105 мобильного вычислительного устройства 100, отражая уровень громкости, на котором говорит пользователь. В этом примере уровень громкости, на котором говорит пользователь, показан обнаруженным на третьем уровне из максимума в пять уровней. Если пользователь говорит громче, следующее кольцо может изменить цвет или затенение, чтобы сообщить пользователю, что уровень громкости его голоса вырос. Если пользователь говорит более тихо, количество имеющих цвет или затененных колец может уменьшиться, чтобы сообщить пользователю, что уровень громкости его голоса снизился. Анимированное отображение является способом предоставления визуальной обратной связи и помощи в самокоррекции.
Все еще со ссылкой на фиг. 4, после того как пользователь заканчивает свое произносимое высказывание, в операции 435 принимается указание закончить режим прослушивания. Как описано выше, согласно одному из вариантов осуществления, может использоваться модель взаимодействия нажать-и-удерживать, в которой пользователь касается экрана 105, чтобы активировать прослушивание, удерживает свой палец (или другой механизм, используемый для касания интерфейса сенсорного экрана) на экране, пока он/она производит звуковой ввод, а затем отпускает свой палец или иной механизм касания, чтобы указать блоку 265 TATS деактивировать прослушивание. Согласно другому варианту осуществления, может использоваться модель нажать-и-отпустить, в которой указание закончить прослушивание может происходить с помощью индикации последующего касания. Согласно другому варианту осуществления, тишина, обнаруженная в течение заданного промежутка времени, может являться указанием механизму прослушивания заканчивать прослушивание. Как стоит понимать, могут использоваться другие способы, чтобы указать, что пользователь закончил говорить, и что приложение должно выйти из режима прослушивания.
Когда получено указание закончить прослушивание, в операции 440 механизм деактивируется, и блок 330 распознавания речи больше не принимает звуковой ввод до тех пор, пока он снова не получит указание активировать механизм прослушивания. В операции 445 блок 265 TATS подтверждает, что он принял указание деактивировать прослушивание и, следовательно, механизм прослушивания был деактивирован. Согласно варианту осуществления, подтверждение может являться визуальной обратной связью, звуковой обратной связью, тактильной обратной связью или комбинацией их трех. Согласно одному из вариантов осуществления, операции 440 и 445 могут происходить одновременно. Согласно другому варианту осуществления, операция 440 может происходить перед операцией 445. Согласно другому варианту осуществления, операция 440 может происходить после операции 445.
В операции 450 принятый звуковой ввод отправляется блоку распознавания речи, где он может быть переведен в цифровые данные, проанализирован, и может быть определено, что сказал пользователь. Блок 330 распознавания речи может быть встроен в мобильное вычислительное устройство 100 или располагаться удаленно и быть доступным через беспроводное соединение с сервером. Когда речь распознана, она может быть отправлена блоку 340 действия для выполнения распознанной желаемой функции пользователя. Например, если было определено, что пользователь сказал "перечень фильмов, Даллас, Техас", блок 340 действия может отправить данные поисковой машине через беспроводное соединение, чтобы извлечь информацию о текущем перечне фильмов в Далласе, Техас. В операции 455 извлеченные данные могут быть отправлены пользователю и отображены на экране 105 мобильного вычислительного устройства. Согласно варианту осуществления, извлеченные данные могут требовать использование других мобильных приложений. Например, в случае поиска перечней фильмов, чтобы извлечь определенные данные, может понадобиться использовать приложение браузера. Способ заканчивается в операции 460.
Как кратко описано ранее, вариант осуществления настоящего изобретения включает в себя использование чувствительной к контексту информации визуального интерфейса вдобавок к неограниченным временным командам, чтобы помочь пользователю выполнить набор задач. Фиг. 7 является логической блок-схемой последовательности операций, иллюстрирующей способ для предоставления блока 265 коснуться-любого-места-чтобы-говорить (TATS) для задействования механизма прослушивания во взаимодействии с распознаванием речи на мобильном вычислительном устройстве 100, в котором контекст экрана, где пользователь совершил касание, может быть обнаружен и использован в связи с принятым звуковым вводом.
Согласно варианту осуществления, блок 265 TATS может быть выполнен с возможностью использования данных, связанных с касанием, чтобы не только задействовать механизм прослушивания блока 330 распознавания речи, но также чтобы задействовать механизм прослушивания в пределах контекста местоположения или другой контекстной информации, к которой прикасаются. На основании контекста экрана 105 мобильного устройства 100 и/или местоположения на экране 105, которого касается пользователь, блок 265 TATS может определить контекст ввода речи пользователя. Соответственно, пользователю предоставляется более нацеленная информация. Например, если пользователь просматривает карту на своем мобильном вычислительном устройстве 100, и он касается конкретной зоны на интерфейсе карты и говорит "кофе", блок 265 TATS может принимать голосовой ввод "кофе", так же как и осведомленное о контексте местоположение на интерфейсе карты, в котором пользователь коснулся сенсорного экрана, чтобы извлечь информацию, относящуюся к кофе и специфицированную по местоположению выбранной зоны на интерфейсе карты. Если пользователь просматривает ту же карту, что и в предыдущем примере, и говорит "кофе", но касается другой точки на интерфейсе карты, возвращенные результаты могут быть другими, потому что ввод контекстного местоположения изменился. Снабжение контекстных визуальных данных произносимыми данными может сделать возможными огромное количество возможных приложений. Например, произнося инструктивную команду (например, "увеличить масштаб") и касаясь при этом интерфейса карты, можно произвести другие результаты, чем произнося высказывание, подразумеваемое как поисковый запрос.
Со ссылкой на фиг. 7, способ 700 начинается в операции 705 начала и переходит к операции 710, в которой блок 265 TATS выбирается и открывается пользователем. Пользователь может открывать блок 265 TATS с помощью известных способов ввода, например, касаясь ярлыка или текстовой строки, представляющей блок 265 TATS на экране 105 мобильного вычислительного устройства 100.
После того как блок 265 TATS открыт, способ переходит к операции 715, в которой блок TATS принимает индикацию касания внутри контекстной зоны сенсорного экрана 105 мобильного вычислительного устройства 100. Как следует понимать, касание может быть касанием пальца пользователя или посредством устройства, такого как стилус. Согласно вариантам осуществления изобретения, принятое касание является способом, посредством которого режим прослушивания включается во взаимодействии распознавания речи. Варианты осуществления настоящего изобретения позволяют пользователю касаться любого места в пределах контекстной зоны на сенсорном экране 105 устройства 100, чтобы указать блоку распознавания речи начать прослушивание звукового ввода.
Согласно варианту осуществления, касание может являться компонентом модели взаимодействия нажать-и-удерживать, в которой пользователь касается экрана 105, чтобы активировать прослушивание, удерживает свой палец (или другой механизм, используемый для касания интерфейса сенсорного экрана) на контекстной зоне экрана, пока он/она производит звуковой ввод, а затем отпускает свой палец или иной механизм касания, чтобы деактивировать прослушивание. Согласно другому варианту осуществления, касание может являться моделью взаимодействия нажать-и-отпустить, в которой, как и в предыдущей модели, пользователь касается контекстной зоны экрана 105, чтобы активировать прослушивание; однако при отпускании его/ее пальца или иного механизма касания, приложение 330 распознавания речи остается в режиме прослушивания. Механизм прослушивания может быть деактивирован посредством индикации последующего касания, если тишина определяется в течение заданного промежутка времени, или с помощью другого способа, посредством которого индикация конца речи может быть обнаружена данным приложением.
После того как индикация касания принята блоком 265 TATS, в операции 720 может быть предоставлена обратная связь, чтобы подтвердить прием касания. Согласно варианту осуществления, обратная связь 505 может являться визуальной обратной связью (например, анимированное отображение на экране 105), звуковой обратной связью (например, проигрываемый через динамик 130 звуковой тон), тактильной обратной связью (например, вибрация) или комбинацией их трех. Согласно варианту осуществления, визуальная обратная связь 505 может указывать, какого участка экрана 105 коснулся пользователь. Например, вновь со ссылкой на фиг. 5, изображение 505 может отображаться на экране 105, чтобы предупредить пользователя о том, что индикация касания была принята в местоположении, в котором отображается изображение. Обратная связь 505 может предупредить пользователя о том, что блок 265 TATS принял ввод касания и, соответственно, был активирован механизм прослушивания, как показано в операции 725, как проиллюстрировано на фиг. 7. Согласно одному из вариантов осуществления, блок 265 TATS может посылать обратную связь, подтверждающую прием касания, пользователю (операция 720) и активировать механизм прослушивания (операция 725) одновременно. Согласно другому варианту осуществления, операция 720 может происходить перед операцией 725. Согласно другому варианту осуществления, операция 725 может происходить перед операцией 720.
Как только механизм прослушивания активирован, блок 330 распознавания речи готов принимать звуковой ввод от пользователя. В операции 730 пользователь может говорить, а его произносимое высказывание может приниматься механизмом прослушивания. Как должно быть понятно специалистам в данной области техники, распознавание речи является известной технологией, которая не будет обсуждаться на протяжении материалов настоящей заявки.
В операции 731, в то время как принимается 730 произносимое высказывание пользователя, как описано ранее со ссылкой на операцию 431 на фиг. 4, визуальная обратная связь 605 измеренного уровня громкости произносимого высказывания может отображаться на экране 105 сформированной как центрированная вокруг зоны на сенсорном экране 105, в которой принято касание.
Продолжая в операции 732, блок 265 TATS может определять контекстные данные касания и определять идентификацию касания в связи с определенными контекстными данными. В операции 733 идентификация касания может быть передана блоку 265 TATS. Например, если пользователь просматривает карту города, он/она может коснуться конкретной зоны карты и произнести высказывание. Конкретная зона карты, отображаемая на интерфейсе экрана, которой коснулся пользователь, может считываться и определяться как конкретная широта и долгота, которые надо использовать в связи с принятыми голосовыми данными, чтобы выполнять распознанную желаемую функцию пользователя.
В операции 735 принимается указание закончить режим прослушивания. Соответственно, в операции 740 механизм прослушивания деактивируется, а в операции 745 предоставляется подтверждение того, что механизм прослушивания был деактивирован.
В операции 750 принятый звуковой ввод отправляется блоку распознавания речи, где он может быть переведен в цифровые данные, проанализирован в связи с определенными контекстными данными касания, и может быть определено, что сказал пользователь. Блок 330 распознавания речи может быть встроен в мобильное вычислительное устройство 100 или располагаться удаленно и быть доступным через беспроводное соединение с сервером. Когда речь распознана, она может быть отправлена блоку 340 действия для выполнения распознанной желаемой функции пользователя. Согласно варианту осуществления, определение и использование контекстных данных касания могут происходить на различных этапах в процессе, и не обязательно в операции 750.
В операции 755 извлеченные данные могут быть отправлены пользователю и отображены на экране 105 мобильного вычислительного устройства. Согласно варианту осуществления, извлеченные данные могут требовать использование других мобильных приложений. Способ заканчивается в операции 760.
Согласно варианту осуществления, взаимодействие нажать-и-удерживать может сделать возможными определенные функции распознавания речи; в то время как, в качестве альтернативы, взаимодействие нажать и отпустить может сделать возможными другие функциональности. Например, если пользователь касается своим пальцем экрана 105 своего мобильного устройства 100 и затем убирает свой палец с экрана 105, блок 265 TATS может включить механизм прослушивания для взаимодействия распознавания речи. Однако, если он касается своим пальцем экрана 105 своего мобильного устройства и оставляет свой палец на экране 105, блок 265 TATS может включить механизм прослушивания для взаимодействия распознавания речи в пределах контекста касания. Согласно этому примеру, действие нажать и удерживать делает различие для блока 265 TATS, чтобы применять контекст визуального интерфейса вдобавок к звуковому вводу. Стоит понимать, что могут существовать другие способы для разграничения между желаемыми приложениями взаимодействия. Хотя изобретение было описано в связи с различными вариантами осуществления, специалистам в данной области техники будет понятно, что в них можно сделать много изменений в пределах объема нижеследующих пунктов формулы изобретения.
Класс G06F3/01 вводные устройства или комбинированные вводные и выводные устройства для взаимодействия пользователя с компьютером
Класс G10L21/00 Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость