методики управления мультимедийным содержимым для события мультимедийной конференции

Классы МПК:H04N7/15 системы для конференц-связи
H04N21/431 генерирование визуальных взаимодействий; воспроизведение контента или дополнительных данных
Автор(ы):, , ,
Патентообладатель(и):МАЙКРОСОФТ КОРПОРЕЙШН (US)
Приоритеты:
подача заявки:
2009-04-17
публикация патента:

Изобретение относится к мультимедийной конференции в сети связи для совместного использования различных типов мультимедийного содержимого (контента) в течение конференции в реальном времени. Техническим результатом является улучшение взаимодействия с пользователями и повышение уровня удобства мультимедийной конференции. Указанный технический результат достигается тем, что компонент менеджера мультимедийного содержимого действует так, чтобы генерировать визуальную композицию для события мультимедийной конференции. Компонент менеджера мультимедийного содержимого может содержать модуль видеодекодера, действующего так, чтобы декодировать множество мультимедийных потоков для события мультимедийной конференции. Компонент менеджера мультимедийного содержимого может содержать модуль менеджера мультимедийного потока, который действует так, чтобы определять, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных кадров отображения в визуальной композиции. Компонент менеджера мультимедийного содержимого может содержать модуль выбора мультимедийного содержимого, который действует так, чтобы выбирать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для ее сопоставления доступным кадрам отображения на основании речевой активности. 3 н. и 8 з.п. ф-лы, 7 ил. методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423

методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423 методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423 методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423 методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423 методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423 методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423 методики управления мультимедийным содержимым для события мультимедийной   конференции, патент № 2518423

Формула изобретения

1. Способ управления мультимедийным содержимым, содержащий этапы, на которых:

принимают через сеть множество мультимедийных потоков для события мультимедийной конференции;

декодируют это множество мультимедийных потоков;

вычисляют общее количество доступных фреймов отображения в визуальной композиции на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем;

определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции;

выбирают активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой активности;

генерируют первую оценку активности для представления величины отношения речевой активности к отсутствию речевой активности, вторую оценку активности для представления величины длительности речевой активности участника и третью оценку активности для представления самого последнего времени речевой активности участника; и

выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности.

2. Способ по п.1, содержащий этап, на котором выбирают члена неактивной группы декодируемых мультимедийных потоков в качестве неактивного кандидата на замену для замены члена активной группы декодируемых мультимедийных потоков на основе речевой активности.

3. Способ по п.1, содержащий этап, на котором заменяют активного кандидата на замену из активной группы на неактивного кандидата на замену из неактивной группы.

4. Способ по п.1, содержащий этап, на котором сопоставляют активную группу декодируемых мультимедийных потоков с доступными фреймами отображения на основе упомянутых оценок активности, причем упомянутая активная группа представляет собой поднабор общего количества декодируемых мультимедийных потоков.

5. Считываемый компьютером носитель информации, содержащий инструкции, которые при их исполнении предписывают компьютерной системе:

принимать через сеть множество мультимедийных потоков для события мультимедийной конференции;

декодировать это множество мультимедийных потоков;

вычислять общее количество доступных фреймов отображения в визуальной композиции на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем;

определять, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции;

выбирать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой активности;

генерировать первую оценку активности для представления величины отношения речевой активности к отсутствию речевой активности, вторую оценку активности для представления величины длительности речевой активности участника и третью оценку активности для представления самого последнего времени речевой активности участника; и

выбирать члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности.

6. Считываемый компьютером носитель информации по п.5, дополнительно содержащий инструкции, которые при их исполнении предписывают компьютерной системе выбирать члена неактивной группы декодируемых мультимедийных потоков в качестве неактивного кандидата на замену для замены члена активной группы декодируемых мультимедийных потоков на основе речевой активности.

7. Считываемый компьютером носитель информации по п.5, дополнительно содержащий инструкции, которые при их исполнении предписывают компьютерной системе заменять активного кандидата на замену из активной группы на неактивного кандидата на замену из неактивной группы.

8. Устройство для управления мультимедийным содержимым, содержащее:

дисплей;

компонент менеджера мультимедийного содержимого, коммуникационно соединенный с дисплеем и выполненный с возможностью генерировать визуальную композицию для события мультимедийной конференции, причем компонент менеджера мультимедийного содержимого содержит:

модуль видеодекодера, выполненный с возможностью декодировать множество мультимедийных потоков для события мультимедийной конференции;

модуль менеджера мультимедийных потоков, коммуникационно соединенный с модулем видеодекодера, причем модуль менеджера мультимедийного потока выполнен с возможностью вычислять общее количество доступных фреймов отображения в визуальной композиции на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем, и определять, что общее количество декодируемых мультимедийных потоков больше общего количества доступных фреймов отображения в визуальной композиции;

модуль генерации оценки активности, коммуникационно соединенный с модулем детектора активного говорящего, при этом модуль генерации оценки активности выполнен с возможностью генерировать первую оценку активности для представления величины отношения речевой активности к отсутствию речевой активности, вторую оценку активности для представления величины длительности речевой активности участника и третью оценку активности для представления самого последнего времени речевой активности участника; и

модуль выбора мультимедийного содержимого, коммуникационно соединенный с модулем менеджера мультимедийных потоков, причем модуль выбора мультимедийного содержимого выполнен с возможностью выбирать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для их сопоставления с доступными фреймами отображения на основе речевой активности и выбирать члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности.

9. Устройство по п.8, содержащее модуль детектора активного говорящего, коммуникационно соединенный с модулем видеодекодера, причем модуль детектора активного говорящего выполнен с возможностью детектировать речевую активность для участников в декодируемых мультимедийных потоках.

10. Устройство по п.8, в котором модуль выбора мультимедийного содержимого выполнен с возможностью выбирать члена неактивной группы декодируемых мультимедийных потоков в качестве неактивного кандидата на замену для замены члена активной группы декодируемых мультимедийных потоков на основе речевой активности.

11. Устройство по п.8, в котором модуль менеджера мультимедийных потоков выполнен с возможностью заменять активного кандидата на замену из активной группы на неактивного кандидата на замену из неактивной группы.

Описание изобретения к патенту

Уровень техники

Система мультимедийной конференции, как правило, позволяет множеству участников осуществлять связь и совместно использовать разные типы мультимедийного содержимого в течение конференции через сеть в реальном времени. Эта система мультимедийной конференции может отображать разные типы мультимедийного содержимого, используя различные окна или виды Графического Интерфейса Пользователя (Graphical User Interface, GUI). Например, один вид GUI может включать в себя видеоизображения участников, еще один вид GUI может включать в себя слайды презентации, еще один вид GUI может включать в себя текстовые сообщения, которыми обмениваются пользователи, и т.п. Таким образом, географически разнесенные участники могут взаимодействовать и обмениваться информацией в окружении виртуальной конференции, которое похоже на окружение физической конференции, где все участники находятся в одной комнате.

В окружении виртуальной конференции, тем не менее, отображение всех участников конференции может представлять сложности. Эта проблема, как правило, усиливается по мере увеличения количества участников конференции, поскольку некоторые участники могут говорить, когда они не отображаются, или наоборот, в результате чего среди участников может возникнуть путаница и чувство неловкости. Сверх того, может быть сложным идентифицировать конкретного говорящего в заданный момент времени, в особенности, когда множество участников говорят одновременно или в быстрой последовательности. Следовательно, методики для улучшения методик отображения в окружении виртуальной конференции могут улучшить взаимодействие с пользователем и повысить уровень удобства.

Сущность изобретения

Различные варианты осуществления в целом можно отнести к системам мультимедийной конференции. Некоторые варианты осуществления, в частности, можно отнести к методикам генерации визуальной композиции для события мультимедийной конференции. Событие мультимедийной конференции может включать в себя множество участников, некоторые из которых могут находиться в конференц-зале, тогда как другие могут участвовать в этом событии мультимедийной конференции из удаленного места.

Например, в одном варианте осуществления устройство, такое как консоль для конференции, может содержать дисплей и компонент менеджера мультимедийного содержимого. Этот компонент менеджера мультимедийного содержимого может действовать так, чтобы генерировать визуальную композицию для события мультимедийной конференции для воспроизведения на дисплее. Компонент менеджера мультимедийного содержимого может содержать, среди других элементов, модуль видеодекодера, который действует так, чтобы декодировать множество мультимедийных потоков для события мультимедийной конференции. Компонент менеджера мультимедийного содержимого может содержать модуль менеджера мультимедийного потока, который связан с возможностью обмена с модулем видеодекодера, причем упомянутый модуль менеджера мультимедийного потока действует так, чтобы определять, что общее количество декодируемых мультимедийных потоков больше общего количества доступных фреймов отображения в визуальной композиции. Компонент менеджера мультимедийного содержимого может содержать модуль мультимедийного выбора, связанный с возможностью обмена с модулем менеджера мультимедийного потока, причем упомянутый модуль мультимедийного выбора действует так, чтобы выбрать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для их сопоставления с доступными фреймами отображения на основании речевой активности. Другие варианты осуществления описаны ниже и определены в формуле изобретения.

Раздел "Сущность изобретения" приведен, чтобы представить в упрощенной форме выборку концепций, которые подробно описываются ниже, в разделе "Подробное описание". Раздел "Сущность изобретения" не предназначен ни для определения ключевых или существенных отличительных признаков сущности формулы изобретения, ни для использования при определении объема формулы изобретения.

Краткое описание чертежей

Фиг.1 - иллюстрация одного варианта осуществления системы мультимедийной конференции;

Фиг.2 - иллюстрация одного варианта осуществления компонента менеджера мультимедийного содержимого;

Фиг.3а - иллюстрация одного варианта осуществления первой визуальной композиции;

Фиг.3b - иллюстрация одного варианта осуществления второй визуальной композиции;

Фиг.4 - иллюстрация одного варианта осуществления логической блок-схемы;

Фиг.5 - иллюстрация одного варианта осуществления вычислительной архитектуры;

Фиг.6 - иллюстрация одного варианта осуществления изделия.

Подробное описание

Различные варианты осуществления включают в себя физические или логические структуры, которые устроены так, чтобы выполнять определенные операции, функции или службы. Эти структуры могут содержать физические структуры, логические структуры или их комбинацию. Физические или логические структуры реализуются, используя элементы аппаратного обеспечения, элементы программного обеспечения или их комбинацию. Описания вариантов осуществления со ссылкой на конкретные аппаратные или программные элементы, тем не менее, являются примерами, а не ограничениями. Определение того, будет ли реализован вариант осуществления с использованием элементов аппаратного обеспечения и/или элементов программного обеспечения, может зависеть от ряда факторов, таких как желаемая скорость вычислений, уровни мощности, допустимые величины тепловыделения, бюджет вычислительного цикла, скорости входных данных, скорости выходных данных, ресурсы памяти, скорости шины передачи данных и другие ограничения дизайна или производительности. Сверх того физические или логические структуры могут иметь соответствующие физические или логические соединения для обмена информацией между структурами в форме электронных сигналов или сообщений. Эти соединения могут содержать проводные и/или беспроводные соединения, в зависимости от информации или конкретной структуры. Следует отметить, что ссылка на "один вариант осуществления" или "некоторый вариант осуществления" обозначает, что конкретный отличительный признак, структура или характеристика, описанная в связи с этим вариантом осуществления, входит в состав, по меньшей мере, этого варианта осуществления. Использование фразы "в одном варианте осуществления" в разных местах настоящей спецификации не всегда обозначает один и тот же вариант осуществления.

Различные варианты осуществления могут быть связаны с системами мультимедийной конференции, устроенными так, чтобы предоставлять службы конференции и совместной работы множеству участников через сеть. Некоторые системы мультимедийной конференции могут быть устроены так, чтобы функционировать с различными пакетными сетями, такими как сеть Интернет или Всемирная Паутина (World Wide Web, WWW), чтобы предоставлять службы конференции с использованием Интернет-технологий. Такие реализации иногда называют системами веб-конференции. Примером системы веб-конферений может быть ПО MICROSOFT® OFFICE LIVE MEETING корпорации Microsoft, Редмонд, Вашингтон. Другие системы мультимедийной конференции могут быть устроены так, чтобы функционировать для частной сети, фирмы, организации или предприятия, и они могут использовать сервер мультимедийной конференции, такой как MICROSOFT OFFICE COMMUNICATIONS SERVER корпорации Microsoft, Редмонд, Вашингтон. Тем не менее, реализации не ограничиваются этими примерами.

Система мультимедийной конференции может включать в себя, среди прочих сетевых элементов, сервер мультимедийной конференции или другое устройство обработки, устроенное для предоставления служб интернет-конференции. Например, сервер мультимедийной конференции может включать в себя, среди прочих элементов сервера, компонент сервера конференции, действующий так, чтобы управлять и смешивать разные типы мультимедийного содержимого для события конференции и совместной работы, такого как интернет-конференция. Событие конференции и совместной работы может обозначать любое событие мультимедийной конференции, предоставляющее разные типы мультимедийной информации онлайн окружения в реальном масштабе времени или вживую, и оно может обознаться термином "событие конференции", "мультимедийное событие" или "событие мультимедийной конференции".

В одном варианте осуществления система мультимедийной конференции может, сверх того, включать в себя одно или более вычислительных устройств, реализованных как консоли для конференции. Каждая консоль для конференции может быть устроена так, чтобы участвовать в мультимедийном событии путем соединения с сервером мультимедийной конференции. В течение мультимедийного события сервер мультимедийной конференции может принимать разные типы мультимедийной информации из разных консолей для конференции, причем сервер мультимедийной конференции, в свою очередь, распределяет эту мультимедийную информацию некоторым или всем другим консолям для конференции, участвующим в этом мультимедийном событии. По существу, любая заданная консоль для конференции может иметь дисплей с множеством видов мультимедийного содержимого разного типа. Таким образом, географически разнесенные участники могут взаимодействовать и обмениваться информацией в окружении виртуальной конференции, которое похоже на окружение физической конференции, где все участники находятся в одной комнате.

Участники события мультимедийной конференции, как правило, перечислены в виде GUI, который содержит реестр участников. Реестр участников может содержать некоторую идентифицирующую информацию для каждого участника, включая имя, место, изображение, должность и т.п. Участники и идентифицирующая информация для реестра участников, как правило, получается из консоли для конференции, используемой для присоединения к событию мультимедийной конференции. Например, участник, как правило, использует консоль для конференции, чтобы войти в виртуальный конференц-зал для события мультимедийной конференции. До выполнения входа участник предоставляет различные типы идентифицирующей информации для выполнения операций аутентификации на сервере мультимедийной конференции. После того как сервер мультимедийной конференции аутентифицирует участника, ему разрешается доступ в виртуальный конференц-зал, и сервер мультимедийной конференции добавляет идентифицирующую информацию в реестр участников.

В окружении виртуальной конференции, тем не менее, отображение всех участников конференции может представлять сложности. Например, дисплей может не иметь достаточно площади отображения, чтобы воспроизвести виды GUI для всех участников. Это может быть обусловлено техническими ограничениями связи или вычислительных ресурсов в консоли для конференции, в сервере мультимедийной конференции или в обоих этих устройствах. Это также может быть обусловлено наличием дисплея с площадью отображения, которая недостаточна для воспроизведения видов GUI для всех участников, чтобы эти виды легко распознавались наблюдателями. Например, электронные устройства с малым форм-фактором, такие как карманные компьютеры или сотовые телефоны, могут иметь дисплеи с меньшей площадью, которые физически или логически неспособны воспроизводить необходимые виды GUI. В случае электронных устройств в большими дисплеями, таких как ноутбуки или настольные компьютеры, количество участников может быть таким большим, что это приведет к необходимости отображения видов GUI в таком маленьком масштабе, что будет сложно увидеть отдельных участников конференции. Даже для электронных устройств, способных использовать дисплеи практически без ограничений площади отображения, таких как настольные компьютеры с полноразмерными мониторами, большое количество участников может привести к тому, что при одновременном отображении соответствующего множества видов GUI будет создаваться запутанная и перенасыщенная визуальная композиция. Эта проблема еще более обостряется, когда участник конференции, выполняющий роль ведущего конференции, "прикрепляет" определенные виды GUI для определенных участников конференции. В этом случае все консоли для конференции отображают эти прикрепленные виды GUI независимо от речевой активности участников, воспроизводимых на этих видах GUI. Следовательно, количество доступных видов GUI сокращается еще больше до такой степени, что некоторые виды GUI прикрепляются ведущим конференции.

Для решения этих и других проблем настоящие варианты осуществления нацелены на способы генерации визуальной композиции для события мультимедийной конференции. В частности, определенные варианты осуществления нацелены на способы генерации визуальной композиции, которые обеспечивают более естественное представление участников конференции в цифровой области. Эта визуальная композиция интегрирует и агрегирует разные типы мультимедийного содержимого, связанного с каждым участником в событии мультимедийной конференции, включая видеосодержимое, аудиосодержимое, идентифицирующую информацию и т.п. Эта визуальная композиция представляет интегрированную и агрегированную информацию таким образом, что обеспечивается возможность эффективного отображения некоторого количества видов GUI, которое меньше общего количества участников конференции.

В различных вариантах осуществления компонент менеджера мультимедийного содержимого может выборочно отображать виды GUI с участниками конференции, которые активно говорят или, вероятно, будут говорить в любой заданный момент времени. Когда участник конференции, который в текущий момент не отображается, начинает речевую активность, компонент менеджера мультимедийного содержимого может селективно заменить существующего участника конференции, который отображается в заданном виде GUI, новым участником конференции. Это может быть реализовано, например, путем использования алгоритма выбора, настроенного так, чтобы замещать существующего участника конференции интеллектуальным образом, согласно набору правил выбора мультимедийного содержимого. Таким образом, компонент менеджера мультимедийного содержимого потенциально обеспечивает ряд преимуществ по сравнению с существующими способами отображения, такими как сокращение количества повторений в мультимедийном содержимом, ограничение переходов между мультимедийным содержимым, отображаемым в заданном виде GUI, и предоставление наблюдающему некоторой гибкости при выборе конкретного набора мультимедийного содержимого, отображаемого в заданное время. Соответственно, усовершенствованные способы отображения в окружении виртуальной конференции могут улучшить взаимодействие с пользователем и повысить уровень удобства.

Фиг.1 представляет собой структурную схему для системы 100 мультимедийной конференции. Система 100 мультимедийной конференции может иметь обычную системную архитектуру, подходящую для реализации различных вариантов осуществления. Система 100 мультимедийной конференции может содержать множество элементов. Элемент может содержать любую физическую или логическую структуру, устроенную так, чтобы выполнять определенные операции. Каждый элемент может быть реализован как аппаратное обеспечение, программное обеспечение или их комбинация, в зависимости от заданного набора ограничений дизайнерских параметров или ограничений производительности. Примеры элементов аппаратного обеспечения могут включать в себя устройства, компоненты, процессоры, микропроцессоры, схемы, элементы схемы (например, транзисторы, резисторы, конденсаторы, индуктивности и т.п.), интегральные схемы, специализированные интегральные схемы, программируемые логические устройства, процессоры цифровых сигналов, программируемые вентильные матрицы, логические вентили, регистры, полупроводниковые устройства, чипы, микрочипы, наборы чипов и т.п. Примеры элементов программного обеспечения могут включать в себя любые программные компоненты, программы, приложения, компьютерные программы, прикладные программы, системные программы, машинные программы, программное обеспечение операционной системы, промежуточное программное обеспечение, встроенное программное обеспечение, программные модули, рутинные процедуры, субрутинные процедуры, функции, способы, процедуры, программные интерфейсы, интерфейсы прикладной программы, наборы инструкций, вычислительный код, компьютерный код, сегменты кода, сегменты компьютерного кода, слова, величины, символы или любые комбинации перечисленных. Хотя согласно иллюстрации с Фиг.1 система 100 мультимедийной конференции имеет ограниченное количество элементов в определенной топологи, очевидно, что в зависимости от заданной реализации система 100 мультимедийной конференции может включать в себя большее или меньшее количество элементов в альтернативных топологиях. Настоящие варианты осуществления не ограничиваются в этом контексте.

В различных вариантах осуществления система 100 мультимедийной конференции может содержать или являться частью системы проводной связи, системы беспроводной связи или их комбинации. Например, система 100 мультимедийной конференции может включать в себя один или более элементов, устроенных так, чтобы обмениваться информацией через проводные линии одного или более типов. Примеры проводной линии могут включать в себя, не ограничиваясь перечисленным, провод, кабель, шину, печатную схему, соединение Ethernet, одноранговое соединение, системную плату, многовходовую систему коммутации, полупроводниковый материал, провод в форме витой пары, коаксиальный кабель, волоконно-оптическое соединение и т.п. Система 100 мультимедийной конференции также может включать в себя один или более элементов, устроенных так, чтобы обмениваться информацией через беспроводные линии одного или более типов. Примеры беспроводной линии могут включать в себя, не ограничиваясь перечисленным, радиоканал, инфракрасный канал, радиочастотный канал, канал WiFi, часть радиочастотного спектра и/или один или более лицензируемых или нелицензируемых частотных диапазонов.

В различных вариантах осуществления система 100 мультимедийной конференции может быть устроена так, чтобы обмениваться, управлять или обрабатывать различные типы информации, такой как мультимедийная информация и информация управления. Примеры мультимедийной информации могут включать в себя любые данные, представляющие содержимое для пользователя, такие как голосовая информация, видеоинформация, аудиоинформация, графическая информация, текстовая информация, числовая информация, прикладная информация, алфавитно-числовые символы, графика и т.п. Мультимедийная информация также обозначается термином "мультимедийное содержимое". Информация управления может обозначать любые данные, представляющие команды, инструкции или управляющие слова для автоматизированной системы. Например, информация управления может использоваться для маршрутизации мультимедийной информации по системе, для установления соединения между устройствами, для подачи команды устройству для обработки мультимедийной информации предопределенным образом и т.п.

В различных вариантах осуществления система 100 мультимедийной конференции может включать в себя сервер 130 мультимедийной конференции. Сервер 100 мультимедийной конференции может содержать любой логический или физический объект, который устроен так, чтобы устанавливать, управлять или контролировать вызов мультимедийной конференции между консолями 110-1-m для конференции через сеть 120. Сеть 120 может содержать, например, пакетную сеть, коммутируемую сеть или их комбинацию. В различных вариантах осуществления сервер 130 мультимедийной конференции может содержать или быть реализован как любое устройство обработки или вычислительное устройство, такое как компьютер, сервер, группа или подсистема серверов, рабочая станция, мини-компьютер, мэйнфрейм, суперкомпьютер и т.п. Сервер 130 мультимедийной конференции может содержать или реализовывать общую или специальную вычислительную архитектуру, подходящую для обмена и обработки мультимедийной информации. В одном варианте осуществления, например, сервер 130 мультимедийной конференции может быть реализован с использованием вычислительной архитектуры, описанной со ссылкой на Фиг.5. Примеры сервера 130 мультимедийной конференции могут включать в себя, не ограничиваясь перечисленным, сервер MICROSOFT OFFICE COMMUNICATIONS SERVER, сервер MICROSOFT OFFICE LIVE MEETING и т.п.

Конкретная реализация сервера 130 мультимедийной конференции может варьировать в зависимости от набора протоколов или стандартов связи, которые будут использоваться для этого сервера 130 мультимедийной конференции. В одном примере сервер 130 мультимедийной конференции может быть реализован согласно группе стандартов Протокола Инициации Сессии (Session Initiation Protocol, SIP) Рабочей Группы Управления Мультимедийной Сессией с Множеством Участников (Multiparty Multimedia Session Control, MMUSIC) Инженерной Группы по Развитию Интернета (Internet Engineering Task Force, IETF) и/или их вариантам. SIP представляет собой предлагаемый стандарт для инициации, модификации и завершения интерактивной пользовательской сессии, в которой используются мультимедийные элементы, такие как видео, голос, обмен мгновенными сообщениями, онлайн игры и виртуальная реальность. В еще одном примере сервер 130 мультимедийной конференции может быть реализован согласно ряду стандартов H.323 Международного Союза Электросвязи (International Telecommunication Union, ITU) и/или их вариантам. В стандарте H.323 определен Блок Управления Многоточечной Связью (Multipoint Control Unit, MCU), чтобы координировать операции вызова конференции. В частности, MCU включает в себя Контроллер Многоточечной Связи (Multipoint Controller, MC), который обрабатывает сигнализацию H.245, а также один или более Процессоров Многоточечной Связи (Multipoint Processors), чтобы смешивать и обрабатывать потоки данных. Как стандарт SIP, так и стандарт H.323, по существу, представляют собой протоколы сигнализации для операций вызова мультимедийной конференции по Протоколу Передачи Голоса Через IP (Voice over Internet Protocol, VoIP) или протоколу Передачи Голоса Через Пакеты (Voice Over Packet, VOP). Очевидно, что в рамках объема настоящего изобретения для сервера 130 мультимедийной конференции могут быть реализованы другие протоколы сигнализации.

В общем, система 100 мультимедийной конференции может использоваться для вызовов мультимедийной конференции. Вызовы мультимедийной конференции, как правило, включают в себя обмен голоса, видео и/или данными между множеством конечных точек. Например, публичная или частная пакетная сеть 120 может использоваться для вызовов аудиоконференции, вызовов видеоконференции, вызовов аудио/видеоконференции, совместного использования и редактирования документа и т.п. Пакетная сеть 120 также может быть соединена с Телефонной Коммутируемой Сетью Общего Пользования (Public Switched Telephone Network, PSTN) через один или более подходящих VoIP-шлюзов, приспособленных для конвертации информации коммутируемой сети и информации пакетной сети.

Чтобы установить вызов мультимедийной конференции через пакетную сеть 120, каждая консоль 110-1-m для конференции может установить соединение с сервером 130 мультимедийной конференции через пакетную сеть 120, используя разные типы проводных или беспроводных линий связи, функционирующих на разных скоростях соединения или с разными полосами пропускания, такие как телефонное соединение PSTN с малой полосой пропускания, DSL-соединение или соединение через кабельный модем со средней полосой пропускания, и соединение с большой полосой пропускания через локальную сеть, например.

В различных вариантах осуществления, сервер 130 мультимедийной конференции может установить, управлять и контролировать вызов мультимедийной конференции между консолями 110-1-m для конференции. В некоторых вариантах осуществления вызов мультимедийной конференции может содержать вызов веб-конференции в реальном масштабе времени с использованием приложения веб-конференции, которое обеспечивает возможности полноценной совместной работы. Сервер 130 мультимедийной конференции действует как центральный сервер, который управляет и распределяет мультимедийную информацию в конференции. Он принимает мультимедийную информацию из разных консолей 110-1-m для конференции, выполняет операции смешивания для множества типов мультимедийной информации и направляет эту мультимедийную информацию некоторым или всем другим участникам. Одна или более консолей 110-1-m для конференции могут присоединиться к конференции путем соединения с сервером 130 мультимедийной конференции. Сервер 130 мультимедийной конференции может реализовать различные способы управления доступом, чтобы аутентифицировать и добавить консоль 110-1-m для конференции защищенным и контролируемым образом.

В различных вариантах осуществления система 100 мультимедийной конференции может включать в себя одно или более вычислительных устройств, реализованных как консоли 110-1-m, чтобы соединяться с сервером 130 мультимедийной конференции через одно или более соединений связи посредством сети 120. Например, вычислительное устройство может реализовывать клиентское приложение, которое может выполнять роль главного узла для множества консолей для конференции, каждая из которых представляет отдельную конференцию в одно и то же время. Аналогично, это клиентское приложение может принимать множество аудиопотоков, видеопотоков и потоков данных. Например, видеопотоки от всех участников или подгруппы участников могут отображаться как мозаика на дисплее участника, причем видео для текущего активного говорящего отображается поверх других окон, а в других окнах отображается панорамный вид других участников.

Консоли 110-1-m для конференции могут содержать любой логический или физический объект, который устроен так, чтобы участвовать или инициировать вызов мультимедийной конференции, управляемый сервером 130 мультимедийной конференции. Консоли 110-1-m для конференции могут быть реализованы как любое устройство, которое в своей наиболее простой форме включает в себя систему обработки, содержащую процессор и память, один или более компонентов ввода/вывода мультимедийного содержимого, и беспроводное и/или проводное сетевое соединение. Примеры компонентов ввода/вывода мультимедийного содержимого могут включать в себя компоненты ввода/вывода аудио (например, микрофоны, громкоговорители), компоненты ввода/вывода видео (например, видеокамера, дисплей), тактильные компоненты ввода/вывода (например, вибраторы), компоненты ввода/вывода пользовательских данных (например, клавиатура, сенсорная панель, клавишный блок, сенсорный экран) и т.п. Примеры консолей 110-1-m для конференции могут включать в себя телефон, VoIP- или VOP-телефон, пакетный телефон с возможностью работы в PSTN, Интернет-телефон, видеотелефон, сотовый телефон, Персональный Цифровой Секретарь (Personal Digital Assistant, PDA), комбинация сотового телефона и PDA, мобильное вычислительное устройство, смартфон, принимающий пейджер, приемопередающий пейджер, устройство обмена сообщениями, компьютер, персональный компьютер (ПК), настольный компьютер, ноутбук, портативный компьютер, карманный компьютер, сетевое приспособление и т.п. В некоторых реализациях, консоли 110-1-m для конференции могут быть реализованы с использованием общей или специальной вычислительной архитектуры, похожей на вычислительную архитектуру, которая описана со ссылкой на Фиг.5.

Консоли 110-1-m для конференции могут содержать или реализовывать соответствующие клиентские компоненты 112-1-n конференции. Эти клиентские компоненты 112-1-n конференции могут быть устроены так, чтобы взаимодействовать с серверным компонентом 123 конференции на сервере 130 мультимедийной конференции, чтобы устанавливать, управлять или контролировать событие мультимедийной конференции. Например, клиентские компоненты 110-1-m конференции могут содержать или реализовывать подходящие прикладные программы и управляющие элементы пользовательского интерфейса, чтобы обеспечивать возможность соответствующим консолям 110-1-m для конференции участвовать в веб-конференции, предоставляемой сервером 130 мультимедийной конференции. Это может включать в себя оборудование ввода (например, видеокамеру, микрофон, клавиатуру, мышь, контроллер и т.п.), чтобы захватывать мультимедийную информацию, предоставляемую оператором консоли 110-1-m конференции, а также оборудование вывода (например, дисплей, громкоговоритель и т.п.), чтобы воспроизводить мультимедийную информацию операторами других консолей 110-1-m для конференции. Примеры клиентских компонентов 112-1-n конференции могут включать в себя, но не ограничиваясь перечисленным, консоли для конференции на базе MICROSOFT OFFICE COMMUNICATOR или MICROSOFT OFFICE LIVE MEETING и т.п.

Как показано в варианте осуществления, проиллюстрированном на Фиг.1, система 100 мультимедийной конференции может включать в себя конференц-зал 150. Предприятие или фирма, как правило, используют конференц-залы для проведения встреч. Подобные встречи включают в себя событие мультимедийной конференции, в которых участники расположены в конференц-зале 150, а удаленные участники расположены вне конференц-зала 150. Конференц-зал 150 может иметь различные вычислительные и коммуникационные ресурсы для поддержки событий мультимедийной конференции и для обмена мультимедийной информацией между одной или более удаленными консолями 110-2-m для конференции и локальными консолями 110-1 для конференции. Например, конференц-зал 150 может включать в себя локальную консоль 110-1 для конференции, которая находится внутри конференц-зала 150.

Локальная консоль 110-1 для конференции может быть соединена с различными мультимедийными устройствами ввода и/или мультимедийными устройствами вывода, способными захватывать, обмениваться или воспроизводить мультимедийную информацию. Устройства мультимедийного ввода могут содержать любое логическое или физическое устройство, устроенное так, чтобы захватывать или принимать от операторов внутри конференц-зала 150 входную мультимедийную информацию, включая устройства аудиоввода, устройства видеоввода, устройства ввода изображения, устройство ввода текста и другое оборудование мультимедийного ввода. Примеры устройств мультимедийного ввода могут включать в себя, но не ограничиваются перечисленным, видеокамеры, микрофоны, микрофонные матрицы, конференц-телефоны, белые доски, интерактивные белые доски, компоненты преобразования голоса в текст, компоненты преобразования текста в голос, системы распознавания речи, указательные устройства, клавиатуры, сенсорные экраны, планшетные компьютеры, устройства распознавания рукописного текста и т.п. Пример видеокамеры может включать в себя устройство RingCam, такое как MICROSOFT ROUNDTABLE корпорации Microsoft, Редмонд, Вашингтон. MICROSOFT ROUNDTABLE представляет собой устройство для видеоконференций, снабженное камерой с обзором 360 градусов, которое предоставляет удаленным участникам конференции панорамное видео всех сидящих вокруг стола для конференции. Устройства мультимедийного вывода могут содержать любое логическое или физическое устройство, устроенное так, чтобы воспроизводить или отображать мультимедийную информацию от операторов консолей 110-2-m, включая устройства аудиовывода, устройства видеовывода, устройства вывода изображения, устройство вывода текста и другое оборудование мультимедийного вывода. Примеры устройств мультимедийного вывода могут включать в себя, не ограничиваясь перечисленным, электронные дисплеи, видеопроекторы, громкоговорители, вибрирующие устройства, принтеры, факсы и т.п.

Локальная консоль 110-1 для конференции в конференц-зале 150 может включать в себя различные устройства мультимедийного ввода, устроенные так, чтобы захватывать мультимедийное содержимое из конференц-зала 150, в котором находятся участники 154-1-p, и передавать поток мультимедийного содержимого в сервер 130 мультимедийной конференции. В проиллюстрированном варианте осуществления с Фиг.1, локальная консоль 110-1 для конференции включает в себя видеокамеру 106 и матрицу микрофонов 104-1-r. Видеокамера 106 может захватывать видеосодержимое, включающее в себя видеосодержимое участников 154-1-p, присутствующих в конференц-зале 150, и передавать поток видеосодержимого в сервер 130 мультимедийного содержимого через локальную консоль 110-1 для конференции. Аналогично, матрица микрофонов 104-1-r может захватывать аудиосодержимое, включающее в себя аудиосодержимое участников 154-1-p, присутствующих в конференц-зале 150, и передавать поток аудиосодержимого в сервер 130 мультимедийного содержимого через локальную консоль 110-1 для конференции. Локальная консоль для конференции также может включать в себя различные устройства мультимедийного вывода, такие как дисплей 116 или видеопроектор, чтобы отображать один или более видов GUI, которые принимаются через сервер 130 мультимедийной конференции, с видеосодержимым или аудиосодержимым от всех участников, использующих консоли 110-1-m для конференции.

Консоли 110-1-m для конференции и сервер 130 мультимедийной конференции могут обмениваться мультимедийной информацией и информацией управления, используя различные соединения, которые установлены для конкретного события мультимедийной конференции. Мультимедийные соединения могут быть установлены с использованием различных протоколов сигнализации VoIP, таких как семейство протоколов SIP. Семейство протоколов SIP представляет собой протокол управления (сигнализации) прикладного уровня для создания, модификации и завершения сессий с одним или более участниками. Эти сессии включают в себя мультимедийные интернет-конференции, вызовы интернет-телефонии и распределение мультимедийного содержимого. Участники сессии могут осуществлять связь посредством многоадресных связей или посредством сетки одноадресных связей либо посредством комбинации этих двух вариантов. SIP разработан как часть общей архитектуры мультимедийных данных и управления IETF, которая в текущее время включает в себя такие протоколы, как Протокол Резервирования Ресурсов (Resource Reservation Protocol, RSVP) (IEEE RFC 2205) для резервирования сетевых ресурсов, Транспортный Протокол Реального Масштаба Времени (Real-Time Transport Protocol, RTP) (IEEE RFC 1889) для передачи данных реального масштаба времени и предоставления обратной связи Качества Обслуживания (Quality-of-Service, QOS), Протокол Потоковой Передачи Реального Масштаба Времени (Real-Time Streaming Protocol, RTSP) (IEEE RFC 2326) для управления доставкой потоковых мультимедийных данных, Протокол Объявления Сессии (Session Announcement Protocol, SAP) для рекламы мультимедийных сессий путем многоадресной передачи, Протокол Описания Сессии (Session Description Protocol, SDP) (IEEE RFC 2327) для описания мультимедийных сессий и другие. Например, консоли 110-1-m для конференции могут использовать SIP в качестве канала сигнализации, чтобы настраивать мультимедийные соединения, а также RTP в качестве канала передачи мультимедийного содержимого, чтобы передавать мультимедийную информацию через мультимедийные соединения.

В общем, устройство 108 планирования может использоваться, чтобы генерировать резервирование события мультимедийной конференции для системы 100 мультимедийной конференции. Устройство 108 планирования может содержать, например, вычислительное устройство с подходящим аппаратным обеспечением и программным обеспечением для планирования событий мультимедийной конференции. Например, устройство 108 планирования может содержать компьютер, на котором используется прикладное ПО MICROSOFT OFFICE OUTLOOK® корпорации Microsoft, Редмонд, Вашингтон. Прикладное ПО MICROSOFT OFFICE OUTLOOK содержит клиентское ПО обмена сообщениями и совместной работы, которое может быть использовано для планирования события мультимедийной конференции. Оператор может использовать MICROSOFT OFFICE OUTLOOK, чтобы преобразовывать запрос планирования в событие MICROSOFT OFFICE LIVE MEETING, которое передается по списку приглашенных на конференцию. Этот запрос планирования может включать в себя гиперссылку на виртуальную комнату для события мультимедийной конференции. Приглашенный может выполнить щелчок на этой гиперссылке, консоль 110-1-m для конференции запустит веб-браузер, соединится с сервером 130 мультимедийной конференции и приглашенный присоединится к виртуальной комнате. После этого участники могут представлять слайды презентации, комментировать документы или делать мозговой штурм некой задачи на белой доске и т.п.

Оператор может использовать устройство 108 планирования, чтобы генерировать резервацию для события мультимедийной конференции. Резервация события мультимедийной конференции может включать в себя список приглашенных на событие мультимедийной конференции. Список приглашенных на конференцию может содержать список лиц, приглашенных на событие мультимедийной конференции. В некоторых случаях список приглашенных на совещание может включать в себя только лица, которые были приглашены и которые приняли это приглашение. Клиентское приложение, такое как почтовый клиент для Microsoft Outlook, направляет запрос резервации в сервер 130 мультимедийной конференции. Сервер 130 мультимедийной конференции может принять резервацию события мультимедийной конференции и извлечь список приглашенных на конференцию и связанную информацию для приглашенных из сетевого устройства, такого как каталог 160 ресурсов предприятия.

Каталог 160 ресурсов предприятия может содержать сетевое устройство, которое публикует публичный каталог операторов и/или сетевых ресурсов. Общий пример сетевых ресурсов, опубликованных каталогом 160 ресурсов предприятия, включает в себя сетевые принтеры. В одном варианте осуществления, например, каталог 160 ресурсов предприятия может быть реализован как MICROSOFT ACTIVE DIRECTORY®. Active Directory представляет собой реализацию служб каталога по Облегченному Протоколу Доступа к Каталогам (Lightweight Directory Access Protocol, LDAP), чтобы предоставлять централизованные службы аутентификации и авторизации для сетевых компьютеров. Active Directory также позволяет администраторам назначать политики, внедрять программное обеспечение и применять критические обновления. Active Directory хранит информацию и настройки в центральной базе данных. Сети Active Directory могут варьировать от небольших инсталляций с несколькими сотнями объектов, до крупных инсталляций с миллионами объектов.

В различных вариантах осуществления каталог 160 ресурсов предприятия может включать в себя идентифицирующую информацию для разных приглашенных на событие мультимедийной конференции. Эта идентифицирующая информация может включать в себя любой тип информации, позволяющей однозначно идентифицировать каждого из приглашенных на конференцию. Например, эта идентифицирующая информация может включать в себя, не ограничиваясь перечисленным, имя, место, контактную информацию, учетные номера, информацию о профессии, информацию организации (например, должность), личную информацию, информацию соединения, информацию присутствия, сетевой адрес, MAC-адрес, IP-адрес, номер телефона, адрес электронной почты, протокольный адрес (например, SIP-адрес), идентификаторы оборудования, конфигурацию аппаратного обеспечения, конфигурации программного обеспечения, проводные интерфейсы, беспроводные интерфейсы, поддерживаемые интерфейсы и другую информацию.

Сервер 130 мультимедийной конференции может принимать резервацию события мультимедийной конференции, включающую в себя список приглашенных, и извлекать соответствующую идентифицирующую информацию из каталога 160 ресурсов предприятия. Сервер 130 мультимедийной конференции может использовать этот список приглашенных на конференцию и соответствующую идентифицирующую информацию, чтобы идентифицировать участников события мультимедийной конференции. Например, сервер 130 мультимедийной конференции может направить список приглашенных на конференцию и сопутствующую идентифицирующую информацию в консоли 110-1-m для конференции для использования при идентификации участников в визуальной композиции 108 для этого события мультимедийной конференции.

Каждая консоль 110-1-m для конференции может содержать или реализовывать соответствующие компоненты 114-1-t менеджера мультимедийного содержимого. Компоненты 114-1-t менеджера мультимедийного содержимого обычно могут действовать так, чтобы генерировать, управлять и отображать визуальную композицию 108 для события мультимедийной конференции на дисплее 116. Хотя в данном примере визуальная композиция 108 и дисплей 116 показаны как часть консоли 110-1 для конференции, очевидно, что каждая из консолей 110-1-m для конференции может включать в себя электронный дисплей, схожий с дисплеем 116 и способный воспроизводить визуальную композицию 108 для каждого из операторов консолей 110-1-m для конференции.

Например, в одном варианте осуществления локальная консоль 110-1 для конференции может содержать дисплей 116 и компонент 114-1 менеджера мультимедийного содержимого, который действует так, чтобы генерировать визуальную композицию 108 для события мультимедийной конференции. Компонент 114-1 менеджера мультимедийного содержимого может содержать различные аппаратные элементы и/или программные элементы, которые устроены так, чтобы генерировать визуальную композицию 108, которая обеспечивает более естественное представление участников конференции (например, 154-1-p) в цифровой области. Эта визуальная композиция 108 интегрирует и агрегирует разные типы мультимедийного содержимого, связанного с каждым участником события мультимедийной конференции, включая видеосодержимое, аудиосодержимое, идентифицирующую информацию и т.п.

Компонент 114-1-t менеджера мультимедийного содержимого может селективно отображать различные виды GUI для визуальной композиции 108. Визуальная композиция 108 может включать в себя множество видов GUI, каждый из которых содержит одного или более участников конференции. Когда участник конференции, который в текущий момент не отображается в виде GUI для визуальной композиции 108, начинает речевую активность, компонент 114-1-t менеджера мультимедийного содержимого может селективно заменить существующего участника конференции, который в текущее время отображается в заданном виде GUI, новым участником конференции. Это может быть реализовано, например, путем использования алгоритма выбора, настроенного так, чтобы замещать существующего участника конференции интеллектуальным образом, согласно набору правил выбора мультимедийного содержимого. Консоли 110-1-m для конференции в целом, и компонент 114-1-t менеджера содержимого в частности, более подробно описаны ниже, со ссылкой на Фиг.2.

Фиг.2 представляет собой иллюстрацию структурной схемы одного иллюстративного компонента 114 менеджера мультимедийного содержимого из множества компонентов 114-1-t менеджера мультимедийного содержимого. Компонент 114 менеджера мультимедийного содержимого может содержать множество модулей. Эти модули могут быть реализованы с использованием аппаратных элементов, программных элементов или их комбинации. Хотя согласно иллюстрации с Фиг.2 компонент 114 менеджера мультимедийного содержимого имеет ограниченное количество элементов в определенной топологи, очевидно, что в зависимости от заданной реализации компонент 114 менеджера мультимедийного содержимого может включать в себя большее или меньшее количество элементов в альтернативных топологиях. Настоящие варианты осуществления не ограничиваются в этом контексте.

В проиллюстрированном варианте осуществления с Фиг.2 компонент 114 менеджера мультимедийного содержимого включает в себя модуль 210 видеодекодера. Модуль 210 видеодекодера может декодировать мультимедийные потоки, принимаемые из различных консолей 110-1-m для конференции через сервер 130 мультимедийной конференции. В одном варианте осуществления, например, модуль 210 видеодекодера может быть устроен так, чтобы принимать входные мультимедийные потоки 202-1-f из разных консолей 110-1-m для конференции, участвующих в событии мультимедийной конференции. Модуль 210 видеодекодера может декодировать входные мультимедийные потоки 202-1-f в цифровое или аналоговое видеосодержимое, которое подходит для отображения на дисплее 116. Сверх того модуль 210 видеодекодера может декодировать входные мультимедийные потоки 202-1-f в различных пространственных и временных разрешениях, подходящих для дисплея 116, и фреймы отображения, используемые в визуальной композиции 108.

Компонент 114-1 менеджера мультимедийного содержимого может содержать Модуль Детектора Активного Говорящего (Active Speaker Detector Module, ASD) 220, который связан с возможностью обмена с модулем 210 видеодекодера. Модуль 220 ASD может детектировать, является кто-либо из участников в декодируемых мультимедийных потоках 202-1-f активным говорящим или иным образом причастным к детектируемой речевой активности. Для модуля ASD 220 могут быть реализованы различные способы детектирования активного говорящего. Например, в одном варианте осуществления модуль ASD 220 может детектировать и измерять энергию голоса в декодируемом мультимедийном потоке, ранжировать измерения от голоса с наибольшей энергией до голоса с наименьшей энергией и выбрать декодируемый мультимедийный поток с наибольшей энергией голоса как представляющий текущего активного говорящего. Тем не менее, могут использоваться другие способы ASD, и настоящие варианты осуществления не ограничиваются в этом контексте.

В некоторых случаях, тем не менее, входной мультимедийный поток 202-1-f может содержать более одного участника, как в случае входного мультимедийного потока 202-1 из локальной консоли 110-1 для конференции, расположенной в конференц-зале 150. В этом случае модуль 220 ASD может быть устроен так, чтобы детектировать доминирующих или активных говорящих среди участников 154-1-р, расположенных в конференц-зале 150, используя аудио (локализацию источника звука) и видео (шаблоны движения и пространственные шаблоны) элементы. Модуль 220 ASD может определять доминирующего говорящего в конференц-зале 150, когда несколько людей разговаривают одновременно. Он также компенсирует фоновые шумы и твердые поверхности, которые отражают звук. Например, модуль 220 ASD может принимать входы с шести отдельных микрофонов 104-1-r, чтобы дифференцировать между разными звуками и изолировать доминирующий посредством процесса, который называют формированием луча. Все микрофоны 104-1-r встроены в разные части консоли 110-1 для конференции. Несмотря на скорость звука, микрофоны 104-1-r могут принимать голосовую информацию от участников 154-1-р в разные временные интервалы относительно друг друга. Модуль 220 ASD может использовать эту разность во времени, чтобы идентифицировать источник голосовой информации. После того как источник голосовой информации будет идентифицирован, контроллер для локальной консоли 110-1 для конференции может использовать визуальные ключи с видеокамеры 106-1-р, чтобы указать, увеличить масштаб и акцентировать лицо доминирующего говорящего. Таким образом, модуль 220 ASD локальной консоли 110-1 для конференции изолирует одного участника 154-1-р из конференц-зала 150 как активного говорящего на передающей стороне.

Компонент 114-1 менеджера мультимедийного содержимого может содержать модуль 230 Менеджера Мультимедийного Потока (Media Stream Manager, MSM), который связан с возможностью обмена с модулем 220 ASD. Модуль 230 MSM может сопоставлять декодированные мультимедийные потоки разным фреймам отображения. Например, в одном варианте осуществления модуль 230 MSM может быть устроен так, чтобы определять общее количество декодируемых входных мультимедийных потоков 202-1-f. Эта информация может приниматься, например, из модуля 210 видеодекодера. Модуль 230 MSM также может определять общее количество доступных фреймов отображения в визуальной композиции 108. Общее количество доступных фреймов отображения может быть вычислено на основании технических ограничений (например, вычислительных ресурсов или ресурсов связи), ограничений просмотра (например, площади отображения или требуемого размера вида GUI) или других структурных ограничений. Модуль 230 MSM может сравнивать общие количества, чтобы определять, больше ли общее количество декодируемых мультимедийных потоков, чем общее количество доступных фреймов отображения в визуальной композиции 108, тем самым вызывая необходимость применения алгоритма выбора мультимедийного содержимого, чтобы выбрать декодируемые мультимедийные потоки, которые будут отображены с использованием доступных фреймов отображения. Алгоритм выбора мультимедийного содержимого может быть реализован посредством модуля 260 выбора мультимедийного содержимого.

Так, предположим, что L представляет количество мультимедийных потоков, декодируемых модулем 210 видеодекодера, а А представляет количество доступных фреймов отображения для визуальной композиции 108. Так, А=х+y, где х представляет количество фреймов отображения, используемых для воспроизведения выделенных декодируемых мультимедийных потоков, а у представляет количество фреймов отображения, используемых для воспроизведения декодируемых мультимедийных потоков в активной группе декодируемых мультимедийных потоков.

Когда общее количество декодируемых мультимедийных потоков не больше общего количества фреймов отображения в визуальной композиции 108 (например, L<=А), модуль 230 MSM может сопоставить декодируемые мультимедийные потоки доступным фреймам отображения. В этом случае видеокомпозиция 108 может иметь достаточное количество доступных фреймов отображения, чтобы отобразить всех участников 154-1-р в декодируемых мультимедийных потоках для заданного события мультимедийной конференции.

Когда общее количество декодируемых мультимедийных потоков больше общего количества фреймов отображения в визуальной композиции 108 (например, L>А), модулю 230 MSM может потребоваться сопоставить поднабор общего количества декодируемых мультимедийных потоков доступным фреймам отображения. В этом случае видеокомпозиция 108 не всегда может иметь достаточное количество доступных фреймов отображения, чтобы отобразить всех участников 154-1-р в декодируемых мультимедийных потоках для заданного события мультимедийной конференции. Конкретный поднабор декодируемых мультимедийных потоков, который должен быть воспроизведен посредством доступных фреймов отображения, может быть выбран посредством модуля 260 выбора мультимедийного содержимого.

Модуль 260 выбора мультимедийного содержимого может быть устроен так, чтобы выбирать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для ее сопоставления доступным фреймам отображения на основании речевой активности. Активная группа декодируемых мультимедийных потоков может обозначать те декодируемые мультимедийные потоки, которые в текущее время сопоставляются доступному фрейму отображения. В отличие от этого декодируемые мультимедийные потоки, которые в текущее время не сопоставлены доступному фрейму отображения, обозначаются как неактивная группа декодируемых мультимедийных потоков. Члены неактивной группы, как правило, не видны в видеосодержимом из декодируемого мультимедийного содержимого, но их можно услышать в аудиосодержимом из декодируемого мультимедийного содержимого.

В течение инициализации или в начале события мультимедийной конференции модуль 260 выбора мультимедийного содержимого может изначально выбрать активную группу декодируемых мультимедийных потоков множеством различных способов. Например, модуль 260 выбора мультимедийного содержимого может выбрать активную группу случайным или произвольным образом. В еще одном примере модуль 260 выбора мультимедийного содержимого может выбрать активную группу согласно набору правил выбора, такому как порядок, в котором участники 154-1-р присоединялись к событию мультимедийной конференции. В некоторых случаях модуль 260 мультимедийного выбора может выбрать активную группу на основании некоторого набора эвристических правил, с помощью которых можно предсказывать участников 154-1-р, которые скорее примут участие в речевой активности, чем не примут в ней участие. Например, определенные участники 154-1-р могут быть обозначены как презентаторы для события мультимедийной конференции, тогда как другие участники 154-1-р могут быть обозначены как слушатели для события мультимедийной конференции. Поскольку в течение события мультимедийной конференции презентаторы, как правило, говорят больше, чем слушатели, участники 154-1-р, обозначенные как презентаторы, могут быть изначально выбраны как активная группа. В любом случае модуль 260 выбора мультимедийного содержимого может изначально выбрать активную группу и передать выбор активной группы в модуль 230 MSM для сопоставления с доступным фреймом отображения.

В некоторое время в течение события мультимедийной конференции модулю 230 MSM может потребоваться периодически реконфигурировать активную группу, чтобы отобразить других участников 154-1-р, отличных от изначально выбранных модулем 260 выбора мультимедийного содержимого. Например, в одном варианте осуществления модуль 260 выбора мультимедийного содержимого может выбрать члена неактивной группы декодируемых мультимедийных потоков как неактивного кандидата для замены члена активной группы декодируемых мультимедийных потоков на основании речевой активности. Есть вероятность, что в течение события мультимедийной конференции участник 154-1-р в неактивной группе декодируемых мультимедийных потоков может принять участие в речевой активности, как, например, когда слушатель задает вопрос презентатору. Модуль 220 ASD выполняет мониторинг декодируемых мультимедийных потоков, чтобы детектировать, когда имеет место речевая активность. Когда модуль 220 ASD детектирует, что член неактивной группы принимает участие в речевой активности, модуль 220 ASD может передать уведомление в модуль 220 MSM.

Модуль 230 MSM потенциально может реконфигурировать активную группу на основании речевой активности, детектированной модулем 220 ASD. Когда модуль 220 MSM имеет достаточное количество фреймов отображения, которые в текущий момент не сопоставлены декодируемому мультимедийному потоку для активной группы, модуль 230 MSM сопоставляет члена неактивной группы доступному фрейму отображения. Тем не менее, когда доступных фреймов отображения нет, модуль 230 MSM может передать команду управления в модуль 260 выбора мультимедийного содержимого, чтобы выбрать члена активной группы для его замены говорящим членом неактивной группы.

Модуль 260 выбора мультимедийного содержимого может быть устроен так, чтобы выбирать члена активной группы декодируемых мультимедийных потоков как кандидата, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основании оценки активности. Активным кандидатом на замену может быть участник 154-1-р, для которого имеет место низкая вероятность перестановки обратно в активную группу в силу участия в последующей речевой активности в ближайшем временном интервале с момента его размещения в неактивную группу. Иначе говоря, в идеальном случае активным кандидатом на замену должен быть член активной группы, который с наименьшей вероятностью будет снова говорить после того, как он будет переведен в неактивную группу, тем самым вызывая необходимость еще одной краткосрочной перестановки в активную группу.

В некоторых случаях активный кандидат на замену может быть выбран с использованием оценки активности. Компонент 114 менеджера мультимедийного содержимого может содержать модуль 250 Генерации Оценки Активности (ASG), который связан с возможностью обмена с модулем 220 ASD и модулем 260 выбора мультимедийного содержимого. Модуль 250 ASG может принять информацию речевой активности из модуля 220 ASD. Среди прочих вводов модуль 250 ASG может использовать информацию речевой активности, чтобы генерировать оценки активности для участников 154-1-р. Оценки активности могут представлять различные уровни речевой активности для каждого из участников 154-1-р. Оценки активности могут быть выведены в модуль 260 выбора мультимедийного содержимого для использования при выборе активной группы.

В одном варианте осуществления, например, модуль 250 ASG может генерировать оценку активности, чтобы представить характеристики речевой активности для участников 154-1-р декодируемых мультимедийных потоков. Модуль 250 ASG может реализовывать различные алгоритмы оценки, которые генерируют оценки активности на основании различных характеристик речевой активности, которые в некоторой степени предсказывают, когда член активной группы заговорит снова. Для разных характеристик могут быть определены разные метрики, используемые для генерации статистики или аналитики, которая может быть использована как предсказатели будущей речевой активности. Модуль 260 выбора мультимедийного содержимого может использовать оценки активности, чтобы выбрать из активной группы активного кандидата на замену, для которого имеет место низкая вероятность того, что он заговорит в ближайшее время, в результате чего сокращается количество переходов членов между активной группой и неактивной группой. В целом, более высокая оценка активности указывает более высокий уровень речевой активности, тогда как более низкая оценка активности указывает более низкий уровень речевой активности, хотя настоящие варианты осуществления не ограничиваются этим примером. Оценки активности могут быть ранжированы по релевантности, в результате чего облегчается выполнение операций выбора.

Например, в одном варианте осуществления модуль 250 ASG может генерировать оценку активности, чтобы представить последнее время речевой активности для участника 154-1-р. Модуль 220 ASD может выполнять мониторинг декодируемых мультимедийных потоков и записывать, когда происходит речевая активность для заданного декодируемого мультимедийного потока. Для каждого участника 154-1-р декодируемых мультимедийных потоков может быть сохранен временной штамп. Этот временной штамп может содержать дату и/или время, представляющие последнее время, когда участник 154-1-р принимал участие в речевой активности, например задавал вопрос или представлял информацию. Модуль 250 ASG может анализировать временные штампы для всех участников 154-1-р, генерировать более высокую оценку активности для временных штампов с более поздним временем, тем самым иллюстрируя последнюю речевую активность, и более низкую оценку активности для временных штампов с более ранним временем, тем самым иллюстрируя более давнюю речевую активность. Более высокая оценка активности может предсказывать, что участник 154-1-р, который недавно говорил, с большой вероятностью связан с темой данного события мультимедийной конференции, и, следовательно, имеет место высокая вероятность того, что он снова заговорит в ближайшем будущем. Более низкая оценка активности может предсказывать, что участник 154-1-р, который раньше говорил в данном событии, скорее всего не связан с темой данного события мультимедийной конференции, и, следовательно, имеет место низкая вероятность того, что он снова заговорит в ближайшем будущем, что делает его хорошим кандидатом для замены в активной группе.

Например, в одном варианте осуществления модуль 250 ASG может генерировать оценку активности для представления величины отношения речевой активности к отсутствию речевой активности. Модуль 220 ASD может выполнять мониторинг декодируемых мультимедийных потоков и записывать, когда происходит речевая активность для заданного декодируемого мультимедийного потока. Для каждого участника 154-1-р декодируемых мультимедийных потоков могут сохраняться временные штампы. Временные штампы содержат дату и/или время, представляющие каждое событие, когда участник 154-1-р принимал участие в речевой активности, и временную длительность, в течение которой происходила речевая активность. Модуль 250 ASG может анализировать эти временные штампы для всех участников 154-1-р для определения величины отношения речевой активности к отсутствию речевой активности. Модуль 250 ASG может генерировать более высокую оценку активности для тех величин отношения, которые указывают большую величину речевой активности относительно отсутствия речевой активности, и более низкую оценку активности для тех величин отношения, которые указывают меньшую величину речевой активности относительно отсутствия речевой активности. Более высокая оценка активности может предсказывать, что участник 154-1-р, который говорит чаще и/или в течение более длительных временных периодов, с более высокой вероятностью заговорит снова в ближайшем будущем. Более низкая оценка активности может предсказывать, что участник 154-1-р, который говорит реже и/или в течение коротких временных интервалов, с более низкой вероятностью заговорит снова в ближайшем будущем, что делает его хорошим кандидатом на замену в активной группе.

Например, в одном варианте осуществления модуль 250 ASG может генерировать оценку активности, чтобы представить величину счета для участника. Вместо использования величины отношения, чтобы представлять длительность и/или частоту речи, как в предыдущем примере, модуль 250 ASG может реализовывать счетчик для каждого участника 154-1-р и подсчитывать каждое событие, когда этот участник 154-1-р участвует в речевой активности. Аналогично величине отношения, более высокая оценка активности может быть присвоена счетчикам с большей величиной, а более низкая оценка активности может быть присвоена счетчикам с меньшей величиной. Более высокая оценка активности может предсказывать, что участник 154-1-р, который говорит чаще, с более высокой вероятностью заговорит снова в ближайшем будущем. Более низкая оценка активности может предсказывать, что участник 154-1-р, который говорит реже, с более низкой вероятностью заговорит снова в ближайшем будущем, что делает его хорошим кандидатом на замену в активной группе.

Например, в одном варианте осуществления модуль 250 ASG может генерировать оценку активности, чтобы представить величину длины для речевой активности участника. Модуль 220 ASD может выполнять мониторинг декодируемых мультимедийных потоков и записывать, когда происходит речевая активность для заданного декодируемого мультимедийного потока. Для каждого участника 154-1-р декодируемых мультимедийных потоков могут сохраняться временные штампы. Временные штампы содержат дату и/или время, представляющие каждое событие, когда участник 154-1-р принимал участие в речевой активности, и временную длительность, в течение которой происходила речевая активность. Модуль 250 ASG может анализировать эти временные штампы для всех участников 154-1-р, чтобы определить среднюю длину речевой активности для каждого участника 154-1-р. Модуль 250 ASG может генерировать более высокую оценку активности для тех средних величин длины, которые указывают большую длительность речевой активности, и более низкую оценку активности для тех средних величин длины, которые указывают более короткую длительность речевой активности. Более высокая оценка активности может предсказывать, что участник 154-1-р, который говорит в течение более длинных временных периодов, с более высокой вероятностью заговорит снова в ближайшем будущем. Более низкая оценка активности может предсказывать, что участник 154-1-р, который говорит в течение более коротких временных периодов, с более низкой вероятностью заговорит снова в ближайшем будущем, что делает его хорошим кандидатом на замену в активной группе.

Когда модуль 250 ASG генерирует оценки активности для участников 154-1-р, он может вывести эти оценки активности в модуль 260 выбора мультимедийного содержимого. Модуль 260 выбора мультимедийного содержимого может использовать эти оценки активности, чтобы выбрать активного кандидата на замену, и вывести этого активного кандидата на замену в модуль 230 MSM. Тогда модуль 230 MSM может заменить активного кандидата на замену из активной группы на неактивного кандидата на замену из неактивной группы. Например, модуль 230 MSM может вывести активного кандидата на замену из доступного фрейма отображения и сопоставить неактивного кандидата на замену освобожденному доступному фрейму отображения. Таким образом, доступные фреймы отображения могут использоваться для отображения более активных говорящих, и одновременно сокращается количество переходов между мультимедийным содержимым, отображаемым на доступных фреймах отображения.

Компонент 114-1 менеджера мультимедийного содержимого может содержать модуль 240 Генератора Визуальной Композиции (VCG), который связан с возможностью обмена с модулем 230 MSM. Модуль 240 VCG может воспроизводить или генерировать визуальную композицию 108. Например, в одном варианте осуществления модуль 240 VCG может быть устроен так, чтобы генерировать визуальную композицию 108 с реестром участников, где доступные фреймы отображения располагаются статическим или динамическим образом. Модуль 240 VCG может выводить сигналы 206-1-g визуальной композиции на дисплей 116 через контроллер видеографики или модуль GUI операционной системы для заданной консоли 110-1-m для конференции.

Фиг.3а, 3b представляют собой детальные иллюстрации визуальной композиции 108. Визуальная композиция 108 может содержать различные фреймы 330-1-а отображения, расположенные в форме определенной мозаики или шаблона отображения для представления зрителю, такому как оператор консоли 110-1-m для конференции. Каждый фрейм 330-1-а отображения устроен так, чтобы воспроизводить или отображать мультимедийное содержимое из мультимедийных потоков 202-1-f, такое как видеосодержимое и/или аудиосодержимое для соответствующего мультимедийного потока 202-1-f, сопоставленного фрейму 330-1-а отображения модулем 230 MSM.

В варианте осуществления, проиллюстрированном на Фиг.3а, 3b, визуальная композиция 108 может включать в себя фрейм 330-6 отображения, содержащий главную область просмотра для отображения прикладных данных, таких как слайды 304 презентации из прикладного ПО для презентаций. Кроме того, визуальная композиция 108 может включать в себя реестр 306 участников, содержащий фреймы отображения с 330-1 по 330-5. Реестр 306 участников может представлять активную группу 340. Активная группа 340 может содержать участников с 302-1 по 302-5, которые в текущее время сопоставлены фреймам 330-1-s отображения. Неактивная группа 350 может содержать участников с 302-6 по 302-8, которые в текущее время не сопоставлены фреймам 330-1-s отображения. Очевидно, что визуальная композиция 108 может включать в себя большее или меньшее количество фреймов 330-1-s отображения разных размеров в альтернативной компоновке согласно требованиям заданной реализации.

Реестр 306 участников может содержать множество фреймов отображения с 330-1 по 330-5. Фреймы отображения с 330-1 по 330-5 могут предоставлять видеосодержимое и/или аудиосодержимое участников 302-1-b из разных мультимедийных потоков 202-1-f, передаваемых консолью 110-1-m для конференции. Различные фреймы 330-1 отображения реестра 306 участников могут быть расположены в заданном порядке с верхней части визуальной композиции 108 до нижней части визуальной композиции 108, например, фрейм 330-1 отображения в первой позиции на самом верху, фрейм 330-2 отображения во второй позиции, фрейм 330-3 отображения в третьей позиции, фрейм 330-4 отображения в четвертой позиции и фрейм 330-5 отображения в пятой позиции в нижней части. Видеосодержимое участников 302-1-b, отображаемое фреймами отображения с 330-1 по 330-5, может воспроизводиться в разных форматах, таких как контур "голова и плечи" (например, с каким-либо фоном, или без него), прозрачные объекты, которые могут быть наложены на другие объекты, прямоугольные области в перспективе, панорамные виды и т.п.

Порядок фреймов 330-1-b отображения реестра 306 участников не всегда является статичным. В некоторых вариантах осуществления, например, этот порядок может варьировать по ряду причин. Например, оператор может вручную конфигурировать некоторую часть или весь упомянутый порядок согласно личным предпочтениям. В еще одном примере компонент 114-1-t менеджера мультимедийного содержимого может автоматически модифицировать порядок на основании присоединения или выхода участников из заданного события мультимедийной конференции, модификации размеров отображения для фреймов 330-1-а отображения, изменения пространственного или временного разрешения для видеосодержимого, воспроизводимого для фреймов 330-1-а отображения, количества участников 302-1-b, показанных в видеосодержимом для фреймов 330-1-а отображения, разных событий мультимедийной конференции и т.п.

В некоторых случаях оператор или зритель может выбрать фрейм 330-1-а отображения для вывода конкретного участника 302-1-s, или наоборот. В ответ на прием команды оператора модуль 240 VCG может временно или перманентно назначить выбранный фрейм 330-1-а отображения желаемому участнику 302-1-s. Например, оператор или зритель может пожелать назначить фрейм 330-3 отображения из реестра 306 участников третьему участнику 302-3. Визуальный индикатор, такой как иконка 308 канцелярской кнопки, может указывать, что фрейм 330-3 назначен третьему участнику 302-3 и останется сопоставленным третьему участнику 302-3, пока он не будет освобожден.

Модуль 230 MSM может сопоставлять декодированные мультимедийные потоки разным фреймам отображения. В вышеупомянутом примере, когда общее количество декодируемых мультимедийных потоков не больше общего количества фреймов отображения в визуальной композиции 108 (например, L<=А), модуль 230 MSM может сопоставить декодируемые мультимедийные потоки доступным фреймам отображения. В этом случае видеокомпозиция 108 может иметь достаточное количество доступных фреймов отображения, чтобы отобразить всех участников 154-1-р в декодируемых мультимедийных потоках для заданного события мультимедийной конференции. Например, когда есть пять доступных фреймов отображения с 330-1 по 330-5 и пять декодируемых мультимедийных потоков с участниками с 302-1 по 302-5 (а-с), все пять декодируемых мультимедийных потоков могут отображаться в визуальной композиции 108.

Когда общее количество декодируемых мультимедийных потоков больше общего количества фреймов отображения в визуальной композиции 108 (например, L>А), модулю 230 MSM может потребоваться сопоставить поднабор общего количества декодируемых мультимедийных потоков доступным фреймам отображения. В течение инициализации или в начале события мультимедийной конференции модуль 260 выбора мультимедийного содержимого может выбрать активную группу декодируемых мультимедийных потоков множеством различных способов. В проиллюстрированном варианте осуществления с Фиг.3а, например, участники с 302-1 по 302-5 сопоставлены соответствующим фреймам отображения с 330-1 по 330-5, чтобы формировать активную группу 340, тогда как участники с 302-6 по 302-8 не сопоставлены соответствующему фрейму 330-1-s, и, следовательно, они формируют неактивную группу 350.

Модуль 260 выбора мультимедийного содержимого может выбрать члена неактивной группы 350 декодируемых мультимедийных потоков как неактивного кандидата для замены члена активной группы 340 декодируемых мультимедийных потоков на основании речевой активности. Предположим, в течение события мультимедийной конференции участник 302-7 принимает участие в речевой активности. Модуль 220 ASD выполняет мониторинг декодируемых мультимедийных потоков, чтобы детектировать, когда имеет место речевая активность. Когда модуль 220 ASD детектирует речевую активность для участника 302-7, модуль 220 ASD может передать уведомление в модуль 230 MSM. Тем не менее, поскольку доступных фреймов 330-1-5 отображения больше нет, модуль 230 MSM передает команду управления в модуль 260 выбора мультимедийного содержимого, чтобы выбрать члена активной группы 340 для его замены говорящим членом неактивной группы 350. Модуль 260 выбора мультимедийного содержимого может выбрать члена активной группы 340 декодируемых мультимедийных потоков как кандидата, который будет заменен участником 302-7 неактивной группы декодируемых мультимедийных потоков, на основании оценки активности для участника 302-7. Предположим, что модуль 260 выбора мультимедийного содержимого выбирает участника 302-4 как имеющего самую низкую оценку активности из всех участников с 302-1 по 302-5 активной группы 340 и, следовательно, назначает участника 302-4 как активного кандидата на замену. Например, самая низкая оценка активности может указывать, что участник 302-4 не говорил в течение самого длительного интервала до текущего момента из всех участников с 302-1 по 302-5. Следует отметить, что модуль 260 выбора мультимедийного содержимого исключит участника 302-3 при анализе оценок активности, поскольку оператор зафиксировал участника 302-3 на фрейме 330-3 отображения, как указано посредством иконки 308 канцелярской кнопки. Модуль 260 выбора мультимедийного содержимого выводит выбор участника 302-4 в модуль 230 MSM 230 в качестве активного кандидата на замену. Тогда модуль 230 MSM может заменить участника 302-4 из активной группы 340 неактивным кандидатом на замену из неактивной группы 350, которым в данном случае является участник 302-7. Например, модуль 230 MSM может удалить декодируемый мультимедийный поток с участником 302-4 из фрейма 330-4 отображения и сопоставить участника 302-7 освобожденному фрейму 330-4 отображения, как показано на Фиг.3b. Тогда, активная группа 340 будет содержать участников 302-1, 302-2, 302-3, 302-5 (а-с) и 302-7. Неактивная группа 350 будет содержать участников 302-4, 302-6 и 302-8.

Операции для вышеописанного варианта осуществления более подробно могут быть описаны со ссылкой на одну или более логических блок-схем. Очевидно, что если не указано иного, выполнение иллюстративных логических блок-схем в представленном порядке или каком-либо конкретном порядке необязательно. Более того, различные действия, описанные со ссылкой на логические блок-схемы, могут быть выполнены последовательно или параллельно. Логические блок-схемы могут быть реализованы с использованием одного или более аппаратных элементов и/или программных элементов описанных вариантов осуществления или альтернативных вариантов осуществления согласно заданному набору характеристик структуры и производительности. Например, упомянутые логические блок-схемы могут быть реализованы как логика (например, компьютерные программные инструкции) для выполнения логическим устройством (например, компьютером общего назначения или компьютером специального назначения).

Фиг.4 представляет собой иллюстрацию одного варианта осуществления логической блок-схемы 400. Логическая блок-схема 400 может представлять некоторые или все операции, выполняемые одним или более вариантами осуществления, описанными в настоящем документе.

Как показано на Фиг.4, в блоке 402 логическая блок-схема 400 может декодировать множество мультимедийных потоков для события мультимедийной конференции. Например, модуль 210 видеодекодера может декодировать множество входных мультимедийных потоков 202-1-f для события мультимедийной конференции, чтобы сформировать декодированные мультимедийные потоки.

В блоке 404 логическая блок-схема 400 определяет, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции. Например, модуль 230 MSM может определить, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции (например, L>А).

В блоке 406 логическая блок-схема 400 может выбирать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для ее сопоставления доступным фреймам отображения на основании речевой активности. Например, модуль 260 выбора мультимедийного содержимого может выбрать активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для ее сопоставления доступным фреймам 330-1-s отображения на основании речевой активности. Речевая активность может быть представлена посредством разных оценок активности, генерируемых с использованием различных алгоритмов оценки.

Фиг.5 представляет собой более детальную структурную схему вычислительной архитектуры 510, подходящей для реализации консолей 110-1-m для конференции или сервера 130 мультимедийной конференции. В базовой конфигурации вычислительная архитектура 510, как правило, включает в себя, по меньшей мере, один процессорный блок 532 и память 534. Память 534 может быть реализована с использованием любого машиночитаемого или читаемого компьютером носителя, способного хранить данные, включая как энергонезависимую память, так и энергозависимую память. Например, память 534 может включать в себя Постоянное Запоминающее Устройство (ROM), Оперативное Запоминающее Устройство (RAM), Динамическое RAM (Dynamic RAM, DRAM), DRAM с Двойной Скоростью Обмена (Double-Data-Rate DRAM, DDRAM), Синхронное DRAM (Synchronous DRAM, SDRAM), Статическое RAM (Static RAM, SRAM), Программируемое ROM (Programmable ROM, PROM), Стираемое Программируемое ROM (Erasable Programmable ROM, EPROM), Электрически Стираемое Программируемое ROM (Electrically Erasable Programmable ROM, EEPROM), флэш-память, память, полимерную память, такую как сегнетоэлектрическая полимерная память, память на элементах Овшинского, память на фазовом переходе или сегнетоэлектрическая память, память на полупроводниках типа Оксид Кремния-Оксид Азота-Кремний (Silicon-Oxide-Nitride-Oxide-Silicon, SONOS), магнитные или оптические карты, или другие типы носителей, подходящих для хранения информации. Как показано на Фиг.5, память 534 может хранить в себе различные программы, такие как одна или более прикладных программ 536-1-t и сопутствующие данные. В зависимости от реализации, примеры прикладных программ 536-1-t могут включать в себя серверный компонент 132 конференции, клиентские компоненты 112-1-n конференции или компонент 114 менеджера мультимедийного содержимого.

Вычислительная архитектура 510 также может иметь дополнительные элементы и/или функции сверх этой базовой конфигурации. Например, вычислительная архитектура 510 может включать в себя съемное хранилище 538 и несъемное хранилище 540, которые также могут содержать различные типы машиночитаемых или читаемых компьютером носителей, как описано выше. Вычислительная архитектура также может содержать одно или более устройств 544 ввода, таких как клавиатура, мышь, ручка, устройство голосового ввода, устройство сенсорного ввода, измерительные устройства, сенсоры и т.п. Вычислительная архитектура 510 также может включать в себя одно или более устройств 542 вывода, таких как дисплеи, громкоговорители, принтеры и т.п.

Вычислительная архитектура 510 сверх того может включать в себя одно или более соединений 546 связи, которые позволяют вычислительной архитектуре 510 осуществлять связь с другими устройствами. Соединения 546 связи могут включать в себя различные типы стандартных элементов связи, таких как один или более интерфейсов связи, сетевые интерфейсы, карты сетевого интерфейса, радио, беспроводные передатчики/приемники (приемопередатчики), проводные и/или беспроводные средства связи, физические соединители и т.п. Средство связи, как правило, заключает в себе машиночитаемые команды, структуры данных, программные модули и другие данные в виде модулированного сигнала данных, такого как несущая волна или другой механизм передачи, и включает в себя любое средство доставки информации. Термин "модулированный сигнал данных" обозначает сигнал, у которого одна или более характеристик установлены или изменены таким образом, чтобы кодировать в сигнал информацию. В качестве неограничивающего примера, средства связи включают в себя проводные средства связи и беспроводные средства связи. Примеры проводных средств связи могут включать в себя провод, кабель, металлические контакты, печатные платы, материнские платы, многовходовые системы коммутации, волоконно-оптические соединения, распространяемый сигнал и т.п. Примеры беспроводных средств связи могут включать в себя акустические средства, радиочастотный спектр, инфракрасные и другие беспроводные средства. Термин машиночитаемые носители и читаемые компьютером носители используется в настоящем документе для обозначения как средств хранения, так и средств связи.

Фиг.6 представляет собой схему изделия 600, подходящего для хранения логики для различных вариантов осуществления, включающих в себя логическую блок-схему 400. Как показано, изделие 600 может содержать носитель 602 информации для хранения логики 604. Примеры носителя 602 информации могут включать в себя один или более типов читаемых компьютером носителей хранения, способных хранить электронные данные, включая энергозависимую память или энергонезависимую память, съемную или несъемную память, стираемую или нестираемую память, записываемую или перезаписываемую память и т.п. Примеры логики 604 могут включать в себя программные элементы, такие как программные компоненты, программы, приложения, компьютерные программы, прикладные программы, системные программы, машинные программы, программное обеспечение операционной системы, промежуточное программное обеспечение, встроенное программное обеспечение, программные модули, рутинные процедуры, субрутинные процедуры, функции, способы, процедуры, программные интерфейсы, интерфейсы прикладной программы, наборы инструкций, вычислительный код, компьютерный код, сегменты кода, сегменты компьютерного кода, слова, величины, символы или любые комбинации перечисленных.

В одном варианте осуществления, например, изделие 600 и/или читаемый компьютером носитель 602 информации может хранить в себе логику 604, содержащую выполняемые компьютерной программой инструкции, которые при их выполнении компьютером приводят компьютер к выполнению способов и/или операций согласно описанным вариантам осуществления. Упомянутые выполняемые компьютерные программные инструкции могут включать в себя любой подходящий тип кода, такого как исходный код, компилированный код, интерпретированный код, исполняемый код, статический код, динамический код и т.п. Упомянутые выполняемые компьютерные программные инструкции могут быть реализованы согласно предопределенному компьютерному языку, способу или синтаксису для подачи инструкции компьютеру для выполнения определенной функции. Эти инструкции могут быть реализованы с использованием любого подходящего высокоуровневого, низкоуровневого, объектно-ориентированного, визуального, компилируемого и/или интерпретируемого языка программирования, такого как C, C++, Java, BASIC, Perl, Matlab, Pascal, Visual BASIC, язык ассемблера и другие.

Различные варианты осуществления могут быть реализованы, используя элементы аппаратного обеспечения, элементы программного обеспечения или их комбинацию. Примеры элементов аппаратного обеспечения могут включать в себя любые примеры, ранее приведенные для логического устройства, а также микропроцессоры, схемы, элементы схемы (например, транзисторы, резисторы, конденсаторы, индуктивности и т.п.), интегральные схемы, логические вентили, регистры, полупроводниковые устройства, чипы, микрочипы, наборы чипов и т.п. Примеры элементов программного обеспечения могут включать в себя программные компоненты, программы, приложения, компьютерные программы, прикладные программы, системные программы, машинные программы, программное обеспечение операционной системы, промежуточное программное обеспечение, встроенное программное обеспечение, программные модули, рутинные процедуры, субрутинные процедуры, функции, способы, процедуры, программные интерфейсы, интерфейсы прикладной программы, наборы инструкций, вычислительный код, компьютерный код, сегменты кода, сегменты компьютерного кода, слова, величины, символы или любые комбинации перечисленных. Определение того, будет ли реализован вариант осуществления с использованием элементов аппаратного обеспечения и/или элементов программного обеспечения, может зависеть от ряда факторов, таких как желаемая скорость вычислений, уровни мощности, допустимые величины тепловыделения, бюджет вычислительного цикла, скорости входных данных, скорости выходных данных, ресурсы памяти, скорости шины передачи данных и другие ограничения дизайна или производительности, согласно требованиям для заданной реализации.

Некоторые варианты осуществления могут быть описаны с использованием выражений "связан", "соединен" и их производных. Эти термины не всегда предназначены для использования в качестве синонимов. Например, некоторые варианты осуществления могут быть описаны с использованием терминов "соединен" и/или "связан", чтобы указать, что два или более элементов находятся в прямом физическом или электрическом контакте друг с другом. Тем не менее, термин "связан" также может обозначать, что два или более элементов не находятся в прямом контакте друг с другом, но все же они кооперируют или взаимодействуют друг с другом.

Следует подчеркнуть, что раздел "Реферат" настоящего раскрытия предоставлен согласно Разделу 1.72(b) Части 37 Свода Федеральных Правил, который требует, чтобы реферат позволял читателю быстро определять природу технического раскрытия. Раздел "Реферат" предоставлен с пониманием того, что он не будет использован для интерпретирования или ограничения объема или смысла формулы изобретения. В добавление, в вышеизложенном разделе "Подробное Описание" различные отличительные признаки сгруппированы вместе в одном варианте осуществления в целях рационального изложения раскрытия. Этот способ раскрытия не должен интерпретироваться как необходимость того, чтобы варианты осуществления содержали больше отличительных признаков, чем указано в каждом пункте формулы изобретения. Скорее, следующие пункты формулы изобретения отражают, что изобретательская сущность основана не на всех отличительных признаках одного раскрытого варианта осуществления. Соответственно, следующая формула изобретения интегрирована в раздел "Подробное Описание", причем каждый пункт формулы изобретения является отдельным, как отдельный вариант осуществления. В прилагаемой формуле изобретения термины "включающий в себя" и "в котором" используются как эквиваленты соответствующих терминов "содержащий" и "причем", соответственно. Более того, термины "первый", "второй", "третий" и т.п. используются исключительно как метки и они не налагают порядковых ограничений на соответствующие объекты.

Несмотря на то что объект настоящего изобретения был описан в привязке к структурным особенностям и/или методологическим действиям, следует понимать, что объект настоящего изобретения, определенный в прилагаемой формуле изобретения, не ограничен конкретными особенностями или действиями, описанными выше. Скорее, описанные выше конкретные структурные особенности и действия раскрыты как примеры форм осуществления пунктов формулы изобретения.

Класс H04N7/15 системы для конференц-связи

передающий терминал, способ передачи и считываемый компьютером носитель записи, хранящий программу передачи -  патент 2529641 (27.09.2014)
устройство и способ обработки информации и система обработки информации -  патент 2524677 (10.08.2014)
согласование скорости при видеоконференциях -  патент 2524359 (27.07.2014)
способы для генерации визуальной композиции для события мультимедийной конференц-связи -  патент 2518402 (10.06.2014)
система дистанционного присутствия, способ дистанционного присутствия и устройство сбора видеоданных -  патент 2518218 (10.06.2014)
способ, устройство и система для установления видеосоединения и переключения видео -  патент 2515472 (10.05.2014)
способ, устройство и система для осуществления видеовызова -  патент 2504090 (10.01.2014)
способ индикации состояния прохождения вызова, устройство управления конференц-связью и система конференц-связи -  патент 2491735 (27.08.2013)
способы для автоматической идентификации участников для события мультимедийной конференц-связи -  патент 2488227 (20.07.2013)
способ создания эффекта виртуального присутствия с комбинированным видеоизображением -  патент 2461143 (10.09.2012)

Класс H04N21/431 генерирование визуальных взаимодействий; воспроизведение контента или дополнительных данных

Наверх