аудиодекодер
Классы МПК: | G10L19/14 детали, не отнесенные к группам 19/06 |
Автор(ы): | БРЕБАРТ Дирк Й. (NL) |
Патентообладатель(и): | КОНИНКЛЕЙКЕ ФИЛИПС ЭЛЕКТРОНИКС Н.В. (NL) |
Приоритеты: |
подача заявки:
2008-01-07 публикация патента:
10.11.2012 |
Изобретение относится к аудиодекодеру, в частности к МРЕG Surround декодеру или объектно-ориентированному декодеру. Техническим результатом является обеспечение усовершенствованного декодера для декодирования аудиообъектов, который обеспечивает более широкий диапазон манипуляций над объектами без декодирования индивидуальных аудиообъектов. Указанный результат достигается тем, что аудиодекодер содержит средство (500) действия, декодирующее средство (300) и воспроизводящее средство (400). Средство действия генерирует измененные аудиосигналы с уменьшенным числом каналов из принятых аудиосигналов с уменьшенным числом каналов, содержащих смесь множества аудиообъектов. Измененные аудиосигналы с уменьшенным числом каналов получены путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых принятых аудиосигналах с уменьшенным числом каналов. Оцененные аудиосигналы выведены из принятых аудиосигналов с уменьшенным числом каналов на основании принятых параметрических данных, которые содержат множество параметров объекта для каждого из множества аудиообъектов. Измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируются декодирующим средством, или воспроизводятся воспроизводящим средством, или объединяются с выходом воспроизводящего средства. 6 н. и 8 з.п. ф-лы, 7 ил.
Формула изобретения
1. Аудиодекодер (100), содержащий:
средство (500) действия для генерирования измененных аудиосигналов с уменьшенным числом каналов из принятых аудиосигналов с уменьшенным числом каналов, упомянутые принятые аудиосигналы с уменьшенным числом каналов содержат смесь множества аудиообъектов, упомянутые измененные аудиосигналы с уменьшенным числом каналов получены путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых принятых аудиосигналах с уменьшенным числом каналов, причем упомянутые оцененные аудиосигналы выведены из принятых аудиосигналов с уменьшенным числом каналов на основании принятых параметрических данных, упомянутые принятые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов, причем упомянутые измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируются декодирующим средством, или воспроизводятся воспроизводящим средством, или объединяются с выходом воспроизводящего средства;
декодирующее средство (300), выполненное с возможностью декодирования аудиообъектов из аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных;
воспроизводящее средство (400), выполненное с возможностью генерирования по меньшей мере одного выходного аудиосигнала из декодированных аудиообъектов.
2. Декодер по п.1, в котором средство (500) действия выполнено с возможностью обеспечения действия ввода и содержит:
средство (510) оценивания для генерирования оцененных аудиосигналов, соответствующих объекту или множеству объектов, к которым должно быть применено действие ввода, и генерирования оцененных аудиосигналов, соответствующих остальным объектам;
средство (530) ввода для применения действия ввода к оцененным аудиосигналам, соответствующим объекту или множеству объектов, к которым должно быть применено действие ввода;
сумматор (540) для суммирования аудиосигналов, предоставленных средством ввода, и оцененного аудиосигнала, соответствующего остальным объектам.
3. Декодер по п.2, в котором декодер дополнительно содержит средство (600) изменения для изменения параметрических данных, когда спектральная или временная огибающая оцененного аудиосигнала, соответствующего объекту или множеству объектов, изменена действием ввода.
4. Декодер по п.1, в котором средство действия выполнено с возможностью обеспечения действия передачи и содержит:
средство (510) оценивания для генерирования оцененных аудиосигналов, соответствующих объекту или множеству объектов, к которым должно быть применено действие передачи;
средство (560) усиления для определения величины действия передачи для оцененных аудиосигналов, соответствующих объекту или множеству объектов, к которым должно быть применено действие передачи;
сумматор (540) для суммирования аудиосигналов, полученных от средства усиления;
средство (570) передачи для применения действия передачи к аудиосигналам, полученным от сумматора.
5. Декодер по любому из пп.1-4, в котором генерация оцененных аудиосигналов, соответствующих аудиообъекту или множеству объектов, содержит зависимое от времени/частоты масштабирование аудиосигналов с уменьшенным числом каналов на основании параметров мощности, соответствующих аудиообъектам, причем упомянутые параметры мощности содержатся в параметрических данных.
6. Декодер по п.5, в котором генерация оцененных аудиосигналов содержит взвешивание объекта или комбинации множества объектов посредством зависимого от времени/частоты масштабирования аудиосигналов с уменьшенным числом каналов на основании параметров мощности, соответствующих аудиообъектам, причем упомянутые параметры мощности содержатся в принятых параметрических данных.
7. Декодер по п.1, в котором сигналы с уменьшенным числом каналов и параметрические данные соответствуют стандарту MPEG Surround.
8. Декодер по п.7, в котором декодирующее средство (300) содержит декодер (320) в соответствии со стандартом MPEG Surround и средство (310) преобразования для преобразования параметрических данных в параметрические данные в соответствии со стандартом MPEG Surround.
9. Способ декодирования аудиосигналов, содержащий этапы, на которых:
принимают по меньшей мере один аудиосигнал с уменьшенным числом каналов и параметрические данные, причем каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов, упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов;
генерируют измененные аудиосигналы с уменьшенным числом каналов, упомянутые измененные аудиосигналы с уменьшенным числом каналов получают путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых аудиосигналах с уменьшенным числом каналов, причем упомянутые оцененные аудиосигналы выводят из аудиосигналов с уменьшенным числом каналов на основании параметрических данных, причем упомянутые измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируют декодирующим средством или воспроизводят воспроизводящим средством или объединяют с выходом воспроизводящего средства;
декодируют аудиообъекты из аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных;
генерируют по меньшей мере один выходной аудиосигнал из декодированных аудиообъектов.
10. Приемник для приема аудиосигналов, содержащий аудиодекодер по п.1 и элемент (200) приемника для приема от передатчика по меньшей мере одного аудиосигнала с уменьшенным числом каналов и параметрических данных, каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов, упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов, причем элемент приемника связан со средством (500) действия и декодирующим средством (300).
11. Система связи для передачи аудиосигналов, содержащая:
передатчик (700) содержащий:
средство (710) для приема множества аудиообъектов,
кодирующее средство (720) для кодирования множества аудиообъектов по меньшей мере в один аудиосигнал с уменьшенным числом каналов и параметрические данные, каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов, упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов, и
средство (730) для передачи аудиосигналов с уменьшенным числом каналов и параметрических данных на приемник, и
приемник (900) по п.10.
12. Способ приема аудиосигналов, содержащий этапы, на которых:
принимают от передатчика по меньшей мере один аудиосигнал с уменьшенным числом каналов и параметрические данные, каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов, упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов;
генерируют измененные аудиосигналы с уменьшенным числом каналов, упомянутые измененные аудиосигналы с уменьшенным числом каналов получают путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых аудиосигналах с уменьшенным числом каналов, причем упомянутые оцененные аудиосигналы выводят из аудиосигналов с уменьшенным числом каналов на основании параметрических данных, причем упомянутые измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируют декодирующим средством, или воспроизводят воспроизводящим средством, или объединяют с выходом воспроизводящего средства;
декодируют аудиообъекты из аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных,
генерируют воспроизводящим средством по меньшей мере один выходной аудиосигнал из декодированных аудиообъектов.
13. Способ передачи и приема аудиосигналов, содержащий:
в передатчике выполнение этапов:
приема множества аудиообъектов,
кодирования множества аудиообъектов по меньшей мере в один аудиосигнал с уменьшенным числом каналов и параметрические данные, причем каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов, упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов, и
передачи аудиосигналов с уменьшенным числом каналов и параметрические данные на приемник, и
в приемнике выполнение этапов:
приема от передатчика по меньшей мере одного аудиосигнала с уменьшенным числом каналов и параметрических данных, причем каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов, упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов,
генерации измененных аудиосигналов с уменьшенным числом каналов, причем упомянутые измененные аудиосигналы с уменьшенным числом каналов получают применением действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых аудиосигналах с уменьшенным числом каналов, упомянутые оцененные аудиосигналы выводят из аудиосигналов с уменьшенным числом каналов на основании параметрических данных, причем упомянутые измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируют декодирующим средством, или воспроизводят воспроизводящим средством, или объединяют с выходом воспроизводящего средства;
декодирования аудиообъектов из аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных,
генерации по меньшей мере одного выходного аудиосигнала из декодированных аудиообъектов.
14. Способ по любому из пп.9, 12, и 13, в котором действия применяются в ответ на ввод пользователя.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Изобретение относится к аудиодекодеру, в частности, но не исключительно, к MPEG Surround декодеру или объектно-ориентированному декодеру.
Уровень техники
В (параметрических) пространственных аудиокодерах параметры извлекаются из исходных аудиосигналов, чтобы формировать пониженное число аудиосигналов с уменьшенным числом каналов (например, только сигнал с уменьшенным до одного числом каналов, соответствующий моно, или сигнал с уменьшенным до двух числом каналов для числа каналов, уменьшенного до стерео) и соответствующий набор параметров, описывающих пространственные свойства оригинального аудиосигнала. В (параметрических) пространственных аудиодекодерах пространственные свойства описываются передаваемыми пространственными параметрами, используемыми для восстановления пространственного многоканального сигнала, который близко похож на оригинальный многоканальный аудиосигнал.
В последнее время технологии для обработки и манипулирования индивидуальными аудиообъектами на стороне декодирования уже привлекли значительный интерес. Например, в рамках MPEG начала работу рабочая группа по основанному на объекте пространственному аудиокодированию. Цель этой рабочей группы - «исследовать новую технологию и повторно использовать существующие MPEG Surround компоненты и технологии для эффективного кодирования передачи битов многосоставных источников звука или объектов в число каналов с уменьшенным количеством и соответствующие пространственные параметры». Другими словами, целью является кодировать множественные аудиообъекты в ограниченный набор каналов с уменьшенным количеством с соответствующими параметрами. На стороне декодера пользователи взаимодействуют с содержимым, например, изменяя позиционирование индивидуальных объектов.
Такое взаимодействие с содержимым легко реализуется в объектно-ориентированных декодерах. В таком случае оно реализуется включением в себя воспроизведения, которое следует за декодированием. Упомянутое воспроизведение объединяется с декодированием, чтобы предотвратить необходимость определения индивидуальных объектов. В настоящее время имеющееся в распоряжении специализированное воспроизведение включает в себя позиционирование объектов, регулирование уровня громкости или частотную коррекцию воспроизводимых аудиосигналов.
Одним недостатком известных объектно-ориентированных декодеров с объединенным воспроизведением является то, что они обеспечивают ограниченный набор манипуляций над объектами, потому что они не формируют или не действуют на индивидуальные объекты. С другой стороны декодирование в явном виде индивидуальных аудиообъектов является очень дорогостоящим и неэффективным.
Сущность изобретения
Задача изобретения заключается в том, чтобы обеспечить усовершенствованный декодер для декодирования аудиообъектов, который обеспечивает более широкий диапазон манипуляций над объектами, не требуя декодирования индивидуальных аудиообъектов для этой цели.
Эта задача достигается аудиодекодером согласно изобретению. Предполагается, что набор объектов, каждый со своей соответствующей формой волны, предварительно был закодирован в объектно-ориентированном кодере, который генерирует аудиосигнал с уменьшенным числом каналов (один сигнал в случае одного канала), упомянутый аудиосигнал с уменьшенным числом каналов является смесью множества аудиообъектов и соответствующих параметрических данных. Параметрические данные содержат набор параметров объекта для каждого из различных аудиообъектов. Приемник принимает упомянутый аудиосигнал с уменьшенным числом каналов и упомянутые параметрические данные. Этот аудиосигнал с уменьшенным числом каналов далее направляется в средство действия, которое генерирует измененный аудиосигнал с уменьшенным числом каналов, применяя действия к оценкам аудиосигналов, соответствующим выбранным аудиообъектам, содержащимся в аудиосигнале с уменьшенным числом каналов. Упомянутые оценки аудиосигналов выводятся на основании параметрических данных. Измененный аудиосигнал с уменьшенным числом каналов далее направляется в декодирующее средство или воспроизводящее средство или объединяется с выходом воспроизводящего средства, в зависимости от типа применяемого действия, например действием ввода или передачи. Декодирующее средство декодирует аудиообъекты из аудиосигнала с уменьшенным числом каналов, направленного в декодирующее средство, упомянутый аудиосигнал с уменьшенным числом каналов является первоначально принятым аудиосигналом с уменьшенным числом каналов или измененным аудиосигналом с уменьшенным числом каналов. Упомянутое декодирование представлено на основании параметрических данных. Воспроизводящее средство генерирует пространственный выходной аудиосигнал из аудиообъектов, полученных от декодирующего средства и, дополнительно, от средства действия, в зависимости от типа примененного действия.
Преимущество декодера согласно изобретению в том, что для того, чтобы применять различные типы действий, нет необходимости, чтобы объект, к которому действие должно быть применено, был доступен. Взамен изобретение предлагает применить действия к оцененным аудиосигналам, соответствующим объектам, перед или параллельно с фактическим декодированием. Таким образом, явное декодирование объекта не требуется, и воспроизведение, возникшее в декодере, сохраняется.
В варианте осуществления декодер дополнительно содержит средство изменения для изменения параметрических данных, когда спектральная или временная огибающая оцененного аудиосигнала, соответствующая объекту или множеству объектов, изменяется действием ввода.
Примером такого действия является нелинейное искажение, которое генерирует дополнительные высокочастотные спектральные компоненты, или многополосный компрессор. Если спектральные характеристики измененного аудиосигнала изменены, применение неизмененных параметров, содержащихся в параметрических данных, как они были приняты, может привести к нежелательным и, возможно, раздражающим артефактам. Поэтому адаптация параметров, чтобы привести их в соответствие с новыми спектральными или временными характеристиками, улучшает качество получаемого в результате воспроизведенного аудиосигнала.
В варианте осуществления генерация оцененных аудиосигналов, соответствующих аудиообъектам или множеству объектов, содержит зависимое от времен/частоты масштабирование аудиосигналов с уменьшенным числом каналов на основании параметров мощности, соответствующих аудиообъектам, причем упомянутые параметры мощности содержатся в принятых параметрических данных.
Преимущество такого оценивания в том, что оно содержит умножение аудиосигнала с уменьшенным числом каналов. Это делает процесс оценивания простым и эффективным.
В варианте осуществления декодирующее средство содержит декодер в соответствии с MPEG Surround стандартом и средство преобразования для преобразования параметрических данных в параметрические данные в соответствии с MPEG Surround стандартом.
Преимущество использования MPEG Surround декодера в том, что этот тип декодера используется как воспроизводящий инструмент для объектно-ориентированного декодера. В этом случае объектно-ориентированные параметры объединяются с данными пользовательского управления и преобразованными в MPEG Surround параметрами, такими как параметры уровневых различий и корреляции между каналами (парами). Поэтому MPEG Surround параметры получают в результате из объединенного действия объектно-ориентированных параметров, то есть переданной информации и желаемых свойств воспроизведения, то есть набора управляемой пользователем информации со стороны декодера. В таком случае не требуются промежуточные объектные сигналы.
Изобретение дополнительно обеспечивает приемник и систему связи, а также соответствующие способы.
В варианте осуществления действия ввода и передачи применяются одновременно. Использование, например, действий ввода не исключает использование действий передачи и наоборот.
Изобретение дополнительно обеспечивает компьютерный программный продукт, дающий возможность программируемому устройству выполнять способ согласно изобретению.
Краткое описание чертежей
Эти и другие аспекты изобретения поясняются со ссылкой на варианты осуществления, показанные на чертежах, на которых:
Фиг.1А схематично показывает объектно-ориентированный декодер;
Фиг.1В схематично показывает объектно-ориентированный декодер согласно изобретению;
Фиг.2 показывает пример средства действия для действия ввода;
Фиг.3 показывает средство изменения для изменения параметрических данных, когда спектральная огибающая оцененного аудиосигнала, соответствующего объекту или множеству объектов, изменяется действием ввода;
Фиг.4 показывает пример средства действия для действия передачи;
Фиг.5 показывает декодирующее средство, причем декодирующее средство содержит декодер в соответствии с MPEG Surround стандартом и средство преобразования для преобразования параметрических данных в параметрические данные в соответствии с MPEG Surround стандартом;
Фиг.6 показывает систему передачи для передачи аудиосигналов в соответствии с некоторыми вариантами осуществления изобретения.
На всех чертежах одинаковые ссылочные позиции обозначают подобные или соответствующие признаки. Некоторые из признаков, обозначенные в чертежах, обычно выполняются в программном обеспечении и как таковые представляют сущности программного обеспечения, такие как модули программного обеспечения или объекты.
Раскрытие изобретения
Фиг.1А схематично показывает объектно-ориентированный декодер 100, известный из, например, работы К. Фаллера: «Параметрическое Совместное Кодирование Аудиоисточников», AES 120-я Конвенция, Париж, Франция, Препринт 6752, Май 2006. Предполагается, что набор объектов, каждый с соответствующей формой волны, заранее был закодирован в объектно-ориентированном кодере, который генерирует аудиосигнал с уменьшенным числом каналов (один сигнал в случае одного канала или два сигнала в случае двух каналов (=стерео)), причем упомянутый аудиосигнал с уменьшенным числом каналов является смесью множества аудиообъектов, характеризующихся соответствующими параметрическими данными. Параметрические данные содержат набор параметров объекта для каждых различных аудиообъектов. Приемник 200 принимает упомянутый аудиосигнал с уменьшенным числом каналов и упомянутые параметрические данные.
Сигнал, направленный в приемник 200, является одним сигналом, который соответствует потоку мультиплексированных аудиоданных с уменьшенным числом каналов, которые соответствуют аудиосигналу с уменьшенным числом каналов и параметрическим данным. Назначение приемника в том, чтобы демультиплексировать два потока данных. Если аудиосигнал с уменьшенным числом каналов обеспечен в сжатой форме (такой, как MPEG-1 уровень 3), приемник 200 также выполняет декомпрессию или декодирование сжатого аудиосигнала в аудиосигнал с уменьшенным числом каналов временной области.
Несмотря на то что на входе в приемник 200 изображен единый тракт сигнала/данных, он также может содержать несколько трактов данных для отдельных сигналов с уменьшенным числом каналов и/или параметрических данных. В результате, сигналы с уменьшенным числом каналов и параметрические данные направляются в декодирующее средство 300, которое декодирует аудиообъекты из аудиосигналов с уменьшенным числом каналов на основании параметрических данных. Декодированные аудиообъекты дополнительно направляются в воспроизводящее средство 400 для генерирования, по меньшей мере, одного выходного аудиосигнала из декодированных аудиообъектов. Несмотря на то что декодирующее средство и воспроизводящее средство изображены как отдельные блоки, они очень часто объединены вместе. В результате такого объединения декодирующего и воспроизводящего средства обработки нет необходимости для явного декодирования индивидуальных аудиообъектов. Взамен воспроизведенные аудиосигналы обеспечиваются при намного меньших вычислительных затратах и без потери качества звука.
Фиг.1В схематично показывает объектно-ориентированный декодер 110 согласно изобретению. Приемник 200 принимает упомянутый аудиосигнал с уменьшенным числом каналов и упомянутые параметрические данные. Этот аудиосигнал с уменьшенным числом каналов и параметрические данные далее направляются в средство 500 действия, которое генерирует измененный аудиосигнал с уменьшенным числом каналов путем применения действий к оценкам аудиосигналов, соответствующих выбранным аудиообъектам, содержащимся в аудиосигнале с уменьшенным числом каналов. Упомянутые оценки аудиосигналов получаются на основе параметрических данных. Измененный аудиосигнал с уменьшенным числом каналов далее направляется в декодирующее средство 300 или воспроизводящее средство 400 или объединяется с выходом воспроизводящего средства, в зависимости от типа примененного действия, например действия ввода или передачи. Декодирующее средство 300 декодирует аудиообъекты из аудиосигнала с уменьшенным числом каналов, направленного в декодирующее средство, причем упомянутый аудиосигнал с уменьшенным числом каналов является первоначально принятым аудиосигналом с уменьшенным числом каналов или измененным аудиосигналом с уменьшенным числом каналов. Упомянутое декодирование выполняется на основании параметрических данных. Воспроизводящее средство 400 генерирует пространственный выходной аудиосигнал из аудиообъектов, полученных из декодирующего средства 300 и, дополнительно, из средства 500 действия, в зависимости от типа примененного действия.
Фиг.2 показывает пример средства 500 действия для действия ввода. Сигналы 501 с уменьшенным числом каналов направляются в средство 500 действия; эти сигналы направляются параллельно в блоки 511 и 512, которые содержатся в средстве 510 оценивания. Средство 510 оценивания генерирует оцененные аудиосигналы, соответствующие объекту или множеству объектов, к которым должно быть применено действие ввода, и оцененный аудиосигнал, соответствующий остальным объектам. Оценивание аудиосигналов, соответствующих объекту или множеству объектов, к которым должно быть применено действие ввода, выполняется блоком 511, в то время как оценивание аудиосигнала, соответствующего остальным объектам, выполняется блоком 512. Упомянутое оценивание основано на параметрических данных 502, которые получают от приемника 200. В результате, действие ввода применяется средством 530 ввода к оцененным аудиосигналам, соответствующим объекту или множеству объектов, к которым должно быть применено действие ввода. Сумматор 540 суммирует аудиосигналы, предоставленные средством 530 ввода, и оцененный аудиосигнал, соответствующий остальным объектам, таким образом собирая опять все объекты вместе. Полученный в результате измененный сигнал 503 с уменьшенным числом каналов далее направляется в декодирующее средство 300 объектно-ориентированного декодера 110. В остальном тексте, когда ссылаются на блоки 200, 300 или 400, они содержатся в объектно-ориентированном декодере 110.
Примерами действий ввода среди прочих являются: сжатие динамического диапазона, генерация искажения (например, чтобы имитировать гитарные усилители) или вокодер. Этот тип действий применен предпочтительно на ограниченном (предпочтительно одном) наборе аудиообъектов.
Фиг.3 показывает средство 600 изменения для изменения параметрических данных, когда спектральная огибающая оцененного аудиосигнала, соответствующего объекту или множеству объектов, изменена действием ввода. Блоки 511 и 512 оценивают, например, индивидуальные аудиообъекты, в то время как блок 513 оценивает остальные объекты вместе. Средство 530 ввода содержит отдельные блоки 531 и 532, которые применяют действия ввода к оцененным сигналам, полученным из блоков 511 и 512 соответственно. Сумматор 540 суммирует аудиосигналы, предоставленные средством 530 ввода, и оцененный аудиосигнал, соответствующий остальным объектам, таким образом собирая опять все объекты вместе. Полученный в результате измененный сигнал 503 с уменьшенным числом каналов далее направляется в декодирующее средство 300 объектно-ориентированного декодера 110.
Действия ввода, использованные в блоках 531 и 532, имеют либо одинаковый тип, либо они отличаются. Действием ввода, использованным блоком 532, может быть, например, нелинейное искажение, которое генерирует дополнительные высокочастотные спектральные компоненты, или многополосный компрессор. Если спектральные характеристики измененного аудиосигнала изменены, применение неизмененных параметров, содержащихся в параметрических данных, таких как принятые в декодирующем средстве 300, может привести к нежелательным и, возможно, раздражающим артефактам. Поэтому адаптация параметрических данных, чтобы привести их в соответствие с новыми спектральными характеристиками, улучшает качество получаемого в результате аудиосигнала. Эта адаптация параметрических данных выполняется в блоке 600. Адаптированные параметрические данные 504 направляются в декодирующее средство 300 и используются для декодирования измененного(ых) сигнала(ов) 503 с уменьшенным числом каналов.
Следует отметить, что два блока 531 и 532, содержащиеся в средстве 530 ввода, приведены только для примера. Число блоков может меняться в зависимости от числа действий ввода, которые применяются. Дополнительно, блоки 531 и 532 могут быть осуществлены в аппаратном обеспечении или программном обеспечении.
Фиг.4 показывает пример средства действия для действия передачи. Сигналы 501 с уменьшенным числом каналов направляются в средство 500 действия, эти сигналы подаются параллельно в блоки 511 и 512, которые содержатся в средстве 510 оценивания. Средство 510 оценивания генерирует оцененные аудиосигналы, соответствующие объекту или множеству объектов, к которым должно быть применено действие передачи. Упомянутое оценивание основано на параметрических данных 502, которые получают от приемника 200. Затем усиления применяются средством 560 усиления к оцененным аудиосигналам, соответствующим объекту или множеству объектов, полученных от средства 510 оценивания. Усиления, которые также могут быть названы весами, определяют степень действия на объект или множество объектов. Каждый из блоков 561 и 562 применяет усиление к индивидуальным аудиосигналам, полученным от средства оценивания. Каждый из этих блоков может применить различные усиления. Сумматор 540 суммирует аудиосигналы, предоставленные средством 560 усиления, и блок 570 применяет действие передачи. Полученный в результате сигнал 505, также называемый «сырым» выходом, направляется в воспроизводящее средство или, в качестве альтернативы, микшируется (или суммируется) с выходом воспроизводящего средства.
Примерами действий передачи среди прочих являются: реверберация, действия модуляции, например хор, фланжер или фазер.
Следует отметить, что два блока 561 и 562, содержащиеся в средстве 560 усиления, являются только примером. Число блоков может меняться в зависимости от числа сигналов, соответствующих аудиообъектам или множеству аудиообъектов, для которых уровень действия передачи должен быть установлен.
Средство 510 оценивания и средство 560 усиления могут быть объединены в единый этап обработки, который оценивает взвешенную комбинацию сигналов множества объектов. Усилители 561 и 562 могут быть введены в средства 511 и 512 оценивания соответственно. Это также описано в уравнениях ниже, где Q является (оценкой) взвешенной комбинацией сигналов объекта и получается одной единственной операцией масштабирования на элемент времени/частоты.
Усиления на объект или комбинацию объектов могут быть интерпретированы как «уровни передачи действия». В некоторых применениях величина (степень) действия на объект является предпочтительно управляемой пользователем. Например, пользователю может быть желательным один из объектов без реверберации, другой объект с малой величиной реверберации и еще один объект с полной реверберацией. В таком примере усиления на объект могут быть равны 0, 0,5, 1,0, для каждого соответственного объекта.
В варианте осуществления генерация оцененных аудиосигналов, соответствующих аудиообъекту или множеству объектов, содержит зависимое от времени/частоты масштабирование аудиосигналов с уменьшенным числом каналов на основании параметров мощности, соответствующих аудиообъектам, причем упомянутые параметры мощности содержатся в параметрических данных.
Этот вариант осуществления объяснен для следующего примера. В кодере I сигналы si[n] объекта, i=0, , I-1, где n индекс выборки, уменьшают число каналов, чтобы создать сигнал с уменьшенным числом каналов x[n] путем суммирования сигналов с уменьшенным числом каналов:
Сигнал с уменьшенным числом каналов сопровождается объектно-ориентированными параметрами, которые описывают (относительную) мощность сигнала каждого объекта с индивидуальными элементами времени/частоты сигнала x[n] с уменьшенным числом каналов. Сигналы si [n] объектов, например, сначала обрабатываются методом окна с использованием наложения окон анализа w[n]:
где L - длина окна и, например, L/2 - соответствующий размер скачка (предположительное 50% наложение), m - индекс окна. Типичной формой окна анализа является окно Хеннинга:
Полученные в результате сегментированные сигналы si[n,m] затем преобразуются в частотную область с использованием FFT:
где k - индекс ячейки FFT. Индексы k ячейки FFT затем группируются в полосы частот b параметра. Другими словами, каждая полоса частот b параметра соответствует набору индексов k ячейки смежной частоты. Для каждой полосы частот b параметра и каждого сегмента m каждого сигнала Si[k,m] объекта вычисляется значение мощности i²[b,m]:
где (*) - оператор комплексного сопряжения. Эти параметры i²[b,m] содержатся в параметрических данных (предпочтительно квантованных в логарифмическую область).
Процесс оценивания объекта или множества объектов в объектно-ориентированном аудиодекодере содержит зависимое от времени/частоты масштабирование аудиосигнала с уменьшенным числом каналов. Дискретно-временной сигнал x[n] с уменьшенным числом каналов, где n тоже индекс, разлагается на элементы X[k,m] времени/частоты, где k - индекс частоты и m - индекс кадра (временного сегмента). Это достигается, например, обработкой методом окна сигнала x[n] с окном w[n] анализа:
где L - длина окна и L/2 - соответствующий размер скачка. В этом случае предпочтительное окно анализа задается как квадратный корень окна Хеннинга:
Затем обработанный методом окна сигнал x[n,m] преобразуется в частотную область с использованием FFT:
компоненты X[k,m] частотной области затем группируются в так называемые полосы частот b(b=0, , В-1) параметра. Эти полосы частот параметра совпадают с полосами частот параметра в кодере. В декодере оценка i[k,m] сегмента m объекта i задается как:
где b(k) - полоса частот параметра, которая связана с индексом k частоты.
Взвешенная комбинация Q сигналов Si [n] объекта с весами gi получена как:
В объектно-ориентированном декодере Q может быть оценено в соответствии с:
Другими словами, сигнал объекта или любая линейная комбинация множества сигналов аудиообъекта может быть оценена в предложенном объектно-ориентированном аудиодекодере путем обусловленного временем/частотой масштабирования сигнала X[k,m] с уменьшенным числом каналов.
Для того чтобы получить в результате выходные сигналы временной области, каждый оцененный сигнал объекта преобразуется во временную область (с использованием обратного FFT), умножается на окно синтеза (идентичное окну анализа) и объединяется с предыдущим кадром с использованием наложения-сложения.
В варианте осуществления генерация оцененных аудиосигналов содержит взвешивание объекта или комбинации множества объектов посредством обусловленного временем/частотой масштабирования аудиосигналов с уменьшенным числом каналов на основании параметров мощности, соответствующих аудиообъектам, причем упомянутые параметры мощности содержатся в принятых параметрических данных.
Следует отметить, что блок действия передачи может иметь больше сигналов выхода, чем сигналов входа. Например, в случае стерео- или многоканальной реверберации блок имеет моносигнал входа.
В варианте осуществления сигнал с уменьшенным числом каналов и параметрические данные соответствуют стандарту MPEG Surround. Существующий MPEG Surround декодер, в дополнение к функциональности декодирования, также функционирует как воспроизводящее устройство. В подобном случае не требуются промежуточные аудиосигналы, соответствующие декодируемому объекту. Декодирование объекта и воспроизведение объединяются в едином устройстве.
Фиг.5 показывает декодирующее средство, декодирующее средство 300 содержит декодер 320 в соответствии со стандартом MPEG Surround и средство 310 преобразования для преобразования параметрических данных в параметрические данные в соответствии со стандартом MPEG Surround. Сигнал(ы) 508, соответствующий(е) сигналу(ам) 501 с уменьшенным числом каналов или измененному(ым) сигналу(ам) 503 с уменьшенным числом каналов, когда действие ввода применено, направляется(ются) в MPEG Surround декодер 320. Средство 310 преобразования, основанное на параметрических данных 506 и данных 507 пользовательского управления, преобразует параметрические данные в параметрические данные в соответствии со стандартом MPEG Surround. Параметрические данные 506 являются параметрическими данными 502 или измененными параметрическими данными 504, когда спектральная огибающая оцененного аудиосигнала, соответствующая объекту или множеству объектов, изменена действием ввода. Данные 507 пользовательского управления могут, например, означать желаемую пространственную позицию одного или множества аудиообъектов.
Согласно одному из вариантов осуществления способ содержит этапы приема, по меньшей мере, одного аудиосигнала с уменьшенным числом каналов и параметрических данных, генерирования измененных аудиосигналов с уменьшенным числом каналов, декодирования аудиообъектов из аудиосигналов с уменьшенным числом каналов и генерирования, по меньшей мере, одного выходного аудиосигнала из декодированных аудиообъектов. В способе каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов. Параметрические данные содержат множество параметров объекта для каждого множества аудиообъектов. Измененные аудиосигналы с уменьшенным числом каналов получают путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых аудиосигналах с уменьшенным числом каналов. Оцененные аудиосигналы выводятся из аудиосигналов с уменьшенным числом каналов на основании параметрических данных. Измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируются декодирующим средством 300 или воспроизводятся воспроизводящим средством 400. Этап декодирования представлен декодирующим средством 300 для аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных.
Следующий этап генерирования, по меньшей мере, одного выходного аудиосигнала из декодированных аудиообъектов, который может быть назван этапом воспроизведения, может быть объединен с этапом декодирования в один этап обработки.
В варианте осуществления приемник для приема аудиосигналов содержит: принимающий элемент, средство действия, декодирующее средство и воспроизводящее средство. Элемент приемника принимает от передатчика, по меньшей мере, один аудиосигнал с уменьшенным числом каналов и параметрические данные. Каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов. Параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов.
Средство действия генерирует измененные аудиосигналы с уменьшенным числом каналов. Эти измененные аудиосигналы с уменьшенным числом каналов получают путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых аудиосигналах с уменьшенным числом каналов. Оцененные аудиосигналы выводят из аудиосигналов с уменьшенным числом каналов на основании параметрических данных. Измененные аудиосигналы с уменьшенным числом каналов на основании типа примененного действия декодируются декодирующим средством или воспроизводятся воспроизводящим средством.
Декодирующее средство декодирует аудиообъекты из аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных. Воспроизводящее средство генерирует, по меньшей мере, один выходной аудиосигнал из декодированных аудиообъектов.
Фиг.6 показывает систему передачи для передачи аудиосигнала в соответствии с некоторыми вариантами осуществления изобретения. Система передачи содержит передатчик 700, который объединен с приемником 900 через сеть 800. Сеть 800 может быть, например, Интернетом.
Передатчик 700 является, например, записывающим сигнал устройством, и приемник 900 является, например, проигрывающим сигнал устройством. В конкретном примере, когда записывающая сигнал функция поддерживается, передатчик 700 содержит средство 710 для приема множества аудиообъектов. Затем эти объекты кодируются кодирующим средством 720 для кодирования множества аудиообъектов, по меньшей мере, в один аудиосигнал с уменьшенным числом каналов и параметрические данные. Вариант осуществления такого кодирующего средства 720 дан в работе Фаллера К. «Параметрическое Совместное Кодирование Аудиоисточников», 120-я AES Конвенция, Париж, Франция, Май 2006. Каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов. Упомянутые параметрические данные содержат множество параметров объекта для каждого множества аудиообъектов. Кодированные аудиообъекты передаются в приемник 900 средством 730 для передачи аудиосигналов с уменьшенным числом каналов и параметрических данных. Упомянутое средство 730 имеет интерфейс с сетью 800 и может передавать сигналы с уменьшенным числом каналов через сеть 800.
Приемник 900 содержит элемент 910 приемника для приема от передатчика 700, по меньшей мере, одного аудиосигнала с уменьшенным числом каналов и параметрических данных. Каждый аудиосигнал с уменьшенным числом каналов содержит смесь множества аудиообъектов. Упомянутые параметрические данные содержат множество параметров объекта для каждого из множества аудиообъектов. Средство 920 действия генерирует измененные аудиосигналы с уменьшенным числом каналов. Упомянутые измененные аудиосигналы с уменьшенным числом каналов получаются путем применения действий к оцененным аудиосигналам, соответствующим аудиообъектам, содержащимся в упомянутых аудиосигналах с уменьшенным числом каналов. Упомянутые оцененные аудиосигналы получают из аудиосигналов с уменьшенным числом каналов на основании параметрических данных. Упомянутые измененные аудиосигналы с уменьшенным числом каналов, основанные на типе примененного действия, декодируются декодирующим средством, или воспроизводятся воспроизводящим средством, или объединяются с выходом воспроизводящего средства. Декодирующее средство декодирует аудиообъекты из аудиосигналов с уменьшенным числом каналов или измененных аудиосигналов с уменьшенным числом каналов на основании параметрических данных. Воспроизводящее средство генерирует, по меньшей мере, один выходной аудиосигнал из декодированного аудиообъекта.
В варианте осуществления действия ввода и передачи применяются одновременно.
В варианте осуществления действия применяются в ответ на ввод пользователя. Пользователь может посредством, например, кнопки, слайдера, ручки или графического интерфейса пользователя установить действия согласно своим предпочтениям.
Необходимо отметить, что вышеуказанные варианты осуществления иллюстрируют, а не ограничивают изобретение, и специалисты в данной области техники смогут разработать много альтернативных вариантов осуществления без отклонения от объема прилагаемой формулы изобретения.
В приложенной формуле изобретения некоторые ссылочные обозначения, расположенные между пояснениями, не следует толковать как ограничение пункта формулы изобретения. Слово «содержащий» не исключает наличия других элементов или этапов чем те, которые перечислены в пункте формулы изобретения. Использование элемента в единственном числе не исключает наличия множества таких элементов. Изобретение может быть осуществлено посредством аппаратного обеспечения, содержащего несколько отдельных элементов, и посредством компьютера, запрограммированного соответствующим образом.
Класс G10L19/14 детали, не отнесенные к группам 19/06