устройство и способ кодирования и воспроизведения звука
Классы МПК: | G10L19/00 Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала |
Автор(ы): | ЛААКСОНЕН Лассе (FI), ТАММИ Микко (FI), ВАСИЛАКЕ Адриана (FI), РАМО Ансси (FI) |
Патентообладатель(и): | Нокиа Корпорейшн (FI) |
Приоритеты: |
подача заявки:
2008-05-09 публикация патента:
10.03.2013 |
Изобретение относится к устройству и способу кодирования и воспроизведения звука, в частности, не ограничиваясь указанным, к устройству для кодированных речевых сигналов и аудио-сигналов. Техническим результатом является облегчение эффективного воспроизведения звуковой стереопанорамы для таких условий эксплуатации, как проведении конференций и использование оборудования мобильным пользователем. Устройство для кодирования аудио-сигнала сконфигурировано для приема аудио-компонентов от микрофона, расположенного у источника звука или направленного в его сторону, и приема аудио-компонентов от дополнительного микрофона. При этом дополнительный микрофон расположен дальше от источника звука, чем основной микрофон, или направлен в сторону от источника звука. Аудио-компоненты, полученные от дополнительного микрофона, включают меньше аудио-компонентов источника звука, чем аудио-компоненты источника звука, полученные от основного микрофона. Устройство также сконфигурировано для формирования первого уровня кодированного с масштабированием сигнала из аудио-компонентов, полученных от основного микрофона, и формирования второго уровня кодированного с масштабированием сигнала из аудио-компонентов, полученных от дополнительного микрофона. 10 н. 14 з.п. ф-лы., 14 ил.
Формула изобретения
1. Устройство для кодирования аудиосигнала, сконфигурированное для:
приема аудиокомпонентов по меньшей мере от одного микрофона, расположенного у источника звука или направленного в его сторону; приема аудиокомпонентов по меньшей мере от одного дополнительного микрофона, при этом дополнительный микрофон расположен дальше от источника звука, чем упомянутый по меньшей мере один микрофон, или направлен в сторону от источника звука, при этом аудиокомпоненты, полученные от по меньшей мере одного дополнительного микрофона, включают меньше аудиокомпонентов источника звука, чем аудиокомпоненты источника звука, полученные от по меньшей мере одного микрофона;
формирования первого уровня кодированного с масштабированием сигнала из аудиокомпонентов, полученных от упомянутого по меньшей мере одного микрофона; и
формирования второго уровня кодированного с масштабированием сигнала по меньшей мере частично из аудиокомпонентов, полученных по меньшей мере от одного дополнительного микрофона.
2. Устройство по п.1, дополнительно сконфигурированное для:
комбинирования первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.
3. Устройство по п.1 или 2, дополнительно сконфигурированное для формирования первого кодированного с масштабированием уровня посредством по меньшей мере одного из следующего:
расширенного аудиокодирования (ААС);
третьего уровня формата MPEG-1 (МР3),
базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т;
адаптивного широкополосного кодирования с переменной скоростью (AMR-WB);
кодирования по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т; и
адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
4. Устройство по п.1 или 2, дополнительно сконфигурированное для формирования второго кодированного с масштабированием уровня посредством по меньшей мере одного из следующего:
расширенного аудиокодирования (ААС);
третьего уровня формата MPEG-1 (МР3);
базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т;
адаптивного широкополосного кодирования с переменной скоростью (AMR-WB);
кодирования с генерацией комфортного шума (CNG); и
адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
5. Устройство для декодирования кодированного с масштабированием аудиосигнала, сконфигурированное для:
разделения кодированного с масштабированием аудиосигнала по меньшей мере на первый кодированный с масштабированием аудиосигнал и второй кодированный с масштабированием аудиосигнал;
декодирования первого кодированного с масштабированием аудиосигнала для формирования первого аудиосигнала, содержащего аудиокомпоненты от источника звука; и
декодирования второго кодированного с масштабированием аудиосигнала для формирования второго аудиосигнала, содержащего меньше аудиокомпонентов от источника звука, чем число аудиокомпонентов от источника звука первого аудиосигнала.
6. Устройство по п.5, дополнительно сконфигурированное для:
вывода по меньшей мере первого аудиосигнала в первый динамик.
7. Устройство по п.5 или 6, дополнительно сконфигурированное для формирования по меньшей мере первой комбинации первого аудиосигнала и второго аудиосигнала и вывода первой комбинации в первый динамик.
8. Устройство по п.7, дополнительно сконфигурированное для формирования дополнительной комбинации первого аудиосигнала и второго аудиосигнала и вывода второй комбинации во второй динамик.
9. Устройство по п.5 или 6, отличающееся тем, что по меньшей мере один из первого кодированного с масштабированием аудиосигнала и второго кодированного с масштабированием аудиосигнала содержит по меньшей мере одно из следующего:
расширенное аудиокодирование (ААС);
третий уровень формата MPEG-1 (МР3),
базовое кодирование речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т;
адаптивное широкополосное кодирование с переменной скоростью (AMR-WB);
кодирование по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т;
кодирование с генерацией комфортного шума (CNG) и
адаптивное широкополосное кодирование с переменной скоростью плюс (AMR-WB+).
10. Способ кодирования аудиосигнала, включающий:
прием аудиокомпонентов по меньшей мере от одного микрофона, расположенного у источника звука или направленного в его сторону;
прием аудиокомпонентов по меньшей мере от одного дополнительного микрофона, при этом дополнительный микрофон расположен дальше от источника звука, чем упомянутый по меньшей мере один микрофон, или направлен в сторону от источника звука, при этом аудиокомпоненты, полученные от по меньшей мере одного дополнительного микрофона, включают меньше аудиокомпонентов источника звука, чем аудиокомпоненты источника звука, полученные по меньшей мере от одного микрофона;
формирование первого уровня кодированного с масштабированием сигнала из аудиокомпонентов, полученных по меньшей мере от одного микрофона; и
формирование второго уровня кодированного с масштабированием сигнала по меньшей мере частично из аудиокомпонентов, полученных по меньшей мере от одного дополнительного микрофона.
11. Способ по п.10, дополнительно включающий:
комбинирование первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.
12. Способ по п.10 или 11, дополнительно включающий формирование первого кодированного с масштабированием уровня посредством по меньшей мере одного из следующего:
расширенного аудиокодирования (ААС);
третьего уровня формата MPEG-1 (МР3),
базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т;
адаптивного широкополосного кодирования с переменной скоростью (AMR-WB);
кодирования по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
13. Способ по п.10 или 11, дополнительно включающий формирование второго кодированного с масштабированием уровня посредством по меньшей мере одного из следующего:
расширенного аудиокодирования (ААС);
третьего уровня формата MPEG-1 (МР3);
базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т;
адаптивного широкополосного кодирования с переменной скоростью (AMR-WB);
кодирования с генерацией комфортного шума (CNG) и
адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
14. Способ декодирования кодированного с масштабированием аудиосигнала, включающий:
разделение кодированного с масштабированием аудиосигнала по меньшей мере на первый кодированный с масштабированием аудиосигнал и второй кодированный с масштабированием аудиосигнал;
декодирование первого кодированного с масштабированием аудиосигнала для формирования первого аудиосигнала, содержащего аудиокомпоненты от источника звука; и
декодирование второго кодированного с масштабированием аудиосигнала для формирования второго аудиосигнала, содержащего меньше аудиокомпонентов от источника звука, чем число аудиокомпонентов от источника звука первого аудиосигнала.
15. Способ по п.14, дополнительно включающий:
вывод по меньшей мере первого аудиосигнала в первый динамик.
16. Способ по п.14 или 15, дополнительно включающий формирование по меньшей мере первой комбинации первого аудиосигнала и второго аудиосигнала и вывод первой комбинации в первый динамик.
17. Способ по п.16, дополнительно включающий формирование дополнительной комбинации первого аудиосигнала и второго аудиосигнала и вывод второй комбинации во второй динамик.
18. Способ по п.14 или 15, отличающийся тем, что по меньшей мере один из первого кодированного с масштабированием аудиосигнала и второго кодированного с масштабированием аудиосигнала содержит по меньшей мере одно из следующего:
расширенное аудиокодирование (ААС);
третий уровень формата MPEG-1 (МР3);
базовое кодирование речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т;
адаптивное широкополосное кодирование с переменной скоростью (AMR-WB);
кодирование по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т;
кодирование с генерацией комфортного шума (CNG) и
адаптивное широкополосное кодирование с переменной скоростью плюс (AMR-WB+).
19. Кодер, содержащий устройство по любому из пп.1-4.
20. Декодер, содержащий устройство по любому из пп.5-9.
21. Мобильный терминал, содержащий устройство по любому из пп.1-4.
22. Мобильный терминал, содержащий устройство по любому из пп.5-9.
23. Машиночитаемый носитель, содержащий программный код, сконфигурированный для выполнения способа кодирования аудиосигнала по любому из пп.10-13.
24. Машиночитаемый носитель, содержащий программный код, сконфигурированный для выполнения способа декодирования кодированного с масштабированием аудиосигнала по любому из пп.14-18.
Описание изобретения к патенту
Область техники
Настоящее изобретение относится к устройству и способу кодирования и воспроизведения звука, в частности, не ограничиваясь указанным, к устройству для кодированных речевых сигналов и аудио-сигналов.
Уровень техники
Аудио-сигналы, такие как речь и музыка, кодируют, например, чтобы сделать возможным их эффективную передачу или хранение.
Кодеры и декодеры аудио-сигналов используются для преобразования аудио-сигналов, таких как музыка и шумовой фон. Кодеры этого типа обычно не используют модель речи для процесса кодирования, а чаще используют операции обработки для представления всех типов аудио-сигналов, включая речь.
Кодеры и декодеры речи (кодеки) обычно оптимизированы для речевых сигналов и могут работать с постоянной или переменной скоростью передачи битов.
Аудио-кодек также может быть сконфигурирован для работы с переменными скоростями передачи битов. При низких битовых скоростях такой аудио-кодек может работать с речевыми сигналами со скоростью кодирования, равной скорости чисто речевого кодека. При высоких битовых скоростях аудиокодек может кодировать любой сигнал, включая музыку, шумовой фон и речь, с более высокими качеством и рабочими характеристиками.
В некоторых аудио-кодеках входной сигнал разделяется на ограниченное число полос.
Сигналы каждой полосы могут квантоваться. Из теории психоакустики известно, что высшие частоты в спектре при восприятии менее важны, чем низкие частоты. Это отражается в некоторых аудио-кодеках посредством такого распределения битов, при котором для высокочастотных сигналов распределяется меньше битов, чем для низкочастотных сигналов.
Одной из новых тенденций в области кодирования мультимедийной информации являются так называемые многоуровневые кодеки, например, речевой/аудио-кодек со встроенной переменной битовой скоростью (Embedded Variable Bit-Rate, EV-VBR) по стандарту Сектора стандартизации электросвязи Международного союза электросвязи (МСЭ-Т) и масштабируемый видео-кодек Scalable Video Codec, SVC) по стандарту МСЭ-Т. Масштабируемые медиаданные состоят из базового уровня, который необходим всегда для возможности восстановления на приемном конце, и одного или более уровней расширения, которые могут быть использованы для обеспечения дополнительных преимуществ для восстановленной мультимедийной информации (например, улучшенного качества мультимедийной информации или повышенной стойкости к ошибкам передачи).
Масштабируемость этих кодеков может быть использована на уровне передачи, например, для управления пропускной способностью сети или формирования многоадресного мультимедийного потока, чтобы облегчить работу с участниками после линий доступа с различной шириной полосы. На уровне приложений масштабируемость может использоваться для управления такими переменными как вычислительная сложность, задержка на кодирование или желательный уровень качества. Необходимо отметить, что хотя некоторые сценарии масштабируемости могут применяться на передающей конечной точке, имеются также сценарии работы, где более подходящим является выполнение масштабирования промежуточным элементом сети.
Большая часть технологий кодирования речи в реальном масштабе времени относится к монофоническим сигналам, но для некоторых высококачественных систем видео- и аудио-телеконференций используется стереокодирование для более качественного воспроизведения речи для слушателей. Традиционное стереокодирование речи использует кодирование отдельных левого и правого каналов, которые локализуют источник в некотором месте звуковой сцены. Обычно используемое стереокодирование для речи является бинауральным кодированием, при котором источник звука (такой как голос говорящего) воспринимается двумя микрофонами, расположенными на эталонной моделируемой голове на месте левого и правого уха.
Кодирование и передача (или запись) сигналов, генерируемых левым и правым микрофонами, требует большей ширины полосы передачи и больших вычислений, чем обычная монофоническая запись источника звука, так как имеется больше сигналов для кодирования и декодирования. Одним подходом к уменьшению ширины полосы передачи (записи), используемым в способах стереокодирования, является требование, чтобы кодер смешивал левый и правый каналы вместе и затем кодировал синтезированный монофонический сигнал в качестве базового уровня. Информация о разностях левого и правого каналов может затем кодироваться как отдельный битовый поток или уровень расширения. Однако этот вид кодирования создает в декодере монофонический сигнал, качество которого хуже, чем при традиционном кодировании монофонического сигнала от единственного микрофона (расположенного, например, вблизи рта), так как сигналы двух микрофонов, комбинируемые вместе, принимают значительно больше фонового шума или шума окружающей среды, чем один микрофон, расположенный вблизи источника звука (например, вблизи рта). Это делает качество обратно совместимого выходного "монофонического" сигнала, использующего традиционное воспроизводящее оборудование, хуже, чем у оригинального процесса монофонической записи и монофонического воспроизведения.
Кроме того, бинауральное размещение стереофонических микрофонов, при котором микрофоны располагаются в моделируемых местах ушей, могут создавать аудио-сигнал, неприятный для слушателя, особенно если источник звука перемещается быстро или внезапно. Например, если микрофон находится вблизи говорящего, плохие впечатления от качества прослушивания могут создаваться, когда говорящий просто поворачивает свою голову, вызывая резкое и дергающееся переключение в левом и правом выходных сигналах.
Сущность изобретения
Данная заявка предлагает механизм, который облегчает эффективное воспроизведение звуковой стереопанорамы для таких условий эксплуатации, как проведении конференций и использование оборудования мобильным пользователем.
Целью вариантов осуществления данного изобретения является решение или по меньшей мере частичное уменьшение вышеуказанной проблемы.
Согласно первому аспекту изобретения предусматривается устройство для кодирования аудио-сигнала, сконфигурированное для: формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука, и формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Таким образом, в вариантах осуществления изобретения большая часть аудио-компонентов может кодироваться с использованием других способов или с использованием других параметров, чем второй аудио-сигнал, содержащий меньшую часть аудио-компонентов от источника звука, и поэтому большая часть аудио-сигнала кодируется более оптимально.
Устройство может быть дополнительно сконфигурировано для: приема большей части аудио-компонентов от источника звука с помощью по меньшей мере одного микрофона, расположенного у источника звука или направленного в его сторону, и приема меньшей части аудио-компонентов от источника звука, по меньшей мере, с помощью одного дополнительного микрофона, расположенного далеко от источника звука или направленного в сторону от него.
Устройство может быть дополнительно сконфигурировано для: формирования первого уровня кодированного с масштабированием сигнала из первого аудио-сигнала; формирования второго уровня кодированного с масштабированием сигнала из второго аудио-сигнала и комбинирования первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.
Таким образом, в вариантах осуществления изобретения возможно кодировать сигнал в устройстве, при этом сигнал записывается по меньшей мере как два аудио-сигнала, и эти сигналы кодируются по отдельности так, что кодирование для каждого по меньшей мере из двух аудио-сигналов может использовать разные способы кодирования или параметры, чтобы более оптимально представлять аудио-сигнал.
Устройство может быть дополнительно сконфигурировано для формирования первого кодированного с масштабированием уровня по меньшей мере посредством одной из следующих технологий: расширенного аудио-кодирования (Advanced Audio Coding, AAC); третьего уровня формата MPEG-1 (MPEG-1 Layer 3 (МР3)), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (Embedded Variable Bit Rates, EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (Adaptive Multi Rate-Wide Band, AMR-WB); кодирования по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т и адаптивного широкополосного кодирования с переменной скоростью плюс (Adaptive Multi Rate Wide Band Plus, AMR-WB+).
Устройство может быть дополнительно сконфигурировано для формирования второго кодированного с масштабированием уровня посредством по меньшей мере одного из следующего: расширенного аудио-кодирования (AAC); третьего уровня формата MPEG-1 (МР3), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (AMR-WB); кодирования с генерацией комфортного шума (Comfort Noise Generation, CNG) и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
Согласно второму аспекту изобретения может быть предусмотрено устройство для декодирования кодированного с масштабированием аудиосигнала, сконфигурированное для: разделения кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал; декодирования первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и декодирования второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Устройство может быть дополнительно сконфигурировано для вывода по меньшей мере первого аудио-сигнала в первый динамик.
Устройство может быть дополнительно сконфигурировано для формирования по меньшей мере первой комбинации первого аудио-сигнала и второго аудио-сигнала и вывода первой комбинации в первый динамик.
Устройство может быть дополнительно сконфигурировано для формирования дополнительной комбинации первого аудио-сигнала и второго аудио-сигнала и вывода второй комбинации во второй динамик.
По меньшей мере один из первого кодированного с масштабированием аудио-сигнала и второго кодированного с масштабированием аудио-сигнала может содержать по меньшей мере одно из следующего: расширенное аудио-кодирование (ААС); третий уровень формата MPEG-1 (МР3), базовое кодирование речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивное широкополосное кодирование с переменной скоростью (AMR-WB); кодирование по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т; кодирование с генерацией комфортного шума (CNG) и адаптивное широкополосное кодирование с переменной скоростью плюс (AMR-WB+).
Согласно третьему аспекту изобретения предусматривается способ кодирования аудио-сигнала, включающий: формирование первого аудиосигнала, содержащего большую часть аудио-компонентов от источника звука, и формирование второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Способ может дополнительно включать: прием большей части аудио-компонентов от источника звука по меньшей мере от одного микрофона, расположенного у источника звука или направленного в его сторону, и приема меньшей части аудио-компонентов от источника звука по меньшей мере с помощью одного дополнительного микрофона, расположенного далеко от источника звука или направленного в сторону от него.
Способ может дополнительно включать: формирование первого уровня кодированного с масштабированием сигнала из первого аудио-сигнала; формирования второго уровня кодированного с масштабированием сигнала из второго аудио-сигнала и комбинирование первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.
Способ может дополнительно включать формирование первого кодированного с масштабированием уровня посредством одной из следующих технологий: расширенного аудио-кодирования (ААС); третьего уровня формата MPEG-1 (МР3), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (AMR-WB); кодирования по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
Способ может дополнительно включать формирование второго кодированного с масштабированием уровня посредством одной из следующих технологий: расширенного аудио-кодирования (ААС); третьего уровня формата MPEG-1 (МР3), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (AMR-WB); кодирования с генерацией комфортного шума (CNG) и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
Согласно четвертому аспекту изобретения предусматривается способ декодирования кодированного с масштабированием аудио-сигнала, включающий: разделение кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал; декодирование первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и декодирование второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Способ может дополнительно включать: вывод по меньшей мере первого аудио-сигнала в первый динамик.
Способ может дополнительно включать формирование по меньшей мере первой комбинации первого аудио-сигнала и второго аудио-сигнала и вывод первой комбинации в первый динамик.
Способ может дополнительно включать формирование дополнительной комбинации первого аудио-сигнала и второго аудио-сигнала и вывод второй комбинации во второй динамик.
По меньшей мере один из первого кодированного с масштабированием аудио-сигнала и второго кодированного с масштабированием аудио-сигнала может содержать по меньшей мере одно из следующего: расширенное аудио-кодирование (ААС); третий уровень формата MPEG-1 (МР3), базовое кодирование речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивное широкополосное кодирование с переменной скоростью (AMR-WB); кодирование по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т; кодирование с генерацией комфортного шума (CNG) и адаптивное широкополосное кодирование с переменной скоростью плюс (AMR-WB+).
Кодер может содержать устройство, как описано выше.
Декодер может содержать устройство, как описано выше.
Электронное устройство может содержать устройство, как описано выше.
Чипсет (набор интегральных схем) может содержать устройство, как описано выше.
Согласно пятому аспекту изобретения предлагается программный продукт для компьютера, сконфигурированный для выполнения способа кодирования аудио-сигнала, включающего: формирование первого аудиосигнала, содержащего большую часть аудио-компонентов от источника звука, и формирование второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Согласно шестому аспекту изобретения предлагается программный продукт для компьютера, сконфигурированный для выполнения способа декодирования кодированного с масштабированием аудио-сигнала, включающего: разделение кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал; декодирование первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и декодирование второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Согласно седьмому аспекту изобретения предусматривается устройство для кодирования аудио-сигнала, содержащее: средство для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука, и средство для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Согласно восьмому аспекту изобретения предусматривается устройство для декодирования кодированного с масштабированием аудио-сигнала, содержащее: средство для разделения кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал;
средство для декодирования первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и средство для декодирования второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Краткое описание чертежей
Для лучшего понимания настоящего изобретения далее более подробно описаны варианты его осуществления со ссылками на приложенные чертежи, на которых:
на фиг.1 схематически показано электронное устройство, использующее варианты осуществления изобретения;
на фиг.2 схематически показана система кодека аудио-сигнала, использующая варианты осуществления изобретения;
на фиг.3 схематически показана часть кодера системы кодека аудиосигнала, показанного на фиг.2;
на фиг.4 схематически показана блок-схема, иллюстрирующая работу варианта осуществления кодера аудио-сигнала, который показан на фиг.3, согласно настоящему изобретению;
на фиг.5 схематически показана часть декодера системы кодека аудиосигнала, показанного на фиг.2;
на фиг.6 показана блок-схема, иллюстрирующая работу варианта осуществления декодера аудио-сигнала, который показан на фиг.5, согласно настоящему изобретению;
На фиг.7а-7h показаны возможные местоположения микрофона/говорящего согласно вариантам осуществления изобретения.
Подробное описание предпочтительных вариантов осуществления изобретения
Ниже более подробно описаны возможные механизмы для обеспечения системы масштабируемого кодирования аудио-сигнала. На фиг.1 показана блок-схема приводимого в качестве примера электронного устройства 10, которое может включать в себя кодек согласно варианту осуществления изобретения.
Электронное устройство 10 может быть, например, мобильным терминалом или пользовательским оборудованием системы беспроводной связи.
Электронное устройство 10 содержит микрофон 11, который подключен через аналого-цифровой преобразователь 14 к процессору 21. Кроме того, процессор 21 подключен через цифро-аналоговый преобразователь 32 к динамикам 33. Далее, процессор 21 подключен к приемопередатчику 13 (TX/RX), к пользовательскому интерфейсу 15 (User Interface, UI) и к запоминающему устройству 22.
Процессор 21 может быть сконфигурирован для выполнения различных программных кодов. Реализуемые коды программы включают код кодирования аудио-сигнала для кодирования комбинированного аудио-сигнала и код для выделения и кодирования дополнительной информации, относящейся к пространственной информации множества каналов. Кроме того, реализуемые программные коды 23 содержат код декодирования аудио-сигнала. Реализуемые программные коды 23 могут сохраняться, например, в запоминающем устройстве 22 для выборки процессором 21 по мере необходимости. Запоминающее устройство 22 может дополнительно предусматривать секцию 24 для хранения данных, например, данных, которые были кодированы в соответствии с изобретением.
Код кодирования и декодирования в вариантах осуществления изобретения может быть реализован в виде аппаратных средств или встроенного программного обеспечения.
Пользовательский интерфейс 15 позволяет пользователю вводить команды в электронное устройство 10, например, посредством клавиатуры, и/или получать информацию от электронного устройства 10, например, посредством дисплея. Приемопередатчик 13 позволяет осуществлять связь с электронными устройствами, например, по сети беспроводной связи.
Ясно, что структура электронного устройства 10 может быть дополнена и изменена многими способами.
Пользователь электронного устройства 10 может использовать микрофоны 11 для ввода речи, которую необходимо передать в некоторое другое электронное устройство или которую необходимо сохранить в секции 24 данных запоминающего устройства 22. Соответствующее приложение должно активироваться с этой целью пользователем посредством пользовательского интерфейса 15. Это приложение, которое может выполняться процессором 21, заставляет процессор 21 выполнять код кодирования, хранящийся в запоминающем устройстве 22.
Аналого-цифровой преобразователь 14 преобразует входной аналоговый аудио-сигнал в цифровой аудио-сигнал и подает цифровой аудиосигнал в процессор 21.
Процессор 21 затем обрабатывает цифровой аудио-сигнал, как описано со ссылками на фиг.3 и 4.
Полученный в результате битовый поток подается в приемопередатчик 13 для передачи в другое электронное устройство. В качестве альтернативы, кодированные данные могут быть записаны в секцию 24 данных запоминающего устройства 22, например, для последующей передачи или для последующего воспроизведения тем же самым электронным устройством 10.
Электронное устройство 10 также может принимать битовый поток с соответственно кодированными данными от другого электронного устройства посредством своего приемопередатчика 13. В этом случае процессор 21 может выполнять программный код декодирования, хранящийся в запоминающем устройстве 22. Процессор 21 декодирует принимаемые данные и подает декодированные данные в цифро-аналоговый преобразователь 32. Цифро-аналоговый преобразователь 32 преобразует декодированные цифровые данные в аналоговые данные аудио-сигнала и выводит их в динамики 33. Выполнение кода программы декодирования может запускаться также приложением, которое вызывается пользователем через пользовательский интерфейс 15.
Принимаемые кодированные данные вместо немедленного воспроизведения посредством динамика(-ов) 33 также могут сохраняться в секции 24 данных запоминающего устройства 22, например, для возможности более позднего воспроизведения или пересылки в другое электронное устройство.
Должно быть понятно, что схематические структуры, показанные на фиг.3 и 5, и шаги способа, показанные на фиг.4 и 6, представляют только часть операций работы полного кодека аудио-сигнала, показанного для примера, реализованным в электронном устройстве, изображенном на фиг.1.
На фиг.7а и 7b показаны примеры расположений микрофонов, пригодных для вариантов осуществления изобретения. На фиг.7а показан пример расположения первого и второго микрофонов 11а и 11b. Первый микрофон 11а расположен вблизи первого источника звука, например, говорящего участника 701а конференции. Аудио-сигнал, принимаемый от первого микрофона 11а может быть назван "ближним" сигналом. Кроме того, показан второй микрофон 11b, расположенный вдали от источника звука 701а. Аудио-сигнал, принимаемый от второго микрофона 11b может быть определен как "дальний" аудио-сигнал.
Специалистам в данной области техники очевидно, что различие между размещением микрофона для формирования "ближнего" и "дальнего" аудиосигналов заключается в относительном смещении от источника звука 701а. Таким образом, для второго источника звука, другого говорящего участника 701b конференции, аудио-сигнал, получаемый от второго микрофона 11b, будет "ближним" звуковым сигналом, в то время как аудио-сигнал, получаемый от первого микрофона 11а, будет рассматриваться как "дальний" аудио-сигнал.
На фиг.7b показан пример размещения микрофонов для формирования "ближнего" и "дальнего" аудио-сигналов для типичного устройства мобильной связи. При таком расположении микрофон 11а, формирующий "ближний" звуковой сигнал помещен вблизи источника звука 703, который может быть, например, в месте, аналогичном положению обычного микрофона устройства мобильной связи, и, следовательно, вблизи рта пользователя 705 устройства мобильной связи, в то время как второй микрофон 11b, который формирует "дальний" аудио-сигнал, помещен на противоположной стороне устройства 707 мобильной связи и сконфигурирован для приема аудио-сигналов от окружающей среды, экранируется от восприятия приходящего по прямому пути аудио-сигнала от источника звука 703 самим устройством 707 мобильной связи.
Хотя на фиг.7 показаны первый микрофон 11а и второй микрофон 11b, специалистам в данной области техники будет понятно, что "ближний" и "дальний" аудио-сигналы могут формироваться от любого числа источников в виде микрофонов.
Например, "ближний" и "дальний" аудио-сигналы могут формироваться с использованием одного микрофона с направленными элементами. В этом варианте осуществления возможно формировать ближний сигнал, используя направленные элементы микрофона, направленные в сторону источника звука, и формировать "дальний" аудио-сигнал от направленных элементов микрофона, направленных в противоположную от источника звука сторону.
Кроме того, в других вариантах осуществления изобретения можно использовать множество микрофонов для формирования "ближнего" и "дальнего" аудио-сигналов. В этих вариантах осуществления может применяться предварительная обработка сигналов от микрофонов для формирования "ближнего" аудио-сигнала смешением аудио-сигналов, принимаемых от микрофона(-ов) вблизи источника звука, и "дальнего" аудиосигнала смешением аудио-сигналов, принимаемых от микрофона(-ов), расположенного далеко от источника звука или направленного в противоположную от него сторону.
Хотя выше и далее обсуждаются "ближний" и "дальний" сигналы, которые формируются микрофонами непосредственно или формируются предварительной обработкой сигналов, генерируемых микрофонами, должно быть понятно, что "ближний" и "дальний" сигналы могут быть сигналами, ранее записанными/сохраненными или принимаемыми иначе, чем непосредственно от микрофона/препроцессора.
Кроме того, хотя выше и далее обсуждаются кодирование и декодирование "ближнего" и "дальнего" аудио-сигналов, должно быть понятно, что в вариантах осуществления изобретения могут кодироваться более, чем два аудио-сигнала. Например, в одном варианте осуществления изобретения может быть множество "ближних" или множество "дальних" аудио-сигналов. В других вариантах осуществления изобретения могут быть основной "ближний" аудио-сигнал и множество вспомогательных "ближних" аудио-сигналов, причем сигнал получается из места между "ближним" и "дальним" аудио-сигналами.
Далее рассматриваются кодирование и декодирование для двух микрофонов / процесс кодирования и декодирования ближнего и дальнего каналов.
На фиг.7с и 7d показаны расположения динамиков, подходящие для вариантов осуществления изобретения. На фиг.7с показано обычное или традиционное расположение монофонического динамика. Пользователь 705 имеет динамик 709, расположенный вблизи одного из своих ушей. При таком расположении, которое показано на фиг.7с, один динамик 709 может подавать "ближний" сигнал на предпочтительное ухо. В некоторых формах осуществления изобретения один динамик 709 может подавать "ближний" сигнал плюс обработанный или отфильтрованный компонент "дальнего" сигнала, чтобы добавлять некоторый "объем" к выходному сигналу.
На фиг.7d, пользователь 705 оснащен головным телефоном 711, содержащим пару динамиков 711а и 711b. При таком расположении первый динамик 711а может выдавать "ближний" сигнал, а второй динамик 711b может выдавать "дальний" сигнал.
В других вариантах осуществления изобретения и первый динамик 711а, и второй динамик 711b снабжаются комбинацией "ближнего" и "дальнего" сигналов.
В некоторых вариантах осуществления изобретения первый динамик 711а снабжается комбинацией "ближнего" и "дальнего" аудио-сигналов так, что первый динамик 711а принимает "ближний" сигнал и -модифицированный "дальний" аудио-сигнал. Второй динамик 711b принимает "дальний" аудиосигнал и -модифицированный "ближний" аудио-сигнал. В этом варианте осуществления и показывают, что была выполнена фильтрация или обработка аудио-сигнала.
На фиг.7е показан дальнейший пример расположения микрофона и динамика, пригодного для вариантов осуществления изобретения. В таком варианте осуществления пользователь 705 оснащается первым блоком микротелефонной трубки/головным телефоном, содержащим динамик 713а и микрофон 713b, которые расположены непосредственно у предпочтительного уха и у рта, соответственно. Пользователь 705 дополнительно оснащается добавочным отдельным устройством 715 Bluetooth, которое снабжено отдельным динамиком 715а устройства Bluetooth и отдельным микрофоном 715b устройства Bluetooth. Отдельный микрофон 715b устройства 715 Bluetooth конфигурируется так, что он не принимает сигналы прямо от источника звука пользователя 705, иначе говоря, ото рта пользователя 705. Расположение динамика 713а головного телефона и отдельного динамика 715а устройства Bluetooth может рассматриваться аналогичным расположению двух динамиков одного головного телефона 711, как показано на фиг.7а.
На фиг.7f показан еще один пример расположения микрофона и динамика, подходящего для вариантов осуществления изобретения. На фиг.7f показан кабель, который может быть подключен непосредственно или другим способом к электронному устройству. Кабель 717 содержит динамик 729 и множество отдельных микрофонов. Микрофоны располагаются вдоль длины кабеля для формирования массива микрофонов. Таким образом, первый микрофон 727 расположен вблизи динамика 729, второй микрофон 725 расположен дальше по кабелю 717 от первого микрофона 727. Третий микрофон 723 расположен дальше вниз по кабелю 717 от второго микрофона 725. Четвертый микрофон 721 расположен дальше вниз по кабелю 717 от третьего микрофона 723. Пятый микрофон 719 расположен дальше вниз по кабелю 717 от четвертого микрофона 721. Расположение микрофонов может быть в виде линейной или нелинейной конфигурации в зависимости от вариантов осуществления изобретения. При таком расположении "ближний" сигнал может формироваться смешением комбинации аудио-сигналов, принимаемых микрофонами, ближайшими ко рту пользователя 705. "Дальний" аудио-сигнал может формироваться смешением комбинации аудио-сигналов, принимаемых микрофонами, наиболее далекими ото рта пользователя 705. Как описано выше, в некоторых вариантах осуществления изобретения каждый из микрофонов может использоваться для формирования отдельного аудиосигнала, который затем обрабатывается так, как более подробно описывается ниже.
Специалистам в данной области техники понятно, что в этих вариантах осуществления фактическое число микрофонов не является важным. При этом множество микрофонов в любом расположении могут использоваться в вариантах осуществления изобретения для захвата звукового поля, и способы обработки сигналов могут использоваться для восстановления "ближнего" и "дальнего" сигналов.
На фиг.7g показан еще один пример расположения микрофона и динамика, подходящего для вариантов осуществления изобретения. На фиг.7g показано устройство Bluetooth, подсоединенное к предпочтительному уху пользователя 705. Устройство 735 Bluetooth содержит "ближний" микрофон 731, расположенный непосредственно вблизи рта пользователя 705. Кроме того, устройство Bluetooth 735 содержит "дальний" микрофон 733, расположенный на расстоянии относительно места близкого (ближнего) микрофона 731.
На фиг.7h показан пример расположения микрофона и динамика, подходящего для вариантов осуществления изобретения. На фиг.7h у пользователя 705 есть возможность использования головного телефона 751. Головной телефон содержит бинауральный стереофонический головной телефон с первым динамиком 737 и вторым динамиком 739. Кроме того, головной телефон 751 показан с парой микрофонов. Первый микрофон 741, показанный на фиг.7h, расположен в 100 мм от динамика 739, а второй микрофон 743 расположен в 200 мм от динамика 739. При таком расположении первый динамик 737 и второй динамик 739 могут быть размещены согласно конфигурации воспроизведения, описанной со ссылкой на фиг.7d.
Кроме того, расположение первого микрофона 741 и второго микрофона 743 может быть таким, чтобы первый микрофон 741 был сконфигурирован для приема или формирования компонента "ближнего" аудио-сигнала, а второй микрофон 743 был сконфигурирован для формирования "дальнего" аудиосигнала.
Общая работа кодеков аудио-сигналов, которые используются вариантами осуществления изобретения, показана на фиг.2. Общая система аудио-кодирования/декодирования состоит из кодера и декодера, как схематически показано на фиг.2. На фиг.2 показана система 102 с кодером 104, запоминающим устройством или мультимедийным каналом 106 и декодером 108.
Кодер 104 сжимает входной аудио-сигнал 110, создавая битовый поток 112, который записывается или передается через мультимедийный канал 106. Битовый поток 112 может приниматься декодером 108. Декодер 108 восстанавливает сжатый битовый поток 112 и создает выходной аудио-сигнал 114. Скорость передачи битов битового потока 112 и качество выходного аудиосигнала 114 относительно входного сигнала 110 являются основными свойствами, которые определяют рабочие характеристики кодирующей системы 102.
На фиг.3 схематически изображен кодер 104 согласно примеру осуществления изобретения.
Кодер 104 содержит процессор 301 базового кодека, который сконфигурирован для приема "ближнего" аудио-сигнала, например, как показано на фиг.3, аудио-сигнала от микрофона 11а. Кроме того, процессор выполнен с возможностью подключения к мультиплексору 305 и процессору 303 уровня расширения.
Процессор 303 уровня расширения дополнительно сконфигурирован для приема "дальнего" аудио-сигнала, который показан на фиг.3 как аудио-сигнал, принимаемый от микрофона 11b. Процессор уровня расширения дополнительно выполнен с возможностью подключения к мультиплексору 305. Мультиплексор 305 сконфигурирован для подачи на выход битового потока, такого как битовый поток 112, показанный на фиг.2.
Работа этих компонентов описывается более подробно со ссылкой на блок-схему, изображенную на фиг.4, показывающую работу кодера 104.
"Ближний" и "дальний" аудио-сигналы принимаются кодером 104. В первом варианте осуществления изобретения "ближний" и "дальний" аудиосигналы являются дискретизированными цифровыми сигналами. В других вариантах осуществления данного изобретения "ближний" и "дальний" аудиосигналы могут быть принимаемыми от микрофонов 11а и 11b аналоговыми аудио-сигналами, которые преобразуются из аналоговой формы в цифровую (Analogue to Digitally, A/D). В других вариантах осуществления изобретения аудио-сигналы преобразуются из цифрового сигнала импульсно-кодовой модуляции (Pulse Code Modulation, PCM) в цифровой сигнал с амплитудной модуляцией (Amplitude Modulation, AM). Прием аудио-сигналов от микрофонов показан на фиг.4 шагом 401.
Как было сказано выше, в некоторых вариантах осуществления изобретения "ближний" и "дальний" аудио-сигналы могут обрабатываться от массива микрофонов (который может содержать более 2 микрофонов). Аудиосигналы, принимаемые от массива микрофонов, такой как массив, показанный на фиг.7f, могут формировать "ближний" и "дальний" аудио-сигналы с использованием способов обработки сигналов, таких как формирование луча, улучшение речи, слежение за источником и подавление шума. При этом в вариантах осуществления изобретения формируемый "ближний" аудио-сигнал выбирается и определяется так, чтобы он содержал предпочтительно (чистые) речевые сигналы (иначе говоря, аудио-сигналы, не содержащие слишком много шума), а формируемый "дальний" аудио-сигнал выбирается и определяется так, чтобы он содержал предпочтительно компоненты фонового шума вместе с эхом собственного голоса, говорящего от окружающей среды.
Процессор 301 базового кодека принимает "ближний" аудио-сигнал, который необходимо кодировать, и подает на выход параметры кодирования, представляющие кодированный сигнал базового уровня. Кроме того, процессор 301 базового кодека может формировать для внутреннего применения синтезированный "ближний" аудио-сигнал (иначе говоря, "ближний" аудио-сигнал кодируется в виде параметров, и затем эти параметры декодируются с использованием обратного процесса для создания синтезированного "ближнего" аудио-сигнала).
Процессор 301 базового кодека для формирования базового уровня может использовать любой подходящий метод кодирования.
В первом варианте осуществления изобретения процессор 301 базового кодека формирует базовый уровень с использованием кодека со встроенным кодированием с переменной битовой скоростью (EB-VBR).
В других вариантах осуществления изобретения процессор базового кодека может быть процессором на основе линейного предсказания с возбуждением алгебраическим кодом (Algebraic Code Excited Linear Prediction Encoding, ACELP) и конфигурируется для подачи на выход битового потока типичных параметров ACELP.
Должно быть понятно, что варианты осуществления данного изобретения могут равным образом использовать любой базовый кодек аудио-сигналов и речи для представления базового уровня.
Формирование кодированного сигнала базового уровня показано на фиг.4 шагом 403. Кодированный сигнал базового уровня подается из процессора 301 базового кодека в мультиплексор 305.
Процессор 303 уровня расширения принимает "дальний" аудио-сигнал и формирует из него выходные сигналы уровня расширения. В некоторых вариантах осуществления изобретения процессор уровня расширения выполняет кодирование "дальнего" аудио-сигнала, аналогичное выполняемому процессором 301 базового кодека для "ближнего" аудио-сигнала. В других вариантах осуществления изобретения "дальний" аудио-сигнал кодируется с использованием какого-либо подходящего способа кодирования. Например, "дальний" аудио-сигнал может кодироваться с использованием таких схем, которые используются при прерывистой передаче (Discontinuous Transmission, DTX), где кодек с генерацией комфортного шума (CNG) используется на уровнях с низкой битовой скоростью передачи, а кодирование ACELP и способы остаточного кодирования с использованием модифицированного дискретного косинусного преобразования (Modified Discrete Cosine Transform, MDCT) могут использоваться для кодеров со средней и высокой битовой скоростью передачи. В некоторых вариантах осуществления изобретения квантование "дальнего" сигнала также может специально выбираться, чтобы подходить к типу сигнала.
В некоторых вариантах осуществления изобретения процессор уровня расширения сконфигурирован для приема синтезированного "ближнего" аудиосигнала и "дальнего" аудио-сигнала. Процессор 303 уровня расширения может в вариантах осуществления изобретения формировать кодированный битовый поток, называемый также уровнем расширения, зависящим от "дальнего" аудио-сигнала и синтезированного "ближнего" аудио-сигнала. Например, в одном варианте осуществления изобретения процессор уровня расширения вычитает синтезированный "ближний" сигнал из "дальнего" аудио-сигнала и затем кодирует разностный аудио-сигнал, например, выполняя преобразование из временной в частотную область и кодируя выходной сигнал частотной области в качестве уровня расширения.
В других вариантах осуществления изобретения процессор 303 уровня расширения сконфигурирован для приема "дальнего" аудио-сигнала, синтезированного "ближнего" аудио-сигнала и "ближнего" аудио-сигнала и формирует битовый поток уровня расширения, зависящий от комбинации трех входных сигналов.
Таким образом, устройство для кодирования аудио-сигнала в вариантах осуществления изобретения может быть сконфигурировано для формирования первого уровня кодированного с масштабированием сигнала из первого аудиосигнала, формирования второго уровня кодированного с масштабированием сигнала из второго аудио-сигнала и комбинирования первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.
Устройство в вариантах осуществления изобретения может быть дополнительно сконфигурировано для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука, и для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.
Устройство в вариантах осуществления изобретения может быть дополнительно сконфигурировано для приема большей части аудио-компонентов от источника звука от по меньшей мере одного микрофона, расположенного у источника звука или направленного в его сторону, и приема меньшей части аудио-компонентов от источника звука по меньшей мере с помощью одного дополнительного микрофона, расположенного далеко от источника звука или направленного в противоположную от него сторону.
Например, в некоторых вариантах осуществления изобретения по меньшей мере часть выходного битового потока уровня расширения формируется в зависимости от синтезированного "ближнего" аудио-сигнала и "ближнего" аудио-сигнала, а часть выходного битового потока уровня расширения зависит только от "дальнего" аудио-сигнала. В этом варианте осуществления процессор 303 уровня расширения выполняет обработку "дальнего" аудио-сигнала аналогично кодеку базового уровня для формирования "дальнего" уровня кодирования, аналогичного уровню, создаваемому процессором 301 базового кодека на основе "ближнего" аудиосигнала, но для части "дальнего" аудио-сигнала.
В дальнейших вариантах осуществления изобретения "ближний" синтезированный сигнал и "дальний" аудио-сигнал преобразуются в частотную область и разность между двумя сигналами в частотной области затем кодируется для создания данных уровня расширения.
В вариантах осуществления изобретения, использующих кодирование частотных полос, преобразование из временной области в частотную может выполняться любым подходящим преобразователем, таким как на основе дискретного косинусного преобразования (Discrete Cosine Transform, DCT), дискретного преобразования Фурье (Discrete Fourier Transform, DFT) или быстрого преобразования Фурье (Fast Fourier Transform, FFT).
В некоторых вариантах осуществления изобретения могут формироваться уровни расширения речевого/аудио-кодека со встроенной переменной битовой скоростью (EV-VBR) по стандарту МСЭ-Т и уровни расширения МСЭ-Т масштабируемого видеокодека (SVC) по стандарту МСЭ-Т.
Другие варианты осуществления могут включать помимо прочего формирование уровней расширения с использованием речевого многорежимного широкодиапазонного кодека с переменными скоростями (Variable Multi-Rate Wideband, VMR-WB), схем кодирования по стандартам G.729 МСЭ-Т, G.729.1 МСЭ-Т, G.722.1 МСЭ-Т, G.722.1C МСЭ, адаптивного широкополосного кодирования с переменной скоростью (AMR-WB) и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).
В других вариантах осуществления изобретения кодек любого подходящего уровня может использоваться для выделения корреляции между синтезированным "ближним" сигналом и "дальним" сигналом для формирования кодированного сигнала данных уровня расширения.
Формирование уровня расширения показано на фиг.4 шагом 405. Данные уровня расширения подаются из процессора 303 уровня расширения на мультиплексор 305.
Далее мультиплексор 305 мультиплексирует базовый уровень, принимаемый от процессора 301 базового кодека, и уровень или уровни расширения от процессора 303 уровня расширения для формирования битового потока 112 кодированного сигнала. Мультиплексирование базового уровня и уровней расширения для получения битового потока показано на фиг.4 шагом 407.
Чтобы дополнительно помочь пониманию изобретения, работа декодера 108 в отношении вариантов осуществления изобретения описывается в отношении декодера, схематически показанного на фиг.5, и блок-схемы, изображенной на фиг.6, показывающей работу декодера.
Декодер 108 содержит вход 502, с которого может приниматься кодированный битовый поток 112. Вход 502 подключен к приемному устройству битов/демультиплексору 1401. Демультиплексор 1401 сконфигурирован для выделения базового уровня и уровня(-ей) расширения из битового потока 112. Данные базового уровня подаются из демультиплексора 1401 в процессор 1403 декодера базового кодека, а данные уровня расширения из демультиплексора 1401 в процессор 1405 декодера уровня расширения.
Кроме того, процессор 1403 декодера базового кодека подключен к объединителю и смесителю 1407 аудио-сигналов и процессору 1405 декодера уровня расширения.
Процессор 1405 декодера уровня расширения подключен к объединителю и смесителю 1407 аудио-сигналов. Выход объединителя и смесителя 1407 звуковых сигналов подключен к выходу аудио-сигнала 114.
Получение мультиплексированного кодированного битового потока показано на фиг.6 шагом 501.
Декодирование битового потока и разделение на данные базового уровня и данные уровня расширения показаны на фиг.6 шагом 503.
Процессор 1403 декодера базового кодека выполняет обработку, обратную обработке, осуществляемой процессором 301 базового кодека, как показано в кодере 104, для формирования синтезированного "ближнего" аудиосигнала. Этот сигнал подается из процессора 1403 декодера базового кодека в объединитель и смеситель 1407 аудио-сигналов.
Кроме того, в некоторых вариантах осуществления изобретения синтезированный "ближний" аудио-сигнал также подается в процессор 1405 декодера уровня расширения.
Декодирование базового уровня для формирования синтезированного "ближнего" аудио-сигнала показано на фиг.6 шагом 505.
Процессор 1405 декодера уровня расширения принимает по меньшей мере сигналы уровня расширения от демультиплексора 1401. Кроме того, в некоторых вариантах осуществления изобретения процессор 1405 декодера уровня расширения принимает синтезированный "ближний" аудио-сигнал от процессора 1403 декодера базового кодека. Далее, в некоторых вариантах осуществления изобретения процессор 1405 декодера уровня расширения принимает как синтезированный "ближний" аудио-сигнал от процессора 1403 декодера базового кодека, так и некоторые декодированные параметры базового уровня.
Процессор 1405 декодера уровня расширения тогда выполняет обработку, обратную обработке, осуществляемой процессором 303 уровня расширения кодера 104 для формирования по меньшей мере "дальнего" аудиосигнала.
В некоторых вариантах осуществления изобретения процессор 1405 декодера уровня расширения может дополнительно создавать дополнительные компоненты аудио-сигнала для "ближнего" аудио-сигнала. Создание "дальнего" аудио-сигнала на основе декодирования уровня расширения (и в некоторых вариантах осуществления синтезированного базового уровня) показано на фиг.6 шагом 507.
"Дальний" аудио-сигнал из процессора декодера уровня расширения подается в объединитель и смеситель 1407 аудио-сигналов.
Объединитель и смеситель 1407 аудио-сигналов после приема синтезированного "ближнего" аудио-сигнала и декодированного "дальнего" аудио-сигнала создает комбинируемую и/или выбираемую комбинацию из двух принимаемых сигналов и подает смешанный аудио-сигнал на выход выходного аудио-сигнала.
В некоторых вариантах осуществления изобретения объединитель и смеситель аудио-сигналов принимает дополнительную информацию из входного битового потока посредством демультиплексора 1401 или имеет предыдущие сведения о расположении микрофонов, используемых для формирования "ближнего" и "дальнего" аудио-сигналов, чтобы выполнять цифровую обработку синтезированного "ближнего" и декодированного "дальнего" аудио-сигналов с учетом положения динамиков или расположения головного телефона для слушателя для создания правильной или имеющей преимущества комбинации "ближнего" и "дальнего" аудио-сигналов.
В некоторых вариантах осуществления изобретения объединитель и смеситель аудио-сигналов могут подавать на выход только "ближний" аудиосигнал. В таком варианте осуществления изобретения создается аудио-сигнал, аналогичный традиционному монофоническому кодированию/декодированию, и, следовательно, получаются результаты, которые обратно совместимы с существующими аудио-сигналами.
В некоторых вариантах осуществления изобретения "ближний" и "дальний" сигналы декодируются из битового потока и часть "дальнего" сигнала смешивается с "ближним" сигналом, чтобы получить приятно звучащий монофонический воспринимаемый на слух акустический фон. В таком варианте осуществления изобретения слушатель имеет возможность знать об окружающей среде источника звука без нарушения распознавания источника звука. Это также позволяет воспринимающему лицу подстраивать количество "окружающей среды" в соответствии со своими предпочтениями.
Использование "ближнего" и "дальнего" сигналов создает выходной сигнал, который является более стабильным, чем обычный бинауральный процесс, и меньше нарушается при перемещении источника звука. Кроме того, в вариантах осуществления изобретения имеется преимущество в том, что не требуется подключения кодера ко множеству микрофонов, чтобы создавать приятные впечатления от прослушивания.
Таким образом, из вышеизложенного ясно, что в вариантах осуществления изобретения устройство для декодирования кодированного с масштабированием аудио-сигнала конфигурируется для разделения кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал. Кроме того, устройство конфигурируется для декодирования первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала. Устройство конфигурируется также для декодирования второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала.
Кроме того, в вариантах осуществления изобретения устройство может дополнительно конфигурироваться для вывода по меньшей мере первого аудио-сигнала в первый динамик.
Как описано выше, в некоторых вариантах осуществления устройство может быть дополнительно сконфигурировано для формирования по меньшей мере первой комбинации первого аудио-сигнала и второго аудио-сигнала и вывода первой комбинации в первый динамик.
Устройство может быть дополнительно сконфигурировано в других вариантах осуществления для формирования дополнительной комбинации первого аудио-сигнала и второго аудио-сигнала и вывода второй комбинации во второй динамик.
Несмотря на то, что изобретение для примера было описано в отношении базового уровня и одного уровня расширения, должно быть понятно, что данное изобретение может быть применено к дополнительным уровням расширения.
Приведенные выше варианты осуществления изобретения описывают кодек в отношении устройства с отдельными кодерами 104 и декодерами 108, чтобы способствовать пониманию используемых процессов. Однако должно быть понятно, что устройство, структуры и операции могут быть реализованы в виде одного устройства/структуры/операции кодера-декодера. Кроме того, в некоторых вариантах осуществления изобретения кодер и декодер могут совместно использовать некоторые/или все общие элементы.
Как отмечалось выше, хотя вышеописанный процесс описывает один базовый кодированный аудио-сигнал и один кодированный аудио-сигнал уровня расширения, этот же подход может быть применен для синхронизации и двух мультимедийных потоков, использующих одинаковые или похожие протоколы пакетной передачи.
Хотя вышеприведенные примеры описывают варианты осуществления изобретения, которые работают в кодеке в электронном устройстве 610, должно быть понятно, что изобретение, как описано ниже, может быть реализовано как часть какого-либо кодека аудио-сигнала (или речи) с переменной/адаптивной битовой скоростью передачи. Так, например, варианты осуществления изобретения могут быть реализованы в кодеке аудио-сигнала, который может осуществлять кодирование аудио-сигнала по линиям фиксированной или проводной связи.
При этом пользовательское оборудование может содержать кодек аудиосигнала, такой как те, которые описаны выше в вариантах осуществления изобретения.
Должно быть понятно, что термин пользовательское оборудование предназначен для охвата любого подходящего вида беспроводного пользовательского оборудования, такого как мобильные телефоны, портативные устройства обработки данных или портативные Web-браузеры.
Кроме того элементы наземной сети мобильной связи общего пользования (Public Land Mobile Network, PLMN) также могут содержать кодеки аудио-сигналов, которые описаны выше.
В целом, различные варианты осуществления изобретения могут быть реализованы в виде аппаратных средств или специализированных схем, программного обеспечения, логических схем или их любой комбинации. Например, некоторые аспекты могут быть реализованы аппаратными средствами, в то время как другие аспекты могут быть реализованы во встроенном программном обеспечении или программном обеспечении, которое может выполняться контроллером, микропроцессором или другим вычислительным устройством, хотя изобретение ими не ограничивается. Несмотря на то, что различные аспекты данного изобретения могут быть иллюстрированы и описаны в виде блок-схем, функциональных схем или с использованием некоторого другого графического представления, совершенно ясно, что эти блоки, устройства, системы, технологии или способы, описанные здесь, могут быть реализованы, в качестве не ограничивающих примеров, аппаратными средствами, программными средствами, встроенными программными средствами, специализированными схемами или логическими схемами, аппаратными средствами общего применения или контроллерами либо другими вычислительными устройствами или их некоторой комбинацией.
Например, варианты осуществления изобретения могут быть реализованы в виде чипсета, иначе говоря, набора интегральных схем, взаимодействующих между собой. Набор интегральных схем может содержать микропроцессоры, приспособленные для выполнения программы, специализированные интегральные схемы (Application Specific Integrated Circuits, ASICs) или программируемые процессоры цифровых сигналов для выполнения операций, описанных выше.
Варианты осуществления данного изобретения могут быть реализованы программным обеспечением для компьютера, выполняемым процессором для обработки данных мобильного устройства, таким как процессор, или аппаратными средствами, либо комбинацией программных и аппаратных средств. Кроме того, в связи с этим следует отметить, что любые блоки логической блок-схемы, которые показаны на чертежах, могут представлять шаги программы или взаимосвязанные логические схемы, блоки и функции, или комбинацию шагов программы и логических схем, блоков и функций.
Запоминающее устройство может быть любого типа, подходящего к местной технической среде, и может быть реализовано с использованием любой подходящей технологии хранения данных, такой как запоминающие устройства на основе полупроводников, флэш-память, магнитные запоминающие устройства и системы, оптические запоминающие устройства и системы, фиксированные и сменные запоминающие устройства. Процессоры для обработки данных могут быть любого типа, подходящего к местной технической среде, и могут включать в качестве неограничивающих примеров один или более универсальных компьютеров, специализированных компьютеров, микропроцессоров, процессоров цифровых сигналов (Digital Signal Processors, DSPs) и процессоров на основе многоядерной архитектуры.
Варианты осуществления изобретения могут применяться на практике в различных компонентах, таких как модули на интегральных схемах. Проектирование интегральных схем является, в общем и целом, высокоавтоматизированным процессом. Комплексные и мощные инструментальные программные средства доступны для преобразования проекта на логическом уровне в проект полупроводниковой схемы, готовой для травления и формирования на полупроводниковой подложке.
Программы, такие как поставляемые фирмами Synopsys, Inc., Mountain View, California, и Cadence Design, San Jose, California, автоматически трассируют проводники и размещают компоненты на полупроводниковой подложке, используя хорошо установившиеся правила проектирования, а также библиотеки ранее сохраненных модулей проектирования. Как только проект для полупроводниковой схемы закончен, полученный в результате проект в стандартизированном электронном формате (например, Opus, GDSII или аналогичном) может быть передан на предприятие по изготовлению полупроводников для изготовления.
Вышеприведенное описание предоставляет посредством неограничивающих примеров полное и информативное описание примеров осуществления данного изобретения. Однако различные модификации и доработки могут быть очевидными специалистам в соответствующей области техники после прочтения вышеприведенного описания вместе с сопроводительными чертежами и прилагаемой формулой изобретения. Однако все такие и подобные модификации идей данного изобретения находятся в пределах объема данного изобретения, который определен в прилагаемой формуле изобретения.
Класс G10L19/00 Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи
Класс G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала