устройство и способ генерирования выходных данных расширения полосы пропускания
Классы МПК: | G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала |
Автор(ы): | ГРИЛЛ Бернхард (DE), МУЛТРУС Маркус (DE), ПОПП Харальд (DE), НУЕНДОРФ Макс (DE), КРАЕМЕР Ульрих (DE), РЕТТЕЛБАХ Николаус (DE), НАГЕЛЬ Фредерик (DE), ЛОХВАССЕР Маркус (DE), ГАЙЕР Марк (DE), ЯНДЕР Мануэль (DE), БАЧИГАЛУПО Вирджилио (DE) |
Патентообладатель(и): | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE) |
Приоритеты: |
подача заявки:
2009-06-23 публикация патента:
27.09.2013 |
Изобретение относится к устройству и способу генерирования выходных данных расширения полосы пропускания (BWE), к звуковому кодирующему устройству и звуковому декодеру. Техническим результатом является обеспечение эффективного кодирования без заметных артефактов, особенно для речевых сигналов. Устройство (100) для генерирования выходных данных расширения полосы пропускания (102) для звукового сигнала (105) включает измеритель минимального уровня шума (ПО), энергетическую характеристику сигнала (120) и процессор (130). Звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а) и компоненты во втором частотном диапазоне (105b); выходные данные расширения полосы пропускания (102) приспособлены, чтобы управлять синтезом компонентов во втором частотном диапазоне (105b). Измеритель минимального уровня шума (ПО) измеряет данные минимального уровня шума (115) второго частотного диапазона (105b) для временной части (T) звукового сигнала (105). Энергетическая характеристика сигнала (120) получает данные распределения энергии (125); данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105). Процессор (130) объединяет данные минимального уровня шума (115) и данные распределения энергии (125), чтобы получить выходные данные расширения полосы пропускания (102). 8 н. и 8 з.п. ф-лы, 9 ил.
Формула изобретения
1. Кодирующее устройство (300) для кодирования звукового сигнала (105); звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а) и компоненты во втором частотном диапазоне (105b); кодирующее устройство включает:
базовое кодирующее устройство (340) для кодирования компонентов в первом частотном диапазоне (105а) для получения кодированного звукового сигнала (355);
вычислитель данных огибающей (210) для вычисления данных расширения полосы пропускания (BWE) (375), основанных на компонентах во втором частотном диапазоне (105b); вычислитель данных огибающей включает устройство (100) для генерирования выходных данных расширения полосы пропускания (102) для звукового сигнала (105); выходные данные расширения полосы пропускания (102), приспосабливаемые для управления синтезом компонентов во втором частотном диапазоне (105b); устройство (100) включает измеритель минимального уровня шума (110) для измерения данных минимального уровня шума (115) второго частотного диапазона (105b) для временной части (Т) звукового сигнала (105); энергетическую характеристику сигнала (120) для получения данных распределения энергии (125); данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105) и процессор (130) для объединения данных минимального уровня шума (115) и данных распределения энергии (125) для получения выходных данных расширения полосы пропускания (102), где данные расширения полосы пропускания (375) включают данные расширения полосы пропускания (102) и данные огибающей; и форматер полезной нагрузки битового потока (350) приспособлен для выпуска кодированного звукового потока (345) посредством объединения данных расширения полосы пропускания (375) с кодированным звуковым сигналом (355), где процессор (130) является частью форматера полезной нагрузки битового потока (350).
2. Кодирующее устройство по п.1, где энергетическая характеристика сигнала (120) формируется, чтобы использовать, в качестве данных распределения энергии (125), параметр шипения или параметр спектрального наклона; параметр шипения или параметр спектрального наклона распознает увеличение или уменьшение уровня звукового сигнала (105) с частотой (F).
3. Кодирующее устройство по п.2, где энергетическая характеристика сигнала (120) формируется, чтобы использовать первый линейный коэффициент кодирования с предсказанием в качестве параметра шипения.
4. Кодирующее устройство по п.1, где процессор (130) формируется, чтобы добавить данные минимального уровня шума (115) и данные распределения спектральной энергии (125) к битовому потоку в качестве BWE выходных данных (102).
5. Кодирующее устройство по п.1, где процессор (130) формируется, чтобы изменить данные минимального уровня шума (115) в соответствии с данными распределения энергии (125), чтобы получить измененные данные минимального уровня шума; и где процессор (130) формируется, чтобы добавить измененные данные минимального уровня шума к битовому потоку в качестве BWE выходных данных (102).
6. Кодирующее устройство по п.5, где изменение данных минимального уровня шума (115) таково, что измененный минимальный уровень шума увеличивается для звукового сигнала (105), включающего больше шипения, по сравнению со звуковым сигналом (105), включающим меньше шипения.
7. Кодирующее устройство (300) по п.1, где временная часть (Т) покрывает SBR-фрейм; SBR-фрейм включает множество огибающих шума, и где вычислитель данных огибающей шума (210) формируется, чтобы вычислять различные BWE-данные (375) для различных огибающих шума множества огибающих шума.
8. Кодирующее устройство (300) по п.1, где вычислитель данных огибающей (210) формируется, чтобы изменять число огибающих в зависимости от изменения измеренных данных минимального уровня шума (115).
9. Способ кодирования звукового сигнала (105); звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а) и компоненты во втором частотном диапазоне (105b); способ включает:
кодирование (340) компонентов в первом частотном диапазоне (105а) для получения кодированного звукового сигнала (355);
вычисление данных расширения полосы пропускания (BWE) (375) посредством вычислителя данных огибающей (210), основанное на компонентах во втором частотном диапазоне (105b); этап вычисления включает стадию генерирования выходных данных расширения полосы пропускания (102) для звукового сигнала (105); выходные данные расширения полосы пропускания (102) приспосабливаются, чтобы управлять синтезом компонентов во втором частотном диапазоне (105b);
стадия генерирования выходных данных расширения полосы пропускания включает:
измерение данных минимального уровня шума (115) второго частотного диапазона (105b) для временной части (Т) звукового сигнала (105);
получение данных распределения энергии (125); данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105);
и объединение данных минимального уровня шума (115) и данных распределения энергии (125) для получения выходных данных расширения полосы пропускания (102);
и где данные расширения полосы пропускания (375) включают выходные данные расширения полосы пропускания (102) и данные огибающей, и
форматирование полезной нагрузки битового потока и выпуск кодированного звукового потока (345) посредством объединения данных расширения полосы пропускания (375) с кодированным звуковым сигналом (355), где этап объединения является частью этапа форматирования полезной нагрузки битового потока.
10. Инструмент расширения полосы пропускания (430) для генерирования компонентов во втором частотном диапазоне (105b) звукового сигнала (105), основанного на выходных данных расширении полосы пропускания (102) и основанного на спектральном представлении необработанного сигнала (425) для компонентов во втором частотном диапазоне (105b), где выходные данные расширения полосы пропускания (102) включают данные распределения энергии (125); данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105); инструмент расширения полосы пропускания (430) включает:
инструмент модификатора минимального уровня шума (433, 431), который формируется, чтобы изменить переданный минимальный уровень шума в соответствии с данными распределения энергии (125);
и объединитель (434) для объединения спектрального представления необработанного сигнала (425) с измененным минимальным уровнем шума для генерирования компонентов во втором частотном диапазоне (105b) с измененным минимальным уровнем шума.
11. Инструмент расширения полосы пропускания (430) по п.10, где звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а), и параметры расширения полосы пропускания (102) включают переданные данные минимального уровня шума, показывающие уровень шума для минимального уровня шума, и где инструмент модификатора минимального уровня шума (433, 431) приспособлен, чтобы увеличить уровень шума в случае, если данные распределения энергии (125) показывают звуковой сигнал (105), включающий больше энергии в компонентах второго частотного диапазона (105b), чем в первом частотном диапазоне (105а), или уменьшить уровень шума в случае, если данные распределения энергии (125) показывают звуковой сигнал (105), включающий больше энергии в компонентах первого частотного диапазона (105а), чем во втором частотном диапазоне (105b).
12. Декодер (400) для декодирования кодированного звукового потока (345), чтобы получить звуковой сигнал (105), включающий:
деформатер битового потока (357), разделяющий кодированный сигнал (355) и BWE выходные данные (102);
инструмент расширения полосы пропускания (430) по п.10;
базовый декодер (360) для декодирования компонентов в первом частотном диапазоне (105а) от кодированного звукового сигнала (355)
и синтезирующий узел (440) для синтезирования звукового сигнала (105) посредством объединения компонентов первого и второго частотных диапазонов (105а, 105b).
13. Способ декодирования кодированного звукового потока (345) для получения звукового сигнала (105); звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а) и выходные данные расширения полосы пропускания (102), где выходные данные расширения полосы пропускания (102) включают данные распределения энергии (125) и данные минимального уровня шума; данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105); способ включает:
отделение от кодированного звукового потока (345) кодированного звукового сигнала (355) и BWE выходных данных (102);
декодирование компонентов в первом частотном диапазоне (105а) от кодированного звукового сигнала (355);
генерирование спектрального представления необработанного сигнала (425) для компонентов во втором частотном диапазоне (1050) от компонентов в первом частотном диапазоне (105а);
изменение минимального уровня шума в соответствии с данными распределения энергии (125) и в соответствии с переданными данными минимального уровня шума;
объединение спектрального представления необработанного сигнала (425) с измененным минимальным уровнем шума для генерирования компонентов во втором частотном диапазоне (105b) с вычисленным минимальным уровнем шума
и синтезирование звукового сигнала (105) посредством объединения компонентов первого и второго частотных диапазонов (105а, 105b).
14. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществление способа по п.9, когда компьютерная программа выполняется компьютером или процессором.
15. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществление способа по п.13, когда компьютерная программа выполняется компьютером или процессором.
16. Кодированный звуковой поток (345) включает:
кодированный звуковой сигнал (355) для компонентов в первом частотном диапазоне (105а) звукового сигнала (105);
данные минимального уровня шума, приспособленные для управления синтезом минимального уровня шума для компонентов во втором частотном диапазоне (105b) звукового сигнала (105);
данные распределения энергии (125), приспособленные для управления модификацией минимального уровня шума;
и данные огибающей (375) для компонентов во втором частотном диапазоне (105b).
Описание изобретения к патенту
Данное изобретение имеет отношение к устройству и способу генерирования выходных данных расширения полосы пропускания (BWE), к звуковому кодирующему устройству и звуковому декодеру.
Естественное звуковое кодирование и речевое кодирование - два основных класса кодер-декодеров для звуковых сигналов. Естественное звуковое кодирование обычно используется для музыкальных или произвольных сигналов при средних скоростях передачи битов (битрейт) и обычно предлагает широкие звуковые полосы пропускания. Речевые кодирующие устройства, в основном, ограничиваются воспроизведением речи и могут использоваться при очень низкой скорости передачи битов (битрейт). Широкополосная речь предлагает основное улучшение субъективного качества по сравнению с узкополосной речью. Далее, вследствие огромного роста мультимедийного пространства, передача музыкальных и других неречевых сигналов, а так же их хранение и, например, передача для радио/телевидения с высоким качеством по телефонным системам является желательным свойством.
Чтобы радикально уменьшить скорость передачи битов (битрейт), исходное кодирование может выполняться посредством использования перцепционных звуковых кодер-декодеров с разделенной полосой. Эти естественные звуковые кодер-декодеры используют перцепционное несоответствие и статистическую избыточность в сигнале. В случае, если использование вышеупомянутого в одиночку оказывается не достаточным относительно данных ограничений скорости передачи битов (битрейта), уменьшается частота дискретизации. Также часто применяется сокращение числа структурных уровней, что допускает случайное слышимое искажение квантования, и использование деградации стерео области посредством объединенного стерео кодирования или параметрического кодирования двух или более каналов. Злоупотребление такими способами приводит к досадной перцепционной деградации. Чтобы улучшить эффективность кодирования, используются способы расширения полосы пропускания, такие как репликация спектрального диапазона (SBR), как эффективный способ генерирования высокочастотных сигналов в основанном на HFR (высокочастотное восстановление) кодер-декодере.
При записи и передаче акустического сигнала всегда присутствует минимальный уровень шума, такой как фоновый шум. Чтобы генерировать подлинный акустический сигнал на стороне декодера, минимальный уровень шума должен или передаваться или генерироваться. В последнем случае должен быть определен минимальный уровень шума в оригинальном звуковом сигнале. В репликации спектрального диапазона это выполняется инструментами SBR, или с SBR зависимыми модулями, которые генерируют параметры, характеризующие (помимо прочего) минимальный уровень шума, и передаваемые декодеру для восстановления минимального уровня шума.
В WO 00/45379, описан инструмент адаптивного минимального уровня шума, который обеспечивает достаточный уровень шума в синтезируемых частотных составляющих высокого диапазона. Однако, беспокоящие артефакты в частотных составляющих высокого диапазона генерируются, если в основном диапазоне происходят кратковременные флуктуации энергии или так называемые помехи (переходные процессы). Эти артефакты перцепционно не приемлемы, и прототипы не обеспечивают приемлемое решение (особенно, если полоса пропускания ограничена).
Задача данного изобретения, поэтому, состоит в том, чтобы обеспечить устройство, которое обеспечивает эффективное кодирование без заметных артефактов, особенно, для речевых сигналов.
Эта задача достигается посредством использования устройства для генерирования SBR выходных данных по п.1, кодирующего устройства по п.7, способа генерирования SBR выходных данных по п.10, декодера по п.13, способа декодирования по п.14 или кодированного звукового сигнала по п.16.
Данное изобретение основывается на обнаружении того, что адаптация измеренного минимального уровня шума, зависящая от распределения энергии звукового сигнала в пределах временной части, может улучшить перцепционное качество синтезированного звукового сигнала на стороне декодера. Хотя с теоретической точки зрения адаптация или обращение с измеренным минимальным уровнем шума не требуется, традиционные техники генерирования минимального уровня шума показывают ряд недостатков. С одной стороны, оценка минимального уровня шума, основанная на мере тональности, выполненная традиционными способами, сложна и не всегда точна. С другой стороны, цель минимального уровня шума состоит в том, чтобы воспроизвести правильное тональное впечатление на сторону декодера. Даже, если субъективное тональное впечатление для оригинального звукового сигнала и декодированного сигнала - то же самое, все еще имеется возможность генерирования артефактов; например, для речевых сигналов.
Экспертые оценки показывают, что различные типы речевых сигналов должны рассматривать по-разному. В вокализованных речевых сигналах понижение вычисленного минимального уровня шума приводит к перцепционно более высокому качеству по сравнению с оригинальным расчетным минимальным уровнем шума. В результате в этом случае получаются менее реверберирующие речевые звуки. В случае, если звуковой сигнал включает шипящие, искусственное увеличение минимального уровня шума может скрыть недостатки способа наложения заплат, относящегося к шипящим звукам. Например, кратковременные флуктуации (помехи (переходные процессы)) приводят к появлению беспокоящих артефактов при смещении или преобразовании в более высокий частотный диапазон, и увеличение минимального уровня шума может также скрыть эти флуктуации энергии.
Упомянутые помехи (переходные процессы) могут быть определены как части в пределах обычных сигналов, где появляется сильное увеличение энергии в пределах короткого промежутка времени, которое может быть или может не быть ограничено на определенной частотной области. Примерами помех (переходных процессов) являются удары кастаньет и ударных музыкальных инструментов, а также и определенные звуки человеческого голоса, такие как, например, буквы: П, Т, К. Обнаружение этого вида помех (переходных процессов) осуществляется всегда одинаково или при помощи того же самого алгоритма (использующего переходный порог), который не зависит от того, классифицируется ли сигнал как речь или он классифицируется как музыка. Кроме того, возможное различие между вокализованной и невокализованной речью не влияет на обычный или классический механизм обнаружения помех (переходных процессов).
Следовательно, осуществления обеспечивают уменьшение минимального уровня шума для сигналов, таких как вокализованная речь, и увеличение минимального уровня шума для сигналов, включающих, например, шипящие звуки.
Чтобы отличить различные сигналы, осуществления используют данные распределения энергии (например, параметр шипения), которые показывают, расположена ли энергия, главным образом, в высоких частотах или в низких частотах, или, другими словами, проявляет ли спектральное представление звукового сигнала увеличение или уменьшение наклона к высоким частотам. Дальнейшие осуществления также используют первый коэффициент LPC (LPC = линейное кодирование с предсказанием), чтобы генерировать параметр шипения.
Существуют две возможности изменить минимальный уровень шума. Первая возможность состоит в том, чтобы передать указанный параметр шипения, так, чтобы декодер мог использовать параметр шипения для регулирования минимального уровня шума (например, чтобы увеличить или уменьшить минимальный уровень шума в дополнение к вычисленному минимальному уровню шума). Этот параметр шипения может быть передан в дополнение к параметру минимального уровня шума, вычисленному обычными способами, или вычисленному на стороне декодера. Вторая возможность состоит в том, чтобы изменить переданный минимальный уровень шума посредством использования параметра шипения (или данных распределения энергии) так, чтобы кодирующее устройство передавало модифицированные данные минимального уровня шума декодеру, и на стороне декодера никакие модификации не требуются - может использоваться тот же самый декодер. Поэтому, манипулирование минимальным уровнем шума может, в принципе, быть выполнено на стороне кодирующего устройства, так же как и на стороне декодера.
Репликация спектрального диапазона, как пример расширения полосы пропускания, полагается на SBR фреймы при определении временной части, в которой звуковой сигнал разделяется на компоненты в первом частотном диапазоне и втором частотном диапазоне. Минимальный уровень шума может быть измерен и/или модифицирован для целого SBR фрейма. Альтернативно, также возможно, что SBR фрейм разделяется на огибающие шума так, чтобы для каждой огибающей шума могло быть выполнено регулирование минимального уровня шума. Другими словами, временное разрешение инструментов минимального уровня шума определяется так называемыми огибающими шума в SBR фреймах. Согласно Стандарту (ISO/IEC 14496-3), каждый SBR фрейм включает максимум две огибающие шума, так чтобы регулирование минимального уровня шума могло быть выполнено на основе частичных SBR фреймов. Для некоторых применений этого может быть достаточно. Однако также можно увеличить число огибающих шума, чтобы улучшить модель временной переменной тональности.
Следовательно, осуществления включают устройство для генерирования BWE выходных данных для звукового сигнала, где звуковой сигнал включает компоненты в первом частотном диапазоне и втором частотном диапазоне, и BWE выходные данные приспосабливаются для управления синтезом компонентов во втором частотном диапазоне. Устройство включает измеритель минимального уровня шума для измерения данных минимального уровня шума второго частотного диапазона для временной части звукового сигнала. Так как измеренный минимальный уровень шума влияет на тональность звукового сигнала, измеритель минимального уровня шума может включать измеритель тональности. Альтернативно, измеритель минимального уровня шума может быть реализован, чтобы измерить зашумленность сигнала, чтобы получить минимальный уровень шума. Устройство далее включает энергетическую характеристику сигнала для получения данных распределения энергии, где данные распределения энергии характеризуют распределение энергии в спектре временной части звукового сигнала и, наконец, устройство включает процессор для объединения данных минимального уровня шума и данных распределения энергии, чтобы получить BWE выходные данные.
В дальнейших осуществлениях энергетическая характеристика сигнала приспосабливается, чтобы использовать параметр шипения в качестве данных распределения энергии; и параметр шипения может, например, быть первым LPC коэффициентом. В дальнейших осуществлениях процессор приспосабливается, чтобы добавить данные распределения энергии к битовому потоку закодированных звуковых данных или, альтернативно, процессор приспосабливается, чтобы отрегулировать параметр минимального уровня шума таким образом, что минимальный уровень шума или увеличивается или уменьшается в зависимости от данных распределения энергии (зависящих от сигнала). В этом осуществлении измеритель минимального уровня шума сначала измеряет минимальный уровень шума, чтобы генерировать данные минимального уровня шума, которые позднее будут приспособлены или модифицированы процессором.
В дальнейших осуществлениях, временная часть - SBR фрейм, и энергетическая характеристика сигнала приспосабливается, чтобы генерировать ряд огибающих минимального уровня шума на SBR фрейм. Как следствие, измеритель минимального уровня шума, так же как энергетическая характеристика сигнала, может быть приспособлен для измерения данных минимального уровня шума, а так же полученных данных распределения энергии для каждой огибающей минимального уровня шума. Число огибающих минимального уровня шума может, например, быть 1, 2, 4 на SBR фрейм.
Дальнейшие осуществления включают также инструмент репликации спектрального диапазона, используемый в декодере, чтобы генерировать компоненты во втором частотном диапазоне звукового сигнала. В этом генерировании используются выходные данные репликации спектрального диапазона и необработанное спектральное представление сигнала для компонентов во втором частотном диапазоне. Инструмент репликации спектрального диапазона включает вычислительный блок минимального уровня шума, который формируется, чтобы вычислить минимальный уровень шума в соответствии с данными распределения энергии, и объединитель для объединения необработанного спектрального представления сигнала с вычисленным минимальным уровнем шума, чтобы генерировать компоненты во втором частотном диапазоне с вычисленным минимальным уровнем шума.
Преимущество осуществлений - объединение внешнего решения (речь/аудио) с внутренним вокализованным речевым детектором или внутренним детектором шипения (энергетическая характеристика сигнала), контролирующим случай, когда декодеру сообщается о дополнительном шуме, или регулирующим вычисленный минимальный уровень шума. Для неречевых сигналов выполняется обычное вычисление минимального уровня шума. Для речевых сигналов (полученных из внешнего переключающего решения) дополнительный речевой анализ выполняется, чтобы определить фактическую вокализацию сигнала. Количество шума, подлежащее добавлению в декодер или кодирующее устройство, измеряется в зависимости от степени шипения (в противоположность вокализации) сигнала. Степень шипения может быть определена, например, посредством измерения спектрального наклона частей короткого сигнала.
Данное изобретение будет теперь описано посредством иллюстрированных примеров. Свойства изобретения будут скорее оценены и лучше поняты с учетом следующего детального описания, которое следует рассматривать со ссылкой на сопровождающие рисунки, в которых:
Фиг.1 показывает блок-схему устройства для генерирования BWE выходных данных согласно осуществлениям данного изобретения;
Фиг.2a иллюстрирует отрицательный спектральный наклон нешипящего сигнала;
Фиг.2b иллюстрирует положительный спектральный наклон для сигнала, подобного шипению;
Фиг.2c объясняет вычисление спектрального наклона т, основанного на параметрах LPC низкого разряда;
Фиг.3 показывает блок-схему кодирующего устройства;
Фиг.4 показывает блок-схемы обработки кодированного звукового потока для производства РСМ сэмплов на стороне декодера;
Фиг.5а, b показывают сравнение традиционного вычисления минимального уровня шума с модифицированным вычислением минимального уровня шума согласно осуществлениям; и
Фиг.6 иллюстрирует разделение SBR сэмпла в предварительно определенном числе временных частей.
Фиг.1 показывает устройство 100 для генерирования выходных данных расширения полосы пропускания (BWE) 102 для звукового сигнала 105. Звуковой сигнал 105 включает компоненты в первом частотном диапазоне 105а и компоненты второго частотного диапазона 105b. BWE выходные данные 102 приспосабливаются, чтобы управлять синтезом компонентов во втором частотном диапазоне 105b. Устройство 100 включает измеритель минимального уровня шума ПО, энергетическую характеристику сигнала 120 и процессор 130. Измеритель минимального уровня шума ПО приспосабливается для измерения или определения данных минимального уровня шума 115 второго частотного диапазона 105b для временной части звукового сигнала 105. Более подробно, минимальный уровень шума может определяться посредством сравнения измеренного шума основного диапазона с измеренным шумом верхнего диапазона, так, чтобы определить количество шума, необходимое, после наложения заплат, для воспроизведения естественного впечатления тональности. Энергетическая характеристика сигнала 120 получает данные распределения энергии 125, характеризующие распределение энергии в спектре временной части звукового сигнала 105. Поэтому, измеритель минимального уровня шума ПО получает, например, первый и/или второй частотный диапазон 105а, b, и энергетическая характеристика сигнала 120 получает, например, первый и/или второй частотный диапазон 105а, b. Процессор 130 получает данные минимального уровня шума 115 и данные распределения энергии 125 и объединяет их, чтобы получить В WE выходные данные 102. Репликация спектрального диапазона включает один пример для расширения полосы пропускания, где BWE выходные данные 102 становятся SBR выходными данными. Следующие осуществления, главным образом, описывают пример SBR, но изобретательное устройство/способ не ограничивается этим примером.
Данные распределения энергии 125 показывают соотношение между энергией, содержащейся во втором частотном диапазоне, и энергией, содержащейся в первом частотном диапазоне. В самом простом случае данные распределения энергии представлены битом, показывающим, сохраняется ли больше энергии в основном диапазоне по сравнению с SBR диапазоном (верхняя полоса) или наоборот.SBR диапазон (верхняя полоса) может, например, определяться как частотные составляющие выше порога, который может быть представлен, например, 4 кГц, и основной диапазон (нижняя полоса) может быть компонентами сигнала, которые ниже этой пороговой частоты (например, ниже 4 кГц или другой частоты). Примерами для этих пороговых частот могут быть 5 кГц или 6 кГц.
Фиг.2а и 2b показывают два распределения энергии в спектре в пределах временной части звукового сигнала 105. Распределения энергии представлены уровнем Р в качестве функции частоты F аналогового сигнала, которая может также быть огибающей сигнала, представленной множеством сэмплов или строк (преобразованных в частотную область). Показанные графики также значительно упрощены, чтобы визуализировать понятие спектрального наклона. Нижний и верхний частотный диапазон может быть определен как частоты ниже или выше пороговой частоты F0 (частота перехода, например, 500 гц, 1 кГц или 2 кГц).
Фиг.2a показывает распределение энергии, демонстрирующее падающий спектральный наклон (уменьшающийся с повышением частот). Другими словами, в этом случае, больше энергии сохраняется в низкочастотных компонентах, чем в высокочастотных компонентах. Следовательно, уровень Р уменьшается для высоких частот, предполагая отрицательный спектральный наклон (убывающая функция). Следовательно, уровень Р включает отрицательный спектральный наклон, если уровень Р сигнала показывает, что имеется меньше энергии в верхнем диапазоне (F>F0), чем в нижнем диапазоне (F<F0 ). Этот тип сигнала имеет место, например, для звукового сигнала, включающего незначительное количество шипящих звуков или не включающего их совсем.
Фиг.2b показывает случай, когда уровень P увеличивается с частотами F, предполагая положительный спектральный наклон (возрастающая функция уровня Р в зависимости от частот). Следовательно, уровень Р включает положительный спектральный наклон, если уровень Р сигнала показывает, что имеется больше энергии в верхнем диапазоне (F>F0) по сравнению с низким диапазоном (F<F0). Такое распределение энергии производится, если звуковой сигнал 105 включает, например, упомянутые шипящие звуки.
Фиг.2а иллюстрирует спектр мощности сигнала, имеющего отрицательный спектральный наклон. Отрицательный спектральный наклон означает падающий наклон спектра. В противоположность этому, фиг.2b иллюстрирует спектр мощности сигнала, имеющего положительный спектральный наклон. Другими словами, этот спектральный наклон имеет возрастающий наклон. Естественно, каждый спектр, такой как спектр, проиллюстрированный на фиг.2а, или спектр, проиллюстрированный на фиг.2b, будет иметь колебания в частном масштабе, имеющем наклоны, отличающиеся от спектрального наклона.
Спектральный наклон может быть получен, когда, например, прямая линия приспособлена к спектру мощности, такому как полученный посредством минимизации квадрата разности между этой прямой линией и фактическим спектром. Приспособление прямой линии к спектру может быть одним из способов вычисления спектрального наклона кратковременного спектра. Однако, предпочтительно вычислять спектральный наклон, используя LPC коэффициенты.
Публикация «Эффективное вычисление спектрального наклона от различных LPC параметров» В. Гончарофф, Э. Фон Коллн и Р. Моррис, Военно-морской командный контролирующий океанографический центр (NCCOSC), РДТ и Подразделение Е, Сан-Диего, Калифорния 92152-52001, 23 мая 1996 г., раскрывает несколько способов вычисления спектрального наклона.
В одном выполнении спектральный наклон определяется как наклон, выявляемый методом линейного подбора наименьших квадратов для логарифмического спектра мощности. Однако, линейный подбор может также применяться для нелогарифмического спектра мощности, для амплитудного спектра, или для любого другого вида спектра. Это, в частности, верно в контексте данного изобретения, где в предпочтительном осуществлении главный интерес представляет знак спектрального наклона, то есть, положителен или отрицателен результат наклона линейного подбора. Фактическое значение спектрального наклона, однако, не имеет большого значения в высокоэффективном осуществлении данного изобретения, но фактическое значение может быть важным в более сложных осуществлениях.
Когда линейное кодирование с предсказанием (LPC) речи используется, чтобы смоделировать его кратковременный спектр, в вычислительном отношении более эффективно вычислить спектральный наклон непосредственно из LPC параметров модели, а не из логарифмического спектра мощности.
Фиг.2с иллюстрирует уравнение для коэффициентов косинусного преобразования Фурье ck, соответствующих n-ному разряду идеального (полюсного) логарифмического спектра мощности. В этом уравнении k - целочисленный индекс, pn - n-ный полюс в идеальном (полюсном) представлении передаточной функции z-области Н (z) фильтра LPC. Следующее уравнение на фиг.2с - спектральный наклон в переводе на коэффициенты косинусного преобразования Фурье. В частности, m является спектральным наклоном, k и n - целые числа, и N - полюс самого высокого разряда идеальной (полюсной) модели для Н (z). Следующее уравнение на фиг.2с определяет логарифмический спектр мощности S ( ) N-ного разряда LPC фильтра. G - коэффициент усиления, и k - линейные прогнозирующие коэффициенты, и равен 2× ×f, где f - частота. Самое нижнее уравнение на фиг.2с непосредственно дает в результате коэффициенты косинусного преобразования Фурье как функцию LPC коэффициентов k. Коэффициенты косинусного преобразования Фурье ck затем используются, чтобы вычислить спектральный наклон. В общем, этот способ будет более эффективен в вычислительном отношении, чем разложение на множители LPC многочлена, чтобы получить полюсные значения, и определение спектрального наклона с использованием полюсного уравнения. Таким образом, после вычисления LPC коэффициентов k, можно вычислить коэффициенты косинусного преобразования Фурье ck посредством использования уравнения в низу фиг.2с и, потом, можно вычислить полюса p n из коэффициентов косинусного преобразования Фурье, используя первое уравнение на фиг.2с. Затем, основываясь на полюсах, можно вычислить спектральный наклон m, как показано во втором уравнении фиг.2с.
Было обнаружено, что LPC коэффициент 1 первого разряда достаточен для определения знака спектрального наклона. Поэтому, 1 - хорошая оценка для c1. Таким образом, c1 - хорошая оценка для p1. Когда p1 вставляется в уравнение для спектрального наклона m, становится ясно, что благодаря знаку минус во втором уравнении на фиг.2c, знак спектрального наклона m является обратным знаку первого LPC коэффициента 1 в определении LPC коэффициента на фиг.2c.
Предпочтительно, чтобы формировалась энергетическая характеристика сигнала 120 для получения, в качестве данных распределения энергии, указания на знак спектрального наклона звукового сигнала в данной временной части звукового сигнала.
Предпочтительно, чтобы формировалась энергетическая характеристика сигнала 120 для производства, в качестве данных распределения энергии, данных, полученных из LPC анализа временной части звукового сигнала, для оценки одного или более LPC коэффициентов низкого разряда и для получения данных распределения энергии из одного или более LPC коэффициентов низкого разряда.
Предпочтительно, чтобы энергетическая характеристика сигнала 120 формировалась, только чтобы вычислить первый LPC коэффициент, но не вычислять дополнительные LPC коэффициенты, и получить данные распределения энергии из знака первого LPC коэффициента.
Предпочтительно, чтобы энергетическая характеристика сигнала 120 формировалась для определения спектрального наклона как отрицательного спектрального наклона, в котором спектральная энергия уменьшается от более низких частот к более высоким частотам, когда первый LPC коэффициент имеет положительный знак, и для определения спектрального наклона как положительного спектрального наклона, в котором спектральная энергия увеличивается от более низких частот к более высоким частотам, когда первый LPC коэффициент имеет отрицательный знак.
В других осуществлениях, детектор спектрального наклона или энергетическая характеристика сигнала 120 формируется не только для вычисления LPC коэффициентов первого разряда, но и для вычисления нескольких LPC коэффициентов низкого разряда, таких как LPC коэффициенты до 3 или 4 разряда или еще выше. В таком осуществлении спектральный наклон вычисляется с такой высокой точностью, что можно не только показать знак как параметр шипения, но также и значение в зависимости от наклона, который имеет больше двух значений как в осуществлении знака.
Как сказано выше шипение включает большое количество энергии в верхней частотной области, тогда как для частей без или только с небольшим количеством шипения (например, гласные) энергия, главным образом, распределяется в пределах основного диапазона (низкочастотный диапазон). Это наблюдение может использоваться, чтобы определить, включает ли или в каком объеме часть речевого сигнала шипящие или нет.
Следовательно, измеритель минимального уровня шума ПО (детектор) может использовать спектральный наклон для принятия решения о количестве шипения или степени шипения в сигнале. Спектральный наклон может, в основном, быть получен из простого LPC анализа распределения энергии. Этого может, например, быть достаточно, чтобы вычислить первый LPC коэффициент для определения параметра спектрального наклона (параметр шипения), потому что из первого LPC коэффициента может быть выведено поведение спектра (возрастающая или убывающая функция). Этот анализ может быть выполнен в пределах энергетической характеристики сигнала 120. В случае, если звуковое кодирующее устройство использует LPC для декодирования звукового сигнала, может не потребоваться передача параметра шипения, так как первый LPC коэффициент может использоваться как данные распределения энергии на стороне декодера.
В осуществлениях процессор 130 может формироваться, чтобы изменить данные минимального уровня шума 115 в соответствии с данными распределения энергии 125 (спектральный наклон), чтобы получить модифицированные данные минимального уровня шума, и процессор 130 может формироваться, чтобы добавить модифицированные данные минимального уровня шума к битовому потоку, включающему BWE выходные данные 102. Изменение данных минимального уровня шума 115 может быть таким, что модифицированный минимальный уровень шума увеличивается для звукового сигнала 105, включающего больше шипения (фиг.2b) по сравнению со звуковым сигналом 105, включающим меньше шипения (фиг.2a).
Устройство 100 для генерирования выходных данных расширения полосы пропускания (BWE) 102 может быть частью кодирующего устройства 300. Фиг.3 показывает осуществление для кодирующего устройства 300, которое включает BWE зависимые модули 310 (которые могут, например, включать SBR зависимые модули), анализирующий блок QMF 320, фильтр низких частот (LP-фильтр) 330, базовое кодирующее устройство ААС 340 и форматтер полезной нагрузки битового потока 350. Кроме того, кодирующее устройство 300 включает вычислитель данных огибающей 210. Кодирующее устройство 300 включает вход для РСМ сэмплов (звуковой сигнал 105; РСМ = импульсно-кодовая модуляция), который связан с анализирующим блоком QMF 320, и с BWE-зависимыми модулями 310 и с LP-фильтром 330. Анализирующий блок QMF 320 может включать фильтр высоких частот, чтобы отделить второй частотный диапазон 105b, и может соединяться с вычислителем данных огибающей 210, который, в свою очередь, соединяется с форматтером полезной нагрузки битового потока 350. LP-фильтр 330 может включать фильтр низких частот, чтобы отделить первый частотный диапазон 105а, и может соединяться с ААС базовым кодирующим устройством 340, которое, в свою очередь, соедняется с форматтером полезной нагрузки битового потока 350. Наконец, BWE-зависимый модуль 310 соединяется с вычислителем данных огибающей 210 и с ААС базовым кодирующим устройством 340.
Поэтому, кодирующее устройство 300 субдискретизирует звуковой сигнал 105, чтобы генерировать компоненты в основном частотном диапазоне 105а (в LP-фильтре 330), которые вводятся в ААС базовое кодирующее устройство 340, которое кодирует звуковой сигнал в основном частотном диапазоне и пересылает кодированный сигнал 355 форматтеру полезной нагрузки битового потока 350, в котором кодированный звуковой сигнал 355 основного частотного диапазона добавляется к кодированному звуковому потоку 345 (битовый поток). С другой стороны, звуковой сигнал 105 анализируется анализирующим QMF блоком 320, и фильтр высоких частот анализирующего QMF блока извлекает частотные компоненты высокочастотного диапазона 105b и вводит этот сигнал в вычислитель данных огибающей 210, чтобы генерировать В WE данные 375. Например, QMF блок с 64 поддиапазонами 320 выполняет поддиапазонное фильтрование входного сигнала. Выход из гребенки фильтров (то есть, сэмплы поддиапазона) комплекснозначен и, таким образом, супердискретизирован коэффициентом два по сравнению со стандартным QMF блоком.
BWE-зависимый модуль 310 может, например, включать устройство 100 для генерирования В WE выходных данных 102 и управляет вычислителем данных огибающей 210, предоставляя, например, BWE выходные данные 102 (параметр шипения) вычислителю данных огибающей 210. Используя звуковые компоненты 105b, произведенные QMF анализирующим блоком 320, вычислитель данных огибающей 210 вычисляет BWE данные 375 и пересылает BWE данные 375 форматтеру полезной нагрузки битового потока 350, который объединяет BWE данные 375 с компонентами 355, закодированными базовым кодирующим устройством 340 в кодированном звуковом потоке 345. Кроме того, вычислитель данных огибающей 210 может, например, использовать параметр шипения 125, чтобы установить минимальные уровни шума в пределах огибающих шума.
Альтернативно, устройство 100 для генерирования BWE выходных данных 102, может также быть частью вычислителя данных огибающей 210, и процессор также может быть частью форматтера полезной нагрузки битового потока 350. Поэтому, различные компоненты устройства 100 могут быть частью различных компонентов кодирующего устройства фиг.3.
Фиг.4 показывает осуществление для декодера 400, где кодированный звуковой поток 345 вводится в деформаттер полезной нагрузки битового потока 357, который отделяет кодированный звуковой сигнал 355 от BWE данных 375. Кодированный звуковой сигнал 355 вводится, например, в ААС базовый декодер 360, который генерирует декодированный звуковой сигнал 105а в первом частотном диапазоне. Звуковой сигнал 105а (компоненты в первом частотном диапазоне) вводится в анализирующий 32-диапазонный QMF блок 370, генерирующий, например, 32 частотных поддиапазона 10532 из звукового сигнала 105а в первом частотном диапазоне. Звуковой сигнал частотного поддиапазона 10532 вводится в генератор заплат 410, чтобы генерировать спектральное представление необработанного сигнала 425 (заплату), которое вводится в BWE инструмент 430a. BWE инструмент 430a может, например, включать узел вычисления минимального уровня шума, чтобы генерировать минимальный уровень шума. Кроме того, BWE инструмент 430a может восстанавливать недостающие гармоники или выполнять обратный этап фильтрования. BWE инструмент 430a может осуществлять известные способы репликации спектрального диапазона, которые будут использоваться на выходе спектральных данных QMF генератора заплат 410. Алгоритм наложения заплат, используемый в частотной области, может, например, использовать простое зеркальное отражение или копирование спектральных данных в пределах частотной области
С другой стороны, BWE данные 375 (например, включающие BWE выходные данные 102) вводятся в анализатор битового потока 380, который анализирует В WE данные 375, чтобы получить другую подинформацию 385 и ввести ее, например, в узел декодированиия по способу Хаффмана и деквантизации 390, который, например, извлекает управляющую информацию 412 и параметры репликации спектрального диапазона 102. Управляющая информация 412 управляет генератором заплат 430 (например, чтобы использовать определенный алгоритм наложения заплат), и BWE параметр 102 включает, например, также данные распределения энергии 125 (например, параметр шипения). Управляющая информация 412 вводится в BWE инструмент 430a, и параметры репликации спектрального диапазона 102 вводятся в BWE инструмент 430a, так же как в регулятор огибающей 430b. Регулятор огибающей 430b предназначен, чтобы приспосабливать огибающую к генерированной заплате. В результате, регулятор огибающей 430b генерирует скорректированный необработанный сигнал 105b для второго частотного диапазона и вводит его в синтезирующий QMF блок 440, который объединяет компоненты второго частотного диапазона 105b со звуковым сигналом в частотной области 105 32. Синтезирующий QMF блок 440 может, например, включать 64 частотных диапазона и генерировать синтезирующий звуковой сигнал 105 (например, выход РСМ сэмплов, РСМ = импульсно-кодовая модуляция) посредством объединения обоих сигналов (компоненты во втором частотном диапазоне 105b и звуковой сигнал частотной области 10532).
Синтезирующий QMF блок 440 может включать объединитель, который объединяет сигнал частотной области 10532 со вторым частотным диапазоном 105b прежде, чем он будет преобразован во временную область и прежде, чем он будет выведен как звуковой сигнал 105. Дополнительно, объединитель может производить звуковой сигнал 105 в частотной области.
В WE инструменты 430а могут включать обычный инструмент минимального уровня шума, который добавляет дополнительный шум к спектру с заплатами (спектральное представление необработанного сигнала 425) так, что спектральные компоненты 105а, которые были переданы базовым кодирующим устройством 340 и используются, чтобы синтезировать компоненты второго частотного диапазона 105b, демонстрирующие тональность второго частотного диапазона 105b оригинального сигнала. Особенно в вокализованных речевых каналах, однако, дополнительный шум, добавленный обычным инструментом минимального уровня шума, может испортить качество воспринятия воспроизведенного сигнала.
Согласно осуществлениям может быть модифицирован инструмент минимального уровня шума так, чтобы инструмент минимального уровня шума принимал во внимание данные распределения энергии 125 (часть BWE данных 102), чтобы изменить минимальный уровень шума в соответствии с обнаруженной степенью шипения (см. фиг.2). Альтернативно, как описано выше, декодер может не изменяться, и вместо этого кодирующее устройство может изменять данные минимального уровня шума в соответствии с обнаруженной степенью шипения.
Фиг.5 показывает сравнение обычного инструмента вычисления минимального уровня шума с модифицированным инструментом вычисления минимального уровня шума согласно осуществлениям данного изобретения. Этот модифицированный инструмент вычисления минимального уровня шума может быть частью BWE инструмента 430.
Фиг.5а показывает обычный инструмент вычисления минимального уровня шума, включающий вычислитель 433, который использует параметры репликации спектрального диапазона 102 и спектральное представление необработанного сигнала 425, чтобы вычислить необработанные спектральные линии и шумовые спектральные линии. В WE данные 102 могут включать данные огибающей и данные минимального уровня шума, которые передаются от кодирующего устройства как часть кодированного звукового потока 345. Спектральное представление необработанного сигнала 425, например, получается из генератора заплат, который генерирует компоненты звукового сигнала в верхнем частотном диапазоне (синтезированные компоненты во втором частотном диапазоне 105b). Необработанные спектральные линии и шумовые спектральные линии будут далее обработаны посредством использования обратного фильтрование, регулировки огибающей, добавления недостающих гармоник и так далее. Наконец, объединитель 434 объединяет необработанные спектральные линии с вычисленными шумовыми спектральными линиями для компонентов во втором частотном диапазоне 105b.
Фиг.5b показывает инструмент вычисления минимального уровня шума согласно осуществлениям данного изобретения. В дополнение к обычному инструменту вычисления минимального уровня шума, как показано на фиг.5а, осуществления включают модифицирующий узел минимального уровня шума 431, который формируется, например, чтобы изменить переданные данные минимального уровня шума, основанные на данных распределения энергии 125 прежде, чем они будут обработаны в инструменте вычисления минимального уровня шума 433. Данные распределения энергии 125 могут также быть переданы от кодирующего устройства как часть или в дополнение к В WE данным 102. Модификация переданных данных минимального уровня шума включает, например, увеличение для положительного спектрального наклона (см. фиг.2a), или уменьшение для отрицательного спектрального наклона (см. фиг.2b) уровня минимального уровня шума, например, увеличения на 3 децибела или уменьшения на 3 децибела или любое другое дискретное значение (например, +/-1 децибел или +1-2 децибела). Дискретное значение может быть целым числом децибел или нецелым числом децибел. Может также быть функциональная зависимость (например, линейное соотношение) между уменьшением/увеличением и спектральным наклоном.
Основанный на этих модифицированных данных минимального уровня шума инструмент вычисления минимального уровня шума 433 снова вычисляет необработанные спектральные линии и модифицированные шумовые спектральные линии, основанные на спектральном представлении необработанного сигнала 425, который снова может быть получен из генератора заплат. Инструмент репликации спектрального диапазона 430 фиг.5b включает также объединитель 434 для объединения необработанных спектральных линий с вычисленным минимальным уровнем шума (с модификацией из модифицирующего узла 431) для генерирования компонентов во втором частотном диапазоне 105b.
Данные распределения энергии 125 могут показывать, в самом простом случае, модификацию в переданном уровне данных минимального уровня шума. Как было сказано выше, также первый LPC коэффициент может использоваться как данные распределения энергии 125. Поэтому, если звуковой сигнал 105 был закодирован посредством использованя LPC, дальнейшие осуществления используют первый LPC коэффициент, который уже передан кодированным звуковым потоком 345, как данные распределения энергии 125. В этом случае, нет необходимости передавать, кроме того, данные распределения энергии 125.
Альтернативно, модификация минимального уровня шума может также быть выполнена после вычисления в вычислителе 433 так, чтобы модифицирующий узел минимального уровня шума 431 мог быть расположен после процессора 433. В дальнейших осуществлениях данные распределения энергии 125 могут непосредственно вводиться в вычислитель 433, непосредственно изменяющий вычисление минимального уровня шума как параметр вычисления. Следовательно, модифицирующий узел минимального уровня шума 431 и вычислитель/процессор 433 могут быть объединены для инструмента модификатора минимального уровня шума 433, 431.
В другом осуществлении BWE инструмент 430, включающий инструмент вычисления минимального уровня шума, включают переключатель, где переключатель формируется, чтобы переключаться между высоким уровнем для минимального уровня шума (положительный спектральный наклон) и низким уровнем для минимального уровня шума (отрицательный спектральный наклон). Высокий уровень может, например, соответствовать случаю, где переданный уровень для шума удваивается (или умножается на коэффициент), тогда как низкий уровень соответствует случаю, где переданный уровень уменьшается коэффициентом. Переключатель может регулироваться битом в потоке битов кодированного звукового сигнала 345, показывающего положительный или отрицательный спектральный наклон звукового сигнала. Альтернативно, переключатель может также быть активизирован анализом декодированного звукового сигнала 105а (компоненты в первом частотном диапазоне) или звукового сигнала частотного поддиапазона 10532, например, относительно спектрального наклона (положительный или отрицательный спектральный наклон). Альтернативно, переключатель может также регулироваться первым LPC коэффициентом, так как этот коэффициент показывает спектральный наклон (см. выше)
Хотя некоторые из фиг.1, 3-5 проиллюстрированы как блок-схемы устройств, эти рисунки одновременно - иллюстрация способа, где функциональные возможности блока соответствуют этапам способа.
Как было сказано выше, SBR единица времени (фрейм SBR) или временная часть может быть разделена на различные блоки данных, так называемые огибающие. Это разделение может быть однородным по SBR фрейму и позволяет гибко управлять синтезом звукового сигнала в пределах SBR фрейма.
Фиг.6 иллюстрирует такое разделение для SBR фрейма в числе n огибающих. SBR фрейм покрывает период времени или временную часть Т между начальным временем t0 и заключительным временем tn. Временная часть Т, например, разделяется на восемь временных частей, первая временная часть Т1, вторая временная часть Т2 , восьмая временная часть Т8. В этом примере максимальное число огибающих совпадает с числом временных частей и представляется n=8. 8 временных частей Т1, Т8 разделяются 7 границами, что означает, что граница 1 разделяет первую и вторую временную часть T1, Т2, граница 2 расположена между второй частью Т2 и третьей частью Т3, и так далее, и, наконец, граница 7 разделяет седьмую часть Т7 и восьмую часть Т8.
В дальнейших осуществлениях, SBR фрейм разделяется на четыре огибающих шума (n=4) или разделяется на две огибающих шума (n=2). В осуществлении, как показано на фиг.6, все огибающие имеют ту же самую продолжительность, которая может быть иной в других осуществлениях, так что огибающие шума имеют различную продолжительность. Более подробно, случай с двумя огибающими шума (n=2) включает первую огибающую, простирающуюся от времени to по первым четырем временным частям (T1, Т2, Т3 и Т4), и вторую огибающая шума, покрывающая пятую - восьмую временную часть (Т5, Т6, Т7 и Т8). Согласно Стандарту ISO/IEC 14496-3, максимальное число огибающих ограничивается двумя. Но осуществления могут использовать любое число огибающих (например, два, четыре или восемь огибающих).
В дальнейших осуществлениях вычислитель данных огибающей 210 формируется, чтобы изменить число огибающих в зависимости от изменения измеренных данных минимального уровня шума 115. Например, если измеренные данные минимального уровня шума 115 показывают переменный минимальный уровень шума (например, выше порога), число огибающих может увеличиваться, тогда как в случае, когда данные минимального уровня шума 115 показывают постоянный минимальный уровень шума, число огибающих может быть уменьшено.
В других осуществлениях, энергетическая характеристика сигнала 120 может основываться на лингвистической информации, чтобы обнаружить шипящие в речи. Когда, например, речевой сигнал связан с мета информацией, такой как международная фонетическая орфография, тогда анализ этой мета информации обеспечит, также, обнаружение шипящих речевой части. В этом контексте анализируется часть мета данных звукового сигнала.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или прибор соответствует этапу способа или характеристике этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или характеристики соответствующего устройства.
Изобретательный кодированный звуковой сигнал может быть сохранен на цифровом носителе данных или может быть передан при помощи средств передачи, таких как беспроводные средства передачи или проводные средства передачи, такие как Интернет.
В зависимости от определенных требований выполнения, осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Выполнение может быть осуществлено при использовании цифрового носителя данных, например дискета, DVD, компакт-диск, ROM (постоянное запоминающее устройство, ПЗУ), PROM (программируемое постоянное запоминающее устройство, ППЗУ), EPROM (стираемое программируемое постоянное запоминающее устройство СППЗУ), EEPROM (электрически стираемое программируемое постоянное запоминающее устройство, ЭСППЗУ), или флэш-память, имеющего сохраненные на нем электронно-считываемые управляющие сигналы, которые взаимодействуют (или могут взаимодействовать) с программируемой вычислительной системой таким образом, что реализуется соответствующий способ.
Некоторые осуществления согласно изобретению включают носитель информации, имеющий электронно-считываемые управляющие сигналы, которые способны взаимодействовать с программируемой вычислительной системой таким образом, что реализуется один из описанных здесь способов.
В общем, осуществления данного изобретения могут быть выполнены как компьютерный программный продукт с управляющей программой; управляющая программа служит для выполнения одного из способов, когда компьютерный программный продукт запущен на компьютере. Управляющая программа может, например, сохраняться на машиночитаемом носителе.
Другие осуществления включают компьютерную программу для реализации одного из описанных здесь способов, сохраненную на машиночитаемом носителе.
Другими словами, осуществлением изобретательного способа, поэтому, является компьютерная программа, имеющая управляющую программу для реализации одного из описанных здесь способов, когда компьютерная программа запущена на компьютере.
Дальнейшим осуществлением изобретательных способов, поэтому, является носитель информации (или цифровой носитель информации, или считываемая компьютером информация), включающий записанную на нем компьютерную программу для реализации одного из описанных здесь способов.
Дальнейшим осуществлением изобретательного способа, поэтому, является поток данных или последовательность сигналов, представляющих компьютерную программу для реализации одного из описанных здесь способов. Поток данных или последовательность сигналов могут, например, формироваться, чтобы быть переданными через канал передачи данных, например, через Интернет.
Дальнейшее осуществление включает средство обработки, например, компьютер, или программируемое логическое устройство, формируемое для или приспособленное для выполнения одного из описанных здесь способов.
Дальнейшее осуществление включает компьютер с установленной на нем компьютерной программой для реализации одного из описанных здесь способов.
В некоторых осуществлениях программируемое логическое устройство (например, промысловая программируемая логическая матрица) может использоваться для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых осуществлениях промысловая программируемая логическая матрица может взаимодействовать с микропроцессором, чтобы выполнить один из описанных здесь способов. В общем, способы являются выгодными при выполнении посредством любого аппаратного устройства.
Вышеописанные осуществления являются только иллюстрацией принципов данного изобретения. Имеется в виду, что модификации и изменения расположения и деталей, описанных здесь, будут понятны специалистам, квалифицированным в этой области. Поэтому, целью является то, чтобы ограничиваться только объемом формулы изобретения, а не специфическими деталями, представленными посредством приведенных здесь описаний и объяснений осуществлений.
Класс G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала