устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра
Классы МПК: | G10L19/02 с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами |
Автор(ы): | ЯМАНАСИ Томофуми (JP), ОСИКИРИ Масахиро (JP), МОРИИ Тосиюки (JP), ЕХАРА Хироюки (JP) |
Патентообладатель(и): | ПАНАСОНИК КОРПОРЭЙШН (JP) |
Приоритеты: |
подача заявки:
2009-08-07 публикация патента:
27.03.2014 |
Изобретение относится к средствам сглаживания спектра аудиосигнала. Технический результат заключается в уменьшении времени выполнения сглаживания спектра и увеличении качества выходного аудиосигнала. Разделяют входной спектр на множество подполос. Вычисляют репрезентативное значение для каждой подполосы с использованием среднего арифметического и среднего геометрического. Выполняют нелинейное преобразование по отношению к каждому репрезентативному значению. Усиливают характеристику нелинейного преобразования по мере возрастания значения. Сглаживают репрезентативное значение, которое было подвергнуто нелинейному преобразованию для каждой подполосы, в частотной области. 6 н.з. и 5 з.п. ф-лы, 15 ил.
Формула изобретения
1. Устройство сглаживания спектра, содержащее:
блок обработки преобразования время-частота, который выполняет преобразование время-частота входного сигнала и генерирует частотную компоненту;
блок разделения на подполосы, который делит частотную компоненту на множество подполос;
блок вычисления репрезентативного значения, который вычисляет репрезентативное значение каждой отделенной подполосы путем вычисления среднего арифметического и путем использования вычисления-умножения, используя результат вычисления среднего арифметического;
блок нелинейного преобразования, который выполняет нелинейное преобразование репрезентативных значений подполос;
блок сглаживания, который сглаживает репрезентативные значения, подверженные нелинейному преобразованию в частотной области; и
блок обратного нелинейного преобразования, который выполняет обратное нелинейное преобразование с характеристикой, противоположной нелинейному преобразованию, для сглаженных репрезентативных значений и вычисляет сглаженный спектр.
2. Устройство сглаживания спектра по п.1, в котором блок нелинейного преобразования выполняет нелинейное преобразование, имеющее характеристику усиления большего значения, для репрезентативных значений.
3. Устройство сглаживания спектра по п.1, в котором блок нелинейного преобразования выполняет логарифмическое преобразование в качестве нелинейного преобразования.
4. Устройство сглаживания спектра по п.1, в котором блок вычисления репрезентативного значения вычисляет репрезентативные значения подполос путем оценки среднего геометрического с использованием результата вычисления-умножения.
5. Устройство сглаживания спектра по п.1, в котором блок вычисления репрезентативного значения вычисляет репрезентативные значения подполос путем деления каждой подполосы на множество подгрупп, вычисления среднего арифметического значения для каждой подгруппы и вычисления среднего геометрического значения с использованием результата вычисления-умножения, использующего средние арифметические значения подгрупп.
6. Устройство сглаживания спектра по п.1, в котором:
упомянутый блок вычисления репрезентативного значения вычисляет репрезентативные значения каждой подполосы путем деления каждой подполосы на множество подгрупп, вычисления среднего арифметического значения каждой подгруппы, и вычисления значения, получаемого путем умножения средних арифметических значений подгрупп, в качестве репрезентативного значения каждой подполосы; и
упомянутый блок нелинейного преобразования вычисляет промежуточное значение каждой подполосы путем выполнения нелинейного преобразования репрезентативного значения каждой подполосы и вычисляет значение, получаемое путем умножения промежуточного значения в каждой подполосе на обратное значение количества подгрупп в каждой подполосе, в качестве репрезентативного значения, подвергнутого нелинейному преобразованию.
7. Устройство кодирования, содержащее:
блок кодирования первого уровня, который генерирует первую кодированную информацию путем кодирования части нижней полосы входного сигнала на предопределенной частоте или ниже нее;
блок декодирования первого уровня, который генерирует декодированный сигнал путем декодирования первой кодированной информации; и
блок кодирования второго уровня, который генерирует вторую кодированную информацию используя часть более высокой полосы входного сигнала выше предопределенной частоты и декодированный сигнал,
в котором блок кодирования второго уровня содержит устройство сглаживания спектра по одному из п.п. 1-6, которое принимает в качестве ввода и сглаживает декодированный сигнал и оценивает множество подполос по входному сигналу или сглаженному декодированному сигналу, причем часть более высокой полосы входного сигнала разделена на множество подполос.
8. Устройство декодирования, содержащее: блок приема, который принимает первую кодированную информацию и вторую кодированную информацию, причем первая кодированная информация получена путем кодирования части нижней полосы входного сигнала стороны кодирования на предопределенной частоте или ниже нее, и вторая кодированная информация генерирована путем деления части более высокой полосы входного сигнала стороны кодирования выше упомянутой предопределенной частоты на множество подполос и путем оценки множества подполос по входному сигналу стороны кодирования или первому декодированному сигналу, полученному путем декодирования первой кодированной информации;
блок декодирования первого уровня, который декодирует первую кодированную информацию, принятую из блока приема, и генерирует второй декодированный сигнал; и
блок декодирования второго уровня, который генерирует третий декодированный сигнал, используя второй декодированный сигнал, сгенерированный блоком декодирования первого уровня, и вторую кодированную информацию, принятую от блока приема;
при этом блок декодирования второго уровня содержит устройство сглаживания спектра по одному из п.п. 1-6, которое принимает в качестве ввода и сглаживает второй декодированный сигнал, и оценивает часть более высокой полосы входного сигнала стороны кодирования по сглаженному второму декодированному сигналу.
9. Устройство терминала связи, содержащее устройство сглаживания спектра по одному из п.п. 1-6.
10. Устройство базовой станции, содержащее устройство сглаживания спектра по одному из п.п. 1-6.
11. Способ сглаживания спектра, содержащий: этап преобразования время-частота, состоящий в выполнении преобразования время-частота входного сигнала и генерировании частотной компоненты;
этап разделения на подполосы, состоящий в разделении частотной компоненты на множество подполос;
этап вычисления репрезентативного значения, состоящий в вычислении репрезентативного значения каждой отделенной подполосы путем вычисления среднего арифметического и путем использования вычисления-умножения с использованием результата вычисления среднего арифметического;
этап нелинейного преобразования, состоящий в выполнении нелинейного преобразования репрезентативных значений подполос;
этап сглаживания, состоящий в сглаживании репрезентативных значений, подвергнутых нелинейному преобразованию в частотной области; и
этап обратного нелинейного преобразования, состоящий в выполнении обратного нелинейного преобразования с характеристикой, противоположной нелинейному преобразованию, для сглаженных репрезентативных значений и вычислении сглаженного спектра.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Настоящее изобретение относится к устройству сглаживания спектра, устройству кодирования, устройству декодирования, устройству терминала связи, устройству базовой станции и способу сглаживания спектра, который состоит в сглаживании спектра речевых сигналов.
Уровень техники
Когда речевые/аудио сигналы передают в системе пакетной связи, такой как связь через Интернет и мобильная система связи, часто используют технологию сжатия/кодирования для улучшения скорости передачи речевых/аудио сигналов. Кроме того, в последние годы, в дополнение к требованию простоты кодирования речевых/аудио сигналов с низкими скоростями битов, все больше повышается потребность в технологии кодирования речевых/аудио сигналов с высоким качеством.
Для удовлетворения этой потребности выполняют исследования по развитию различных технологий выполнения ортогонального преобразования (то есть преобразования время-частота) речевых сигналов, для выделения частотных компонентов (то есть спектра) речевых сигналов и применения различной обработки, такой как линейное преобразование и нелинейное преобразование для вычисленного спектра, для улучшения качества декодированных сигналов (см., например, патентный документ 1). В соответствии со способом, раскрытым в патентном документе 1, вначале анализируют частотный спектр, содержащийся в речевом сигнале определенной длительности по времени, и затем выполняют обработку нелинейного преобразования для усиления больших значений мощности спектра для анализа спектра. Затем в частотной области выполняют обработку линейного сглаживания для спектра, подвергнутого обработке нелинейного преобразования. После этого выполняют обработку обратного нелинейного преобразования для компенсации характеристики нелинейного преобразования и, кроме того, выполняют обработку обратного сглаживания для компенсации характеристики сглаживания таким образом, чтобы были подавлены шумовые компоненты, включенные в речевой сигнал по всей полосе. Таким образом, с помощью способа, раскрытого в патентном документе 1, все выборки спектра, полученные из речевого сигнала, подвергают обработке нелинейного преобразования, и затем этот спектр сглаживают, чтобы получить речевой сигнал с хорошим качеством. В патентном документе 1 вводятся способы преобразования, такие как преобразование мощности и логарифмическое преобразование как примеры нелинейной обработки.
Список цитированных источников
Патентные документы:
Патентный документ 1 (PTL1) - Выложенная заявка на патент Японии № 2002-244695
Патентный документ 2 (PTL2) - WO 2007/037361
Непатентные документы:
NPL 1 - Yuichiro TAKAMIZAWA, Toshiyuki NOMURA and Masao IKEKAWA, "High-Quality and Processor-Efficient Implementation of and MPEG-2 AAC Encoder", IEICE TRANS. INF. &SYST., VOL.E86-D, No.3 MARCH 2003
Раскрытие изобретения
Техническая задача
Однако в способе, раскрытом в патентном документе 1, необходимо выполнять нелинейное преобразование для всех выборок спектра, полученных из речевого сигнала, и поэтому возникает проблема, связанная с огромным объемом обработки при вычислениях. Кроме того, если только часть выборок спектра выделяют для уменьшения количества обработки расчетов, достаточно высокое качество речи не всегда может достигнуто при простом выполнении сглаживания спектра после нелинейного преобразования.
На основе конфигурации для выполнения нелинейного преобразования значения спектра, рассчитанного из речевого сигнала и с последующим сглаживанием спектра, цель настоящего изобретения состоит в предоставлении устройства сглаживания спектра, устройства кодирования, устройства декодирования, устройства терминала связи, устройства базовой станции и способа сглаживания спектра, таким образом, что поддерживается хорошее качество речи, и которое позволяет существенно уменьшить объем вычислительной обработки.
Решение задачи
В устройстве сглаживания спектра в соответствии с настоящим изобретением используется конфигурация, которая включает в себя блок преобразования время-частота, который выполняет преобразование время-частота входного сигнала и генерирует частотный компонент; блок разделения на подполосы, который делит частотный компонент на множество подполос; блок вычисления репрезентативного значения, который вычисляет репрезентативное значение каждой разделенной подполосы путем вычисления среднего арифметического и путем использования вычисления с умножением, используя результат вычисления среднего арифметического; блок нелинейного преобразования, который выполняет нелинейное преобразование репрезентативных значений по подполосам; и блок сглаживания, который выполняет сглаживание репрезентативных значений после их нелинейного преобразования в частотной области.
Способ сглаживания спектра в соответствии с настоящим изобретением включает в себя этап преобразования время-частота, состоящий в выполнении преобразования время-частота для входного сигнала и генерировании частотного компонента; этап разделения подполосы, состоящий в разделении частотного компонента на множество подполос; этап вычисления репрезентативного значения, состоящий в вычислении репрезентативного значения каждой разделенной подполосы с помощью вычисления среднего арифметического и путем использования вычисления с умножением, с использованием результата вычисления среднего арифметического; этап нелинейного преобразования, состоящий в выполнении нелинейного преобразования репрезентативных значений подполос; и этап сглаживания, состоящий в сглаживании репрезентативных значений, подвергнутых нелинейному преобразованию в области частоты.
Положительные эффекты изобретения
С настоящим изобретение становится возможным поддерживать хорошее качество речи и существенно уменьшить объем вычислительной обработки.
Краткое описание чертежей
На фиг.1 представлены виды спектра, представляющие обзор обработки в соответствии с вариантом 1 осуществления настоящего изобретения;
на фиг.2 показана блок-схема, представляющая конфигурацию основных частей устройства сглаживания спектра в соответствии с вариантом 1 осуществления;
на фиг.3 показана блок-схема, представляющая конфигурацию основных частей блока вычисления репрезентативного значения в соответствии с вариантом 1 осуществления;
на фиг.4 представлен общий обзор, представляющий конфигурацию подполос и подгрупп входного сигнала в соответствии с вариантом 1 осуществления;
на фиг.5 показана блок-схема, представляющая конфигурацию системы связи, имеющую устройство кодирования и устройство декодирования в соответствии с вариантом 2 осуществления настоящего изобретения;
на фиг.6 показана блок-схема, представляющая внутренние основные части устройства кодирования в соответствии с вариантом 2 осуществления, показанным на фиг.5;
на фиг.7 показана блок-схема, представляющая внутренние основные части конфигурации блока кодирования второго уровня, в соответствии с вариантом 2 осуществления, показанным на фиг.6;
на фиг.8 показана блок-схема, представляющая конфигурацию основных частей устройства сглаживания спектра в соответствии с вариантом 2 осуществления, показанным на фиг.7;
на фиг.9 представлена схема для пояснения деталей обработки фильтрации в блоке фильтрации в соответствии с вариантом 2 осуществления, показанным на фиг.7;
на фиг.10 показана блок-схема последовательности операций, предназначенная для пояснения этапов обработки, для поиска оптимального Tp' коэффициента тона относительно подполосы SBP в блоке поиска в соответствии с вариантом 2 осуществления, показанным на фиг.7;
на фиг.11 показана блок-схема, представляющая внутреннюю конфигурацию основных частей устройства декодирования в соответствии с вариантом 2 осуществления, показанным на фиг.5; и
на фиг.12 показана блок-схема, представляющая внутреннюю конфигурацию основных частей блока декодирования второго уровня в соответствии с вариантом 2 осуществления, показанным на фиг.11.
Осуществление изобретения
Варианты осуществления настоящего изобретения будут подробно описаны со ссылкой на приложенные чертежи.
Вариант 1 осуществления
Вначале будет описан общий обзор способа сглаживания спектра в соответствии с вариантом осуществления настоящего изобретения, используя фиг.1. На фиг.1 показаны спектральные диаграммы для пояснения общего обзора способа сглаживания спектра в соответствии с настоящим вариантом осуществления.
На фиг.1A показан спектр входного сигнала. В настоящем варианте осуществления, вначале спектр входного сигнала делят на множество подполос. На фиг.1B показано, как спектр входного сигнала делят на множество подполос. Спектральная диаграмма на фиг.1 предназначена для пояснения общего обзора настоящего изобретения, и настоящее изобретение никоим образом не ограничено количеством подполос, показанным на чертеже.
Далее вычисляется репрезентативное значение каждой подполосы. Более конкретно, выборки в подполосах дополнительно делятся на множество подгрупп. Затем вычисляется среднее арифметическое абсолютных значений спектра для каждой подгруппы.
Далее вычисляется среднее геометрическое значений среднего арифметического отдельных подгрупп для подполосы. Такое среднее геометрическое значение еще не является точным средним геометрическим значением, и в этот момент вычисляется значение, получаемое путем простого умножения средних арифметических значений отдельных групп, и точное среднее геометрическое значение может быть определено после нелинейного преобразования (описано ниже). Представленная выше обработка предназначена для уменьшения объема вычислительной обработки, при этом в равной степени возможно определить точное среднее геометрическое значение.
Среднее геометрическое значение, найденное таким образом, можно использовать как репрезентативное значение каждой подполосы. На фиг.1C показаны репрезентативные значения отдельных подполос по спектру входного сигнала, представленному пунктирными линиями. Для простоты пояснения на фиг.1C показаны точные средние геометрические значения как репрезентативные значения, вместо значений, полученных путем простого умножения средних арифметических значений отдельных подгрупп.
Далее, обращаясь к каждому репрезентативному значению подполосы, выполняется нелинейное преобразование (например, логарифмическое преобразование) для спектра входного сигнала таким образом, что большие значения мощности спектра усиливаются, и затем выполняется сглаживание в области частоты. После этого выполняется обратное нелинейное преобразование (например, обратное логарифмическое преобразование), и вычисляется сглаженный спектр в каждой подполосе. На фиг.1D показан сглаженный спектр каждой подполосы по спектру входного сигнала, показанному пунктирными линиями.
В результате такой обработки становится возможным выполнить сглаживание спектра в логарифмической области при уменьшении деградации качества речи и путем существенного уменьшения объема вычислительной обработки. Далее будет описана конфигурация устройства сглаживания спектра, обеспечивающего описанное выше преимущество, в соответствии с вариантом осуществления настоящего изобретения.
Устройство сглаживания спектра в соответствии с настоящим вариантом осуществления сглаживает входной спектр и выводит спектр после сглаживания (ниже называется "сглаженным спектром") как выходной сигнал. Более конкретно, устройство сглаживания спектра делит входной сигнал через каждые N выборок (где N представляет собой натуральное число) и выполняет обработку сглаживания для каждого кадра, используя N выборок как один кадр. Здесь входной сигнал, подвергаемый обработке сглаживания, представлен как "xn" (n=0, N-1).
На фиг.2 показана конфигурация основных частей устройства 100 сглаживания спектра в соответствии с настоящим вариантом осуществления.
Устройство 100 сглаживания спектра, показанное на фиг.2, в основном, сформировано из блока 101 обработки преобразования время-частота, блока 102 разделения подполосы, блока 103 вычисления репрезентативного значения, блока 104 нелинейного преобразования, блока 105 сглаживая и блока 106 обратного нелинейного преобразования.
Блок 101 обработки преобразования время-частоты применяет быстрое преобразование Фурье (FFT, БПФ) для входного сигнала xn и позволяет находить спектр S1(k) частотного компонента (ниже называется "входным спектром").
Затем блок 101 обработки преобразования время-частота выводит входной спектр S1(k) в блок 102 разделения подполос.
Блок 102 разделения подполос делит входной спектр S1(k), принятый как входной сигнал из блока 101 обработки преобразования время-частота, на P подполос (где P представляет собой целое число, равное или большее 2). Теперь ниже будет описан случай, когда блок 102 разделения подполос разделяет входной спектр S1(k) таким образом, что каждая подполоса содержит одинаковое количество выборок. Количество выборок может изменяться между подполосами. Блок 102 разделения подполос выводит спектры, разделенные по подполосам (ниже называются "спектрами подполосы"), в блок 103 вычисления репрезентативного значения.
Блок 103 вычисления репрезентативного значения вычисляет репрезентативное значение для каждой подполосы входного спектра, разделенного на подполосы, принятые как входной сигнал, из блока 102 разделения подполос, и выводит репрезентативное значение, вычисленное для подполосы, в блок 104 нелинейного преобразования. Обработка в блоке 103 вычисления репрезентативного значения будет подробно описана ниже.
На фиг.3 показана внутренняя конфигурация блока 103 вычисления репрезентативного значения. Блок 103 вычисления репрезентативного значения, показанный на фиг.3, имеет блок 201 вычисления среднего арифметического и блок 202 вычисления среднего геометрического.
Вначале блок 102 разделения подполосы выводит спектр подполосы в блок 201 вычисления среднего арифметического.
Блок 201 вычисления среднего арифметического делит каждую подполосу спектра подполосы, принятого как входной сигнал, на Q подгрупп, состоящих из подгруппы 0, подгруппы Q-1 и т.д. (где Q представляет собой целое число, равное или большее 2). Ниже будет описан случай, где каждая из Q подгрупп сформирована с R выборками (R представляет собой целое число, равное или большее 2). Хотя ниже будет описан случай, где все Q подгрупп сформированы с R выборками, количество выборок может изменяться между подгруппами.
На фиг.4 показана примерная конфигурация подполос и подгрупп. На фиг.4 показан, в качестве примера, случай, когда количество выборок, которые должны составить одну подполосу, равно восьми, количество подгрупп Q, которые должны составлять одну подполосу, равно двум и количество выборок R в одной подгруппе равно четырем.
Далее для каждой из Q подгрупп, блок 201 вычисления среднего арифметического рассчитывает среднее арифметическое абсолютных значений спектров (коэффициентов FFT), содержащихся в каждой подгруппе, используя уравнение 1.
В уравнении 1, AVE1q представляет собой среднее арифметическое абсолютных значений спектров, содержащихся в подгруппе q, и BSq представляет индекс ведущей выборки в подгруппе q.
Далее блок 201 вычисления среднего арифметического выводит спектры среднего арифметического значения, вычисленные по подполосе, AVE1q (q=0~Q-1) (спектры среднего арифметического значения подполосы), в блок 202 вычисления среднего геометрического значения.
Блок 202 вычисления среднего геометрического значения умножает спектры AVE1q (q=0~Q-1) среднего арифметического значения всех подполос, принятых как входной сигнал из блока 201 вычисления среднего арифметического значения, как показано в уравнении 2, и рассчитывает репрезентативный спектр, AVE2P (p=0~P-1), для каждой подполосы.
В уравнении 2 P представляет собой количество подполос.
Затем блок 202 вычисления среднего геометрического значения выводит вычисленные спектры AVE2P (p=0~P-1) репрезентативного значения подполосы в блок 104 нелинейного преобразования.
Блок 104 нелинейного преобразования применяет нелинейное преобразование, имеющее характеристику выделения больших репрезентативных значений, в спектры AVE2P репрезентативного значения подполосы, принятые как входные сигналы, из блока 202 вычисления среднего геометрического значения, используя уравнение 3, и вычисляет спектры логарифмического репрезентативного значения первой подполосы, AVE3P (p=0~P-1). Здесь будет описан случай, в котором логарифмическое преобразование выполняется как обработка нелинейного преобразования.
Далее вычисляется спектр логарифмического репрезентативного значения второй подполосы, AVE4P (p=0~P-1), вычисленного путем умножения вычисленного спектра логарифмического репрезентативного значения первой подполосы, AVE3P (p=0~P-1) на обратное значение количества подгрупп Q, используя уравнение 4.
Хотя при обработке в уравнении 2 в блоке 202 вычисления среднего геометрического значения спектры AVE1p среднего арифметического значения подполосы отдельных подполос просто умножаются, при обработке в соответствии с уравнением 4 в блоке 104 нелинейного преобразования вычисляется среднее геометрическое значение. В соответствии с настоящим вариантом осуществления выполняется преобразование в логарифмическую область с использованием уравнения 3, и затем выполняется умножение на обратное значение количества подгрупп Q с использованием уравнения 4. Таким образом, вычисление корня, с которым связаны большие объемы вычислений, может быть заменено простым делением. Кроме того, когда количество подгрупп Q, постоянно, вычисление корня может быть заменено простым умножением с предварительным вычислением обратного значения Q, чтобы можно было дополнительно уменьшить объем вычислений.
Затем блок 104 нелинейного преобразования выводит спектры AVE4p (p=0~P-1) логарифмического репрезентативного значения второй подполосы, вычисленные в соответствии с уравнением 4, в блок 105 сглаживания.
Согласно фиг.2, блок 105 сглаживания выполняет сглаживание спектров AVE4P (p=0~P-1) логарифмического репрезентативного значения второй подполосы, принятых как входной сигнал из блока 104 нелинейного преобразования, в частотной области, используя уравнение 5, и вычисляет сглаженные логарифмические спектры AVE5P (p=0~P-1).
Уравнение 5 представляет обработку фильтрации сглаживания, и в этом уравнении 5 MA_LEN представляет собой порядок фильтрации сглаживания, и Wi представляет собой вес сглаживающего фильтра.
Кроме того, в уравнении 5 предусмотрен способ вычисления логарифмически сглаженного спектра, когда индекс p подполосы представляет собой p>=MA_LEN-1/2 и p<=P-1-MA_LEN-1/2. Когда индекс p подполосы выше или близок последнему спектры сглаживаются с использованием уравнения 6 и уравнения 7, учитывая граничные условия.
Кроме того, блок 105 сглаживания выполняет сглаживание на основе простого скользящего среднего значения, в качестве обработки сглаживания, используя обработку фильтрации сглаживания, как описано выше (когда Wi равно 1 для всех i, сглаживание выполняется на основе скользящего среднего значения). Для функции окна (веса) можно использовать окно Ханнинга или другие функции окна.
Далее блок 105 сглаживания выводит вычисленные сглаженные спектры AVE5P (p=0~P-1в) в блок 106 обратного нелинейного преобразования.
Блок 106 обратного нелинейного преобразования выполняет обратное логарифмическое преобразование как обратное нелинейное преобразование для логарифмических сглаженных спектров AVE5P (p=0~P-1), принятых как входные сигналы из блока 105 сглаживания. Блок 106 обратного нелинейного преобразования выполняет обратное логарифмическое преобразование для логарифмически сглаженных спектров AVE5 P (p=0~P-1), используя уравнение 8, и вычисляет сглаженный спектр AVE6P (p=0~P-1).
Кроме того, блок 106 обратного нелинейного преобразования вычисляет сглаженный спектр всех выборок, используя значения выборок в каждой подполосе как значения спектра AVE6 P (p=0~P-1), сглаженного в линейной области.
Блок 106 обратного нелинейного преобразования выводит значения сглаженного спектра для всех выборок как результат обработки устройства 100 сглаживания спектра.
Устройство сглаживания спектра и способ сглаживания спектра в соответствии с настоящим изобретением были описаны выше.
Как описано выше, в соответствии с настоящим вариантом осуществления, блок 102 разделения подполосы делит входной спектр на множество подполос, блок 103 вычисления репрезентативного значения вычисляет репрезентативное значение на подполосу, используя среднее арифметическое значение или среднее геометрическое значение, блок 104 нелинейного преобразования выполняет нелинейное преобразование, имеющее характеристику усиления больших значений для каждого репрезентативного значения, и блок 105 сглаживания сглаживает репрезентативные значения, подвергнутые нелинейному преобразованию, на каждую подполосу в области частоты.
Таким образом, все выборки спектра делятся на множество подполос, и для каждой подполосы находится репрезентативное значение путем комбинирования среднего арифметического с умножением или среднего геометрического, и выполняется последующее сглаживание после того, как репрезентативное значение подвергнуто нелинейному преобразованию, так что становится возможным поддерживать хорошее качество речи и существенно уменьшить объем обработки при вычислениях.
Как описано выше, в настоящем изобретении используется конфигурация для вычисления репрезентативных значений подполос путем комбинирования среднего арифметического значения и среднего геометрического значения выборок в подполосах, так что становится возможным предотвратить деградацию качества речи, которая может произойти из-за вариаций масштаба значений выборки в подполосе, когда средние значения в линейной области используют просто как репрезентативные значения подполос.
Хотя быстрое преобразование Фурье (FFT) пояснялось выше как пример обработки преобразования время-частота в соответствии с настоящим вариантом выполнения, настоящее изобретение никоим образом не ограничено этим, и другие способы преобразования время-частота помимо FFT в равной степени могут быть применимы. Например, в соответствии с патентным документом 1, после вычисления перцептуальных значений маскирования (см. фиг.2), модифицированное дискретное косинусное преобразование (MDCT), а не FFT, используется для вычисления частотных компонентов (спектра). Таким образом, настоящее изобретение применимо для конфигураций, в которых используется MDCT и другие способы преобразования время-частота в блоке обработки преобразования время-частота.
В описанной выше конфигурации блок 202 вычисления среднего геометрического значения умножает спектр AVE1q (g=0~Q-1) среднего арифметического значения и не вычисляет корни. То есть, строго говоря, блок 202 вычисления среднего геометрического значения не вычисляет средние геометрические значения, поскольку, как пояснялось выше, в блоке 104 нелинейного преобразования выполняется преобразование в логарифмическую область, используя уравнение 3 в качестве обработки нелинейного преобразования, с последующим умножением на обратную величину от количества подгрупп Q, используя уравнение 4, так что становится возможным заменить вычисление корня простым делением (умножением) и, как следствие, уменьшить объем вычислений.
Следовательно, настоящее изобретение не обязательно ограничивается описанной выше конфигурацией. Настоящее изобретение в равной степени применимо, например, к конфигурации для умножения, в блоке 202 вычисления среднего геометрического значения, спектров AVE1q (q=0~Q-1) среднего арифметического значения на значения спектров среднего арифметического значения для каждой подполосы, с последующим вычислением корня из количества подгрупп и вывода вычисленного корня в блок 104 нелинейного преобразования, в качестве спектров AVE2P (p=0~P-1) репрезентативного значения подполосы. В любом случае, блок 105 сглаживания выполнен с возможностью получения репрезентативного значения после обработки нелинейного преобразования на подполосу. В этом случае, вычисление уравнения 4 в блоке 104 нелинейного преобразования может быть исключено.
Выше был описан случай в настоящем варианте осуществления, когда репрезентативное значение каждой подполосы вычисляется так, что вначале выполняется вычисление среднего арифметического значения подгруппы, и затем определяется среднее геометрическое значение среди значений среднего арифметического значения по всем подгруппам в подполосе. Однако настоящее изобретение ни коим образом не ограничено этим и в равной степени применимо для случая, когда, например, количество выборок, которые составляют подгруппу, равно единице, то есть, для случая, когда среднее геометрическое значение для всех выборок в подполосе используется как репрезентативное значение подполосы, без вычисления среднего арифметического значения в каждой подгруппе. В такой конфигурации снова, как описано выше, вместо вычисления точного среднего геометрического значения, можно вычислять среднее геометрическое значение в логарифмической области путем выполнения нелинейного преобразования с последующим выполнением умножения на обратную величину количества подгрупп.
В приведенном выше описании все выборки в подполосе имеют одно и то же значение спектра в блоке 106 обратного нелинейного преобразования. Однако настоящее изобретение никоим образом не ограничено этим, и в равной степени возможно обеспечить блок обработки обратного сглаживания после блока 106 обратного нелинейного преобразования, так что блок обработки обратного сглаживания может назначать веса для выборок в каждой подполосе и выполнять обработку обратного сглаживания. Такая обработка обратного сглаживания не обязательно должна быть полностью противоположной обработке, выполняемой в блоке 105 сглаживания.
Хотя в приведенном выше описании был описан случай, когда блок 104 нелинейного преобразования выполняет обратное логарифмическое преобразование как обработку обратного нелинейного преобразования, и блок 106 обратного нелинейного преобразования выполняет обратное логарифмическое преобразование как обратную обработку для обработки нелинейного преобразования, это никоим образом не является ограничением, и в равной степени возможно использовать степенное преобразование и другие варианты и выполнять обратную обработку для нелинейного преобразования как обратную обработку для обработки нелинейного преобразования. Однако, учитывая, что вычисление корня может быть заменено простым делением (умножением) с использованием умножения на обратное число количества подгрупп Q по уравнению 4, тот факт, что блок 104 нелинейного преобразования выполняет логарифмическое преобразование как нелинейное преобразование, имеет преимущество, благодаря уменьшению объема вычислений. Следовательно, если обработка, которая отличается от обработки логарифмического преобразования, будет выполнена как обработка нелинейного преобразования, то в равной степени становится возможным вычислять репрезентативное значение в подполосе путем вычисления среднего геометрического значения для средних арифметических значений подгрупп и применения нелинейной обработки для этих репрезентативных значений.
Кроме того, что касается количества подполос и количества подгрупп, если, например, частота выборки входного сигнала составляет 32 кГц, и один кадр имеет длину 20 мс, то есть, если входной сигнал состоит из 640 выборок, становится возможным, например, установить количество подполос равным восьмидесяти, количество подгрупп равным двум, количество выборок на подгруппу равным четырем и порядок фильтрации сглаживания равным, например, семи. Настоящее изобретение никоим образом не ограничено этими установками и в равной степени применимо для случаев, где применяются другие значения.
Устройство сглаживания спектра и способ сглаживания спектра в соответствии с настоящим изобретением применимы для любых и всех устройств или компонентов сглаживания спектра, которые выполняют сглаживание в спектральной области, включая в себя устройство кодирования речи и способ кодирования речи, устройство декодирования речи и способ декодирования речи, устройство распознавания речи и способ распознавания речи. Например, хотя в соответствии с технологией расширения полосы пропускания, раскрытой в патентном документе 2, обработка для вычисления спектральной огибающей из LPC (ЛПК, линейные предикативные коэффициенты) и, на основе вычисленной таким образом спектральной огибающей, удаление спектральной огибающей из спектра низкой полосы используется для вычисления параметров для генерирования спектра высокой полосы, в равной степени можно использовать сглаженный спектр, вычисленный путем применения способа сглаживания спектра в соответствии с настоящим изобретением, для спектра низкой полосы вместо спектральной огибающей, используемой при обработке удаления спектральной огибающей в патентном документе 2.
Кроме того, хотя конфигурация пояснялась на основе настоящего варианта осуществления, где входной спектр S1(k) разделяется на P подполос (где P представляет собой целое число, равное или большее 2), и все они имеют одинаковое количество выборок, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо для конфигурации, в которой количество выборок изменяется между подполосами. Например, возможна конфигурация, в которой подполосы разделяются таким образом, что подполоса на стороне низкой полосы имеет меньшее количество выборок, а подполоса на стороне высокой полосы имеет большее количество выборок. Вообще говоря, при восприятии человеком, разрешение частот понижается на стороне высокой полосы, так что более эффективное сглаживание спектра становится возможным при использовании описанной выше конфигурации. То же относится к подгруппам, которые составляют каждую подполосу. Хотя выше был описан случай в соответствии с настоящим вариантом осуществления, где все Q подгрупп сформированы с R выборками, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо к конфигурациям, где подгруппы разделяются таким образом, что подгруппы на стороне низкой полосы имеют меньшее количество выборок, а подгруппы на стороне высокой полосы имеют большее количество выборок.
Хотя взвешенное скользящее среднее значение было описано как пример обработки сглаживания в соответствии с настоящим вариантом осуществления, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо к различной обработке сглаживания. Например, как описано выше, в конфигурации, в которой количество выборок изменяется между подполосами (то есть, количество выборок увеличивается в более высокой полосе), становится возможным сделать количество выводов в фильтре скользящего среднего значения не одинаковым между левой и правой сторонами, и увеличить количество выводов в более высокой полосе. Когда количество выборок увеличивается в подполосах в высокой полосе, становится возможным выполнить перцептуально более адекватную обработку сглаживания путем использования фильтра скользящего среднего значения, имеющего малое количество выводов на стороне более высокой полосы. Настоящее изобретение применимо для случаев использования фильтра скользящего среднего, который выполнен асимметрично между левой и правой сторонами и имеет большее количество выводов на стороне высокой полосы.
Вариант 2 осуществления
Теперь будет описана конфигурация в соответствии с настоящим вариантом осуществления, где обработка сглаживания спектра, поясненная в варианте 1 осуществления, используется при предварительной обработке, после кодирования для расширения полосы, раскрытого в патентном документе 2.
На фиг.5 показана блок-схема, представляющая конфигурацию системы связи, имеющую устройство кодирования и устройство декодирования в соответствии с вариантом 2 осуществления. На фиг.5, система связи имеет устройство кодирования и устройство декодирования, которые осуществляют связь через канал передачи. Устройство кодирования и устройство декодирования обычно установлены в устройстве базовой станции и в устройстве терминала связи для использования.
Устройство 301 кодирования делит входной сигнал через каждые N выборок (где N представляет собой натуральное число), и выполняет кодирование на основе кадра, используя N выборок как один кадр. Входной сигнал, подвергаемый кодированию, представлен как xn (n=0, N-1). n представляет собой (n+1)-ый компонент сигнала во входном сигнале, разделенном на каждые N выборок. Входная информация после выполнения кодирования (кодированная информация) передается в устройство 303 декодирования через канал 302 передачи.
Устройство 303 декодирования принимает кодированную информацию, передаваемую из устройства 301 кодирования через канал 302 передачи, и в результате ее декодирования получает выходной сигнал.
На фиг.6 показана блок-схема, представляющая внутреннюю конфигурацию основных частей устройства 301 кодирования. Если частота выборки входного сигнала представляет собой SRinput, блок 311 обработки с понижением частоты выборки выполняет понижение частоты для частоты выборки входного сигнала с SRinput до SRbase (SRbase <SRinput) и выводит входной сигнал после понижения частоты в блок 312 кодирования первого уровня как входной сигнал с пониженной частотой выборки.
Блок 312 кодирования первого уровня генерирует кодированную информацию первого уровня путем кодирования входного сигнала после понижения частоты выборки, принятого как вход из блока 311 обработки с понижением частоты выборки, используя способ кодирования речи в соответствии со схемой CELP (ЛПК, линейное прогнозирование с кодовым возбуждением), и выводит сгенерированную кодированную информацию первого уровня в блок 313 декодирования первого уровня и в блок 317 интегрирования кодированной информации.
Блок 313 декодирования первого уровня генерирует декодированный сигнал первого уровня путем декодирования кодированной информации первого уровня, принятой как входной сигнал из блока 312 кодирования первого уровня, используя, например, способ декодирования речи CELP, и выводит сгенерированный декодированный сигнал первого уровня в блок 314 обработки с повышением частоты выборки.
Блок 314 обработки с повышением частоты выборки выполняет повышение частоты для частоты выборки входного сигнала, принятого как вход из блока 313 декодирования первого уровня, с SRbase до SRinput и выводит декодированный сигнал первого уровня после повышения частоты в блок 315 обработки преобразования время-частота как декодированный сигнал первого уровня с повышением частоты.
Блок 318 задержки вводит задержку заданной длины во входной сигнал. Эта задержка предназначена для коррекции задержки по времени в блоке 311 обработки с понижением частоты в блоке 312 кодирования первого уровня, в блоке 313 декодирования первого уровня и в блоке 314 обработки с повышением частоты выборки.
Блок 315 обработки информации преобразования время-частота имеет внутри буфер buf1n и buf2n (n=0,..., N-1) и применяет модифицированное дискретное косинусное преобразование (MDCT) к входному сигналу xn и к декодированному сигналу yn первого уровня с повышением частоты выборки, принятому как входной сигнал из блока 314 обработки с повышением частоты выборки.
Далее будет описана обработка ортогонального преобразования в блоке 315 обработки преобразования время-частота как этап его вычисления и вывод данных во внутренние буферы.
Вначале блок 315 обработки преобразования время-частота инициализирует buf1n и buf2n, используя исходное значение "0" в соответствии с уравнением 9 и уравнением 10, представленными ниже.
Далее блок 315 обработки преобразования время-частота выполняет MDCT для входного сигнала xn и декодированного yn первого уровня c повышением частоты выборки и находит коэффициент S2(k) MDCT входного сигнала (ниже называется "входным спектром") и коэффициент S1(k) MDCT декодированного сигнала yn первого уровня c повышением частоты выборки (ниже называется "декодированным спектром первого уровня").
K представляет собой индекс каждой выборки в кадре. Блок 315 обработки преобразования время-частота находит xn', которое представляет собой вектор, комбинирующий входной сигнал xn и буфер buf1n из уравнения 13, представленного ниже. Блок 315 обработки преобразования время-частота также находит yn', который представляет собой вектор, комбинирующий декодированный сигнал yn первого уровня с повышением частоты выборки и буфер buf2 n.
Далее блок 315 обработки преобразования время-частота обновляет буфер buf1n и buf2n, используя уравнение 15 и уравнение 16.
Затем блок 315 обработки преобразования время-частота выводит входной спектр S2(k) и декодированный спектр S1(k) первого уровня в блок 316 кодирования второго уровня.
Блок 316 кодирования второго уровня генерирует кодированную информацию второго уровня, используя входной спектр S2(k) и декодированный спектр S1(k) первого уровня, принятый как входной сигнал из блока 315 обработки преобразования время-частота, и выводит сгенерированную кодированную информацию второго уровня в блок 317 интегрирования кодированной информации. Детальное описание блока 316 кодирования второго уровня будет представлено ниже.
Блок 317 интегрирования кодированной информации интегрирует кодированную информацию первого уровня, принятую как входной сигнал из блока 312 кодирования первого уровня, и кодированную информацию второго уровня, принятую как входной сигнал из блока 316 кодирования второго уровня, и, в случае необходимости, присоединяет код коррекции ошибки передачи к коду источника интегрированной информации и выводит результат в канал 302 передачи как кодированную информацию.
Далее со ссылкой на фиг.7 будет описана конфигурация основных внутренних частей блока 316 кодирования второго уровня, показанного на фиг.6.
Блок 316 кодирования второго уровня имеет блок 360 разделения полосы частот, блок 361 сглаживания спектра, блок 362 установки состояния фильтра, блок 363 фильтрации, блок 364 поиска, блок 365 установки коэффициента тона, блок 366 кодирования коэффициента усиления и блок 367 мультиплексирования, и эти блоки выполняют следующие операции.
Блок 360 разделения полосы делит часть верхней полосы (FL<=k<FH) входного спектра S2(k), принятого как входной сигнал из блока 315 обработки преобразования время-частота, на P подполос SB P (p=0, 1,..., P-1). Затем блок 360 разделения полосы выводит ширину полосы BWP (p=0, 1,..., P-1) и ведущий индекс BSp (p=0, 1..., P-1) (FL<=BSP<FH) каждой разделенной подполосы в блок 363 фильтрации, блок 364 поиска и блок 367 мультиплексирования как информацию разделения полосы. Часть во входном спектре S2(k), соответствующая подполосе SBP, будет называться спектром S2 p(k) подполосы (BSp<=k<BSp+BW p).
Блок 361 сглаживания спектра применяет обработку сглаживания к декодированному спектру S1(k) первого уровня (0<=k<FL), принятому как входной сигнал из блока 315 обработки преобразования время-частота, выводит сглаженный декодированный спектр S1'(k) первого уровня (0<=k<FL) после обработки сглаживания в блок 362 установки состояния фильтра.
На фиг.8 показана внутренняя конфигурация блока 361 сглаживания спектра. Блок 361 сглаживания спектра, в основном, построен на основе блока 102 разделения на подполосы, блока 103 вычисления репрезентативного значения, блока 104 нелинейного преобразования, блока 105 сглаживая и блока 106 обратного нелинейного преобразования. Эти компоненты являются теми же, что и компоненты, описанные в варианте 1 осуществления, и обозначены теми же ссылочными позициями без пояснений.
Блок 362 установки состояния фильтра устанавливает сглаженный декодированный спектр S1'(k) первого уровня (0<=k<FL), принятый как входной сигнал из блока 361 сглаживания спектра, как внутреннее состояние фильтра для использования в последующем блоке 363 фильтрации. Сглаженный декодированный спектр S1'(k) первого уровня размещается как внутреннее состояние фильтра (состояние фильтра) в полосе 0<=k<FL спектра S(k) во всем диапазоне частот в блоке 363 фильтрации.
Блок 363 фильтрации, имеющий многоотводный фильтр тона, фильтрует декодированный спектр первого уровня на основе состояния фильтра, установленного в блоке 362 установки состояния фильтра, при этом коэффициент тона принимается как входной сигнал из блока 365 установки коэффициента тона, и информация разделения полосы принимается как входной сигнал из блока 360 разделения полосы, и вычисляет оценки спектра S2p'(k) (BSp <=k<BSp+BWp) (p=0, 1, P-1) каждой подполосы SBP (p=0, 1, P-1) (ниже "оценка спектра подполосы SBP"). Блок 363 фильтрации выводит оценку спектра S2p'(k) подполосы SBP в блок 364 поиска. Детали обработки фильтрации в блоке 363 фильтрации будут описаны ниже. Количество выводов может представлять собой любое значение (целое число), равное или большее 1.
На основе информация разделения полосы, принятой как вход из блока 360 разделения полосы, блок 364 поиска вычисляет степень сходства между оценкой спектра S2p'(k) подполосы SBP, принятой как вход из блока 363 фильтрации, и каждым спектром S2p(k) подполосы в более высокой полосе (FL<=k<FH) входного спектра S2(k), принятого как входной сигнал из блока 315 обработки преобразования время-частота. Эта степень сходства вычисляется, например, с использованием вычисления корреляции. Обработка в блоке 363 фильтрации, блоке 364 поиска и в блоке 365 установки коэффициента тона составляет обработку поиска в замкнутом контуре для подполосы, и в каждом замкнутом контуре блок 364 поиска вычисляет степень сходства в отношении каждого коэффициента тона путем различной модификации коэффициента T тона, принятого как вход из блока 365 установки коэффициента тона в блок 363 фильтрации. В каждом замкнутом контуре подполосы или, например, в замкнутом контуре, соответствующем подполосе SBP, блок 364 поиска находит оптимальный коэффициент Tp' тона для максимизации степени сходства (в диапазоне Tmin~Tmax) и выводит P оптимальных коэффициентов тона в блок 367 мультиплексирования. Блок 364 поиска вычисляет часть полосы декодированного спектра первого уровня для восстановления каждой подполосе SBP с использованием каждого оптимального коэффициента Tp' тона. Затем блок 364 поиска выводит оценку спектра S2p'(k), соответствующую каждому оптимальному коэффициенту Tp ' тона (p=0, 1, P-1), в блок 366 кодирования усиления. Детали обработки поиска для оптимального коэффициента Tp' тона (p=0, 1, P-1) в блоке 364 поиска будут описаны ниже.
На основе управления, выполняемого блоком 364 поиска, когда блок 365 установки коэффициента тона выполняет обработку поиска в замкнутом контуре, соответствующую первой подполосе SB0, с блоком 363 фильтрации и блоком 364 поиска, он постепенно модифицирует коэффициент T тона в заданном диапазоне поиска между Tmin и Tmax и последовательно передает выходные сигналы в блок 363 фильтрации.
Блок 366 кодирования усиления рассчитывает информацию усиления в отношении части более высокой полосы (FL<=k<FH) входного спектра S2(k), принятого как входной сигнал из блока 315 обработки преобразования время-частота. Более конкретно, блок 366 кодирования усиления делит полосу частот FL<=k<FH на J подполос и находит спектральную мощность входного спектра S2(k) для подполосы. В этом случае спектральная мощность Bj для (j+1)-ой подполосы будет представлена уравнением 17, приведенным ниже.
В уравнении 17 BLj представляет собой минимальную частоту (j+1)-ой подполосы, и BHj представляет собой максимальную частоту (j+1)-ой подполосы. Блок 366 кодирования усиления формирует оценку спектра S2'(k) более высокой полосы входного спектра путем соединения оценки спектра S2p'(k) (p=0, 1,..., P-1) каждой подполосы, принятой как вход из блока 364 поиска, для продолжения в частотной области. Затем блок 366 кодирования усиления вычисляет спектральную мощность B'j оценки спектра S2'(k) для подполосы, как и в случае вычисления спектральной мощности входного спектра S2(k), используя уравнение 18, приведенное ниже. Затем блок 366 кодирования усиления вычисляет величину вариации Vj спектральной мощности оценки спектра S2'(k) на подполосу в отношении входного спектра S2(k), используя уравнение 19, приведенное ниже.
Затем блок 366 кодирования усиления кодирует величину вариации Vj и выводит индекс, соответствующий кодированной величине вариации VQj, в блок 367 мультиплексирования.
Блок 367 мультиплексирования выполняет мультиплексирование информации разделения полосы, принятой как вход из блока 360 разделения полосы, оптимального коэффициента Tp' тона для каждой подполосы SBP (p=0, 1, P-1), принятого как входной сигнал из блока 364 поиска, и индекса величины VQ j вариации, принятого как входной сигнал из блока 366 кодирования усиления, как кодированная информация второго уровня, и выводит эту кодированную информацию второго уровня в блок 317 интегрирования кодированной информации. В равной степени возможно вводить T p' и индекс VQj непосредственно в блок 317 интегрирования кодированной информации и мультиплексировать их с кодированной информацией первого уровня в блоке 317 интегрирования кодированной информации.
Детали обработки фильтрации в блоке 363 фильтрации, показанном на фиг.7, будут подробно описаны со ссылкой на фиг.9.
Используя состояние фильтра, принятое как входной сигнал из блока 362 установки состояния фильтра, коэффициент T тона, принятый как входной сигнал из блока 365 установки коэффициента тона, и информацию разделения полосы, принятую как входной сигнал из блока 360 разделения полосы, блок 363 фильтрации генерирует оценку спектра в полосе BSp <=k<BSp+BWp (p=0, 1, P-1) подполосы SBP (p=0, 1, P-l). Функция F(z) передачи фильтра, используемого в блоке 363 фильтрации, представлена уравнением 20, показанным ниже.
Ниже, с использованием SB P в качестве примера, поясняется процесс генерирования оценки спектра S2p'(k) для спектра S2p (k) подполосы.
В уравнении 20 T представляет собой коэффициент тона, предоставленный из блока 365 установки коэффициента тона, и i представляет собой коэффициент фильтра, заранее сохраненный в нем. Например, когда количество выводов равно трем, кандидаты коэффициента фильтра включают в себя, например, ( -1, 0, 1)=(0,1, 0,8, 0,1). Другие значения, такие как ( -1, 0, 1)=(0,2, 0,6, 0,2), (0,3, 0,4, 0,3), также применимы. Значения ( -1, 0, 1)=(0,0, 1,0, 0,0) также применимы, и, в этом случае часть полосы 0<=k<FL декодированного спектра первого уровня не будет модифицирована по форме и будет скопирована, как она есть, в полосе BSp<=k<BSp +BWp. М=1 в уравнении 20. М представляет собой индикатор, относящийся к количеству выводов.
Сглаженный декодированный спектр S1'(k) первого уровня размещается в полосе 0<=k<FL спектра S(k) всей полосы частот в блоке 363 фильтрации как внутреннее состояние фильтра (состояние фильтра).
В полосе BSp<=k<BSp+BW p для S(k) оценка спектра S2p'(k) подполосы SBP размещается в результате обработки фильтрации, состоящей из следующих этапов. В принципе, для S2p '(k) подставляется спектр S(k-T), имеющий частоту T меньше, чем эта частота k. Для улучшения сглаженности спектра на практике находят спектр i · S (k-T+i), получаемый в результате умножения ближайшего спектра S(k-T+i), то есть отстоящий на i от спектра S(k-T), на заданный коэффициент i фильтра, в отношении всех i, и спектр, суммирующий спектры всех i, подставляется в S2p'(k). Эта обработка представлена уравнением 21, показанным ниже.
Оценка спектра S2p'(k) в BSp<=k<BSp+BWp вычисляется путем выполнения описанных выше вычислений в порядке от наименьшей частоты и изменения k в диапазоне BSp<=k<BS p+BWp.
Описанная выше обработка фильтрации выполняется с использованием сброса в ноль S(k) в диапазоне BSp<=k<BSP+BWp каждый раз, когда коэффициент T тона предоставляется из блока 365 установки коэффициента тона.
То есть, S(k) вычисляется каждый раз, когда коэффициент T тона меняется, и выводится в блок 364 поиска.
На фиг.10 показана блок-схема последовательности операций, представляющая этап обработки для поиска оптимального коэффициента Tp' тона для подполосы SBP в блоке 364 поиска. Блок 364 поиска выполняет поиск оптимального коэффициента Tp' (p=0, 1, , P-1) тона в каждой подполосе SBP (p=0, 1, P-1) путем повторения этапов, показанных на фиг.10.
Вначале блок 364 поиска инициирует минимальную степень сходства Dmin, которая представляет собой переменную для сохранения минимального значения степени сходства, в "+ " (ST 100). Затем, в соответствии с уравнением 22, представленным ниже, при заданном коэффициенте тона, блок 364 поиска рассчитывает степень сходства D между частью более высокой полосы (FL<=k<FH) входного спектра S2(k) и оценкой спектра S2p'(k) (ST 120).
В уравнении 22 М' представляет собой количество выборок после вычисления степени сходства D и может принимать произвольные значения, равные или меньшие, чем ширина полосы каждой подполосы. S2p"(k) не присутствует в уравнении 22, но представлено с использованием BSP и S2"(k).
Далее блок 364 поиска определяет, является или нет вычисленная степень сходства D меньшей, чем минимальная степень сходства Dmin (ST 130). Если степень сходства D, вычисленная на этапе St 120, меньше, чем минимальная степень сходства Dmin ("ДА" на ST 130), блок 364 поиска заменяет степень сходства D на минимальную степень сходства Dmin (ST 140). С другой стороны, если степень сходства D, вычисленная на ST 120, равна или больше, чем минимальная степень сходства Dmin ("НЕТ" на ST 130), блок 364 поиска определяет, была ли или нет закончена обработка в диапазоне поиска. То есть, блок 364 поиска определяет, была или нет вычислена степень сходства в отношении всех коэффициентов тона в диапазоне поиска в ST 120 в соответствии с уравнением 22, представленным выше (ST 150). Блок 364 поиска снова возвращается на ST 120, когда обработка не закончена в диапазоне поиска ("НЕТ" на ST 150). Затем блок 364 поиска вычисляет степень сходства в соответствии с уравнением 22 для разных коэффициентов тона на основе случая вычисления степени сходства в соответствии с уравнением 22 на более раннем этапе ST 120. С другой стороны, когда обработка закончена в диапазоне поиска ("ДА" на ST 150), блок 364 поиска выводит коэффициент T тона, который соответствует минимальной степени сходства, в блок 367 мультиплексирования, как оптимальный коэффициент Tp' тона (ST 160).
Ниже описано устройство 303 декодирования, показанное на фиг.5.
На фиг.11 показана блок-схема, представляющая конфигурацию внутренних основных частей устройства 303 декодирования.
На фиг.11 блок 331 демультиплексирования кодированной информации выполняет демультиплексирование между кодированной информацией первого уровня и кодированной информацией второго уровня, в кодированной информации, принятой как входной сигнал, выводит кодированную информацию первого уровня в блок 332 декодирования первого уровня и выводит кодированную информацию второго уровня в блок 335 декодирования второго уровня.
Блок 332 декодирования первого уровня декодирует кодированную информацию первого уровня, принятую как входной сигнал, из блока 331 демультиплексирования кодированной информации, и выводит сгенерированный декодированный сигнал первого уровня в блок 333 обработки с повышением частоты выборки. Операции блока 332 декодирования первого уровня являются теми же, что и у блока 313 декодирования первого уровня, показанного на фиг.6, и не поясняются здесь подробно.
Блок 333 обработки с повышением частоты выборки выполняет обработку с повышением частоты выборки для частоты выборки с SRbase до SRinput относительно декодированного сигнала первого уровня, принятого как вход из блока 332 декодирования первого уровня, и выводит полученный в результате декодированный сигнал первого уровня с повышением частоты выборки в блок 334 обработки преобразования время-частота.
Блок 334 обработки преобразования время-частота применяет обработку ортогонального преобразования (MDCT) для декодированного сигнала первого уровня с повышением частоты выборки, принятого как входной сигнал из блока 333 обработки с повышением частоты выборки, и выводит коэффициент S1(k) MDCT (ниже называется "декодированным спектром первого уровня"), полученный в результате декодирования сигнала первого уровня с повышением частоты выборки, в блок 335 декодирования второго уровня. Операции блока 334 обработки преобразования время-частота являются теми же, что и обработка в блоке 315 обработки преобразования время-частота, для декодированного сигнала первого уровня с повышением частоты выборки, показанного на фиг.6, и подробно не описываются.
Блок 335 декодирования второго уровня генерирует декодированный сигнал второго уровня, включающий в себя компоненты более высокой полосы, используя декодированный спектр S1(k) первого уровня, принятый как входной сигнал, из блока 334 обработки преобразования время-частота, и кодированную информацию второго уровня, принятую как входной сигнал, из блока 331 демультиплексирования кодированной информации и выводит ее как выходной сигнал.
На фиг.12 показана блок-схема, представляющая внутреннюю конфигурацию основной части блока 335 декодирования второго уровня, показанную на фиг.11.
Блок 351 демультиплексирования демультиплексирует кодированную информацию второго уровня, принятую как входной сигнал из блока 331 демультиплексирования кодированной информации, в информацию с разделением полосы, включающую в себя ширину полосы BWP (p=0, 1, P-1) и ведущий индекс BSP (p=0, 1, P-1) (FL<=BSP<FH) каждой подполосы, оптимальный коэффициент Tp' тона (p=0, 1, P-1), который представляет собой информацию, относящуюся к фильтрации, и индекс кодированной величины вариации VQj (j=0, 1, J-1), которая представляет собой информацию, относящуюся к усилению. Кроме того, блок 351 демультиплексирования выводит информацию разделения полосы и оптимальный коэффициент Tp' тона (p=0, 1, P-1) в блок 354 фильтрации и выводит индекс кодированной величины вариации VQj (j=0, 1, J-1) в блок 355 декодирования усиления. Если в блоке 331 демультиплексирования кодированной информации информация Tp' разделения полосы (p=0, 1, P-1) и индекс VQj (j=0, 1..., J-1) являются демультиплексированными, то блок 351 демультиплексирования не нужен.
Блок 352 сглаживания спектра применяет обработку сглаживания декодированного спектра S1(k) первого уровня (0<=k<FL), принятого как входной сигнал из блока 334 обработки преобразования время-частота, и выводит сглаженный декодированный спектр S1'(k) первого уровня (0<=k<FL) в блок 353 установки состояния фильтра. Обработка в блоке 352 сглаживания спектра является той же, что и обработка в блоке 361 сглаживания спектра в блоке 316 кодирования второго уровня, и поэтому здесь не описывается.
Блок 353 установки состояния фильтра устанавливает сглаженный декодированный спектр S1'(k) первого уровня (0<=k<FL), принятый как входной сигнал из блока 352 сглаживания спектра, как состояние фильтра для использования в блоке 354 фильтрации. При вызове спектра всей полосы "S(k)" частот 0<=k<FH в блоке 354 фильтрации для удобства сглаженный декодированный спектр S1'(k) первого уровня размещается в полосе 0<=k<FL для S(k) как внутреннее состояние фильтра (состояние фильтра). Конфигурация и операции блока 353 установки состояния фильтра являются теми же, что и у блока 362 установки состояния фильтра, показанного на фиг.7, и подробно не описываются.
Блок 354 фильтрации имеет фильтр тона с множеством выводов (имеющий, по меньшей мере, два вывода). Блок 354 фильтрации фильтрует сглаженный декодированный спектр S1'(k) первого уровня на основе информации разделения полосы, принятой как входной сигнал из блока 351 демультиплексирования, состояния фильтра, установленного в блоке 353 установки состояния фильтра, коэффициента тона Tp' (p=0, 1, P-1), принятого как входной сигнал из блока 351 демультиплексирования, и коэффициента фильтра сохраненного в нем заранее, и вычисляет оценку спектра S2p'(k) (BSp<=k<BS p+BWp) (p=0, 1,..., P-1) каждой подполосы SBP (p=0, 1,..., P-1), показанной в уравнении 21, представленном выше. В блоке 354 фильтрации также используется функция фильтра, представленная уравнением 20. Обработка фильтрации и функция фильтра в этом случае представлены, как в уравнении 20 и уравнении 21, за исключением того, что T заменен на Tp'.
Блок 355 декодирования усиления декодирует индекс кодированной величины VQj вариации, принятой как входной сигнал из блока 351 демультиплексирования, и находит величину VQj вариации, которая представляет собой квантованное значение величины вариации Vj.
Блок 356 регулировки спектра находит оценку спектра S2'(k) для входного спектра путем соединения оценки спектра S2p "(k) (BSp<=k<BSp+BWp ) (p=0, 1, P-1) каждой подполосы, принятой как входной сигнала из блока 354 фильтрации в области частоты. В соответствии с уравнением 23, представленным ниже, блок 356 регулировки спектра, кроме того, умножает оценку спектра S2'(k) на величину вариации VQj каждой подполосы, принятой как входной сигнал из блока 355 декодирования усиления. С помощью этого блок 356 регулировки спектра регулирует форму спектра в полосе частот FL<=k<FH оценки спектра S2'(k), генерирует декодированный спектр S3(k) и выводит декодированный спектр S3(k) в блок 357 обработки преобразования время-частота.
Далее, в соответствии с уравнением 24, блок 356 регулировки спектра заменяет декодированный спектр S1(k) первого уровня (0<=k<FL), принятый как входной сигнал из блока 334 обработки преобразования время-частота, в нижней полосе (0<=k<FL) декодированного спектра S3(k).
Нижняя часть полосы (0<=k<FL) декодированного спектра S3(k) сформирована из декодированного спектра S1(k) первого уровня, и верхняя часть полосы (FL<=k<FH) декодированного спектра S3(k) сформирована с оценкой спектра S2"(k) после регулировки формы спектра.
Блок 357 обработки преобразования время-частота выполняет ортогональное преобразование декодированного спектра S3(k), принятого как входной сигнала из блока 356 регулировки спектра, в сигнал во временной области и выводит полученный в результате декодированный сигнал второго уровня как выходной сигнал. Здесь, если необходимо, выполняется соответствующая обработка, такая как оконная обработка или суммирование с перекрытием, для исключения разрывов, образующихся между кадрами.
Далее будет подробно описана обработка в блоке 357 обработки преобразования время-частота.
Блок 357 обработки преобразования время-частота имеет внутри буфер buf'(k) и инициализирует буфер buf'(k), как показано в приведенном ниже уравнении 25
Кроме того, в соответствии с уравнением 26, приведенным ниже, блок 357 обработки преобразования время-частота находит декодированный сигнал yn" второго уровня, используя декодированный спектр S3(k) второго уровня, принятый как входной сигнал из блока 356 регулировки спектра.
В уравнении 26, Z4(k) представляет собой вектор, комбинирующий декодированный спектр S3(k) и буфер buf'(k), как показано представленным ниже уравнением 27.
Далее блок 357 обработки преобразования время-частота обновляет буфер buf'(k) в соответствии с уравнением 28, представленным ниже.
Далее блок 357 обработки преобразования время-частота выводит декодированный сигнал yn" как выходной сигнал.
Таким образом, в соответствии с настоящим вариантом осуществления, при кодировании/декодировании для выполнения улучшения ширины полосы с использованием спектра нижней полосы и выполняя оценку спектра верхней полосы, обработка сглаживания путем комбинирования среднего арифметического и среднего геометрического выполняется для спектра нижней полосы в качестве предварительной обработки. Таким образом, становится возможным уменьшить объем вычислений без ухудшения качества декодированного сигнала.
Кроме того, хотя выше пояснялась конфигурация в соответствии с настоящим вариантом осуществления, где после кодирования улучшения ширины полосы декодированный спектр нижней полосы, полученный путем декодирования, подвергается обработке сглаживания, и оценка спектра верхней полосы выполняется с использованием сглаженного декодированного и кодированного спектра нижней полосы, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо для конфигурации, предназначенной для выполнения обработки сглаживания для спектра нижней полосы входного сигнала, оценки спектра верхней полосы по сглаженному входному спектру и с последующим кодированием спектра верхней полосы.
Устройство сглаживания спектра и способ сглаживания спектра в соответствии с настоящим изобретением никоим образом не ограничиваются описанными выше вариантами осуществления и могут быть выполнены в различных модификациях. Например, варианты осуществления могут быть скомбинированы различным образом.
Настоящее изобретение в равной степени применимо для случаев, когда программа обработки сигналов записывается на считываемом компьютером носителе записи, таком как CD и DVD, и приводится в действие и предоставляет те же рабочие эффекты и преимущества, как и в соответствии с настоящим вариантом осуществления.
Хотя примерные случаи были описаны выше для некоторых вариантов осуществления, в которых воплощено настоящее изобретение в виде аппаратных средств, настоящее изобретение может быть воплощено также с использованием программного обеспечения.
Кроме того, каждый функциональный блок, используемый в приведенном выше описании вариантов осуществления, типично может быть воплощен как LSI (большая интегральная микросхема, БИС), составленная из интегральной схемы. Он может быть представлен как отдельные микросхемы или частично или полностью может содержаться на одной микросхеме. В данном случае принимается "LSI", но ее также можно обозначить как "IC" (интегральная микросхема, ИС), "системная LSI", "супер LSI" или "ультра LSI", в зависимости от различной степени интеграции.
Кроме того, способ интеграции схем не ограничен LSI, и также возможны варианты воплощения с использованием специализированных схем или процессоров общего назначения. После изготовления LSI также возможно использование FPGA (программируемая пользователем вентильная матрица) или процессора с изменяемой конфигурацией, где можно регенерировать соединения и установки ячеек цепей в LSI.
Кроме того, если появится технология интегральных цепей для замены LSI в результате развития полупроводниковой техники или в результате развития другой технологии, естественно, также возможно осуществлять интеграцию функционального блока, используя такую технологию. Применение биотехнологии также возможно.
Раскрытия в заявке № 2008-205645 на японский патент, поданной 8 августа 2008 г., заявке № 2009-096222 на японский патент, поданной 10 апреля 2009 г., включенные в данное описание, чертежи и реферат, приведены здесь полностью по ссылке.
Промышленная применимость
Устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала передачи данных, устройство базовой станции и способ сглаживания спектра в соответствии с настоящим изобретением позволяют выполнять сглаживание в частотной области до малой величины и поэтому применимы, например, для систем пакетной передачи, систем мобильной связи и т.д.
Пояснение номеров ссылочных позиций
100 Устройство сглаживания спектра
101, 315, 334, 357 Блок обработки преобразования время-частота
102 Блок разделения на подполосы
103 Блок вычисления репрезентативного значения
104 Блок нелинейного преобразования
105 Блок сглаживания
106 Блок обратного нелинейного преобразования
201 Блок вычисления среднего арифметического
202 Блок вычисления среднего геометрического
301 Устройство кодирования
302 Канал передачи
303 Устройство декодирования
311 Блок обработки с понижением частоты
312 Блок кодирования первого уровня
313, 332 Блок декодирования первого уровня
314, 333 Блок обработки с повышением частоты выборки
316 Блок кодирования второго уровня
317 Блок интегрирования кодированной информации
318 Блок задержки
331 Блок демультиплексирования кодированной информации
335 Блок декодирования второго уровня
351 Блок демультиплексирования
352, 361 Блок сглаживания спектра
353, 362 Блок установки состояния фильтра
354, 363 Блок фильтрации
355 Блок кодирования усиления
356 Блок регулировки спектра
360 Блок разделения полосы
364 Блок поиска
365 Блок установки коэффициента тона
366 Блок кодирования усиления
367 Блок мультиплексирования
Класс G10L19/02 с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами