устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи
Классы МПК: | G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала |
Автор(ы): | ЦУДЗИНО Косуке (JP), КИКУИРИ Кей (JP), НАКА Нобухико (JP) |
Патентообладатель(и): | НТТ ДОКОМО, ИНК. (JP) |
Приоритеты: |
подача заявки:
2010-04-02 публикация патента:
10.11.2013 |
Изобретение относится к устройствам кодирования и декодирования речи, к способам кодирования и декодирования речи, к программам кодирования и декодирования речи. Сущность изобретения состоит в том, что коэффициент линейного предсказания сигнала, представленного в частотной области, получают путем выполнения анализа по частоте с линейным предсказанием с использованием метода ковариации или метода автокорреляции. После того как скорректирована сила фильтра полученного коэффициента линейного предсказания, выполняют фильтрацию сигнала по частоте с использованием скорректированного коэффициента, посредством чего формируют временную огибающую сигнала. Технический результат - уменьшение возникающего опережающего эха и запаздывающего эха, что улучшает субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом репликации спектральных полос (SBR). 6 н. и 4 з.п ф-лы, 50 ил.
Формула изобретения
1. Устройство декодирования речи для декодирования закодированного речевого сигнала, причем устройство декодирования речи содержит:
средство разделения потока битов для разделения потока битов, который включает в себя закодированный речевой сигнал, на закодированный поток битов и на дополнительную информацию о временной огибающей, причем этот поток битов принят извне устройства декодирования речи;
средство базового декодирования для декодирования закодированного потока битов, разделенного средством разделения потока битов, для получения низкочастотной составляющей;
средство преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область;
средство генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область, средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон;
средство коррекции высоких частот для коррекции высокочастотной составляющей, сгенерированной средством генерации высоких частот для генерации скорректированной высокочастотной составляющей;
средство анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей;
средство преобразования дополнительной информации для преобразования дополнительной информации о временной огибающей в параметр для коррекции информации о временной огибающей;
средство коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах для генерации скорректированной информации о временной огибающей, причем средство коррекции временной огибающей использует упомянутый параметр при упомянутой коррекции информации о временной огибающей; и
средство формирования временной огибающей для формирования временной огибающей скорректированной высокочастотной составляющей, с использованием скорректированной информации о временной огибающей.
2. Устройство декодирования речи по п.1, в котором средство коррекции высоких частот функционирует на основании "коррекции высоких частот" согласно стандарту "MPEG4 ААС", описанному в документе "ISO/IEC 14496-3".
3. Устройство декодирования речи по одному из пп.1 или 2, в котором скорректированная высокочастотная составляющая включает в себя составляющую, являющуюся копией сигнала, основанную на высокочастотной составляющей, сгенерированной средством генерации высоких частот, и составляющую, являющуюся шумовым сигналом.
4. Устройство декодирования речи для декодирования закодированного речевого сигнала, причем устройство декодирования речи содержит:
средство базового декодирования для декодирования потока битов, который включает в себя закодированный речевой сигнал, для получения низкочастотной составляющей, причем этот поток битов принят извне устройства декодирования речи;
средство преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область;
средство генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон;
средство коррекции высоких частот для коррекции высокочастотной составляющей, сгенерированной средством генерации высоких частот для генерации скорректированной высокочастотной составляющей;
средство анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей;
средство генерации дополнительной информации о временной огибающей для анализа потока битов для генерации параметра для коррекции информации о временной огибающей;
средство коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах для генерации скорректированной информации о временной огибающей, причем средство коррекции временной огибающей использует упомянутый параметр при упомянутой коррекции информации о временной огибающей; и
средство формирования временной огибающей для формирования временной огибающей скорректированной высокочастотной составляющей с использованием скорректированной информации о временной огибающей.
5. Устройство декодирования речи по п.4, в котором средство коррекции высоких частот функционирует на основании "коррекции высоких частот" согласно стандарту "MPEG4 ААС", описанному в документе "ISO/IEC 14496-3".
6. Устройство декодирования речи по п.4 или 5, в котором скорректированная высокочастотная составляющая включает в себя составляющую, являющуюся копией сигнала, основанную на высокочастотной составляющей, сгенерированной средством генерации высоких частот, и составляющую, являющуюся шумовым сигналом.
7. Способ декодирования речи с использованием устройства декодирования речи для декодирования закодированного речевого сигнала, причем способ декодирования речи содержит следующие операции:
операцию разделения потока битов, при которой устройство декодирования речи разделяет поток битов, включающий в себя закодированный речевой сигнал, на закодированный поток битов и на дополнительную информацию о временной огибающей, причем этот поток битов принят извне устройства декодирования речи;
операцию базового декодирования, при которой устройство декодирования речи получает низкочастотную составляющую путем декодирования закодированного потока битов, разделенного при операции разделения потока битов;
операцию преобразования частоты, при которой устройство декодирования речи осуществляет преобразование низкочастотной составляющей, полученной при операции базового декодирования, в частотную область;
операцию генерации высоких частот, при которой устройство декодирования речи генерирует высокочастотную составляющую путем копирования низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон;
операцию коррекции высоких частот, при которой устройство декодирования речи корректирует высокочастотную составляющую, сгенерированную при операции генерации высоких частот для генерации скорректированной высокочастотной составляющей;
операцию анализа временной огибающей на низких частотах, при которой устройство декодирования речи получает информацию о временной огибающей путем анализа низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты;
операцию преобразования дополнительной информации, при которой устройство декодирования речи преобразует дополнительную информацию о временной огибающей в параметр для коррекции информации о временной огибающей;
операцию коррекции временной огибающей, при которой устройство декодирования речи корректирует информацию о временной огибающей, полученную при операции анализа временной огибающей на низких частотах для генерации скорректированной информации о временной огибающей, причем упомянутый параметр используется при упомянутой коррекции информации о временной огибающей; и
операцию формирования временной огибающей, при которой устройство декодирования речи формирует временную огибающую скорректированной высокочастотной составляющей с использованием скорректированной информации о временной огибающей.
8. Способ декодирования речи, использующий устройство декодирования речи для декодирования закодированного речевого сигнала, причем способ декодирования речи содержит следующие операции:
операцию базового декодирования, при которой устройство декодирования речи декодирует поток битов, который включает в себя закодированный речевой сигнал, для получения низкочастотной составляющей, причем этот поток битов принят извне устройства декодирования речи;
операцию преобразования частоты, при которой устройство декодирования речи преобразует низкочастотную составляющую, полученную при операции базового декодирования, в частотную область;
операцию генерации высоких частот, при которой устройство декодирования речи генерирует высокочастотную составляющую путем копирования низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон;
операцию коррекции высоких частот, при которой устройство декодирования речи корректирует высокочастотную составляющую, сгенерированную при операции генерации высоких частот для генерации скорректированной высокочастотной составляющей;
операцию анализа временной огибающей на низких частотах, при которой устройство декодирования речи получает информацию о временной огибающей при помощи анализа низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты;
операцию генерации дополнительной информации о временной огибающей, при которой устройство декодирования речи анализирует поток битов для генерации параметра для коррекции информации о временной огибающей;
операцию коррекции временной огибающей, при которой устройство декодирования речи корректирует информацию о временной огибающей, полученную при операции анализа временной огибающей на низких частотах для генерации скорректированной информации о временной огибающей, причем упомянутый параметр используется при упомянутой коррекции информации о временной огибающей; и
операцию формирования временной огибающей, при которой устройство декодирования речи формирует временную огибающую скорректированной высокочастотной составляющей с использованием скорректированной информации о временной огибающей.
9. Запоминающее устройство, хранящее программу декодирования речи, вызывающую функционирование компьютера в качестве:
средства разделения потока битов для разделения потока битов, включающего в себя закодированный речевой сигнал, на закодированный поток битов и дополнительную информацию о временной огибающей, причем этот поток битов принят извне программы декодирования речи;
средства базового декодирования для декодирования закодированного потока битов, разделенного средством разделения потока битов, для получения низкочастотной составляющей;
средства преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область;
средства генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон;
средства коррекции высоких частот для коррекции высокочастотной составляющей, сгенерированной средством генерации высоких частот для генерации скорректированной высокочастотной составляющей;
средства анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей;
средства преобразования дополнительной информации для преобразования дополнительной информации о временной огибающей в параметр для коррекции информации о временной огибающей;
средства коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах для генерации скорректированной информации о временной огибающей, причем средство коррекции временной огибающей использует упомянутый параметр при упомянутой коррекции информации о временной огибающей; и
средства формирования временной огибающей для формирования скорректированной временной огибающей высокочастотной составляющей с использованием скорректированной информации о временной огибающей.
10. Запоминающее устройство, хранящее программу декодирования речи, вызывающую функционирование компьютера в качестве:
средства базового декодирования для декодирования потока битов, который включает в себя закодированный речевой сигнал, для получения низкочастотной составляющей, причем этот поток битов принят извне устройства декодирования речи;
средства преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область;
средства генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон;
средства коррекции высоких частот для коррекции высокочастотной составляющей, сгенерированной средством генерации высоких частот для генерации скорректированной высокочастотной составляющей;
средства анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей;
средства генерации дополнительной информации о временной огибающей для анализа потока битов для генерации параметра для коррекции информации о временной огибающей;
средства коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах для генерации скорректированной информации о временной огибающей, причем средство коррекции временной огибающей использует упомянутый параметр при упомянутой коррекции информации о временной огибающей; и
средства формирования временной огибающей для формирования временной огибающей скорректированной высокочастотной составляющей с использованием скорректированной информации о временной огибающей.
Описание изобретения к патенту
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к устройству кодирования речи, к устройству декодирования речи, к способу кодирования речи, к способу декодирования речи, к программе кодирования речи и к программе декодирования речи.
Способы кодирования речевой и звуковой информации для сжатия объема данных из сигналов до нескольких десятых долей этого объема путем удаления информации, не являющейся необходимой для восприятия человеком, используя психоакустику, являются чрезвычайно важными при передаче и хранении сигналов. Примеры широко используемых способов перцепционного кодирования звуковой информации включают в себя способ "MPEG4 AAC", стандартизированный экспертной группой по движущимся изображениям Международной организации по стандартизации/Международной электротехнической комиссии (ISO/IEC MPEG).
В последние годы в качестве способа улучшения эффективности кодирования речи и получения высокого качества речевого сигнала при низкой скорости передачи битов широко использовался способ расширения полосы частот для генерации высокочастотных составляющих с использованием низкочастотных составляющих речевого сигнала. Типичные примеры способа расширения полосы частот включают в себя способ SBR (репликации спектральных полос), используемый в стандарте "MPEG4 AAC". В способе SBR высокочастотную составляющую генерируют путем преобразования сигнала в спектральную область с использованием набора QMF-фильтров (квадратурных зеркальных фильтров) и копирования спектральных коэффициентов из низкочастотного диапазона в высокочастотный диапазон относительно преобразованного сигнала, и высокочастотную составляющую корректируют путем коррекции огибающей спектра и тональности скопированных коэффициентов. Поскольку способ кодирования речи с использованием способа расширения полосы частот может обеспечивать воспроизведение высокочастотных составляющих сигнала с использованием лишь небольшого объема дополнительной информации, то он является эффективным для уменьшения скорости передачи битов при кодировании речи.
В способе расширения полосы частот в частотной области, представленном способом SBR, огибающую спектра и тональность спектральных коэффициентов, представленных в частотной области, корректируют путем регулировки усиления для спектральных коэффициентов, выполнения обратной фильтрации с линейным предсказанием во временной области и наложения шума на спектральный коэффициент. В результате выполнения этого способа коррекции, после кодирования сигнала, имеющего сильное изменение временной огибающей, такого как, например, речевой сигнал, аплодисменты или кастаньеты, в декодированном сигнале может восприниматься реверберационный шум, именуемый опережающим эхо или запаздывающим эхо. Эта проблема вызвана тем, что во время процедуры коррекции осуществляют преобразование временной огибающей высокочастотной составляющей, и во многих случаях после процедуры коррекции временная огибающая является более сглаженной, чем до процедуры коррекции. Временная огибающая высокочастотной составляющей после процедуры коррекции не совпадает с временной огибающей высокочастотной составляющей исходного сигнала до его кодирования, что, таким образом, вызывает возникновение опережающего эха и запаздывающего эха.
Проблема, аналогичная проблеме возникновения опережающего эха и запаздывающего эха, также имеет место при кодировании многоканального звука с использованием параметрического способа, представленного технологией объемного звучания "MPEG surround" и технологией "параметрическое стерео". Декодер, используемый при кодировании многоканального звука, включает в себя средство выполнения декорреляции декодированного сигнала с использованием реверберационного фильтра. Однако во время декорреляции производят преобразование временной огибающей сигнала, что, тем самым, вызывает ухудшение качества воспроизводимого сигнала, аналогично опережающему эхо и запаздывающему эхо. Решения этой проблемы включают в себя способ TES (формирования временной огибающей) (патентная литература 1). В способе TES выполняют анализ сигнала, представленного в области QMF, декорреляция которого еще не была выполнена, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания, и, используя коэффициенты линейного предсказания, выполняют синтезирующую фильтрацию сигнала, декорреляция которого уже была выполнена, по частоте с линейным предсказанием. Этот способ позволяет в способе TES извлекать временную огибающую сигнала, декорреляция которого еще не была выполнена, и корректировать временную огибающую сигнала, декорреляция которого уже была выполнена, в соответствии с извлеченной временной огибающей. Поскольку сигнал, декорреляция которого еще не была выполнена, имеет менее искаженную временную огибающую, то временную огибающую сигнала, декорреляция которого уже была выполнена, корректируют до менее искаженной формы, получая, таким образом, воспроизводимый сигнал, в котором улучшены опережающее эхо и запаздывающее эхо.
ПЕРЕЧЕНЬ ЦИТИРУЕМОЙ ЛИТЕРАТУРЫ
ПАТЕНТНАЯ ЛИТЕРАТУРА
Патентная литература 1: публикация заявки на патент США № 2006/0239473
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
ТЕХНИЧЕСКАЯ ЗАДАЧА
Описанный выше способ TES представляет собой способ, в котором используют тот факт, что сигнал, декорреляция которого еще не была выполнена, имеет менее искаженную временную огибающую. Однако в SBR-декодере высокочастотную составляющую сигнала копируют вместе с низкочастотной составляющей сигнала. Соответственно, невозможно получить менее искаженную временную огибающую для высокочастотной составляющей. Одним из решений этой задачи является способ, в котором выполняют анализ высокочастотной составляющей входного сигнала в SBR-кодере, квантование коэффициентов линейного предсказания, полученных в результате анализа, и их мультиплексирование в поток битов, подлежащий передаче. Этот способ позволяет SBR-декодеру получать коэффициенты линейного предсказания, включающие в себя информацию с менее искаженной временной огибающей высокочастотной составляющей. Однако в этом случае необходим большой объем информации для передачи квантованных коэффициентов линейного предсказания, что, таким образом, значительно увеличивает скорость передачи битов всего закодированного потока битов в целом. Таким образом, настоящее изобретение предназначено для уменьшения возникающего опережающего эха и запаздывающего эха и для повышения субъективного качества декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом SBR.
РЕШЕНИЕ ЗАДАЧИ
Устройство кодирования речи из настоящего изобретения представляет собой устройство кодирования речи для кодирования речевого сигнала и включает в себя: средство базового кодирования для кодирования низкочастотной составляющей речевого сигнала; средство вычисления дополнительной информации о временной огибающей для вычисления дополнительной информации о временной огибающей для получения приближения временной огибающей высокочастотной составляющей речевого сигнала с использованием временной огибающей низкочастотной составляющей речевого сигнала; и средство мультиплексирования потока битов для генерации потока битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная средством базового кодирования, и дополнительная информация о временной огибающей, вычисленная средством вычисления дополнительной информации о временной огибающей.
В устройстве кодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно представляет собой параметр, указывающий резкость изменения временной огибающей высокочастотной составляющей речевого сигнала в заданном интервале анализа.
Предпочтительно, чтобы устройство кодирования речи из настоящего изобретения дополнительно включало в себя средство преобразования частоты для преобразования речевого сигнала в частотную область, и чтобы средство вычисления дополнительной информации о временной огибающей вычисляло дополнительную информацию о временной огибающей на основании коэффициентов линейного предсказания для высоких частот, полученных путем выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием.
В устройстве кодирования речи из настоящего изобретения средство вычисления дополнительной информации о временной огибающей предпочтительно выполняет анализ коэффициентов на низких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и вычисляет дополнительную информацию о временной огибающей на основании коэффициентов линейного предсказания для низких частот и коэффициентов линейного предсказания для высоких частот.
В устройстве кодирования речи из настоящего изобретения средство вычисления дополнительной информации о временной огибающей предпочтительно получает коэффициент усиления предсказания из каждого из коэффициентов линейного предсказания для низких частот и из коэффициентов линейного предсказания для высоких частот, и вычисляет дополнительную информацию о временной огибающей на основании величин этих двух коэффициентов усиления предсказания.
В устройстве кодирования речи из настоящего изобретения средство вычисления дополнительной информации о временной огибающей предпочтительно отделяет высокочастотную составляющую от речевого сигнала, получает информацию о временной огибающей, представленную во временной области, из высокочастотной составляющей и вычисляет дополнительную информацию о временной огибающей на основании величины изменения информации о временной огибающей во времени.
В устройстве кодирования речи из настоящего изобретения, дополнительная информация о временной огибающей предпочтительно включает в себя разностную информацию для получения коэффициентов линейного предсказания для высоких частот с использованием коэффициентов линейного предсказания для низких частот, полученных путем выполнения анализа в частотном направлении низкочастотной составляющей речевого сигнала по частоте с линейным предсказанием.
Предпочтительно, чтобы устройство кодирования речи из настоящего изобретения дополнительно включало в себя средство преобразования частоты для преобразования речевого сигнала в частотную область, и чтобы средство вычисления дополнительной информации о временной огибающей выполняло анализ каждой низкочастотной составляющей и высокочастотной составляющей речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и коэффициентов линейного предсказания для высоких частот, и получало разностную информацию путем получения разности между коэффициентами линейного предсказания для низких частот и коэффициентами линейного предсказания для высоких частот.
В устройстве кодирования речи из настоящего изобретения разностная информация предпочтительно представляет собой разность между коэффициентами линейного предсказания, по меньшей мере, в любой из следующих областей: LSP (Linear Spectrum Pair - пара спектральных линий), ISP (Immittance Spectrum Pair - спектральная пара иммитанса), LSF (Linear Spectrum Frequency - частота спектральных линий), ISF (Immittance Spectrum Frequency - спектральная частота иммитанса) и коэффициент PARCOR.
Устройство кодирования речи из настоящего изобретения представляет собой устройство кодирования речи для кодирования речевого сигнала и включает в себя: средство базового кодирования для кодирования низкочастотной составляющей речевого сигнала; средство преобразования частоты для преобразования речевого сигнала в частотную область; средство анализа с линейным предсказанием для выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для высоких частот; средство децимации коэффициентов предсказания для децимации коэффициентов линейного предсказания для высоких частот, полученных средством анализа с линейным предсказанием, во временной области; средство квантования коэффициентов предсказания для квантования коэффициентов линейного предсказания для высоких частот, подвергнутых децимации средством децимации коэффициентов предсказания; и средство мультиплексирования потока битов для генерации потока битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная средством базового кодирования, и коэффициенты линейного предсказания для высоких частот, квантованные средством квантования коэффициентов предсказания.
Устройство декодирования речи из настоящего изобретения представляет собой устройство декодирования речи для декодирования закодированного речевого сигнала и включает в себя: средство разделения потока битов для разделения потока битов, принятого извне устройства декодирования речи, который включает в себя закодированный речевой сигнал, на закодированный поток битов и на дополнительную информацию о временной огибающей; средство базового декодирования для декодирования закодированного потока битов, разделенного средством разделения потока битов, для получения низкочастотной составляющей; средство преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область; средство генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотных диапазонов в высокочастотные диапазоны; средство вычисления временной огибающей на низких частотах для вычисления низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей; средство коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей, и средство формирования временной огибающей для формирования временной огибающей высокочастотной составляющей, сгенерированной средством генерации высоких частот с использованием информации о временной огибающей, скорректированной средством коррекции временной огибающей.
Предпочтительно, чтобы устройство декодирования речи из настоящего изобретения дополнительно включало в себя средство коррекции высоких частот для коррекции высокочастотной составляющей, и средство преобразования частоты может представлять собой 64-секционный набор QMF-фильтров с вещественным или с комплексным коэффициентом, и средство преобразования частоты, средство генерации высоких частот и средство коррекции высоких частот функционируют на основании декодера с репликацией спектральных полос (SBR-декодера) согласно стандарту "MPEG4 AAC", описанному в документе "ISO/TEC 14496-3".
В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах выполняло анализ низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот, чтобы средство коррекции временной огибающей могло корректировать коэффициенты линейного предсказания для низких частот с использованием дополнительной информации о временной огибающей и чтобы средство формирования временной огибающей могло выполнять в частотной области фильтрацию высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, скорректированных средством коррекции временной огибающей, для формирования временной огибающей речевого сигнала.
В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах получало информацию о временной огибающей речевого сигнала путем получения мощности низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, в каждом временном интервале, чтобы средство коррекции временной огибающей корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей и чтобы средство формирования временной огибающей накладывало скорректированную информацию о временной огибающей на высокочастотную составляющую в частотной области, сгенерированную средством генерации высоких частот, для формирования временной огибающей высокочастотной составляющей.
В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах получало информацию о временной огибающей речевого сигнала путем получения мощности каждой выборки низкочастотной составляющей в поддиапазоне QMF, преобразованной в частотную область средством преобразования частоты, чтобы средство коррекции временной огибающей корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей, и чтобы средство формирования временной огибающей формировало временную огибающую высокочастотной составляющей путем умножения высокочастотной составляющей в частотной области, сгенерированной средством генерации высоких частот, на скорректированную информацию о временной огибающей.
В устройстве декодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно представляет собой параметр силы фильтра, используемый для коррекции силы коэффициентов линейного предсказания.
В устройстве декодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно представляет собой параметр, указывающий величину изменения информации о временной огибающей во времени.
В устройстве декодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно включает в себя разностную информацию о коэффициентах линейного предсказания относительно коэффициентов линейного предсказания для низких частот.
В устройстве декодирования речи из настоящего изобретения разностная информация предпочтительно представляет собой разность между коэффициентами линейного предсказания, по меньшей мере, в любой из следующих областей: LSP (пара спектральных линий), ISP (спектральная пара иммитанса), LSF (частота спектральных линий), ISF (спектральная частота иммитанса) и коэффициент PARCOR.
В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах выполняло анализ низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и получало в частотной области мощность низкочастотной составляющей для каждого временного интервала для получения информации о временной огибающей речевого сигнала, чтобы средство коррекции временной огибающей корректировало коэффициенты линейного предсказания для низких частот с использованием дополнительной информации о временной огибающей и корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей, и чтобы средство формирования временной огибающей выполняло в частотной области фильтрацию высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, скорректированных средством коррекции временной огибающей, для формирования временной огибающей речевого сигнала и формировало временную огибающую высокочастотной составляющей путем свертки высокочастотной составляющей в частотной области с информацией о временной огибающей, скорректированной средством коррекции временной огибающей.
В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах выполняло анализ низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и получало информацию о временной огибающей речевого сигнала путем получения мощности каждой выборки низкочастотной составляющей из поддиапазона QMF в частотной области, чтобы средство коррекции временной огибающей корректировало коэффициент линейного предсказания для низких частот с использованием дополнительной информации о временной огибающей и корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей, и чтобы средство формирования временной огибающей выполняло в частотной области фильтрацию высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, скорректированных средством коррекции временной огибающей, для формирования временной огибающей речевого сигнала и формировало временную огибающую высокочастотной составляющей путем умножения высокочастотной составляющей в частотной области на информацию о временной огибающей, скорректированную средством коррекции временной огибающей.
В устройстве декодирования речи из настоящего изобретения, дополнительной информацией о временной огибающей является параметр, указывающий как силу фильтра коэффициентов линейного предсказания, так и величину изменения информации о временной огибающей во времени.
Устройство декодирования речи из настоящего изобретения представляет собой устройство декодирования речи для декодирования закодированного речевого сигнала и включает в себя: средство разделения потока битов для разделения потока битов, принятого извне устройства декодирования речи, который включает в себя закодированный речевой сигнал в закодированном потоке битов и коэффициенты линейного предсказания, средство интерполяции/экстраполяции коэффициентов линейного предсказания для интерполяции или экстраполяции коэффициентов линейного предсказания во временной области, и средство формирования временной огибающей для выполнения фильтрации в частотном направлении высокочастотной составляющей, представленной в частотной области, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, интерполированных или экстраполированных средством интерполяции/экстраполяции коэффициентов линейного предсказания, для формирования временной огибающей речевого сигнала.
Способ кодирования речи из настоящего изобретения представляет собой способ кодирования речи с использованием устройства кодирования речи для кодирования речевого сигнала и включает в себя следующие операции: операцию базового кодирования, при которой устройство кодирования речи выполняет кодирование низкочастотной составляющей речевого сигнала; операцию вычисления дополнительной информации о временной огибающей, при которой устройство кодирования речи вычисляет дополнительную информацию о временной огибающей для получения приближения временной огибающей высокочастотной составляющей речевого сигнала с использованием временной огибающей низкочастотной составляющей речевого сигнала; и операцию мультиплексирования потока битов, при которой устройство кодирования речи генерирует поток битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная при операции базового кодирования, и дополнительная информация о временной огибающей, вычисленная при операции вычисления дополнительной информации о временной огибающей.
Способ кодирования речи из настоящего изобретения представляет собой способ кодирования речи с использованием устройства кодирования речи для кодирования речевого сигнала и включает в себя следующие операции: операцию базового кодирования, при которой устройство кодирования речи выполняет кодирование низкочастотной составляющей речевого сигнала; операцию преобразования частоты, при которой устройство кодирования речи осуществляет преобразование речевого сигнала в частотную область; операцию анализа с линейным предсказанием, при которой устройство кодирования речи получает коэффициенты линейного предсказания для высоких частот путем выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область при операции преобразования частоты, по частоте с линейным предсказанием; операцию децимации коэффициентов предсказания, при которой устройство кодирования речи выполняет децимацию коэффициентов линейного предсказания для высоких частот, полученных при операции анализа с линейным предсказанием во временной области; операцию квантования коэффициентов предсказания, при которой устройство кодирования речи квантует коэффициенты линейного предсказания для высоких частот, подвергнутые децимации при операции децимации коэффициентов предсказания; и операцию мультиплексирования потока битов, при которой устройство кодирования речи генерирует поток битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная при операции базового кодирования, и коэффициенты линейного предсказания для высоких частот, квантованные при операции квантования коэффициентов предсказания.
Способ декодирования речи из настоящего изобретения представляет собой способ декодирования речи с использованием устройства декодирования речи для декодирования закодированного речевого сигнала и включает в себя следующие операции: операцию разделения потока битов, при которой устройство декодирования речи разделяет поток битов, принятый извне устройства декодирования речи, который включает в себя закодированный речевой сигнал, на закодированный поток битов и на дополнительную информацию о временной огибающей; операцию базового декодирования, при которой устройство декодирования речи получает низкочастотную составляющую путем декодирования закодированного потока битов, разделенного при операции разделения потока битов; операцию преобразования частоты, при которой устройство декодирования речи осуществляет преобразование низкочастотной составляющей, полученной при операции базового декодирования, в частотную область; операцию генерации высоких частот, при которой устройство декодирования речи генерирует высокочастотную составляющую путем копирования низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон; операцию анализа временной огибающей на низких частотах, при которой устройство декодирования речи получает информацию о временной огибающей путем анализа низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты; операцию коррекции временной огибающей, при которой устройство декодирования речи корректирует информацию о временной огибающей, полученную при операции анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей; и операцию формирования временной огибающей, при которой устройство декодирования речи формирует временную огибающую высокочастотной составляющей, сгенерированной при операции генерации высоких частот, с использованием информации о временной огибающей, скорректированной при операции коррекции временной огибающей.
Способ декодирования речи из настоящего изобретения представляет собой способ декодирования речи с использованием устройства декодирования речи для декодирования закодированного речевого сигнала и включает в себя следующие операции: операцию разделения потока битов, при которой устройство декодирования речи разделяет поток битов, принятый извне устройства декодирования речи, который включает в себя закодированный речевой сигнал в закодированном потоке битов и коэффициенты линейного предсказания; операцию интерполяции/экстраполяции коэффициентов линейного предсказания, при которой устройство декодирования речи интерполирует или экстраполирует коэффициенты линейного предсказания во временной области; и операцию формирования временной огибающей, при которой устройство декодирования речи формирует временную огибающую речевого сигнала путем выполнения фильтрации в частотном направлении высокочастотной составляющей, представленной в частотной области, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, интерполированных или экстраполированных при операции интерполяции/экстраполяции коэффициентов линейного предсказания.
Программа кодирования речи из настоящего изобретения для кодирования речевого сигнала вызывает функционирование компьютерного устройства в качестве: средства базового кодирования для кодирования низкочастотной составляющей речевого сигнала; средства вычисления дополнительной информации о временной огибающей для вычисления дополнительной информации о временной огибающей для получения приближения временной огибающей высокочастотной составляющей речевого сигнала с использованием временной огибающей низкочастотной составляющей речевого сигнала; и средства мультиплексирования потока битов для генерации потока битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная средством базового кодирования, и дополнительная информация о временной огибающей, вычисленная средством вычисления дополнительной информации о временной огибающей.
Программа кодирования речи из настоящего изобретения для кодирования речевого сигнала вызывает функционирование компьютерного устройства в качестве: средства базового кодирования для кодирования низкочастотной составляющей речевого сигнала; средства преобразования частоты для преобразования речевого сигнала в частотную область; средства анализа с линейным предсказанием для выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для высоких частот; средства децимации коэффициентов предсказания для децимации коэффициентов линейного предсказания для высоких частот, полученных средством анализа с линейным предсказанием, во временной области; средства квантования коэффициентов предсказания для квантования коэффициентов линейного предсказания для высоких частот, подвергнутых децимации средством децимации коэффициентов предсказания; и средства мультиплексирования потока битов для генерации потока битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная средством базового кодирования, и коэффициенты линейного предсказания для высоких частот, квантованные средством квантования коэффициентов предсказания.
Программа декодирования речи из настоящего изобретения для декодирования закодированного речевого сигнала вызывает функционирование компьютерного устройства в качестве: средства разделения потока битов для разделения потока битов, принятого извне программы декодирования речи, который включает в себя закодированный речевой сигнал в закодированном потоке битов и дополнительную информацию о временной огибающей; средства базового декодирования для декодирования закодированного потока битов, разделенного средством разделения потока битов, для получения низкочастотной составляющей; средства преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область; средства генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон; средства анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей; средства коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей; и средства формирования временной огибающей для формирования временной огибающей высокочастотной составляющей, сгенерированной средством генерации высоких частот, с использованием информации о временной огибающей, скорректированной средством коррекции временной огибающей.
Программа декодирования речи из настоящего изобретения для декодирования закодированного речевого сигнала вызывает функционирование компьютерного устройства в качестве: средства разделения потока битов для разделения потока битов, который включает в себя закодированный речевой сигнал в закодированном потоке битов и коэффициенты линейного предсказания. Поток битов принимают извне программы декодирования речи. Кроме того, программа декодирования речи дополнительно вызывает функционирование компьютерного устройства в качестве: средства интерполяции/экстраполяции коэффициентов линейного предсказания для интерполяции или экстраполяции коэффициентов линейного предсказания во временной области; и средства формирования временной огибающей для выполнения фильтрации в частотном направлении высокочастотной составляющей, представленной в частотной области, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, интерполированных или экстраполированных средством интерполяции/экстраполяции коэффициентов линейного предсказания, для формирования временной огибающей речевого сигнала.
В устройстве декодирования речи из настоящего изобретения средство формирования временной огибающей после выполнения в частотной области фильтрации в частотном направлении высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием предпочтительно регулирует мощность высокочастотной составляющей, полученной в результате фильтрации с линейным предсказанием, до величины, эквивалентной ее величине до фильтрации с линейным предсказанием.
В устройстве декодирования речи из настоящего изобретения средство формирования временной огибающей после выполнения в частотной области фильтрации в частотном направлении высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием предпочтительно регулирует мощность высокочастотной составляющей, полученной в результате фильтрации с линейным предсказанием, в определенном диапазоне частот до величины, эквивалентной ее величине до фильтрации с линейным предсказанием.
В устройстве декодирования речи из настоящего изобретения дополнительной информацией о временной огибающей предпочтительно является отношение минимального значения скорректированной информации о временной огибающей к ее среднему значению.
В устройстве декодирования речи из настоящего изобретения средство формирования временной огибающей после регулировки коэффициентов усиления скорректированной временной огибающей таким образом, чтобы мощность высокочастотной составляющей в частотной области в отрезке времени огибающей SBR была эквивалентной до и после формирования временной огибающей, предпочтительно формирует временную огибающую высокочастотной составляющей путем умножения временной огибающей, коэффициент усиления которой отрегулирован, на высокочастотную составляющую в частотной области.
В устройстве декодирования речи из настоящего изобретения средство анализа временной огибающей на низких частотах предпочтительно получает мощность каждой выборки из поддиапазона QMF низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, и получает информацию о временной огибающей, представленную как коэффициент усиления, подлежащий умножению на каждую из выборок из поддиапазона QMF, путем нормирования мощности каждой из выборок из поддиапазона QMF с использованием средней мощности в отрезке времени огибающей SBR.
Устройство декодирования речи из настоящего изобретения представляет собой устройство декодирования речи для декодирования закодированного речевого сигнала и включает в себя: средство базового декодирования для получения низкочастотной составляющей путем декодирования потока битов, принятого извне устройства декодирования, который включает в себя закодированный речевой сигнал; средство преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область; средство генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон; средство анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей; средство генерации дополнительной информации о временной огибающей для анализа потока битов для генерации дополнительной информации о временной огибающей; средство коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей; и средство формирования временной огибающей для формирования временной огибающей высокочастотной составляющей, сгенерированной средством генерации высоких частот, с использованием информации о временной огибающей, скорректированной средством коррекции временной огибающей.
Предпочтительно, чтобы устройство декодирования речи из настоящего изобретения включало в себя средство первичной коррекции высоких частот и средство вторичной коррекции высоких частот, оба из которых соответствуют средству коррекции высоких частот, причем средство первичной коррекции высоких частот может выполнять способ, включающий в себя часть способа, соответствующего средству коррекции высоких частот, средство формирования временной огибающей может формировать временную огибающую выходного сигнала из средства первичной коррекции высоких частот, средство вторичной коррекции высоких частот может выполнять способ, не выполняемый средством первичной коррекции высоких частот, из способов, соответствующих средству коррекции высоких частот, для выходного сигнала из средства формирования временной огибающей, а средство вторичной коррекции высоких частот может выполнять процедуру добавления синусоиды во время SBR-декодирования.
ПОЛЕЗНЫЕ ЭФФЕКТЫ ИЗОБРЕТЕНИЯ
Согласно настоящему изобретению, в способе расширения полосы частот в частотной области, представленном способом SBR, может быть уменьшено возникающее опережающее эхо и запаздывающее эхо, и может быть улучшено субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
На фиг.1 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно первому варианту осуществления изобретения;
на фиг.2 изображена схема последовательности операций, описывающая функционирование устройства кодирования речи согласно первому варианту осуществления изобретения;
на фиг.3 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно первому варианту осуществления изобретения;
на фиг.4 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно первому варианту осуществления изобретения;
на фиг.5 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно первой модификации первого варианта осуществления изобретения;
на фиг.6 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно второму варианту осуществления изобретения;
на фиг.7 изображена схема последовательности операций, описывающая функционирование устройства кодирования речи согласно второму варианту осуществления изобретения;
на фиг.8 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно второму варианту осуществления изобретения;
на фиг.9 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно второму варианту осуществления изобретения;
на фиг.10 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно третьему варианту осуществления изобретения;
на фиг.11 изображена схема последовательности операций, описывающая функционирование устройства кодирования речи согласно третьему варианту осуществления изобретения;
на фиг.12 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно третьему варианту осуществления изобретения;
на фиг.13 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно третьему варианту осуществления изобретения;
на фиг.14 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно четвертому варианту осуществления изобретения;
на фиг.15 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно модификации четвертого варианта осуществления изобретения;
на фиг.16 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.17 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой другой модификации четвертого варианта осуществления изобретения;
на фиг.18 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации первого варианта осуществления изобретения;
на фиг.19 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой другой модификации первого варианта осуществления изобретения;
на фиг.20 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно еще одной модификации первого варианта осуществления изобретения;
на фиг.21 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой еще одной модификации первого варианта осуществления изобретения.
на фиг.22 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно модификации второго варианта осуществления изобретения;
на фиг.23 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой модификации второго варианта осуществления изобретения;
на фиг.24 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации второго варианта осуществления изобретения;
на фиг.25 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой другой модификации второго варианта осуществления изобретения;
на фиг.26 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.27 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой другой модификации четвертого варианта осуществления изобретения;
на фиг.28 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно еще одной модификации четвертого варианта осуществления изобретения;
на фиг.29 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой еще одной модификации четвертого варианта осуществления изобретения;
на фиг.30 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.31 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно еще одной модификации четвертого варианта осуществления изобретения;
на фиг.32 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой еще одной модификации четвертого варианта осуществления изобретения;
на фиг.33 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.34 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой другой модификации четвертого варианта осуществления изобретения;
на фиг.35 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно еще одной модификации четвертого варианта осуществления изобретения;
на фиг.36 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой еще одной модификации четвертого варианта осуществления изобретения;
на фиг.37 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.38 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно еще одной модификации четвертого варианта осуществления изобретения;
на фиг.39 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой еще одной модификации четвертого варианта осуществления изобретения;
на фиг.40 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.41 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой еще одной модификации четвертого варианта осуществления изобретения;
на фиг.42 изображена схема, на которой проиллюстрировано устройство декодирования речи согласно другой модификации четвертого варианта осуществления изобретения;
на фиг.43 изображена схема последовательности операций, описывающая функционирование устройства декодирования речи согласно этой другой модификации четвертого варианта осуществления изобретения;
на фиг.44 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно другой модификации первого варианта осуществления изобретения;
на фиг.45 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно еще одной модификации первого варианта осуществления изобретения;
на фиг.46 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно модификации второго варианта осуществления изобретения;
на фиг.47 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно другой модификации второго варианта осуществления изобретения;
на фиг.48 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно четвертому варианту осуществления изобретения;
на фиг.49 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно модификации четвертого варианта осуществления изобретения; и
на фиг.50 изображена схема, на которой проиллюстрировано устройство кодирования речи согласно другой модификации четвертого варианта осуществления изобретения.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Ниже приведено подробное описание предпочтительных вариантов осуществления настоящего изобретения со ссылкой на сопроводительные чертежи. В описании чертежей элементы, которые являются одинаковыми, обозначены одинаковыми номерами позиций и их дублирующее описание, по возможности, опущено.
(Первый вариант осуществления изобретения)
На фиг.1 изображена схема, на которой проиллюстрировано устройство 11 кодирования речи согласно первому варианту осуществления изобретения. Устройство 11 кодирования речи физически включает в себя центральный процессор (ЦП), постоянное запоминающее устройство (ПЗУ), оперативное запоминающее устройство (ОЗУ), устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 11 кодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.2), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11 кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 11 кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 11 кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 11 кодирования речи.
Устройство 11 кодирования речи функционально включает в себя блок 1a преобразования частоты (средство преобразования частоты), блок 1b обратного преобразования частоты, блок 1c кодирования базовым кодеком (средство базового кодирования), блок 1d SBR-кодирования, блок 1e анализа с линейным предсказанием (средство вычисления дополнительной информации о временной огибающей), блок 1f вычисления параметра, характеризующего силу фильтра, (средство вычисления дополнительной информации о временной огибающей) и блок 1g мультиплексирования потока битов (средство мультиплексирования потока битов). Блоки с блока 1a преобразования частоты по блок 1g мультиплексирования потока битов, входящие в состав устройства 11 кодирования речи, проиллюстрированного на фиг.1, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 11 кодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11 кодирования речи. ЦП устройства 11 кодирования речи последовательно выполняет операции способа (операции способа с операции Sa1 по операцию Sa7), проиллюстрированные на схеме последовательности операций на фиг.2, путем выполнения компьютерной программы (или путем использования блоков с блока 1a преобразования частоты по блок 1g мультиплексирования потока битов, проиллюстрированных на фиг.1). Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 11 кодирования речи.
Блок 1a преобразования частоты анализирует входной сигнал, принятый извне устройства 11 кодирования речи посредством устройства связи, входящего в состав устройства 11 кодирования речи, с использованием многосекционного набора QMF-фильтров для получения сигнала q(k,r) в области QMF (операция Sa1 способа). Следует отметить, что k (0 k 63) представляет собой индекс по частоте, а r - индекс, указывающий временной интервал. Блок 1b обратного преобразования частоты синтезирует половину коэффициентов на низкочастотной стороне в сигнале из области QMF, полученном блоком 1a преобразования частоты, с использованием набора QMF-фильтров для получения сигнала, подвергнутого понижающей дискретизации, во временной области, который включает в себя только низкочастотные составляющие входного сигнала (операция Sa2 способа). Блок 1c кодирования базовым кодеком кодирует сигнал, подвергнутый понижающей дискретизации, во временной области для получения закодированного потока битов (операция Sa3 способа). Кодирование, выполняемое блоком 1c кодирования базовым кодеком, может быть основано на способе кодирования речи, представленном способом CELP (линейного предсказания с кодовым возбуждением), или может быть основано на способе кодирования звука, например, на кодировании с преобразованием, представленном способом AAC (усовершенствованного кодирования звука) или TCX (с преобразованием кодированного возбуждения).
Блок 1d SBR-кодирования принимает сигнал в области QMF из блока 1a преобразования частоты и выполняет SBR-кодирование на основании анализа мощности, изменения сигнала, тональности и т.п. высокочастотных составляющих для получения дополнительной информации об SBR (операция Sa4 способа). Способ QMF-анализа в блоке 1a преобразования частоты и способ SBR-кодирования в блоке 1d SBR-кодирования подробно описаны, например, в документе "3GPP TS 26.404: Enhanced aacPlus encoder SBR part".
Блок 1e анализа с линейным предсказанием принимает сигнал в области QMF из блока 1a преобразования частоты и выполняет анализ высокочастотных составляющих сигнала по частоте с линейным предсказанием для получения коэффициентов aH(n, r) (1 n N) линейного предсказания для высоких частот (операция Sa5 способа). Следует отметить, что N представляет собой порядок линейного предсказания. Индекс r представляет собой индекс подвыборки сигнала в области QMF по времени. Для анализа с линейным предсказанием сигнала может использоваться метод ковариации или метод автокорреляции. Для получения aH(n, r) выполняют анализ высокочастотных составляющих, удовлетворяющих условию kx<k 63 в q(k, r), с линейным предсказанием. Следует отметить, что kx представляет собой индекс частоты, соответствующий верхней предельной частоте полосы частот, закодированной блоком 1c кодирования базовым кодеком. Блок 1e анализа с линейным предсказанием также может выполнять анализ низкочастотных составляющих с линейным предсказанием, которые являются иными, чем низкочастотные составляющие, подвергаемые анализу тогда, когда получают aH(n, r), для получения коэффициентов aL(n, r) линейного предсказания для низких частот, отличающихся от aH(n, r) (коэффициенты линейного предсказания согласно таким низкочастотным составляющим соответствуют информации о временной огибающей, и в первом варианте осуществления изобретения являются такими же самыми, как и описанные ниже). Для получения aL(n, r) выполняют анализ низкочастотных составляющих, удовлетворяющих условию 0 k<kx, с линейным предсказанием. Также может быть выполнен анализ части полосы частот, содержащейся в интервале 0 k<kx, с линейным предсказанием.
Например, блок 1f вычисления параметра, характеризующего силу фильтра, использует коэффициенты линейного предсказания, полученные блоком 1e анализа с линейным предсказанием, для вычисления параметра, характеризующего силу фильтра, (параметр, характеризующий силу фильтра, соответствует дополнительной информации о временной огибающей и является в первом варианте осуществления изобретения тем же самым, как в ниже) (операция Sa6 способа). Сначала вычисляют коэффициент GH(r) усиления предсказания из aH (n, r). Способ вычисления коэффициента усиления предсказания подробно описан, например, в документе "Speech Coding, Takehiro Moriya, The Institute of Electronics, Information and Communication Engineers". Если был вычислен aL(n,r), то коэффициент GL(r) усиления предсказания вычисляют аналогичным образом. Параметр K(r), характеризующий силу фильтра, представляет собой параметр, который увеличивается с увеличением GH (r), и, например, может быть получен согласно приведенному ниже выражению (1). Здесь max (a, b) обозначает максимальное значение из a и b, а min (a, b) обозначает минимальное значение из a и b.
Если был вычисленным GL (r), то K(r) может быть получен в качестве параметра, который увеличивается при увеличении GH(r) и уменьшается при увеличении GL(r). В этом случае K может быть получен, например, согласно приведенному ниже выражению (2).
K(r) представляет собой параметр, указывающий силу коррекции временной огибающей высокочастотных составляющих во время SBR-декодирования. Значение коэффициента усиления предсказания, относящееся к коэффициентам линейного предсказания в частотной области, увеличивается, когда изменение временной огибающей сигнала в интервале анализа становится резким. K(r) представляет собой параметр для выдачи декодеру указания усилить способ увеличения резкости изменения временной огибающей высокочастотных составляющих, сгенерированных способом SBR, при увеличении его значения. K(r) также может представлять собой параметр для выдачи устройству декодирования (например, устройству 21 декодирования речи) указания ослабить способ увеличения резкости изменения временной огибающей высокочастотных составляющих, сгенерированных способом SBR, при уменьшения его значения, или может включать в себя значение для того, чтобы не выполнять способ увеличения резкости изменения временной огибающей. Вместо передачи K(r) для каждого временного интервала может быть передан K(r), представляющий множество временных интервалов. Для определения сегмента временных интервалов, в которых совместно используется одно и то же значение K(r), предпочтительно использовать информацию о временных границах огибающей в способе SBR (временной границе огибающей в способе SBR), содержащуюся в дополнительной информации об SBR.
K(r) передают в блок 1g мультиплексирования потока битов после его квантования. Предпочтительно вычислять K(r), представляющий множество временных интервалов, например, путем вычисления среднего значения K(r) множества временных интервалов r до выполнения квантования. Для передачи K(r), представляющего множество временных интервалов, K(r) также может быть получен по результату анализа всего сегмента, сформированного из множества временных интервалов, вместо независимого вычисления K(r) по результату анализа каждого временного интервала с использованием, например, выражения (2). В этом случае, K(r) может быть вычислен, например, согласно приведенному ниже выражению (3). Здесь mean(·) обозначает среднее значение в сегменте временных интервалов, представленных посредством K(r).
K(r) может быть передан исключительно вместе с информацией о режиме обратного фильтра, содержащейся в дополнительной информацию об SBR, описанной в документе "ISO/TEC 14496-3 subpart 4 General Audio Coding". Другими словами, K(r) не передают для временных интервалов, для которых передают информацию о режиме обратного фильтра в дополнительной информации об SBR, и отсутствует необходимость передачи информации о режиме обратного фильтра (bs_invf_mode в документе "ISO/IEC 14496-3 subpart 4 General Audio Coding") в дополнительной информации об SBR для того временного интервала, для которого передан K(r). Также может быть добавлена информация, указывающая то, что передают либо K(r), либо информацию о режиме обратного фильтра, содержащуюся в дополнительную информацию об SBR. K(r) и информация о режиме обратного фильтра, содержащаяся в дополнительной информации об SBR, могут быть объединены для их обработки как векторной информации и для выполнения статистического кодирования вектора. В этом случае могут быть наложены ограничения на комбинацию из K(r) и значения информации о режиме обратного фильтра, содержащейся в дополнительной информации об SBR.
Блок 1g мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного блоком 1c кодирования базовым кодеком, дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, и K(r), вычисленного блоком 1f вычисления параметра, характеризующего силу фильтра, и выводит мультиплексированный поток битов (закодированный мультиплексированный поток битов) через устройство связи, входящее в состав устройства 11 кодирования речи (операция Sa7 способа).
На фиг.3 изображена схема, на которой проиллюстрировано устройство 21 декодирования речи согласно первому варианту осуществления изобретения. Устройство 21 декодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 21 декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения способов, проиллюстрированных на схеме последовательности операций на фиг.4), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 21 декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 21 декодирования речи принимает закодированный мультиплексированный поток битов, выведенный из устройства 11 кодирования речи, из устройства 11a кодирования речи из модификации 1, описание которого приведено ниже, или из устройства кодирования речи из модификации 2, описание которого приведено ниже, и выводит декодированный речевой сигнал наружу из устройства 21 декодирования речи. Как проиллюстрировано на фиг.3, устройство 21 декодирования речи функционально включает в себя блок 2a разделения потока битов (средство разделения потока битов), блок 2b декодирования базовым кодеком (средство базового декодирования), блок 2c преобразования частоты (средство преобразования частоты), блок 2d анализа низких частот с линейным предсказанием (средство анализа временной огибающей на низких частотах), блок 2e обнаружения изменения сигнала, блок 2f коррекции силы фильтра (средство коррекции временной огибающей), блок 2g генерации высоких частот (средство генерации высоких частот), блок 2h анализа высоких частот с линейным предсказанием, блок 2i обратного фильтра с линейным предсказанием, блок 2j коррекции высоких частот (средство коррекции высоких частот), блок 2k фильтра с линейным предсказанием (средство формирования временной огибающей), блок 2m суммирования коэффициентов и блок 2n обратного преобразования частоты. Блоки с блока 2a разделения потока битов по блок 2n вычисления параметра, характеризующего форму огибающей, входящие в состав устройства 21 декодирования речи, проиллюстрированного на фиг.3, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 21 декодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 21 декодирования речи. ЦП устройства 21 декодирования речи последовательно выполняет операции способа (операции способа с операции Sb1 по операцию Sb11), проиллюстрированные на схеме последовательности операций на фиг.4, путем выполнения компьютерной программы (или путем использования блоков с блока 2a разделения потока битов по блок 2n вычисления параметра, характеризующего форму огибающей, проиллюстрированных на фиг.3). Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 21 декодирования речи.
Блок 2a разделения потока битов разделяет мультиплексированный поток битов, поданный через устройство связи из устройства 21 декодирования речи, на параметр, характеризующий силу фильтра, дополнительную информацию об SBR и закодированный поток битов. Блок 2b декодирования базовым кодеком декодирует закодированный поток битов, принятый из блока 2a разделения потока битов для получения декодированного сигнала, включающего в себя только лишь низкочастотные составляющие (операция Sb1 способа). Здесь способ декодирования может быть основан на способе кодирования речи, представленном способом CELP, или может быть основан на таком способе кодирования звука, как, например, способ AAC или TCX (с преобразованием кодированного возбуждения).
Блок 2c преобразования частоты анализирует декодированный сигнал, принятый из блока 2b декодирования базовым кодеком, с использованием многосекционного набора QMF-фильтров для получения сигнала q dec(k, r) в области QMF (операция Sb2 способа). Следует отметить, что k (0 k 63) представляет собой индекс по частоте, а r представляет собой индекс, указывающий индекс подвыборки сигнала в области QMF по времени.
Блок 2d анализа низких частот с линейным предсказанием выполняет анализ qdec(k, r) из каждого временного интервала r, полученных из блока 2c преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов adec(n, r) линейного предсказания для низких частот (операция Sb3 способа). Анализ с линейным предсказанием выполняют для интервала 0 k<kx, соответствующего ширине полосы частот декодированного сигнала, полученного из блока 2b декодирования базовым кодеком. Анализ с линейным предсказанием Может быть выполнен в части полосы частот, содержащейся в отрезке 0 k<kx.
Блок 2e обнаружения изменения сигнала обнаруживает изменение сигнала, принятого из блока 2c преобразования частоты, во времени в области QMF и выводит его в качестве результата T(r) обнаружения. Изменение сигнала может быть обнаружено, например, с использованием описанного ниже способа.
1. Получают кратковременную мощность p(r) сигнала во временном интервале r согласно приведенному ниже выражению (4).
2. Получают огибающую penv (r), полученную путем сглаживания p(r), согласно приведенному ниже выражению (5). Следует отметить, что является константой, удовлетворяющей условию 0< <1.
3. Получают T(r) согласно приведенному ниже выражению (6), используя p(r) и penv (r), где - константа.
Описанные выше способы являются простыми примерами обнаружения изменения сигнала на основании изменения мощности, и изменение сигнала может быть обнаружено с использованием иных более сложных способов. Кроме того, блок 2e обнаружения изменения сигнала может отсутствовать.
Блок 2f коррекции силы фильтра корректирует силу фильтра с учетом a dec(n, r), полученных из блока 2d анализа низких частот с линейным предсказанием, для получения скорректированных коэффициентов aadj(n, r) линейного предсказания (операция Sb4 способа). Силу фильтра корректируют, например, согласно приведенному ниже выражению (7) с использованием параметра K, характеризующего силу фильтра, принятого через блок 2a разделения потока битов.
Если выходной сигнал T(r) получен из блока 2e обнаружения изменения сигнала, то сила может быть скорректирована согласно приведенному ниже выражению (8).
Блок 2g генерации высоких частот копирует сигнал в области QMF, полученный из блока 2c преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон для генерации сигнала qexp(k, r) в области QMF высокочастотных составляющих (операция Sb5 способа). Высокочастотные составляющие генерируют согласно способу генерации высоких частот (HF) в способе SBR согласно стандарту "MPEG4 AAC" (см. документ "ISO/IEC 14496-3 subpart 4 General Audio Coding").
Блок 2h анализа высоких частот с линейным предсказанием выполняет анализ qexp(k, r) каждого из временных интервалов r, сгенерированного блоком 2g генерации высоких частот, по частоте с линейным предсказанием для получения коэффициентов aexp (n, r) линейного предсказания для высоких частот (операция Sb6 способа). Анализ с линейным предсказанием выполняют для интервала kx k 63, соответствующего высокочастотным составляющим, сгенерированным блоком 2g генерации высоких частот.
Блок 2i обратного фильтра с линейным предсказанием выполняет обратную фильтрацию сигнала в области QMF высокочастотного диапазона, сгенерированного блоком 2g генерации высоких частот, по частоте с линейным предсказанием, используя aexp(n,r) в качестве коэффициентов (операция Sb7 способа). Передаточная функция обратного фильтра с линейным предсказанием может быть выражена приведенным ниже выражением (9).
Обратная фильтрация с линейным предсказанием может выполняться с коэффициента на более низкой частоте до коэффициента на более высокой частоте или может выполняться в противоположном направлении. Обратная фильтрация с линейным предсказанием представляет собой способ выравнивания временной огибающей высокочастотных составляющих во временной области до выполнения формирования временной огибающей на последующем этапе, и блок 2i обратного фильтра с линейным предсказанием может отсутствовать. Также можно выполнять анализ с линейным предсказанием и обратную фильтрацию выходных сигналов из блока 2j коррекции высоких частот, описание которого приведено ниже, посредством блока 2ha анализа высоких частот с линейным предсказанием и блока 2i обратного фильтра с линейным предсказанием вместо выполнения анализа с линейным предсказанием и обратной фильтрации высокочастотных составляющих выходных сигналов из блока 2g генерации высоких частот. Коэффициентами линейного предсказания, используемыми для обратной фильтрации с линейным предсказанием, также могут являться adec (n, r) или aadj(n, r) вместо aexp(n, r). Коэффициентами линейного предсказания, используемыми для обратной фильтрации с линейным предсказанием, также могут являться коэффициенты aexp,adj(n, r) линейного предсказания, полученные путем выполнения коррекции силы фильтра по aexp(n, r). Коррекцию силы выполняют согласно приведенному ниже выражению (10), аналогично получению aadj(n, r).
Блок 2j коррекции высоких частот корректирует частотные характеристики и тональность высокочастотных составляющих, выведенных из блока 2i обратного фильтра с линейным предсказанием (операция Sb8 способа). Эту коррекцию выполняют согласно дополнительной информации об SBR, принятой из блока 2a разделения потока битов. Обработку блоком 2j коррекции высоких частот выполняют согласно этапу "коррекция высоких частот" ("HF Adjustment") в способе SBR из стандарта "MPEG4 AAC", и коррекцию выполняют путем выполнения обратной фильтрации с линейным предсказанием во временной области путем коррекции коэффициента усиления и путем добавления шума к сигналу в области QMF высокочастотного диапазона. Подробности описанных выше операций способа изложены в документе "ISO/EEC 14496-3 subpart 4 General Audio Coding". Как описано выше, все перечисленные блоки: блок 2c преобразования частоты, блок 2g генерации высоких частот и блок 2j коррекции высоких частот, функционируют согласно SBR-декодеру стандарта "MPEG4 AAC", описанному в документе "ISO/IEC 14496-3".
Блок 2k фильтра с линейным предсказанием выполняет синтезирующую фильтрацию высокочастотных составляющих qadj (n, r) сигнала в области QMF, выведенных из блока 2j коррекции высоких частот, по частоте с линейным предсказанием, используя aadj(n, r), полученные из блока 2f коррекции силы фильтра (операция Sb9 способа). Передаточная функция синтезирующей фильтрации с линейным предсказанием может быть выражена приведенным ниже выражением (11).
Выполняя синтезирующую фильтрацию с линейным предсказанием, блок 2k фильтра с линейным предсказанием формирует временную огибающую высокочастотных составляющих, сгенерированных на основании SBR.
Блок 2m суммирования коэффициентов суммирует сигнал в области QMF, включающий в себя низкочастотные составляющие, который выведен из блока 2c преобразования частоты, с сигналом в области QMF, включающим в себя высокочастотные составляющие, который выведен из блока 2k фильтра с линейным предсказанием, и выводит сигнал в области QMF, включающий в себя как низкочастотные составляющие, так и высокочастотные составляющие (операция Sb10 способа).
Блок 2n обратного преобразования частоты выполняет обработку сигнала в области QMF, полученного из блока 2m суммирования коэффициентов, с использованием набора синтезирующих QMF-фильтров. Соответственно, получен декодированный речевой сигнал во временной области, который включает в себя как низкочастотные составляющие, полученные путем декодирования базовым кодеком, так и высокочастотные составляющие, которые сгенерированы способом SBR, и временная огибающая которых сформирована фильтром с линейным предсказанием, и полученный речевой сигнал выводят наружу из устройства 21 декодирования речи через встроенное устройство связи (операция Sb11 способа). Если переданы только K(r) и информация о режиме обратного фильтра, входящая в состав дополнительной информации об SBR, описанной в документе "ISO/IEC 14496-3 subpart 4 General Audio Coding", то блок 2n обратного преобразования частоты может генерировать информацию о режиме обратного фильтра, входящую в состав дополнительной информации об SBR, для временного интервала, в котором передают K(r), но эту информацию о режиме обратного фильтра, входящую в состав дополнительной информации об SBR, не передают, используя информацию о режиме обратного фильтра, входящую в состав дополнительной информации об SBR, которая относится, по меньшей мере, к одному временному интервалу из временных интервалов до и после этого временного интервала. Информация о режиме обратного фильтра, входящая в состав дополнительной информации об SBR, также может быть задана заранее для временного интервала как заданный режим. Блок 2n обратного преобразования частоты может генерировать K(r) для временного интервала, в котором передают данные об обратном фильтре, входящие в состав дополнительной информации об SBR, но K(r) не передают, используя K(r), по меньшей мере, для одного временного интервала из временных интервалов до и после этого временного интервала. K(r) для временного интервала также может быть заранее задан равным заданному значению. Блок 2n обратного преобразования частоты также может определять, что именно является переданной информацией: K(r) или же информация о режиме обратного фильтра, входящая в состав дополнительной информации об SBR, на основании информации, указывающей, что именно передано: K(r) или же информация о режиме обратного фильтра, входящая в состав дополнительной информации об SBR.
(Модификация 1 первого варианта осуществления изобретения)
На фиг.5 изображена схема, на которой проиллюстрирована модификация (устройство 11a кодирования речи) устройства кодирования речи согласно первому варианту осуществления изобретения. Устройство 11a кодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 11a кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11a кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 11a кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 11a кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 11a кодирования речи.
Устройство 11a кодирования речи, проиллюстрированное на фиг.5, функционально включает в себя блок 1h обратного преобразования высоких частот, блок 1i вычисления кратковременной мощности (средство вычисления дополнительной информации о временной огибающей), блок 1f1 вычисления параметра, характеризующего силу фильтра, (средство вычисления дополнительной информации о временной огибающей) и блок 1g1 мультиплексирования потока битов (средство мультиплексирования потока битов) вместо блока 1e анализа с линейным предсказанием, блока 1f вычисления параметра, характеризующего силу фильтра и блока 1g мультиплексирования потока битов, входящих в состав устройства 11 кодирования речи. Блок 1g1 мультиплексирования потока битов имеет ту же самую функцию, что и блок 1g мультиплексирования потока битов. Блоки с блока 1a преобразования частоты по блок 1d SBR-кодирования, блок 1h обратного преобразования высоких частот, блок 1i вычисления кратковременной мощности, блок 1f1 вычисления параметра, характеризующего силу фильтра, и блок 1g1 мультиплексирования потока битов, входящие в состав устройства 11a декодирования речи, проиллюстрированного на фиг.5, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 11a кодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11a кодирования речи. Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 11a кодирования речи.
Блок 1h обратного преобразования высоких частот заменяет коэффициенты сигнала в области QMF, полученные из блока 1a преобразования частоты, нулем ("0"), что соответствует низкочастотным составляющим, закодированным блоком 1c кодирования базовым кодеком, и выполняет обработку этих коэффициентов с использованием набора синтезирующих QMF-фильтров для получения сигнала, включающего в себя только высокочастотные составляющие, во временной области. Блок 1i вычисления кратковременной мощности делит высокочастотные составляющие, полученные из блока 1h обратного преобразования высоких частот, во временной области на короткие сегменты, вычисляет мощность и вычисляет p(r). В качестве альтернативного способа кратковременная мощность также может быть вычислена согласно приведенному ниже выражению (12) с использованием сигнала в области QMF.
Блок 1f1 вычисления параметра, характеризующего силу фильтра, обнаруживает измененную часть p(r) и определяет значение K(r) так, чтобы K(r) увеличивался при большом изменении. Например, значение K(r) также может быть вычислено тем же самым способом, что и способ вычисления T(r) блоком 2e обнаружения изменения сигнала из устройства 21 декодирования речи. Изменение сигнала также может быть обнаружено с использованием других более сложных способов. Блок 1f1 вычисления параметра, характеризующего силу фильтра, также может получать кратковременную мощность каждой из низкочастотных составляющих и высокочастотных составляющих, получать изменения Tr(r) и Th(r) сигнала каждой из низкочастотных составляющих и высокочастотных составляющих с использованием того же самого способа, что и способ вычисления T(r) блоком 2e обнаружения изменения сигнала, входящим в состав устройства 21 декодирования речи, и определять значение K(r) с их использованием. Например, в этом случае K(r) может быть получен согласно приведенному ниже выражению (13), где - константа, равная, например, 3,0.
(Модификация 2 первого варианта осуществления изобретения)
Устройство кодирования речи (не проиллюстрировано) из модификации 2 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством кодирования речи из модификации 2 путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства кодирования речи из модификации 2, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи, входящее в состав устройства кодирования речи из модификации 2, принимает речевой сигнал, подлежащий кодированию, извне устройства кодирования речи из модификации 2 и выводит закодированный мультиплексированный поток битов наружу из устройства кодирования речи.
Устройство кодирования речи из модификации 2 функционально включает в себя блок дифференциального кодирования коэффициента линейного предсказания (средство вычисления дополнительной информации о временной огибающей) и блок мультиплексирования потока битов (средство мультиплексирования потока битов), который принимает выходной сигнал из блока дифференциального кодирования коэффициента линейного предсказания, которые не проиллюстрированы, вместо блока 1f вычисления параметра, характеризующего силу фильтра, и блока 1g мультиплексирования потока битов из устройства 11 кодирования речи. Блоки с блока 1a преобразования частоты по блок 1e анализа с линейным предсказанием, блок дифференциального кодирования коэффициента линейного предсказания и блок мультиплексирования потока битов, входящие в состав устройства кодирования речи из модификации 2, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства декодирования речи из модификации 2 компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства кодирования речи из модификации 2. Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства кодирования речи из модификации 2.
Блок дифференциального кодирования коэффициентов линейного предсказания вычисляет разностные значения aD (n, r) коэффициентов линейного предсказания согласно приведенному ниже выражению (14) с использованием aH(n, r) входного сигнала и aL(n, r) входного сигнала.
Затем блок дифференциального кодирования коэффициентов линейного предсказания квантует aD(n, r) и передает их в блок мультиплексирования потока битов (в структуру, соответствующую блоку 1g мультиплексирования потока битов). Блок мультиплексирования потока битов выполняет мультиплексирование aD(n, r) в поток битов вместо K(r) и выводит мультиплексированный поток битов наружу из устройства кодирования речи через встроенное устройство связи.
Устройство декодирования речи (не проиллюстрировано) из модификации 2 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством декодирования речи из модификации 2 путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства декодирования речи из модификации 2, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи, входящее в состав устройства декодирования речи из модификации 2, принимает закодированный мультиплексированный поток битов, выведенный из устройства 11 кодирования речи, из устройства 11a кодирования речи согласно модификации 1 или из устройства кодирования речи согласно модификации 2, и выводит декодированный речевой сигнал наружу из устройства декодирования речи.
Устройство декодирования речи из модификации 2 функционально включает в себя блок дифференциального декодирования коэффициентов линейного предсказания, который не проиллюстрирован, вместо блока 2f коррекции силы фильтра, входящего в состав устройства 21 декодирования речи. Блоки с блока 2a разделения потока битов по блок 2e обнаружения изменения сигнала, блок дифференциального декодирования коэффициентов линейного предсказания и блоки с блока 2g генерации высоких частот по блок 2n обратного преобразования частоты, входящие в состав устройства декодирования речи из модификации 2, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства декодирования речи из модификации 2 компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства декодирования речи из модификации 2. Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства декодирования речи из модификации 2.
Блок дифференциального декодирования коэффициентов линейного предсказания получает a adj(n, r), подвергнутые дифференциальному декодированию, согласно приведенному ниже выражению (15) с использованием a L(n, r), полученных из блока 2d анализа низких частот с линейным предсказанием и aD(n, r), принятых из блока 2a разделения потока битов.
Блок дифференциального декодирования коэффициентов линейного предсказания передает aadj (n, r), подвергнутые дифференциальному декодированию таким способом, в блок 2k фильтра с линейным предсказанием. aD(n, r) может представлять собой разностное значение в области коэффициентов предсказания, как проиллюстрировано в выражении (14). Но после преобразования коэффициентов предсказания в выражение иного вида, такое как, например, LSP (пара спектральных линий), ISP (спектральная пара иммитанса), LSF (частота спектральных линий), ISF (спектральная частота иммитанса) и коэффициент PARCOR, значение aD (n, r) может представлять собой их разность. В этом случае выражение для дифференциального декодирования также имеет тот же самый вид.
(Второй вариант осуществления изобретения)
На фиг.6 изображена схема, на которой проиллюстрировано устройство 12 кодирования речи согласно второму варианту осуществления изобретения. Устройство 12 кодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 12 кодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.7), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 12 кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 12 кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 12 кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 12 кодирования речи.
Устройство 12 кодирования речи функционально включает в себя блок 1j децимации коэффициентов линейного предсказания (средство децимации коэффициентов предсказания), блок 1k квантования коэффициентов линейного предсказания (средство квантования коэффициентов предсказания) и блок 1g2 мультиплексирования потока битов (средство мультиплексирования потока битов) вместо блока 1f вычисления параметра, характеризующего силу фильтра, и блока 1g мультиплексирования потока битов, входящих в состав устройства 11 кодирования речи. Блоки с блока 1a преобразования частоты по блок 1e анализа с линейным предсказанием (средство анализа с линейным предсказанием), блок 1j децимации коэффициентов линейного предсказания, блок 1k квантования коэффициентов линейного предсказания и блок 1g2 мультиплексирования потока битов, входящие в состав устройства 12 кодирования речи, проиллюстрированного на фиг.6, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 12 кодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 12 кодирования речи. ЦП устройства 12 кодирования речи последовательно выполняет операции способа (операции способа с операции Sa1 по операцию Sa5 и операции способа с операции Sc1 по операцию Sc3), проиллюстрированные на схеме последовательности операций на фиг.7, путем выполнения компьютерной программы (или путем использования блоков с блока 1a преобразования частоты по блок 1e анализа с линейным предсказанием, блока 1j децимации коэффициентов линейного предсказания, блока 1k квантования коэффициентов линейного предсказания и блока 1g2 мультиплексирования потока битов, входящих в состав устройства 12 кодирования речи, проиллюстрированного на фиг.6). Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 12 кодирования речи.
Блок 1j децимации коэффициентов линейного предсказания выполняет децимацию aH(n, r), полученного из блока 1e анализа с линейным предсказанием, во временной области и передает значение a H(n, r) для части временного интервала ri и значение соответствующего ri в блок 1k квантования коэффициентов линейного предсказания (операция Sc1 способа). Следует отметить, что 0 i<Nts, и что Nts - количество временных интервалов в кадре, для которого передан aH (n, r). Децимация коэффициентов линейного предсказания может выполняться в заданном промежутке времени или может выполняться в неравномерно распределенных промежутках времени на основании характеристик aH(n, r). Например, возможен способ, в котором сравнивают GH(r) из aH(n, r) в кадре, имеющем определенную длину, и делает aH(n, r), GH(r) которого превышает определенное значение, объектом квантования. Если вместо использования характеристик aH(n, r) интервалом децимации коэффициентов линейного предсказания является заданный интервал, то отсутствует необходимость в вычислении aH(n, r) для временного интервала, в котором не производят передачу.
Блок 1k квантования коэффициентов линейного предсказания квантует коэффициенты a H(n, ri) линейного предсказания для высоких частот, подвергнутые децимации, которые приняты из блока 1j децимации коэффициентов линейного предсказания, и индексы ri соответствующих временных интервалов, и передает их в блок 1g2 мультиплексирования потока битов (операция Sc2 способа). В качестве альтернативной структуры, вместо квантования aH(n, ri) может быть выполнено квантование разностных значений aD(n, ri) коэффициентов линейного предсказания, как в устройстве кодирования речи согласно модификации 2 первого варианта осуществления изобретения.
Блок 1g2 мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного блоком 1c кодирования базовым кодеком, дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, и индексов {ri} временных интервалов, соответствующих aH(n, ri), которые квантуют и принимают из блока 1k квантования коэффициентов линейного предсказания, в поток битов и выводит мультиплексированный поток битов через устройство связи, входящее в состав устройства 12 кодирования речи (операция Sc3 способа).
На фиг.8 изображена схема, на которой проиллюстрировано устройство 22 декодирования речи согласно второму варианту осуществления изобретения. Устройство 22 декодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 22 декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.9), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 22 декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 22 декодирования речи принимает закодированный мультиплексированный поток битов, выведенный из устройства 12 кодирования речи, и выводит декодированный речевой сигнал наружу из устройства 22 декодирования речи.
Устройство 22 декодирования речи функционально включает в себя блок 2a1 разделения потока битов (средство разделения потока битов), блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания (средство интерполяции/экстраполяции коэффициентов линейного предсказания), и блок 2k1 фильтра с линейным предсказанием (средство формирования временной огибающей) вместо блока 2a разделения потока битов, блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2f коррекции силы фильтра, и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 21 декодирования речи. Блок 2a1 разделения потока битов, блок 2b декодирования базовым кодеком, блок 2c преобразования частоты, блоки с блока 2g генерации высоких частот по блок 2j коррекции высоких частот, блок 2k1 фильтра с линейным предсказанием, блок 2m суммирования коэффициентов, блок 2n обратного преобразования частоты, и блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания, входящие в состав устройства 22 декодирования речи, проиллюстрированного на фиг.8, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 22 кодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 22 кодирования речи. ЦП устройства 22 декодирования речи последовательно выполняет операции способа (операции способа с операции Sb1 по операцию Sd2, операцию Sd1, операции с операции Sb5 по операцию Sb8, операцию Sd2 и операции с операции Sb10 по операцию Sb11), проиллюстрированные на схеме последовательности операций на фиг.9, путем выполнения компьютерной программы (или путем использования блока 2a1 разделения потока битов, блока 2b декодирования базовым кодеком, блока 2c преобразования частоты, блоков с блока 2g генерации высоких частот по блок 2j коррекции высоких частот, блока 2k1 фильтра с линейным предсказанием, блока 2m суммирования коэффициентов, блока 2n обратного преобразования частоты и блока 2p интерполяции/экстраполяции коэффициентов линейного предсказания, которые проиллюстрированы на фиг.8). Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 22 декодирования речи.
Устройство 22 декодирования речи включает в себя блок 2a1 разделения потока битов, блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания и блок 2k1 фильтра с линейным предсказанием вместо блока 2a разделения потока битов, блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2f коррекции силы фильтра и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 22 декодирования речи.
Блок 2a1 разделения потока битов разделяет мультиплексированный поток битов, поданный через устройство связи, входящее в состав устройства 22 декодирования речи, на индексы ri временных интервалов, соответствующие квантуемым aH(n, ri), на дополнительную информацию об SBR и на закодированный поток битов.
Блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания принимает индексы ri временных интервалов, соответствующие квантуемым aH(n, r i), из блока 2a1 разделения потока битов и получает a H(n, r), соответствующие временным интервалах, в которых не передают коэффициенты линейного предсказания, путем интерполяции или экстраполяции (операции способа, выполняемые при операции Sd1). Блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания может экстраполировать коэффициенты линейного предсказания согласно, например, приведенному ниже выражению (16).
где ri0 - значение, ближайшее к r во временном интервале {ri}, в котором передают коэффициенты линейного предсказания. - константа, удовлетворяющая условию 0< <1.
Блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания может выполнять интерполяцию коэффициентов линейного предсказания согласно, например, приведенному ниже выражению (17), где удовлетворено условие ri0 <r<ri0+1.
Блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания может преобразовывать коэффициенты линейного предсказания в выражения иного вида, такие как, например, LSP (пара спектральных линий), ISP (спектральная пара иммитанса), LSF (частота спектральных линий), ISF (спектральная частота иммитанса) и коэффициент PARCOR, выполнять их интерполяцию или экстраполяцию и преобразовывать полученные значения в используемые коэффициенты линейного предсказания. Интерполируемые или экстраполируемые aH(n, r) передают в блок фильтра 2k1 с линейным предсказанием и используют в качестве коэффициентов линейного предсказания для синтезирующей фильтрации с линейным предсказанием, но они также могут использоваться в качестве коэффициентов линейного предсказания в блоке 2i обратного фильтра с линейным предсказанием. Если aD(n, ri) мультиплексирован в поток битов вместо aH(n, r), то блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания выполняет дифференциальное декодирование подобно тому, как его выполняет устройство декодирования речи согласно модификации 2 первого варианта осуществления изобретения, до выполнения описанной выше процедуры интерполяции или экстраполяции.
Блок 2k1 фильтра с линейным предсказанием выполняет синтезирующую фильтрацию qadj (n, r) выведенных из блока 2j коррекции высоких частот, по частоте с линейным предсказанием с использованием интерполируемых или экстраполируемых aH (n, r), полученных из блока 2p интерполяции/экстраполяции коэффициентов линейного предсказания (операция Sd2 способа). Передаточная функция блока 2k1 фильтра с линейным предсказанием может быть выражена приведенным ниже выражением (18). Блок 2k1 фильтра с линейным предсказанием формирует временную огибающую высокочастотных составляющих, сгенерированных способом SBR, путем выполнения синтезирующей фильтрации с линейным предсказанием, как и блок 2k фильтра с линейным предсказанием из устройства 21 декодирования речи.
(Третий вариант осуществления изобретения)
На фиг.10 изображена схема, на которой проиллюстрировано устройство 13 кодирования речи согласно третьему варианту осуществления изобретения. Устройство 13 кодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 13 кодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.11), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 13 кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 13 кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 13 кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 13 кодирования речи.
Устройство 13 кодирования речи функционально включает в себя блок 1m вычисления временной огибающей (средство вычисления дополнительной информации о временной огибающей), блок 1n вычисления параметра, характеризующего форму огибающей, (средство вычисления дополнительной информации о временной огибающей) и блок 1g3 мультиплексирования потока битов (средство мультиплексирования потока битов) вместо блока 1e анализа с линейным предсказанием, блока 1f вычисления параметра, характеризующего силу фильтра, и блока 1g мультиплексирования потока битов, входящих в состав устройства 11 кодирования речи. Блоки с блока 1a преобразования частоты по блок 1d SBR-кодирования, блок 1m вычисления временной огибающей, блок 1n вычисления параметра, характеризующего форму огибающей, и блок 1g3 мультиплексирования потока битов, входящие в состав устройства 13 кодирования речи, проиллюстрированного на фиг.10, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 13 кодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 13 кодирования речи. ЦП устройства 13 кодирования речи последовательно выполняет операции способа (операции способа с операции Sa1 по операцию Sa4 и с операции Se1 по операцию Se3), проиллюстрированные на схеме последовательности операций на фиг.11, путем выполнения компьютерной программы (или путем использования блоков с блока 1a преобразования частоты по блок 1d SBR-кодирования, блока 1m вычисления временной огибающей, блока 1n вычисления параметра, характеризующего форму огибающей, и блока 1g3 мультиплексирования потока битов, входящих в состав устройства 13 кодирования речи, проиллюстрированного на фиг.10). Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 13 кодирования речи.
Блок 1m вычисления временной огибающей принимает q(k, r), и например, получает информацию e(r) о временной огибающей высокочастотных составляющих сигнала, получая мощность каждого временного интервала q(k, r) (операция Se1 способа). В этом случае e(r) получают согласно приведенному ниже выражению (19).
Блок 1n вычисления параметра, характеризующего форму огибающей, принимает e(r) из блока 1m вычисления временной огибающей и принимает информацию {bi} о временных границах огибающей в способе SBR из блока 1d SBR-кодирования. Следует отметить, что 0 i Ne, и что Ne представляет собой количество огибающих SBR в закодированном кадре. Блок 1n вычисления параметра, характеризующего форму огибающей, получает параметр s(i) (0 i<Ne), характеризующий форму огибающей, для каждой из огибающих SBR в закодированном кадре согласно приведенному ниже выражению (20) (операция Se2 способа). Параметр s(i), характеризующий форму огибающей, соответствует дополнительной информации о временной огибающей, и является таким же самым в третьем варианте осуществления изобретения.
Следует отметить, что:
где s(i) в приведенном выше выражении представляет собой параметр, указывающий величину изменения e(r) в i-той огибающей SBR, удовлетворяющей условию bi r<bi+1, и e(r) имеет большее числовое значение, поскольку изменение временной огибающей увеличилось. Описанные выше выражения (20) и (21) представляют собой примеры способа вычисления s(i), и, например, параметр s(i) также может быть получен с использованием, например, SMF (показателя равномерности спектральной характеристики) e(r), отношения максимального значения к минимальному значению и т.п. Затем выполняют квантование s(i) и его передачу в блок 1g3 мультиплексирования потока битов.
Блок 1g3 мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного блоком 1c кодирования базовым кодеком, дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, и s(i) в поток битов, и выводит мультиплексированный поток битов через устройство связи, входящее в состав устройства 13 кодирования речи (операция Se3 способа).
На фиг.12 изображена схема, на которой проиллюстрировано устройство 23 декодирования речи согласно третьему варианту осуществления изобретения. Устройство 23 декодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 23 декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.13), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 23 декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 23 декодирования речи принимает закодированный мультиплексированный поток битов, выведенный из устройства 13 кодирования речи, и выводит декодированный речевой сигнал наружу из устройства 23 декодирования речи.
Устройство 23 декодирования речи функционально включает в себя блок 2a2 разделения потока битов (средство разделения потока битов), блок 2r вычисления временной огибающей на низких частотах (средство анализа временной огибающей на низких частотах), блок 2s коррекции формы огибающей (средство коррекции временной огибающей), блок 2t вычисления временной огибающей на высоких частотах, блок 2u выравнивания временной огибающей и блок 2v формирования временной огибающей (средство формирования временной огибающей) вместо блока 2a разделения потока битов, блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2f коррекции силы фильтра, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 21 декодирования речи. Блок 2a2 разделения потока битов, блоки с блока 2b декодирования базовым кодеком по блок 2c преобразования частоты, блок 2g генерации высоких частот, блок 2j коррекции высоких частот, блок 2m суммирования коэффициентов, блок 2n обратного преобразования частоты и блоки с блока 2r вычисления временной огибающей на низких частотах по блок 2v формирования временной огибающей, входящие в состав устройства 23 декодирования речи, проиллюстрированного на фиг.12, представляют собой функции, реализуемые при выполнении центральным процессором (ЦП) устройства 23 декодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 23 декодирования речи. ЦП устройства 23 декодирования речи последовательно выполняет операции способа (операции способа с операции Sb1 по операцию Sb2, с операции Sf1 по операцию Sf2, операцию Sb5, с операции Sf3 по операцию Sf4, операцию Sb8, операцию Sf5 и с операции Sb10 по операцию Sb11), проиллюстрированные на схеме последовательности операций на фиг.13, путем выполнения компьютерной программы (или путем использования блока 2a2 разделения потока битов, блоков с блока 2b декодирования базовым кодеком по блок 2c преобразования частоты, блока 2g генерации высоких частот, блока 2j коррекции высоких частот, блока 2m суммирования коэффициентов, блока 2n обратного преобразования частоты и блоков с блока 2r вычисления временной огибающей на низких частотах по блок 2v формирования временной огибающей, входящих в состав устройства 23 декодирования речи, проиллюстрированного на фиг.12. Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 23 декодирования речи.
Блок 2a2 разделения потока битов разделяет мультиплексированный поток битов, поданный через устройство связи, входящее в состав устройства 23 декодирования речи, на s(i), дополнительную информацию об SBR и закодированный поток битов. Блок 2r вычисления временной огибающей на низких частотах принимает qdec(k, r), включающий в себя низкочастотные составляющие, из блока 2c преобразования частоты и получает e(r) согласно приведенному ниже выражению (22) (операция Sf1 способа).
Блок 2s коррекции формы огибающей корректирует e(r) с использованием s(i) и получает скорректированную информацию eadj(r) о временной огибающей (операция Sf2 способа). e(r) может быть скорректировано, например, согласно приведенным ниже выражениям (23)-(25).
Следует отметить, что:
Описанные выше выражения (23)-(25) представляют собой один из примеров способа коррекции, и также может использоваться другой способ коррекции, в котором форма eadj(r) становится аналогичной форме, проиллюстрированной посредством s(i).
Блок 2t вычисления временной огибающей на высоких частотах вычисляет временную огибающую e exp(r) с использованием qexp(k, r), полученной согласно приведенному ниже выражению (26) из блока 2g генерации высоких частот (операция Sf3 способа).
Блок 2u выравнивания временной огибающей выравнивает временную огибающую qexp(k, r), полученную согласно приведенному ниже выражению (27) из блока 2g генерации высоких частот, и передает полученный сигнал qflat (k, r) в области QMF в блок 2j коррекции высоких частот (операция Sf4 способа).
Операция выравнивания временной огибающей блоком 2u выравнивания временной огибающей также может быть опущена. Вместо вычисления временной огибающей высокочастотных составляющих с выхода блока 2g генерации высоких частот и выравнивания их временной огибающей может быть вычислена временная огибающая высокочастотных составляющих с выхода блока 2j коррекции высоких частот, и может быть выполнено выравнивание их временной огибающей. Временной огибающей, используемой в блоке 2u выравнивания временной огибающей, также может являться eadj(r), полученная из блока 2s коррекции формы огибающей, вместо eexp (r), полученной из блока 2t вычисления временной огибающей на высоких частотах.
Блок 2v формирования временной огибающей формирует qadj(k, r), полученных из блока 2j коррекции высоких частот, с использованием eadj (r), полученной из блока 2v формирования временной огибающей, и получает сигнал qenvadj(k, r) в области QMF, в которой сформирована временная огибающая (операция Sf5 способа). Формирование выполняют согласно приведенному ниже выражению (28). qenvadj (k, r) передают в блок 2m суммирования коэффициентов в качестве сигнала в области QMF, соответствующего высокочастотным составляющим.
(Четвертый вариант осуществления изобретения)
На фиг.14 изображена схема, на которой проиллюстрировано устройство 24 декодирования речи согласно четвертому варианту осуществления изобретения. Устройство 24 декодирования речи физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24 декодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24 декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24 декодирования речи принимает закодированный мультиплексированный поток битов, выведенный из устройства 11 кодирования речи или из устройства 13 кодирования речи, и выводит декодированный речевой сигнал наружу из устройства 24 декодирования речи.
Устройство 24 декодирования речи функционально включает в себя структуру из устройства 21 декодирования речи (блок 2b декодирования базовым кодеком, блок 2c преобразования частоты, блок анализа 2d низких частот с линейным предсказанием, блок 2e обнаружения изменения сигнала, блок 2f коррекции силы фильтра, блок 2g генерации высоких частот, блок 2h анализа высоких частот с линейным предсказанием, блок 2i обратного фильтра с линейным предсказанием, блок 2j коррекции высоких частот, блок 2k фильтра с линейным предсказанием, блок 2m суммирования коэффициентов и блок 2n обратного преобразования частоты) и структуру из устройства 23 декодирования речи (блок 2r вычисления временной огибающей на низких частотах, блок 2s коррекции формы огибающей и блок 2v формирования временной огибающей). Устройство 24 декодирования речи также включает в себя блок 2a3 разделения потока битов (средство разделения потока битов) и блок 2w преобразования дополнительной информации. Порядок расположения блока 2k фильтра с линейным предсказанием и блока 2v формирования временной огибающей может быть противоположным порядку их расположения, проиллюстрированному на фиг.14. Устройство 24 декодирования речи предпочтительно принимает поток битов, закодированный устройством 11 кодирования речи или устройством 13 кодирования речи. Структура устройства 24 декодирования речи, проиллюстрированного на фиг.14, представляет собой функцию, реализуемую при выполнении центральным процессором (ЦП) устройства 24 декодирования речи компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24 декодирования речи. Все данные различных типов, необходимые для выполнения компьютерной программы, и все данные различных типов, сгенерированные при выполнении компьютерной программы, сохраняют во встроенном запоминающем устройстве, например, в ПЗУ и в ОЗУ устройства 24 декодирования речи.
Блок 2a3 разделения потока битов разделяет мультиплексированный поток битов, поданный через устройство связи, входящее в состав устройства 24 декодирования речи, на дополнительную информацию о временной огибающей, дополнительную информацию об SBR и закодированный поток битов. Дополнительной информацией о временной огибающей также может являться K(r), описанный в первом варианте осуществления изобретения, или s(i), описанный в третьем варианте осуществления изобретения. Дополнительной информацией о временной огибающей также может являться иной параметр X(r), которым не является ни K(r), ни s(i).
Блок 2w преобразования дополнительной информации осуществляет преобразование поданной дополнительной информации о временной огибающей для получения K(r) и s(i). Если дополнительной информацией о временной огибающей является K (r), то блок 2w преобразования дополнительной информации преобразовывает K(r) в s(i). Например, блок 2w преобразования дополнительной информации также может получать среднее значение K(r) в интервале bi r<bi+1
и преобразовывать среднее значение, представленное в выражении (29), в s(i) с использованием заданной таблицы. Если дополнительной информацией о временной огибающей является s(i), то блок 2w преобразования дополнительной информации преобразовывает s(i) в K(r). Блок 2w преобразования дополнительной информации также может выполнять преобразование путем преобразования s(i) в K(r), например, с использованием заданной таблицы. Следует отметить, что i и r связаны друг с другом, удовлетворяя соотношению bi r<bi+1.
Если же дополнительной информацией о временной огибающей является параметр X(r), которым не является ни K(r), ни s(i), то блок 2w преобразования дополнительной информации преобразовывает X(r) в K(r) и s(i). Предпочтительно, чтобы блок 2w преобразования дополнительной информации выполнял преобразование X(r) в K(r) и s(i), например, с использованием заданной таблицы. Также предпочтительно, чтобы блок 2w преобразования дополнительной информации передавал X(r) в качестве репрезентативного значения каждой огибающей SBR. Таблицы для преобразования X(r) в K(r) и s(i) могут отличаться одна от другой.
(Модификация 3 первого варианта осуществления изобретения)
В устройстве 21 декодирования речи из первого варианта осуществления изобретения блок 2k фильтра с линейным предсказанием из устройства 21 декодирования речи может включать в себя способ автоматической регулировки усиления. Способ автоматической регулировки усиления представляет собой способ регулировки мощности сигнала в области QMF, выведенного из блока 2k фильтра с линейным предсказанием, до мощности подаваемого сигнала в области QMF. В общем, сигнал qsyn,pow(n, r) в области QMF, усиление которого было отрегулировано, реализован приведенным ниже выражением.
Здесь P0(r) и P1 (r) выражены приведенными ниже выражениями (31) и (32).
При выполнении способа автоматической регулировки усиления мощность высокочастотных составляющих сигнала, которые выведены из блока 2k фильтра с линейным предсказанием, регулируют до величины, эквивалентной их величине до фильтрации с линейным предсказанием. В результате, для выходного сигнала блока 2k фильтра с линейным предсказанием, в котором формируют временную огибающую высокочастотных составляющих, сгенерированных на основании способа SBR, эффект регулировки мощности высокочастотного сигнала, выполняемой блоком 2j коррекции высоких частот, может сохраняться. Способ автоматической регулировки усиления также может быть выполнен отдельно в определенном диапазоне частот сигнала в области QMF. Способ, выполненный в отдельном диапазоне частот, может быть реализован путем ограничения n в выражении (30), в выражении (31) и в выражении (32) в пределах определенного диапазона частот. Например, i-тый диапазон частот может быть выражен как Fi n<Fi+1 (в этом случае i представляет собой индекс, указывающий номер определенного диапазона частот сигнала в области QMF). Fi указывает границу диапазона частот, и предпочтительно, чтобы параметр Fi представлял собой таблицу граничных частот в зависимости от масштабного коэффициента огибающей, описанную в способе SBR согласно стандарту "MPEG4 AAC". Таблица граничных частот задана блоком 2g генерации высоких частот на основании определения SBR согласно стандарту "MPEG4 AAC". За счет выполнения способа автоматической регулировки усиления мощность выходного сигнала из блока 2k фильтра с линейным предсказанием в определенном диапазоне частот высокочастотных составляющих является отрегулированной до величины, эквивалентной ее величине до фильтрации с линейным предсказанием. В результате, эффект выполняемой блоком 2j коррекции высоких частот регулировки мощности высокочастотного сигнала, которым является выходной сигнал из блока 2k фильтра с линейным предсказанием, при которой формируют временную огибающую высокочастотных составляющих, сгенерированных на основании способа SBR, сохраняется для каждого единичного диапазона частот. Изменения, внесенные в данную модификацию 3 первого варианта осуществления изобретения, также могут быть внесены в блок 2k фильтра с линейным предсказанием из четвертого варианта осуществления изобретения.
(Модификация 1 третьего варианта осуществления изобретения)
Блок 1n вычисления параметра, характеризующего форму огибающей, в устройстве 13 кодирования речи из третьего варианта осуществления изобретения также может быть реализован описанным ниже способом. Блок 1n вычисления параметра, характеризующего форму огибающей, получает параметр s(i) (0 i<Ne), характеризующий форму огибающей, согласно приведенному ниже выражению (33) для каждой огибающей SBR в закодированном кадре.
Следует отметить, что:
представляет собой среднее значение e(r) в огибающей SBR, и что способ вычисления основан на выражения (21). Следует отметить, что огибающая SBR указывает отрезок времени, удовлетворяющий условию bi r<bi+1. {bi} - временные границы огибающих SBR, содержащиеся как информация в дополнительной информации об SBR и представляют собой границы отрезка времени, для которого задан масштабный коэффициент огибающей SBR, представляющий собой среднюю энергию сигнала в определенном отрезке времени и в определенном диапазоне частот, min(·) представляет собой минимальное значение в пределах интервала bi r<bi+1. Соответственно, в этом случае параметр s(i), характеризующий форму огибающей, представляет собой параметр, указывающий отношение минимального значения к среднему значению в скорректированной информации о временной огибающей в огибающей SBR. Блок 2s коррекции формы огибающей в устройстве 23 декодирования речи из третьего варианта осуществления изобретения также может быть реализован следующим образом. Блок 2s коррекции формы огибающей корректирует e(r) с использованием s(i) для получения скорректированной информации eadj(r) о временной огибающей. Способ коррекции основан на приведенном ниже выражении (35) или (36).
Выражение (35) корректирует форму огибающей так, чтобы отношение минимального значения к среднему значению в скорректированной информации eadj(r) о временной огибающей в огибающей SBR стало эквивалентным значению параметра s(i), характеризующего форму огибающей. Изменения, внесенные в описанную выше модификацию 1 третьего варианта осуществления изобретения, также могут быть внесенные в четвертый вариант осуществления изобретения.
(Модификация 2 третьего варианта осуществления изобретения)
В блоке 2v формирования временной огибающей вместо выражения (28) также может использоваться приведенное ниже выражение. Как указано в выражении (37), e adj,scaled(r) (масштабированный eadj(r)) получают путем регулировки усиления для скорректированной информации e adj(r) о временной огибающей так, чтобы мощность q envadj(k, r) сохранялась равной мощности qadj (k, r) в пределах огибающей SBR. Как указано в выражении (38), в данной модификации 2 третьего варианта осуществления изобретения qenvadj(k, r) получают путем умножения сигнала q adj(k, r) в области QMF на eadj,scaled(r) вместо eadj(r). Соответственно, блок 2v формирования временной огибающей может формировать временную огибающую сигнала q adj(k, r) в области QMF так, чтобы мощность сигнала в пределах огибающей SBR стала эквивалентной до и после формирования временной огибающей. Следует отметить, что огибающая SBR указывает отрезок времени, удовлетворяющий условию bi r<bi+1. {bi} - временные границы огибающих SBR, содержащиеся в качестве информации в дополнительной информации об SBR и представляющие собой границы отрезка времени, для которого задан масштабный коэффициент огибающей SBR, представляющий среднюю энергию сигнала в определенном отрезке времени и в определенном диапазоне частот. Термин "огибающая SBR" ("SBR envelope") в вариантах осуществления настоящего изобретения соответствует термину "отрезок времени огибающей SBR" ("SBR envelope time segment") в стандарте "MPEG4 AAC", описанном в документе "ISO/IEC 14496-3", и во всех вариантах осуществления изобретения термин "огибающая SBR" имеет то же самое содержание, что и термин "отрезок времени огибающей SBR".
Изменения, внесенные в описанную выше модификацию 2 третьего варианта осуществления изобретения, также могут быть внесены в четвертый вариант осуществления изобретения.
(Модификация 3 третьего варианта осуществления изобретения)
Выражением (19) также может являться приведенное ниже выражение (39).
Выражением (22) также может являться приведенное ниже выражение (40).
Выражением (26) также может являться приведенное ниже выражение (41).
Когда используют выражение (39) и выражение (40), то информация e(r) о временной огибающей представляет собой информацию, в которой мощность каждой выборки из поддиапазона QMF является нормированной на среднюю мощность в огибающей SBR, и извлечен квадратный корень. Однако выборка из поддиапазона QMF представляет собой вектора сигнала, соответствующий индексу "r" времени в сигнале в области QMF, и является одной подвыборкой в области QMF. Во всех вариантах осуществления настоящего изобретения термин "временной интервал" ("time slot") имеет то же самое содержание, что и термин "выборка из поддиапазона QMF" ("QMF subband sample"). В этом случае информацией e(r) о временной огибающей является коэффициент усиления, на который следует умножать каждую выборку из поддиапазона QMF, и то же самое утверждение применимо к скорректированной информации eadj(r) о временной огибающей.
(Модификация 1 четвертого варианта осуществления изобретения)
Устройство 24a декодирования речи (не проиллюстрировано) из модификации 1 четвертого первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24a декодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24a декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24a декодирования речи принимает закодированный мультиплексированный поток битов, выведенный из устройства 11 кодирования речи или из устройства 13 кодирования речи, и выводит декодированный речевой сигнал наружу из устройства 24a декодирования речи. Устройство 24a декодирования речи функционально включает в себя блок 2a4 разделения потока битов (не проиллюстрирован) вместо блока 2a3 разделения потока битов, входящего в состав устройства 24 декодирования речи, и также включает в себя блок 2y генерации дополнительной информации о временной огибающей (не проиллюстрирован), вместо блока 2w преобразования дополнительной информации. Блок 2a4 разделения потока битов разделяет мультиплексированный поток битов на информацию об SBR и на закодированный поток битов. Блок 2y генерации дополнительной информации о временной огибающей генерирует дополнительную информацию о временной огибающей на основании информации, содержащейся в закодированном потоке битов, и дополнительной информации об SBR.
Для генерации дополнительной информации о временной огибающей в определенной огибающей SBR может использоваться, например, ширина (bi+1-bi) огибающей SBR во временной области, класс кадра, параметр, характеризующий силу обратного фильтра, минимальный уровень шума, амплитуда мощности на высоких частотах, отношение мощности на высоких частотах к мощности на низких частотах, коэффициент автокорреляции или коэффициент усиления предсказания результата выполнения анализа низкочастотного сигнала, представленного в области QMF, по частоте с линейным предсказанием и т.п. Дополнительная информация о временной огибающей может быть сгенерирована путем определения K(r) или s(i) на основании одного или множества значений параметров. Например, дополнительная информация о временной огибающей может быть сгенерирована путем определения K(r) или s(i) на основании (bi+1-b i) так, чтобы K(r) или s(i) уменьшались при увеличении ширины (bi+1-bi) огибающей SBR во временной области, или чтобы K(r) или s(i) увеличивались при увеличении ширины (bi+1-bi) огибающей SBR во временной области. Аналогичные изменения также могут быть произведены в первом варианте осуществления изобретения и в третьем варианте осуществления изобретения.
(Модификация 2 четвертого Варианта осуществления изобретения)
Устройство 24b декодирования речи (см. Фиг.15) из модификации 2 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24b декодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24b декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24b декодирования речи принимает закодированный мультиплексированный поток битов, выведенный из устройства 11 кодирования речи или из устройства 13 кодирования речи, и выводит декодированный речевой сигнал наружу из устройства 24b декодирования речи. Устройство 24b декодирования речи, проиллюстрированное на фиг.15, включает в себя блок 2j1 первичной коррекции высоких частот и блок 2j2 вторичной коррекции высоких частот вместо блока 2j коррекции высоких частот.
Здесь блок 2j1 первичной коррекции высоких частот корректирует сигнал в области QMF высокочастотного диапазона путем выполнения обратной фильтрации с линейным предсказанием во временной области, регулировку усиления и добавление шума, что описано в описании этапа "генерация высоких частот" ("HF generation") и этапа "коррекция высоких частот" ("HF adjustment") в способе SBR согласно стандарту "MPEG4 AAC". Здесь выходной сигнал из блока 2j1 первичной коррекции высоких частот соответствует сигналу W2 в описании "инструментального средства SBR" ("SBR tool") в документе "ISO/IEC 14496-3:2005", пункты 4.6.18.7.6 раздела "Assembling HF signals". Блок 2k фильтра с линейным предсказанием (или блок 2k1 фильтра с линейным предсказанием) и блок 2v формирования временной огибающей формируют временную огибающую выходного сигнала из блока первичной коррекции высоких частот. Блок 2j2 вторичной коррекции высоких частот выполняет процедуру добавления синусоид на этапе "коррекция высоких частот" ("HF Adjustment") в способе SBR согласно стандарту "MPEG4 AAC". Процедура, выполняемая блоком вторичной коррекции высоких частот, соответствует процедуре генерации сигнала Y из сигнала W2 в описании "инструментального средства SBR" ("SBR tool") в документе "ISO/IEC 14496-3:2005", пункты 4.6.18.7.6 раздела "Assembling HF signals", в котором сигнал W2 заменен выходным сигналом из блока 2v формирования временной огибающей.
В приведенном выше описании блок 2j2 вторичной коррекции высоких частот выполняет только лишь процедуру добавления синусоиды. Однако блоком 2j2 вторичной коррекции высоких частот может быть выполнена любая из операций способа, выполняемых на этапе "коррекция высоких частот" ("HF Adjustment"). Также могут быть произведены аналогичные видоизменения для первого варианта осуществления изобретения, второго варианта осуществления изобретения и третьего варианта осуществления изобретения. В этих случаях первый вариант осуществления изобретения и второй вариант осуществления изобретения включают в себя блок фильтра с линейным предсказанием (блоки 2k и 2k1 фильтра с линейным предсказанием), но не включают в себя блок формирования временной огибающей. Соответственно, выходной сигнал из блока 2j1 первичной коррекции высоких частот обрабатывают блоком фильтра с линейным предсказанием, а затем выходной сигнал из блока фильтра с линейным предсказанием обрабатывают блоком 2j2 вторичной коррекции высоких частот.
Третий вариант осуществления изобретения включает в себя блок 2v формирования временной огибающей, но не включает в себя блок фильтра с линейным предсказанием. Соответственно, выходной сигнал из блока 2j1 первичной коррекции высоких частот обрабатывают 2v блоком формирования временной огибающей, и затем выходной сигнал из блока 2v формирования временной огибающей обрабатывают блоком вторичной коррекции высоких частот.
В устройстве декодирования речи (в устройстве 24, 24a или 24b декодирования речи) из четвертого варианта осуществления изобретения порядок следования операций обработки, выполняемых блоком 2k фильтра с линейным предсказанием и блоком 2v формирования временной огибающей, может быть изменен на обратный. Другими словами, выходной сигнал из блока 2j коррекции высоких частот или из блока 2j1 первичной коррекции высоких частот может быть обработан сначала блоком 2v формирования временной огибающей, а затем выходной сигнал из блока 2v формирования временной огибающей может быть обработан блоком 2k фильтра с линейным предсказанием.
Кроме того, дополнительная информация о временной огибающей в том виде, когда она дополнительно включает в себя в качестве информации, по меньшей мере, один из следующих параметров: параметр K(r), характеризующий силу фильтра, параметр s(i), характеризующий форму огибающей, или X(r), который представляет собой параметр для определения обоих параметров K(r) и s(i), может быть использована только в том случае, если дополнительная информация о временной огибающей включает в себя двоичную управляющую информацию для указания того, будет ли способ выполняться блоком 2k фильтра с линейным предсказанием или блоком 2v формирования временной огибающей, и управляющая информация указывает, каким блоком следует выполнять способ: блоком 2k фильтра с линейным предсказанием или же блоком 2v формирования временной огибающей.
(Модификация 3 четвертого варианта осуществления изобретения)
Устройство 24c декодирования речи (см. Фиг.16) из модификации 3 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24c декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.17), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24c декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24c декодирования речи принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства 24c декодирования речи. Как проиллюстрировано на фиг.16, устройство 24c декодирования речи включает в себя блок 2j3 первичной коррекции высоких частот и блок 2j4 вторичной коррекции высоких частот вместо блока 2j коррекции высоких частот, а также включает в себя блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала вместо блока 2k фильтра с линейным предсказанием и блока 2v формирования временной огибающей (блоки коррекции отдельных составляющих сигнала, соответствуют средству формирования временной огибающей).
Блок 2j3 первичной коррекции высоких частот выводит сигнал в области QMF высокочастотного диапазона как составляющую, являющуюся копией сигнала. В качестве составляющей, являющейся копией сигнала, блок 2j3 первичной коррекции высоких частот может выводить сигнал, с которым выполнена, по меньшей мере, одна из следующих операций: обратная фильтрация с линейным предсказанием во временной области и регулировка усиления (коррекция частотных характеристик) для сигнала в области QMF высокочастотного диапазона, с использованием дополнительной информации об SBR, принятой из блока 2a3 разделения потока битов. Блок 2j3 первичной коррекции высоких частот также генерирует составляющую, являющуюся шумовым сигналом, и составляющую, являющуюся синусоидальным сигналом, с использованием дополнительной информации об SBR, поданной из блока 2a3 разделения потока битов, и выводит каждую из составляющих: составляющую, являющуюся копией сигнала, составляющую, являющуюся шумовым сигналом, и составляющую, являющуюся синусоидальным сигналом, по отдельности (операция Sg1 способа). Генерация составляющей, являющейся шумовым сигналом, и составляющей, являющейся синусоидальным сигналом, может не производиться, что зависит от содержания дополнительной информации об SBR.
Блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала выполняют обработку каждой из множества составляющих сигнала, содержащихся в выходном сигнале из блока первичной коррекции высоких частот (операция Sg2 способа). Процедурой, выполняемой блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, может являться синтезирующая фильтрация по частоте с линейным предсказанием с использованием полученных из блока коррекции силы фильтра 2f, коэффициентов линейного предсказания, аналогичная процедуре, выполняемой блоком 2k фильтра с линейным предсказанием (процедура 1). Процедурой, выполняемой блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, также может являться процедура умножения каждой выборки из поддиапазона QMF на коэффициент усиления с использованием временной огибающей, полученной из блока 2s коррекции формы огибающей, аналогичная процедуре, выполняемой блоком 2v формирования временной огибающей (процедура 2). Процедурой, выполняемой блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, также может являться процедура выполнения синтезирующей фильтрации входного сигнала по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, полученных из блока 2f коррекции силы фильтра, аналогичная процедуре, выполняемой блоком 2k фильтра с линейным предсказанием, и последующая процедура умножения каждой выборки из поддиапазона QMF на коэффициент усиления с использованием временной огибающей, полученной из блока 2s коррекции формы огибающей, аналогичная процедуре, выполняемой блоком 2v формирования временной огибающей (процедура 3). Процедурой, выполняемой блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, также может являться процедура умножения каждой выборки из поддиапазона QMF применительно к входному сигналу на коэффициент усиления с использованием временной огибающей, полученной из блока 2s коррекции формы огибающей, аналогичная процедуре, выполняемой блоком 2v формирования временной огибающей, и последующая процедура выполнения синтезирующей фильтрации выходного сигнала по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, полученных из блока 2f коррекции силы фильтра, аналогичная процедуре, выполняемой блоком 2k фильтра с линейным предсказанием (процедура 4). Блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала могут не выполнять процедуру формирования временной огибающей по входному сигналу, но могут выводить входной сигнал в неизмененном виде (процедура 5). Процедура, выполняемая блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, может включать в себя любую процедуру формирования временной огибающей входного сигнала с использованием иной процедуры, чем процедуры 1-5 (процедура 6). Процедурой, выполняемой блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, также может являться процедура, в которой множество процедур из процедур 1-6 объединены в произвольном порядке (процедура 7).
Процедуры, выполняемые блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, могут быть одинаковыми, но блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала могут формировать временную огибающую каждой из множества составляющих сигнала, содержащихся в выходном сигнале из блока первичной коррекции высоких частот, различными способами. Например, различные процедуры могут быть выполнены с копией сигнала, с шумовым сигналом и с синусоидальным сигналом таким образом, что блок 2z1 коррекции отдельной составляющей сигнала выполняет процедуру 2 с поданной копией сигнала, блок 2z2 коррекции отдельной составляющей сигнала выполняет способ процедуру 3 с поданной составляющей, являющейся шумовым сигналом, а блок 2z3 коррекции отдельной составляющей сигнала выполняет процедуру 5 с поданным синусоидальным сигналом. В этом случае блок 2f коррекции силы фильтра и блок 2s коррекции формы огибающей могут передавать одинаковые коэффициенты линейного предсказания и временные огибающие в блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, но также могут передавать различные коэффициенты линейного предсказания и временные огибающие. Также одинаковые коэффициенты линейного предсказания и временные огибающие могут быть переданы, по меньшей мере, в два блока из блоков 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала. Поскольку, по меньшей мере, один из блоков 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала может не выполнять процедуру формирования временной огибающей, а выводить входной сигнал в неизмененном виде (процедура 5), то, в целом, блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала выполняют процедуру формирования временной огибающей, по меньшей мере, для одной из множества составляющих сигнала, выведенных из блока 2j3 первичной коррекции высоких частот (если все блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала выполняют процедуру 5, то процедуру формирования временной огибающей не выполняют ни для одной из составляющих сигнала, и положительные эффекты настоящего изобретения не проявляются).
Процедуры, выполняемые каждым из блоков 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, могут быть установлены на постоянной основе как одна из процедур с процедуры 1 по процедуру 7, но могут быть определены динамически как выполнение одной из процедур с процедуры 1 по процедуру 7 на основании управляющей информации, принятой извне устройства 24c декодирования речи. Здесь предпочтительно, чтобы управляющая информация была включена в состав мультиплексированного потока битов. Управляющей информацией может являться команда на выполнение любой из процедур с процедуры 1 по процедуру 7 в конкретном отрезке времени огибающей SBR, в закодированном кадре или в ином отрезке времени, или ею может являться команда на выполнение любой из процедур с процедуры 1 по процедуру 7 без указания отрезка времени, в котором осуществляют управление.
Блок 2j4 вторичной коррекции высоких частот суммирует обработанные составляющие сигнала, выведенные из блоков 2z1, 2z2, и 2z3 коррекции отдельных составляющих сигнала, и выводит результат в блок суммирования коэффициентов (операция Sg3 способа). Блок 2j4 вторичной коррекции высоких частот может выполнять, по меньшей мере, одну из операций, которыми являются обратная фильтрация с линейным предсказанием во временной области и регулировка усиления (коррекция частотных характеристик), с составляющей, являющейся копией сигнала, с использованием дополнительной информации об SBR, принятой из блока 2a3 разделения потока битов.
Блоки 2z1, 2z2, и 2z3 коррекции отдельных составляющих сигнала могут работать во взаимодействии друг с другом и генерировать выходной сигнал на промежуточной стадии путем суммирования, по меньшей мере, двух составляющих сигнала, для которых выполняют любую из процедур 1-7, и дополнительно выполнять любую из процедур 1-7 для просуммированного сигнала. Здесь блок 2j4 вторичной коррекции высоких частот суммирует выходной сигнал на промежуточной стадии и составляющую сигнала, которая еще не просуммирована с выходным сигналом на промежуточной стадии, и выводит результат в блок суммирования коэффициентов. В частности, предпочтительно генерировать выходной сигнал на промежуточной стадии путем выполнения процедуры 5 для составляющей, являющейся копией сигнала, путем применения процедуры 1 к шумовой составляющей, суммирования этих двух составляющих сигнала и дальнейшего применения процедуры 2 к просуммированному сигналу. При этом, блок 2j4 вторичной коррекции высоких частот суммирует составляющую, являющуюся синусоидальным сигналом, с выходным сигналом на промежуточной стадии и выводит результат в блок суммирования коэффициентов.
Блок 2j3 первичной коррекции высоких частот может выводить любую из множества составляющих сигнала в виде, в котором отделены одна от другой, в дополнение к трем составляющим сигнала, которыми являются составляющая, являющаяся копией сигнала, составляющая, являющаяся шумовым сигналом, и составляющая, являющаяся синусоидальным сигналом. В этом случае составляющая сигнала может быть получена путем суммирования, по меньшей мере, двух составляющих из составляющей, являющейся копией сигнала, составляющей, являющейся шумовым сигналом, и составляющей, являющейся синусоидальным сигналом. Составляющей сигнала также может являться сигнал, полученный путем разделения полосы частот одной из составляющих, которыми являются составляющая, являющаяся копией сигнала, составляющая, являющаяся шумовым сигналом, и составляющая, являющаяся синусоидальным сигналом. Количество составляющих сигнала может быть иным, чем три, и в этом случае количество блоков коррекции отдельных составляющих сигнала может быть иным, чем три.
Высокочастотный сигнал, сгенерированный способом SBR, состоит из трех элементов, которыми являются составляющая, являющаяся копией сигнала, которая получена путем копирования из низкочастотного диапазона в высокочастотный диапазон, шумовой сигнал и синусоидальный сигнал. Поскольку копия сигнала, шумовой сигнал и синусоидальный сигнал имеют временные огибающие, отличающиеся одна от другой, то если временная огибающая каждой из составляющих сигнала сформирована с использованием различных способов в качестве блоков коррекции отдельных составляющих сигнала настоящей модификации, можно дополнительно улучшить субъективное качество декодированного сигнала по сравнению с другими вариантами осуществления настоящего изобретения. В частности, поскольку шумовой сигнал обычно имеет гладкую временную огибающую, а копия сигнала имеет временную огибающую, близкую к временной огибающей сигнала в низкочастотном диапазоне, то можно независимо управлять временными огибающими копии сигнала и шумового сигнала путем их обработки по отдельности и путем применения к ним различных процедур. Соответственно, это является эффективным для улучшения субъективного качества декодированного сигнала. В частности, предпочтительно выполнять процедуру формирования временной огибающей шумового сигнала (процедуру 3 или процедуру 4), выполнять для копии сигнала иную процедуру (процедуру 1 или процедуру 2), чем процедура для шумового сигнала, и выполнять процедуру 5 для синусоидального сигнала (другими словами, без выполнения процедуры формирования временной огибающей). Также предпочтительно выполнять процедуру формирования (процедуру 3 или процедуру 4) временной огибающей для шумового сигнала и выполнять процедуру 5 для копии сигнала и для синусоидального сигнала (другими словами, без выполнения процедуры формирования временной огибающей).
(Модификация 4 первого варианта осуществления изобретения)
Устройство 11b кодирования речи (см. Фиг.44) из модификации 4 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 11b кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11b кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 11b кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 11b кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 11b кодирования речи. Устройство 11b кодирования речи включает в себя блок 1e1 анализа с линейным предсказанием вместо блока анализа 1e с линейным предсказанием из устройства 11 кодирования речи и дополнительно включает в себя блок 1p выбора временного интервала.
Блок 1p выбора временного интервала принимает сигнал в области QMF из блока преобразования частоты 1a и выбирает временной интервал, в котором блок 1e1 анализа с линейным предсказанием выполняет анализ с линейным предсказанием. Блок 1e1 анализа с линейным предсказанием выполняет анализ сигнала в области QMF с линейным предсказанием в выбранном временном интервале, как и блок 1e анализа с линейным предсказанием, на основании результата выбора, переданного из блока 1p выбора временного интервала, для получения, по меньшей мере, одних из следующих коэффициентов: коэффициентов линейного предсказания для высоких частот и коэффициентов линейного предсказания для низких частот. Блок 1f вычисления параметра, характеризующего силу фильтра, вычисляет параметр, характеризующий силу фильтра, с использованием коэффициентов линейного предсказания для временного интервала, выбранного блоком 11p выбора временного интервала, которые получены блоком 1e1 анализа с линейным предсказанием. Для выбора временного интервала блоком 1p выбора временного интервала может использоваться, например, по меньшей мере, один из способов выбора, в котором используют мощность сигнала высокочастотных составляющих сигнала в области QMF, аналогичный способу, используемому в блоке 3a выбора временного интервала в устройстве декодирования 21a из данной модификации, описание которого приведено ниже. Здесь предпочтительно, чтобы сигнал в области QMF из высокочастотных составляющих в блоке 1p выбора временного интервала представлял собой частотную составляющую, закодированную блоком 1d SBR-кодирования, из сигналов в области QMF, принятых из блока 1a преобразования частоты. Способом выбора временного интервала может являться, по меньшей мере, один из описанных выше способов, он может включать в себя, по меньшей мере, один способ, отличающийся от описанных выше способов, или может представлять собой их комбинацию.
Устройство 21a декодирования речи (см. Фиг.18) из модификации 4 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 21a декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.19), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 21a декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 21a декодирования речи принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства 21a декодирования речи. Устройство 21a декодирования речи, проиллюстрированное на фиг.18, включает в себя блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1 обнаружения изменения сигнала, 2h1 блок анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием вместо блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 21 декодирования речи, и дополнительно включает в себя блок 3a выбора временного интервала.
Блок 3a выбора временного интервала определяет, следует ли выполнять в блоке 2k фильтра с линейным предсказанием синтезирующую фильтрацию сигнала qexp(k, r) с линейным предсказанием в области QMF высокочастотных составляющих из временного интервала r, сгенерированных 2g блоком генерации высоких частот, и выбирает временной интервал, в котором выполняют синтезирующую фильтрацию с линейным предсказанием (операция Sh1 способа). Блок 3a выбора временного интервала уведомляет блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1 обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием, блок обратного 2i1 фильтра с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием о результате выбора временного интервала. Блок 2d1 анализа низких частот с линейным предсказанием выполняет анализ сигнала с линейным предсказанием в области QMF в выбранном временном интервале r1 тем же самым способом, что и блок 2d анализа низких частот с линейным предсказанием, на основании результата выбора, переданного из блока 3a выбора временного интервала, для получения коэффициентов линейного предсказания для низких частот (операция Sh2 способа). Блок 2el обнаружения изменения сигнала обнаруживает изменение сигнала во времени в области QMF в выбранном временном интервале, как и блок 2e обнаружения изменения сигнала, на основании результата выбора, переданного из блока 3a выбора временного интервала, и выводит результат T(r1) обнаружения.
Блок 2f коррекции силы фильтра выполняет коррекцию силы фильтра для коэффициентов линейного предсказания для низких частот из временного интервала, выбранного блоком 3a выбора временного интервала, которые получены блоком 2d1 анализа низких частот с линейным предсказанием, для получения скорректированных коэффициентов adec(n,r1) линейного предсказания. Блок 2h1 анализа высоких частот с линейным предсказанием выполняет анализ сигнала по частоте с линейным предсказанием в области QMF высокочастотных составляющих, сгенерированных блоком 2g генерации высоких частот для выбранного временного интервала r1, на основании результата выбора, переданного из блока 3a выбора временного интервала, как и блок 2h анализа высоких частот с линейным предсказанием, для получения коэффициентов aexp (n, r1) линейного предсказания для высоких частот (операция Sh3 способа). Блок 2i1 обратного фильтра с линейным предсказанием выполняет обратную фильтрацию сигнала qexp(k, r) по частоте с линейным предсказанием, при которой коэффициентами являются aexp(n, r1), в области QMF высокочастотных составляющих из выбранного временного интервала r1, как и блок 2i обратного фильтра с линейным предсказанием, на основании результата выбора, переданного из блока 3a выбора временного интервала (операция Sh4 способа).
Блок 2k3 фильтра с линейным предсказанием выполняет синтезирующую фильтрацию сигнала qadj(k, r1) по частоте с линейным предсказанием в области QMF высокочастотных составляющих, выведенных из блока 2j коррекции высоких частот, в выбранном временном интервале r1 с использованием aadj (n, r1), полученных из блока 2f коррекции силы фильтра, как и блок 2k фильтра с линейным предсказанием, на основании результата выбора, переданного из блока 3a выбора временного интервала (операция Sh5 способа). Изменения, внесенные в блок 2k фильтра с линейным предсказанием, описанный в модификации 3, также могут быть внесены в блок 2k3 фильтра с линейным предсказанием. Например, для выбора временного интервала, в котором выполняют синтезирующую фильтрацию с линейным предсказанием, блок 3a выбора временного интервала может выбрать, по меньшей мере, один временной интервал r, в котором мощность сигнала qexp(k, r) высокочастотных составляющих в области QMF превышает заданное значение P exp,Th. Предпочтительно вычислять мощность сигнала q exp(k, r) согласно приведенному ниже выражению.
где М - значение, отображающее диапазон более высоких частот, чем нижняя предельная частота kx высокочастотных составляющих, сгенерированных блоком 2g генерации высоких частот, и диапазон частот высокочастотных составляющих, сгенерированных блоком 2g генерации высоких частот, может быть представлен как kx k<kx+M. Заданным значением Pexp,Th также может являться среднее значение Pexp(r) в отрезке времени, включающем в себя временной интервал r. Отрезком времени также может являться огибающая SBR.
Выбор также может быть сделан таким образом, что включает в себя временной интервал, в котором мощность сигнала высокочастотных составляющих сигнала в области QMF достигает своего максимума. Максимальная мощность сигнала может быть вычислена, например, с использованием скользящего среднего значения:
мощности сигнала, а максимальной мощностью сигнала может являться мощность сигнала высокочастотных составляющих из временного интервала r в области QMF, при которой результат:
изменяется с положительной величины на отрицательную величину. Например, скользящее среднее значение
мощности сигнала может быть вычислено согласно приведенному ниже выражению.
где c - заданное значение для определения интервала для вычисления среднего значения. Максимальная мощность сигнала может быть вычислена описанным выше способом или может быть вычислена иным способом.
По меньшей мере, один временной интервал может быть выбран из временных интервалов, содержащихся в отрезке t времени, в течение которого сигнал высокочастотных составляющих в области QMF переходит из стационарного состояния с малым изменением его мощности сигнала в переходное состояние с большим изменением его мощности сигнала, и который является меньшим, чем заданное значение tth. По меньшей мере, один временной интервал также может быть выбран из временных интервалов, содержащихся в отрезке t времени, в течение которого мощность сигнала высокочастотных составляющих сигнала в области QMF изменяется, переходя из переходного состояния с большим изменением в стационарное состояние с малым изменением, и которые являются большими, чем заданное значение tth. Временным интервалом r, в котором |Pexp(r+1)-Pexp(r)| является меньшим, чем заданное значение (или равным или меньшим, чем заданное значение), может являться стационарное состояние, а временным интервалом r, в котором |Pexp(r+1)-Pexp (r)| является равным или большим, чем заданное значение (или большим, чем заданное значение), может переходное состояние. Временным интервалом r, в котором |Pexp,MA(r+1)-P exp,MA(r)| является меньшим, чем заданное значение (или равным или меньшим, чем заданное значение), может являться стационарное состояние, и временным интервалом r, в котором |Pexp,MA (r+1)-Pexp,MA(r)| является равным или большим, чем заданное значение (или большим, чем заданное значение), может являться переходное состояние. Переходное состояние и стационарное состояние могут быть определены с использованием описанного выше способа или могут быть определены с использованием иных способов. Способом выбора временного интервала может являться, по меньшей мере, один из описанных выше способов, он может включать в себя, по меньшей мере, один способ, отличающийся от описанных выше способов, или может представлять собой их комбинацию.
(Модификация 5 первого варианта осуществления изобретения)
Устройство 11c кодирования речи (см. Фиг.45) из модификации 5 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 11c кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11c кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 11c кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 11c кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 11c кодирования речи. Устройство 11c кодирования речи включает в себя блок 1p1 выбора временного интервала и блок 1g4 мультиплексирования потока битов, вместо блока 1p выбора временного интервала и блока 1g мультиплексирования потока битов, входящих в состав устройства 11b кодирования речи из модификации 4.
Блок 1p1 выбора временного интервала выбирает временной интервал, как и блок 1p выбора временного интервала, описанный в модификации 4 первого варианта осуществления изобретения, и передает информацию о выборе временного интервала в блок 1g4 мультиплексирования потока битов. Блок 1g4 мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного 1c блоком кодирования базовым кодеком, дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, и параметра, характеризующего силу фильтра, который вычислен блоком 1f вычисления параметра, характеризующего силу фильтра, как и блок 1g мультиплексирования потока битов, также выполняет мультиплексирование информации о выборе временного интервала, принятой из блока 1p1 выбора временного интервала, и выводит мультиплексированный поток битов через устройство связи, входящее в состав устройства 11c кодирования речи. Информацией о выборе временного интервала является информация о выборе временного интервала, принятая блоком 3a1 выбора временного интервала в устройстве 21b декодирования речи, описание которого приведено ниже, и в состав этой информации может быть включен, например, индекс r1 выбираемого временного интервала. Информацией о выборе временного интервала также может являться параметр, используемый в способе выбора временного интервала, который выполняет блок 3a1 выбора временного интервала. Устройство 21b декодирования речи (см. Фиг.20) из модификации 5 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 21b декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.21), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11 кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 21b декодирования речи принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства 21b декодирования речи.
Устройство 21b декодирования речи, проиллюстрированное на фиг.20, включает в себя блок 2a5 разделения потока битов и блок 3a1 выбора временного интервала вместо блока 2a разделения потока битов и блока 3a выбора временного интервала, входящих в состав устройства 21a декодирования речи из модификации 4, и информацию о выборе временного интервала подают в блок 3a1 выбора временного интервала. Блок 2a5 разделения потока битов разделяет мультиплексированный поток битов на параметр, характеризующий силу фильтра, дополнительную информацию об SBR, и закодированный поток битов как блок разделения потока битов 2a, и, кроме того, отделяет информацию о выборе временного интервала. Блок 3a1 выбора временного интервала выбирает временной интервал на основании информации о выборе временного интервала, переданной из блока 2a5 разделения потока битов (операция Si1 способа). Информацией о выборе временного интервала является информация, используемая для выбора временного интервала, и, например, она может включать в себя индекс r1 выбираемого временного интервала. Например, информацией о выборе временного интервала также может являться параметр, используемый в способе выбора временного интервала, описанном в модификации 4. В этом случае, хотя он и не проиллюстрирован, сигнал высокочастотных составляющих, сгенерированных блоком 2g генерации высоких частот, в области QMF может быть подан в блок выбора временного интервала 3a1, в дополнение к информации о выборе временного интервала. Параметром также может являться заданное значение (например, Pexp,Th и tTh), используемое для выбора временного интервала.
(Модификация 6 первого варианта осуществления изобретения)
Устройство 11d кодирования речи (не проиллюстрировано) из модификации 6 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 11d кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11d кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 11d кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 11d кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 11d кодирования речи. Устройство 11d кодирования речи включает в себя блок 1i1 вычисления кратковременной мощности, который не проиллюстрирован, вместо блока 1i вычисления кратковременной мощности входящих в состав устройства 11a кодирования речи из модификации 1, и дополнительно включает в себя блок 1p2 выбора временного интервала.
Блок выбора временного интервала 1p2 принимает сигнал в области QMF из блока 1a преобразования частоты и выбирает временной интервал, соответствующий отрезку времени, в котором блок 1i вычисления кратковременной мощности выполняет процедуру вычисления мощности. Блок 1i1 вычисления кратковременной мощности вычисляет кратковременную мощность в отрезке времени, соответствующем выбранному временному интервалу, на основании результата выбора, переданного из блока 1p2 выбора временного интервала, как и блок 1i вычисления кратковременной мощности из устройства 11a кодирования речи из модификации 1.
(Модификация 7 первого варианта осуществления изобретения)
Устройство 11e кодирования речи (не проиллюстрировано) из модификации 7 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 11e кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 11e кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 11e кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 11e кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 11e кодирования речи. Устройство 11e кодирования речи включает в себя блок 1p3 выбора временного интервала, который не проиллюстрирован, вместо блока 1p2 выбора временного интервала, входящего в состав устройства 11d кодирования речи из модификации 6. Устройство 11e кодирования речи также включает в себя блок мультиплексирования потока битов, который дополнительно принимает выходной сигнал из блока 1p3 выбора временного интервала, вместо блока 1g1 мультиплексирования потока битов. Блок 1p3 выбора временного интервала выбирает временной интервал так же, как и блок 1p2 выбора временного интервала, описанный в модификации 6 первого варианта осуществления изобретения, и передает информацию о выборе временного интервала в блок мультиплексирования потока битов.
(Модификация 8 первого варианта осуществления изобретения)
Устройство 11d кодирования речи (не проиллюстрировано) из модификации 8 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством кодирования речи из модификации 8 путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства кодирования речи из модификации 8, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи, входящее в состав устройства кодирования речи из модификации 8 принимает речевой сигнал, подлежащий кодированию, извне устройства кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства кодирования речи. Устройство кодирования речи из модификации 8 дополнительно включает в себя блок 1p выбора временного интервала в дополнение к блокам из устройства кодирования речи, описанного в модификации 2.
Устройство 11d декодирования речи (не проиллюстрировано) из модификации 8 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством декодирования речи из модификации 8 путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства декодирования речи из модификации 8, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи, входящее в состав устройства декодирования речи из модификации 8, принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства декодирования речи. Устройство декодирования речи из модификации 8 дополнительно включает в себя блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1 обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием, блок 211 обратного фильтра с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием вместо блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блока 2k фильтра с линейным предсказанием, входящих в состав устройства декодирования речи, описанного в модификации 2, и дополнительно включает в себя блок 3a выбора временного интервала.
(Модификация 9 первого варианта осуществления изобретения)
Устройство кодирования речи (не проиллюстрировано) из модификации 9 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством кодирования речи из модификации 9 путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства кодирования речи из модификации 9, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи, входящее в состав устройства кодирования речи из модификации 9, принимает речевой сигнал, подлежащий кодированию, извне устройства кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства кодирования речи. Устройство кодирования речи из модификации 9 включает в себя блок 1p1 выбора временного интервала вместо блока 1p выбора временного интервала из устройства кодирования речи, описанного в модификации 8. Устройство кодирования речи из модификации 9 дополнительно включает в себя вместо блока мультиплексирования потока битов, описанного в модификации 8, блок мультиплексирования потока битов, который принимает выходной сигнал из блока 1p1 выбора временного интервала в дополнение к входному сигналу, подаваемому в блок мультиплексирования потока битов, описанный в модификации 8.
Устройство декодирования речи (не проиллюстрировано) из модификации 9 первого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством декодирования речи из модификации 9 путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства декодирования речи из модификации 9, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи, входящее в состав устройства декодирования речи из модификации 9, принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства декодирования речи. Устройство декодирования речи из модификации 9 включает в себя блок 3a1 выбора временного интервала вместо блока 3a выбора временного интервала из устройства декодирования речи, описанного в модификации 8. Устройство декодирования речи из модификации 9 дополнительно включает в себя блок разделения потока битов, который разделяет aD(n,r), описанный в модификации 2, вместо параметра, характеризующего силу фильтра, из блока 2a5 разделения потока битов вместо блока 2a разделения потока битов.
(Модификация 1 второго варианта осуществления изобретения)
Устройство 12a кодирования речи (см. Фиг.46) из модификации 1 второго варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 12a кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 12a кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 12a кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 12a кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 12a кодирования речи. Устройство 12a кодирования речи включает в себя блок 1e1 анализа с линейным предсказанием вместо блока 1e анализа с линейным предсказанием, входящих в состав устройства 12 кодирования речи, и дополнительно включает в себя блок 1p выбора временного интервала.
Устройство 22a декодирования речи (см. Фиг.22) из модификации 1 второго варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 22a декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.23), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 22a декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 22a декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 22a декодирования речи. Устройство 22a декодирования речи, проиллюстрированное на фиг.22, включает в себя блок 2h1 анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием, блок 2k2 фильтра с линейным предсказанием и блок 2p1 интерполяции/экстраполяции коэффициентов линейного предсказания вместо блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием, блока 2k1 фильтра с линейным предсказанием и блока 2p интерполяции/экстраполяции коэффициентов линейного предсказания, входящих в состав устройства 22 декодирования речи из второго варианта осуществления изобретения, и дополнительно включает в себя блок 3a выбора временного интервала.
Блок 3a выбора временного интервала уведомляет блок 2h1 анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием, блок 2k2 фильтра с линейным предсказанием и блок 2p1 интерполяции/экстраполяции коэффициентов линейного предсказания о результатах выбора временного интервала. Блок 2p1 интерполяции/экстраполяции коэффициентов линейного предсказания получает aH(n, r), соответствующий временному интервалу r1, который является выбранным временным интервалом, и для которого коэффициенты линейного предсказания не передают, путем интерполяции или экстраполяции, как и блок 2p интерполяции/экстраполяции коэффициентов линейного предсказания, на основании результата выбора, переданного из блока 3a выбора временного интервала (операция Sj1 способа). Блок 2k2 фильтра с линейным предсказанием выполняет синтезирующую фильтрацию qadj(n,r1), выведенного из блока 2j коррекции высоких частот, по частоте с линейным предсказанием для выбранного временного интервала r1 с использованием aH(n, r1), подвергаемого интерполяции или экстраполяции, и полученного из блока 2p1 интерполяции/экстраполяции коэффициентов линейного предсказания, как и блок 2k1 фильтра с линейным предсказанием (операция Sj2 способа), на основании результата выбора, переданного из блока 3a выбора временного интервала. Изменения, внесенные в блок 2k фильтра с линейным предсказанием, описанный в модификации 3 первого варианта осуществления изобретения, также могут быть внесены в блок 2k2 фильтра с линейным предсказанием.
(Модификация 2 второго варианта осуществления изобретения)
Устройство 12b кодирования речи (см. Фиг.47) из модификации 2 второго варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 12b кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 12b кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 12b кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 12b кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 12b кодирования речи. Устройство 12b кодирования речи включает в себя блок 1p1 выбора временного интервала и блок 1g5 мультиплексирования потока битов вместо блока 1p выбора временного интервала и блока 1g2 мультиплексирования потока битов, входящих в состав устройства 12a кодирования речи из модификации 1. Блок 1g5 мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного блоком 1c кодирования базовым кодеком, дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, и индексов временных интервалов, соответствующих квантованным коэффициентам линейного предсказания, принятым из блока 1k квантования коэффициентов линейного предсказания, как и блок 1g2 мультиплексирования потока битов, дополнительно выполняет мультиплексирование информации о выборе временного интервала, принятой из блока 1p1 выбора временного интервала, и выводит мультиплексированный поток битов через устройство связи, входящее в состав устройства 12b кодирования речи.
Устройство 22b декодирования речи (см. Фиг.47) из модификации 2 второго варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 22b декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.25), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 22b декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 22b декодирования речи принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства декодирования речи 22b. Устройство 22b декодирования речи, проиллюстрированное на фиг.24, включает в себя блок 2a6 разделения потока битов и блок 3a1 выбора временного интервала вместо блока 2a1 разделения потока битов и блока 3a выбора временного интервала из устройства 22a декодирования речи, описанного в модификации 1, и информацию о выборе временного интервала подают в блок 3a1 выбора временного интервала. Блок 2a6 разделения потока битов разделяет мультиплексированный поток битов на aH(n, ri), подвергаемый квантованию, индекс ri соответствующего временного интервала, дополнительную информацию об SBR и закодированный поток битов, как и блок битов 2a1 разделения потока, и дополнительно отделяет информацию о выборе временного интервала.
(Модификация 4 третьего варианта осуществления изобретения)
которое описано в модификации 1 третьего варианта осуществления изобретения, может являться среднее значение e(r) в огибающей SBR, или им может являться значение, определенное каким-либо иным образом.
(Модификация 5 третьего варианта осуществления изобретения)
Как описано в модификации 3 третьего варианта осуществления изобретения, предпочтительно, чтобы блок 2s коррекции формы огибающей корректировал eadj(r) с использованием заданного значения e adj,Th(r) с учетом того, что скорректированная временная огибающая eadj(r) представляет собой выборку из поддиапазона QMF, умноженную на коэффициент усиления, например, как выражение (28) и как выражения (37) и (38).
(Четвертый Вариант осуществления изобретения)
Устройство кодирования речи (см. Фиг.48) из четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 14 кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 14 кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 14 кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 14 кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 14 кодирования речи. Устройство 14 кодирования речи включает в себя блок 1g7 мультиплексирования потока битов вместо блока 1g мультиплексирования потока битов из устройства 11b кодирования речи из модификации 4 первого варианта осуществления изобретения и дополнительно включает в себя блок 1m вычисления временной огибающей и блок 1n вычисления параметра, характеризующего форму огибающей, входящие в состав устройства 13 кодирования речи.
Блок 1g7 мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного блоком 1c кодирования базовым кодеком и дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, как и блок 1g мультиплексирования потока битов, осуществляет преобразование параметра, характеризующего силу фильтра, который вычислен блоком вычисления параметра, характеризующего силу фильтра, и параметра, характеризующего форму огибающей, который вычислен блоком 1n вычисления параметра, характеризующего форму огибающей, в дополнительную информацию о временной огибающей, выполняет их мультиплексирование и выводит мультиплексированный поток битов (закодированный мультиплексированный поток битов) через устройство связи, входящее в состав устройства 14 кодирования речи.
(Модификация 4 четвертого варианта осуществления изобретения)
Устройство 14a кодирования речи (см. Фиг.49) из модификации 4 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 14a кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 14a кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 14a кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 14a кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 14a кодирования речи. Устройство 14a кодирования речи включает в себя блок 1e1 анализа с линейным предсказанием вместо блока 1e анализа с линейным предсказанием, входящего в состав устройства 14 кодирования речи из четвертого варианта осуществления изобретения, и дополнительно включает в себя блок 1p выбора временного интервала.
Устройство 24d декодирования речи (см. Фиг.26) из модификации 4 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24d декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.27), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24d декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24d декодирования речи принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства 24d декодирования речи. Устройство 24d декодирования речи, проиллюстрированное на фиг.26, включает в себя блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1 обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием вместо блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 24 декодирования речи, и дополнительно включает в себя блок 3a выбора временного интервала. Блок 2v формирования временной огибающей формирует сигнал, полученный из блока 2k3 фильтра с линейным предсказанием, в области QMF с использованием информации о временной огибающей, полученной из блока 2s коррекции формы огибающей, как и блок 2v формирования временной огибающей из третьего варианта осуществления изобретения, из четвертого варианта осуществления изобретения и их модификаций (операция Sk1 способа).
(Модификация 5 четвертого варианта осуществления изобретения)
Устройство 24e декодирования речи (см. Фиг.46) из модификации 5 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 12a кодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.29) хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24e декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24e декодирования речи принимает закодированный мультиплексированный поток битов и выводит декодированный речевой сигнал наружу из устройства декодирования речи 24e. В модификации 5, проиллюстрированной на Фиг 28, устройство 24e декодирования речи не включает в себя блок 2h1 анализа высоких частот с линейным предсказанием и блок 2i1 обратного фильтра с линейным предсказанием, входящие в состав устройства 24d декодирования речи, описанного в модификации 4, которые могут отсутствовать во всем четвертом варианте осуществления изобретения в качестве первого варианта осуществления, и оно включает в себя блок 3a2 выбора временного интервала и блок 2v1 формирования временной огибающей вместо блока 3a выбора временного интервала и блока 2v формирования временной огибающей из устройства 24d декодирования речи. В устройстве 24e декодирования речи также изменен порядок следования операции синтезирующей фильтрации с линейным предсказанием, выполняемой блоком 2k3 фильтра с линейным предсказанием, и операции формирования временной огибающей, выполняемой блоком 2v1 формирования временной огибающей, причем порядок следования этих операций обработки является взаимозаменяемым во всем четвертом варианте осуществления изобретения.
Блок 2v1 формирования временной огибающей формирует qadj(k, r), полученный из 2j блока коррекции высоких частот, с использованием e adj(r), полученной из блока 2s коррекции формы огибающей, как и блок 2v формирования временной огибающей, и получает сигнал qenvadj(k, r) в области QMF, в которой сформирована временная огибающая. Блок 2v1 формирования временной огибающей также уведомляет блок 3a2 выбора временного интервала о параметрах, полученных при формировании временной огибающей, или о параметрах, вычисленных с использованием, по меньшей мере, параметров, полученных при формировании временной огибающей, в качестве информации о выборе временного интервала. Информацией о выборе временного интервала может являться e(r) из выражения (22) или из выражения (40), либо величина |e(r)|2, к которой не применяют операцию извлечения квадратного корня во время процедуры вычислений. В качестве информации о выборе временного интервала также может быть использовано множество участков временного интервала (например, огибающих SBR)
и также может быть использовано выражение (24), которое представляет собой среднее значение
Следует отметить, что:
Информацией о выборе временного интервала также может являться eexp(r) из выражения (26) и из выражения (41) или |eexp(r)|2, к которой не применяют операцию извлечения квадратного корня во время процедуры вычислений. В качестве информации о выборе временного интервала также может быть использовано множество сегментов временного интервала (например, огибающих SBR)
и среднее значение
Следует отметить, что:
Информацией о выборе временного интервала также может являться eadj(r) из выражения (23), из выражения (35) или из выражения (36), или ею может являться |e adj(r)|2, к которой не применяют операцию извлечения квадратного корня во время процедуры вычислений. В качестве информации о выборе временного интервала также может быть использовано множество сегментов временного интервала (например, огибающих SBR)
и среднее значение
Следует отметить, что:
Информацией о выборе временного интервала также может являться eadj,scaled(r) из выражения (37), или может являться |eadj,scaled(r)|2, не применяют операцию извлечения квадратного корня во время процедуры вычислений. В качестве информации о выборе временного интервала также может быть использована информация во множестве сегментов временного интервала (например, огибающих SBR)
и среднее значение
Следует отметить, что:
Информацией о выборе временного интервала также может являться мощность Penvadj(r) сигнала, соответствующего высокочастотным составляющим, в области QMF во временном интервале r, в котором сформирована временная огибающая, или значение амплитуды этого сигнала, к которому применена операция извлечения квадратного корня
В качестве информации о выборе временного интервала также может быть использована информация во множестве сегментов временного интервала (например, огибающих SBR)
и среднее значение
Следует отметить, что:
где М - значение, отображающее диапазон более высоких частот, чем нижняя предельная частота kx высокочастотных составляющих, сгенерированных блоком 2g генерации высоких частот, и диапазон частот высокочастотных составляющих, сгенерированных блоком 2g генерации высоких частот, также может быть представлен как kx k<kx+M.
Блок 3a2 выбора временного интервала выбирает временные интервалы, в которых блок 2k фильтра с линейным предсказанием выполняет синтезирующую фильтрацию с линейным предсказанием, путем определения того, выполнена ли синтезирующая фильтрация сигнала qenvadj(k, r) с линейным предсказанием в области QMF высокочастотных составляющих из временного интервала r, в котором сформирована временная огибающая блоком 2v1 формирования временной огибающей, на основании информации о выборе временного интервала, переданной из блока 2v1 формирования временной огибающей (операция Sp1 способа).
Для выбора временных интервалов, в которых блок 3a2 выбора временного интервала в данной модификации выполняет синтезирующую фильтрацию с линейным предсказанием, может быть выбран по меньшей мере, один временной интервал r, в котором параметр u(r), содержащийся в информации о выборе временного интервала, переданной из блока 2v1 формирования временной огибающей, превышает заданное значение, или может быть выбран, по меньшей мере, один временной интервал r, в котором u(r) является равным или большим, чем заданное значение uTh. u(r) может включать в себя, по меньшей мере, один из следующих параметров: e(r), |e(r)|2, e exp(r), |eexp(r)|2, eadj(r), |e adj(r)|2, eadj,scaled(r), |e adj,scaled(r)|2 и Penvadj(r), которые описаны выше, и;
а uTh может включать в себя, по меньшей мере, один из приведенных параметров;
uTh также может представлять собой среднее значение u(r) в заданном отрезке времени (которым является, например, огибающая SBR), включающем в себя временной интервал r. Выбор также может быть сделан таким образом, чтобы содержались временные интервалы, в которых u(r) достигает своих максимумов. Максимумы u(r) могут быть вычислены таким же самым способом, как и вычисление максимума мощности сигнала в сигнале высокочастотных составляющих в области QMF в модификации 4 первого варианта осуществления изобретения. Стационарное состояние и переходное состояние в модификации 5 четвертого варианта осуществления изобретения могут быть определены аналогично определению этих состояний в модификации 4 первого варианта осуществления изобретения с использованием u(r), и на их основании могут быть выбраны временные интервалы. Способом выбора временного интервала может являться, по меньшей мере, один из описанных выше способов, он может включать в себя, по меньшей мере, один способ, отличающийся от описанных выше способов, или может представлять собой их комбинацию.
(Модификация 6 четвертого варианта осуществления изобретения)
Устройство 24f декодирования речи (см. Фиг.30) из модификации 6 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24f декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.29), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24f декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24f декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24f декодирования речи. В модификации 6, проиллюстрированной на фиг.30, в устройстве 24f декодирования речи отсутствует блок 2e1 обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием и блок 2i1 обратного фильтра с линейным предсказанием, входящие в состав устройства 24d декодирования речи, описанного в модификации 4, которые могут отсутствовать во всем четвертом варианте осуществления изобретения в качестве первого варианта осуществления, и оно включает в себя блок 3a2 выбора временного интервала и блок 2v1 формирования временной огибающей вместо блока 3a выбора временного интервала и блока 2v формирования временной огибающей, входящих в состав устройства 24d декодирования речи. В устройстве 24f декодирования речи также изменен порядок следования операции синтезирующей фильтрации с линейным предсказанием, выполняемой блоком 2k3 фильтра с линейным предсказанием, и операции формирования временной огибающей, выполняемой блоком 2v1 формирования временной огибающей, причем порядок следования этих операций обработки является взаимозаменяемым во всем четвертом варианте осуществления изобретения.
Блок 3a2 выбора временного интервала определяет, выполнена ли блоком 2k3 фильтра с линейным предсказанием синтезирующая фильтрация сигнала qenvadj(k, r) с линейным предсказанием в области QMF высокочастотных составляющих во временном интервале r, в котором сформирована временная огибающая блоком 2v1 формирования временной огибающей, на основании информации о выборе временного интервала, переданной из блока 2v1 формирования временной огибающей, выбирает временные интервалы, в которых выполнена синтезирующая фильтрация с линейным предсказанием, и уведомляет блок 2d1 анализа низких частот с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием о выбранных временных интервалах.
(Модификация 7 четвертого варианта осуществления изобретения)
Устройство 14b кодирования речи (см. Фиг.50) из модификации 7 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 14b кодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 12a кодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 14b кодирования речи принимает речевой сигнал, подлежащий кодированию, извне устройства 14b кодирования речи и выводит закодированный мультиплексированный поток битов наружу из устройства 14b кодирования речи. Устройство 14b кодирования речи включает в себя блок 1g6 мультиплексирования потока битов и блок 1p1 выбора временного интервала вместо блока 1g7 мультиплексирования потока битов и блока 1p выбора временного интервала, входящих в состав устройства 14a кодирования речи из модификации 4.
Блок 1g6 мультиплексирования потока битов выполняет мультиплексирование закодированного потока битов, вычисленного блоком 1c кодирования базовым кодеком, дополнительной информации об SBR, вычисленной блоком 1d SBR-кодирования, и дополнительной информации о временной огибающей, в которой параметр, характеризующий силу фильтра, который вычислен блоком вычисления параметра, характеризующего силу фильтра, и параметр, характеризующий форму огибающей, который вычислен блоком 1n вычисления параметра, характеризующего форму огибающей, являются преобразованными, также выполняет мультиплексирование информации о выборе временного интервала, принятой из блока 1p1 выбора временного интервала, и выводит мультиплексированный поток битов (закодированный мультиплексированный поток битов) через устройство связи, входящее в состав устройства 14b кодирования речи.
Устройство 24g декодирования речи (см. Фиг.31) из модификации 7 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24g декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.32), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24g декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24g декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24g декодирования речи. Устройство 24g декодирования речи включает в себя блок 2a7 разделения потока битов и блок 3a1 выбора временного интервала вместо блока 2a3 разделения потока битов и блока 3a выбора временного интервала, входящих в состав устройства 24d декодирования речи, описанного в модификации 4.
Блок 2a7 разделения потока битов разделяет мультиплексированный поток битов, поданный через устройство связи, входящее в состав устройства 24g декодирования речи, на дополнительную информацию о временной огибающей, на дополнительную информацию об SBR и на закодированный поток битов, как и блок 2a3 разделения потока битов, и дополнительно отделяет информацию о выборе временного интервала.
(Модификация 8 четвертого варианта осуществления изобретения)
Устройство 24h декодирования речи (см. Фиг.33) из модификации 8 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24h декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.34), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24h декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24h декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24h декодирования речи. Устройство 24h декодирования речи, проиллюстрированное на фиг.33, включает в себя блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1 обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием вместо блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 24b декодирования речи из модификации 2, и дополнительно включает в себя блок 3a выбора временного интервала. В способе SBR согласно стандарту "MPEG4 AAC" на этапе "коррекция высоких частот" ("HF Adjustment") блок 2j1 первичной коррекции высоких частот выполняет, по меньшей мере, одну из операций способа, как и блок 2j1 первичной коррекции высоких частот из модификации 2 четвертого варианта осуществления изобретения (операцию Sm1 способа). В способе SBR согласно стандарту "MPEG4 AAC" на этапе "коррекция высоких частот" ("HF Adjustment") блок 2j2 вторичной коррекции высоких частот выполняет, по меньшей мере, одну из операций способа, как и блок 2j2 вторичной коррекции высоких частот из модификации 2 четвертого варианта осуществления изобретения (операцию Sm2 способа). Предпочтительно, чтобы операцией способа, выполняемой блоком 2j2 вторичной коррекции высоких частот, являлась операция способа, не выполняемая блоком 2jl первичной коррекции высоких частот, из операций способа на этапе "коррекция высоких частот" ("HF Adjustment") в способе SBR согласно стандарту "MPEG4 AAC".
(Модификация 9 четвертого варианта осуществления изобретения)
Устройство 24i декодирования речи (см. Фиг.35) из модификации 9 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24i декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.36), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24i декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24i декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24i декодирования речи. В устройстве 24i декодирования речи, проиллюстрированном на фиг.35, отсутствует блок 2h1 анализа высоких частот с линейным предсказанием и блок 2i1 обратного фильтра с линейным предсказанием, входящие в состав устройства 24h декодирования речи из модификации 8, которые могут отсутствовать во всем четвертом варианте осуществления изобретения в качестве первого варианта осуществления, и оно включает в себя блок 2v1 формирования временной огибающей и блок 3a2 выбора временного интервала вместо блока 2v формирования временной огибающей и блока 3a выбора временного интервала, входящих в состав устройства 24h декодирования речи из модификации 8. В устройстве 24i декодирования речи также изменен порядок следования операции синтезирующей фильтрации с линейным предсказанием, выполняемой блоком 2k3 фильтра с линейным предсказанием, и операции формирования временной огибающей, выполняемой блоком 2v1 формирования временной огибающей, причем порядок следования этих операций обработки является взаимозаменяемым во всем четвертом варианте осуществления изобретения.
(Модификация 10 четвертого варианта осуществления изобретения)
Устройство 24j декодирования речи (см. Фиг.37) из модификации 10 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24j декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.36), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24j декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24j декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24j декодирования речи. В устройстве 24j декодирования речи, проиллюстрированном на фиг.37, отсутствует блок 2el обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием и блок 2i1 обратного фильтра с линейным предсказанием, входящие в состав устройства 24h декодирования речи из модификации 8, которые могут отсутствовать во всем четвертом варианту осуществления изобретения в качестве первого варианта осуществления, и оно включает в себя блок 2v1 формирования временной огибающей и блок 3a2 выбора временного интервала вместо блока 2v формирования временной огибающей и блок 3a выбора временного интервала, входящих в состав устройства 24h декодирования речи из модификации 8. Изменен порядок следования операции синтезирующей фильтрации с линейным предсказанием, выполняемой блоком 2k3 фильтра с линейным предсказанием, и операции формирования временной огибающей, выполняемой блоком 2v1 формирования временной огибающей, причем порядок следования этих операций обработки является взаимозаменяемым во всем четвертом варианте осуществления изобретения.
(Модификация 11 четвертого варианта осуществления изобретения)
Устройство 24k декодирования речи (см. Фиг.38) из модификации 11 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24k декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.39), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24k декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24k декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24k декодирования речи. Устройство 24k декодирования речи, проиллюстрированное на фиг.38, включает в себя блок 2a7 разделения потока битов и блок 3a1 выбора временного интервала вместо блока 2a3 разделения потока битов и блока 3a выбора временного интервала, входящих в состав устройства 24h декодирования речи из модификации 8.
(Модификация 12 четвертого варианта осуществления изобретения)
Устройство 24q декодирования речи (см. фиг.40) из модификации 12 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24q декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.41), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24q декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24q декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24q декодирования речи. Устройство 24q декодирования речи, проиллюстрированное на фиг.40, включает в себя блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1, обнаружения изменения сигнала блок 2h1 анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием и блоки 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала (блоки коррекции отдельных составляющих сигнала соответствуют средству формирования временной огибающей) вместо блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блоков 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, которые входят в состав устройства 24c декодирования речи из модификации 3, и дополнительно включает в себя блок 3a выбора временного интервала.
По меньшей мере, один из блоков 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала выполняет обработку сигнала в области QMF из выбранного временного интервала для составляющей сигнала, содержащейся в выходном сигнале из блока первичной коррекции высоких частот, как и блоки 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, на основании результата выбора, переданного из блока 3a выбора временного интервала (операция Sn1 способа). Предпочтительно, чтобы способ использования информации о выборе временного интервала включал в себя, по меньшей мере, один способ, включающий в себя синтезирующую фильтрацию по частоте с линейным предсказанием, из способов, выполняемых блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, описанными в модификации 3 четвертого варианта осуществления изобретения.
Способы, выполняемые блоками 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала, могут быть теми же самыми, что и способы, выполняемые блоками 2z1, 2z2 и 2z3 коррекции отдельных составляющих сигнала, которые описаны в модификации 3 четвертого варианта осуществления изобретения, но блоки 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала могут формировать временную огибающую каждой из множества составляющих сигнала, содержащихся в выходном сигнале из блока первичной коррекции высоких частот, различными способами (если все блоки 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала не выполняют обработку на основании результата выбора, переданного из блока 3a выбора временного интервала, то это является тем же самым, что и в модификации 3 четвертого варианта осуществления настоящего изобретения).
Все результаты выбора временного интервала, переданные в блоки 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала из блока 3a выбора временного интервала, не обязательно должны быть одинаковыми, и все они или их часть могут быть различными.
Как показано на фиг.40, результат выбора временного интервала передают в блоки 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала из одного блока 3a выбора временного интервала. Однако устройство может включать в себя множество блоков выбора временных интервалов для уведомления каждого из блоков 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала или части этих блоков о различных результатах выбора временного интервала. Здесь блок выбора временного интервала, соотнесенный с блоком коррекции отдельной составляющей сигнала из блоков 2z4, 2z5 и 2z6 коррекции отдельных составляющих сигнала, который выполняет процедуру 4 (для входного сигнала выполняют процедуру умножения каждой выборки из поддиапазона QMF на коэффициент усиления с использованием временной огибающей, полученной из блока 2s коррекции формы огибающей, служащего в качестве блока 2v формирования временной огибающей, а затем также выполняют синтезирующую фильтрацию выходного сигнала по частоте с линейным предсказанием с использованием коэффициента линейного предсказания, принятого из блока 2f коррекции силы фильтра, служащего в качестве блока 2k фильтра с линейным предсказанием), описанную в модификации 3 четвертого варианта осуществления изобретения, может выбирать временной интервал с использованием информации о выборе временного интервала, поданной из блока формирования временной огибающей.
(Модификация 13 четвертого варианта осуществления изобретения)
Устройство 24m декодирования речи (см. фиг.42) из модификации 13 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24m декодирования речи путем загрузки заданной компьютерной программы (например, компьютерной программы для выполнения операций способа, проиллюстрированных на схеме последовательности операций на фиг.43), хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24m декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24m декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24m декодирования речи. Устройство 24m декодирования речи, проиллюстрированное на фиг.42, включает в себя блок 2a7 разделения потока битов и блок 3a1 выбора временного интервала вместо блока 2a3 разделения потока битов и блока 3a выбора временного интервала, входящих в состав устройства 24q декодирования речи из модификации 12.
(Модификация 14 четвертого варианта осуществления изобретения)
Устройство 24n декодирования речи (не проиллюстрировано) из модификации 14 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24n декодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24n декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24n декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24n декодирования речи. Устройство 24n декодирования речи функционально включает в себя блок 2d1 анализа низких частот с линейным предсказанием, блок 2e1 обнаружения изменения сигнала, блок 2h1 анализа высоких частот с линейным предсказанием, блок 2i1 обратного фильтра с линейным предсказанием и блок 2k3 фильтра с линейным предсказанием вместо блока 2d анализа низких частот с линейным предсказанием, блока 2e обнаружения изменения сигнала, блока 2h анализа высоких частот с линейным предсказанием, блока 2i обратного фильтра с линейным предсказанием и блока 2k фильтра с линейным предсказанием, входящих в состав устройства 24a декодирования речи из модификации 1, и дополнительно включает в себя блок 3a выбора временного интервала.
(Модификация 15 четвертого варианта осуществления изобретения)
Устройство 24p декодирования речи (не проиллюстрировано) из модификации 15 четвертого варианта осуществления изобретения физически включает в себя ЦП, ПЗУ, ОЗУ, устройство связи и т.п., которые не проиллюстрированы, и ЦП осуществляет интегральное управление устройством 24p декодирования речи путем загрузки заданной компьютерной программы, хранящейся во встроенном запоминающем устройстве, входящем в состав устройства 24p декодирования речи, например, из ПЗУ в ОЗУ, и ее выполнения. Устройство связи из устройства 24p декодирования речи принимает закодированный мультиплексированный поток битов, и выводит декодированный речевой сигнал наружу из устройства 24p декодирования речи. Устройство декодирования речи 24p функционально включает в себя блок 3a1 выбора временного интервала вместо блока 3a выбора временного интервала, входящего в состав устройства 24n декодирования речи из модификации 14. Устройство 24p декодирования речи также включает в себя блок 2a8 разделения потока битов (не проиллюстрирован) вместо блока 2a4 разделения потока битов.
Блок 2a8 разделения потока битов разделяет мультиплексированный поток битов на дополнительную информацию об SBR и на закодированный поток битов, как и блок 2a4 разделения потока битов, и дополнительно на информацию о выборе временного интервала.
ПРОМЫШЛЕННАЯ ПРИМЕНИМОСТЬ
В настоящем изобретении предложен способ, применимый для способа расширения полосы частот в частотной области, представленного способом SBR, для уменьшения возникающего опережающего эха и запаздывающего эха и для улучшения субъективного качества декодированного сигнала без значительного увеличения скорости передачи битов.
ПЕРЕЧЕНЬ ССЫЛОЧНЫХ ПОЗИЦИЙ
11, 11a, 11b, 11c, 12, 12a, 12b, 13, 14, 14a, 14b - устройство кодирования речи
1a - блок преобразования частоты
1b - блок обратного преобразования частоты
1c - блок кодирования базовым кодеком
1d - блок SBR-кодирования
1e, 1e1 - блок анализа с линейным предсказанием
1f - блок вычисления параметра, характеризующего силу фильтра
1fl - блок вычисления параметра, характеризующего силу фильтра
1g, 1g1, 1g2, 1g3, 1g4, 1g5, 1g6, 1g7 - блок мультиплексирования потока битов
1h - блок обратного преобразования высоких частот
1i - блок вычисления кратковременной мощности
1j - блок децимации коэффициентов линейного предсказания
1k - блок квантования коэффициентов линейного предсказания
1m - блок вычисления временной огибающей
1n - блок вычисления параметра, характеризующего форму огибающей
1p, 1p1 - блок выбора временного интервала
21, 22, 23, 24, 24b, 24c - устройство декодирования речи
2a, 2a1, 2a2, 2a3, 2a5, 2a6, 2a7 - блок разделения потока битов
2b - блок декодирования базовым кодеком
2c - блок преобразования частоты
2d, 2d1 - блок анализа низких частот с линейным предсказанием
2e, 2e1 - блок обнаружения изменения сигнала
2f - блок коррекции силы фильтра
2g - блок генерации высоких частот
2h, 2h1 - блок анализа высоких частот с линейным предсказанием
2i, 2i1 - блок обратного фильтра с линейным предсказанием
2j, 2j1, 2j2, 2j3, 2j4 - блок коррекции высоких частот
2k, 2k1, 2k2, 2k3 - блок фильтра с линейным предсказанием
2m - блок суммирования коэффициентов
2n - блок обратного преобразования частоты
2p, 2p1 - блок интерполяции/экстраполяции коэффициентов линейного предсказания
2r - блок вычисления временной огибающей на низких частотах
2s - блок коррекции формы огибающей
2t - блок вычисления временной огибающей на высоких частотах
2u - блок выравнивания временной огибающей
2v, 2v1 - блок формирования временной огибающей
2w - блок преобразования дополнительной информации
2z1, 2z2, 2z3, 2z4, 2z5, 2z6 - блок коррекции отдельной составляющей сигнала
3a, 3a1, 3a2 - блок выбора временного интервала
Класс G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала