RU2256293C2

RU2256293C2 - Усовершенствование исходного кодирования с использованием дублирования спектральной полосы

Info

Publication number: RU2256293C2
Application number: RU99104814/09A
Authority: RU
Inventors: Ларс Густаф ЛИЛЬЕРЮД (SE); Ларс Густаф ЛИЛЬЕРЮД; Пер Руне Альбин ЭКСТРАНД (SE); Пер Руне Альбин ЭКСТРАНД; Ларс Фредрик ХЕНН (SE); Ларс Фредрик ХЕНН; Ханс Магнус Кристофер ЧЕРЛИНГ (SE); Ханс Магнус Кристофер ЧЕРЛИНГ
Original assignee: Коудинг Технолоджиз Аб
Priority date: 1997-06-10
Filing date: 1998-06-09
Publication date: 2005-07-10

Abstract

Изобретение относится к области радиотехники и может использоваться для систем исходного кодирования. Изобретение использует уменьшение ширины полосы до кодера или в кодере с последующим дублированием полосы спектра в декодере. Это выполняется путем использования новых методов транспозиции совместно с подстройкой огибающей спектра. Технический результат - уменьшение скорости передачи бит при заданном качестве восприятия или улучшение качества восприятия при заданной скорости передачи бит. Изобретение предпочтительно может быть реализовано в аппаратном или программном кодеке, но может использоваться как отдельный процессор в комбинации с кодеком. Изобретение обеспечивает усовершенствование, практически не зависящее от типа кодека и уровня технологии. 4 н. и 16 з.п. ф-лы, 34 ил.

Description

Область техники

В системах исходного кодирования цифровые данные сжимаются до передачи или записи, чтобы уменьшить требуемую скорость передачи данных или объем памяти. Настоящее изобретение относиться к новому способу и устройству для усовершенствования систем исходного кодирования посредством дублирования спектральной полосы (ДСП). Достигается существенное снижение скорости передачи данных без ухудшения качества восприятия или, наоборот, достигается улучшение качества восприятия при заданной скорости передачи. Это обеспечивается за счет уменьшения ширины полосы спектра на стороне кодирования и последующего дублирования полосы спектра в декодере, т.е. изобретение использует новые концепции избыточности сигнала в спектральной области.

Предшествующий уровень техники

Методы исходного кодирования звука могут быть разделены на два класса: кодирование натурального аудиосигнала и кодирование речевого сигнала. Кодирование натурального аудиосигнала широко используется для музыкальных или произвольных сигналов при средних скоростях передачи данных и в принципе предусматривает широкую полосу аудиочастот. Кодеры речевого сигнала в основном ограничены воспроизведением речевого сигнала, но, с другой стороны, могут быть использованы при очень низких скоростях передачи, хотя и при узкой полосе аудиочастот. Широкополосный речевой сигнал обеспечивает весьма существенное повышение качества по сравнению с узкополосным речевым сигналом. Расширение полосы частот не только повышает разборчивость и натуральность речи, но также облегчает распознавание говорящего. Широкополосное кодирование речевого сигнала представляет собой важную проблему, стоящую перед телефонными системами следующего поколения. Кроме того, в связи с ростом областей применения мультимедиа передача музыки и других неречевых сигналов в телефонных системах является желательным качеством.

Линейный сигнал с импульсно-кодовой модуляцией (ИКМ), характеризуемый высокой достоверностью, неэффективен по скорости передачи в зависимости от энтропии восприятия. Стандарт компакт-дисков (СД) предписывает частоту дискретизации 44,1 кГц, разрешение 16 бит на выборку и стереорежим. Это соответствует скорости передачи 1411 кбит/сек. Для существенного снижения скорости передачи исходное кодирование может быть выполнено с использованием перцептуальных кодеков аудиосигнала с расщеплением спектра. Эти кодеки натурального аудиосигнала используют нерелевантность восприятия и статистическую избыточность в сигнале. При использовании наилучшей технологии кодирования-декодирования может быть достигнуто уменьшение объема данных примерно на 90% для сигнала стандартного CD-формата без какого-либо ухудшения разборчивости. Таким образом, возможно очень высокое качество звука в стереорежиме при скорости примерно 96 Кбит/сек, т.е. коэффициент сжатия равен примерно 15:1. Некоторые перцептуальные кодеки предусматривают даже более высокие степени сжатия. Чтобы достичь этого, в общем случае необходимо снизить частоту дискретизации и, тем самым, ширину полосы аудиочастот. Общепринятым является уменьшение количества уровней квантования, что допускает случайное искажение звука вследствие квантования, а также использование деградации области стерео, за счет интенсивного кодирования. Широкое использование таких способов приводит к ухудшению восприятия. Существующая технология кодирования-декодирования себя почти исчерпала и дальнейший прогресс в получении выигрыша от кодирования не ожидается. Для дополнительного улучшения характеристик кодирования необходим новый подход.

Человеческая речь и большинство музыкальных инструментов формируют квазистационарные сигналы, получаемые на выходе систем генерации. Согласно теории Фурье, любой периодический сигнал может быть выражен как сумма синусоидальных сигналов с частотами f, 2f, 3f, 4f, 5f и т.д., где f - основная частота. Эти частоты образуют последовательность гармоник. Ограничение полосы частот такого сигнала эквивалентно усечению f последовательности гармоник. Такое усечение изменяет воспринимаемый тембр, окраску тона музыкального инструмента или голоса и приводит к получению аудиосигнала, который будет звучать "приглушенно" или "монотонно", и разборчивость может снизиться. Высокие частоты, таким образом, важны для субъективного ощущения качества звука.

Способы, известные из предшествующего уровня техники, в основном предназначались для усовершенствования характеристик кодека, и, в частности, предназначались для регенерации высоких частот (РВЧ), являющейся проблемой при кодировании речевого сигнала. Такие способы используют широкополосные линейные сдвиги частот, нелинейности или наложение спектров (патент США 5.127.054), приводящие к генерации продуктов интермодуляции или других негармонических частотных составляющих, которые создают сильный диссонанс в применении к музыкальным сигналам. Такой диссонанс описывается в литературе по кодированию речи как "резкое" и "грубое" звучание. Другие способы синтезирования речевого сигнала генерируют синусоидальные гармоники, которые основаны на оценке фундаментального тона, и таким образом, ограничены тональными, стационарными звуковыми сигналами (патент США 4.771.465). Такие способы, известные из предшествующего уровня техники, будучи полезными для низкокачественных речевых применений, не применимы для высококачественного речевого сигнала или музыкальных сигналов. Ряд способов направлены на усовершенствование характеристик кодеков высококачественных источников звукового сигнала. Один из них использует синтезированные шумовые сигналы, генерируемые в декодере, чтобы заменить шумоподобные сигналы в речи или музыке, ранее исключавшиеся кодером (см. "Improving Audio Codecs by Noise Substitution" D.Schultz, JAES, Vol.44, № 7/8, 1996). Это выполняется в пределах полосы высоких частот, в остальном передаваемой нормально, на прерывистой основе при наличии шума. Другой способ воссоздает некоторые потерянные гармоники высокой частоты, которые были утеряны в процессе кодирования (см. "Audio Spectral Coder" A.J.S. Ferreira, AES Preprint 4201, 100^th Convention, May 11-14 1996, Copenhagen), и также зависит от тональных сигналов и детектирования высоты тона. Оба способа работают на основе низкого рабочего цикла, обеспечивая сравнительно ограниченный выигрыш от кодирования или по эффективности.

Сущность изобретения

Настоящее изобретение предусматривает новый способ и устройство для существенного усовершенствования систем цифрового исходного кодирования и, более конкретно, для усовершенствования кодеков аудиосигналов. Изобретение позволяет уменьшить скорость передачи данных или улучшить качество восприятия, или реализовать комбинацию этих свойств. Изобретение основано на новых способах использования избыточности гармоник, предоставляя возможность отбрасывания полос частот сигнала до передачи или записи. Не ощущается ухудшения восприятия, если декодер выполняет высококачественное повторение (дублирование) спектра согласно изобретению. Отброшенные биты представляют выигрыш от кодирования при фиксированном качестве восприятия. Альтернативно большее количество битов может быть выделено для кодирования информации полосы нижних частот при фиксированной скорости передачи, достигая, таким образом, более высокого качества восприятия.

Настоящее изобретение постулирует, что усеченная последовательность гармоник может быть расширена на основании непосредственного соотношения между спектральными составляющими полосы нижних частот и полосы верхних частот. Эта расширенная последовательность похожа на первоначальную в смысле восприятия, если выполняются определенные правила. Во-первых, экстраполированные спектральные составляющие должны быть гармонически связанными и усеченной последовательностью гармоник, чтобы избежать диссонансных искажений. Настоящее изобретение использует транспозицию как средство для процедуры спектрального дублирования, которая гарантирует удовлетворение этого критерия. Однако для успешной работы нет необходимости, чтобы спектральные составляющие полосы нижних частот образовывали последовательность гармоник, поскольку новые дублированные составляющие, гармонически связанные с составляющими полосы нижних частот, не изменят шумоподобную или нестационарную природу сигнала. Транспозиция определяется как перенос частичных тонов из одного положения на музыкальной шкале в другое при поддержании частотных отношений для этих частичных тонов. Во-вторых, спектральная огибающая, т.е. грубое распределение спектра дублированной полосы высоких частот, должна достаточно хорошо повторять такое распределение первоначального сигнала. Настоящее изобретение обеспечивает два режима работы, ДСП-1 и ДСП-2, которые отличаются способом регулировки огибающей спектра.

Первый режим дублирования спектральной полосы (ДСП-1), предназначенный для усовершенствования применений кодека среднего качества, является одноканальным процессом, который использует исключительно информацию, содержащуюся в принятом сигнале полосы нижних частот в декодере. Спектральная огибающая этого сигнала определяется и экстраполируется, например, с использованием полиномов совместно с набором правил или кодового справочника. Эта информация используется, чтобы непрерывно регулировать и выравнивать дублированную полосу верхних частот. Способ ДСП-1 обеспечивает преимущество постобработки, т.е. не требуется никаких модификаций на стороне кодирования. Владелец радиопередающей станции получит выигрыш в использовании каналов, или будет иметь возможность улучшения качества восприятия, или обеспечит комбинацию этих качеств. Существующий синтаксис и стандарт потока данных может быть использован без изменения.

Режим ДСП-2, предназначенный для усовершенствования применений кодека высокого качества, является двухканальным процессом, в котором в дополнение к передаваемому сигналу полосы нижних частот согласно режиму ДСП-1 кодируется и передается огибающая спектра полосы верхних частот. Поскольку изменения огибающей спектра имеют гораздо меньшую скорость, чем изменения составляющих сигнала полосы верхних частот, то требуется передача только ограниченного объема информации, чтобы успешно представлять огибающую спектра. Режим ДСП-2 может быть использован для повышения эффективности существующих технологий кодирования-декодирования с минимальным изменением или без изменения существующих синтаксисов или протоколов и как весьма ценное средство для разработки будущих кодеков.

Режимы ДСП-1 и ДСП-2 могут быть использованы для дублирования меньших полос пропускания полосы нижних частот, когда такие полосы исключаются кодером, как обусловлено психо-акустической моделью в условиях битовой недостаточности. Это приводит к улучшению качества восприятия путем спектрального дублирования в полосе нижних частот в дополнение к спектральному дублированию вне полосы нижних частот. Кроме того, режимы ДСП-1 и ДСП-2 могут быть также использованы в кодеках, использующих масштабирование скорости передачи, где качество восприятия сигнала в приемнике изменяется в зависимости от условий в канале передачи. Это обычно включает в себя изменения полосы пропускания аудиосигнала приемника. В этих условиях режимы ДСП могут быть успешно использованы для поддержания постоянной полосы верхних частот, что дополнительно улучшает качество восприятия.

Настоящее изобретение работает на непрерывной основе, осуществляя дублирование содержимого сигналов любого типа, т.е. тональных или нетональных (шумоподобных и сигналов переходных процессов). Кроме того, настоящий способ дублирования спектра создает точную по восприятию копию отброшенных полос из доступных полос частот в декодере.

Следовательно, способ ДСП обеспечивает существенно более высокий уровень выигрыша от кодирования или улучшения качества восприятия по сравнению со способами, известными из предшествующего уровня техники. Это изобретение может быть использовано совместно со способами усовершенствования кодека, известного из предшествующего уровня техники; однако от таких комбинаций не следует ожидать какого-либо повышения эффективности.

Способ ДСП включает следующие этапы:

- кодирование сигнала, полученного из исходного сигнала, где частотные полосы сигнала удалены, причем это удаление выполнено до или во время кодирования, при котором формируется первый сигнал,

- транспозиция частотных полос первого сигнала во время или после декодирования, с формированием второго сигнала,

- выполнение подстройки огибающей спектра и

- комбинирование декодированного сигнала и второго сигнала для формирования выходного сигнала.

Полоса пропускания второго сигнала может быть установлена так, чтобы не перекрываться или частично пересекаться с полосой частот первого сигнала, и может быть установлена в зависимости от временных характеристик исходного сигнала и/или первого сигнала, или условий в канале передачи. Подстройка огибающей спектра выполняется на основании оценки исходной огибающей спектра упомянутого первого сигнала или передаваемой информации огибающей исходного сигнала.

Настоящее изобретение содержит два основных типа устройств транспозиции: многополосные устройства транспозиции и устройства транспозиции с прогнозированием с изменяющейся во времени схемой поиска, имеющие различные свойства. Основная многополосная транспозиция может быть выполнена согласно настоящему изобретению следующим образом:

- фильтрация сигнала, подлежащего транспонированию, посредством набора из N≥ 2 полосовых фильтров с полосами пропускания, содержащими частоты (f1,... ,fn), соответственно, для формирования сигналов N полос пропускания,

- сдвиг сигналов полос пропускания по частоте в области, содержащие частоты M(f1,... ,fn), где М≠ 1 представляет коэффициент транспозиции, и

- объединение сдвинутых сигналов полос пропускания с формированием транспонированного сигнала.

Как вариант, эта базовая многополосовая транспозиция может быть выполнена в соответствии с изобретением следующим образом:

- полосовая фильтрация сигнала, подлежащего транспонированию, с использованием набора анализирующих фильтров или преобразователя, для генерирования низкочастотных сигналов действительных или комплексных субполос,

- произвольное количество каналов k с упомянутого набора анализирующих фильтров или преобразователя подключаются к каналам Mk, где M≠ 1, в набор синтезирующих фильтров или преобразователе и

- формируется транспонированный сигнал с использованием набора синтезирующих фильтров или преобразователя.

Усовершенствованная многополосная транспозиция согласно настоящему изобретению включает в себя подстройки фазы, улучшающие характеристику базовой многополосной транспозиции.

Транспозиция с прогнозированием с изменяющейся во времени схемой поиска согласно настоящему изобретению может быть выполнена следующим образом:

- обнаружение переходного процесса в первом сигнале,

- определение, какой сегмент первого сигнала должен быть использован при дублировании частей первого сигнала в зависимости от результата обнаружения переходного процесса,

- подстройка свойств вектора состояния и набора кодов в зависимости от результата обнаружения переходного процесса и

- поиск точек синхронизации в выбранном сегменте первого сигнала на основе точки синхронизации, найденной при предыдущем поиске точки синхронизации.

Способы ДСП и устройства согласно настоящему изобретению обеспечивают следующие качества:

1. Эти способы и устройства используют новые концепции избыточности сигнала в спектральной области.

2. Эти способы и сигналы применимы к произвольным сигналам.

3. Каждый набор гармоник индивидуально создается и регулируется.

4. Все дублируемые гармоники генерируются таким образом, чтобы сформировать продолжение существующей последовательности гармоник.

5. Процесс дублирования спектра основан на транспозиции и не создает никаких помех или создает незначительные помехи.

6. Дублирование спектра может обеспечить перекрытие множества меньших полос и/или широкий диапазон частот.

7. В способе ДСП-1 обработка выполняется только на стороне декодера, т.е. все стандарты и протоколы могут использоваться без изменений.

8. Способ ДСП-2 может быть использован в соответствии с большинством стандартов и протоколов без изменений или с минимальными изменениями.

9. Способ ДСП-2 предоставляет проектировщику кодека новое мощное средство сжатия.

10. Кодирование обеспечивает значительный выигрыш. Наиболее эффективное применение относится к совершенствованию различных типов низкоскоростных кодеков, таких как MPEG 1/2 Layer I/II/III (патент США 5.040.217), MPEG 2/4 AAC, Dolby AC-2/3, NTT Twin VQ (патент США 5.684.920), AT&T/Lucent РАС и т.д. Это изобретение также полезно для высококачественных речевых кодеков, таких как широкополосный CELP и SB-ADPCM G.722 и т.д. для повышения качества восприятия. Вышеупомянутые кодеки широко применяются в мультимедиа, в телефонной промышленности, на Интернете, а также в профессиональных системах. Системы T-DAB (Наземная система цифрового звукового вещания) используют низкоскоростные протоколы, которые дают выигрыш в использовании каналов при применении настоящего способа или в повышении качества ЧМ и AM цифрового вещания. Спутниковые системы S-DAB могут получить значительный выигрыш ввиду высоких системных затрат от использования настоящего изобретения, чтобы увеличить количество каналов в мультиплексированной системе цифрового звукового вещания. Кроме того, впервые поток аудиосигналов реального времени в полном диапазоне через Интернет доступен при использовании низкоскоростных телефонных модемов.

Краткое описание чертежей

Настоящее изобретение поясняется ниже на примерах его осуществления, не ограничивающих объем или сущность изобретения, со ссылками на чертежи, в которых показано следующее:

Фиг.1 - схематичное представление ДСП в системе кодирования согласно настоящему изобретению;

Фиг.2 - представление дублирования спектра верхних гармоник согласно настоящему изобретению;

Фиг.3 - представление дублирования спектра средних гармоник согласно настоящему изобретению;

Фиг.4 - блок-схема варианта реализации во временной области устройства транспозиции согласно настоящему изобретению;

Фиг.5 - блок-схема последовательности операций в рабочем цикле устройства транспозиции с прогнозированием схемы поиска;

Фиг.6 - блок-схема последовательности операций при поиске точки синхронизации согласно настоящему изобретению;

Фиг.7а-7b - позиционирование кодовых наборов во время переходных процессов согласно настоящему изобретению;

Фиг.8 - блок-схема, иллюстрирующая применение нескольких устройств транспозиции во временной области во взаимосвязи с подходящим набором фильтров, для операции ДСП согласно настоящему изобретению;

Фиг.9а-9с - это блок-схемы, представляющие устройство для анализа и синтеза с использованием преобразования Фурье для короткого интервала времени ПФКВ, выполненное для генерации гармоник 2-го порядка согласно настоящему изобретению;

Фиг.10а-10b - это блок-схемы для одной субполосы с линейным сдвигом частоты в устройстве ПФКВ согласно настоящему изобретению;

Фиг.11 - схема для одной субполосы с использованием фазоумножителя согласно настоящему изобретению;

Фиг.12 - иллюстрация генерирования гармоник 3-го порядка согласно настоящему изобретению;

Фиг.13 - иллюстрация генерирования гармоник 2-го и 3-го порядка согласно настоящему изобретению;

Фиг.14 - иллюстрация генерирования неперекрывающейся комбинации нескольких гармонических рядов согласно настоящему изобретению;

Фиг.15 - иллюстрация генерирования комбинации с чередованием нескольких гармонических рядов согласно настоящему изобретению;

Фиг.16 - иллюстрация генерирования широкополосных линейных сдвигов частот;

Фиг.17 - иллюстрация генерирования субгармоник согласно настоящему изобретению;

Фиг.18а-18b - блок-схемы перцептуального кодека;

Фиг.19 - базовая структура набора фильтров с максимальным прореживанием;

Фиг.20 - иллюстрация генерирования гармоник 2-го порядка в наборе фильтров с максимальным прореживанием согласно настоящему изобретению;

Фиг.21 - блок-схема усовершенствованной многополосной транспозиции в наборе фильтров с максимальным прореживанием для сигналов субполос согласно настоящему изобретению;

Фиг.22 - блок-схема последовательности операций, представляющая усовершенствованную многополосную транспозицию в наборе фильтров с максимальным прореживанием для сигналов субполос согласно настоящему изобретению;

Фиг.23 - представление субполос и коэффициентов масштабирования для типового кодека;

Фиг.24 - представление субполос и информации огибающей для режима ДСП-2 согласно настоящему изобретению;

Фиг.25 - иллюстрация скрытой передачи информации огибающей в режиме ДСП-2 согласно настоящему изобретению;

Фиг.26 - иллюстрация избыточного кодирования в режиме ДСП-2 согласно настоящему изобретению;

Фиг.27 - вариант выполнения кодека с использованием способа ДСП-1 согласно настоящему изобретению;

Фиг.28 - вариант выполнения кодека с использованием способа ДСП-2 согласно настоящему изобретению;

Фиг.29 - блок-схема "псевдостерео" генератора согласно настоящему изобретению.

Описание предпочтительных вариантов осуществления

При описании вариантов осуществления особый акцент сделан на задачах исходного кодирования естественного аудиосигнала. Однако следует иметь в виду, что настоящее изобретение применимо к целому диапазону задач исходного кодирования, отличающихся от задач кодирования и декодирования аудиосигналов.

Основы транспозиции

Транспозиция, как определено согласно настоящему изобретению, является идеальным способом спектрального дублирования и имеет ряд важных преимуществ по сравнению с предшествующим уровнем техники, в том числе не требуется детектирования основного тона, достигается одинаково высококачественная характеристика для однотонного и полифонического программного материала, и транспозиция реализуется одинаково хорошо для тональных и не тональных сигналов. В противоположность другим способам транспозиция согласно изобретению может быть использована в системах исходного кодирования произвольных аудиосигналов для сигналов произвольного типа.

Коэффициент М точной транспозиции дискретного по времени сигнала х(n) в форме суммы косинусов с изменяющимися по времени амплитудами определяется соотношением

где N - количество синусоид, здесь в дальнейшем определяемые как частичные тона, f_i, е_i (n), α _i - индивидуальные входные частоты, временные огибающие и фазовые константы, соответственно, β _i - произвольные выходные фазовые константы, а f_s - частота дискретизации, и О≤ Мf_i≤ f_s/2.

Фиг.2 иллюстрирует генерацию гармоник М-го порядка, где М это целое число ≥ 2. Термин "гармоники М-го порядка" использован для упрощения, хотя этот процесс генерирует гармоники М-го порядка для всех сигналов в определенном диапазоне частот, которые в большинстве случаев сами являются гармониками неизвестного порядка. Входной сигнал, представленный в частотной области Х(f) ограничен полосой 201 до диапазона от 0 до f_max. Содержимое сигналов в диапазоне от f_max/М до Qf_max/M, где Q является желаемым коэффициентом расширения ширины полосы 1<Q≤ М, выделяется посредством полосового фильтра с формированием полосового сигнала 203 со спектром Х_вр(f). Этот полосовой сигнал транспонируется с коэффициентом М, формируя второй полосовой сигнал 205 со спектром Х_т(f), перекрывающим диапазон от f_max до Qf_max. Огибающая спектра этого сигнала регулируется с помощью программно-упраляемого эквалайзера, формируя сигнал 207 со спектром Х_E(f). Этот сигнал затем комбинируется с задержанной версией входного сигнала, чтобы компенсировать задержку, вызванную полосовым фильтром и устройством транспонирования, посредством чего формируется выходной сигнал 209 со спектром Y(f), покрывающий диапазон от 0 до Qf_max. Как вариант, выделение полосы частот может быть выполнено после транспозиции М с использованием частот отсечки f_mах и Оf_max. При использовании множества устройств транспозиции возможна, конечно, одновременная генерация различных гармонических рядов. Вышеприведенная схема также может быть использована для "заполнения" полос заграждения во входном сигнале, как показано на фиг.3, где входной сигнал имеет полосу заграждения 301 от f₀ до Qf₀. Полоса частот [f₀/М, Qf₀/M], затем выделяется (303), транспонируется с коэффициентом М до [f₀, Qf₀] (305), подстраивается по огибающей (307) и объединяется с задержанным входным сигналом, формируя выходной сигнал 309 со спектром Y(f).

Может быть использована аппроксимация точной транспозиции. Согласно настоящему изобретению качество таких аппроксимаций определяется с использованием теории диссонанса. Критерий для диссонанса представлен в работе "Tonal Consonance and Critical Bandwidth" R.Plomp, W.J.M. Levelt JASA, Vol.38, 1965 г. и заключается в том, что два частичных тона рассматриваются как диссонантные, если разность частот находится в пределах примерно от 5 до 50% ширины полосы критической полосы частот, в которой находятся эти частичные тоны. Критическая ширина полосы для данной частоты может быть приближенно определена соотношением

с f и cb в герцах. Кроме того, в вышеупомянутой работе утверждается, что органы слуха человека не могут разделить два частичных тона, если они отличаются по частоте на величину меньшую, чем приблизительно 5 процентов критической ширины полосы, в которой они находятся. Точная транспозиция в уравнении (2) аппроксимируется с помощью

где f - отклонение от точной транспозиции. Если входные частичные тоны образуют гармонический ряд, гипотеза настоящего изобретения утверждает, что отклонения от гармонического ряда транспонируемых частичных тонов не должны превышать пяти процентов от критической ширины полосы, в которой они находятся. Это могло бы объяснить, почему способы, известные из предшествующего уровня техники, дают неудовлетворительные "грубые" результаты, поскольку широкополосные линейные сдвиги частот создают гораздо большее отклонение, чем допустимо. Когда способы, известные из предшествующего уровня техники, формируют более одного частичного тона для только одного входного частичного тона, эти частичные тона должны, тем не менее, находиться в пределах установленного предела отклонений, чтобы восприниматься как один частичный тон. Это еще раз объясняет неудовлетворительные результаты, получаемые в способах, известных из предшествующего уровня техники, использующих нелинейности и т.п., поскольку они формируют интермодуляционные частичные тона, не входящие в пределы отклонений.

При использовании вышеприведенного способа дублирования спектра на основе транспозиции согласно настоящему изобретению достигаются следующие важные свойства.

- Не происходит никакого перекрытия в частотной области между дублированными гармониками и существующими частичными тонами.

- Дублированные частичные тоны являются гармониками частичных тонов входного сигнала и не приводят к увеличению диссонанса или искажений.

- Огибающая спектра дублированных гармоник образует плавное продолжение огибающей спектра входного сигнала, соответствуя по восприятию исходной огибающей.

Транспозиция на основе прогнозирования с изменяющейся по времени схемой поиска

Существуют различные способы создания требуемых устройств транспозиции. Типовые реализации во временной области расширяют сигнал по времени путем дублирования сегментов сигнала на основании периода основного тона. Этот сигнал последовательно считывается с разными скоростями. К сожалению, такие способы сильно зависят от обнаружения основного тона и требуют точного временного сопряжения сегментов сигнала. Кроме того, необходимость работы с сегментами сигнала на базе периода основного тона делает их чувствительными к переходным процессам. Поскольку обнаруженный период основного тона может быть намного длине, чем действительный переходной процесс, очевиден риск дублирования полного переходного процесса вместо простого расширения его по времени. Другой тип алгоритмов во временной области реализует временное расширение/сжатие речевого сигнала с использованием прогнозирования схемы поиска выходного сигнала (см."Pattern Search Prediction of Speech" R.Bogner, T.Li, Proc.ICASSP’89, Vol.1, May 1989, "Time-Scale Modification of Speech based on a nonlinear Oscillator Model" G.Kubin, W.B.Kleijn, IEEE, 1994). Это является формой гранулярного синтеза, в котором входной сигнал делится на маленькие части, гранулы, используемые для синтезирования выходного сигнала. Этот синтез обычно производится путем выполнения корреляции сегментов сигнала, чтобы определить лучшие точки стыковки. Это означает, что сегменты, используемые для формирования выходного сигнала, не зависят от периода основного тона и таким образом, не требуется решать нетривиальную задачу обнаружения основного высоты тона. Тем не менее, в этих способах остаются проблемы с быстро меняющимися амплитудами сигнала, и при необходимости обеспечения высококачественной транспозиции растут требования к вычислениям. Изобретение представляет усовершенствованное устройство сдвига основного тона и транспонирования во временной области, где использование обнаружения переходного процесса и динамических параметров системы создают более точную транспозицию для высоких коэффициентов транспозиции как для стационарных (тональных и нетональных), так и переходных звуков при низких вычислительных затратах.

На фиг.4 показаны следующие модули: детектор переходных процессов 401, регулятор положения окна 403, генератор набора 405, селектор сигналов синхронизации 407, память положения синхронизации 409, устройство оценки минимальной разности 411, память выходного сегмента 413, блок смешивания 415 и устройство дискретизации с пониженной частотой 417. Входной сигнал подается как на генератор набора 405, так и на детектор переходных процессов 401. Если переходной процесс обнаружен, то информация о его положении посылается в модуль положения окна 403. Этот модуль устанавливает размер и положение окна, которое умножается на входной сигнал при создании набора кодов. Генератор набора кодов 495 приминает данные положения синхронизации от модуля выделения данных синхронизации 407, при условии что он соединен с другим устройством транспозиции. Если данные положения синхронизации имеются в наборе кодов, то они используются и вырабатывается выходной сегмент. В противном случае набор кодов посылается в устройство оценки минимальной разности 411, который выдает новое положение синхронизации. Новый выходной сегмент присоединяется к окну вместе с предшествующим выходным сегментом в модуле смешивания 415 и затем дискретизируется в модуле 417.

Для пояснения вводится представление области состояний. Здесь векторы состояния или гранулы представляют входной и выходной сигналы. Входной сигнал представлен вектором состояний х(n):

который получен из N задержанных выборок входного сигнала, где N - размерность вектора состояния, a D - задержка между входными выборками, используемыми для построения вектора. Гранулярное отражение дает выборку х(n) соответственно каждому вектору состояния x(n-1). В результате получаем уравнение (6), где а(* ) - отображение:

В настоящем способе гранулярное отображение используется для определения следующего выходного результата на основании предыдущего выходного результата, используя набор кодов переходов состояний. Набор кодов длины L постоянно перестраивается, включая векторы состояния и следующую выборку, следующую за каждым вектором состояния. Каждый вектор состояния отделяется от соседнего К выборками; это позволяет системе регулировать временное разрешение в зависимости от характеристик текущего обрабатываемого сигнала, где К, равное единице, представляет наилучшую разрешающую способность. Сегмент входного сигнала, используемый для построения набора кодов, выбирается на основании положения возможного переходного процесса и положения синхронизации в предыдущем наборе кодов.

Это означает, что отображение а(* ), теоретически, оценивается для всех переходов, включенных в набор кодов

C этим набором кодов переходов новый выходной результат у(n) вычисляется поиском вектора состояния в наборе кодов, наиболее сходного с текущим вектором состояния у(n-1). Этот поиск ближайшего соседа выполняется вычислением минимальной разности и дает новую выходную выборку

Однако система не ограничивается работой на базе выборок, она предпочтительно работает на базе сегментов. Новый выходной сегмент вводится в окно и суммируется, смешивается с предыдущим выходным сегментом и затем дискретизируется. Коэффициент шага транспозиции определяется отношением длины входного сегмента, представленной набором кодов, и длины выходного сегмента, считанной с набора кодов.

На фиг.5 и 6 представлены блок-схемы, показывающие цикл работы устройства транспонирования. Этап 501 представляет ввод данных; на этапе 503 производится детектирование переходного процесса на сегменте входного сигнала; поиск переходных процессов выполняется на длине сегмента, равной длине выходного сегмента. Если на этапе 505 найден переходный процесс, то на этапе 507 положение переходного процесса записывается и параметры L (представляющий длину набора кодов), К (представляющий расстояние между векторами состояния в квантах) и D (представляющий задержку между квантами в каждом векторе состояния) устанавливаются на этапе 509. Положение переходного процесса сравнивается с положением предыдущего выходного сегмента на этапе 511, чтобы определить, был ли обработан этот переходной процесс. При положительном результате проверки на этапе 513 положение набора кодов (окно L) и параметры К, L и D устанавливаются на этапе 515. После установки необходимых параметров, на основании результата обнаружения переходного процесса, происходит поиск новой синхронизации или точки сопряжения (этап 517). Эта процедура показана на фиг.6. Сначала на этапе 601 новая точка синхронизации вычисляется на основании предыдущей согласно соотношению

где

и

- есть новое и старое положения синхронизации, соответственно, S - длина обрабатываемого входного сегмента и М - коэффициент транспозиции. Точка синхронизации используется для сравнения точности новой точки сопряжения с точностью старой точки сопряжения на этапе 603. Если на этапе 605 установлено, что соответствие такое же или лучше, чем предыдущее, то эта новая точка синхронизации выдается на этапе 607 при условии, что она находится внутри набора кодов. Если нет, то осуществляется поиск новой точки синхронизации в цикле 609. Это выполняется аналогичным образом, в данном случае с функцией минимальной разности (611), однако, возможно также использовать корреляцию во временной или в частотной области. Если на этапе 613 определено, что это положение дает лучшее соответствие, чем предыдущее найденное положение, то положение синхронизации запоминается на этапе 615. Когда все положения проверены (этап 617), система возвращается (619) к процедуре согласно блок-схеме на фиг.5. Новая полученная точка синхронизации запоминается на этапе 519, и новый сегмент считывается из набора кодов на этапе 521, начинающегося с данной точки синхронизации. Этот сегмент добавляется к окну и прибавляется к предыдущему на этапе 523, квантуется с коэффициентом транспозиции на этапе 525 и запоминается в выходном буфере на этапе 527.

Фиг.7 иллюстрирует режим работы системы в условиях переходного процесса, приминая во внимание положение набора кодов. Перед переходным процессом набор кодов 1, представляющих входной сегмент 1, установлен "слева" от сегмента 1. Сегмент корреляции 1 представляет часть предшествующего выходного результата и исполняется для нахождения точки синхронизации 1 в наборе кодов 1. Когда переходный процесс обнаружен и точка переходного процесса обработана, набор кодов перемещается согласно фиг.7 и остается стационарным, пока текущий обрабатываемый входной сегмент снова не станет "справа" в наборе кодов. Это делает невозможным дублирование переходного процесса, поскольку системе не позволено искать точки синхронизации до переходного процесса.

Большинство устройств транспозиции основного тона или устройств расширения по времени, основанных на прогнозе схемы поиска, дают удовлетворительные результаты для речи и однотонных сигналов. Однако их характеристики быстро ухудшаются для сигналов высокой сложности, таких как музыка, особенно при больших коэффициентах транспозиции. Настоящее изобретение предлагает несколько решений для улучшенных характеристик, дающих хорошие результаты для сигналов любого типа. В противоположность другим решениям эта система изменяется по времени и параметры системы основаны на свойствах входного сигнала и параметрах, используемых на предыдущем рабочем цикле. Использование детектора переходного процесса управляющего не только размером набора кодов и положением, но также и свойствами включенных векторов состояния, является надежным и эффективным с точки зрения вычислений способом, чтобы избежать ухудшения звука для быстро изменяющихся сегментов сигнала. Кроме того, не требуется изменение длины обрабатываемого сегмента сигнала, которое потребовало бы дополнительных вычислений. Настоящее изобретение использует усовершенствованный поиск набора кодов, основанный на результатах предшествующего поиска. Это означает, что в отличие от обычной корреляции двух сегментов, как делается обычно в системах обработки во временной области, основанных на прогнозе схемы поиска, сначала проверяются наиболее подходящие положения синхронизации вместо проверки всех положений последовательно. Этот новый способ для сокращения поиска набора кодов значительно снижает вычислительную сложность системы. Кроме того, при использовании нескольких устройств транспозиции информация о положении синхронизации может быть совместно использована этими устройствами транспозиции для дополнительного снижения вычислительной сложности, как показано в последующих применениях.

Устройства транспозиции во временной области, как объяснялось выше, используются для реализации систем ДСП-1 и ДСП-2 согласно следующему примеру, иллюстративному, но не ограничивающему. На фиг.8 использованы три модуля расширения по времени, чтобы генерировать гармоники второго, третьего и четвертого порядка. Поскольку в этом примере каждое расширение во временной области/устройство транспозиции работает с использованием широкополосного сигнала, выгодно регулировать огибающую спектра исходного диапазона частот до транспозиции, учитывая, что не будет средства для того, чтобы выполнить это после транспозиций без добавления отдельной системы эквалайзера. Регуляторы огибающей спектра 801, 803 и 805 каждый работает на нескольких каналах набора фильтров. Усиление каждого канала в регуляторах огибающей должно быть установлено так, чтобы сумма, 813, 815, 817 на выходе, после транспозиции, давала бы желаемую огибающую спектра. Устройства транспонирования 807, 809 и 811 взаимно соединены, чтобы совместно использовать информацию о положении данных синхронизации. Это основано на том факте, что при определенных условиях будет иметь место высокая корреляция между положениями синхронизации, найденными в наборе кодов во время корреляции в отдельных блоках транспозиции. Предложим, в качестве примера, без каких-либо ограничений объема этого изобретения, что устройство транспозиции гармоник четвертого порядка работает на основе временного интервала, равного половине интервала устройства транспозиции гармоник второго порядка, но с рабочим циклом в два раза большим. Предположим далее, что наборы кодов, используемые для этих двух устройств расширения, те же самые и что положения синхронизации этих двух устройств расширения во временной области обозначены как

и

соответственно. Это дает следующее соотношение:

где

a S - это длина входного сегмента, представленного набором кодов. Это действительно до тех пор, пока ни один из указателей положения синхронизации не достигнет конца набора кодов. При нормальной работе n возрастает на единицу для каждого временного кадра, обработанного устройством транспозиции гармоник второго порядка, и когда неизбежно будет достигнут конец набора кодов любым из указателей, счетчик n устанавливается на n=0, и

и

вычисляются индивидуально. Подобные результаты получаются для устройства транспозиции гармоник третьего порядка при присоединении к устройству транспозиции гармоник четвертого порядка.

Представленное выше использование нескольких взаимно соединенных устройств транспозиции во временной области, для создания гармоник высшего порядка, приводит к существенному уменьшению объема вычислений. Кроме того, предложенное использование устройств транспозиции во временной области в соединении с соответствующим набором фильтров предоставляет возможность регулировки огибающей создаваемого спектра при обеспечении простоты и низких вычислительных затрат устройств транспозиции во временной области, поскольку эти устройства, более или менее, могут быть выполнены с использованием арифметики с фиксированной точкой и исключительно операций сложения/вычитания.

Другие, иллюстративные, но не ограничивающие, примеры, соответствующие настоящему изобретению, таковы:

- использование устройства транспозиции во временной области в каждом поддиапазоне в наборе фильтров поддиапазона, уменьшая, таким образом, сложность сигнала для каждого устройства транспозиции;

- использование устройства транспозиции во временной области в соединении с устройством транспозиции в частотной области, позволяя, таким образом, системе использовать разные способы для транспозиции в зависимости от характеристик обрабатываемого входного сигнала;

- использование устройства транспозиции во временной области в широкополосном речевом кодеке, работающем, например, на остаточном сигнале, полученном после линейной экстраполяции.

Следует иметь в виду, что описанный выше в общих чертах способ может быть выгодно использован только для модификаций временного масштаба простым исключением преобразования скорости стробирования. Кроме того, понятно, что хотя этот описанный в общих чертах способ фокусируется на транспозиции основного тона в сторону более высокого основного тона, т.е. на расширении по времени, одни и те же принципы применяются при транспозиции в сторону более низкого основного тона, т.е. сжатии по времени, как очевидно для специалистов в данной области техники.

Транспозиция на основе набора фильтров

Ниже описаны различные новые способы транспозиции на основе набора фильтров. Сигнал, подлежащий транспозиции, делится на ряд полосовых сигналов или поддиапазонов. Сигналы субполос затем транспонируются, точно или приближенно, что реализуется путем соединения субполос анализа и синтеза, здесь в дальнейшем называемого "Склеиванием". Этот способ сначала демонстрируется с использованием КратноВременного Преобразования Фурье (КВПФ).

КВПФ для N точек дискретного по времени сигнала х(n) определяется равенством

где k=0, 1,... , N-1 и ω _k=2π k/N и h(n) есть окно. Если это окно удовлетворяет следующим условиям:

существует обратное преобразование, и оно задается равенством

Прямое преобразование может быть интерпретировано как анализатор, см. фиг.9а, состоящий из набора N полосовых фильтров с импульсными выходными сигналами h(n)exp(jω _kn) 901 с последующим набором из N умножителей с несущими exp(-jω _kn) 903 со сдвигом полосовых сигналов в области вокруг 0 Гц, формируя N сигналов Х_к(n) анализа. Это окно действует подобно фильтру нижних частот. Х_к(n) имеют малую ширину полосы и дискретизируются с пониженной частотой (блок 905). Уравнение (12), таким образом, оценивается только при n=rR, где R - это коэффициент прореживания, а r - новая временная переменная. Х_к(n) может быть восстановлено из Х_к(rR) путем дискретизации с повышением частоты, смотри фиг.9b, т.е. вводом нулей (блок 907) после фильтрации фильтром нижних частот 909. Обратное преобразование может быть интерпретировано как синтезатор, состоящий из набора N умножителей 911 с несущими (1/N exp(jω _кn), который сдвигает сигналы Х_к(n) вверх на первоначальные частоты, за которым следуют расходы 913 (фиг.9с), которые добавляют составляющие У_к(n) из всех каналов. КВПФ и обратное КВПФ (ОКВПФ) могут быть переупорядочены, чтобы использовать дискретное преобразование Фурье (ДПФ) и обратное ДПФ (ОДПФ), что позволяет использовать алгоритм быстрого преобразования Фурье (БПФ) (см. "Implementation of the Phase Vocoder using the Fast Fourier Transform" M.R.Portnoff, IEEE ASSP, Vol.24, No.3, 1976).

Фиг.9с показывает соединение 915 для генерации вторых гармоник, М=2, при N=32. Для упрощения показаны только каналы от 0 до 16. Центральная частота полосы 16 равна частоте Найквиста, каналы от 17 до 31 соответствуют отрицательным частотам. Блоки, обозначенные Р 917, и блоки усиления 919 будут описаны позднее, а сейчас должны рассматриваться как сокращенные. Входной сигнал в этом примере ограничен по полосе, так что только каналы от 0 до 7 содержат сигналы. Каналы анализатора с 8 до 16, таким образом, пусты и не требуют отображения в синтезатор. Каналы анализатора от 0 до 7 соединены с каналами синтезатора от 0 до 7, соответствующими тракту задержки входного сигнала. Каналы анализа k, где 4≤ k≤ 7 соединены с каналами синтеза Mk, M=2, которые сдвигают эти сигналы в области частот с центральными частотами, двукратными относительно полосовых фильтров k. Таким образом, сигналы сдвигаются вверх к своим первоначальным диапазонам, а также транспонируются на одну октаву вверх. Чтобы исследовать генерацию гармоник в смысле реальных выходных откликов фильтров и модуляторов, должны также рассматриваться отрицательные частоты, смотри нижнюю ветвь на фиг.10а. Следовательно, комбинированный выходной результат обратного преобразования соответствует отображению k→ Mk 1001 и N-k→ N-Mk 1003, где 4≤ k≤ 7.

Это дает

где М=2. Уравнение (15) может быть интерпретировано как полосовая фильтрация входного сигнала с последующим линейным сдвигом частот или модуляцией Верхней Боковой Полосой, т.е. модуляцией с одной боковой полосой с использованием верхней боковой полосы (см. фиг.10b), где 1005 и 1007 образуют преобразователь Гильберта, 1009 и 1011 представляют собой умножители с косинусоидальными м синусоидальными несущими, а 1013 - каскад дифференцирования, которая выделяет верхнюю боковую полосу. Ясно, что такой способ многодиапазонной полосовой фильтрации одной боковой полосы может быть применен в явном виде, т.е. без связывания набора фильтров, во временной или в частотной области, что позволяет осуществить произвольную выборку индивидуальных полос пропускания и частот генераторов.

Согласно уравнению (15) синусоида с частотой ω _i в полосе частот канала k анализа дает гармонику на частоте Mω _k+(ω _i-ω _k). Отсюда этот способ, называемый базовой многополосной транспозицией, генерирует только точные гармоники для входных сигналов с частотами ω _i=ω _k, где 4≤ k≤ 7. Однако, если количество фильтров достаточно велико, отклонение от точной транспозиции незначительно (см. уравнение (4)). Кроме того, транспозиция выполняется точно для квазистационарных тональных сигналов произвольных частот, путем ввода блоков, обозначенных Р 917 (фиг.9с), при условии, что каждый канал анализа содержит не более одного частичного тона. В этом случае Х_к(rR) являются комплексными экспонентами с частотами, равными разностям между частотами частичных тонов ω _i и центральными частотами ω _k фильтров анализа. Для получения точной транспозиции эти частоты должны быть увеличены на коэффициент М, модифицируя вышеприведенное отношение частот к виду ω _i→ Mω _k+M(ω _i-ω _k)=Mω _i. Частоты Х_к(rR) равны производным по времени от их соответствующих развернутых фазовых углов и могут быть оценены с использованием разностей первого порядка последовательных фазовых углов. Оценки частот умножаются на М, и фазовые углы синтеза вычисляются с использованием этих новых частот. Однако такой же результат, за исключением фазовой постоянной, получается упрощенным способом, путем умножения аргументов анализа на М непосредственно, исключая потребность в оценке частоты. Это описано на фиг.11, представляющей блоки 917. Таким образом Х_к(rR), где 4≤ k≤ 7 в этом примере, преобразуется из прямоугольных в полярные координаты, что показано блоками R→ P (блок 1101). Аргументы умножаются на М=2 (блок 1103), а амплитуды не изменяются. Сигналы затем преобразуются обратно в прямоугольные координаты (P→ R) в блоке 1105, формируя сигналы Y_Mk(rR), и подаются к каналам синтезатора согласно фиг.9с. Этот усовершенствованный способ многополосной транспозиции, таким образом, имеет две ступени: связывание обеспечивает грубую транспозицию, как в базовом способе, а фазоумножители обеспечивают точные корректировки частоты. Вышеприведенные способы многополосной транспозиции отличаются от традиционной технологии сдвига основного тона с использованием КВПФ, где для синтеза используются генераторы на основе таблиц преобразования, или, когда используется ОКВПФ для синтеза сигнала, который растянут по времени и прорежен, т.е. связывание не используется.

Связывание гармоник по фиг.9с легко модифицируется для других коэффициентов транспозиции, отличных от 2. Фиг.12 иллюстрирует связывание 1203 для генерации гармоник 3-го порядка, где 1201 - каналы анализа, а 1205 - каналы синтеза. Различные порядки гармоник могут создаваться одновременно, как показано на фиг.13, где используются гармоники 2-го и 3-го порядков. Фиг.14 иллюстрирует неперекрывающуюся комбинацию гармоник 2-го, 3-го и 4-го порядков. Самый низкий возможный номер гармоники используется в качестве максимально возможной высокой частоты. Выше верхней границы назначенного диапазона гармоник M используется гармоника М+1. Фиг.15 иллюстрирует способ отображения всех каналов синтезатора (N=64, показаны каналы O-32). Все каналы верхних частот с номерами индексов, не относящимися к простым числам, отображаются согласно следующему соотношению между номерами исходных каналов и номерами каналов назначения: k=_назн=Mk_иcт, где М есть наименьшее целое число ≥ 2, которое удовлетворяет условию, что k_ист лежит в диапазоне нижних частот, а k_назн - в диапазоне верхних частот. Следовательно, ни один канал синтезатора не принимает сигнал более чем от одного канала анализа. Каналы верхних частот с номерами в виде простых чисел могут отображаться в k_ист=1 или в каналы нижних частот k_ист>1, что дает хорошие приближения вышеприведенного отношения (только соединений с номерами не в виде простых чисел с М=2, 3, 4, 5 показаны на фиг.15).

Возможно также комбинировать амплитудную и фазовую информацию от различных каналов анализатора. Амплитудные сигналы [Х_к(rR)] могут быть связаны согласно фиг.16, тогда как фазовые сигналы аrg{Х_к(rR)} соединяются согласно правилу по фиг.16. Таким образом, нижние частоты будут еще транспортированы, посредством чего генерируется периодическое повторение огибающей исходной области, вместо расширенной огибающей, которая является результатом транспозиции согласно уравнению (2). Стробирование или другие средства могут использоваться, чтобы избежать усиления "пустых" исходных каналов. Фиг.17 иллюстрирует другое применение, генерацию субгармоник относительно отфильтрованных верхних частот или басово-ограниченного сигнала с использованием соединений от верхних к нижним субполос. При использовании вышеупомянутых транспозиций может быть выгодно применять регулируемое переключение связей, основанное на характеристиках сигнала.

В вышеприведенном описании предполагается, что самая высокая частота, содержащаяся во входном сигнале, значительно ниже, чем частота Найквиста. Таким образом, возможно выполнить расширение полосы пропускания без увеличения частоты дискретизации. Это, однако, не всегда имеет место, вследствие чего может быть необходимо предварительно повысить частоту дискретизации. При использовании способов на основе набора фильтров для транспозиции возможно включить в процедуру обработки дискретизацию с повышенной частотой.

Наиболее перцептуальные кодеки применяют наборы фильтров с максимальным прореживанием при отображении времени в частоту ["Introduction to Perceptual Coding" K.Brandenburg, AES, Collected Papers on Digital Audio Bitrate Reduction, 1996]. Фиг.18а показывает основную структуру системы перцептуального кодирования. Набор фильтров анализа 1801 расщепляет входной сигнал на несколько сигналов субполос. Эти выборки субполос индивидуально квантуются (1803), используя уменьшенное количество бит, где число уровней квантования определяется из перцептуальной модели (1807), которая оценивает минимальный порог маскирования. Эти субполосы нормализуются, кодируются способами кодирования с необязательной избыточностью и объединяются с дополнительной информацией, состоящей из коэффициентов нормализации, информации о распределении битов и других специфических данных кодека (1805), чтобы сформировать последовательный поток битов. Этот поток битов затем запоминается или передается. В декодере (фиг.18b) кодированный поток битов демультиплексируется (1809), декодируется, и выборки субполос повторно квантируются до равного количества битов (1811). Набор фильтров синтеза объединяет выборки субполос, чтобы восстановить исходный сигнал (1813). Варианты реализации, использующие наборы фильтров с максимальным прореживанием значительно уменьшают вычислительные затраты. В последующем описании сделан упор на косинусоидально модулированных наборах фильтров. Следует, однако, иметь в виду, что настоящее изобретение может быть реализовано с использованием других типов наборов фильтров или преобразователей, включая интерпретации набора фильтров с преобразованием волны малой интенсивности, другие наборы фильтров или преобразователи с неравными полосами пропускания и многомерные наборы фильтров или преобразователей.

В иллюстративном, но не ограничивающем описании, ниже предполагается, что L-канальный косинусоидально модулированный набор фильтров расщепляет входной сигнал х(n) на L субполос. Общая структура набора фильтров с максимальным прореживанием показана на фиг.19. Фильтры анализа обозначены Н_к(z) 1901, где k=0, 1,... , L-1. Сигналы субполос ν _к(n) максимально прореживаются (1903) каждой из частот дискретизации f_s/L, где f_s - частота дискретизации х(n). Блок синтеза воссоединяет обратно сигналы субполос после интерполяции (1905) и фильтрации (1907), для формирования х(n). Фильтры синтеза обозначены F_к(z). Кроме того, настоящее изобретение выполняет дублирование спектра на х(n), формируя в результате сигнал у(n).

Синтезирование сигналов субполос с помощью QL-канального набора фильтров, где используются только L каналов нижних частот, а коэффициент расширения полосы Q выбран так, что QL - целое число, дает в результате выходной поток битов с частотой дискретизации Qf_s. Следовательно, расширенный набор фильтров будет действовать так, как если бы он был L-канальным набором фильтров с последующим устройством дискретизации с повышенной частотой. Поскольку в этом случае L(Q-1) фильтров верхних частот не используются (на них подаются нули), ширина полосы аудиосигнала не изменится - набор фильтров просто воспроизведет версию х(n) с повышенной частотной дискретизации. Если, однако, сигналы субполос связываются с фильтрами верхних частот, то ширина полосы

возрастает на коэффициент Q, формируя у(n), это является версией набора фильтров с максимальным прореживанием многополосного устройства транспозиции согласно изобретению. Используя эту схему, процесс дискретизации с повышением частоты дискретизации интегрируется в процесс фильтрования процесса синтеза, как объяснялось ранее. Следует отметить, что может быть использован набор фильтров синтеза любого размера, что приводит к различным частотам дискретизации выходного сигнала, и, следовательно, к разным коэффициентам расширения полосы частот. Выполнение дублирования спектра на

согласно настоящему изобретению, соответствующему базовому многополосному способу транспозиции с целочисленным коэффициентом транспозиции М, выполняется связыванием сигналов поддиапазонов как

где k∈ [0,L-1] и выбрано так, что Mk∈ [L,QL-1], е_мk(n) - коррекция огибающей, а (-1)^(м-1)kn - коэффициент коррекции для спектрально инвертированных субполос. Спектральная инверсия вытекает из прореживания сигналов субполос, и инвертированные сигналы могут быть повторно инвертированы изменением знака каждой второй выборки в этих каналах. Со ссылкой на фиг.20, рассмотрим 16-канальный набор фильтров синтеза, связанный (2009) для коэффициента транспозиции М=2, с Q=2. Блоки 2001 и 2003 обозначают фильтры анализа Н_K(z) и блоки прореживания по фиг.19 соответственно. Подобным образом, 2005 и 2007 являются интерполяторами и фильтрами синтеза F_k(z). Уравнение (16) затем упрощается соответственно связыванию сигналов четырех верхних частотных субполос полученных данных в каждую вторую группе из восьми самых верхних каналов в наборе фильтров синтеза. Благодаря спектральной инверсии, каждый второй соединенный сигнал поддиапазона должен быть частотно инвертирован до синтеза. Кроме того, амплитуды соединенных сигналов должны быть отрегулированы (2011) согласно правилам ДСП-1 или ДСП-2.

При использовании базового многополосного способа транспозиции согласно настоящему изобретению генерируемые гармоники в общем не являются точно кратными основным частотам. Все частоты, кроме самых низких в каждой субполосе, отличаются в некоторой степени от точной транспозиции. Кроме того, дублированный спектр содержит нули, поскольку интервал результирующего диапазона покрывает более широкий диапазон частот, чем интервал исходного диапазона. Более того, свойства подавления паразитного сигнала косинусоидально модулированного набора фильтров исчезает, поскольку сигналы субполос разделены по частоте в выходном интервале. То есть сигналы соседних субполос не перекрываются в высокочастотной области. Однако, способы уменьшения паразитных сигналов, известные специалистам, в данной области техники, могут быть использованы для уменьшения этого типа помех. Преимущества этого способа транспозиции состоят в простоте реализации и очень низких вычислительных затратах.

Чтобы обеспечить высокую точность транспозиции синусоид, представлено решение на основе набора фильтров эффективного максимального прореживания усовершенствованного способа многополосной транспозиции. Система использует дополнительный модифицированный набор фильтров анализа, в то время как набор фильтров синтеза является косинусоидально-модулированным, как описано в работе "Multi-rate Systems and Filter Banks", P.P.Vaidyanathan, Prentice Hall, Englewood Cliffs, New Jersey, 1993, ISBN 0-13-605718-7. Этапы способа многополосной транспозиции согласно настоящему изобретению на основе наборов фильтров с максимальным прореживанием схематически показаны на фиг.21 и на блок-схеме фиг.22 и являются следующими:

1. L принятых сигналов субполос синтезируются с помощью QL-канального набора фильтров 2101, 2201, 2203, где в L(Q-1) верхних каналов подаются нули, чтобы сформировать сигнал х(n), который таким образом избыточно дискретизируется с коэффициентом расширения ширины полосы Q.

2. x₁(n) подвергается дискретизации с пониженной частотой с коэффициентом Q, чтобы сформировать сигнал x₂(n’) 2103, 2205, т.е. x₂(n’)=x₁(Qn’).

3. Выбирается целочисленная величина К как размер набора фильтров синтеза, ограниченная таким образом, что T=KM/Q - целое число, где Т - размер модифицированного набора фильтров анализа, а М - коэффициент транспозиции 2207, 2209, 2211. К предпочтительно должна быть выбрана большой для стационарных (тональных) сигналов и меньшей для динамических (переходных) сигналов.

4. x(n’) фильтруется посредством фильтров Т-канального модифицированного набора фильтров анализа 2107, 2213, где Т фильтров анализа экспоненциально модулированы, формируя набор комплексных сигналов субполос. Эти сигналы субполос дискретизуруются с пониженной частотой с коэффициентом Т/М, давая сигналы субполос ν _k ^(M)(n’’), k=0, 1,... Т-1. Отсюда, набор фильтров будет избыточно дискретизирован с коэффициентом М.

5. Сигналы ν _k ^(M)(n’’) преобразуются в полярное представление (амплитуда и фазовый угол). Фазовые углы умножаются на коэффициент М, и эти сигналы преобразуются обратно в представление в прямоугольных координатах согласно схеме фиг.11. Берутся действительные составляющие комплексных сигналов, в результате чего получаются сигналы s_k ^(M)(n’’) 2109, 2215. После этой операции сигналы s_k ^(M)(n’’) критически дискретизируются.

6. Коэффициенты усиления сигналов s_k ^(M)(n’’) регулируются согласно правил ДСП-1 или ДСП-2 (2111, 2217).

7. Сигналы субполос s_к ^(M)(n’’), где k∈ [T/M, min (К, Т)-1], синтезируются с помощью обычного косинусоидально-модулированного К-канального набора фильтров, где на каналы от 0 до Т/М-1 подаются нули. В результате формируется сигнал х₃ ^(M)(n).

8. x₃ ^(M)(n) окончательно добавляется к x₁(n), чтобы дать у(n) 2223, который является желаемым сигналом дублированного спектра.

Этапы с 3 по 6 могут быть повторены для различных значений коэффициента транспозиции М, добавляя таким образом множество гармоник к x₁(n). Этот режим работы иллюстрируется пунктирными линиями на фиг.21 и фиг.22, повторением цикла, включающего блоки 2211-2219. В этом случае, К выбирается так, чтобы сделать Т целочисленным для всех значений выбранных М - для целочисленных M:s; предпочтительно К выбирается так, чтобы K/Q было положительным целым числом. Все сигналы субполос s_k ^(Mi)(m’’), где i=1, 2,... , m, a m есть число коэффициентов транспозиции, суммируются согласно равенству

для всех используемых k. В первой итерации цикла по фиг.22 сигналы s_к(n’’) могут рассматриваться только как нулевые сигналы поддиапазонов, где k=0, 1,... , К-1. В каждом цикле новые сигналы добавляются (2219) к s_к(n’’) следующим образом:

где k=K/Q, K/Q+1,... , min(K,T_i)-1. Сигналы поддиапазонов s_k(n’’) синтезируются однократно с помощью К-канального набора фильтров согласно этапу (7).

Модифицированный набор фильтров анализа для этапа (4) получается согласно теории косинусоидально-модулированных наборов фильтров, где модулированное преобразование с перекрытием (cм. "Lapped Transforms for Efficient Transform/Subband Coding" H.S.Malvar, IEEE Trans ASSP, vol.38, no.6, 1990) является частным случаем. Импульсные отклики h_k(n) фильтров в Т-канальном косинусоидально-модулированном наборе фильтров могут быть записаны в виде

где k=0, 1,... ,T-1, N - длина прототипа фильтра нижних частот р_o(n), С - константа, а Ф_к - фазовый угол, который обеспечивает исключение помех между соседними каналами. Ограничения на Ф_к следующие:

которые могут быть упрощены до выражения в замкнутой форме

При таком выборе Ф_к с использованием набора фильтров синтеза могут быть получены системы точной реконструкции или системы приближенной реконструкции (системы псевдоQMF) с импульсными откликами в виде

Рассмотрим фильтры

где h_к’ (n) - синусоидально-модулированная версия фильтра р_o(n). Фильтры H_k’ (z) H_k(z) имеют идентичные поддержки полосы пропускания, но отличающиеся фазовые отклики. Полосы пропускания фильтров в действительности являются преобразованиями Гильберта друг друга (это не действительно для частот близких к w=0 и w=π ). Объединение уравнений (19) и (23) согласно

дает фильтры, которые имеют ту же форму амплитудных откликов как Н_к(z) для положительных частот, но являются нулями для отрицательных частот, использование набора фильтров с импульсными откликами как в уравнении (24) дает набор сигналов субполос, которые могут быть интерпретированы как сигналы анализа (комплексные), соответствующие сигналам субполос, полученным из набора фильтров с импульсными откликами, как в уравнении (19). Сигналы анализа пригодны для манипуляции, поскольку выборки в виде комплесных значений могут быть записаны в полярной форме, т.е.

z(n)=r(n)+ji(n)=|z(n)|exp{j arg(z(n))}.

Однако при использовании набора комплексных фильтров для транспозиции ограничения для Ф_к должны быть обобщены, чтобы поддержать свойство исключения помех. Новое ограничение для Ф_к для обеспечения исключения помех совместно с набором фильтров синтеза с импульсными откликами как в уравнении (22) имеет вид:

что упрощается до уравнения (21), когда М=1. При таком выборе транспонированные частичные тона будут иметь те же относительные фазы, какие они имели бы при М=1 (нет транспозиции).

Объединение равенства 24 и равенства 25 дает

что является фильтрами, используемыми в модифицированном наборе фильтров для этапа (4) согласно настоящему изобретению.

Ниже приведены некоторые пояснения касательно этапа (5). Дискретизация с пониженной частотой комплексных сигналов субполос приводит к избыточной дискретизацией на М, что является существенным критерием, когда впоследствии фазовые углы умножаются на коэффициент транспозиции М. Избыточная дискретизация приводит к тому, что количество выборок субполос на ширину полосы после транспонирования в диапазон назначения, становиться равным количеству выборок субполос исходного диапазона. Индивидуальные полосы пропускания транспонированных сигналов субполос в М раз больше, чем полосы пропускания исходного диапазона, вследствие действия фазоумножителя. Это приводит к тому, что сигналы субполос становятся критически дискретизированными после этапа (5), и кроме того, в спектре не будет нулей при транспозиции тональных сигналов.

Чтобы избежать тригонометрических вычислений, т.е. при необходимости вычисления новых сигналов субполос как

где |ν _K ^(M)(n’’)| абсолютная величина ν _K ^(M)(n’’), используется следующее тригонометрическое соотношение:

При условии

и

вычисления для этапа (5) можно выполнить без тригонометрических вычислений, уменьшив сложность вычислений.

При использовании транспозиции с четным М могут возникнуть проблемы для фазо-умножителя, в зависимости от характеристик фильтра нижних частот p_o(n). Все применимые фильтры имеют нули на единичной окружности в плоскости Z. Нуль на единичной окружности создает сдвиг на 180 градусов в фазовом отклике фильтра. Для четных М фазоумножитель переводит эти сдвиги в сдвиги на 360 градусов, т.е. сдвиги по фазе исчезают. Частичные тоны, расположенные таким образом по частоте, что такие фазовые сдвиги исчезают, приведут к помехе в синтезируемом сигнале. Наихудший случай в этой ситуации имеет место тогда, когда частичный тон соответствует точке по частоте, соответствующей вершине первого бокового лепестка характеристики фильтра анализа. В зависимости от ослабления этого лепестка в амплитудном отклике эти помехи будут более или менее слышимыми. Как пример, первый боковой лепесток фильтра, используемого для уровня 1 и 2 стандартом ISO/MPEG, ослабляется на 96 дБ, в то время как ослабление первого бокового лепестка для синусоидального окна, используемого в схеме MDCT уровня 3 стандарта ISO/MPEG только 23 дБ. Ясно, что помеха этого типа, при использовании синусоидального окна, будет прослушиваться. Ниже представлено решение этой проблемы, определяемое как относительная фазовая синхронизация.

Фильтры h^a _к(n) имеют линейные фазовые отклики. Фазовые углы Ф_к вводят относительные фазовые разности между соседними каналами, а нули на единичной окружности вводят сдвиг по фазе в 180 градусов в позициях по частоте, которые могут отличаться для различных каналов. Путем контроля разности фаз между сигналами соседних субполос, перед запуском фазоумножителя, легко выделить каналы, которые содержат информацию с инвертированной фазой. Для тональных сигналов разность фазы равна примерно π /2М согласно уравнению (25) для неинвертированных сигналов и, соответственно, равна примерно π (1-1/2М) для сигналов, если какой-либо из сигналов инвертирован. Выделение инвертированных сигналов может быть выполнено вычислением скалярного произведения сигналов в соседних субполосах в виде

Если произведение в уравнении (32) отрицательно, разность фаз больше 90 градусов, и присутствует условие фазовой инверсии. Фазовые углы комплексных сигналов субполос умножаются на М согласно схеме для этапа (5) и, наконец, сигналы, помеченные как инверсные, вычитаются. Способ относительной фазовой синхронизации, таким образом, заставляет сдвинутые на 180 градусов сигналы субполос сохранять этот сдвиг после умножения фазы и тем самым поддерживать свойство подавления помех.

Регулировка огибающей спектра.

Большинство звуков, таких как речь и музыка, характеризуются произведениями медленно изменяющихся огибающих и быстро изменяющихся несущих частот с постоянной амплитудой, как описано в работе "The Application of Generalized Linearity to Automatic Gain Control" T.G.Stockham, Jr, IEEE Tans on Audio and Electroacoustics, Vol.AU-16, No.2, June 1968 и в уравнении (1).

В перцептуальных аудиокодерах с расщепленной полосой аудиосигнал сегментирован на блоки и расщеплен на множество частотных полос с использованием фильтров субполос или преобразования из временной области частотную область. В большинстве типов кодеков сигнал последовательно разделяется на две главных сигнальных составляющих для передачи или запоминания, представления огибающей спектра и нормированных выборок субполос или коэффициентов. В последующем описании термин "выборки субполос" или "коэффициенты" относится к значениям выборок, полученным из фильтров субполос, а также к коэффициентам, полученным для преобразования из временной области в частотную область. Термин "огибающая спектра" или "коэффициенты масштабирования" представляют собой величины для субполос на основе временного кадра, такие как средняя или максимальная амплитуда в каждой субполосе, используемые для нормировки выборок субполос. Однако огибающая спектра может быть также получена с использованием линейного прогнозирования (патент США 5684920). В типовом кодеке нормированные выборки субполос требуют кодирования при высокой скорости передачи (используя примерно 90% доступной скорости передачи) по сравнению с огибающими, медленно изменяющимися во времени, и, тем самым, огибающими спектра, которые могут кодироваться при значительно меньших скоростях (используя примерно 10% доступной скорости передачи).

Точная огибающая спектра дублированной ширины полосы важна, если должны быть сохранены качества тембра исходного сигнала. Воспринимаемый тембр музыкального инструмента или голоса определяется, главным образом, спектральным распределением ниже частоты f_lim (граничной), расположенной в самых высоких октавах слышимого диапазона. Части спектра выше f_lim, таким образом, имеют меньшее значение и, соответственно, тонкие структуры верхней полосы, полученные вышеописанными способами транспозиции, не требуют регулировки, в то время как грубые структуры, в общем случае требуют. Для обеспечения такой регулировки полезно отфильтровать спектральное представление сигнала, чтобы отделить грубую структуру огибающей от тонкой структуры.

В варианте с использованием ДСП-1 согласно настоящему изобретению грубая огибающая спектра верхней полосы оценивается по информации нижней полосы, имеющейся в декодере. Эта оценка выполняется непрерывным контролем огибающей нижней полосы и регулировкой огибающей спектра верхней полосы в соответствии со специальными правилами. Новый способ осуществления вычисления огибающей использует асимптоты в логарифмической частотно-амплитудной области, что эквивалентно аппроксимации кривой с помощью полиномов переменного порядка в линейной области. Вычисляется уровень и наклон верхней части спектра нижней полосы, и оценки используются для определения уровня и наклона одного или нескольких сегментов, представляющих новую огибающую верхней полосы. Точки пересечения ассимптот фиксируются по частоте и действуют как опорные точки. Однако не всегда необходимо, хотя и выгодно, устанавливать ограничения, чтобы сохранять отклонения огибающей верхней полосы в реальных границах. Альтернативным подходом к оценке огибающей спектра является использование векторного квантований, VQ, большего количества характерных огибающих спектра и запоминания их в таблице преобразования или наборе кодов. Векторное квантование выполняется путем обучения желаемого количества векторов на большом объеме данных обучения в данном случае огибающих спектра аудиосигнала. Обучение обычно выполняется с помощью Обобщенного алгоритма Ллойда (см. работу "Vector Quantization and Signal Compression" A.Gersho, R.M.Gray, Kluwer Academic Publishers, USA 1992, ISBN 0-7923-9181-0) и дает векторы, которые оптимально схватывают содержимое данных обучения. Рассматривая набор кодов VQ, состоящих из А огибающих спектров, обученный на В огибающих (В>>А), затем А огибающих представляют А наиболее вероятных переходов от огибающей нижней полосы к огибающей верхней полосы на основании В наблюдений широкого разнообразия звуковых сигналов. Это, теоретически, представляет собой А правил для прогнозирования огибающей на основании В наблюдений. При оценке новой огибающей спектра верхней полосы исходная огибающая нижней полосы используется для поиска набора кодов, и часть верхней полосы наиболее точно совпадающей записи набора кодов используется для создания нового спектра верхней полосы.

На фиг.23 нормирование выборки субполос обозначено позицией 2301, а огибающие спектров представлены коэффициентами масштабирования 2305. Для целей иллюстрации, передача к декодеру 2303 показана в параллельной форме. В способе ДСП-2 (фиг.24) информация огибающей спектра генерируется и передается согласно фиг.23, при этом передаются только выборки субполос нижней полосы. Передаваемые коэффициенты масштабирования, таким образом, охватывают полный диапазон частот, в то время как выборки субполос охватывают только ограниченный диапазон частот, исключающий верхнюю полосу. В декодере выборки субполос 2401 нижней полосы транспонируются (2403) и комбинируются с принятой информацией огибающей спектра 2405 верхней полосы. Таким образом, синтезированная огибающая спектра верхней полосы идентична исходной огибающей, поддерживая в то же время значительное уменьшение скорости передачи данных.

В некоторых кодеках возможно передавать масштабные коэффициенты для полной огибающей спектра, опуская в то же время выборки субполос верхней полосы, как показано на фиг.24. Другие стандарты кодеков устанавливают, что масштабные коэффициенты и выборки субполос должны перекрывать одинаковый диапазон частот, т.е. масштабные коэффициенты не могут быть переданы, если выборки субполос опущены. В таких случаях имеется несколько решений: информация об огибающей спектра верхней полосы может быть передана в отдельных кадрах, причем эти кадры имеют свои заголовки и дополнительную защиту от ошибок, за которыми следуют данные.

Обычные декодеры, не использующие преимущества настоящего изобретения, не распознают эти заголовки и поэтому отбросят эти дополнительные кадры. Согласно второму решению информация об огибающей спектра верхней полосы передается как дополнительные данные в кодированном потоке битов. Однако доступное поле дополнительных данных должно быть достаточно большим, чтобы вместить информацию огибающей. В случаях, когда ни одно из двух первых решений не применимо, может быть использовано третье решение, согласно которому информация огибающей спектра верхней полосы скрыта в виде выборок субполос. Масштабные коэффициенты выбора субполос перекрывают большой динамический диапазон, обычно превышающий 100 дБ. Таким образом, возможно установить произвольное количество масштабных коэффициентов выборок субполос (2505 на фиг.25) на очень малые значения и передавать масштабные коэффициенты верхней полосы "замаскированными" в виде выборок субполос 2501. Этот способ передачи масштабных коэффициентов верхней полосы в декодер 2503 обеспечивает совместимость с синтаксом потока битов. Следовательно, в этом режиме могут передаваться произвольные данные. Известен сходный способ, в котором информация кодируется в потоке выборок субполос (патент США 5687191). Четвертое решение (фиг.26) может быть применено, когда система кодирования использует кодирование Хафмана или другое кодирование с избыточностью (2603). Выборку субполос для верхней полосы затем устанавливаются в нуль (2601) или в постоянное значение для достижения высокой избыточности.

Улучшение отклика переходного процесса

Искажения, связанные с переходными процессами, являются общей проблемой в кодеках аудиосигналов, и подобные искажения имеют место и для настоящего изобретения. В принципе, связывание создает спектральные "нули" или провалы, соответствующие предварительным и последующим эхо-сигналам во временной области, т.е. ложным переходным процессом до и после "истинных" переходных процессов. Хотя Р-блоки "заполняют нули" для медленно изменяющихся тональных сигналов, однако предварительные и последующие эхо-сигналы остаются. Усовершенствованный многополосный способ предназначен для работы на дискретных синусоидах, причем количество синусоид ограничено одной на субполосу. Переходные процессы или шум в субполосе могут рассматриваться как большое количество дискретных синусоид в такой субполосе. Это создает интермодуляционное искажение. Такие искажения рассматриваются как дополнительные источники шумов квантования, связанные с дублированными каналами верхней полосы на интервалах переходных процессов. Для усовершенствования субъективного качества усовершенствованного многополосового способа могут быть использованы традиционные способы устранения предварительных и последующих эхо-сигналов в перцептуальных кодерах аудиосигналов, например, адаптивное переключение окна. Использование детектирования переходных процессов, обеспечиваемого кодеком или отдельным детектором, и уменьшение количества каналов, находящихся в условиях переходных процессов, приводит к тому, что шумы квантования не превышают зависящего от времени порога маскирования. Меньшее количество каналов используется при прохождении переходных процессов, в то время как большее количество используется при прохождении тональных сигналов. Такое адаптивное переключение окна обычно применяется в кодеках для использования компромисса между частотной разрешающей способностью временной разрешающей способностью. Различные способы могут быть использованы в задачах, где размер набора фильтров является фиксированным. Одним их подходов является преобразование шумов квантования во времени путем линейного прогнозирования в спектральной области. Транспозиция затем выполняется на остаточном сигнале, который является выходным результатом фильтра линейного предсказания. После этого фильтр инверсного предсказания применяется одновременно к исходному и спектрально-дублированному каналам. Другой подход использует систему компандера (компрессор + экспандер), т.е. динамическое сжатие переходного сигнала перед транспозицией или кодированием, и дополнительное расширение после транспозиции. Возможно также попеременное использование способов транспозиции в зависимости от сигнала, например способ транспозиции с набором фильтров высокой разрешающей способности используется для стационарных сигналов, а способ прогнозирования изменяющейся по времени схемы поиска используется для переходных сигналов.

Практическое осуществление

При использовании стандартных процессоров сигнала или персональных компьютеров с большими вычислительными возможностями возможна работа кодека на основе ДСП в режиме реального времени. Такой кодек может быть выполнен в виде аппаратных средств на обычной микросхеме. Он может быть также выполнен в различных видах систем для хранения или передачи сигналов, аналоговых или цифровых, с использованием произвольных кодеков (фиг.27 и фиг.28). Способ ДСП-1 может быть интегрирован в декодер или обеспечиваться как дополнительный модуль постобработки, аппаратный или программный. Способ ДСП-2 требует дополнительной модификации кодера. Как показано на фиг.21, аналоговой входной сигнал подается на аналого-цифровой преобразователь 2701, формирующий цифровой сигнал, который подается на произвольный кодер 2703, на котором выполняется исходное кодирование. Сигнал, подаваемый в систему, может быть сигналом нижних частот того типа, спектральные полосы которого уже были отброшены в пределах звукового диапазона или спектральные полосы которого отбрасываются в произвольном кодере. Результирующие сигналы нижней полосы подаются на мультиплексор 2705, формирующий последовательный поток битов, который передается или запоминается (2707). Демультиплексор 2709 восстанавливает эти сигналы и подает их на произвольный дешифратор 2711. Информация огибающей спектра 2715 оценивается в дешифраторе 2711 и подается на блок ДСП-1 2713, который транспортирует сигнал нижней полосы в сигнал верхней полосы и создает широкополосный сигнал с подстраиваемой огибающей спектра. Наконец, цифровой широкополосный сигнал преобразуется (2717) в аналоговый выходной сигнал.

Способ ДСП-2 требует дополнительной модификации кодера. Согласно фиг.28, аналоговый входной сигнал подается на аналого-цифровой преобразователь 2801, формируя цифровой сигнал, который подается на произвольный кодер 2803, в котором выполняется исходное кодирование. Информация огибающей спектра выделяется 2805. Результирующие сигналы, выборки субполос нижней полосы или коэффициенты и информация широкополосной огибающей подаются на мультиплексор 2807, формируя последовательный поток битов, который передается или запоминается (2809). Демультиплексор 2811 восстанавливает эти сигналы, выборки субполос нижней полосы или коэффициенты и информацию широкополосной огибающей и подает их на произвольный декодер 2815. Информация огибающей спектра 2813 подается с демультиплексора 2811 на блок ДСП-2 2817, который транспонирует сигнал нижней полосы в сигнал верхней полосы и создает широкополосный сигнал С подстраиваемой огибающей спектра. Наконец, цифровой широкополосный сигнал преобразуется (2819) в аналоговый выходной сигнал.

Когда доступны только очень низкие скорости передачи (интернет и низкоскоростные телефонные модемы, АМ-радиовещение и т.п.) неизбежно монокодирование материала аудиопрограмм. Чтобы улучшить качество восприятия и сделать звучание программ более приятным, создается простой "псевдостерео" генератор (фиг.29) путем введения линии задержки с отводами 2901. Это позволяет подавать сигналы с задержкой 10 мсек и 15 мсек с уровнем примерно 06 дБ (2903) на каждый выходной канал в дополнение к исходному моно-сигналу 2905. Этот псевдостереогенератор обеспечивает значительное улучшение восприятия при низких вычислительных затратах.

Вышеописанные варианты осуществления иллюстрируют принципы настоящего изобретения, направленного на усовершенствования кодирования источников аудиосигнала. Ясно, что модификации и варианты описанных устройств и деталей их осуществления будут очевидны для специалистов в данной области техники. Поэтому объем изобретения ограничивается только последующей формулы изобретения, а не конкретными деталями, представленными при описании вариантов его осуществления.

Claims

1. Способ декодирования кодированного сигнала (201, 301), причем кодированный сигнал получен из исходного сигнала и представляет только часть полос частот, включенных в исходный сигнал, частотное содержимое кодированного сигнала (201, 301) представлено выборками субполос для множества субполос или представлено множеством спектральных коэффициентов, заключающийся в том, что выделяют первый полосовой сигнал (203, 303), причем первый полосовой сигнал имеет выборки субполос из предварительно определенного количества анализируемых субполос или имеет предварительно определенное количество анализируемых спектральных коэффициентов, при этом первый полосовой сигнал имеет полосу частот меньшую полосы частот кодированного сигнала (201, 301), осуществляют транспозицию (205, 305) выборок субполос из субполос анализа или спектральных коэффициентов анализа, включенных в полосовой сигнал (203, 303), во второй полосовой сигнал (205, 305), имеющий частотное содержимое, которое включено в исходный сигнал и которое не включено в кодированный сигнал, причем второй полосовой сигнал имеет субполосы синтеза или спектральные коэффициенты синтеза, а при осуществлении транспозиции присоединяют субполосы анализа к субполосам синтеза или присоединяют спектральные коэффициенты анализа к спектральным коэффициентам синтеза, при этом выбранные выборки субполос или спектральные коэффициенты, включенные во второй полосовой сигнал (203, 303), перед или после осуществления транспозиции подстраивают по огибающей спектра с использованием информации огибающей спектра, полученной из исходного сигнала или кодированного сигнала, для получения подстроенных по огибающей спектра транспонированных выборок субполос или подстроенных по огибающей спектра транспонированных спектральных коэффициентов, и объединяют выборки субполос и подстроенные транспонированные выборки субполос или спектральные коэффициенты и подстроенные транспонированные спектральные коэффициенты для получения выходного сигнала (209, 309), причем выходной сигнал имеет частотное содержимое, включающее в себя частотное содержимое кодированного сигнала и частотное содержимое второго полосового сигнала.

2. Способ по п.1, отличающийся тем, что полосу (полосы) пропускания подстроенных транспонированных выборок субполос или подстроенных транспонированных спектральных коэффициентов устанавливают так, чтобы не перекрывать или только частично перекрывать полосу (полосы) пропускания выборок субполос или спектральных коэффициентов, представляющих частотное содержимое кодированного сигнала.

3. Способ по п.1, отличающийся тем, что дополнительно оценивают информацию огибающей спектра второго полосового сигнала с использованием кодированного сигнала.

4. Способ по п.1, отличающийся тем, что кодированный сигнал дополнительно включает в себя переданную информацию огибающей спектра в восстановленной полосе частот, которая была отброшена при кодировании исходного сигнала, при этом дополнительно демультиплексируют (2811) переданную информацию огибающей отброшенной полосы (полос) частот исходного сигнала из кодированного сигнала.

5. Способ по п.4, отличающийся тем, что информацию огибающей спектра передают в виде выборок субполос в произвольном количестве каналов субполос кодированного сигнала, причем усиления упомянутых каналов субполос устанавливают на низкий уровень.

6. Способ по п.4, отличающийся тем, что информацию огибающей спектра передают в виде масштабных коэффициентов без передачи соответствующих выборок субполос в кодированном сигнале.

7. Способ по п.4, отличающийся тем, что информацию огибающей спектра передают в виде масштабных коэффициентов и соответствующие выборки субполос устанавливают в кодированном сигнале на нуль или на постоянную величину.

8. Способ по п.1, отличающийся тем, что декодированный выходной сигнал представляет собой монофонический аудиосигнал, при этом дополнительно расщепляют декодированный выходной сигнал на два сигнала, каждый из которых состоит из упомянутого выходного сигнала и задержанных его версий для получения псевдостереосигнала.

9. Способ по п.1, отличающийся тем, что осуществляют фильтрацию сигнала посредством набора из N≥2 полосовых фильтров, причем упомянутые фильтры имеют полосы пропускания, содержащие соответственно частоты [f₁,...,f_N], для формирования N сигналов субполос, при этом при транспозиции осуществляют сдвиг сигналов субполос по частоте в области, содержащей частоты M[f₁,...,f_N], где M≠1 - коэффициент транспозиции.

10. Способ по п.9, отличающийся тем, что сдвиг по частоте получают путем модуляции верхней боковой полосы (ВВП).

11. Способ по п.1, отличающийся тем, что осуществляют полосовую фильтрацию сигнала с использованием набора фильтров анализа или преобразования такого характера, что генерируют действительные или комплексные сигналы субполос анализа типа нижних частот, причем при упомянутой транспозиции осуществляют связывание произвольного количества каналов k упомянутого набора фильтров анализа или преобразования с каналами Mk, М≠1, в наборе фильтров синтеза или преобразования, где М - коэффициент транспозиции, при этом набор фильтров или преобразование используют при фильтрации или выполнении инверсного преобразования.

12. Способ по п.11, отличающийся тем, что набор фильтров характеризуется максимальным прореживанием, при этом связывание выполняют в соответствии с соотношением:

V_Mk(n)=(-1)^(M-1)knV_k(n),

где (-1)^(M-1)kn - коэффициент коррекции; V_k(n) - сигнал субполосы канала k; V_Mk(n) - сигнал субполосы канала Mk, при этом обеспечивают компенсацию спектрально инвертированных сигналов субполос.

13. Способ по п.1, отличающийся тем, что при транспозиции осуществляют связывание фаз выборок субполос анализа или частотных коэффициентов анализа из каналов k набора фильтров анализа или преобразования в качестве фаз выборок субполос, связанных с каналами Mk синтеза, где М - коэффициент транспозиции, являющийся целым числом, не равным 1, и k - номер канала, и осуществляют связывание амплитуд выборок субполос анализа или спектральных коэффициентов анализа из последовательных каналов l набора фильтров анализа или преобразования в качестве амплитуд выборок субполос или спектральных коэффициентов, связанных с последовательными каналами синтеза l+S, где S - целое число, не равное 1, и l - номер канала.

14. Способ по п.13, отличающийся тем, что при транспозиции фазы выборок субполос анализа каналов k умножают на коэффициент М перед использованием упомянутого набора фильтров синтеза или преобразования.

15. Способ по п.13, отличающийся тем, что M=K±¹, где К - целое число большее, чем 1.

16. Способ по п.11, отличающийся тем, что при упомянутом связывании используют множество значений коэффициента М транспозиции.

17. Способ обеспечения транспонированного сигнала, который транспонирован с коэффициентом М, из входного сигнала, из которого отброшена по меньшей мере одна полоса частот, заключающийся в том, что осуществляют фильтрацию входного сигнала с использованием параллельного набора из L фильтров с импульсными характеристиками вида

где k=0,1,...,L-1, К - константа, р₀(n) - модель фильтра нижних частот длины N, формирующего набор из L комплексных сигналов, осуществляют дискретизацию с пониженной частотой упомянутого набора из L сигналов с коэффициентом L/M для формирования набора из L комплексных сигналов субполос, осуществляют умножение фазовых углов упомянутого набора из L комплексных сигналов субполос на М для формирования нового набора сигналов субполос, осуществляют выделение действительных частей упомянутого нового набора сигналов субполос для формирования набора из L действительных сигналов субполос, осуществляют дискретизацию с повышенной частотой упомянутого набора из L действительных сигналов субполос с коэффициентом L’ для формирования набора действительных сигналов, осуществляют фильтрацию упомянутого набора действительных сигналов посредством параллельного набора из L’ фильтров с импульсными откликами вида

где k=0,1,...,L’-1, К’ - константа, р’₀(n) - модель фильтра нижних частот длины N’, формирующего набор из L’ отфильтрованных сигналов, и осуществляют суммирование упомянутого набора из L’ отфильтрованных сигналов и входного сигнала для формирования транспонированного сигнала.

18. Способ по п.17, отличающийся тем, что умножение упомянутых фазовых углов и выделение действительной части для получения набора из L действительных сигналов субполос выполняют посредством вычислений при определении упомянутого набора комплексных сигналов субполос в виде

Z_k(n)=R_k(n)+jI_k(n),

где R_k(n) и I_k(n) - действительная и мнимая части Z_k(n) соответственно,

вычислении упомянутого набора действительных сигналов субполос W_k(n) в виде

где

и М - положительный целочисленный коэффициент транспозиции, с использованием следующего тригонометрического тождества:

cos(Ma)=cos^M(a)-(M/2)sin²(a)cos^M-2(a)+(M/4)sin⁴(a)cos^M-4(a)...,

где a=arctg{I_k(n)/R_k(n)}, и следующих соотношений:

и

19. Декодер для декодирования кодированного сигнала (201, 301), причем кодированный сигнал получен из исходного сигнала или кодированного сигнала и представляет только часть полос частот, включенных в исходный сигнал, частотное содержимое кодированного сигнала (201, 301) представлено выборками субполос для множества субполос или представлено множеством спектральных коэффициентов, содержащий устройство выделения для выделения первого полосового сигнала (203, 303), причем первый полосовой сигнал имеет выборки субполос из предварительно определенного количества субполос анализа или имеет предварительно определенное количество спектральных коэффициентов анализа, при этом первый полосовой сигнал имеет полосу частот меньшую, чем частотное содержимое кодированного сигнала (201, 301), устройство транспозиции для транспозиции (205, 305) выбранных выборок субполос из субполос анализа или спектральных коэффициентов анализа, включенных в первый полосовой сигнал (203, 303), во второй полосовой сигнал (205, 305), имеющий частотное содержимое, которое включено в исходный сигнал и которое не включено в кодированный сигнал, причем второй полосовой сигнал имеет субполосы синтеза или спектральные коэффициенты синтеза, а транспозиция включает в себя присоединение субполос анализа к субполосам синтеза или присоединение спектральных коэффициентов анализа к спектральным коэффициентам синтеза, при этом выбранные выборки субполос или спектральные коэффициенты, включенные во второй полосовой сигнал (203, 303), перед или после выполнения транспозиции подстраивают (207, 307) по огибающей спектра с использованием информации огибающей спектра, полученной из исходного сигнала или кодированного сигнала, для получения подстроенных по огибающей спектра транспонированных выборок субполос или подстроенных по огибающей спектра транспонированных спектральных коэффициентов и устройство объединения для объединения выборок субполос и подстроенных транспонированных выборок субполос или спектральных коэффициентов и подстроенных транспонированных спектральных коэффициентов для получения выходного сигнала (209, 309), причем выходной сигнал имеет частотное содержимое, включающее в себя частотное содержимое кодированного сигнала и частотное содержимое второго полосового сигнала.

20. Устройство для обеспечения транспонированного сигнала, который транспонирован с коэффициентом М, из входного сигнала, из которого отброшена по меньшей мере одна полоса частот, содержащее фильтр для фильтрации входного сигнала с использованием параллельного набора из L фильтров с импульсными откликами вида

где k=0,1,...,L-1, К – константа; р₀(n) - модель фильтра нижних частот длины N; М - коэффициент, формирующий набор из L комплексных сигналов, устройство дискретизации с пониженной частотой для дискретизации с пониженной частотой упомянутого набора из L сигналов с коэффициентом L/M для формирования набора из L комплексных сигналов субполос, умножитель для умножения фазовых углов упомянутого набора комплексных сигналов субполос на М для формирования нового набора сигналов субполос, устройство выделения для выделения действительных частей упомянутого нового набора сигналов субполос для формирования набора из L действительных сигналов субполос, устройство дискретизации с повышенной частотой для дискретизации с повышенной частотой упомянутого набора из L действительных сигналов субполос с коэффициентом L’ для формирования набора действительных сигналов, фильтр для фильтрации упомянутого набора действительных сигналов посредством параллельного набора из L’ фильтров с импульсными откликами вида

где k=0,1,...,L’-1, К’ - константа, p’₀(n) - модель фильтра нижних частот длины N’, формирующего набор из L’ отфильтрованных сигналов, и сумматор для суммирования упомянутого набора из L’ отфильтрованных сигналов и входного сигнала для формирования транспонированного сигнала.

Приоритеты:

10.06.1997 - пп.1-16 и 19;

30.01.1998 - пп.17, 18 и 20.