RU2507572C2 - Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала - Google Patents
Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала Download PDFInfo
- Publication number
- RU2507572C2 RU2507572C2 RU2011102422/08A RU2011102422A RU2507572C2 RU 2507572 C2 RU2507572 C2 RU 2507572C2 RU 2011102422/08 A RU2011102422/08 A RU 2011102422/08A RU 2011102422 A RU2011102422 A RU 2011102422A RU 2507572 C2 RU2507572 C2 RU 2507572C2
- Authority
- RU
- Russia
- Prior art keywords
- frame
- prediction region
- frames
- window
- overlapping
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 230000005284 excitation Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 23
- 230000002194 synthesizing effect Effects 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005303 weighing Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 26
- 238000001914 filtration Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 10
- 230000009897 systematic effect Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 230000002045 lasting effect Effects 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000010349 pulsation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- OFHCOWSQAMBJIW-AVJTYSNKSA-N alfacalcidol Chemical compound C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C\C=C1\C[C@@H](O)C[C@H](O)C1=C OFHCOWSQAMBJIW-AVJTYSNKSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Звуковое кодирующее устройство (10), приспособленное для кодирования фреймов квантованного звукового сигнала для получения кодированных фреймов, где фрейм включает ряд звуковых образцов временной области. Звуковое кодирующее устройство (10) включает этап анализа предиктивного кодирования (12) для определения информации о коэффициентах синтезирующего фильтра и фрейма области предсказания, основанного на фрейме звуковых образцов. Звуковое кодирующее устройство (10) далее включает преобразователь, вводящий временное совмещение имен (14), для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен (14), приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки. Кроме того, звуковое кодирующее устройство (10) включает кодирующее устройство, уменьшающее избыточность (16) для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах, и кодированных спектров фрейма области предсказания. 6 н. и 15 з.п. ф-лы, 20 ил.
Description
Данное изобретение имеет отношение к кодированию источника и, в частности, к кодированию звукового источника, в котором звуковой сигнал обрабатывается двумя различными звуковыми кодирующими устройствами, имеющими различные алгоритмы кодирования.
В контексте технологии звукового и речевого кодирования с низкой скоростью передачи битов традиционно использовались несколько различных методов кодирования, чтобы обеспечить кодирование таких сигналов с низкой скоростью передачи битов с сохранением самых лучших субъективных качеств, возможных при данной скорости передачи битов. Кодирующие устройства для обычных музыкальных/звуковых сигналов стремятся оптимизировать субъективное качество, создавая спектральную (и временную) форму ошибки квантизации согласно маскирующей пороговой кривой, которая рассчитывается от входного сигнала посредством перцепционной модели («перцепционное звуковое кодирование»). С другой стороны, как было показано, кодирование речи с очень низкой скоростью передачи битов работало очень эффективно, когда основывалось на модели, воспроизводящей человеческую речь, то есть с использованием Линейного Предиктивного Кодирования (LPC), чтобы смоделировать резонансные эффекты человеческого голосового трактата вместе с эффективным кодированием сигнала остаточного возбуждения.
Как следствие этих двух различных подходов, обычные звуковые кодирующие устройства, такие как MPEG-1 Слой 3 (MPEG=Экспертная Группа по Кинематографии), или MPEG-2/4 Расширенное Звуковое Кодирование (ААС), не используются также для речевых сигналов при очень низкой скорости передачи данных, как и специальные основанные на LPC речевые кодирующие устройства, из-за недостаточной эксплуатации исходной речевой модели. Наоборот, основанные на LPC речевые кодирующие устройства обычно не достигают убедительных результатов, когда применяются к обычным музыкальным сигналам, из-за их неспособности гибко формировать спектральную огибающую искажения кодирования согласно маскирующей пороговой кривой. В дальнейшем, описываются концепции, которые объединяют преимущества основанного на LPC кодирования и перцепционного звукового кодирования в единую структуру и, таким образом, описывают унифицированное звуковое кодирование, которое эффективно как для обычных звуковых, так и для речевых сигналов.
Традиционно, перцепционные звуковые кодирующие устройства используют основанный на гребенке фильтров подход для эффективного кодирования звуковых сигналов и формирования искажений квантизации согласно расчету маскирующей кривой.
Фиг.16а показывает базисную блок-схему монофонической перцепционной кодирующей системы. Анализирующая гребенка фильтров 1600 используется, чтобы отображать образцы временной области на спектральных компонентах подвыборки. В зависимости от числа спектральных компонентов система также называется кодирующим устройством поддиапазонов (небольшое количество поддиапазонов, например 32) или преобразующим кодирующим устройством (большое количество частотных линий, например 512). Перцепционная («психоакустическая») модель 1602 используется, чтобы рассчитать фактический маскирующий порог с временной зависимостью. Спектральные компоненты («поддиапазона» или «частотной области») квантуются и кодируются 1604 так, что шум квантизации скрывается под фактически переданным сигналом, и становится незаметным после декодирования. Это достигается посредством изменения гранулярности квантизации спектральных величин по времени и частоте.
Квантованные и энтропийно кодированные спектральные коэффициенты или величины поддиапазона, кроме того, с дополнительной информацией, вводятся в форматер битового потока 1606, который обеспечивает кодированный звуковой сигнал, который может передаваться или сохраняться. Выходной битовый поток блока 1606 может передаваться через Интернет или может сохраняться на любом машиночитаемом носителе информации.
На стороне декодера входной интерфейс декодера 1610 получает кодированный битовый поток. Блок 1610 отделяет энтропийно кодированные и квантованные спектральные/поддиапазоновые величины от дополнительной информации. Кодированные спектральные величины вводятся в энтропийный декодер, такой как декодер Хаффмана, который размещается между 1610 и 1620. Выходы этого энтропийного декодера являются квантованными спектральными величинами. Эти квантованные спектральные величины вводятся в реквантизатор, который выполняет «обратную» квантизацию, как обозначено цифрой 1620 на фиг.16. Выход блока 1620 вводится в синтезирующую гребенку фильтров 1622, которая выполняет синтезирующее фильтрование, включая частотное/временное преобразование и, обычно, операцию отмены совмещения имен временной области, такую как перекрывание и добавление, и/или операцию управления окнами на стороне синтеза, чтобы, в конечном счете, получить выходной звуковой сигнал.
Традиционно, эффективное речевое кодирование основывалось на Линейном Предиктивном Кодировании (LPC), чтобы смоделировать резонансные эффекты человеческого голосового тракта вместе с эффективным кодированием сигнала остаточного возбуждения. И LPC и параметры возбуждения передаются от кодирующего устройства к декодеру. Этот принцип проиллюстрирован на Фиг.17а и 17b.
Фиг.17а показывает сторону кодирующего устройства системы кодирования/декодирования, основанной на линейном Предиктивном кодировании. Речевой вход вводится в анализатор LPC 1701, который на выходе обеспечивает коэффициенты фильтрации LPC. Основываясь на этих коэффициентах фильтрации LPC, регулируется фильтр LPC 1703. Фильтр LPC производит спектрально отбеленный звуковой сигнал, который также называется «сигналом ошибки предсказания». Этот спектрально отбеленный звуковой сигнал вводится в кодирующее устройство остатка/возбуждения 1705, которое генерирует параметры возбуждения. Таким образом, речевой вход кодируется в параметры возбуждения, с одной стороны, и коэффициенты LPC, с другой стороны.
На стороне декодера, проиллюстрированного на фиг.17b, параметры возбуждения вводятся в декодер возбуждения 1707, который генерирует сигнал возбуждения, который может быть введен в синтезирующий фильтр LPC. Синтезирующий фильтр LPC регулируется посредством использования переданных коэффициентов фильтрации LPC. Таким образом, синтезирующий фильтр LPC 1709 генерирует восстановленный или синтезированный выходной речевой сигнал.
Со временем было предложено много способов относительно эффективного и перцепционно убедительного представления остаточного сигнала (сигнала возбуждения), такого как Многоимпульсное Возбуждение (МРЕ), Регулярное Импульсное Возбуждение (RPE), и Кодовозбудимое Линейное Предсказание (CELP).
Линейное Предиктивное Кодирование пытается произвести расчет текущей выборочной величины последовательности, основанной на наблюдении за определенным числом прошлых величин как линейной комбинации прошлых наблюдений. Чтобы уменьшить избыточность во входном сигнале, фильтр LPC кодирующего устройства «отбеливает» входной сигнал в его огибающую спектра, то есть, это - модель обратной огибающей спектра сигнала. Наоборот, синтезирующий фильтр LPC декодера является моделью огибающей спектра сигнала. В частности, хорошо известный авторегрессивный (AR) линейный предиктивный анализ, как известно, моделирует огибающую спектра сигнала посредством приближения с одними полюсами.
Как правило, речевые кодирующие устройства узкого диапазона (то есть речевые кодирующие устройства со скоростью выборки 8 кГц) используют фильтр LPC с упорядоченностью между 8 и 12. Багодаря природе фильтра LPC однородное частотное разрешение эффективно по всему частотному диапазону. Это не соответствует перцепционному частотному масштабированию.
Чтобы объединить мощности традиционного основанного на LPC/CELP кодирования (лучшее качество речевых сигналов) и традиционного основанного на гребенке фильтров перцепционного звукового кодирования (лучше всего для музыки), было предложено объединенное кодирование этих архитектур. В AMR-WB+(AMR-WB=Адаптивное Мультискоростное Широкополосное) кодирующем устройстве в работе Б.Бессета, Р.Лефевра, Р.Садами «УНИВЕРСАЛЬНОЕ РЕЧЕВОЕ // ЗВУКОВОЕ КОДИРОВАНИЕ, ИСПОЛЬЗУЮЩЕЕ ГИБРИДНЫЕ МЕТОДЫ ACELP/TCX», Протокол IEEE ICASSP 2005, стр.301-304, 2005 два переменных кодирующих ядра воздействуют на остаточный сигнал LPC. Один основывается на ACELP (ACELP=Алгебраическое Кодовозбудимое Линейное Предсказание) и, таким образом, является чрезвычайно эффективным для кодирования речевых сигналов. Другое кодирующее ядро основывается на ТСХ (ТСХ=Преобразующее Кодированное Возбуждение), то есть, основанное на гребенке фильтров кодирование напоминает традиционные звуковые методы кодирования, чтобы достигнуть хорошего качества сигналов музыки. В зависимости от характеристик входного сигнала/сигналов выбирается один из двух режимов кодирования для короткого промежутка времени, чтобы передать остаточный сигнал LPC. Таким образом, фреймы продолжительностью 80 миллисекунд могут быть расщеплены на подфреймы в 40 миллисекунд или 20 миллисекунд, в которые принимается решение о выборе между двумя режимами кодирования.
AMR-WB+(AMR-WB+=Расширенный Адаптивный Мультискоростной Широкополосный кодер-декодер), сравните, 3GPP (3GPP=Общий Протокол Пакетной Передачи Третьего Поколения) техническая спецификация номер 26.290, версия 6.3.0, июнь 2005 г., может переключаться между двумя существенно различными режимами ACELP и ТСХ. В режиме ACELP сигнал временной области кодируется алгебраическим кодовым возбуждением. В режиме ТСХ используется быстрое преобразование Фурье (FFT=Быстрое Преобразование Фурье), и спектральные величины LPC взвешенного сигнала (из которого в декодере получается сигнал возбуждения) кодируются, основываясь на векторной квантизации.
Решение о том, какой режим использовать, может быть принято путем испытания и декодирования обоих вариантов с последующим сравнением полученных отношений сигнала к шуму (SNR=Отношение Сигнала к Шуму).
Этот случай также называется решением замкнутого контура, поскольку имеется замкнутый контур регулирования, оценивающий, соответственно, и выполнение кодирования и эффективность, и затем выбирающий один с лучшим SNR (Отношение Сигнала к Шуму) с отбраковкой другого.
Хорошо известно, что для звукового и речевого кодирования блок преобразования без управления окнами не пригоден. Поэтому для режима ТСХ сигнал реализуется посредством организации окна с низким окном перекрывания с перекрыванием 1/8. Эта зона перекрывания необходима для постепенного ослабления предшествующего блока или фрейма с усилением следующего, например, чтобы подавить артефакты вследствие присутствия некоррелированого шума квантизации в последующих звуковых фреймах. Таким образом, служебные сигналы, сопоставимые с некритической выборкой, сохраняются разумно низкими, и декодирование, необходимое для решения замкнутого контура, восстанавливает, по крайней мере, 7/8 образцов текущего фрейма.
AMR-WB+ вводит 1/8 служебных сигналов в режим ТСХ, то есть, число спектральных величин, подлежащих кодированию, на 1/8 выше, чем число входных образцов. Это вызывает то неудобство, что увеличивается количество данных служебных сигналов. Кроме того, частотная характеристика соответствующих полосовых фильтров неблагоприятна, из-за чрезмерной зоны перекрывания 1/8 последовательных фреймов.
Для более детальной разработки кодовых служебных сигналов и перекрывания последовательных фреймов фиг.18 иллюстрирует определение параметров окна. Окно, показанное на фиг.18, имеет часть верхнего края слева, обозначенную буквой «L», также называемую левой зоной перекрывания, центральную зону, обозначенную цифрой «1», также называемую зоной 1 (единиц) или обходной частью, и часть нижнего края, обозначенную буквой «R», также называемую правой зоной перекрывания. Кроме того, фиг.18 показывает стрелку, указывающую на зону «PR» идеального восстановления в пределах фрейма. Кроме того, фиг.18 показывает стрелку, указывающую длину ядра преобразования, обозначенного буквой «Т».
Фиг.19 показывает схему представления последовательности AMR-WB+ окон и внизу таблицу параметров окна согласно фиг.18. Последовательность окон, показанная вверху фиг.19, является ACELP, TCX20 (для фрейма продолжительностью в 20 миллисекунд), ТСХ20, ТСХ40 (для фрейма продолжительностью в 40 миллисекунд), ТСХ80 (для фрейма продолжительностью в 80 миллисекунд), TCX20, TCX20, ACELP, ACELP.
Из последовательности окон можно увидеть изменяющиеся зоны перекрывания, которые перекрываются точно на 1/8 центральной части М. Таблица внизу фиг.19 также показывает, что длина преобразования «Т» всегда на 1/8 больше, чем зона новых идеально восстановленных образцов «PR». Кроме того, следует заметить, что это не только в случае переходов ACELP в ТСХ, но также и в случае переходов ТСХх в ТСХх (где «х» обозначает фреймы ТСХ произвольной длины). Таким образом, в каждый блок вводится 1/8 служебных сигналов, то есть критическая выборка никогда не достигается.
При переключении от ТСХ на ACELP образцы окна отбраковываются из фрейма FFT-ТСХ в зоне перекрывания, как, например, обозначено вверху фиг.19 зоной, обозначенной цифрой 1900. При переключении от ACELP на ТСХ реализуемый посредством организации окна отклик при отсутствии входного сигнала (ZIR=отклик при отсутствии входного сигнала), который также обозначается пунктирной линией 1910 наверху фиг.19, удаляется в кодирующем устройстве для управления окнами и добавляется в декодере для восстановления. При переключении от ТСХ на ТСХ фреймы реализуемые посредством организации окна образцы используются для взаимного ослабления. Так как фреймы ТСХ могут квантоваться по-другому, ошибка квантизации или шум квантизации между последовательными фреймами могут быть различными и/или независимыми. К тому же, при переключении от одного фрейма на следующий без взаимного ослабления могут появиться заметные артефакты, и, следовательно, взаимное ослабление необходимо для достижения определенного качества.
Из таблицы внизу фиг.19 можно видеть, что зона взаимного ослабления растет с увеличением длины фрейма. Фиг.20 показывает другую таблицу, иллюстрирующую различные окна для возможных переходов в AMR-WB+. При переходе от ТСХ до ACELP перекрывающиеся образцы могут быть отбракованы. При переходе от ACELP до ТСХ отклик при отсутствии входного сигнала из ACELP удаляется в кодирующем устройстве и добавляется в декодере для восстановления.
Существенным недостатком AMR-WB+ является то, что всегда вводится 1/8-ая служебных сигналов.
Задачей данного изобретения является обеспечение более эффективной концепции звукового кодирования.
Задача решается при помощи звукового кодирующего устройства по п.1, способа звукового кодирования по п.12, звукового декодера по п.14 и способа звукового декодирования по п.20.
Осуществления данного изобретения основываются на обнаружении того, что более эффективное кодирование может быть выполнено, если используются преобразования, вводящие временное совмещение имен, например, для кодирования ТСХ. Преобразования, вводящие временное совмещение имен, могут обеспечить достижение критической выборки, в то же время сохраняя способность к взаимному ослаблению между смежными фреймами. Например, в одном осуществлении используется модифицированное дискретное косинусное преобразование (MDCT=Модифицированное Дискретное Косинусное Преобразование) для того, чтобы преобразовать перекрывающиеся фреймы временной области в частотную область. Так как это специфическое преобразование производит только N образцы частотной области для 2N образцов временной области, критическая выборка может поддерживаться даже при том, что фреймы временной области могут перекрываться на 50%. В декодере или в ходе обратного преобразования, вводящего временное совмещении имен, этап перекрывания и добавления может быть приспособлен для комбинирования перекрывания временного совмещения имен и обратно преобразованных образцов временной области в том смысле, что может выполняться отмена совмещения имен временной области (TDAC=Отмена Совмещения Имен Временной Области).
Осуществления могут использоваться в контексте переключаемого кодирования частотной области и временной области с низкими окнами перекрывания, такими как, например, AMR-WB+. Осуществления могут использовать MDCT вместо некритически дискретизированной гребенки фильтров. Таким образом, служебные сигналы, благодаря некритической выборке, могут быть благоприятно уменьшены, основываясь на критической выборке свойств, например MDCT. Дополнительно, более длинные перекрывания возможны без введения дополнительных служебных сигналов. Осуществления могут обеспечить то преимущество, что основанное на более длинных служебных сигналах перекрестное ослабление может быть выполнено более гладко, другими словами, качество звука может быть улучшено в декодере.
В одном детальном осуществлении FFT в AMR-WB+ТСХ-режиме может быть заменено на MDCT с сохранением функциональных возможностей AMR-WB+, особенно, переключение между режимом ACELP и режимом ТСХ, основанным на решении замкнутого или открытого контура. Осуществления могут использовать MDCT в форме некритической выборки для первого фрейма ТСХ после фрейма ACELP и впоследствии использовать MDCT в форме критической выборки для всех последующих фреймов ТСХ. Осуществления могут сохранять свойства решения замкнутого контура, используя MDCT с низкими окнами перекрывания, подобными немодифицированному AMR-WB+, но с более длинными перекрываниями. Оно может обеспечить преимущество лучшей частотной характеристики по сравнению с немодифицированными окнами ТСХ.
Осуществления данного изобретения будут описаны более детально с использованием сопровождающих рисунков, в которых:
Фиг.1 показывает осуществление звукового кодирующего устройства.
Фиг.2a-2j показывают уравнения для осуществления преобразования, вводящего совмещение имен временной области.
Фиг.3а показывает другое осуществление звукового кодирующего устройства.
Фиг.3b показывает другое осуществление звукового кодирующего устройства.
Фиг.3с показывает еще одно осуществление звукового кодирующего устройства.
Фиг.3d показывает еще одно осуществление звукового кодирующего устройства.
Фиг.4а показывает образец речевого сигнала временной области для вокализованной речи.
Фиг.4b иллюстрирует спектр образца вокализованного речевого сигнала.
Фиг.5а иллюстрирует сигнал временной области образца невокализованного речевого сигнала.
Фиг.5b показывает спектр образца невокализованного речевого сигнала.
Фиг.6 показывает осуществление анализа через синтез CELP.
Фиг.7 иллюстрирует этап ACELP на стороне кодирующего устройства, предоставляющий краткосрочную информацию предсказания и сигнал ошибки предсказания.
Фиг.8а показывает осуществление звукового декодера.
Фиг.8b показывает другое осуществление звукового декодера.
Фиг.8с показывает другое осуществление звукового декодера.
Фиг.9 показывает осуществление функции окна.
Фиг.10 показывает другое осуществление функции окна.
Фиг.11 показывает схемы представления и диаграммы задержки прототипных функций окна и функции окна осуществления.
Фиг.12 иллюстрирует параметры окна.
Фиг.13а показывает последовательность функций окна и соответствие таблице параметров окна.
Фиг.13b показывает возможные переходы для основанных на MDCT осуществлений.
Фиг.14а показывает таблицу возможных переходов в осуществлении.
Фиг.14b иллюстрирует окно перехода от ACELP на ТСХ80 согласно одному осуществлению.
Фиг.14 с показывает осуществление окна перехода от фрейма ТСХх на фрейм ТСХ20 на фрейм ТСХх согласно одному осуществлению.
Фиг.14d иллюстрирует осуществление окна перехода от ACELP на ТСХ20 согласно одному осуществлению.
Фиг.14е показывает осуществление окна перехода от ACELP на ТСХ40 согласно одному осуществлению.
Фиг.14f иллюстрирует осуществление окна перехода для перехода от фрейма ТСХх на фрейм ТСХ80 на фрейм ТСХх согласно одному осуществлению.
Фиг.15 иллюстрирует переход ACELP на ТСХ80 согласно одному осуществлению.
Фиг.16 иллюстрируют примеры обычных кодирующих устройств и декодеров.
Фиг.17а, b иллюстрирует LPC кодирование и декодирование.
Фиг.18 иллюстрирует прототип окна взаимного ослабления.
Фиг.19 иллюстрирует прототип последовательности AMR-WB+ окон.
Фиг.20 иллюстрирует окна, используемые для передачи в AMR-WB+ между ACELP и ТСХ.
В дальнейшем осуществления данного изобретения будут описаны подробно. Следует заметить, что следующие осуществления не должны ограничивать область изобретения, они должны рассматриваться скорее как возможные реализации или выполнения среди многих различных осуществлений.
Фиг.1 показывает звуковое кодирующее устройство 10, приспособленное для кодирования фреймов квантованного звукового сигнала, чтобы получить кодированные фреймы, где фрейм включает несколько звуковых образцов временной области; звуковое кодирующее устройство 10 включает этап анализа предиктивного кодирования 12 для получения информации о коэффициентах для синтезирующего фильтра и фрейма области предсказания, основанного на фреймах звуковых образцов, например, фрейм области предсказания может основываться на фрейме возбуждения; фрейм области предсказания может включать образцы или взвешенные образцы сигнала области LPC, из которого может быть получен сигнал возбуждения для синтезирующего фильтра. Другими словами в осуществлениях фрейм области предсказания может основываться на фрейме возбуждения, включающем образцы сигнала возбуждения для синтезирующего фильтра.
В осуществлениях фреймы области предсказания могут соответствовать фильтрованным версиям фреймов возбуждения. Например, перцепционное фильтрование может применяться к фрейму возбуждения для получения фрейма области предсказания. В других осуществлениях фильтрация верхних частот или фильтрация нижних частот может применяться к фреймам возбуждения для получения фреймов области предсказания. А еще в одном осуществлении фреймы области предсказания могут непосредственно соответствовать фреймам возбуждения.
Звуковое кодирующее устройство 10 далее включает преобразователь, вводящий временное совмещение имен 14, для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен 14, приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки. Звуковое кодирующее устройство 10 далее включает кодирующее устройство, уменьшающее избыточность 16, для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах и кодированных спектрах фрейма области предсказания.
Кодирующее устройство, уменьшающее избыточность 16, может быть приспособлено для использования кодирования методом Хаффмана или энтропийного кодирования, чтобы кодировать спектры фрейма области предсказания и/или информацию о коэффициентах.
В осуществлениях преобразователь, вводящий временное совмещение имен 14, может быть приспособлен для преобразования перекрывающихся фреймов области предсказания таким образом, что среднее число образцов спектра фрейма области предсказания равно среднему числу образцов в фрейме области предсказания, таким образом достигается критически квантованное преобразование. Кроме того, преобразователь, вводящий временное совмещение имен 14, может быть приспособлен для преобразования перекрывающихся фреймов области предсказания согласно модифицированному дискретному косинусному преобразованию (MDCT=Модифицированное Дискретное Косинусное Преобразование).
В дальнейшем MDCT будет объяснено более детально с помощью уравнений, проиллюстрированных на Фиг.2a-2j. Модифицированное дискретное косинусное преобразование (MDCT)-преобразование, родственное преобразованию Фурье, основанное на типе-IV дискретного косинусного преобразования (DCT-IV=Дискретное Косинусное Преобразование, тип IV), с дополнительным свойством, обеспечивающим возможность перекрывания, то есть оно разработано, чтобы быть выполненным на последовательных блоках большего набора данных, где последующие блоки перекрываются так, чтобы, например, последняя половина одного блока совпала с первой половиной следующего блока. Это перекрывание, в дополнение к свойствам уплотнения энергии DCT, делает MDCT особенно привлекательным при применении сжатия сигнала, так как оно помогает избежать поиска артефактов от границ блока. Таким образом, MDCT используется в МРЗ (МРЗ=MPEG 2/4 слой 3), АС-3 (АС-3=Звуковой Кодер-декодер 3 системы Долби), Ogg Vorbis, и ААС (ААС=Расширенное Звуковое Кодирование) для звукового сжатия, например.
MDCT было предложено Принсеном, Джонсоном и Брэдли в 1987 г. вслед за более ранней (1986) работой Принсена и Брэдли, чтобы развить MDCT основной принцип отмены совмещения имен временной области (TDAC), более подробно описанный ниже. Существует также аналогичное преобразование, MDST, основанное на дискретном синусном, преобразовании, а также другие редко используемые формы MDCT, основанные на различных типах DCT или DCT/DST (DST=Дискретное Синусное Преобразование) комбинаций, которые могут также использоваться в осуществлениях преобразователем, вводящим временное совмещение имен 14.
В МР3 MDCT не примененяется к звуковому сигналу непосредственно, а скорее к выходу гребенки 32-полосных многофазных квадратурных фильтров (PQF=Многофазный Квадратурный Фильтр). Выход этого MDCT постобрабатывается посредством формулы сокращения псевдонима, чтобы уменьшить типичное совмещение имен гребенки фильтров PQF. Такая комбинация гребенки фильтров с MDCT называется гибридной гребенкой фильтров или MDCT поддиапазона. ААС, с другой стороны, обычно использует чистое MDCT; только (редко используемый) MPEG-4 AAC-SSR вариант (фирмы Sony) использует четырехполосную гребенку PQF, сопровождаемую MDCT. ATRAC (ATRAC=Адаптивное Преобразующее Звуковое Кодирование) использует расположенные друг над другом квадратурные зеркальные фильтры, за которыми следует MDCT.
Как перекрывающееся преобразование, MDCT является немного необычным по сравнению с другими преобразованиями, родственными преобразованиям Фурье, и эта необычность состоит в том, что у него выходов на половину больше, чем входов (вместо того же самого числа). В частности, это - линейная функция F: R2N->RN, где R обозначает набор действительных чисел. 2N действительные числа х0…, x2N-1 преобразуются в N действительные числа х0 …, xN-1 согласно формуле на фиг.2а.
Коэффициент нормализации перед этим преобразованием, здесь единица, - произвольное соглашение и различается между обработками. Только продукт нормализации MDCT и IMDCT, ниже, ограничивается.
Обратное MDCT известно как IMDCT. Поскольку имеются различные числа входов и выходов, на первый взгляд может показаться, что MDCT не должно быть обратимым. Однако идеальная обратимость достигается посредством добавления перекрывающихся IMDCT последующих перекрывающихся блоков, вызывая ошибки, подлежащие отмене, и оригинальные данные, подлежащие извлечению; эта методика известна как отмена совмещения имен временной области (TDAC).
IMDCT преобразует N действительные числа Х0 …, XN-1 в 2N действительные числа y0…, y2M-1 согласно формуле на фиг.2b. Как для DCT-IV (ортогональное преобразование), обратное преобразование имеет ту же самую форму, что и прямое преобразование.
В случае реализуемого посредством организации окна MDCT с обычной нормализацией окна (см. ниже), коэффициент нормализации перед IMDCT должен быть умножен на 2, то есть становится 2/N.
Хотя прямое применение формулы MDCT потребует О (N2) операций, можно вычислить то же самое только с О (N log N) коэффициентом сложности, рекурсивно разлагая на множители вычисление, как в быстром преобразовании Фурье. Можно также вычислить MDCTs посредством других преобразований, обычно DFT (FFT) или DCT, объединенные с О (N) стадиями пред- и постобработки. Кроме того, как описано ниже, любой алгоритм для DCT-IV немедленно обеспечивает способ вычисления MDCT и IMDCT равного размера.
В типичных случаях применения сжатия сигнала свойства преобразования далее улучшаются при использовании функции окна wn (n=0 …, 2N-1), то есть умноженной на xn и yn в вышеуказанных MDCT и IMDCT формулах, чтобы избежать неоднородностей на n=0 и 2N границах посредством гладкого продвижения функции к нулю в этих точках. То есть данные реализуются посредством организации окна перед MDCT и после IMDCT. В принципе, х и y могут иметь различные функции окна; и функция окна может также изменяться от одного блока к следующему, особенно для случая, где блоки данных различных размеров объединяются, но для простоты общий случай идентичных функций окна для блоков равного размера рассматривается в первую очередь.
Преобразование остается обратимым, то есть работает TDAC, для симметричного окна wn=w2N-1-n, пока w удовлетворяет условию Принсена-Брэдли, согласно фиг.2с.
Общеизвестны различные другие функции окна, например, показанные на фиг.2d для МР3 и MPEG-2 ААС, и на фиг.2е для Vorbis. AC-3 использует производное окно Кайзера-Бесселя (KBD=производное Кайзера-Бесселя), и MPEG-4 ААС может также использовать окно KBD.
Заметьте, что окна, примененные к MDCT, отличаются от окон, используемых для других типов анализа сигнала, так как они должны выполнять условие Принсена-Брэдли. Одна из причин этого различия - то, что окна MDCT применяются дважды, для MDCT (анализирующий фильтр) и IMDCT (синтезирующий фильтр).
Как можно заметить при рассмотрении определений, для четного N MDCT, по существу, эквивалентно DCT-IV, где вход смещается на N/2, и два N-блока данных преобразуются в один. При более тщательном исследовании этой эквивалентности можно легко получить важные свойства, подобные TDAC.
Чтобы определить точную связь с DCT-IV, нужно понять, что DCT-IV соответствует чередованию четных/нечетных граничных условий, четные на левой границе (около n=-1/2), нечетные на правой границе (около n=N-1/2), и так далее (вместо периодических границ как для DFT). Это следует из тождеств, показанных на фиг.2f. Таким образом, если входы - массив х длины N, представьте расширение этого массива до (x, -xR, -x, xR…) и так далее, и можно представить случай, где xR обозначает х в обратном порядке.
Рассмотрите MDCT с 2N входами и N выходами, где входы могут быть разделены на четыре блока (а, b, с, d), каждый размера N/2. Если они смещены на N/2 (от терма +N/2 в определении MDCT), то (b, с, d) расширяются за конец N DCT-IV входов, таким образом, они должны быть «повернуты» назад согласно граничным условиям, описанным выше.
Таким образом, MDCT 2N входов (а, b, с, d) точно эквивалентно DCT-IV N входов: (-cR-d, a-bR), где R обозначает аннулирование, как сказано выше. Таким образом, любой алгоритм для вычисления DCT-IV может быть заведомо применен к MDCT.
Аналогично, формула IMDCT, как упомянуто выше, точно 1/2 DCT-IV (что является его собственной инверсией), где выход смещен на N/2 и расширен (посредством граничных условий) до длины 2N. Обратное DCT-IV просто возвратит входы (-cR-d, a-bR) сверху. Когда он смещен и расширен посредством граничных условий, получается результат, показанный на фиг.2g. Половина выходов IMDCT, таким образом, является излишней.
Теперь понятно, как работает TDAC. Предположим, что вычисляется MDCT последующего на 50% перекрытого 2N блока (с, d, e, f). IMDCT тогда даст в результате аналогично вышеупомянутому: (c-dR, d-cR, e+fR, eR+f)/2. Когда это добавляется к предыдущему результату IMDCT в перекрываемой половине, обратные термы отменяются и получаются просто (с, d) восстановленные оригинальные данные.
Происхождение термина «отмена совмещения имен временной области» теперь ясно. Использование входных данных, которые простираются за границы логического DCT-IV, заставляет данные совмещаться тем же самым способом, которым частоты вне частоты Nyquist (максимальная частота сигнала (половина частоты дискретизации)) совмещаются, чтобы понизить частоты, за исключением случая, когда совмещение имен происходит во временной области вместо частотной области. Следовательно, комбинации c-dR и так далее имеют совершенно правильные признаки комбинаций, подлежащих отмене, при их добавлении.
Для нечетного N (которое редко используются на практике) N/2 не целое число, таким образом, MDCT не просто смещенная перестановка DCT-IV. В этом случае дополнительное смещение наполовину образца означает, что MDCT/IMDCT становится эквивалентным DCT-III/II, и анализ аналогичен вышеупомянутому.
Ранее свойство TDAC было подтверждено для обычного MDCT, показывая, что добавление IMDCT последующих блоков в их перекрываемую половину восстанавливает оригинальные данные. Дифференцирование этого обратного свойства для организованного посредством окна MDCT только немного сложнее.
Выбирая из вышеупомянутого тот случай, когда (а, b, с, d) и (с, d, e, f) обработаны MDCT, IMDCT и добавлены в их перекрываемую половину, мы получаем (с+dR, cR+d)/2+(с-dR, d-cR)/2=(с, d), оригинальные данные.
Теперь предполагается умножение входов MDCT и выходов IMDCT на функцию окна длиной 2N. Как сказано выше, мы предполагаем симметрическую функцию окна, которая, поэтому, имеет форму (w, z, zR, wR), где w и z - векторы длиной N/2, и R обозначает аннулирование, как сказано ранее. Тогда условие Принсена-Брэдли может быть записано
с умножениями и дополнениями, выполненными поэлементно, или эквивалентно
реверсируя w и z.
Поэтому вместо обработки MDCT (а, b, с, d), MDCT (wa, zb, zRc, wRd) обрабатываются MDCT со всеми умножениями, выполненными поэлементно. Когда они обрабатываются IMDCT и снова умножаются (поэлементно) на функцию окна, последняя-N половина дает результат, как показано на фиг.2h.
Заметьте, что умножение на ½ больше не присутствует, потому что нормализация IMDCT отличается множителем 2 в случае реализации посредством организации окна. Аналогичные результаты дают реализованные посредством организации окна MDCT и IMDCT (с, d, e, f) в первой-N половине согласно фиг.2i. Когда эти две половины соединяются вместе, получаются результаты фиг.2j, восстанавливающие оригинальные данные.
Фиг.3а изображает другое осуществление звукового кодирующего устройства 10. В осуществлении, изображенном на фиг.3а, преобразователь, вводящий временное совмещение имен 14, включает управляющийся окнами фильтр 17 для применения функции управления окнами к перекрывающимся фреймам области предсказания и конвертер 18 для преобразования реализованных посредством организации окон перекрывающихся фреймов области предсказания в спектры области предсказания. Согласно вышесказанному возможны функции множественного окна, некоторые из которых будут детализированы в дальнейшем.
Другое осуществление звукового кодирующего устройства 10 изображено на фиг.3b. В осуществлении, изображенном на фиг.3b, преобразователь, вводящий временное совмещение имен 14, включает процессор 19 для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, и где управляющийся окнами фильтр 17 приспособлен для применения функции управления окнами согласно информации о последовательности окон. Например, событие может произойти в зависимости от определенных свойств сигнала, проанализированных от фреймов квантованного звукового сигнала. Например, различная длина окна или различные контуры окна и т.д. могут применяться согласно, например, свойствам автокорреляции сигнала, тональности, быстротечности, и т.д. Другими словами, различные события могут произойти как часть различных свойств фреймов квантованного звукового сигнала, и процессор 19 может обеспечивать последовательность различных окон в зависимости от свойств фреймов звукового сигнала. Более детальное описание последовательностей и параметров для последовательностей окон будет изложено ниже.
Фиг.3с показывает другое осуществление звукового кодирующего устройства 10. В осуществлении, изображенном на фиг.3d, фреймы области предсказания не только предоставляются преобразователю, вводящему временное совмещение имен 14, но также и кодирующему устройству шифровальной книги 13, которое приспособлено для кодирования фреймов области предсказания, основанного на предварительно определенной шифровальной книге, чтобы получить кодированные фреймы шифровальной книги. Кроме того, осуществление, изображенное на фиг.3с, включает решающий блок для принятия решения о том, использовать ли кодированный фрейм шифровальной книги или кодированный фрейм, чтобы получить окончательно кодированный фрейм, основанный на мере эффективности кодирования. Осуществление, изображенное на фиг.3с, может также называться сценарием замкнутого контура. В этом сценарии решающий блок 15 имеет возможность получать кодированные фреймы из двух ветвей; одна ветвь основывается на преобразовании, другая ветвь основывается на шифровальной книге. Чтобы определить меру эффективности кодирования, решающий блок может декодировать кодированные фреймы из обеих ветвей и затем определить меру эффективности кодирования посредством оценки статистических ошибок из различных ветвей.
Другими словами, решающий блок 15 может быть приспособлен для возвращения к процедуре, обратной кодированию, то есть для выполнения полного декодирования для обеих ветвей. Получив полностью декодированные фреймы, решающий блок 15 может быть приспособлен для сравнения декодированных образцов с оригинальными образцами, что обозначено пунктирной стрелкой на фиг.3с. В осуществлении, показанном на фиг.3с, решающий блок 15 также обеспечивается фреймами области предсказания, к тому же, он может декодировать кодированные фреймы из кодирующего устройства, уменьшающего избыточность 16, и также декодировать кодированные фреймы шифровальной книги из кодирующего устройства шифровальной книги 13 и сравнивать результаты с первоначально кодированными фреймами области предсказания. К тому же, в одном осуществлении посредством сравнения различий могут быть определены меры эффективности кодирования, например, исходя из отношения сигнала к шуму или статистической ошибки или минимальной ошибки, и т.д., в некоторых осуществлениях также относительно соответствующей скорости кодирования, то есть числа битов, необходимых для кодирования фреймов. Решающий блок 15 тогда может быть приспособлен для выбора кодированных фреймов из кодирующего устройства, уменьшающего избыточность 16, или кодированных фреймов шифровальной книги в качестве окончательно кодированных фреймов, основанных на мере эффективности кодирования.
Фиг.3d показывает другое осуществление звукового кодирующего устройства 10. В осуществлении, показанном на фиг.3d, имеется переключатель 20, соединенный с решающим блоком 15 для переключения фрейма области предсказания между преобразователем, вводящим временное совмещение имен 14, и кодирующим устройством шифровальной книги 13, основанном на мере эффективности кодирования. Решающий бок 15 может быть приспособлен для определения меры эффективности кодирования, основанной на фреймах квантованного звукового сигнала, чтобы определять положение переключателя 20, то есть использовать либо ветвь кодирования, основанную на преобразовывании, с преобразователем, вводящим временное совмещение имен 14, и кодирующим устройством, уменьшающим избыточность 16, или ветвь кодирования, основанную на шифровальной книге с кодирующим устройством шифровальной книги 13. Как уже было упомянуто выше, мера эффективности кодирования может быть определена на основании свойств фреймов квантованного звукового сигнала, то есть на свойствах самого звука, например, является ли фрейм более подобным тону или более подобным шуму.
Конфигурация осуществления, показанного на фиг.3d, также называется конфигурацией открытого контура, так как решающий блок 15 может принимать решение, основываясь на входных фреймах, не зная результатов выходов соответствующей ветви кодирования. Еще в одном осуществлении решающий блок может принимать решение, основываясь на фреймах области предсказания, что показано на фиг.3d пунктирной стрелкой. Другими словами, в одном осуществлении решающий блок 15 может принимать решение, основываясь не на фреймах квантованного звукового сигнала, а скорее на фреймах области предсказания.
В дальнейшем рассматривается процесс принятия решения решающим блоком 15. Обычно дифференцирование между импульс-подобной частью звукового сигнала и постоянной частью постоянного сигнала может быть сделано посредством применения процедуры обработки сигнала, в которой измеряется импульс-подобная характеристика, а также измеряется характеристика, подобная постоянной. Такие измерения могут, например, быть сделаны посредством анализа формы волны звукового сигнала. В завершение, может быть выполнена любая основанная на преобразовании обработка, LPC обработка, или любая другая обработка. Интуитивный способ определения того, является ли часть импульс-подобной или нет, например, заключается в рассмотрении формы волны временной области, чтобы определить, имеет ли эта форма волны временной области пики через равные или неравные промежутки времени; и пики через равные промежутки времени даже больше подходят для речеподобного кодирующего устройства, то есть для кодирующего устройства шифровальной книги. Заметьте, что даже в речи можно различать вокализованные и невокализованные части. Кодирующее устройство шифровальной книги 13 может быть более эффективным для вокализованных частей сигнала или вокализованных фреймов, где основанная на преобразовании ветвь, включающая преобразователь, вводящий временное совмещение имен 14, и кодирующее устройство, уменьшающее избыточность 16, может быть более подходящей для невокализованных фреймов. Обычно основанное на преобразовании кодирование может также быть более подходящим для постоянных сигналов, кроме вокализованных сигналов.
В качестве примера, ссылка делается на Фиг.4а и 4b, 5а и 5b, соответственно. Импульс-подобные сегменты сигнала или части сигнала и постоянные сегменты сигнала или части сигнала обсуждаются в качестве примера. В общем, решающий блок 15 может быть приспособлен для принятия решений, основанных на различных критериях, как например, стационарность, быстротечность, спектральная белизна, и т.д. В дальнейшем будет дан примерный критерий как часть осуществления. В частности, вокализованная речь проиллюстрирована на фиг.4а во временной области и на фиг.4b в частотной области, и обсуждается как пример импульс-подобной части сигнала, а невокализованный речевой сегмент, как пример постоянной части сигнала, обсуждается в связи с Фиг.5а и 5b.
Речь, обычно, классифицируется как вокализованная, невокализованная или смешанная. Диаграммы временной и частотной областей для дискретных вокализованных и невокализованных сегментов показаны на Фиг.4а, 4b, 5а и 5b. Вокализованная речь является квазипериодической во временной области и гармонически структурированной в частотной области, в то время как невокализованная речь является хаотичной и широкополосной. Кроме того, энергия вокализованных сегментов обычно выше, чем энергия невокализованных сегментов. Краткосрочный спектр вокализованной речи характеризуется ее тонкой и формантной структурой. Тонкая гармоническая структура - следствие квазипериодичности речи и может быть приписана вибрирующим голосовым связкам. Формантная структура, которую также называют огибающей спектра, является результатом взаимодействия источника и голосового тракта. Голосовой тракт состоит из глотки и ротовой полости. Форма огибающей спектра, которая «соответствует» краткосрочному спектру вокализованной речи, ассоциируется с характеристиками передачи голосового трактата и углом наклона спектра (6 децибелов/октава) вследствие пульсации гортани.
Огибающая спектра характеризуется рядом пиков, которые называются формантами. Форманты - резонансные режимы голосового тракта. Для среднего голосового тракта имеется 3-5 формант ниже 5 кГц. Амплитуды и местоположения первых трех формант, обычно происходящих ниже 3 кГц, очень важны как в синтезе речи, так и в восприятии. Более высокие форманты также важны для широкополосных и невокализованных речевых представлений. Свойства речи связаны с физическими системами речеобразования следующим образом. Возбуждение голосового тракта квазипериодической воздушной пульсацией гортани, генерируемой вибрирующими голосовыми связками, производит вокализованную речь. Частота периодической пульсации называется фундаментальной частотой или основным тоном. Принудительное проталкивание воздуха через сужение голосового тракта производит невокализованную речь. Носовые звуки являются результатом акустической связи носового тракта с голосовым трактом, а взрывные звуки ослабляются вследствие резкого уменьшения давления воздуха, которое было создано позади смыкания в тракте.
Таким образом, постоянная часть звукового сигнала может быть постоянной частью во временной области, как проиллюстрировано на фиг.5а, или постоянной частью в частотной области, которая отличается от импульс-подобной части, как проиллюстрировано, например, на фиг.4а, вследствие того, что постоянная часть во временной области не демонстрирует постоянно повторяющиеся импульсы. Однако, как будет показано далее, дифференцирование между постоянными частями и импульс-подобными частями может также быть выполнено посредством использования способов LPC, которые моделируют голосовой трактат и возбуждение голосового тракта. Когда рассматривается частотная область сигнала, импульс-подобные сигналы имеют отчетливый вид отдельных формант, то есть отчетливые пики на фиг.4b, в то время как постоянный спектр имеет весьма широкий спектр, как показано на фиг.5b, или, в случае гармонических сигналов, полностью непрерывный минимальный уровень шума, имеющий некоторые отчетливые пики, представляющие определенные тоны, которые имеют место, например, в музыкальном сигнале, но между которыми нет такого постоянного расстояния, как у импульс-подобных сигналов на фиг.4b.
Кроме того, импульс-подобные части и постоянные части могут появляться своевременно, то есть это означает, что часть звукового сигнала постоянна во времени, а другая часть звукового сигнала импульс-подобна во времени. Альтернативно или дополнительно, характеристики сигнала могут быть различными в различных частотных диапазонах. Таким образом, определение того, постоянен ли звуковой сигнал или импульс-подобен, может также быть выполнено посредством частотого отбора так, чтобы определенный частотный диапазон или несколько определенных частотных диапазонов рассматривались как постоянные, а другие частотные диапазоны рассматриваись как импульс-подобные. В этом случае, определенная временная часть звукового сигнала могла бы включать импульс-подобную часть или постоянную часть.
Возвращаясь к осуществлению, показанному на фиг.3d, решающий блок 15 может проанализировать звуковые фреймы, фреймы области предсказания или сигнал возбуждения, чтобы определить, являются ли они, скорее, импульс-подобными, то есть, более подходящими для кодирующего устройства шифровальной книги 13, или постоянными, то есть более подходящими для основанной на преобразовании ветви кодирования.
Впоследствии, анализирующее через синтез кодирующее устройство CELP будет рассмотрено относительно фиг.6. Детали кодирующего устройства CELP могут быть также найдены в работе Андреаса Спаниерса «Речевое Кодирование: обзор обучающих программ», Труды IEEE (Институт инженеров по электротехнике и электронике), т.84, номер 10, октябрь 1994, стр 1541-1582. Кодирующее устройство CELP, как показано на фиг.6, включает долгосрочный компонент предсказания 60 и краткосрочный компонент предсказания 62. Кроме того, используется шифровальная книга, которая обозначена цифрой 64. Перцепционный взвешивающий фильтр W(z) обозначен цифрой 66, а контроллер минимизации ошибки обозначен цифрой 68. s(n) - входной звуковой сигнал. Будучи перцепционно взвешенным, взвешенный сигнал вводится в блок вычитания 69, который вычисляет погрешность между взвешенным синтезирующим сигналом (выход блока 66), и фактическим взвешенным сигналом ошибки предсказания sw(n).
Обычно краткосрочное предсказание A(z) вычисляется на этапе анализа LPC, которая будет обсуждена далее. В зависимости от этой информации долгосрочное предсказание AL(z) включает долгосрочный коэффициент усиления предсказания b и задержку Т (также известны как коэффициент усиления основного тона и задержка основного тона). Алгоритм CELP кодирует фреймы возбуждения или фреймы области предсказания, используя шифровальную книгу, например, Гауссовских последовательностей. Алгоритм ACELP, где «А» обозначает «алгебраический», имеет определенную алгебраически разработанную шифровальную книгу.
Шифровальная книга может содержать больше или меньше векторов, где каждый вектор имеет длину согласно числу образцов. Коэффициент усиления g измеряет вектор возбуждения, а образцы возбуждения фильтруются долгосрочным синтезирующим фильтром и краткосрочным синтезирующим фильтром. «Оптимальный» вектор выбирается таким образом, что минимизируется перцепционно взвешенная среднеквадратическая ошибка. Процесс поиска в CELP становится очевиден из схемы анализа через синтез, проиллюстрированной на фиг.6. Следует заметить, что фиг.6 иллюстрирует только пример анализа через синтез CELP, и что осуществления не будут ограничиваться структурой, показанной на фиг.6.
В CELP долгосрочное предсказывающее устройство часто осуществляется как адаптивная шифровальная книга, содержащая предыдущий сигнал возбуждения. Долгосрочная задержка предсказания и коэффициент усиления предсказания представлены адаптивным индексом и коэффициентом усиления шифровальной книги, которые также выбираются посредством минимизации взвешенной среднеквадратической ошибки. В этом случае сигнал возбуждения состоит из сложения двух векторов с масштабированным коэффициентом усиления, один из адаптивной шифровальной книги, а один из фиксированной шифровальной книги. Перцепционный взвешивающий фильтр в AMR-WB+ базируется на фильтре LPC, таким образом, перцепционно взвешенный сигнал является формой сигнала LPC области. В кодирующем устройстве с преобразованием области, используемом в AMR-WB+, преобразовывание применяется к взвешенному сигналу. В декодере сигнал возбуждения получается посредством фильтрования декодированного взвешенного сигнала фильтром, состоящим из фильтров, обратных синтезирующим и взвешенным фильтрам.
Восстановленный ТСХ объект х(n) может фильтроваться обратным взвешенным синтезирующим фильтром нулевого состояния
чтобы найти сигнал возбуждения, который может быть применен к синтезирующему фильтру. Заметьте, что при фильтровании используется интерполированный LP фильтр на подфрейм или фрейм. Как только определено возбуждение, сигнал может быть восстановлен фильтрованием возбуждения при помощи синтезирующего фильтра
и затем визуальной блокировкой выбора, например, посредством фильтрации при помощи фильтра 1/(1-0.68z-1). Заметьте, что возбуждение может также использоваться, чтобы обновить адаптивную шифровальную книгу ACELP и позволяет переключаться от ТСХ на ACELP в последующем фрейме. Заметьте также, что длина синтеза ТСХ может быть представлена длиной фрейма ТСХ (без перекрывания): 256, 512 или 1024 образцами для модуля [] 1,2 или 3 соответственно.
Функциональные возможности осуществления этапе анализа предиктивного кодирования 12 будут обсуждены впоследствии согласно осуществлению, показанному на Фиг.7, посредством использования LPC анализа и LPC синтеза в решающем блоке 15 в соответствующих осуществлениях.
Фиг.7 иллюстрирует более детальное выполнение осуществления анализирующего блока LPC 12. Звуковой сигнал вводится в фильтрующий определяющий блок, который определяет информацию о фильтре A(z), то есть, информацию о коэффициентах для синтезирующего фильтра. Эта информация квантуется и выводится как краткосрочная информация предсказания, необходимая для декодера. В блок вычитания 786 вводится текущий образец сигнала, и предсказанная величина для текущего образца вычитается так, что для этого образца сигнал предсказания ошибки генерируется на линии 784. Заметьте, что сигнал предсказания ошибки может также называться сигналом возбуждения или фреймом возбуждения (обычно, будучи закодированным).
Осуществление звукового декодера 80 для декодирования кодированных фреймов для получения фреймов квантованного звукового сигнала, где фрейм включает ряд образцов временной области, показано на фиг.8а. Звуковой декодер 80 включает декодер, отыскивающий избыточность 82, для декодирования кодированных фреймов, чтобы получить информацию о коэффициентах для синтезирующего фильтра и спектрах фрейма области предсказания, или фреймах спектральной области предсказания. Звуковой декодер 80 далее включает обратный преобразователь, вводящий временное совмещение имен 84, для преобразования фрейма спектральной области предсказания во временную область, чтобы получить перекрывающиеся фреймы области предсказания, где обратный преобразователь, вводящий временное совмещение имен 84, приспособлен для определения перекрывающихся фреймов области предсказания из последовательных спектров фрейма области предсказания. Кроме того, звуковой декодер 80 включает перекрывающий/добавляющий объединитель 86 для объединения перекрывающихся фреймов области предсказания, чтобы получить фрейм области предсказания критически дискретизированным способом. Фрейм области предсказания может состоять из основанного на LPC взвешенного сигнала. Перекрывающий/добавляющий объединитель 86 может также включать конвертер для преобразования фреймов области предсказания в фреймы возбуждения. Звуковой декодер 80 далее включает предиктивный этап синтеза 88 для определения синтезирующего фрейма, основанного на коэффициентах и фрейме возбуждения.
Перекрывающий и добавляющий объединитель 86 может быть приспособлен для объединения перекрывающихся фреймов области предсказания таким образом, что среднее число образцов во фрейме области предсказания равняется среднему числу образцов спектра фрейма области предсказания. В осуществлениях обратный преобразователь, вводящий временное совмещение имен 84, может приспосабливаться для преобразования спектров фрейма области предсказания во временную область согласно IMDCT согласно вышеупомянутым деталям.
Обычно в блоке 86 после «перекрывающего/добавляющего объединителя» в осуществлениях дополнительно может происходить «восстановление возбуждения», которое показано в скобках на Фиг.8а-с. В осуществлениях перекрывание/добавление может выполняться во взвешенной области LPC, тогда взвешенный сигнал может быть преобразован в сигнал возбуждения посредством фильтрации в обратном взвешенном синтезирующем фильтре.
Кроме того, в осуществлениях предиктивный этап синтеза 88 может быть приспособлен для определения фрейма, основанного на линейном предсказании, то есть LPC. Другое осуществление звукового декодера 80 изображено на фиг.8b. Звуковой декодер 80, изображенный на фиг.8b, показывает компоненты, аналогичные звуковому декодеру 80, изображенному на фиг.8а, однако обратный преобразователь, вводящий временное совмещение имен 84, в осуществлении, показанном на фиг.8b, далее включает конвертер 84а для преобразования спектров фрейма области предсказания в преобразованные перекрывающиеся фреймы области предсказания, а управляющийся окнами фильтр 84b для применения функции управления окнами к преобразованным перекрывающимся фреймам области предсказания для получения перекрывающихся фреймов области предсказания.
Фиг.8с показывает другое осуществление звукового декодера 80, имеющего компоненты, аналогичные компонентам осуществления, изображенного на фиг.8b. В осуществлении, изображенном на фиг.8с, обратный преобразователь, вводящий временное совмещение имен 84, далее включает процессор 84с для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, управляющемуся окнами фильтру 84b, и управляющийся окнами фильтр 84b приспособлен для применения функции управления окнами согласно информации о последовательности окон. Событие может быть признаком, полученным из или предоставленным кодированными фреймами или любой дополнительной информацией.
В осуществлениях звуковых кодирующих устройств 10 и звуковых декодеров 80 соответствующие управляющиеся окнами фильтры 17 и 84 могут быть приспособлены к применению функций управления окнами согласно информации о последовательности окон. Фиг.9 изображает общее прямоугольное окно, в котором информация о последовательности окон может включать первую нулевую часть, в которой окно маскирует образцы, вторую обходную часть, в которой образцы фрейма, то есть фрейма области предсказания или перекрывающегося фрейма области предсказания, могут пропускаться немодифицированными, и третью нулевую часть, которая снова маскирует образцы в конце фрейма. Другими словами, могут применяться функции управления окнами, которые подавляют некоторые образцы фрейма в первой нулевой части, проходят через образцы во второй обходной части и затем подавляют образцы в конце фрейма в третьей нулевой части. В этом контексте подавление может также направляться на дополнение последовательности нулей в начале и/или в конце обходной части окна. Вторая обходная часть может быть такой, что функция управления окнами просто имеет величину 1, то есть образцы пропускаются немодифицированными, то есть функция управления окнами переключается образцами фрейма.
Фиг.10 показывает другое осуществление последовательности, или функции управления окнами, где последовательность управления окнами далее включает часть верхнего края между первой нулевой частью и второй обходной частью и часть нижнего края между второй обходной частью и третьей нулевой частью. Часть верхнего края может также рассматриваться как часть плавного увеличения уровня, а часть нижнего края может рассматриваться как часть глубокого замирания. В осуществлениях вторая обходная часть может включать последовательность единиц, которая вообще не изменяет образцы фрейма LPC-области.
Другими словами, ТСХ, основанное на MDCT, может потребовать от арифметического декодера ряд квантованных спектральных коэффициентов, lg, которые определяются модулем [] и величинами last_lpd_mode последнего режима. Эти две величины могут также определять длину и форму окна, которые будут применены к обратному MDCT. Окно может состоять из трех частей: левостороннего перекрывания образцов L, средней части единиц образцов М и правой перекрывающейся части образцов R. Чтобы получить окно MDCT длиной 2*lg, нули ZL могут быть добавлены на левой стороне и нули ZR на правой стороне.
Следующая таблица проиллюстрирует число спектральных коэффициентов как функцию last_lpd_mode и модуля [] для некоторых осуществлений:
Величина last lpdmode | Величина модуля [х] | Число lg спектральных коэффициентов | ZL | L | м | R | ZR |
0 | 1 | 320 | 160 | 0 | 256 | 28 | 96 |
0 | 2 | 576 | 288 | 0 | 512 | 128 | 224 |
0 | 3 | 1152 | 512 | 128 | 1024 | 128 | 512 |
1..3 | 1 | 256 | 64 | 128 | 128 | 128 | 64 |
1..3 | 2 | 512 | 192 | 128 | 384 | 128 | 192 |
1..3 | 3 | 1024 | 448 | 128 | 896 | 128 | 448 |
Окно MDCT представлено
Осуществления могут обеспечить то преимущество, что систематическая задержка кодирования MDCT, IDMCT соответственно, может быть понижена, по сравнению с оригинальным MDCT, посредством применения к различным функциям окна. Чтобы более подробно рассмотреть это преимущество, фиг.11 показывает четыре графа представления, в которых первый сверху показывает систематическую задержку в единицах времени Т, основанную на функциях управления окнами традиционной треугольной формы, используемых с MDCT, которые показаны во втором графе представления сверху на фиг.11.
Систематическая задержка, рассматриваемая здесь, является задержкой, которую испытывает образец, когда он достигает стадии декодера, при условии, что нет никакой задержки кодирования или передачи образцов. Другими словами, систематическая задержка, показанная на фиг.11, рассматривает задержку кодирования, вызванную аккумулированием образцов фрейма прежде, чем может быть начато кодирование. Как объяснено выше, чтобы декодировать образец в Т, образцы между 0 и 2Т должны быть преобразованы. Это приводит к систематической задержке образца в Т другого Т. Однако прежде, чем образец, сразу за этим образцом, может быть декодирован, все образцы второго окна, которое сосредоточено в 2Т, должны быть доступны. Поэтому систематическая задержка подскакивает к 2Т и снижается до Т в центре второго окна. Третий граф представления сверху на фиг.11 показывает последовательность функций окна в соответствии с осуществлением. При сравнении с современными окнами во второй схеме представления сверху на фиг.11 видно, что перекрывающиеся области ненулевой части окон были уменьшены на 2Δt. Другими словами, функции окна, используемые в осуществлениях, так же широки, как прототипы окон, однако имеют первую нулевую часть и третью нулевую часть, которые становятся предсказуемыми.
Другими словами, декодер уже знает, что есть третья нулевая часть, и поэтому декодирование может начаться раньше и кодирование соответственно. Поэтому систематическая задержка может быть уменьшена на 2Δt, как показано внизу фиг.11. Другими словами, декодер не должен ждать нулевых частей, которые могут сохранить 2Δt. Очевидно, конечно, что после процедуры декодирования, все образцы должны иметь ту же самую систематическую задержку. Графы представления на фиг.11 демонстрируют только систематическую задержку, которую испытывает образец, пока он не достигнет декодера. Другими словами, полная систематическая задержка после декодирования была бы 2Т для прототипного подхода, и 2Т-2Δt для окон в осуществлении.
В дальнейшем будет рассмотрено осуществление, где MDCT используется в AMR-WB+ кодер-декодере, заменяя FFT. Поэтому окна будут более подробно рассмотрены, в соответствии с фиг.12, которая определяет «L» как левую область перекрывания или часть верхнего края, «М» зоны единиц или второй обходной части и «R» - правая область перекрывания или часть нижнего края. Кроме того, рассматриваются первая нулевая и третья нулевая части. К тому же, зона идеального восстановления во фрейме, которая маркирована «PR», обозначена на фиг.12 стрелкой. Кроме того, «Т» указывает стрелку длиной, равной ядру преобразования, которое соответствует числу образцов частотной области, то есть половине числа образцов временной области, которые состоят из первой нулевой части, части верхнего края «L», второй обходной части «М», части нижнего края «R» и третьей нулевой части. К тому же, число частотных образцов может быть сокращено при использовании MDCT, где число частотных образцов для FFT или дискретного косинусного преобразования (DCT=Дискретное Косинусное Преобразования)
Т=L+М.+R
по сравнению с преобразованной длиной кодирующего устройства для MDCT
Т=L/2+М.+R/2.
Фиг.13а сверху иллюстрирует граф представления примерной последовательности функций окна для AMR-WB+. На фиг.13а сверху слева направо граф представления показывает фреймы ACELP, ТСХ20, ТСХ20, ТСХ40, ТСХ80, ТСХ20, ТСХ20, ACELP и ACELP. Пунктирная линия показывает отклик при отсутствии входного сигнала как уже было описано выше.
На фиг.13а внизу показана таблица параметров для различных частей окна, где, в этом осуществлении, левая перекрывающаяся часть или часть верхнего края L=128, когда любой фрейм ТСХх следует за другим фреймом ТСХх. Когда фрейм ACELP следует за фреймом ТСХх, используются аналогичные окна. Если фрейм ТСХ20 или ТСХ40 следует за фреймом ACELP, то левой перекрывающейся частью можно пренебречь, то есть L=0. При прохождении от ACELP к ТСХ80 может использоваться перекрывающаяся часть L=128. Из графа представления в таблице на фиг.13а можно видеть, что основной принцип заключается в том, чтобы оставаться в некритической выборке до тех пор, пока имеется достаточное количество служебных сигналов для идеальной реконструкции в фрейме и скорейшего переключения на критическую выборку. Другими словами, только первый фрейм ТСХ после фрейма ACELP остается некритически выбранным в данном осуществлении.
В таблице внизу фиг.13а показаны различия со ссылкой на таблицу для обычного AMR-WB+, как изображено на фиг.19. Выделенные параметры показывают преимущество осуществлений данного изобретения, в котором перекрывающаяся область расширяется таким образом, что пересекающееся замирание выполняется более гладко, и частотная характеристика окна улучшается при непрерывном осуществлении критической выборки.
Из таблицы внизу фиг.13а можно видеть, что только для переходов от ACELP к ТСХ вводится служебный сигнал, то есть только для этого перехода T>PR, то есть достигается некритическая выборка. Для всех переходов от ТСХх к ТСХх («х» показывает любую продолжительность фрейма) длина преобразования Т равна числу новых идеально восстановленных образцов, то есть достигается критическая выборка. Фиг.13b иллюстрирует таблицу графических представлений всех окон для всех возможных переходов в основанном на MDCT осуществлении AMR-WB+. Как уже было показано в таблице на фиг.13а, левая часть L окон больше не зависит от длины предыдущего фрейма ТСХ. Графические представления на фиг.14b также показывают, что критическая выборка может быть продолжена при переключении между различными фреймами. Можно заметить, что для переходов от ТСХ к ACELP производятся служебные сигналы 128 образцов. Так как левая сторона окон не зависит от длины предыдущего фрейма ТСХ, таблица, показанная на фиг.13b, может быть упрощена, как показано на фиг.14а. Фиг.14а снова показывает графическое представление окон для всех возможных переходов, где переходы от фреймов ТСХ могут быть сложены в один ряд.
Фиг.14b более подробно иллюстрирует переход от ACELP к ТСХ80 окну. Диаграмма представления на фиг.14b показывает число образцов на абсциссе и функцию окна на ординате. При рассмотрении входа MDCT левая нулевая часть простирается от образца 1 до образца 512. Часть верхнего края находится между образцом 513 и 640, вторая обходная часть между 641 и 1664, часть нижнего края между 1665 и 1792, третья нулевая часть между 1793 и 2304. Что касается вышеупомянутого обсуждения MDCT, в данном осуществлении 2304 образца временной области преобразуются в 1152 образца частотной области. Согласно вышеупомянутому описанию зона совмещения имен временной области данного окна находится между образцами 513 и 640, то есть в пределах части верхнего края простирается по образцам L=128. Другая зона совмещения имен временной области простирается между образцами 1665 и 1792, то есть по части нижнего края образцов R=128. Вследствие наличия первой нулевой части и третьей нулевой части имеется зона несовмещения имен, где идеальная реконструкция, размером М=1024, возможна между образцами 641 и 1664. На фиг.14b фрейм ACELP, обозначенный пунктирной линией, заканчивается на образце 640. Относительно образцов части верхнего края между 513 и 640 окна ТСХ80 возникают различные варианты. Один вариант состоит в том, чтобы сначала отбраковать образцы и остаться с фреймом ACELP. Другой выриант состоит в том, чтобы использовать выход ACELP, чтобы выполнить отмену совмещения имен временной области для фрейма ТСХ80.
Фиг.14с иллюстрирует переход от любого фрейма ТСХ, обозначенного «ТСХх», к фрейму ТСХ20 и назад к любому фрейму ТСХх. Фиг.14b-14f используют то же самое изображение графа представления, которое уже было описано относительно фиг.14b. На фиг.14 с в центре вокруг образца 256 изображено окно ТСХ20. 512 образцов временной области преобразованы посредством MDCT в 256 образцов частотной области. Образцы временной области используют 64 образца для первой нулевой части, а также для третьей нулевой части. К тому же, зона несовмещения имен размером М=128 простирается вокруг центра окна ТСХ20. Левое перекрывание или часть верхнего края между образцами 65 и 192 может быть объединено, чтобы отменить совмещение имен временной области с частью нижнего края предыдущего окна, как обозначено пунктирной линией. К тому же, область идеальной реконструкции дает в результате размер PR=256. Так как все части верхнего края всех окон ТСХ равны L=128 и пригодны для всех частей нижнего края R=128, предшествующий фрейм ТСХ, так же, как следующие фреймы ТСХ, может иметь любой размер. При переходе от ACELP к ТСХ20 может использоваться другое окно, как показано на фиг.14d. Как видно по фиг.14d, часть верхнего края выбирается равной L=0, то есть прямоугольный край. К тому же, область идеальной реконструкции PR=256. Фиг.14е показывает аналогичный граф представления при переходе от ACELP к ТСХ40 и, в качестве другого примера, фиг.14f иллюстрирует переход от любого окна ТСХх к ТСХ80 к любому окну ТСХх.
Таким образом, Фиг.14b-f показывают, что перекрывающаяся зона для окон MDCT всегда - 128 образцов, за исключением случая, когда происходит переход от ACELP к ТСХ20, ТСХ40, или ACELP.
Когда происходит переход от ТСХ к ACELP или от ACELP к ТСХ80 возможен ряд вариантов. В одном осуществлении окном, квантованным от MDCT ТСХ фрейма, можно пренебречь в перекрывающейся зоне. В другом осуществлении реализуемые посредством организации окна образцы могут использоваться для взаимного ослабления и для отмены совмещения имен временной области в MDCT ТСХ образцах, основанных на совмещенных ACELP образцах в перекрывающейся зоне. В еще одном осуществлении пересекающееся замирание может быть выполнено без отмены совмещения имен временной области. При переходе от ACELP к ТСХ отклик при отсутствии входного сигнала (ZIR=отклик при отсутствии входного сигнала) может быть удален в кодирующем устройстве для управления окнами и добавлен в декодер для восстановления. На чертежах это обозначено пунктирными линиями в пределах окон ТСХ, следующих за окнами ACELP. В данном осуществлении, при переходе от ТСХ к ТСХ, реализуемые посредством организации окна образцы могут использоваться для взаимного ослабления.
При переходе от ACELP к ТСХ80 длина фрейма больше и может перекрываться фреймом ACELP; может использоваться отмена совмещения имен временной области или способ отбраковки.
При переходе от ACELP к ТСХ80 предыдущий фрейм ACELP может вводить «звон» (затухающие колебания). Звон (затухающие колебания) может распознаваться как распространение ошибки, поступающей из предыдущего фрейма вследствие использования фильтрования LPC. Способ ZIR, используемый для ТСХ40 и ТСХ20, может объяснить звон (затухающие колебания). В осуществлениях вариант для ТСХ80 должен использовать способ ZIR с длиной преобразования 1088, то есть без перекрытия с фреймом ACELP. В другом осуществлении та же самая длина преобразования 1152 может быть сохранена и может быть использовано обнуление области перекрывания непосредственно перед ZIR, как показано на фиг.15. Фиг.15 показывает переход от ACELP к ТСХ80 с обнулением перекрытой области и использованием способа ZIR. Часть ZIR снова обозначена пунктирной линией, идущей после конца окна ACELP.
Суммируя вышесказанное, осуществления данного изобретения обеспечивают то преимущество, что критическая выборка может быть выполнена для всех фреймов ТСХ, когда предшествует фрейм ТСХ. По сравнению с традиционым подходом может быть достигнуто сокращение на 1/8-ую служебных сигналов. Кроме того, осуществления обеспечивают то преимущество, что переходная или перекрывающаяся область между последовательными фреймми может всегда быть 128 образцами, то есть длинее, чем для обычного AMR-WB+. Улучшенные области перекрывания также обеспечивают улучшенную частотную характеристику и более гладкое взаимное ослабление. К тому же, может быть достигнуто лучшее качество сигнала с полным процессом кодирования и декодирования.
В зависимости от определенных требований выполнения изобретательных способов изобретательные способы могут быть осуществлены в аппаратных средствах или в программном обеспечении. Выполнение может быть реализовано посредством использования цифрового носителя данных, в частности диск, DVD, флеш-память или компакт-диск, имеющего электронно-считываемые управляющие сигналы, хранящиеся на нем, которые взаимодействуют с программируемой компьютерной системой, таким образом, чтобы реализовывались изобретательные способы. В общем, данное изобретение, таким образом, - компьютерный программный продукт с управляющей программой, хранящейся на машиночитаемом носителе; управляющая программа, выполняемая для реализации изобретательных способов, когда компьютерный программный продукт запущен на компьютере. Другими словами, изобретательные способы - компьютерная программа, имеющая управляющую программу для выполнения, по крайней мере, одного из изобретательных способов, когда компьютерная программа запущена на компьютере.
Claims (21)
1. Звуковое кодирующее устройство (10) приспособлено для кодирования фреймов квантованного звукового сигнала для получения кодированных фреймов, где фрейм включает ряд звуковых образцов временной области, включающее этап анализа предиктивного кодирования (12) для определения информации о коэффициентах синтезирующего фильтра и фрейма области предсказания, основанного на фрейме звуковых образцов; преобразователь, вводящий временное совмещение имен (14) для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен (14) приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки; и кодирующее устройство, уменьшающее избыточность (16). для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах, и кодированных спектров фрейма области предсказания;
кодирующее устройство шифровальной книги (13) для кодирования фреймов области предсказания, основанное на предварительно определенной шифровальной книге. для получения кодированного фрейма области предсказания шифровальной книги.
решающий блок (15) для принятия решения о том, использовать ли кодированный фрейм области предсказания шифровальной книги или кодированный фрейм области предсказания, чтобы получить, окончательно кодированный фрейм, основанный на мере эффективности кодирования.
кодирующее устройство шифровальной книги (13) для кодирования фреймов области предсказания, основанное на предварительно определенной шифровальной книге. для получения кодированного фрейма области предсказания шифровальной книги.
решающий блок (15) для принятия решения о том, использовать ли кодированный фрейм области предсказания шифровальной книги или кодированный фрейм области предсказания, чтобы получить, окончательно кодированный фрейм, основанный на мере эффективности кодирования.
2. Звуковое кодирующее устройство (10) по п.1, где фрейм области предсказания основывается на фрейме возбуждения, включающем образцы сигнала возбуждения для синтезирующего фильтра.
3. Звуковое кодирующее устройство (10) по п.1, где преобразователь, вводящий временное совмещение имен (14), приспособлен для преобразования перекрывающихся фреймов области предсказания таким образом, что среднее число образцов спектра фрейма области предсказания равняется среднему числу образцов в фрейме области предсказания.
4. Звуковое кодирующее устройство (10) по п.1, где преобразователь, вводящий временное совмещение имен (14), приспособлен для преобразования перекрывающихся фреймов области предсказания согласно модифицированному дискретному косинусному преобразованию (MDCT).
5. Звуковое кодирующее устройство (10) по п.1, где преобразователь, вводящий временное совмещение имен (14), включает управляющийся окнами фильтр (17) для применения функции управления окнами к перекрывающимся фреймам области предсказания и конвертер (18) для преобразования реализуемых посредством организации окон перекрывающихся фреймов области предсказания в спектры фрейма области предсказания.
6. Звуковое кодирующее устройство (10) по п.5, где преобразователь, вводящий временное совмещение имен (14), включает процессор (19) для обнаружения события и для предоставления информации о последовательности окон. если событие обнаружено, и где управляющийся окнами фильтр (17) приспособлен для применения функции управления окнами согласно информации о последовательности окон.
7. Звуковое кодирующее устройство (10) по п.6, где информация о последовательности окон включает первую нулевую часть, вторую обходную часть и третью нулевую часть.
8. Звуковое кодирующее устройство (10) по п.7, где информация о последовательности окон включает часть верхнего края между первой нулевой частью и второй обходной частью и часть нижнего края между второй обходной частью и третьей нулевой частью.
9. Звуковое кодирующее устройство (10) по п.8, где вторая обходная часть включает последовательность единиц для неизмененных образцов спектров фрейма области предсказания.
10. Звуковое кодирующее устройство по п.1, где этап анализа предиктивного кодирования (12) приспособлен для определения информации о коэффициентах, основанных на линейном предиктивном кодировании (LPC).
11. Звуковое кодирующее устройство (10) по п.12, далее включающее выключатель (20), соединенный с решающим блоком (15) для переключения фреймов области предсказания между преобразователем, вводящим временное совмещение имен (14), и кодирующим устройством шифровальной книги (13), основанным на мере эффективности кодирования.
12. Способ кодирования фреймов квантованного звукового сигнала для получения кодированных фреймов, где фрейм включает ряд звуковых образцов временной области, включающий определение информации о коэффициентах для синтезирующего фильтра, основанного на фрейме звуковых образцов; определение фрейма области предсказания, основанного на фрейме звуковых образцов; преобразование перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания способом критической выборки. вводящей временное совмещение имен; и кодирование спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах, и кодированных спектров фрейма области предсказания,
кодирование с помощью кодирующего устройства шифровальной книги (13) для кодирования фреймов области предсказания, основанное на предварительно определенной шифровальной книге, для получения кодированного фрейма области предсказания шифровальной книги:
принятие решения о том, использовать ли кодированный фрейм области предсказания шифровальной книги или кодированный фрейм области предсказания, чтобы получить, окончательно кодированный фрейм, основанный на мере эффективности кодирования.
кодирование с помощью кодирующего устройства шифровальной книги (13) для кодирования фреймов области предсказания, основанное на предварительно определенной шифровальной книге, для получения кодированного фрейма области предсказания шифровальной книги:
принятие решения о том, использовать ли кодированный фрейм области предсказания шифровальной книги или кодированный фрейм области предсказания, чтобы получить, окончательно кодированный фрейм, основанный на мере эффективности кодирования.
13. Машиночитаемый носитель с записанной компьютерной программой, имеющей программный код для реализации способа по п.12.
14. Звуковой декодер (80) для декодирования кодированных фреймов для получения фреймов квантованного звукового сигнала, где фрейм включает ряд звуковых образцов временной области, включающий декодер, отыскивающий избыточность (82), для декодирования кодированных фреймов для получения информации о коэффициентах для синтезирующего фильтра и спектров фрейма области предсказания; обратный преобразователь, вводящий временное совмещение имен (84), для преобразования спектров фрейма области предсказания во временную область для получения перекрывающихся фреймов области предсказания, где обратный преобразователь, вводящий временное совмещение имен (84), приспособлен для определения перекрывающихся фреймов области предсказания из последовательных спектров фрейма области предсказания; перекрывающий/добавляющий объединитель (86) для объединения перекрывающихся фреймов области предсказания для получения фрейма области предсказания способом критической выборки; и этап предиктивного синтеза (88) для определения фреймов звуковых образцов, основанных на коэффициентах и фрейма области предсказания;
где обратный преобразователь, вводящий временное совмещение имен (84), далее включает конвертер (84а) для преобразования спектров фрейма области предсказания в преобразованные перекрывающиеся фреймы области предсказания и управляющийся окнами фильтр (84b) для применения функции управления окнами к преобразованным перекрывающимся фреймам области предсказания для получения перекрывающихся фреймов области предсказания,
где обратный преобразователь, вводящий временное совмещение имен (84), включает процессор (84с) для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, управляющемуся окнами фильтру (84b); и где управляющийся окнами фильтр (84b) приспособлен для применения функции управления окнами согласно информации о последовательности окон, и где информация о последовательности окон включает первую нулевую часть, вторую обходную часть и третью нулевую часть.
где обратный преобразователь, вводящий временное совмещение имен (84), далее включает конвертер (84а) для преобразования спектров фрейма области предсказания в преобразованные перекрывающиеся фреймы области предсказания и управляющийся окнами фильтр (84b) для применения функции управления окнами к преобразованным перекрывающимся фреймам области предсказания для получения перекрывающихся фреймов области предсказания,
где обратный преобразователь, вводящий временное совмещение имен (84), включает процессор (84с) для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, управляющемуся окнами фильтру (84b); и где управляющийся окнами фильтр (84b) приспособлен для применения функции управления окнами согласно информации о последовательности окон, и где информация о последовательности окон включает первую нулевую часть, вторую обходную часть и третью нулевую часть.
15. Звуковой декодер (80) по п.16, где перекрывающий/добавляющий объединитель (86) приспособлен для объединения перекрывающихся фреймов области предсказания таким образом, что среднее число образцов в фрейме области предсказания равняется среднему числу образцов в спектре фрейма области предсказания.
16. Звуковой декодер (80) по п.15, где обратный преобразователь, вводящий временное совмещение имен (84), приспособлен для преобразования спектров фрейма области предсказания во временную область согласно модифицированному дискретному косинусному преобразованию (IMDCT).
17. Звуковой декодер (80) по п.16, где этап предиктивного синтеза (88) приспособлен для определения фрейма звуковых образцов, основанного на линейном предиктивном кодировании (LPC).
18. Звуковой декодер (80) по п.17, где последовательность окон далее включает часть верхнего края между первой нулевой частью и второй обходной частью и частью нижнего края между второй обходной частью и третьей нулевой частью.
19. Звуковой декодер (80) по п.18, где вторая обходная часть включает последовательность единиц для изменения образцов фрейма области предсказания.
20. Способ декодирования кодированных фреймов для получения фреймов квантованного звукового сигнала, где фрейм включает ряд звуковых образцов временной области, включающий следующие шаги: декодирование кодированных фреймов для получения информации о коэффициентах для синтезирующего фильтра и спектрах фрейма области предсказания; преобразование спектров фрейма области предсказания во временную область для получения перекрывающихся фреймов области предсказания из последовательных спектров фрейма области предсказания; где шаг преобразования включает преобразование спектров фреймов области предсказания в преобразованные перекрывающиеся фреймы области предсказания, приложение фильтром оконного взвешивания (84b) оконной функции к преобразованным перекрывающимся фреймам области предсказания для образования фреймов области предсказания с перекрыванием, распознавание события и при выявлении события выдача на фильтр оконного взвешивания (84b) информации о последовательности окон, где фильтр оконного взвешивания (84b) предназначен для приложения оконной функции в соответствии с информацией о последовательности окон, и где информация о последовательности окон содержит данные о первой, нулевой, области, второй, байпасной, области и третьей, нулевой, области;
объединение перекрывающихся фреймов области предсказания для получения фрейма области предсказания способом критической выборки; и определение фрейма, основанного на коэффициентах, и фрейма области предсказания.
объединение перекрывающихся фреймов области предсказания для получения фрейма области предсказания способом критической выборки; и определение фрейма, основанного на коэффициентах, и фрейма области предсказания.
26. Машиночитаемый носитель, содержащий компьютерный программный продукт для реализации способа по п.20, когда компьютерная программа запущена на компьютере или процессоре.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7986208P | 2008-07-11 | 2008-07-11 | |
US61/079,862 | 2008-07-11 | ||
US10382508P | 2008-10-08 | 2008-10-08 | |
EP08017661.3 | 2008-10-08 | ||
EP08017661.3A EP2144171B1 (en) | 2008-07-11 | 2008-10-08 | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
US61/103,825 | 2008-10-08 | ||
PCT/EP2009/004015 WO2010003491A1 (en) | 2008-07-11 | 2009-06-04 | Audio encoder and decoder for encoding and decoding frames of sampled audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2011102422A RU2011102422A (ru) | 2012-07-27 |
RU2507572C2 true RU2507572C2 (ru) | 2014-02-20 |
Family
ID=40351582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2011102422/08A RU2507572C2 (ru) | 2008-07-11 | 2009-06-04 | Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP2144171B1 (ru) |
JP (1) | JP5551692B2 (ru) |
KR (1) | KR101516468B1 (ru) |
CN (1) | CN102089758B (ru) |
AU (1) | AU2009267555A1 (ru) |
BR (1) | BRPI0910527B1 (ru) |
CA (1) | CA2730195C (ru) |
ES (1) | ES2683077T3 (ru) |
RU (1) | RU2507572C2 (ru) |
WO (1) | WO2010003491A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU228230U1 (ru) * | 2024-04-27 | 2024-08-20 | Федеральное государственное бюджетное образовательно учреждение высшего образования "Уфимский университет науки и технологий" | Устройство для дифференциальной импульсно-кодовой модуляции с использованием нейронной сети |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
EP3352168B1 (en) | 2009-06-23 | 2020-09-16 | VoiceAge Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
TR201900663T4 (tr) | 2010-01-13 | 2019-02-21 | Voiceage Corp | Doğrusal öngörücü filtreleme kullanarak ileri doğru zaman alanı alıasıng iptali ile ses kod çözümü. |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
CN102959620B (zh) | 2011-02-14 | 2015-05-13 | 弗兰霍菲尔运输应用研究公司 | 利用重迭变换的信息信号表示 |
EP3239978B1 (en) | 2011-02-14 | 2018-12-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
EP2676268B1 (en) | 2011-02-14 | 2014-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
TWI563498B (en) * | 2011-02-14 | 2016-12-21 | Fraunhofer Ges Forschung | Apparatus and method for encoding an audio signal using an aligned look-ahead portion, and related computer program |
PT2676270T (pt) | 2011-02-14 | 2017-05-02 | Fraunhofer Ges Forschung | Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade |
RU2586838C2 (ru) | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
RU2630390C2 (ru) | 2011-02-14 | 2017-09-07 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac) |
RU2575993C2 (ru) * | 2011-02-14 | 2016-02-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Основанная на линейном предсказании схема кодирования, использующая формирование шума в спектральной области |
FR2972875A1 (fr) * | 2011-03-17 | 2012-09-21 | France Telecom | Procede et dispositif de filtrage lors d'un changement de filtre arma |
EP2700173A4 (en) | 2011-04-21 | 2014-05-28 | Samsung Electronics Co Ltd | METHOD FOR QUANTIFYING LINEAR PREDICTIVE CODING COEFFICIENTS, SOUND CODING METHOD, METHOD FOR DEQUANTIFYING LINEAR PREDICTIVE CODING COEFFICIENTS AND RECORDING MEDIUM |
MY190996A (en) | 2011-04-21 | 2022-05-26 | Samsung Electronics Co Ltd | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
US9037456B2 (en) | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
WO2013183928A1 (ko) * | 2012-06-04 | 2013-12-12 | 삼성전자 주식회사 | 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기 |
CN109448745B (zh) * | 2013-01-07 | 2021-09-07 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
ES2732560T3 (es) | 2013-01-29 | 2019-11-25 | Fraunhofer Ges Forschung | Llenado de ruido sin información secundaria para codificadores tipo celp |
CN105378835B (zh) * | 2013-02-20 | 2019-10-01 | 弗劳恩霍夫应用研究促进协会 | 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法 |
CN110223703B (zh) * | 2013-04-05 | 2023-06-02 | 杜比国际公司 | 音频信号的解码方法和解码器、介质以及编码方法 |
CN105933030B (zh) * | 2013-04-05 | 2018-09-28 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
AU2014283196B2 (en) | 2013-06-21 | 2016-10-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
KR102244613B1 (ko) * | 2013-10-28 | 2021-04-26 | 삼성전자주식회사 | Qmf 필터링 방법 및 이를 수행하는 장치 |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
CN104111374B (zh) * | 2014-07-09 | 2017-01-04 | 西安交通大学 | 一种基于mdct系数进行正弦频率估计的方法 |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
CN107004417B (zh) * | 2014-12-09 | 2021-05-07 | 杜比国际公司 | Mdct域错误掩盖 |
EP3067889A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3107096A1 (en) * | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
MY189223A (en) * | 2016-01-22 | 2022-01-31 | Fraunhofer Ges Forschung | Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters |
EP3276620A1 (en) * | 2016-07-29 | 2018-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3644313A1 (en) * | 2018-10-26 | 2020-04-29 | Fraunhofer Gesellschaft zur Förderung der Angewand | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction |
JP7130878B2 (ja) * | 2019-01-13 | 2022-09-05 | 華為技術有限公司 | 高分解能オーディオコーディング |
CN117476017A (zh) * | 2022-07-27 | 2024-01-30 | 华为技术有限公司 | 音频编解码方法、装置、存储介质及计算机程序产品 |
CN118522296A (zh) * | 2023-02-17 | 2024-08-20 | 华为技术有限公司 | 有损编解码器和无损编解码器之间的切换方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2256293C2 (ru) * | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
US20050185850A1 (en) * | 2004-02-19 | 2005-08-25 | Vinton Mark S. | Adaptive hybrid transform for signal analysis and synthesis |
RU2312405C2 (ru) * | 2005-09-13 | 2007-12-10 | Михаил Николаевич Гусев | Способ осуществления машинной оценки качества звуковых сигналов |
RU2325707C2 (ru) * | 2002-05-31 | 2008-05-27 | Войсэйдж Корпорейшн | Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US20020040299A1 (en) * | 2000-07-31 | 2002-04-04 | Kenichi Makino | Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data |
AU2003208517A1 (en) * | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
CN1954365B (zh) * | 2004-05-17 | 2011-04-06 | 诺基亚公司 | 使用不同编码模型的音频编码 |
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR101016224B1 (ko) * | 2006-12-12 | 2011-02-25 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법 |
-
2008
- 2008-10-08 EP EP08017661.3A patent/EP2144171B1/en active Active
- 2008-10-08 ES ES08017661.3T patent/ES2683077T3/es active Active
-
2009
- 2009-06-04 CA CA2730195A patent/CA2730195C/en active Active
- 2009-06-04 AU AU2009267555A patent/AU2009267555A1/en not_active Abandoned
- 2009-06-04 BR BRPI0910527-1A patent/BRPI0910527B1/pt active IP Right Grant
- 2009-06-04 CN CN200980127089.5A patent/CN102089758B/zh active Active
- 2009-06-04 RU RU2011102422/08A patent/RU2507572C2/ru active
- 2009-06-04 JP JP2011516978A patent/JP5551692B2/ja active Active
- 2009-06-04 KR KR1020117000767A patent/KR101516468B1/ko active Active
- 2009-06-04 WO PCT/EP2009/004015 patent/WO2010003491A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2256293C2 (ru) * | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
RU2325707C2 (ru) * | 2002-05-31 | 2008-05-27 | Войсэйдж Корпорейшн | Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания |
US20050185850A1 (en) * | 2004-02-19 | 2005-08-25 | Vinton Mark S. | Adaptive hybrid transform for signal analysis and synthesis |
RU2312405C2 (ru) * | 2005-09-13 | 2007-12-10 | Михаил Николаевич Гусев | Способ осуществления машинной оценки качества звуковых сигналов |
Non-Patent Citations (1)
Title |
---|
B. BESSETTE et al "Universal speech/audio coding using hybrid ACEL/TCX techniques", IEEE, ICASSP, 2005. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU228230U1 (ru) * | 2024-04-27 | 2024-08-20 | Федеральное государственное бюджетное образовательно учреждение высшего образования "Уфимский университет науки и технологий" | Устройство для дифференциальной импульсно-кодовой модуляции с использованием нейронной сети |
Also Published As
Publication number | Publication date |
---|---|
ES2683077T3 (es) | 2018-09-24 |
AU2009267555A1 (en) | 2010-01-14 |
EP2144171B1 (en) | 2018-05-16 |
CN102089758A (zh) | 2011-06-08 |
CA2730195A1 (en) | 2010-01-14 |
BRPI0910527B1 (pt) | 2019-11-05 |
JP5551692B2 (ja) | 2014-07-16 |
BRPI0910527A2 (pt) | 2016-07-26 |
KR20110043592A (ko) | 2011-04-27 |
EP2144171A1 (en) | 2010-01-13 |
RU2011102422A (ru) | 2012-07-27 |
WO2010003491A1 (en) | 2010-01-14 |
KR101516468B1 (ko) | 2015-05-04 |
JP2011527444A (ja) | 2011-10-27 |
CN102089758B (zh) | 2014-02-12 |
CA2730195C (en) | 2014-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2507572C2 (ru) | Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала | |
US8595019B2 (en) | Audio coder/decoder with predictive coding of synthesis filter and critically-sampled time aliasing of prediction domain frames | |
RU2483365C2 (ru) | Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой | |
AU2009267466B2 (en) | Audio encoder and decoder for encoding and decoding audio samples | |
CA2556797C (en) | Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
RU2485606C2 (ru) | Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений | |
AU2012217156B2 (en) | Linear prediction based coding scheme using spectral domain noise shaping | |
JP6262668B2 (ja) | 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法 | |
AU2013200679B2 (en) | Audio encoder and decoder for encoding and decoding audio samples | |
EP3002751A1 (en) | Audio encoder and decoder for encoding and decoding audio samples | |
HK1140281B (en) | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal | |
Quackenbush | MPEG Audio Compression Future | |
HK1158333B (en) | Audio encoder and decoder for encoding and decoding frames of sampled audio signal | |
HK1223452B (en) | Audio encoder and decoder for encoding and decoding audio samples | |
HK1155552B (en) | Audio encoder and decoder for encoding and decoding audio samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20201123 |