Nothing Special   »   [go: up one dir, main page]

RU2646316C2 - Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала - Google Patents

Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала Download PDF

Info

Publication number
RU2646316C2
RU2646316C2 RU2016105613A RU2016105613A RU2646316C2 RU 2646316 C2 RU2646316 C2 RU 2646316C2 RU 2016105613 A RU2016105613 A RU 2016105613A RU 2016105613 A RU2016105613 A RU 2016105613A RU 2646316 C2 RU2646316 C2 RU 2646316C2
Authority
RU
Russia
Prior art keywords
spectral
channel
representation
parts
frequency
Prior art date
Application number
RU2016105613A
Other languages
English (en)
Other versions
RU2016105613A (ru
Inventor
Саша ДИШ
Фредерик НАГЕЛЬ
Ральф ГАЙГЕР
Баладжи Нагендран ТХОШКАХНА
Константин ШМИДТ
Штефан БАЙЕР
Кристиан НОЙКАМ
Бернд ЭДЛЕР
Кристиан ХЕЛЬМРИХ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016105613A publication Critical patent/RU2016105613A/ru
Application granted granted Critical
Publication of RU2646316C2 publication Critical patent/RU2646316C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Изобретение относится к кодированию/декодированию аудио сигналов, в частности к кодированию аудиосигналов с использованием интеллектуального заполнения интервалов (IGF). Технический результат – обеспечение расширенной полосы пропускания аудиосигнала на низких скоростях передачи битов за счет повышения эффективности сжатия. Устройство для формирования декодированного двухканального сигнала содержит: аудиопроцессор для декодирования кодированного двухканального сигнала для того, чтобы получать первый набор первых спектральных частей; параметрический декодер для предоставления параметрических данных для второго набора вторых спектральных частей и двухканального идентификатора, идентифицирующего первое или второе другое двухканальное представление для вторых спектральных частей; и модуль повторного формирования частоты для повторного формирования второй спектральной части в зависимости от первой спектральной части первого набора первых спектральных частей, параметрических данных для второй части и двухканального идентификатора для второй части. 6 н. и 16 з.п. ф-лы, 41 ил.

Description

Подробное описание изобретения
Настоящее изобретение относится к кодированию/декодированию аудио и, в частности, к кодированию аудио с использованием интеллектуального заполнения интервалов (IGF).
Кодирование аудио представляет собой область сжатия сигналов, которая связана с использованием избыточности и нерелевантности в аудиосигналах с использованием психоакустических сведений. На сегодняшний день аудиокодекам типично требуется приблизительно 60 Кбит/с/канал для перцепционно прозрачного кодирования практически любого типа аудиосигнала. Более новые кодеки нацелены на уменьшение скорости передачи битов при кодировании посредством использования спектральных подобий в сигнале с использованием таких технологий, как расширение полосы пропускания (BWE). BWE-схема использует набор параметров для низкой скорости передачи битов, чтобы представлять высокочастотные (HF) компоненты аудиосигнала. HF-спектр заполнен спектральным содержимым из низкочастотных (LF) областей, и спектральная форма, наклон и временная непрерывность регулируются для того, чтобы поддерживать тембр и цвет исходного сигнала. Такие BWE-способы позволяют аудиокодекам сохранять хорошее качество даже на низких скоростях передачи битов приблизительно в 24 Кбит/с/канал.
Хранение или передача аудиосигналов зачастую подчиняются строгим ограничениям скорости передачи битов. В прошлом, кодеры принудительно существенно уменьшали полосу пропускания передаваемого аудиосигнала, когда была доступна только очень низкая скорость передачи битов.
Современные аудиокодеки в наше время могут кодировать широкополосные сигналы посредством использования способов расширения полосы пропускания (BWE)[1]. Эти алгоритмы основываются на параметрическом представлении высокочастотного содержимого (HF), который формируется из кодированной на основе формы сигналов низкочастотной части (LF) декодированного сигнала, посредством транспозиции в спектральную HF-область ("наложения") и применения постобработки на основе параметров. В BWE-схемах, восстановление спектральной HF-области выше данной так называемой частоты разделения зачастую основано на спектральном наложении. Типично, HF-область состоит из нескольких смежных наложений, и каждое из этих наложений получается из полосовых (BP) областей LF-спектра ниже данной частоты разделения. Системы предшествующего уровня техники эффективно выполняют наложение в представлении на основе гребенки фильтров, например, гребенки квадратурных зеркальных фильтров (QMF), посредством копирования набора смежных подполосных коэффициентов из исходной в целевую область.
Еще одна технология, разработанная в современных аудиокодеках, которая повышает эффективность сжатия и за счет этого обеспечивает расширенную полосу пропускания аудиосигнала на низких скоростях передачи битов, представляет собой синтетическую замену на основе параметров подходящих частей спектров звука. Например, шумоподобные части сигнала исходного аудиосигнала могут быть заменены без существенных потерь субъективного качества посредством искусственного шума, сформированного в декодере, и масштабированы посредством параметров вспомогательной информации. Один пример представляет собой инструментальное средство для перцепционного замещения шума (PNS), содержащееся в усовершенствованном кодировании аудио (AAC) на основе MPEG-4 [5].
Дополнительная мера, которая также обеспечивает расширенную полосу пропускания аудиосигнала на низких скоростях передачи битов, представляет собой технологию заполнения шумом, содержащуюся в стандартизированном кодировании речи и аудио (USAC) на основе MPEG-D [7]. Интервалы отсутствия сигнала в спектре (нули), которые логически выводятся посредством мертвой зоны квантователя вследствие слишком приблизительного квантования, затем заполняются искусственным шумом в декодере и масштабируются посредством постобработки на основе параметров.
Другая система предшествующего уровня техники называется "точной спектральной заменой (ASR)" [2-4]. В дополнение к кодеку на основе формы сигналов, ASR использует выделенную стадию синтеза сигналов, которая восстанавливает перцепционно важные синусоидальные части сигнала в декодере. Кроме того, система, описанная в [5], основывается на синусоидальном моделировании в HF-области кодера на основе формы сигналов, чтобы обеспечивать расширенную полосу пропускания аудиосигнала, имеющую неплохое перцепционное качество на низких скоростях передачи битов. Все эти способы заключают в себе преобразование данных во второй области, отличное от модифицированного дискретного косинусного преобразования (MDCT), а также довольно комплексные стадии анализа/синтеза для сохранения синусоидальных HF-компонентов.
Фиг. 13a иллюстрирует принципиальную схему аудиокодера для технологии расширения полосы пропускания, например, используемой при высокоэффективном усовершенствованном кодировании аудио (HE-AAC). Аудиосигнал в линии 1300 вводится в систему фильтров, состоящую из нижних частот 1302 и верхних частот 1304. Сигнал, выводимый посредством фильтра 1304 верхних частот, вводится в модуль 1306 извлечения/кодирования параметров. Модуль 1306 извлечения/кодирования параметров выполнен с возможностью вычисления и кодирования параметров, таких как, например, параметр спектральной огибающей, параметр добавления шума, параметр пропущенных гармоник или параметр обратной фильтрации. Эти извлеченные параметры вводятся в мультиплексор 1308 потоков битов. Выходной сигнал нижних частот вводится в процессор, типично содержащий функциональность модуля 1310 понижающей дискретизации и базового кодера 1312. Нижние частоты 1302 ограничивают полосу пропускания, которая должна кодироваться, значительно меньшей полосой пропускания, чем возникающая исходном входном аудиосигнале на линии 1300. Это предоставляет значительное усиление при кодировании вследствие того факта, что полные функциональности, осуществляемые в базовом кодере, должны работать только для сигнала с уменьшенной полосой пропускания. Когда, например, полоса пропускания аудиосигнала на линии 1300 составляет 20 кГц, и когда фильтр 1302 нижних частот примерно имеет полосу пропускания в 4 кГц, чтобы удовлетворять теореме дискретизации, теоретически достаточно того, что сигнал после модуля понижающей дискретизации имеет частоту дискретизации в 8 кГц, что является существенным уменьшением по сравнению с частотой дискретизации, требуемой для аудиосигнала 1300, которая должна составлять, по меньшей мере, 40 кГц.
Фиг. 13b иллюстрирует принципиальную схему соответствующего декодера расширения полосы пропускания. Декодер содержит мультиплексор 1320 потоков битов. Демультиплексор 1320 потоков битов извлекает входной сигнал для базового декодера 1322 и входной сигнал для декодера 1324 параметров. Выходной сигнал базового декодера имеет, в вышеприведенном примере, частоту дискретизации в 8 кГц, и следовательно, полосу пропускания в 4 кГц, тогда как для восстановления полной полосы пропускания выходной сигнал модуля 1330 восстановления высоких частот должен иметь 20 кГц, что требует частоты дискретизации, по меньшей мере, в 40 кГц. Для обеспечения возможности этого, требуется процессор декодера, имеющий функциональность модуля 1325 повышающей дискретизации и гребенки 1326 фильтров. Модуль 1330 восстановления высоких частот затем принимает частотно проанализированный низкочастотный сигнал, выводимый посредством гребенки 1326 фильтров, и восстанавливает частотный диапазон, заданный посредством фильтра 1304 верхних частот по фиг. 13a, с использованием параметрического представления полосы высоких частот. Модуль 1330 восстановления высоких частот имеет несколько функциональностей, таких как повторное формирование диапазона верхних частот с использованием исходного диапазона в диапазоне низких частот, регулирование спектральной огибающей, функциональность добавления шума и функциональность для того, чтобы вводить пропущенные гармоники в диапазоне верхних частот, и если применяется и вычисляется в кодере по фиг. 13a, операция обратной фильтрации, чтобы учитывать тот факт, что диапазон верхних частот типично не является настолько тональным, как диапазон нижних частот. В HE-AAC, пропущенные гармоники повторно синтезируются на стороне декодера и размещаются точно в середине полосы частот восстановления. Следовательно, все линии пропущенных гармоник, которые определяются в определенной полосе частот восстановления, не размещены в значениях частоты, в которых они располагаются в исходном сигнале. Вместо этого, эти линии пропущенных гармоник размещены в частотах в центре определенной полосы частот. Таким образом, когда линия пропущенных гармоник в исходном сигнале размещена очень близко к границе полосы частот восстановления в исходном сигнале, ошибка в частоте, введенная посредством размещения этой линии пропущенных гармоник в восстановленном сигнале в центре полосы частот, находится близко к 50% отдельной полосы частот восстановления, для которой сформированы и переданы параметры.
Кроме того, даже если типичные аудио базовые кодеры работают в спектральной области, базовый декодер, тем не менее, формирует сигнал временной области, который затем снова преобразуется в спектральную область посредством функциональности гребенки 1326 фильтров. Это вводит дополнительные задержки при обработке, может вводить артефакты вследствие тандемной обработки преобразования сначала из спектральной области в частотную область и снова преобразования типично в другую частотную область, и, конечно, это также требует значительной сложности вычислений и в силу этого электроэнергии, что представляет собой проблему, в частности, когда технология расширения полосы пропускания применяется в мобильных устройствах, к примеру, в мобильных телефонах, планшетных или переносных компьютерах и т.д.
Современные аудиокодеки выполняют кодирование аудио с низкой скоростью передачи битов с использованием BWE в качестве неотъемлемой части схемы кодирования. Тем не менее, BWE-технологии ограничены тем, что они заменяют только высокочастотный (HF) спектр. Более того, они не обеспечивают возможность кодирования на основе формы сигналов перцепционно важного содержимого выше данной частоты разделения. Следовательно, современные аудиокодеки теряют HF-детали или тембр, когда реализуется BWE, поскольку точное совмещение тональных гармоник сигнала не учитывается в большинстве систем.
Другой недостаток BWE-систем современного уровня техники заключается в необходимости преобразования аудиосигнала в новую область для реализации BWE (например, преобразования из MDCT-в QMF-область). Это приводит к усложнению синхронизации, дополнительной вычислительной сложности и повышенным требованиям к запоминающему устройству.
В случае двухканальных пар, по существу предусмотрено несколько канальных представлений, таких как объединенное канальное представление или отдельное канальное представление. Известное объединенное представление является средним/боковым представлением, в котором средний канал является суммой левого и правого канала, и в котором боковой канал является разностью между левым и правым каналом.
Другое представление представляет собой канал низведения и остаточный канал и дополнительный коэффициент прогнозирования, который дает возможность воссоздавать левый и правый канал из низведения и остатка. Отдельное представление, в этом случае, должно представлять собой левый и правый отдельный канал или, в общем, первый канал и второй канал.
Кроме того, возникает ситуация, в которой исходный диапазон для операций заполнения интервалов отсутствия сигнала может демонстрировать сильную корреляцию, в то время как целевой диапазон не демонстрирует эту сильную корреляцию. Когда исходный диапазон, в этом варианте осуществления, кодируется с использованием первого стереопредставления, такого как среднее/боковое представление, чтобы уменьшать скорость передачи битов для базовой частотной части, в таком случае неправильное двухканальное изображение формируется для части восстановления или целевого диапазона. С другой стороны, когда исходный диапазон не демонстрирует корреляцию либо имеет только небольшую корреляцию, и целевой диапазон имеет небольшую корреляцию либо не имеет корреляции, с другой стороны, операция прямого заполнения интервалов отсутствия сигнала приводит к артефактам.
Следовательно, цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип кодирования/декодирования для двухканальных представлений.
Это цель достигается посредством аудиодекодера по п. 1, аудиокодера по п. 14, способа декодирования аудио по п. 19, способа декодирования аудио по п. 20 или компьютерной программы по п. 21.
Настоящее изобретение основано на таких выявленных сведениях, что ситуация корреляции является важной не только для исходного диапазона, но также и для целевого диапазона. Кроме того, настоящее изобретение подтверждает такую ситуацию, что различные ситуации корреляции могут возникать в исходном диапазоне и целевом диапазоне. Когда, например, рассматривается речевой сигнал с высокочастотным шумом, может возникать такая ситуация, что полоса низких частот, содержащая речевой сигнал с небольшим числом обертонов, имеет высокую корреляцию в левом канале и правом канале, когда динамик размещен посередине. Тем не менее, часть высоких частот может иметь сильную декорреляцию вследствие того факта, что может возникать отличный высокочастотный шум с левой стороны по сравнению с другим высокочастотным шумом или отсутствием высокочастотного шума с правой стороны. Таким образом, когда должна выполняться операция прямого заполнения интервалов отсутствия сигнала, которая игнорирует эту ситуацию, в таком случае часть высоких частот также должна быть коррелирована, и это может формировать серьезные артефакты пространственной сегрегации в восстановленном сигнале. Чтобы разрешать эту проблему, вычисляются параметрические данные для полосы частот восстановления или, в общем, для второго набора вторых спектральных частей, которые должны быть восстановлены с использованием первого набора первых спектральных частей для того, чтобы идентифицировать первое или второе другое двухканальное представление для второй спектральной части или, другими словами, для полосы частот восстановления. Следовательно, на стороне кодера двухканальный идентификатор вычисляется для вторых спектральных частей, т.е. для частей, для которых, дополнительно, вычисляется информация энергии для полос частот восстановления. Модуль повторного формирования частоты на стороне декодера затем повторно формирует вторую спектральную часть в зависимости от первой части из первого набора первых спектральных частей, т.е. исходного диапазона, и параметрических данных для второй части, таких как информация энергии спектральной огибающей или любые другие данные спектральной огибающей, и дополнительно, в зависимости от двухканального идентификатора для второй части, т.е. для этой повторно рассматриваемой полосы частот восстановления.
Двухканальный идентификатор предпочтительно передается в качестве флага для каждой полосы частот восстановления, и эти данные передаются из кодера в декодер, и декодер затем декодирует базовый сигнал, как указано посредством предпочтительно вычисленных флагов для полос базовых частот. Затем в реализации, базовый сигнал сохраняется в обоих стереопредставлениях (например, левый/правый и средний/боковой), и для заполнения частотными IGF-фрагментами представление исходных фрагментов выбрано таким образом, что оно соответствует представлению целевых фрагментов, как указано посредством флагов двухканального идентификатора для интеллектуального заполнения интервалов отсутствия сигнала или полос частот восстановления, т.е. для целевого диапазона.
Следует подчеркнуть, что эта процедура работает не только для стереосигналов, т.е. для левого канала и правого канала, но также и работает для многоканальных сигналов. В случае многоканальных сигналов, таким способом могут обрабатываться несколько пар различных каналов, к примеру, левый и правый канал в качестве первой пары, левый канал объемного звучания и правый объемного звучания в качестве второй пары и центральный канал и LFE-канала в качестве третьей пары. Другие спаривания могут определяться для форматов с более высоким числом выходных каналов, к примеру, 7.1, 11.1 и т.д.
Дополнительный аспект основан на таких выявленных сведениях, что проблемы, связанные с разделением расширения полосы пропускания, с одной стороны, и базового кодирования, с другой стороны, могут разрешаться и преодолеваться посредством выполнения расширения полосы пропускания в той спектральной области, в которой работает базовый декодер. Следовательно, предоставляется полноскоростной базовый декодер, который кодирует и декодирует полный диапазон аудиосигнала. Это не требует модуля понижающей дискретизации на стороне кодера и модуля повышающей дискретизации на стороне декодера. Вместо этого, вся обработка выполняется в области полной частоты дискретизации или полной полосы пропускания. Чтобы получать высокое усиление при кодировании, аудиосигнал анализируется для того, чтобы находить первый набор первых спектральных частей, который должен быть кодирован с высоким разрешением, причем этот первый набор первых спектральных частей может включать в себя, в варианте осуществления, тональные части аудиосигнала. С другой стороны, нетональные или зашумленные компоненты в аудиосигнале, составляющем второй набор вторых спектральных частей, параметрически кодируются с низким спектральным разрешением. Кодированный аудиосигнал в таком случае требует только первого набора первых спектральных частей, кодированных с сохранением формы сигнала с помощью высокого спектрального разрешения, и дополнительно, второго набора вторых спектральных частей, кодированных параметрически с низким разрешением с использованием частотных "фрагментов", получаемых из первого набора. На стороне декодера, базовый декодер, который представляет собой полнополосный декодер, восстанавливает первый набор первых спектральных частей с сохранением формы сигнала, т.е. без сведений о том, что приспосабливается дополнительное повторное формирование частоты. Тем не менее, за счет этого сформированный спектр имеет множество интервалов в спектре. Эти интервалы отсутствия сигнала затем заполнены с помощью изобретаемой технологии интеллектуального заполнения интервалов (IGF) посредством использования повторного формирования частоты, применяющего параметрические данные, с одной стороны, и использования исходного спектрального диапазона, т.е. первых спектральных частей, восстановленных посредством полноскоростного аудиодекодера, с другой стороны.
В дополнительных вариантах осуществления, спектральные части, которые восстановлены только посредством заполнения шумом, а не репликации полосы пропускания или заполнения частотными фрагментами, составляют третий набор третьих спектральных частей. Вследствие того факта, что принцип кодирования работает в одной области для базового кодирования/декодирования, с одной стороны, и повторного формирования частоты, с другой стороны, IGF ограничен не только заполнением диапазона верхних частот, но может заполнять диапазоны нижних частот, либо посредством заполнения шумом без повторного формирования частоты, либо посредством повторного формирования частоты с использованием частотного фрагмента в другом частотном диапазоне.
Кроме того, следует подчеркнуть, что информация относительно спектральных энергий, информация относительно отдельных энергий (или информация отдельных энергий), информация относительно энергии выживания (или информация энергии выживания), информация относительно энергии фрагментов (или информация энергии фрагментов) либо информация относительно недостающей энергии (или информация недостающей энергии) может содержать не только значение энергии, но также и (например, абсолютное) значение амплитуды, значение уровня или любое другое значение, из которого может быть получено конечное значение энергии. Следовательно, информация относительно энергии, например, может содержать само значение энергии и/или значение уровня и/или амплитуды, и/или абсолютной амплитуды.
Дополнительный аспект основан на таких выявленных сведениях, что качество звука восстановленного сигнала может повышаться через IGF, поскольку весь спектр является доступным для базового кодера, так что, например, перцепционно важные тональные части в высоком спектральном диапазоне по-прежнему могут кодироваться посредством базового кодера, а не параметрической замены. Дополнительно, выполняется операция заполнения интервалов отсутствия сигнала с использованием частотных фрагментов из первого набора первых спектральных частей, который представляет собой, например, набор тональных частей типично из диапазона нижних частот, но также и из диапазона верхних частот при наличии. Тем не менее, для регулирования спектральной огибающей на стороне декодера, спектральные части из первого набора спектральных частей, расположенных в полосе частот восстановления, дополнительно не постобрабатываются, например, посредством регулирования спектральной огибающей. Только оставшиеся спектральные значения в полосе частот восстановления, которые не исходят из базового декодера, должны быть подвергнуты регулированию огибающей с использованием информации огибающей. Предпочтительно, информация огибающей является информацией полнополосной огибающей с учетом энергии первого набора первых спектральных частей в полосе частот восстановления и второго набора вторых спектральных частей в идентичной полосе частот восстановления, причем вторые спектральные значения во втором наборе вторых спектральных частей указываются как равные нулю и в силу этого не кодируются посредством базового кодера, а параметрически кодируются с помощью информации энергии низкого разрешения.
Обнаружено, что абсолютные значения энергии, нормализованные относительно полосы пропускания соответствующей полосы частот или не нормализованные, являются полезными и очень эффективными при применении на стороне декодера. Это, в частности, применимо, когда коэффициенты усиления должны вычисляться на основе остаточной энергии в полосе частот восстановления, недостающей энергии в полосе частот восстановления и информации частотных фрагментов в полосе частот восстановления.
Кроме того, предпочтительно, чтобы кодированный поток битов покрывал не только информацию энергии для полос частот восстановления, но и, дополнительно, коэффициенты масштабирования для полос частот коэффициентов масштабирования, расширяющихся вплоть до максимальной частоты. Это обеспечивает то, что для каждой полосы частот восстановления, для которой доступна определенная тональная часть, т.е. первая спектральная часть, этот первый набор первой спектральной части может фактически декодироваться с правильной амплитудой. Кроме того, в дополнение к коэффициенту масштабирования для каждой полосы частот восстановления, энергия для этой полосы частот восстановления формируется в кодере и передается в декодер. Кроме того, предпочтительно, чтобы полосы частот восстановления совпадали с полосами частот коэффициентов масштабирования, либо в случае энергетической группировки, по меньшей мере, границы полосы частот восстановления совпадали с границами полос частот коэффициентов масштабирования.
Дополнительный аспект основан на таких выявленных сведениях, что определенные ухудшения качества звука могут быть исправлены посредством применения схемы сигнально-адаптивного заполнения частотными фрагментами. С этой целью, анализ на стороне кодера выполняется для того, чтобы выявлять возможный вариант наилучше совпадающей исходной области для определенной целевой области. Информация совпадения, идентифицирующая для целевой области определенную исходную область, вместе с необязательно некоторой дополнительной информацией, формируется и передается в качестве вспомогательной информации в декодер. Декодер затем применяет операцию заполнения частотными фрагментами с использованием информации совпадения. С этой целью, декодер считывает информацию совпадения из передаваемого потока данных или файла данных и осуществляет доступ к исходной области, идентифицированной для определенной полосы частот восстановления и, если указывается в информации совпадения, дополнительно выполняет некоторую обработку этих данных исходной области, чтобы формировать необработанные спектральные данные для полосы частот восстановления. Затем этому результату операции заполнения частотными фрагментами, т.е. необработанным спектральным данным для полосы частот восстановления, придается определенная форма с использованием информации спектральной огибающей, чтобы, в завершение, получать полосу частот восстановления, которая также содержит первые спектральные части, к примеру, тональные части. Тем не менее, эти тональные части не формируются посредством схемы адаптивного заполнения фрагментами, а эти первые спектральные части выводятся посредством самого аудиодекодера или базового декодера.
Схема адаптивного выбора спектральных фрагментов может работать с низкой степенью детализации. В этой реализации, исходная область подразделяется на типично перекрывающиеся исходные области и целевую область, или полосы частот восстановления задаются посредством неперекрывающихся целевых частотных областей. Далее подобия между каждой исходной областью и каждой целевой областью определяются на стороне кодера, и наилучше совпадающая пара исходной области и целевой области идентифицирована посредством информации совпадения, и на стороне декодера, исходная область, идентифицированная в информации совпадения, используется для формирования необработанных спектральных данных для полосы частот восстановления.
В целях получения большей степени детализации каждой исходной области разрешается сдвигаться, чтобы получать определенное запаздывание, при котором подобия являются максимальными. Это запаздывание может быть идентичным по точности элементу разрешения по частоте и обеспечивает возможность еще лучшего совпадения между исходной областью и целевой областью.
Кроме того, в дополнение к только идентификации наилучше совпадающей пары, это запаздывание корреляции также может передаваться в информации совпадения и, дополнительно, даже знак может передаваться. Когда знак определяется как отрицательный на стороне кодера, то соответствующий флаг знака также передается в информации совпадения, и на стороне декодера, спектральные значения исходной области умножаются на -1 либо, в комплексном представлении, "циклически сдвигаются" на 180 градусов.
Дополнительная реализация этого изобретения применяет операцию отбеливания фрагментов. Отбеливание спектра удаляет приблизительную информацию спектральной огибающей и подчеркивает точную спектральную структуру, которая представляет главный интерес для оценки подобия фрагментов. Следовательно, частотный фрагмент, с одной стороны, и/или исходный сигнал, с другой стороны, отбеливаются до вычисления меры взаимной корреляции. Когда только фрагмент отбелен с использованием предварительно заданной процедуры, передается флаг отбеливания, указывающий декодеру то, что идентичный предварительно заданный процесс отбеливания должен применяться к частотному фрагменту в IGF.
Относительно выбора фрагментов, предпочтительно использовать запаздывание корреляции, чтобы спектрально сдвигать повторно сформированный спектр посредством целого числа элементов выборки преобразования. В зависимости от базового преобразования, спектральный сдвиг может требовать коррекций с суммированием. В случае нечетных запаздываний фрагмент дополнительно модулирован через умножение на переменную временную последовательность из -1/1 для того, чтобы компенсировать представление с обратной частотой каждой второй полосы частот в MDCT. Кроме того, знак результата корреляции применяется при формировании частотного фрагмента.
Кроме того, предпочтительно использовать отсечение и стабилизацию фрагментов, чтобы удостовериться, что не допускаются артефакты, созданные посредством быстро изменяющихся исходных областей для идентичной области восстановления или целевой области. С этой целью, выполняется анализ подобия между различными идентифицированными исходными областями, и когда исходный фрагмент является аналогичным другим исходным фрагментам с подобием выше порогового значения, то этот исходный фрагмент может быть отброшен из набора потенциальных исходных фрагментов, поскольку он имеет высокую корреляцию с другими исходными фрагментами. Кроме того, в качестве типа стабилизации выбора фрагментов, предпочтительно поддерживать порядок фрагментов от предыдущего кадра, если ни один из исходных фрагментов в текущем кадре не коррелируется (лучше данного порогового значения) с целевыми фрагментами в текущем кадре.
Дополнительный аспект основан на таких выявленных сведениях, что повышенное качество и уменьшенная скорость передачи битов, в частности, для сигналов, содержащих переходные части, поскольку они возникают очень часто в аудиосигналах, получается за счет комбинирования технологии временного формирования шума (TNS) или временного формирования фрагментов (TTS) с восстановлением высоких частот. TNS/TTS-обработка на стороне кодера, реализуемая посредством прогнозирования по частоте, восстанавливает временную огибающую аудиосигнала. В зависимости от реализации, т.е. когда фильтр для временного формирования шума определяется не только в частотном диапазоне, покрывающем исходный частотный диапазон, но также и в целевом частотном диапазоне, который должен быть восстановлен в декодере повторного формирования частоты, временная огибающая применяется не только к базовому аудиосигналу до начальной частоты заполнения интервалов отсутствия сигнала, но временная огибающая также применяется к спектральным диапазонам восстановленных вторых спектральных частей. Таким образом, опережающие эхо или запаздывающие эхо, которые должны возникать без временного формирования фрагментов, уменьшаются или исключаются. Это достигается посредством применения обратного прогнозирования по частоте не только в базовом частотном диапазоне вплоть до определенной начальной частоты заполнения интервалов отсутствия сигнала, но также и в частотном диапазоне выше базового частотного диапазона. С этой целью, повторное формирование частоты или формирование частотных фрагментов выполняется на стороне декодера до применения прогнозирования по частоте. Тем не менее, прогнозирование по частоте может применяться либо до, либо после формирования спектральной огибающей в зависимости от того, вычисление информации энергии выполнено для остаточных спектральных значений после фильтрации или для (полных) спектральных значений перед формированием огибающей.
TTS-обработка для одного или более частотных фрагментов дополнительно устанавливает непрерывность корреляции между исходным диапазоном и диапазоном восстановления либо в двух смежных диапазонах восстановления или частотных фрагментах.
В реализации, предпочтительно использовать комплексную TNS/TTS-фильтрацию. В силу этого, не допускаются артефакты (временного) наложения спектров критически дискретизированного действительного представления, такого как MDCT. Комплексный TNS-фильтр может вычисляться на стороне кодера посредством применения не только модифицированного дискретного косинусного преобразования, но помимо этого, также и модифицированного дискретного синусного преобразования, чтобы получать комплексное модифицированное преобразование. Тем не менее, передаются только значения модифицированного дискретного косинусного преобразования, т.е. действительная часть комплексного преобразования. Тем не менее, на стороне декодера, можно оценивать мнимую часть преобразования с использованием MDCT-спектров предшествующих или последующих кадров, так что на стороне декодера комплексный фильтр может снова применяться при обратном прогнозировании по частоте и, в частности, при прогнозировании по границе между исходным диапазоном и диапазоном восстановления, а также по границе между смежными по частоте частотными фрагментами в диапазоне восстановления.
Изобретаемая система кодирования аудио эффективно кодирует произвольные аудиосигналы в широком диапазоне скоростей передачи битов. При этом, что для высоких скоростей передачи битов изобретаемая система стремится к прозрачности, для низких скоростей передачи битов минимизируется перцепционное раздражение. Следовательно, основная доля доступной скорости передачи битов используется для того, чтобы кодировать на основе формы сигналов только перцепционно наиболее релевантную структуру сигнала в кодере, и результирующие интервалы отсутствия сигнала в спектре заполняются в декодере содержимым сигнала, который примерно аппроксимирует исходный спектр. Очень ограниченный битовый бюджет расходуется для того, чтобы управлять так называемым интеллектуальным заполнением интервалов (IGF) в спектре на основе параметров посредством выделенной вспомогательной информации, передаваемой из кодера в декодер.
Далее описываются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:
Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала;
Фиг. 1b иллюстрирует декодер для декодирования кодированного аудиосигнала, совпадающий с кодером по фиг. 1a;
Фиг. 2a иллюстрирует предпочтительную реализацию декодера;
Фиг. 2b иллюстрирует предпочтительную реализацию кодера;
Фиг. 3a иллюстрирует схематичное представление спектра, сформированного посредством декодера в спектральной области по фиг. 1b;
Фиг. 3b иллюстрирует таблицу, указывающую взаимосвязь между коэффициентами масштабирования для полос частот коэффициентов масштабирования и энергиями для полос частот восстановления и информацией заполнения шумом для полосы частот заполнения шумом;
Фиг. 4a иллюстрирует функциональность кодера в спектральной области для применения выбора спектральных частей к первому и второму наборам спектральных частей;
Фиг. 4b иллюстрирует реализацию функциональности по фиг. 4a;
Фиг. 5a иллюстрирует функциональность MDCT-кодера;
Фиг. 5b иллюстрирует функциональность декодера с MDCT-технологией;
Фиг. 5c иллюстрирует реализацию модуля повторного формирования частоты;
Фиг. 6a иллюстрирует аудиокодер с функциональностью временного формирования шума/временного формирования фрагментов;
Фиг. 6b иллюстрирует декодер с технологией временного формирования шума/временного формирования фрагментов;
Фиг. 6c иллюстрирует дополнительную функциональность для функциональности временного формирования шума/временного формирования фрагментов с другим порядком спектрального прогнозного фильтра и спектрального формирователя;
Фиг. 7a иллюстрирует реализацию функциональности временного формирования фрагментов (TTS);
Фиг. 7b иллюстрирует реализацию декодера, совпадающую с реализацией кодера по фиг. 7a;
Фиг. 7c иллюстрирует спектрограмму исходного сигнала и расширенного сигнала без TTS;
Фиг. 7d иллюстрирует частотное представление, иллюстрирующее соответствие между частотами интеллектуального заполнения интервалов и энергиями временного формирования фрагментов;
Фиг. 7e иллюстрирует спектрограмму исходного сигнала и расширенного сигнала с TTS;
Фиг. 8a иллюстрирует двухканальный декодер с повторным формированием частоты;
Фиг. 8b иллюстрирует таблицу, иллюстрирующую различные комбинации представлений и исходных/целевых диапазонов;
Фиг. 8c иллюстрирует блок-схему последовательности операций способа, иллюстрирующую функциональность двухканального декодера с повторным формированием частоты по фиг. 8a;
Фиг. 8d иллюстрирует более подробную реализацию декодера по фиг. 8a;
Фиг. 8e иллюстрирует реализацию кодера для двухканальной обработки, которая должна декодироваться посредством декодера по фиг. 8a:
Фиг. 9a иллюстрирует декодер с технологией повторного формирования частоты с использованием значений энергии для частотного диапазона повторного формирования;
Фиг. 9b иллюстрирует более подробную реализацию модуля повторного формирования частоты по фиг. 9a;
Фиг. 9c иллюстрирует схематический вид, иллюстрирующий функциональность по фиг. 9b;
Фиг. 9d иллюстрирует дополнительную реализацию декодера по фиг. 9a;
Фиг. 10a иллюстрирует блок-схему кодера, совпадающего с декодером по фиг. 9a;
Фиг. 10b иллюстрирует блок-схему для иллюстрации дополнительной функциональности модуля вычисления параметров по фиг. 10a;
Фиг. 10c иллюстрирует блок-схему, иллюстрирующую дополнительную функциональность параметрического модуля вычисления по фиг. 10a;
Фиг. 10d иллюстрирует блок-схему, иллюстрирующую дополнительную функциональность параметрического модуля вычисления по фиг. 10a;
Фиг. 11a иллюстрирует дополнительный декодер, имеющий конкретный идентификатор исходного диапазона для операции заполнения спектральными фрагментами в декодере;
Фиг. 11b иллюстрирует дополнительную функциональность модуля повторного формирования частоты по фиг. 11a;
Фиг. 11c иллюстрирует кодер, используемый для взаимодействия с декодером на фиг. 11a;
Фиг. 11d иллюстрирует блок-схему реализации модуля вычисления параметров по фиг. 11c;
Фиг. 12a и 12b иллюстрируют упрощенные графические схемы частоты для иллюстрации исходного диапазона и целевого диапазона;
Фиг. 12c иллюстрирует график примерной корреляции двух сигналов;
Фиг. 13a иллюстрирует кодер предшествующего уровня техники с расширением полосы пропускания; и
Фиг. 13b иллюстрирует декодер предшествующего уровня техники с расширением полосы пропускания.
Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала 99. Аудиосигнал 99 вводится во временно-спектральный преобразователь 100 для преобразования аудиосигнала, имеющего частоту дискретизации, в спектральное представление 101, выводимое посредством временно-спектрального преобразователя. Спектр 101 вводится в спектральный анализатор 102 для анализа спектрального представления 101. Спектральный анализатор 101 выполнен с возможностью определения первого набора первых спектральных частей 103, которые должны быть кодированы с первым спектральным разрешением, и другого второго набора вторых спектральных частей 105, которые должны быть кодированы со вторым спектральным разрешением. Второе спектральное разрешение меньше первого спектрального разрешения. Второй набор вторых спектральных частей 105 вводится в модуль 104 вычисления параметров или параметрический кодер для вычисления информации спектральной огибающей, имеющей второе спектральное разрешение. Кроме того, аудиокодер 106 в спектральной области предоставляется для формирования первого кодированного представления 107 первого набора первых спектральных частей, имеющих первое спектральное разрешение. Кроме того, модуль 104 вычисления параметров/параметрический кодер выполнен с возможностью формирования второго кодированного представления 109 второго набора вторых спектральных частей. Первое кодированное представление 107 и второе кодированное представление 109 вводятся в мультиплексор потоков битов или формирователь 108 потоков битов, и блок 108, в завершение, выводит кодированный аудиосигнал для передачи или хранения на устройстве хранения данных.
Типично, первая спектральная часть, к примеру, 306 по фиг. 3a, окружена посредством двух вторых спектральных частей, к примеру, 307a, 307b. Дело обстоит не так в HE-AAC, в котором частотный диапазон базового кодера имеет ограниченную полосу частот.
Фиг. 1b иллюстрирует декодер, совпадающий с кодером по фиг. 1a. Первое кодированное представление 107 вводится в аудиодекодер 112 в спектральной области для формирования первого декодированного представления первого набора первых спектральных частей, причем декодированное представление имеет первое спектральное разрешение. Кроме того, второе кодированное представление 109 вводится в параметрический декодер 114 для формирования второго декодированного представления второго набора вторых спектральных частей, имеющих второе спектральное разрешение ниже первого спектрального разрешения.
Декодер дополнительно содержит модуль 116 повторного формирования частоты для повторного формирования восстановленной второй спектральной части, имеющей первое спектральное разрешение, с использованием первой спектральной части. Модуль 116 повторного формирования частоты выполняет операцию заполнения фрагментами, т.е. использует фрагмент или часть первого набора первых спектральных частей и копирует этот первый набор первых спектральных частей в диапазон восстановления или полосу частот восстановления, имеющую вторую спектральную часть, и типично выполняет формирование спектральной огибающей или другую операцию, как указано посредством декодированного второго представления, выводимого посредством параметрического декодера 114, т.е. посредством использования информации относительно второго набора вторых спектральных частей. Декодированный первый набор первых спектральных частей и восстановленный второй набор спектральных частей, как указано на выходе модуля 116 повторного формирования частоты на линии 117, вводятся в спектрально-временной преобразователь 118, выполненный с возможностью преобразования первого декодированного представления и восстановленной второй спектральной части во временное представление 119, причем временное представление имеет определенную высокую частоту дискретизации.
Фиг. 2b иллюстрирует реализацию кодера по фиг. 1a. Входной аудиосигнал 99 вводится в гребенку 220 аналитических фильтров, соответствующую временно-спектральному преобразователю 100 по фиг. 1a. Затем операция временного формирования шума выполняется в TNS-блоке 222. Следовательно, ввод в спектральный анализатор 102 по фиг. 1a, соответствующий блочной тональной маске 226 по фиг. 2b, может представлять собой либо полные спектральные значения, когда не применяется операция временного формирования шума/временного формирования фрагментов, либо может представлять собой остаточные спектральные значения, когда применяется TNS-операция, как проиллюстрировано на фиг. 2b, блок 222. Для двухканальных сигналов или многоканальных сигналов, дополнительно может выполняться объединенное канальное кодирование 228, так что кодер 106 в спектральной области по фиг. 1a может содержать блок 228 объединенного канального кодирования. Кроме того, предоставляется энтропийный кодер 232 для выполнения сжатия данных без потерь, который также является частью кодера 106 в спектральной области по фиг. 1a.
Спектральный анализатор/тональная маска 226 разделяет вывод TNS-блока 222 на полосу базовых частот и тональные компоненты, соответствующие первому набору первых спектральных частей 103, и остаточные компоненты, соответствующие второму набору вторых спектральных частей 105 по фиг. 1a. Блок 224, указываемый в качестве кодирования с извлечением IGF-параметров, соответствует параметрическому кодеру 104 по фиг. 1a, а мультиплексор 230 потоков битов соответствует мультиплексору 108 потоков битов по фиг. 1a.
Предпочтительно, гребенка аналитических фильтров 222 реализована как MDCT (гребенка фильтров модифицированного дискретного косинусного преобразования), и MDCT используется для того, чтобы преобразовывать сигнал 99 в частотно-временную область с помощью модифицированного дискретного косинусного преобразования, выступающего в качестве инструментального средства частотного анализа.
Спектральный анализатор 226 предпочтительно применяет маску тональности. Эта стадия оценки масок тональности используется для того, чтобы отделять тональные компоненты от шумоподобных компонентов в сигнале. Это дает возможность базовому кодеру 228 кодировать все тональные компоненты с помощью психоакустического модуля. Стадия оценки масок тональности может реализовываться множеством различных способов и предпочтительно реализуется аналогично по функциональности стадии оценки синусоидальных дорожек, используемой при синусоидальном и шумовом моделировании для кодирования речи/аудио [8, 9] или в аудиокодере на основе HILN-модели, описанном в [10]. Предпочтительно, используется реализация, которую просто реализовывать без необходимости поддерживать траектории процесса "рождения и гибели", но также может использоваться любой другой детектор тональности или шума.
IGF-модуль вычисляет подобие, которое существует между исходной областью и целевой областью. Целевая область должна быть представлена посредством спектра из исходной области. Мера подобия между исходными и целевыми областями задается с использованием подхода на основе взаимной корреляции. Целевая область разбивается на
Figure 00000001
неперекрывающихся частотных фрагментов. Для каждого фрагмента в целевой области,
Figure 00000002
исходных фрагментов создаются из фиксированной начальной частоты. Эти исходные фрагменты перекрываются на коэффициент между 0 и 1, где 0 означает 0%-ое перекрытие, а 1 означает 100%-ое перекрытие. Каждый из этих исходных фрагментов коррелирован с целевым фрагментом с различными запаздываниями с тем, чтобы находить исходный фрагмент, который наилучше совпадает с целевым фрагментом. Наилучше совпадающий номер фрагмента сохраняется в
Figure 00000003
, запаздывание, при котором он лучше всего коррелируется с целью, сохраняется в
Figure 00000004
, а знак корреляции сохраняется в
Figure 00000005
. В случае если корреляция является сильно отрицательной, исходный фрагмент должен быть умножен на -1 перед процессом заполнения фрагментами в декодере. IGF-модуль также отслеживает неперезапись тональных компонентов в спектре, поскольку тональные компоненты сохраняются с использованием маски тональности. Энергетический параметр для каждой полосы частот используется для того, чтобы сохранять энергию целевой области, позволяя точно восстанавливать спектр.
Этот способ имеет определенные преимущества по сравнению с классическим SBR [1] в том, что гармоническая сетка многотонального сигнала сохраняется посредством базового кодера, тогда как только интервалы отсутствия сигнала между синусоидами заполнены наилучше совпадающим "шумом определенной формы" из исходной области. Другое преимущество этой системы по сравнению с ASR (точной спектральной заменой) [2-4] заключается в отсутствии стадии синтеза сигналов, которая создает важные части сигнала в декодере. Вместо этого, выполнение этой задачи возлагается на базовый кодер, обеспечивая сохранение важных компонентов спектра. Другое преимущество предложенной системы заключается в непрерывной масштабируемости, которую предлагают признаки. Использование только
Figure 00000003
и
Figure 00000006
для каждого фрагмента называется "общим совпадением степени детализации" и может использоваться для низких скоростей передачи битов, тогда как использование переменной
Figure 00000007
для каждого фрагмента позволяет обеспечивать лучшее совпадение целевых и исходных спектров.
Помимо этого, предложена технология стабилизации выбора фрагментов, которая удаляет артефакты в частотной области, такие как растроение и музыкальный шум.
В случае пар стереоканалов применяется дополнительная объединенная стереообработка. Это необходимо, поскольку для определенного целевого диапазона сигнал может высококоррелированный панорамированный источник звука. В случае если исходные области, выбранные для этой конкретной области, не имеют хорошей корреляции, хотя энергии совпадают для целевых областей, пространственное изображение может ухудшаться некоррелированных исходных областей. Кодер анализирует каждую энергетическую полосу частот целевой области, типично выполняя взаимную корреляцию спектральных значений, и если определенное пороговое значение превышается, задает объединенный флаг для этой энергетической полосы частот. В декодере, энергетические полосы частот левого и правого канала обрабатываются по отдельности, если этот флаг объединенного стерео не задан. В случае если флаг объединенного стерео задается, как энергии, так и наложение выполняются в объединенной стереообласти. Объединенная стереоинформация для IGF-областей передается в служебных сигналах, аналогично объединенной стереоинформации для базового кодирования, включающей в себя флаг, указывающий, в случае прогнозирования, то, представляет собой направление прогнозирования от низведения до остатка или наоборот.
Энергии могут вычисляться из передаваемых энергий в L/R-области.
Figure 00000008
Figure 00000009
где
Figure 00000010
является частотным индексом в области преобразования.
Другое решение состоит в том, чтобы вычислять и передавать энергии непосредственно в объединенной стереообласти для полос частот, в которых объединенное стерео является активным, так что дополнительное преобразование энергии не требуется на стороне декодера.
Исходные фрагменты всегда создаются согласно матрице среднего/бокового каналов:
Figure 00000011
Figure 00000012
Энергетическое регулирование:
Figure 00000013
Figure 00000014
Объединенное стерео->LR-преобразование:
Если дополнительные параметры прогнозирования не кодируются:
Figure 00000015
Figure 00000016
Если дополнительный параметр прогнозирования кодируется, и если передаваемое в служебных сигналах направление представляет собой от среднего к боковому:
Figure 00000017
Если передаваемое в служебных сигналах направление представляет собой от бокового к среднему:
Figure 00000018
Эта обработка обеспечивает то, что из фрагментов, используемых для повторного формирования высококоррелированных целевых областей и панорамированных целевых областей, результирующие левый и правый каналы по-прежнему представляют коррелированный и панорамированный источник звука, даже если исходные области не коррелированы, сохраняя стереоизображение для таких областей.
Другими словами, в потоке битов передаются флаги объединенного стерео, которые указывают то, должен использоваться L/R или M/S в качестве примера для общего объединенного стереокодирования. В декодере, во-первых декодируется базовый сигнал, как указано посредством флагов объединенного стерео для полос базовых частот. Во-вторых, базовый сигнал сохраняется в обоих L/R- и M/S-представлениях. Для заполнения IGF-фрагментами, представление исходных фрагментов выбрано таким образом, что оно соответствует представлению целевых фрагментов, как указано посредством объединенной стереоинформации для полос IGF-частот.
Временное формирование шума (TNS) является стандартной технологией и частью AAC [11-13]. TNS может рассматриваться как расширение базовой схемы перцепционного кодера, вставляющее необязательный этап обработки между гребенкой фильтров и стадией квантования. Основная задача модуля TNS состоит в том, чтобы скрывать сформированный шум квантования в области временного маскирования переходных сигналов, в силу чего это приводит к более эффективной схеме кодирования. Во-первых, TNS вычисляет набор коэффициентов прогнозирования с использованием "прямого прогнозирования" в области преобразования, например, MDCT. Эти коэффициенты затем используются для сглаживания временной огибающей сигнала. Поскольку квантование затрагивает TNS-фильтрованный спектр, также шум квантования является временно плоским. Посредством применения обратной TNS-фильтрации на стороне декодера, шуму квантования придается определенная форма согласно временной огибающей TNS-фильтра, и следовательно, шум квантования маскируется посредством переходной части.
IGF основано на MDCT-представлении. Для эффективного кодирования предпочтительно должны использоваться длинные блоки приблизительно в 20 мс. Если сигнал в таком длинном блоке содержит переходные части, слышимые опережающие и запаздывающие эхо возникают в полосах IGF-спектра вследствие заполнения фрагментами. Фиг. 7c показывает типичный эффект опережающего эхо перед началом переходной части вследствие IGF. Слева показана спектрограмма исходного сигнала, а справа показана спектрограмма сигнала с расширенной полосой пропускания без TNS-фильтрации.
Этот эффект опережающего эхо уменьшается посредством использования TNS в IGF-контексте. Здесь, TNS используется в качестве инструментального средства временного формирования фрагментов (TTS), поскольку повторное формирование спектра в декодере выполняется для остаточного TNS-сигнала. Требуемые коэффициенты TTS-прогнозирования вычисляются и применяются с использованием полного спектра на стороне кодера, как обычно. Начальные и конечные TNS/TTS-частоты не затрагиваются посредством начальной IGF-частоты
Figure 00000019
инструментального IGF-средства. По сравнению с унаследованным TNS, конечная TTS-частота увеличивается до конечной частоты инструментального IGF-средства, которая выше
Figure 00000019
. На стороне декодера, TNS/TTS-коэффициенты применяются к полному спектру снова, т.е. к базовому спектру плюс повторно сформированный спектр плюс тональные компоненты из карты тональности (см. фиг. 7e). Применение TTS необходимо для того, чтобы снова формировать временную огибающую повторно сформированного спектра таким образом, что она совпадает с огибающей исходного сигнала. Таким образом, уменьшаются показанные опережающие эхо. Помимо этого, оно по-прежнему придает определенную форму шуму квантования в сигнале ниже
Figure 00000019
, что является стандартным для TNS.
В унаследованных декодерах, спектральное наложение на аудиосигнал нарушает спектральную корреляцию на границах наложений и в силу этого искажает временную огибающую аудиосигнала посредством введения дисперсии. Следовательно, другое преимущество выполнения заполнения IGF-фрагментами для остаточного сигнала заключается в том, что после применения формирующего фильтра границы фрагментов прозрачно коррелированы, приводя к более достоверному временному воспроизведению сигнала.
В изобретаемом кодере, спектр, подвергнутый TNS/TTS-фильтрации, обработке маски тональности и оценке IGF-параметров, не имеет сигналов выше начальной IGF-частоты за исключением тональных компонентов. Далее этот разреженный спектр кодируется посредством базового кодера с использованием принципов арифметического кодирования и прогнозирующего кодирования. Эти кодированные компоненты вместе с сигнальными битами формируют поток битов аудио.
Фиг. 2a иллюстрирует соответствующую реализацию декодера. Поток битов на фиг. 2a, соответствующий кодированному аудиосигналу, вводится в демультиплексор/декодер, который должен быть соединен, относительно фиг. 1b, с блоками 112 и 114. Демультиплексор потоков битов разделяет входной аудиосигнал на первое кодированное представление 107 по фиг. 1b и второе кодированное представление 109 по фиг. 1b. Первое кодированное представление, имеющее первый набор первых спектральных частей, вводится в блок 204 объединенного канального декодирования, соответствующий декодеру 112 в спектральной области по фиг. 1b. Второе кодированное представление вводится в параметрический декодер 114, не проиллюстрированный на фиг. 2a, а затем вводится в IGF-блок 202, соответствующий модулю 116 повторного формирования частоты по фиг. 1b. Первый набор первых спектральных частей, требуемых для повторного формирования частоты, вводится в IGF-блок 202 через линию 203. Кроме того, после объединенного канального декодирования 204, конкретное базовое декодирование применяется в блоке 206 применения тональной маски, так что вывод тональной маски 206 соответствует выводу декодера 112 в спектральной области. Затем выполняется комбинирование посредством модуля 208 комбинирования, т.е. компоновка кадров, причем вывод модуля 208 комбинирования в данный момент имеет полнодиапазонный спектр, но при этом в TNS/TTS-фильтрованной области. Затем в блоке 210 обратная TNS/TTS-операция выполняется с использованием информации TNS/TTS-фильтра, предоставленной через линию 109, т.е. вспомогательная TTS-информация предпочтительно включена в первое кодированное представление, сформированное посредством кодера 106 в спектральной области, который, например, может представлять собой простой базовый AAC- или USAC-кодер, либо также может быть включена во второе кодированное представление. На выходе блока 210 предоставляется полный спектр до максимальной частоты, которая представляет собой полнодиапазонную частоту, заданную посредством частоты дискретизации исходного входного сигнала. Затем спектрально-временное преобразование выполняется в гребенке 212 синтезирующих фильтров с тем, чтобы, в завершение, получать выходной аудиосигнал.
Фиг. 3a иллюстрирует схематичное представление спектра. Спектр подразделяется на полосы SCB частот коэффициентов масштабирования, причем предусмотрено семь полос SCB1-SCB7 частот коэффициентов масштабирования в проиллюстрированном примере по фиг. 3a. Полосы частот коэффициентов масштабирования могут представлять собой полосы частот AAC-коэффициентов масштабирования, которые задаются в AAC-стандарте и имеют возрастающую полосу пропускания до верхних частот, как схематично проиллюстрировано на фиг. 3a. Предпочтительно выполнять интеллектуальное заполнение интервалов не с самого начала спектра, т.е. на низких частотах, а начинать IGF-операцию на начальной IGF-частоте, проиллюстрированной на 309. Следовательно, полоса базовых частот идет от наименьшей частоты до начальной IGF-частоты. Выше начальной IGF-частоты, применяется спектральный анализ для того, чтобы отделять спектральные компоненты 304, 305, 306, 307 высокого разрешения (первый набор первых спектральных частей) от компонентов низкого разрешения, представленных посредством второго набора вторых спектральных частей. Фиг. 3a иллюстрирует спектр, который примерно вводится в кодер 106 в спектральной области или объединенный канальный кодер 228, т.е. базовый кодер работает в полном диапазоне, но кодирует существенное число нулевых спектральных значений, т.е. эти нулевые спектральные значения квантованы до нуля или задаются равными нулю до квантования или после квантования. В любом случае, базовый кодер работает в полном диапазоне, т.е. как если спектр является таким, как проиллюстрировано, т.е. базовый декодер не обязательно должен знать об интеллектуальном заполнении интервалов или кодировании второго набора вторых спектральных частей с более низким спектральным разрешением.
Предпочтительно, высокое разрешение задается посредством полинейного кодирования спектральных линий, таких как MDCT-линии, тогда как второе разрешение или низкое разрешение задается, например, посредством вычисления только одного спектрального значения в расчете на полосу частот коэффициентов масштабирования, при этом полоса частот коэффициентов масштабирования покрывает несколько частотных линий. Таким образом, второе низкое разрешение, относительно спектрального разрешения, гораздо ниже первого или высокого разрешения, заданного посредством полинейного кодирования, типично применяемого посредством базового кодера, к примеру, базового AAC- или USAC-кодера.
Относительно вычисления коэффициентов масштабирования или энергии, ситуация проиллюстрирована на фиг. 3b. Вследствие того факта, что кодер представляет собой базовый кодер, и вследствие того факта, что могут (но не обязательно должны) быть предусмотрены компоненты первого набора спектральных частей в каждой полосе частот, базовый кодер вычисляет коэффициент масштабирования для каждой полосы частот не только в базовом диапазоне ниже начальной IGF-частоты 309, но также и выше начальной IGF-частоты вплоть до максимальной частоты
Figure 00000020
, которая меньше или равна половине частоты дискретизации, т.е. fs/2. Таким образом, кодированные тональные части 302, 304, 305, 306, 307 по фиг. 3a, в этом варианте осуществления, вместе с коэффициентами SCB1-SCB7 масштабирования соответствуют спектральным данным высокого разрешения. Спектральные данные низкого разрешения вычисляются, начиная с начальной IGF-частоты, и соответствуют значениям E1, E2, E3, E4 информации энергии, которые передаются вместе с коэффициентами SF4-SF7 масштабирования.
В частности, когда базовый кодер применяется в состоянии с низкой скоростью передачи битов, помимо этого, может применяться дополнительная операция заполнения шумом в полосе базовых частот, т.е. ниже по частоте по сравнению с начальной IGF-частотой, т.е. в полосах SCB1-SCB3 частот коэффициентов масштабирования. При заполнении шумом, существует несколько смежных спектральных линий, которые квантованы до нуля. На стороне декодера, эти квантованные до нуля спектральные значения повторно синтезируются, и повторно синтезированные спектральные значения регулируются по абсолютной величине с использованием энергии заполнения шумом, к примеру, NF2, проиллюстрированной на 308 на фиг. 3b. Энергия заполнения шумом, которая может предоставляться в абсолютном выражении или в относительном выражении, в частности, относительно коэффициента масштабирования, что характерно для USAC, соответствует энергии набора спектральных значений, квантованных до нуля. Эти спектральные линии заполнения шумом также могут рассматриваться в качестве третьего набора третьих спектральных частей, которые повторно формируются посредством прямого синтеза заполнения шумом без IGF-операции на основе повторного формирования частоты с использованием частотных фрагментов из других частот, для восстановления частотных фрагментов с использованием спектральных значений из исходного диапазона и информации E1, E2, E3, E4 энергии.
Предпочтительно, полосы частот, для которых вычисляется информация энергии, совпадают с полосами частот коэффициентов масштабирования. В других вариантах осуществления, применяется группировка значения информации энергии, так что, например, для полос 4 и 5 частот коэффициентов масштабирования, передается только одно значение информации энергии, но даже в этом варианте осуществления границы сгруппированных полос частот восстановления совпадают с границами полос частот коэффициентов масштабирования. Если применяются различные разделения полос частот, то определенные повторные вычисления или вычисления синхронизации могут применяться, и это может быть целесообразным в зависимости от определенной реализации.
Предпочтительно, кодер 106 в спектральной области по фиг. 1a представляет собой психоакустически регулируемый кодер, как проиллюстрировано на фиг. 4a. Типично, как, например, проиллюстрировано в стандарте MPEG2/4 AAC или в стандарте MPEG1/2 Layer 3, аудиосигнал, который должен быть кодирован, после преобразования в спектральный диапазон (401 на фиг. 4a) перенаправляется в модуль 400 вычисления коэффициентов масштабирования. Модуль вычисления коэффициентов масштабирования управляется посредством психоакустической модели, дополнительно принимающей подлежащий квантованию аудиосигнал или принимающей, согласно стандарту MPEG1/2 Layer 3 или MPEG AAC, комплексное спектральное представление аудиосигнала. Психоакустическая модель вычисляет, для каждой полосы частот коэффициентов масштабирования, коэффициент масштабирования, представляющий психоакустическое пороговое значение. Кроме того, коэффициенты масштабирования затем, посредством взаимодействия известных внутренних и внешних итерационных циклов либо посредством любой другой подходящей процедуры кодирования, регулируются таким образом, что удовлетворяются определенные условия по скорости передачи битов. Далее подлежащие квантованию спектральные значения, с одной стороны, и вычисленные коэффициенты масштабирования, с другой стороны, вводятся в процессор 404 квантователя. В простом алгоритме работы аудиокодера, подлежащие квантованию спектральные значения взвешиваются посредством коэффициентов масштабирования, и взвешенные спектральные значения затем вводятся в квантователь с фиксированным шагом, типично имеющий функциональность сжатия до диапазонов верхних амплитуд. Затем на выходе процессора квантователя, существуют индексы квантования, которые затем передаются в энтропийный кодер, типично имеющий конкретное и очень эффективное кодирование для набора нулевых индексов квантования для смежных значений частоты или, как они также называются в данной области техники, для "серий" нулевых значений.
Тем не менее, в аудиокодере по фиг. 1a, процессор квантователя типично принимает информацию относительно вторых спектральных частей из спектрального анализатора. Таким образом, процессор 404 квантователя удостоверяется, что на выходе процессора 404 квантователя вторые спектральные части, идентифицированные посредством спектрального анализатора 102, являются нулевыми или имеют представление, подтвержденное посредством кодера или декодера как нулевое представление, которое может быть очень эффективно кодировано, в частности, когда существуют "серии" нулевых значений в спектре.
Фиг. 4b иллюстрирует реализацию процессора квантователя. Спектральные MDCT-значения могут вводиться в блок 410 обнуления. Затем вторые спектральные части уже задаются равными нулю до того, как выполняется взвешивание посредством коэффициентов масштабирования в блоке 412. В дополнительной реализации, блок 410 не предоставляется, а взаимодействие для обнуления выполняется в блоке 418 после взвешивающего блока 412. В еще одной дополнительной реализации, операция обнуления также может выполняться в блоке 422 обнуления после квантования в блоке 420 квантователя. В этой реализации, блоки 410 и 418 не должны присутствовать. Обычно по меньшей мере один из блоков 410, 418, 422 предоставляется в зависимости от конкретной реализации.
Затем на выходе блока 422 получается квантованный спектр согласно тому, что проиллюстрировано на фиг. 3a. Этот квантованный спектр затем вводится в энтропийный кодер, такой как 232 на фиг. 2b, который может представлять собой кодер Хаффмана или арифметический кодер, например, заданный в USAC-стандарте.
Блоки 410, 418, 422 обнуления, которые предоставляются альтернативно друг другу или параллельно, управляются посредством спектрального анализатора 424. Спектральный анализатор предпочтительно содержит любую реализацию известного детектора тональности или содержит любой другой тип детектора, выполненного с возможностью разделения спектра на компоненты, которые должны быть кодированы с высоким разрешением, и компоненты, которые должны быть кодированы с низким разрешением. Другие такие алгоритмы, реализованные в спектральном анализаторе, могут представлять собой детектор речевой активности, детектор шума, детектор речи или любой другой детектор, определяющий, в зависимости от спектральной информации или ассоциированных метаданных, требования по разрешению для различных спектральных частей.
Фиг. 5a иллюстрирует предпочтительную реализацию временно-спектрального преобразователя 100 по фиг. 1a, например, реализованного в AAC или USAC. Временно-спектральный преобразователь 100 содержит модуль 502 кодирования со взвешиванием, управляемый посредством детектора 504 переходных частей. Когда детектор 504 переходных частей обнаруживает переходную часть, в таком случае переключение с длинных окон кодирования со взвешиванием на короткие окна кодирования со взвешиванием передается в служебных сигналах в модуль кодирования со взвешиванием. Модуль 502 кодирования со взвешиванием затем вычисляет, для перекрывающихся блоков, кодированные со взвешиванием кадры, причем каждый кодированный со взвешиванием кадр типично имеет два N значений, к примеру, 2048 значений. После этого выполняется преобразование в модуле 506 блочного преобразования, и этот модуль блочного преобразования типично дополнительно предоставляет прореживание, так что комбинированное прореживание/преобразование выполняется для того, чтобы получать спектральный кадр с N значениями, к примеру, спектральными MDCT-значениями. Таким образом, для работы в периоды длинных окон кодирования со взвешиванием, кадр на входе блока 506 содержит два N значений, к примеру, 2048 значений, и спектральный кадр в таком случае имеет 1024 значения. Тем не менее, затем выполняется переключение на короткие блоки, когда выполняются восемь коротких блоков, при этом каждый короткий блок имеет 1/8 от числа кодированных со взвешиванием значений во временной области по сравнению с длинным окном кодирования со взвешиванием, и каждый спектральный блок имеет 1/8 от числа спектральных значений по сравнению с длинным блоком. Таким образом, когда это прореживание комбинировано с операцией 50%-ого перекрытия модуля кодирования со взвешиванием, спектр является критически дискретизированной версией аудиосигнала 99 временной области.
Далее следует обратиться к фиг. 5b, иллюстрирующему конкретную реализацию модуля 116 повторного формирования частоты и спектрально-временного преобразователя 118 по фиг. 1b или комбинированной работы блоков 208, 212 по фиг. 2a. На фиг. 5b, рассматривается конкретная полоса частот восстановления, к примеру, полоса 6 частот коэффициентов масштабирования по фиг. 3a. Первая спектральная часть в этой полосе частот восстановления, т.е. первая спектральная часть 306 по фиг. 3a вводится в блок 510 компоновки/регулирования кадров. Кроме того, восстановленная вторая спектральная часть для полосы 6 частот коэффициентов масштабирования также вводится в модуль 510 компоновки/регулирования кадров. Кроме того, информация энергии, к примеру, E3 по фиг. 3b для полосы 6 частот коэффициентов масштабирования также вводится в блок 510. Восстановленная вторая спектральная часть в полосе частот восстановления уже сформирована посредством заполнения частотными фрагментами с использованием исходного диапазона, и полоса частот восстановления затем соответствует целевому диапазону. Далее, выполняется энергетическое регулирование кадра, чтобы затем в итоге получать полный восстановленный кадр, имеющий N значений, например, получаемый на выходе модуля 208 комбинирования по фиг. 2a. После этого в блоке 512 обратное блочное преобразование/интерполяция выполняется для того, чтобы получать 248 значений во временной области, например, для 124 спектральных значений на входе блока 512. Затем операция синтезирующего кодирования со взвешиванием выполняется в блоке 514, который снова управляется посредством индикатора длинного окна кодирования со взвешиванием/короткого окна кодирования со взвешиванием, передаваемого в качестве вспомогательной информации в кодированном аудиосигнале. После этого в блоке 516, выполняется операция суммирования с перекрытием с предыдущим временным кадром. Предпочтительно, MDCT применяет 50%-ое перекрытие, так что для каждого нового временного кадра с 2N значений, в итоге выводятся N значений во временной области. 50%-ое перекрытие в большой степени предпочитается вследствие того факта, что оно предоставляет критическую дискретизацию и непрерывное разделение от одного кадра до следующего кадра вследствие операции суммирования с перекрытием в блоке 516.
Как проиллюстрировано на 301 на фиг. 3a, операция заполнения шумом дополнительно может применяться не только ниже начальной IGF-частоты, но также и выше начальной IGF-частоты, к примеру, для рассмотренной полосы частот восстановления, совпадающей с полосой 6 частот коэффициентов масштабирования по фиг. 3a. Затем спектральные значения заполнения шумом также могут вводиться в модуль 510 компоновки/регулирования кадров, и регулирование спектральных значений заполнения шумом также может применяться в этом блоке, или спектральные значения заполнения шумом могут уже регулироваться с использованием энергии заполнения шумом до ввода в модуль 510 компоновки/регулирования кадров.
Предпочтительно, IGF-операция, т.е. операция заполнения частотными фрагментами с использованием спектральных значений из других частей, может применяться в полном спектре. Таким образом, операция заполнения спектральными фрагментами может не только применяться в полосе высоких частот выше начальной IGF-частоты, но также может применяться в полосе низких частот. Кроме того, заполнение шумом без заполнения частотными фрагментами также может применяться не только ниже начальной IGF-частоты, но также и выше начальной IGF-частоты. Тем не менее, обнаружено, что высокое качество и высокоэффективное кодирование аудио могут быть получены, когда операция заполнения шумом ограничена частотным диапазоном ниже начальной IGF-частоты, и когда операция заполнения частотными фрагментами ограничивается частотным диапазоном выше начальной IGF-частоты, как проиллюстрировано на фиг. 3a.
Предпочтительно, целевые фрагменты (TT) (имеющие частоты, большие начальной IGF-частоты), ограничены границами полос частот коэффициентов масштабирования полноскоростного кодера. Исходные фрагменты (ST), из которых извлекается информация, т.е. для частот ниже начальной IGF-частоты, не ограничены посредством границ полос частот коэффициентов масштабирования. Размер ST должен соответствовать размеру ассоциированного TT. Это проиллюстрировано с использованием следующего примера. TT[0] имеет длину в 10 элементов MDCT-выборки. Она точно соответствует длине двух последующих SCB (к примеру, 4+6). Далее все возможные ST, которые должны быть коррелированы с TT[0], также имеют длину в 10 элементов выборки. Второй целевой фрагмент TT[1], смежный с TT[0], имеет длину в 15 элементов l выборки (SCB, имеющий длину 7+8). Далее ST для него имеют длину 15 элементов выборки, а не 10 элементов выборки, как для TT[0].
Если возникает такая ситуация, что невозможно находить TT для ST с длиной целевого фрагмента (когда, например, длина TT превышает доступный исходный диапазон), то корреляция не вычисляется, и исходный диапазон копируется определенное число раз в этот TT (копирование выполняется по одному элементу, так что частотная линия для наименьшей частоты второй копии идет сразу – по частоте – после частотной линии для наибольшей частоты первой копии) до тех пор, пока целевой фрагмент (TT) не будет полностью заполнен.
В дальнейшем следует обратиться к фиг. 5c, иллюстрирующему дополнительный предпочтительный вариант осуществления модуля 116 повторного формирования частоты по фиг. 1b или IGF-блока 202 по фиг. 2a. Блок 522 представляет собой модуль формирования частотных фрагментов, принимающий не только идентификатор целевой полосы частот, но и дополнительно принимающий идентификатор исходной полосы частот. В качестве примера, на стороне кодера определено то, что полоса 3 частот коэффициентов масштабирования по фиг. 3a очень хорошо подходит для восстановления полосы 7 частот коэффициентов масштабирования. Таким образом, идентификатор исходной полосы частот должен составлять 2, а идентификатор целевой полосы частот должен составлять 7. На основе этой информации модуль 522 формирования частотных фрагментов применяет операцию заполнения фрагментов перезаписи или гармоник или любую другую операцию заполнения фрагментами, чтобы формировать необработанную вторую часть спектральных компонентов 523. Необработанная вторая часть спектральных компонентов имеет частотное разрешение, идентичное частотному разрешению, включенному в первый набор первых спектральных частей.
Затем первая спектральная часть полосы частот восстановления, к примеру, 307 по фиг. 3a, вводится в модуль 524 компоновки кадров, и необработанная вторая часть 523 также вводится в модуль 524 компоновки кадров. Затем восстановленный кадр регулируется посредством модуля 526 регулирования с использованием коэффициента усиления для полосы частот восстановления, вычисленной посредством модуля 528 вычисления коэффициентов усиления. Тем не менее, важно, что первая спектральная часть в кадре не затрагивается посредством модуля 526 регулирования, а только необработанная вторая часть для кадра восстановления затрагивается посредством модуля 526 регулирования. С этой целью, модуль 528 вычисления коэффициентов усиления анализирует исходную полосу частот или необработанную вторую часть 523 и дополнительно анализирует первую спектральную часть в полосе частот восстановления, чтобы, в завершение, находить корректный коэффициент 527 усиления, так что энергия отрегулированного кадра, выводимого посредством модуля 526 регулирования, имеет энергию E4, когда рассматривается полоса 7 частот коэффициентов масштабирования.
В этом контексте, очень важно оценивать точность восстановления высоких частот настоящего изобретения по сравнению с HE-AAC. Это поясняется относительно полосы 7 частот коэффициентов масштабирования на фиг. 3a. Предполагается, что кодер предшествующего уровня техники, к примеру, проиллюстрированный на фиг. 13a, обнаруживает спектральную часть 307, которая должна кодироваться с высоким разрешением, в качестве "пропущенных гармоник". Затем энергия этого спектрального компонента передается вместе с информацией спектральной огибающей для полосы частот восстановления, к примеру, для полосы 7 частот коэффициентов масштабирования, в декодер. Далее декодер должен воссоздавать пропущенную гармонику. Тем не менее, спектральное значение, при котором пропущенная гармоника 307 восстанавливается посредством декодера предшествующего уровня техники по фиг. 13b, должно находиться в середине полосы частот 7 на частоте, указываемой посредством частоты 390 восстановления. Таким образом, настоящее изобретение избегает ошибки 391 по частоте, которая вводится посредством декодера предшествующего уровня техники по фиг. 13d.
В реализации, спектральный анализатор также реализован с возможностью вычислять подобия между первыми спектральными частями и вторыми спектральными частями и определять, на основе вычисленных подобий для второй спектральной части в диапазоне восстановления, первую спектральную часть, совпадающую со второй спектральной частью в максимально возможной степени. Затем в этой реализации с переменными исходными диапазонами/целевыми диапазонами параметрический кодер дополнительно вводит во второе кодированное представление информацию совпадения, указывающую для каждого целевого диапазона совпадающий исходный диапазон. На стороне декодера, эта информация затем используется посредством модуля 522 формирования частотных фрагментов по фиг. 5c, иллюстрирующего формирование необработанной второй части 523 на основе идентификатора исходной полосы частот и идентификатора целевой полосы частот.
Кроме того, как проиллюстрировано на фиг. 3a, спектральный анализатор выполнен с возможностью анализировать спектральное представление вплоть до максимальной аналитической частоты, представляющей собой только небольшую величину ниже половины частоты дискретизации и предпочтительно составляющей по меньшей мере одну четверть частоты дискретизации или типично выше.
Как проиллюстрировано, кодер работает без понижающей дискретизации, а декодер работает без повышающей дискретизации. Другими словами, аудиокодер в спектральной области выполнен с возможностью формировать спектральное представление, имеющее частоту Найквиста, заданную посредством частоты дискретизации первоначального входного аудиосигнала.
Кроме того, как проиллюстрировано на фиг. 3a, спектральный анализатор выполнен с возможностью анализировать спектральное представление начиная с начальной частоты заполнения интервалов и завершая максимальной частотой, представленной посредством максимальной частоты, включенной в спектральное представление, при этом спектральная часть, идущая от минимальной частоты вплоть до начальной частоты заполнения интервалов, принадлежит первому набору спектральных частей, и при этом дополнительная спектральная часть, к примеру, 304, 305, 306, 307, имеющая значения частоты выше частоты заполнения интервалов, дополнительно включена в первый набор первых спектральных частей.
Как указано, аудиодекодер 112 в спектральной области имеет такую конфигурацию, в которой максимальная частота, представленная посредством спектрального значения в первом декодированном представлении, равна максимальной частоте, включенной во временное представление, имеющее частоту дискретизации, при которой спектральное значение для максимальной частоты в первом наборе первых спектральных частей является нулем или отличается от нуля. В любом случае, для этой максимальной частоты в первом наборе спектральных компонентов существует коэффициент масштабирования для полосы частот коэффициентов масштабирования, который формируется и передается независимо от того, задаются или нет все спектральные значения в этой полосе частот коэффициентов масштабирования равными нулю, как пояснено в контексте фиг. 3a и 3b.
Следовательно, изобретение является преимущественным в том, что относительно других параметрических технологий для того, чтобы повышать эффективность сжатия, например, замещения шума и заполнения шумом (эти технологии служат исключительно для эффективного представления шумоподобного локального содержимого сигнала), изобретение обеспечивает возможность точного воспроизведения частоты тональных компонентов. К настоящему времени ни одна технология предшествующего уровня техники не разрешает эффективное параметрическое представление произвольного содержимого сигнала посредством заполнения интервалов в спектре без ограничения фиксированного априорного разделения в полосе низких частот (LF) и полосе высоких частот (HF).
Варианты осуществления изобретаемой системы совершенствуют подходы предшествующего уровня техники и за счет этого предоставляют высокую эффективность сжатия, отсутствие либо только небольшое перцепционное раздражение и полную полосу пропускания аудиосигнала даже для низких скоростей передачи битов.
Общая система состоит из:
- полнополосного базового кодирования,
- интеллектуального заполнения интервалов (заполнения фрагментами или заполнения шумом),
- разреженных тональных частей в базовом кодере, выбранных посредством тональной маски,
- кодирования на основе объединенных стереопар для полной полосы частот, включающего в себя заполнение фрагментами,
- TNS для фрагмента,
- спектрального отбеливания в IGF-диапазоне.
Первый шаг к более эффективной системе заключается в том, чтобы устранять необходимость преобразования спектральных данных во вторую область преобразования, отличающуюся от области преобразования базового кодера. Поскольку большинство аудиокодеков, к примеру, AAC, например, используют MDCT в качестве базового преобразования, полезно также выполнять BWE в MDCT-области. Второе требование для BWE-системы заключается в необходимости сохранять тональную сетку, в силу чего сохраняются даже тональные HF-компоненты, и качество кодированного аудио за счет этого превосходит существующие системы. Чтобы обеспечивать выполнение обоих вышеуказанных требований для BWE-схемы, предложена новая система, называемая "интеллектуальным заполнением интервалов (IGF)". Фиг. 2b показывает блок-схему предложенной системы на стороне кодера, а фиг. 2a показывает систему на стороне декодера.
Фиг. 6a иллюстрирует устройство для декодирования кодированного аудиосигнала в другой реализации настоящего изобретения. Устройство для декодирования содержит аудиодекодер 602 в спектральной области для формирования первого декодированного представления первого набора спектральных частей и в качестве модуля 604 повторного формирования частоты, соединенного ниже аудиодекодера 602 в спектральной области для формирования восстановленной второй спектральной части с использованием первой спектральной части из первого набора первых спектральных частей. Как проиллюстрировано на 603, спектральные значения в первой спектральной части и во второй спектральной части являются остаточными спектральными прогнозными значениями. Чтобы преобразовывать эти остаточные спектральные прогнозные значения в полное спектральное представление, предоставляется спектральный прогнозный фильтр 606. Этот обратный прогнозный фильтр выполнен с возможностью осуществления обратного прогнозирования по частоте с использованием остаточных спектральных значений для первого набора первой частоты и восстановленных вторых спектральных частей. Спектральный обратный прогнозный фильтр 606 сконфигурирован посредством информации фильтра, включенной в кодированный аудиосигнал. Фиг. 6b иллюстрирует более подробную реализацию варианта осуществления по фиг. 6a. Остаточные спектральные прогнозные значения 603 вводятся в модуль 612 формирования частотных фрагментов, формирующий необработанные спектральные значения для полосы частот восстановления или для определенной второй частотной части, и эти необработанные данные, в данный момент имеющие разрешение, идентичное разрешению первого спектрального представления высокого разрешения, вводятся в спектральный формирователь 614. После этого спектральный формирователь придает определенную форму спектру с использованием информации огибающей, передаваемой в потоке битов, и данные определенной спектральной формы затем применяются к спектральному прогнозному фильтру 616, в завершение, формирующему кадр из полных спектральных значений с использованием информации 607 фильтра, передаваемой из кодера в декодер через поток битов.
На фиг. 6b, предполагается, что на стороне кодера, вычисление информации фильтра, передаваемой через поток битов и используемой через линию 607, выполняется после вычисления информации огибающей. Следовательно, другими словами, кодер, совпадающий с декодером по фиг. 6b, сначала должен вычислять остаточные спектральные значения, а затем должен вычислять информацию огибающей с помощью остаточных спектральных значений, как, например, проиллюстрировано на фиг. 7a. Тем не менее, другая реализация также является полезной для определенных реализаций, в которых информация огибающей вычисляется до выполнения TNS- или TTS-фильтрации на стороне кодера. В таком случае спектральный прогнозный фильтр 622 применяется до выполнения формирования спектра в блоке 624. Таким образом, другими словами, (полные) спектральные значения формируются до того, как применяется операция 624 формирования спектра.
Предпочтительно, вычисляется комплекснозначный TNS-фильтр или TTS-фильтр. Это проиллюстрировано на фиг. 7a. Исходный аудиосигнал вводится в комплексный MDCT-блок 702. Затем вычисление TTS-фильтра и TTS-фильтрация выполняются в комплексной области. После этого в блоке 706, вычисляется вспомогательная IGF-информация, а также вычисляется любая другая операция, к примеру, спектральный анализ для кодирования и т.д. Далее первый набор первой спектральной части, сформированной посредством блока 706, кодируется с помощью кодера на основе психоакустической модели, проиллюстрированного на 708, чтобы получать первый набор первых спектральных частей, указываемых в X (k) на фиг. 7a, и все эти данные перенаправляются в мультиплексор 710 потоков битов.
На стороне декодера, кодированные данные вводится в демультиплексор 720, чтобы разделять вспомогательную IGF-информацию, с одной стороны, вспомогательную TTS-информацию, с другой стороны, и кодированное представление первого набора первых спектральных частей.
Затем блок 724 используется для вычисления комплексного спектра из одного или более действительнозначных спектров. Далее действительнозначные и комплексные спектры вводятся в блок 726 для того, чтобы формировать восстановленные значения частоты во втором наборе вторых спектральных частей для полосы частот восстановления. После этого для полностью полученного и заполненного фрагментами полнополосного кадра выполняется обратная TTS-операция 728, и на стороне декодера выполняется конечная операция обратного комплексного MDCT в блоке 730. Таким образом, использование информации комплексного TNS-фильтра позволяет, не только при применении в полосе базовых частот или в отдельных полосах частот фрагментов, но и при применении на границах между полосой базовых частот и полосой частот фрагментов или на границам между полосами частот фрагментов, автоматически формировать обработку границ фрагментов, которая, в конечном счете, повторно вводит спектральную корреляцию между фрагментами. Эта спектральная корреляция на границах фрагментов не получается только посредством формирования частотных фрагментов и выполнения регулирования спектральной огибающей для этих необработанных данных частотных фрагментов.
Фиг. 7c иллюстрирует сравнение исходного сигнала (левая панель) и расширенного сигнала без TTS. Можно видеть, что существуют сильные артефакты, проиллюстрированные посредством расширенных частей в диапазоне верхних частот, проиллюстрированном на 750. Тем не менее, это не возникает на фиг. 7e, когда идентичная спектральная часть на 750 сравнивается со связанным с артефактами компонентом 750 по фиг. 7c.
Варианты осуществления или изобретаемая система кодирования аудио используют основную долю доступной скорости передачи битов для того, чтобы кодировать на основе формы сигналов только перцепционно самую релевантную структуру сигнала в кодере, и результирующие интервалы отсутствия сигнала в спектре заполняются в декодере содержимого сигнала, который примерно аппроксимирует исходный спектр. Очень ограниченный битовый бюджет расходуется для того, чтобы управлять так называемым интеллектуальным заполнением интервалов (IGF) в спектре на основе параметров посредством выделенной вспомогательной информации, передаваемой из кодера в декодер.
Хранение или передача аудиосигналов зачастую подчиняются строгим ограничениям скорости передачи битов. В прошлом, кодеры принудительно существенно уменьшали полосу пропускания передаваемого аудиосигнала, когда была доступна только очень низкая скорость передачи битов. Современные аудиокодеки в наше время могут кодировать широкополосные сигналы посредством использования таких способов расширения полосы пропускания (BWE) как репликация полосы пропускания спектра (SBR) [1]. Эти алгоритмы основываются на параметрическом представлении высокочастотного содержимого (HF), который формируется из кодированной на основе формы сигналов низкочастотной части (LF) декодированного сигнала, посредством транспозиции в спектральную HF-область ("наложения") и применения постобработки на основе параметров. В BWE-схемах, восстановление спектральной HF-области выше данной так называемой частоты разделения зачастую основано на спектральном наложении. Типично, HF-область состоит из нескольких смежных наложений, и каждое из этих наложений получается из полосовых (BP) областей LF-спектра ниже данной частоты разделения. Системы предшествующего уровня техники эффективно выполняют наложение в представлении на основе гребенки фильтров посредством копирования набора смежных подполосных коэффициентов из исходной в целевую область.
Если BWE-система реализуется в области гребенки фильтров или частотно-временного преобразования, предусмотрена только ограниченная возможность управлять временной формой сигнала расширения полосы пропускания. Типично, степень временной детализации ограничена посредством размера перескока, используемого между смежными окнами преобразования на основе кодирования со взвешиванием. Это может приводить к нежелательным опережающим или запаздывающим эхо в спектральном BWE-диапазоне.
Из перцепционного кодирования аудио известно, что форма временной огибающей аудиосигнала может быть восстановлена посредством использования спектральных технологий фильтрации, таких как временное формирование огибающей (TNS)[14]. Тем не менее, TNS-фильтр, известный из предшествующего уровня техники, представляет собой действительнозначный фильтр в действительнозначных спектрах. Такой действительнозначный фильтр в действительнозначных спектрах может серьезно искажаться посредством артефактов наложения спектров, в частности, если базовое действительное преобразование представляет собой модифицированное дискретное косинусное преобразование (MDCT).
Формирование фрагментов временной огибающей применяет комплексную фильтрацию к комплекснозначным спектрам, к примеру, полученным, например, из комплексного модифицированного дискретного косинусного преобразования (CMDCT). В силу этого, не допускаются артефакты наложения спектров.
Временное формирование фрагментов состоит из:
- оценки коэффициентов комплексной фильтрации и применения сглаживающего фильтра к спектру исходного сигнала в кодере,
- передачи коэффициентов фильтрации во вспомогательной информации,
- применения формирующего фильтра в заполненном фрагментами восстановленном спектре в декодере.
Изобретение дополняет технологию предшествующего уровня техники, известную из кодирования аудио с преобразованием, в частности, временного формирования шума (TNS), посредством линейного прогнозирования вдоль направления частоты, для использования модифицированным способом в контексте расширения полосы пропускания.
Дополнительно, изобретаемый алгоритм расширения полосы пропускания основан на интеллектуальном заполнении интервалов (IGF), но использует избыточно дискретизированное комплекснозначное преобразование (CMDCT), в противоположность стандартной IGF-конфигурации, которая основывается на действительнозначном критически дискретизированном MDCT-представлении сигнала. CMDCT может рассматриваться в качестве комбинации MDCT-коэффициентов в действительной части и MDST-коэффициентов в мнимой части каждого комплекснозначного спектрального коэффициента.
Хотя новый подход описывается в контексте IGF, изобретаемая обработка может использоваться в сочетании с любым BWE-способом, который основан на представлении на основе гребенки фильтров аудиосигнала.
В этом новом контексте линейное прогнозирование вдоль направления частоты используется не в качестве временного формирования шума, а вместо этого в качестве технологии временного формирования фрагментов (TTS). Переименование оправдано тем фактом, что заполненным фрагментами компонентам сигнала придается определенная временная форма посредством TTS, в противоположность формированию шума квантования посредством TNS в перцепционных кодеках с преобразованием предшествующего уровня техники.
Фиг. 7a показывает блок-схему BWE-кодера с использованием IGF- и нового TTS-подхода.
Таким образом, базовая схема кодирования работает следующим образом:
- вычисление CMDCT сигнала
Figure 00000021
временной области для того, чтобы получать сигнал
Figure 00000022
частотной области,
- вычисление комплекснозначного TTS-фильтра,
- получение вспомогательной информации для BWE и удаление спектральной информации, которая должна реплицироваться посредством декодера,
- применение квантования с использованием психоакустического модуля (PAM),
- сохранение/передача данных, передаются только действительнозначные MDCT-коэффициенты.
Фиг. 7b показывает соответствующий декодер. Он, главным образом, выполняет в обратном порядке этапы, осуществляемые в кодере.
Здесь, базовая схема декодирования работает следующим образом:
- оценка MDST-коэффициентов из MDCT-значений (эта обработка добавляет одну задержку блочного декодера) и комбинирование MDCT- и MDST-коэффициентов в комплекснозначные CMDCT-коэффициенты,
- выполнение заполнения мозаичными фрагментами с их постобработкой,
- применение обратной TTS-фильтрации с помощью передаваемых коэффициентов TTS-фильтрации,
- вычисление обратного CMDCT.
Следует отметить, что, альтернативно, порядок TTS-синтеза и IGF-постобработки также может быть изменен на противоположный в декодере, если соответствующим образом изменяются на противоположное TTS-анализ и оценка IGF-параметров в кодере.
Для эффективного кодирования с преобразованием предпочтительно так называемые "длинные блоки" приблизительно 20 мс должны использоваться для того, чтобы достигать обоснованного усиления преобразования. Если сигнал в таком длинном блоке содержит переходные части, слышимые опережающие и запаздывающие эхо возникают в восстановленных полосах спектра вследствие заполнения мозаичными фрагментами. Фиг. 7c показывает типичные эффекты опережающего и запаздывающего эхо, которые искажают переходные части вследствие IGF. На левой панели по фиг. 7c, показана спектрограмма исходного сигнала, а на правой панели показана спектрограмма заполненного мозаичными фрагментами сигнала без изобретаемой TTS-фильтрации. В этом примере, начальная IGF-частота
Figure 00000019
или fSplit
Figure 00000023
между полосой базовых частот и заполненной мозаичными фрагментами полосой частот выбрана в качестве
Figure 00000024
Figure 00000025
. В правой панели по фиг. 7c, различные опережающие и запаздывающие эхо являются видимым с окружением переходных частей, в частности, заметных в верхнем спектральном конце реплицируемой частотной области.
Основная задача модуля TTS состоит в том, чтобы ограничивать эти нежелательные компоненты сигнала в окрестности вокруг переходной части и за счет этого скрывать их во временной области, управляемой посредством эффекта временного маскирования человеческого восприятия. Следовательно, требуемые коэффициенты TTS-прогнозирования вычисляются и применяются с использованием "прямого прогнозирования" в CMDCT-области.
В варианте осуществления, который комбинирует TTS и IGF в кодек, важно совмещать определенные TTS-параметры и IGF-параметры таким образом, что мозаичный IGF-фрагмент либо полностью фильтруется посредством одного TTS-фильтра (сглаживающего или формирующего фильтра), либо нет. Следовательно, все частоты TTSstart[...] или TTSstop[...] не должны содержаться в мозаичном IGF-фрагменте, а вместо этого должны совмещаться с соответствующими частотами
Figure 00000026
. Фиг. 7d показывает пример рабочих TTS- и IGF-областей для набора из трех TTS-фильтров.
Конечная TTS-частота регулируется до конечной частоты инструментального IGF-средства, которая выше
Figure 00000019
. Если TTS использует более одного фильтра, необходимо обеспечивать то, что частота разделения между двумя TTS-фильтрами должна совпадать с частотой разбиения IGF. В противном случае, один субфильтр TTS должен проходить по
Figure 00000019
, что приводит к нежелательным артефактам, таким как избыточное формирование.
В варианте реализации, проиллюстрированном на фиг. 7a и фиг. 7b, следует принимать дополнительные меры для того, чтобы в этом декодере корректно регулировать IGF-энергии. Это в особенности имеет место, если в ходе TTS и обработки IGF, различные TTS-фильтры, имеющие различные усиления для прогнозирования, применяются к исходной области (в качестве сглаживающего фильтра) и к целевой спектральной области (в качестве формирующего фильтра, который не является точным аналогом упомянутого сглаживающего фильтра) одного мозаичного IGF-фрагмента. В этом случае, коэффициент усиления для прогнозирования двух применяемых TTS-фильтров более не равен единице, и следовательно, должно применяться энергетическое регулирование посредством этого коэффициента.
В альтернативном варианте реализации, порядок IGF-постобработки и TTS изменяется на противоположный. В декодере это означает то, что энергетическое регулирование посредством IGF-постобработки вычисляется после TTS-фильтрации и в силу этого представляет собой конечный этап обработки перед синтезирующим преобразованием. Следовательно, независимо от применения различных усилений TTS-фильтра к одному мозаичному фрагменту в ходе кодирования, конечная энергия всегда регулируется корректно посредством обработки IGF.
На стороне декодера, коэффициенты TTS-фильтрации снова применяются к полному спектру, т.е. к базовому спектру, расширенному посредством повторно сформированного спектра. Применение TTS необходимо для того, чтобы снова формировать временную огибающую повторно сформированного спектра таким образом, что она совпадает с огибающей исходного сигнала. Таким образом, уменьшаются показанные опережающие эхо. Помимо этого, оно по-прежнему временно придет определенную форму шуму квантования в сигнале ниже
Figure 00000019
, что является стандартным для унаследованного TNS.
В унаследованных кодерах, спектральное наложение на аудиосигнал (например, SBR) нарушает спектральную корреляцию на границах наложений и в силу этого искажает временную огибающую аудиосигнала посредством введения дисперсии. Следовательно, другое преимущество выполнения заполнения мозаичными IGF-фрагментами для остаточного сигнала заключается в том, что после применения формирующего TTS-фильтра границы мозаичных фрагментов прозрачно коррелированы, приводя к более достоверному временному воспроизведению сигнала.
Результат соответствующим образом обработанного сигнала показан на фиг. 7e. В сравнении нефильтрованной версии (фиг. 7c, правая панель) TTS-фильтрованный сигнал показывает хорошее уменьшение нежелательных опережающих и запаздывающих эхо (фиг. 7e, правая панель).
Кроме того, как пояснено, фиг. 7a иллюстрирует кодер, совпадающий с декодером по фиг. 7b или с декодером по фиг. 6a. По существу, устройство для кодирования аудиосигнала содержит временно-спектральный преобразователь, к примеру, 702 для преобразования аудиосигнала в спектральное представление. Спектральное представление может представлять собой спектральное представление действительных значений или, как проиллюстрировано на этапе 702, спектральное представление комплексных значений. Кроме того, предоставляется прогнозный фильтр, к примеру, 704 для выполнения прогнозирования по частоте, чтобы формировать остаточные спектральные значения, при этом прогнозный фильтр 704 задается посредством информации прогнозного фильтра, извлекаемой из аудиосигнала и перенаправленной в мультиплексор 710 потоков битов, как проиллюстрировано на 714 на фиг. 7a. Кроме того, предоставляется аудиокодер, такой как психоакустически регулируемый аудиокодер 704. Аудиокодер выполнен с возможностью кодирования первого набора первых спектральных частей остаточных спектральных значений для того, чтобы получать кодированный первый набор первых спектральных значений. Кроме того, параметрический кодер, такой как кодер, проиллюстрированный на 706 на фиг. 7a, предоставляется для кодирования второго набора вторых спектральных частей. Предпочтительно, первый набор первых спектральных частей кодируется с более высоким спектральным разрешением по сравнению со вторым набором вторых спектральных частей.
В завершение, как проиллюстрировано на фиг. 7a, предоставляется интерфейс вывода для вывода кодированного сигнала, содержащего параметрически кодированный второй набор вторых спектральных частей, кодированный первый набор первых спектральных частей и информацию фильтра, проиллюстрированную в качестве "вспомогательной TTS-информации" на 714 на фиг. 7a.
Предпочтительно, прогнозный фильтр 704 содержит модуль вычисления информации фильтра, выполненный с возможностью использования спектральных значений спектрального представления для вычисления информации фильтра. Кроме того, прогнозный фильтр выполнен с возможностью вычисления остаточных спектральных значений с использованием идентичных спектральных значений спектрального представления, используемого для вычисления информации фильтра.
Предпочтительно, TTS-фильтр 704 сконфигурирован аналогичным образом, как известно для аудиокодеров предшествующего уровня техники, применяющих инструментальное TNS-средство в соответствии с AAC-стандартом.
Ниже поясняется дополнительная реализация с использованием двухканального декодирования в контексте фиг. 8a-8e. Кроме того, следует обратиться к описанию соответствующих элементов в контексте фиг. 2a, 2b (объединенное канальное кодирование 228 и объединенное канальное декодирование 204).
Фиг. 8a иллюстрирует аудиодекодер для формирования декодированного двухканального сигнала. Аудиодекодер содержит четыре аудиодекодера 802 для декодирования кодированного двухканального сигнала, чтобы получать первый набор первых спектральных частей, и дополнительно параметрический декодер 804 для предоставления параметрических данных для второго набора вторых спектральных частей, и дополнительно, двухканальный идентификатор, идентифицирующий или первое или второе отличное двухканальное представление для вторых спектральных частей. Кроме того, модуль 806 повторного формирования частоты предоставляется для повторного формирования второй спектральной части в зависимости от первой спектральной части из первого набора первых спектральных частей и параметрических данных для второй части и двухканального идентификатора для второй части. Фиг. 8b иллюстрирует различные комбинации для двухканальных представлений в исходном диапазоне и целевом диапазоне. Исходный диапазон может находиться в первом двухканальном представлении, и целевой диапазон также может находиться в первом двухканальном представлении. Альтернативно, исходный диапазон может находиться в первом двухканальном представлении, а целевой диапазон может находиться во втором двухканальном представлении. Кроме того, исходный диапазон может находиться во втором двухканальном представлении, а целевой диапазон может находиться в первом двухканальном представлении, как указано в третьем столбце по фиг. 8b. В завершение, исходный диапазон и целевой диапазон могут находиться во втором двухканальном представлении. В варианте осуществления, первое двухканальное представление представляет собой отдельное двухканальное представление, в котором два канала двухканального сигнала представляются отдельно. В таком случае, второе двухканальное представление представляет собой объединенное представление, в котором два канала двухканального представления представляются совместно, т.е. в котором требуется последующая обработка или преобразование представления для того, чтобы повторно вычислять отдельное двухканальное представление по мере необходимости для вывода в соответствующие динамики.
В реализации, первое двухканальное представление может представлять собой левое/правое (L/R) представление, а второе двухканальное представление представляет собой объединенное стереопредставление. Тем не менее, другие двухканальные представления, отличные от левого/правого или M/S, или стереопрогнозирования, могут применяться и использоваться для настоящего изобретения.
Фиг. 8c иллюстрирует блок-схему последовательности операций способа для операций, выполняемых посредством аудиодекодера по фиг. 8a. На этапе 812 аудиодекодер 802 выполняет декодирование исходного диапазона. Исходный диапазон может содержать, относительно фиг. 3a, полосы SCB1-SCB3 частот коэффициентов масштабирования. Кроме того, может быть двухканальный идентификатор для каждой полосы частот коэффициентов масштабирования, и полоса 1 частот коэффициентов масштабирования, например, может находиться в первом представлении (к примеру, L/R), а третья полоса частот коэффициентов масштабирования может находиться во втором двухканальном представлении, таком как M/S или низведение/остаток прогнозирования. Таким образом, этап 812 может приводить к различным представлениям для различных полос частот. Затем на этапе 814, модуль 806 повторного формирования частоты выполнен с возможностью выбора исходного диапазона для повторного формирования частоты. На этапе 816, модуль 806 повторного формирования частоты затем проверяет представление исходного диапазона, и в блоке 818 модуль 806 повторного формирования частоты сравнивает двухканальное представление исходного диапазона с двухканальным представлением целевого диапазона. Если оба представления являются идентичными, модуль 806 повторного формирования частоты предоставляет отдельное повторное формирование частоты для каждого канала двухканального сигнала. Тем не менее, когда оба представления, обнаруженные в блоке 818, не являются идентичными, в таком случае извлекается последовательность 824 сигналов, и блок 822 вычисляет другое двухканальное представление из исходного диапазона и использует это вычисленное другое двухканальное представление для повторного формирования целевого диапазона. Таким образом, декодер по фиг. 8a позволяет повторно формировать целевой диапазон, указываемый как имеющий второй двухканальный идентификатор, с использованием исходного диапазона, находящегося в первом двухканальном представлении. Естественно, настоящее изобретение дополнительно дает возможность повторно формировать целевой диапазон с использованием исходного диапазона, имеющего идентичный двухканальный идентификатор. Кроме того, дополнительно настоящее изобретение дает возможность повторно формировать целевой диапазон, имеющий двухканальный идентификатор, указывающий объединенное двухканальное представление, и затем преобразовывать это представление в отдельное канальное представление, требуемое для хранения или передачи в соответствующие громкоговорители для двухканального сигнала.
Следует подчеркнуть, что два канала двухканального представления могут представлять собой два стереоканала, к примеру, левый канал и правый канал. Тем не менее, сигнал также может представлять собой многоканальный сигнал, имеющий, например, пять каналов и сабвуферный канал, или имеющий еще большее число каналов. После этого, может выполняться попарная двухканальная обработка, как пояснено в контексте фиг. 8a-8e, при этом пары, например, могут представлять собой левый канал и правый канал, левый канал объемного звучания и правый канал объемного звучания и центральный канал и LFE-(сабвуферный) канал. Любые другие спаривания могут использоваться для того, чтобы представлять, например, шесть входных каналов посредством трех процедур двухканальной обработки.
Фиг. 8d иллюстрирует блок-схему изобретаемого декодера, соответствующего фиг. 8a. Декодер 830 исходного диапазона (или базовый) может соответствовать аудиодекодеру 802. Другие блоки 832, 834, 836, 838, 840, 842 и 846 могут быть частями модуля 806 повторного формирования частоты по фиг. 8a. В частности, блок 832 представляет собой модуль преобразования представлений для преобразования представлений исходного диапазона в отдельных полосах частот, так что на выходе блока 832 присутствует полный набор исходного диапазона в первом представлении, с одной стороны, и во втором двухканальном представлении, с другой стороны. Эти два полных представления исходного диапазона могут сохраняться в устройстве 834 хранения данных для обоих представлений исходного диапазона.
Затем блок 836 применяет формирование частотных мозаичных фрагментов с использованием, в качестве ввода, идентификатора исходного диапазона и дополнительно с использованием, в качестве ввода, двухканального идентификатора для целевого диапазона. На основе двухканального идентификатора для целевого диапазона модуль формирования частотных мозаичных фрагментов осуществляет доступ к устройству 834 хранения данных и принимает двухканальное представление исходного диапазона, совпадающее с двухканальным идентификатором для целевого диапазона, вводимого в модуль формирования частотных мозаичных фрагментов на 835. Таким образом, когда двухканальный идентификатор для целевого диапазона указывает объединенную стереообработку, в таком случае модуль 836 формирования частотных мозаичных фрагментов осуществляет доступ к устройству 834 хранения данных для того, чтобы получать объединенное стереопредставление исходного диапазона, указываемого посредством идентификатора 833 исходного диапазона.
Модуль 836 формирования частотных мозаичных фрагментов выполняет эту операцию для каждого целевого диапазона, и вывод модуля формирования частотных мозаичных фрагментов является таким, что присутствует каждый канал канального представления, идентифицированный посредством двухканального идентификатора. Затем выполняется регулирование огибающей посредством модуля 838 регулирования огибающей. Регулирование огибающей выполняется в двухканальной области, идентифицированной посредством двухканального идентификатора. С этой целью, требуются параметры регулирования огибающей, и эти параметры передаются из кодера в декодер в идентичном двухканальном представлении, как описано выше. Когда двухканальный идентификатор в целевом диапазоне, который должен быть обработан посредством модуля регулирования огибающей, имеет двухканальный идентификатор, указывающий другое двухканальное представление по сравнению с данными огибающей для этого целевого диапазона, в таком случае модуль 840 преобразования параметров преобразует параметры огибающей в требуемое двухканальное представление. Когда, например, двухканальный идентификатор для одной полосы частот указывает объединенное стереокодирование, и когда параметры для этого целевого диапазона переданы в качестве параметров L/R-огибающей, в таком случае модуль преобразования параметров вычисляет параметры объединенной стереоогибающей из параметров L/R-огибающей так, как описано, так что корректное параметрическое представление используется для регулирования спектральной огибающей целевого диапазона.
В другом предпочтительном варианте осуществления, параметры огибающей уже переданы в качестве параметров объединенного стерео, когда объединенное стерео используется в целевой полосе частот.
Когда предполагается, что ввод в модуль 838 регулирования огибающей представляет собой набор целевых диапазонов, имеющих различные двухканальные представления, в таком случае вывод модуля 838 регулирования огибающей также представляет собой набор целевых диапазонов в различных двухканальных представлениях. Когда, целевой диапазон имеет объединенное представление, к примеру, M/S, в таком случае этот целевой диапазон обрабатывается посредством модуля 842 преобразования представлений для вычисления отдельного представления, требуемого для хранения или передачи в громкоговорители. Тем не менее, когда целевой диапазон уже имеет отдельное представление, извлекается последовательность 844 сигналов, и модуль 842 преобразования представлений обходится. На выходе блока 842 получается двухканальное спектральное представление, представляющее собой отдельное двухканальное представление, которое затем может дополнительно обрабатываться, как указано посредством блока 846, причем эта последующая обработка, например, может представлять собой частотно-временное преобразование или любую другую требуемую обработку.
Предпочтительно, вторые спектральные части соответствуют полосам частот, и двухканальный идентификатор предоставляется в качестве матрицы флагов, соответствующих таблице по фиг. 8b, в которой предусмотрен один флаг для каждой полосы частот. После этого параметрический декодер выполнен с возможностью проверять то, задается флаг или нет, и управлять модулем 106 повторного формирования частоты в соответствии с флагом таким образом, чтобы использовать либо первое представление, либо второе представление первой спектральной части.
В варианте осуществления, только диапазон восстановления начиная с начальной IGF-частоты 309 по фиг. 3a имеет двухканальные идентификаторы для различных полос частот восстановления. В дополнительном варианте осуществления, это также применимо для частотного диапазона ниже начальной IGF-частоты 309.
В дополнительном варианте осуществления, идентификатор исходной полосы частот и идентификатор целевой полосы частот могут быть адаптивно определены посредством анализа подобия. Тем не менее, изобретаемая двухканальная обработка также может применяться, когда существует фиксированное ассоциирование исходного диапазона с целевым диапазоном. Исходный диапазон может использоваться для повторного создания, относительно частоты, более широкого целевого диапазона либо посредством операции заполнения частотными мозаичными фрагментами гармоник, либо посредством операции заполнения частотными мозаичными фрагментами перезаписи с использованием двух или более операций заполнения частотными мозаичными фрагментами, аналогично обработке для нескольких наложений, известной из высокоэффективной AAC-обработки.
Фиг. 8e иллюстрирует аудиокодер для кодирования двухканального аудиосигнала. Кодер содержит временно-спектральный преобразователь 860 для преобразования двухканального аудиосигнала в спектральное представление. Кроме того, спектральный анализатор 866 для преобразования аудиосигнала с двухканальным аудиоканалом в спектральное представление. Кроме того, спектральный анализатор 866 предоставляется для выполнения анализа, чтобы определять то, какие спектральные части должны быть кодированы с высоким разрешением, т.е. выявлять первый набор первых спектральных частей и дополнительно выявлять второй набор вторых спектральных частей.
Кроме того, двухканальный анализатор 864 предоставляется для анализа второго набора вторых спектральных частей для того, чтобы определять двухканальный идентификатор, идентифицирующий либо первое двухканальное представление, либо второе двухканальное представление.
В зависимости от результата двухканального анализатора полоса частот во втором спектральном представлении параметризуется с использованием первого двухканального представления или второго двухканального представления, и это выполняется посредством кодера 868 параметров. Базовый частотный диапазон, т.е. полоса частот ниже начальной IGF-частоты 309 по фиг. 3a, кодируется посредством базового кодера 870. Результат блоков 868 и 870 вводится в интерфейс 872 вывода. Как указано, двухканальный анализатор предоставляет двухканальный идентификатор либо для каждой полосы частот выше начальной IGF-частоты, либо для всего целого частотного диапазона, и этот двухканальный идентификатор также перенаправляется в интерфейс 872 вывода, так что эти данные также включаются в кодированный сигнал 873, выводимый посредством интерфейса 872 вывода.
Кроме того, предпочтительно, чтобы аудиокодер содержал модуль 862 преобразования для каждой полосы частот. На основе решения двухканального анализатора 862 выходной сигнал временно-спектрального преобразователя 862 преобразован в представление, указываемое посредством двухканального анализатора и, в частности, посредством двухканального идентификатора 835. Таким образом, вывод модуля 862 преобразования для каждой полосы частот представляет собой набор полос частот, при этом каждая полоса частот может иметь или первое двухканальное представление, или второе отличное двухканальное представление. Когда настоящее изобретение применяется в полной полосе частот, т.е. когда исходный диапазон и диапазон восстановления обрабатываются посредством модуля преобразования для каждой полосы частот, спектральный анализатор 860 может анализировать это представление. Тем не менее, альтернативно, спектральный анализатор 860 также может анализировать сигнал, выводимый посредством временно-спектрального преобразователя, как указано посредством линии 861 управления. Таким образом, спектральный анализатор 860 может применять предпочтительный анализ тональности либо к выводу модуля 862 преобразования для каждой полосы частот, либо к выводу временно-спектрального преобразователя 860 до обработки посредством модуля 862 преобразования для каждой полосы частот. Кроме того, спектральный анализатор может применять идентификацию наилучше совпадающего исходного диапазона для определенного целевого диапазона либо к результату модуля 862 преобразования для каждой полосы частот, либо к результату временно-спектрального преобразователя 860.
Далее следует обратиться к фиг. 9a на 9d для иллюстрации предпочтительного вычисления значений информации энергии, уже поясненных в контексте фиг. 3a и фиг. 3b.
Современные аудиокодеры предшествующего уровня применяют различные технологии для того, чтобы минимизировать объем данных, представляющих данный аудиосигнал. Аудиокодеры, такие как USAC [1], применяют частотное-временное преобразование, такое как MDCT, для того чтобы получать спектральное представление данного аудиосигнала. Эти MDCT-коэффициенты квантуются с использованием психоакустических аспектов слуховой системы человека. Если доступная скорость передачи битов снижается, квантование становится более приблизительным, вводя большие количества обнуленных спектральных значений, что приводит к слышимым артефактам на стороне декодера. Чтобы повышать перцепционное качество, современные декодеры заполняют эти обнуленные спектральные части случайным шумом. IGF-способ собирает мозаичные фрагменты из оставшегося ненулевого сигнала, чтобы заполнять эти интервалы отсутствия сигнала в спектре. Для перцепционного качества декодированного аудиосигнала крайне важно, чтобы сохранялись спектральная огибающая и распределение энергии спектральных коэффициентов. Способ энергетического регулирования, представленный здесь, использует передаваемую вспомогательную информацию для того, чтобы восстанавливать спектральную MDCT-огибающую аудиосигнала.
В eSBR [15] аудиосигнал понижающе дискретизируется, по меньшей мере, на коэффициент два, и высокочастотная часть спектра полностью обнуляется [1, 17]. Эта удаленная часть заменяется посредством параметрических технологий, eSBR, на стороне декодера. eSBR подразумевает использование дополнительного преобразования, QMF-преобразования, которое используется для того, чтобы заменять пустую высокочастотную часть и повторно дискретизировать аудиосигнал [17]. Это повышает как вычислительную сложность, так и потребление запоминающего устройства в аудиокодере.
USAC-кодер [15] предлагает возможность заполнять спектральные провалы (обнуленные спектральные линии) случайным шумом, но имеет следующие недочеты: случайный шум не может сохранять точную временную структуру переходного сигнала, и он не может сохранять гармоническую структуру тонального сигнала.
Область, в которой eSBR работает на стороне декодера, полностью удалена посредством кодера [1]. Следовательно, eSBR предрасположена к удалению тональных линий в высокочастотной области или искажению гармонических структур исходного сигнала. Поскольку частотное QMF-разрешение eSBR является очень низким, и повторная вставка синусоидальных компонентов является возможной только при приблизительном разрешении базовой гребенки фильтров, повторное формирование тональных компонентов в eSBR в реплицируемом частотном диапазоне имеет очень низкую точность.
eSBR использует технологии для того, чтобы регулировать энергии накладываемых областей, т.е. регулирование спектральной огибающей [1]. Эта технология использует передаваемые значения энергии в частотно-временной QMF-сетке для того, чтобы повторно придавать определенную форму спектральной огибающей. Эта технология предшествующего уровня техники не обрабатывает частично удаленные спектры, и вследствие высокого временного разрешения, она предрасположена к необходимости относительно большого числа битов для того, чтобы либо передавать надлежащие значения энергии, либо применять приблизительное квантование к значениям энергии.
Способу IGF не требуется дополнительное преобразование, поскольку он использует унаследованное MDCT-преобразование, которое вычисляется так, как описано в[15].
Способ энергетического регулирования, представленный здесь, использует вспомогательную информацию, сформированную посредством кодера, для того чтобы восстанавливать спектральную огибающую аудиосигнала. Эта вспомогательная информация формируется посредством кодера, как указано ниже:
a) Применение MDCT-преобразования на основе кодирования со взвешиванием к входному аудиосигналу [16, раздел 4.6], необязательное вычисление MDCT на основе кодирования со взвешиванием или оценка MDCT на основе кодирования со взвешиванием из вычисленного MDCT.
b) Применение TNS/TTS к MDCT-коэффициентам [15, раздел 7.8].
c) Вычисление средней энергии для каждой полосы MDCT-частот коэффициентов масштабирования выше начальной IGF-частоты (
Figure 00000019
) вплоть до конечной IGF-частоты (
Figure 00000020
).
d) Квантование средних значений энергии.
Figure 00000019
и
Figure 00000020
являются предоставленным пользователем параметрами.
Вычисленные значения из этапа c) и d) кодируются без потерь и передаются в качестве вспомогательной информации с потоком битов в декодер.
Декодер принимает передаваемые значения и использует их для того, чтобы регулировать спектральную огибающую.
a) Деквантование передаваемых MDCT-значений.
b) Применение унаследованного заполнения USAC-шумом, если передано в служебных сигналах.
c) Применение заполнения мозаичными IGF-фрагментами.
d) Деквантование передаваемых значений энергии.
e) Регулирование спектральной огибающей в расчете на каждую полосу частот коэффициентов масштабирования.
f) Применение TNS/TTS, если передано в служебных сигналах.
Пусть
Figure 00000027
является MDCT-преобразованным действительнозначным спектральным представлением кодированного со взвешиванием аудиосигнала с длиной окна кодирования со взвешиванием в 2N. Это преобразование описывается в [16]. Кодер необязательно применяет TNS к
Figure 00000028
.
В [16, 4.6.2] описывается сегмент
Figure 00000028
в полосах частот коэффициентов масштабирования. Полосы частот коэффициентов масштабирования представляют собой набор набора индексов и обозначаются в этом тексте с помощью
Figure 00000029
Пределы каждого
Figure 00000030
задаются посредством матрицы swb_offset [16, 4.6.2]
Figure 00000031
, где
Figure 00000032
и
Figure 00000033
-1 задают первый и последний индекс для линии наименьших и наибольших спектральных коэффициентов, содержащейся в
Figure 00000034
. Обозначим полосу частот коэффициентов масштабирования:
Figure 00000035
{swb_offset[k], 1+swb_offset[k], 2+swb_offset[k],..., swb_offset[k+1]-1}
Если инструментальное IGF-средство используется посредством кодера, пользователь задает начальную IGF-частоту и конечную IGF-частоту. Эти два значения преобразуются в индекс
Figure 00000036
и
Figure 00000037
. полосы частот коэффициентов масштабирования метода с наилучшим приближением. Оба передаются в служебных сигналах в потоке битов в декодер.
[16] описывает преобразование как для длинных блоков, так и для коротких блоков. Для длинных блоков только один набор спектральных коэффициентов вместе с одним набором коэффициентов масштабирования передается в декодер. Для коротких блоков вычисляются восемь коротких окон кодирования со взвешиванием с восемью различными наборами спектральных коэффициентов. Чтобы сокращать скорость передачи битов, коэффициенты масштабирования этих восьми окон кодирования со взвешиванием коротких блоков группируются посредством кодера.
В случае IGF способ, представленный здесь, использует унаследованные полосы частот коэффициентов масштабирования для того, чтобы группировать спектральные значения, которые передаются в декодер:
Figure 00000038
где
Figure 00000039
.
Для квантования,
Figure 00000040
вычисляется. Все значения
Figure 00000041
передаются в декодер.
Предположим, что кодер решает группировать
Figure 00000042
наборов коэффициентов масштабирования.
Обозначим как
Figure 00000043
этот сегмент группировки набора {0,1,2,..., 7}, который представляет собой индексы восьми коротких окон кодирования со взвешиванием;
Figure 00000044
обозначает
Figure 00000045
-ый поднабор
Figure 00000043
, где
Figure 00000045
обозначает индекс группы окон кодирования со взвешиванием,
Figure 00000046
.
Для вычисления коротких блоков определяемая пользователем начальная/конечная IGF-частота преобразуется в надлежащие полосы частот коэффициентов масштабирования. Тем не менее, для простоты также обозначается для коротких блоков
Figure 00000039
.
Вычисление IGF-энергии использует информацию группировки для того, чтобы группировать значения
Figure 00000047
:
Figure 00000048
Для квантования,
Figure 00000049
вычисляется. Все значения
Figure 00000050
передаются в декодер.
Вышеуказанные формулы кодирования работают с использованием только действительнозначных MDCT-коэффициентов
Figure 00000051
. Для того, чтобы получать более стабильное распределение энергии в IGF-диапазоне, т.е. чтобы уменьшать временные амплитудные флуктуации, альтернативный способ может использоваться для того, чтобы вычислять значения
Figure 00000052
:
Пусть
Figure 00000053
является MDCT-преобразованным действительнозначным спектральным представлением кодированного со взвешиванием аудиосигнала с длиной окна кодирования со взвешиванием
Figure 00000054
, а
Figure 00000055
является действительнозначным MDST-преобразованным спектральным представлением идентичной части аудиосигнала. Спектральное MDST-представление
Figure 00000056
может быть либо вычислено точно, либо оценено из
Figure 00000057
.
Figure 00000058
обозначает комплексное спектральное представление кодированного со взвешиванием аудиосигнала, имеющее
Figure 00000057
в качестве действительной части и
Figure 00000059
в качестве мнимой части. Кодер необязательно применяет TNS к
Figure 00000057
и
Figure 00000059
.
Далее, энергия исходного сигнала в IGF-диапазоне может измеряться с помощью:
Figure 00000060
Действительно- и комплекснозначные энергии полосы частот восстановления, т.е. мозаичного фрагмента, который должен использоваться на стороне декодера при восстановлении IGF-диапазона
Figure 00000061
, вычисляются следующим образом:
Figure 00000062
,
где
Figure 00000063
представляет собой набор индексов – ассоциированный диапазон исходных мозаичных фрагментов в зависимости от
Figure 00000061
. В двух вышеприведенных формулах, вместо набора индексов
Figure 00000061
, может использоваться набор
Figure 00000064
(задан ниже в этом тексте) для того, чтобы создавать
Figure 00000063
, чтобы достигать более точных значений
Figure 00000065
и
Figure 00000066
.
Вычислим:
Figure 00000067
если
Figure 00000068
, иначе
Figure 00000069
С помощью:
Figure 00000070
далее вычисляется более стабильная версия
Figure 00000071
, поскольку вычисление
Figure 00000071
с помощью MDCT-значений искажается только посредством того факта, что MDCT-значения не подчиняются теореме Парсеваля, и следовательно, они не отражают информацию полной энергии спектральных значений.
Figure 00000052
вычисляется так, как описано выше.
Как отмечено выше, для коротких блоков предположим, что кодер решает группировать
Figure 00000042
наборов коэффициентов масштабирования. Как описано выше,
Figure 00000044
обозначает
Figure 00000045
-ый поднабор
Figure 00000043
, где
Figure 00000045
обозначает индекс группы окон кодирования со взвешиванием,
Figure 00000046
.
С другой стороны, может вычисляться альтернативная версия, указанная выше для того, чтобы вычислять более стабильную версию
Figure 00000072
. Если задать
Figure 00000058
, причем
Figure 00000053
является MDCT-преобразованным, а
Figure 00000073
является MDST-преобразованным кодированным со взвешиванием аудиосигналом с длиной 2N, вычисляем:
Figure 00000074
Аналогично вычисляем:
Figure 00000075
и продолжаем для коэффициента
Figure 00000076
:
Figure 00000077
,
который используется для того, чтобы регулировать ранее вычисленный
Figure 00000078
:
Figure 00000079
Figure 00000080
вычисляется так, как описано выше.
Процедура не только использования энергии полосы частот восстановления, извлекаемой либо из комплексной полосы частот восстановления, либо из MDCT-значений, но также и использования информации энергии из исходного диапазона обеспечивает усовершенствованное восстановление энергии.
В частности, модуль 1006 вычисления параметров выполнен с возможностью вычислять информацию энергии для полосы частот восстановления с использованием информации относительно энергии полосы частот восстановления и дополнительно с использованием информации относительно энергии исходного диапазона, которая должна быть использована для восстановления полосы частот восстановления.
Кроме того, модуль 1006 вычисления параметров выполнен с возможностью вычислять информацию (Eok) энергии для полосы частот восстановления комплексного спектра исходного сигнала, вычислять дополнительную информацию (Erk) энергии для исходного диапазона действительнозначной части комплексного спектра исходного сигнала, который должен использоваться для восстановления полосы частот восстановления, и при этом модуль вычисления параметров выполнен с возможностью вычислять информацию энергии для полосы частот восстановления с использованием информации (Eok) энергии и дополнительной информации (Erk) энергии.
Кроме того, модуль 1006 вычисления параметров выполнен с возможностью определения первой информации (Eok) энергии относительно подлежащей восстановлению полосы частот коэффициентов масштабирования комплексного спектра исходного сигнала, с возможностью определения второй информации (Etk) энергии относительно исходного диапазона комплексного спектра исходного сигнала, который должен использоваться для восстановления подлежащей восстановлению полосы частот коэффициентов масштабирования, с возможностью определения третьей информации (Erk) энергии относительно исходного диапазона действительнозначной части комплексного спектра исходного сигнала, который должен использоваться для восстановления подлежащей восстановлению полосы частот коэффициентов масштабирования, с возможностью определения информации взвешивания на основе взаимосвязи, по меньшей мере, между двумя из первой информации энергии, второй информации энергии и третьей информации энергии, и с возможностью взвешивания одной из первой информации энергии и третьей информации энергии с использованием информации взвешивания, чтобы получать информацию взвешенной энергии, и с возможностью использования информации взвешенной энергии в качестве информации энергии для полосы частот восстановления.
Примеры для вычислений являются следующими, но множество других могут быть очевидными для специалистов в данной области техники с учетом вышеизложенного общего принципа:
A)
f_k=E_ok/E_tk;
E_k=sqrt(f_k*E_rk);
B)
f_k=E_tk/E_ok;
E_k=sqrt((1/f_k)*E_rk);
C)
f_k=E_rk/E_tk;
E_k=sqrt(f_k*E_ok)
D)
f_k=E_tk/E_rk;
E_k=sqrt((1/f_k)*E_ok)
Все эти примеры подтверждают тот факт, что хотя только действительные MDCT-значения обрабатываются на стороне декодера, фактическое вычисление (вследствие суммирования с перекрытием) проводится из процедуры подавления наложения спектров во временной области, неявно выполняемой с использованием комплексных чисел. Тем не менее, в частности, определение 918 информации энергии мозаичных фрагментов дополнительных спектральных частей 922, 923 полосы 920 частот восстановления для значений частоты, отличающихся от первой спектральной части 921, имеющей частоты в полосе 920 частот восстановления, основывается на действительных MDCT-значениях. Следовательно, информация энергии, передаваемая в декодер, типично меньше информации Eok энергии относительно полосы частот восстановления комплексного спектра исходного сигнала. Например, для вышеприведенного случая C, это означает то, что коэффициент f_k (информация взвешивания) меньше 1.
На стороне декодера, если инструментальное IGF-средство передается в служебных сигналах как активированное, передаваемые значения
Figure 00000081
получаются из потока битов и должны быть деквантованы следующим образом:
Figure 00000082
,
для всех
Figure 00000039
.
Декодер деквантует передаваемые MDCT-значения до
Figure 00000083
и вычисляет оставшуюся энергию выживания:
Figure 00000084
,
где
Figure 00000010
находится в диапазоне, заданном выше.
Обозначим
Figure 00000085
. Этот набор содержит все индексы полосы
Figure 00000034
частот коэффициентов масштабирования, которые квантованы до нуля посредством кодера.
IGF-способ получения подполос частот (не описан в данном документе) используется для того, чтобы заполнять интервалы отсутствия сигнала в спектре, получающиеся в результате приблизительного квантования спектральных MDCT-значений на стороне кодера посредством использования ненулевых значений передаваемого MDCT.
Figure 00000086
должно дополнительно содержать значения, которые заменяют все предыдущие обнуленные значения. Энергия мозаичных фрагментов вычисляется следующим образом:
Figure 00000087
,
где
Figure 00000010
находится в диапазоне, заданном выше.
Энергия, недостающая в полосе частот восстановления, вычисляется следующим образом:
Figure 00000088
Кроме того, коэффициент усиления для регулирования получается следующим образом:
Figure 00000089
,
где:
Figure 00000090
Регулирование спектральной огибающей с использованием коэффициента усиления следующее:
Figure 00000091
,
для всех
Figure 00000092
, и
Figure 00000010
находится в диапазоне, заданном выше.
Это повторно придает спектральной огибающей
Figure 00000093
определенную форму исходной спектральной огибающей
Figure 00000028
.
В последовательности коротких окон кодирования со взвешиванием, все вычисления, приведенные выше, в принципе остаются неизменными, но учитывается группировка полос частот коэффициентов масштабирования. Обозначим в качестве
Figure 00000047
деквантованные сгруппированные значения энергии, полученные из потока битов. Вычислим:
Figure 00000094
и:
Figure 00000095
Индекс
Figure 00000096
описывает индекс окна кодирования со взвешиванием последовательности коротких блоков.
Вычислим:
Figure 00000097
и:
Figure 00000098
,
где:
Figure 00000090
Применим:
Figure 00000099
,
для всех
Figure 00000100
.
Для вариантов применения с низкой скоростью передачи битов возможна попарная группировка значений
Figure 00000101
без серьезной потери точности. Этот способ применяется только для длинных блоков:
Figure 00000102
,
где
Figure 00000103
.
С другой стороны, после квантования, все значения
Figure 00000104
передаются в декодер.
Фиг. 9a иллюстрирует устройство для декодирования кодированного аудиосигнала, содержащего кодированное представление первого набора первых спектральных частей и кодированное представление параметрических данных, указывающих спектральные энергии для второго набора вторых спектральных частей. Первый набор первых спектральных частей указывается на 901a на фиг. 9a, а кодированное представление параметрических данных указывается на 901b на фиг. 9a. Аудиодекодер 900 предоставляется для декодирования кодированного представления 901a первого набора первых спектральных частей для того, чтобы получать декодированный первый набор первых спектральных частей 904, и для декодирования кодированного представления параметрических данных для того, чтобы получать декодированные параметрические данные 902 для второго набора вторых спектральных частей, указывающих отдельные энергии для отдельных полос частот восстановления, причем вторые спектральные части расположены в полосах частот восстановления. Кроме того, модуль 906 повторного формирования частоты предоставляется для восстановления спектральных значений полосы частот восстановления, содержащей вторую спектральную часть. Модуль 906 повторного формирования частоты использует первую спектральную часть первого набора первых спектральных частей и информацию отдельных энергий для полосы частот восстановления, при этом полоса частот восстановления содержит первую спектральную часть и вторую спектральную часть. Модуль 906 повторного формирования частоты содержит модуль 912 вычисления для определения информации энергии выживания, содержащей накопленную энергию первой спектральной части, имеющей частоты в полосе частот восстановления. Кроме того, модуль 906 повторного формирования частоты содержит модуль 918 вычисления для определения информации энергии мозаичных фрагментов дополнительных спектральных частей полосы частот восстановления и для значений частоты, отличающихся от первой спектральной части, причем эти значения частоты имеют частоты в полосе частот восстановления, при этом дополнительные спектральные части должны формироваться посредством повторного формирования частоты с использованием первой спектральной части, отличающейся от первой спектральной части в полосе частот восстановления.
Модуль 906 повторного формирования частоты дополнительно содержит модуль 914 вычисления для недостающей энергии в полосе частот восстановления, и модуль 914 вычисления работает с использованием отдельной энергии для полосы частот восстановления и энергии выживания, сформированной посредством блока 912. Кроме того, модуль 906 повторного формирования частоты содержит модуль 916 регулирования спектральной огибающей для регулирования дополнительных спектральных частей в полосе частот восстановления на основе информации недостающей энергии и информации энергии мозаичных фрагментов, сформированной посредством блока 918.
Следует обратиться к фиг. 9c, иллюстрирующий определенную полосу 920 частот восстановления. Полоса частот восстановления содержит первую спектральную часть в полосе частот восстановления, к примеру, первую спектральную часть 306 на фиг. 3a, схематично проиллюстрированную на 921. Кроме того, остальные спектральные значения в полосе 920 частот восстановления должны формироваться с использованием исходной области, например, из полосы 1, 2, 3 частот коэффициентов масштабирования ниже начальной частоты 309 интеллектуального заполнения интервалов по фиг. 3a. Модуль 906 повторного формирования частоты выполнен с возможностью формирования необработанных спектральных значений для вторых спектральных частей 922 и 923. Затем коэффициент g усиления вычисляется так, как проиллюстрировано на фиг. 9c, чтобы, в завершение, регулировать необработанные спектральные значения в полосах частот 922, 923 так, чтобы получать восстановленные и отрегулированные вторые спектральные части в полосе 920 частот восстановления, которые в данный момент имеют спектральное разрешение, т.е. линейное расстояние, идентичное спектральному разрешению (линейному расстоянию) первой спектральной части 921. Важно понимать, что первая спектральная часть в полосе частот восстановления, проиллюстрированная на 921 на фиг. 9c, декодируется посредством аудиодекодера 900 и не затрагивается посредством регулирования огибающей, выполняемого посредством блока 916 по фиг. 9b. В отличие от этого, первая спектральная часть в полосе частот восстановления, указываемая на 921, остается как есть, поскольку эта первая спектральная часть выводится посредством полноскоростного (с полной полосой пропускания) аудиодекодера 900 через линию 904.
Далее поясняется конкретный пример с действительными числами. Оставшаяся энергия выживания, вычисленная посредством блока 912, составляет, например, пять энергетических единиц, и эта энергия представляет собой энергию примерно указываемых четырех спектральных линий в первой спектральной части 921.
Кроме того, значение E3 энергии для полосы частот восстановления, соответствующей полосе 6 частот коэффициентов масштабирования по фиг. 3b или фиг. 3a, равно 10 единицам. Важно, что значение энергии содержит не только энергию спектральных частей 922, 923, но и полную энергию полосы 920 частот восстановления, вычисленную на стороне кодера, т.е. до выполнения спектрального анализа с использованием, например, маски тональности. Следовательно, десять энергетических единиц покрывают первую и вторую спектральные части в полосе частот восстановления. Далее предполагается, что энергия данных исходного диапазона для блоков 922, 923 или для необработанных данных целевого диапазона для блока 922, 923 равна восьми энергетическим единицам. Таким образом, вычисляется недостающая энергия в пять единиц.
На основе недостающей энергии, деленной на энергию tEk мозаичных фрагментов, вычисляется коэффициент усиления в 0,79. После этого необработанные спектральные линии для вторых спектральных частей 922, 923 умножаются на вычисленный коэффициент усиления. Таким образом, регулируются только спектральные значения для вторых спектральных частей 922, 923, и спектральные линии для первой спектральной части 921 не затрагиваются посредством этого регулирования огибающей. После умножения необработанных спектральных значений для вторых спектральных частей 922, 923, вычислена полная полоса частот восстановления, состоящая из первых спектральных частей в полосе частот восстановления и состоящая из спектральных линий во вторых спектральных частях 922, 923 в полосе 920 частот восстановления.
Предпочтительно, исходный диапазон для формирования необработанных спектральных данных в полосах частот 922, 923, относительно частоты, ниже начальной IGF-частоты 309, а полоса 920 частот восстановления выше начальной IGF-частоты 309.
Кроме того, предпочтительно, чтобы границы полос частот восстановления совпадали с границами полос частот коэффициентов масштабирования. Таким образом, полоса частот восстановления имеет, в одном варианте осуществления, размер соответствующих полос частот коэффициентов масштабирования базового аудиодекодера, либо имеет такой размер, что когда применяется энергетическое спаривание, значение энергии для полосы частот восстановления предоставляет энергию в две или более высокое целое число полос частот коэффициентов масштабирования. Таким образом, когда предполагается, что аккумулирование энергии выполняется для полосы 4 частот коэффициентов масштабирования, полосы 5 частот коэффициентов масштабирования и полосы 6 частот коэффициентов масштабирования, в таком случае нижняя частотная граница полосы 920 частот восстановления равна нижней границе полосы 4 частот коэффициентов масштабирования, а верхняя частотная граница полосы 920 частот восстановления совпадает с верхней границей полосы 6 частот коэффициентов масштабирования.
Далее поясняется фиг. 9d для того, чтобы показывать дополнительные функциональности декодера по фиг. 9a. Аудиодекодер 900 принимает деквантованные спектральные значения, соответствующие первым спектральным частям первого набора спектральных частей, и дополнительно, коэффициенты масштабирования для полос частот коэффициентов масштабирования, к примеру, проиллюстрированных на фиг. 3b предоставляются в блок 940 обратного масштабирования. Блок 940 обратного масштабирования предоставляет все первые наборы первых спектральных частей ниже начальной IGF-частоты 309 по фиг. 3a и, дополнительно, первые спектральные части выше начальной IGF-частоты, т.е. первые спектральные части 304, 305, 306, 307 по фиг. 3a, которые находятся в полосе частот восстановления, как проиллюстрировано на 941 на фиг. 9d. Кроме того, первые спектральные части в исходной полосе частот, используемые для заполнения частотными мозаичными фрагментами в полосе частот восстановления, предоставляются в модуль 942 регулирования/вычисления огибающей, и этот блок дополнительно принимает информацию энергии для полосы частот восстановления, предоставленную в качестве параметрической вспомогательной информации в кодированном аудиосигнале, как проиллюстрировано на 943 на фиг. 9d. Затем модуль 942 регулирования/вычисления огибающей предоставляет функциональности по фиг. 9b и 9c и, в завершение, выводит отрегулированные спектральные значения для вторых спектральных частей в полосе частот восстановления. Эти отрегулированные спектральные значения 922, 923 для вторых спектральных частей в полосе частот восстановления и первых спектральных частей 921 в полосе частот восстановления указывают то, что линия 941 на фиг. 9d объединенно представляет полное спектральное представление полосы частот восстановления.
Далее следует обратиться к фиг. 10a в 10b для пояснения предпочтительных вариантов осуществления аудиокодера для кодирования аудиосигнала, чтобы предоставлять или формировать кодированный аудиосигнал. Кодер содержит временно-спектральный преобразователь 1002, подающий спектральный анализатор 1004, и спектральный анализатор 1004 соединяется с модулем 1006 вычисления параметров, с одной стороны, и с аудиокодером 1008, с другой стороны. Аудиокодер 1008 предоставляет кодированное представление первого набора первых спектральных частей и не покрывает второй набор вторых спектральных частей. С другой стороны, модуль 1006 вычисления параметров предоставляет информацию энергии для полосы частот восстановления, покрывающей первые и вторые спектральные части. Кроме того, аудиокодер 1008 выполнен с возможностью формирования первого кодированного представления первого набора первых спектральных частей, имеющих первое спектральное разрешение, при этом аудиокодер 1008 предоставляет коэффициенты масштабирования для всех полос частот спектрального представления, сформированного посредством блока 1002. Кроме того, как проиллюстрировано на фиг. 3b, кодер предоставляет информацию энергии, по меньшей мере, для полос частот восстановления, расположенных, относительно частоты, выше начальной IGF-частоты 309, как проиллюстрировано на фиг. 3a. Таким образом, для полос частот восстановления, предпочтительно совпадающих с полосами частот коэффициентов масштабирования или с группами полос частот коэффициентов масштабирования, предоставляются два значения, т.е. соответствующий коэффициент масштабирования из аудиокодера 1008 и, дополнительно, информация энергии, выводимая посредством модуля 1006 вычисления параметров.
Аудиокодер предпочтительно имеет полосы частот коэффициентов масштабирования с различными полосами пропускания частот, т.е. с различным количеством спектральных значений. Следовательно, параметрический модуль вычисления содержит нормализатор 1012 для нормализации энергий для различной полосы пропускания относительно полосы пропускания конкретной полосы частот восстановления. С этой целью, нормализатор 1012 принимает, в качестве вводов, энергию в полосе частот и количество спектральных значений в полосе частот, и нормализатор 1012 затем выводит нормализованную энергию в расчете на полосу частот восстановления/коэффициентов масштабирования.
Кроме того, параметрический модуль 1006a вычисления по фиг. 10a содержит модуль вычисления значений энергии, принимающей управляющую информацию из базового кодера или аудиокодера 1008, как проиллюстрировано посредством линии 1007 на фиг. 10a. Эта управляющая информация может содержать информацию относительно длинных/коротких блоков, используемых посредством аудиокодера, и/или информацию группировки. Следовательно, в то время как информация относительно длинных/коротких блоков и информация группировки относительно коротких окон кодирования со взвешиванием связаны с "временной" группировкой, информация группировки дополнительно может означать спектральную группировку, т.е. группировку двух полос частот коэффициентов масштабирования в одну полосу частот восстановления. Следовательно, модуль 1014 вычисления значений энергии выводит одно значение энергии для каждой сгруппированной полосы частот, покрывающей первую и вторую спектральную часть, когда только спектральные части сгруппированы.
Фиг. 10d иллюстрирует дополнительный вариант осуществления для реализации спектральной группировки. С этой целью, блок 1016 выполнен с возможностью вычисления значений энергии для двух смежных полос частот. Затем в блоке 1018 сравниваются значения энергии для смежных полос частот, и когда значения энергии сильно не отличаются или отличаются в меньшей степени, чем задано, например, посредством порогового значения, то формируется одно (нормализованное) значение для обеих полос частот, как указано в блоке 1020. Как проиллюстрировано посредством линии 1019, блок 1018 может обходиться. Кроме того, формирование одного значения для двух или более полос частот, выполняемое посредством блока 1020, может управляться посредством управления 1024 скоростью передачи битов кодера. Таким образом, когда скорость передачи битов должна уменьшаться, управление 1024 кодированной скоростью передачи битов управляет блоком 1020 таким образом, чтобы формировать одно нормализованное значение для двух или более полос частот, даже если сравнение в блоке 1018 не разрешено для того, чтобы группировать значения информации энергии.
В случае если аудиокодер выполняет группировку двух или более коротких окон кодирования со взвешиванием, эта группировка также применяется для информации энергии. Когда базовый кодер выполняет группировку двух или более коротких блоков, то для двух или более блоков вычисляется и передается только один набор коэффициентов масштабирования. На стороне декодера, аудиодекодер затем применяет идентичный набор коэффициентов масштабирования для обоих сгруппированных окон кодирования со взвешиванием.
Относительно вычисления информации энергии, спектральные значения в полосе частот восстановления накапливаются за два или более коротких окна кодирования со взвешиванием. Другими словами, это означает то, что спектральные значения в определенной полосе частот восстановления для короткого блока и для последующего короткого блока накапливаются вместе, и только одно значение информации энергии передается для этой полосы частот восстановления, покрывающей два коротких блока. Затем на стороне декодера, регулирование огибающей, поясненное относительно фиг. 9a на 9d, выполняется не по отдельности для каждого короткого блока, а совместно для набора сгруппированных коротких окон кодирования со взвешиванием.
После этого снова применяется соответствующая нормализация, так что даже если выполнена группировка по частоте или группировка во времени, нормализация легко обеспечивает то, что для вычисления информации значений энергии на стороне декодера, должно быть известно только значение информации энергии, с одной стороны, и количество спектральных линий в полосе частот восстановления или в наборе сгруппированных полос частот восстановления.
В BWE-схемах предшествующего уровня техники, восстановление спектральной HF-области выше данной так называемой частоты разделения зачастую основано на спектральном наложении. Типично, HF-область состоит из нескольких смежных наложений, и каждое из этих наложений получается из полосовых (BP) областей LF-спектра ниже данной частоты разделения. В представлении на основе гребенки фильтров сигнала такие системы копируют набор смежных подполосных коэффициентов из LF-спектра в целевую область. Границы выбранных наборов типично являются системно-зависимыми и не являются зависимыми от сигнала. Для некоторого содержимого сигнала, этот статический выбор наложений может приводить к неприятному тембру и окраске восстановленного сигнала.
Другие подходы передают LF-сигнал в HF через сигнально-адаптивную модуляцию с одной боковой полосой (SSB). Такие подходы имеют высокую вычислительную сложность по сравнению с [1], поскольку они работают на высокой частоте дискретизации в выборках временной области. Кроме того, наложение может становиться нестабильным, особенно для нетональных сигналов (например, невокализованной речи), и в силу этого сигнально-адаптивное наложение предшествующего уровня техники может вводить ухудшения в сигнал.
Изобретаемый подход называется "интеллектуальным заполнением интервалов (IGF)", и в предпочтительной конфигурации он применяется в BWE-системе на основе частотно-временного преобразования, такого как, например, модифицированное дискретное косинусное преобразование (MDCT). Тем не менее, идеи изобретения являются, в общем, применимыми, например, аналогично в системе на основе гребенки квадратурных зеркальных фильтров (QMF).
Преимущество IGF-конфигурации на основе MDCT заключается в прозрачной интеграции в аудиокодеры на основе MDCT, например, для усовершенствованного кодирования аудио (AAC) на основе MPEG. Совместное использование идентичного преобразования для кодирования аудио формы сигнала и для BWE значительно снижает общую вычислительную сложность для аудиокодека.
Кроме того, изобретение предоставляет решение для внутренне присущих проблем стабильности, выявленных в схемах адаптивного наложения предшествующего уровня техники.
Предложенная система основана на таком наблюдении, что для некоторых сигналов, ненаправляемый выбор наложений может приводить к изменениям тембра и окраскам сигналов. Если сигнал, который является тональным в исходной спектральной области (SSR), но является шумоподобным в целевой спектральной области (STR), наложение шумоподобной STR посредством тональной SSR может приводить к неестественному тембру. Тембр сигнала также может изменяться, поскольку тональная структура сигнала может расстраиваться или даже уничтожаться посредством процесса наложения.
Предложенная IGF-система выполняет интеллектуальный выбор мозаичных фрагментов с использованием взаимной корреляции в качестве меры подобия между конкретной SSR и конкретной STR. Взаимная корреляция двух сигналов предоставляет меру подобия этих сигналов, а также запаздывание максимальной корреляции и ее знак. Следовательно, подход с выбором мозаичных фрагментов на основе корреляции также может использоваться для того, чтобы точно регулировать спектральное смещение скопированного спектра так, что он становится максимально близким к исходной спектральной структуре.
Фундаментальный вклад предложенной системы заключается в выборе подходящей меры подобия, а также технологий для того, чтобы стабилизировать процесс выбора мозаичных фрагментов. Предложенная технология предоставляет оптимальный баланс между мгновенной сигнальной адаптацией и в то же время временной стабильностью. Обеспечение временной стабильности является особенно важным для сигналов, которые имеют незначительное подобие SSR и STR, и следовательно, демонстрируют низкие значения взаимной корреляции, либо если используются меры подобия, которые являются неоднозначными. В таких случаях, стабилизация предотвращает псевдослучайное поведение адаптивного выбора мозаичных фрагментов.
Например, класс сигналов, который зачастую приводит к проблемам для BWE предшествующего уровня техники, отличается посредством различной концентрации энергии в произвольных спектральных областях, как показано на фиг. 12a (слева). Хотя доступны способы для того, чтобы регулировать спектральную огибающую и тональность восстановленного спектра в целевой области, для некоторых сигналов эти способы не позволяют хорошо сохранять тембр, как показано на фиг. 12a (справа). В примере, показанном на фиг. 12a, абсолютная величина спектра в целевой области исходного сигнала выше так называемой частоты
Figure 00000105
разделения (фиг. 12a, слева) снижается практически линейно. Напротив, в восстановленном спектре (фиг. 12a, справа), присутствует отдельный набор падений и пиков, который воспринимается как артефакт окрашивания тембра.
Важный этап нового подхода заключается в том, чтобы задавать набор мозаичных фрагментов, из числа которых может осуществляться последующий выбор на основе подобия. Во-первых, границы мозаичных фрагментов как исходной области, так и целевой области должны задаваться друг в соответствии с другом. Следовательно, целевая область между начальной IGF-частотой
Figure 00000019
базового кодера и наибольшей доступной частотой
Figure 00000020
разделена на произвольное целое число
Figure 00000001
мозаичных фрагментов, каждый из которых имеет индивидуальный предварительно заданный размер. Затем для каждого целевого мозаичного фрагмента
Figure 00000106
, формируется набор
Figure 00000107
исходных мозаичных фрагментов одинакового размера. Посредством этого, определяется базовая степень свободы IGF-системы. Общее число
Figure 00000108
исходных мозаичных фрагментов определяется посредством полосы пропускания исходной области:
Figure 00000109
,
где
Figure 00000110
является наименьшей доступной частотой для выбора мозаичных фрагментов, так что целое число
Figure 00000108
исходных мозаичных фрагментов подходит для
Figure 00000111
. Минимальное число исходных мозаичных фрагментов равно 0.
Чтобы дополнительно повышать степень свободы для выбора и регулирования, исходные мозаичные фрагменты могут задаваться таким образом, что они перекрывают друг друга на коэффициент перекрытия между 0 и 1, где 0 означает отсутствие перекрытия, а 1 означает 100%-ое перекрытие. Случай 100%-ого перекрытия подразумевает то, что доступен только один или ни одного исходного мозаичного фрагмента.
Фиг. 12b показывает пример границ мозаичных фрагментов из набора мозаичных фрагментов. В этом случае, все целевые мозаичные фрагменты коррелируются с каждым из исходных мозаичных фрагментов. В этом примере, исходные мозаичные фрагменты перекрываются на 50%.
Для целевого мозаичного фрагмента, взаимная корреляция вычисляется с различными исходными мозаичными фрагментами при запаздываниях вплоть до элементов xcorr_maxLag выборки. Для данного целевого мозаичного фрагмента
Figure 00000112
и исходного мозаичного фрагмента
Figure 00000113
,
Figure 00000114
обеспечивает максимальное значение абсолютной взаимной корреляции между мозаичными фрагментами, тогда как
Figure 00000115
обеспечивает запаздывание, с которым возникает этот максимум, а
Figure 00000005
обеспечивает знак перекрестной корреляции при
Figure 00000115
.
Параметр xcorr_lag используется для того, чтобы управлять близостью совпадения между исходными и целевыми мозаичными фрагментами. Этот параметр приводит к уменьшенным артефактам и помогает лучше сохранять тембр и цвет сигнала.
В некоторых сценариях может возникать такая ситуация, что размер конкретного целевого мозаичного фрагмента больше размера доступных исходных мозаичных фрагментов. В этом случае, доступный исходный мозаичный фрагмент повторяется так часто, как требуется для того, чтобы полностью заполнять конкретный целевой мозаичный фрагмент. По-прежнему можно выполнять взаимную корреляцию между крупным целевым мозаичным фрагментом и меньшим исходным мозаичным фрагментом для того, чтобы получать оптимальную позицию исходного мозаичного фрагмента в целевом мозаичном фрагменте с точки зрения запаздывания xcorr_lag и знака xcorr_sign взаимной корреляции.
Взаимная корреляция необработанных спектральных мозаичных фрагментов и исходного сигнала может не представлять собой наиболее подходящую меру подобия, применяемую к спектрам звука с сильной формантной структурой. Отбеливание спектра удаляет приблизительную информацию огибающей и за счет этого подчеркивает точную спектральную структуру, которая представляет главный интерес для оценки подобия мозаичных фрагментов. Отбеливание также помогает при простом формировании огибающей STR в декодере для областей, обработанных посредством IGF. Следовательно, необязательно, мозаичный фрагмент и исходный сигнал отбеливаются до вычисления взаимной корреляции.
В других конфигурациях, только мозаичный фрагмент отбеливается с использованием предварительно заданной процедуры. Передаваемый флаг "отбеливания" указывает декодеру, что идентичный предварительно заданный процесс отбеливания должен применяться к мозаичному фрагменту в IGF.
Для отбеливания сигнала сначала вычисляется оценка спектральной огибающей. Затем MDCT-спектр делится на спектральную огибающую. Оценка спектральной огибающей может оцениваться для MDCT-спектра, энергий MDCT-спектра, комплексного спектра мощности на основе MDCT или оценок спектра мощности. Сигнал, для которого оценивается огибающая, далее называется "базовым сигналом".
Огибающие, вычисленные для комплексного спектра мощности на основе MDCT или оценок спектра мощности в качестве базового сигнала, имеют преимущество отсутствия временной флуктуации для тональных компонентов.
Если базовый сигнал находится в энергетической области, MDCT-спектр должен быть поделен на квадратный корень огибающей, чтобы корректно отбеливать сигнал.
Предусмотрены различные способы вычисления огибающей:
- преобразование базового сигнала с помощью дискретного косинусного преобразования (DCT), сохраняющего только более низкие DCT-коэффициенты (задающего самый верхний равным нулю), и затем вычисление обратного DCT,
- вычисление спектральной огибающей набора коэффициентов линейного прогнозирования (LPC), вычисленных для аудиокадра временной области,
- фильтрация базового сигнала с помощью фильтра нижних частот.
Предпочтительно, выбирается последний подход. Для вариантов применения, которые требуют низкой вычислительной сложности, некоторое упрощение может вноситься для отбеливания MDCT-спектра: Сначала огибающая вычисляется посредством скользящего среднего. Это требует только двух циклов процессора в расчете на элемент MDCT-выборки. Затем во избежание вычисления деления и квадратного корня, спектральная огибающая аппроксимирована посредством
Figure 00000116
, где
Figure 00000117
является целочисленным логарифмом огибающей. В этой области, операция вычисления квадратного корня становится просто операцией сдвига, и кроме того, деление на огибающую может выполняться посредством другой операции сдвига.
После вычисления корреляции каждого исходного мозаичного фрагмента с каждым целевым мозаичным фрагментом для всех
Figure 00000001
целевых мозаичных фрагментов, исходный мозаичный фрагмент с наибольшей корреляцией выбирается для его замены. Для обеспечения наилучшего совпадения с исходной спектральной структурой, запаздывание корреляции используется для того, чтобы модулировать реплицируемый спектр посредством целого числа элементов выборки преобразования. В случае нечетных запаздываний мозаичный фрагмент дополнительно модулирован через умножение на переменную временную последовательность из -1/1 для того, чтобы компенсировать представление с обратной частотой каждой второй полосы частот в MDCT.
Фиг. 12c показывает пример корреляции между исходным мозаичным фрагментом и целевым мозаичным фрагментом. В этом примере, запаздывание корреляции равно 5, так что исходный мозаичный фрагмент должен быть модулирован посредством 5 элементов выборки в направлении элементов выборки верхних частот на стадии перезаписи из BWE-алгоритма. Помимо этого, знак мозаичного фрагмента должен меняться на противоположный, поскольку значение максимальной корреляции является отрицательным, и дополнительная модуляция, как описано выше, учитывает нечетное запаздывание.
Таким образом, общий объем вспомогательной информации, которую следует передавать из кодера в декодер, может состоять из следующих данных:
tileNum[
Figure 00000001
]: индекс выбранного исходного мозаичного фрагмента в расчете на целевой мозаичный фрагмент
tilesign[
Figure 00000001
]: знак целевого мозаичного фрагмента
tileMod[
Figure 00000001
]: запаздывание корреляции в расчете на целевой мозаичный фрагмент
Отсечение и стабилизация мозаичных фрагментов является важным этапом в IGF. Его необходимость и преимущества поясняются с помощью примера при допущении стационарного тонального аудиосигнала, такого как, например, стабильное звучание камертона. Логика подсказывает, что наименьшее количество артефактов вводится, если для данной целевой области исходные мозаичные фрагменты всегда выбираются из идентичной исходной области между кадрами. Даже если сигнал предположительно является стационарным, это условие не выполняется полностью в каждом кадре, поскольку мера подобия (например, корреляция) другой в равной степени подобной исходной области может доминировать над результатом оценки подобия (например, взаимной корреляции). Это приводит к тому, что tileNum[nTar] между смежными кадрами колеблется между двумя или тремя практически идентичными вариантами выбора. Это может представлять собой источник раздражающего музыкального шумоподобного артефакта.
Чтобы исключать этот тип артефактов, набор исходных мозаичных фрагментов должен быть отсечен таким образом, что оставшиеся элементы исходного набора являются максимально несходными. Это достигается для набора исходных мозаичных фрагментов:
S={s1, s2,..., sn}
следующим образом. Для любого исходного мозаичного фрагмента si, он коррелируется со всеми другими исходными мозаичными фрагментами, находя наилучшую корреляцию между si и sj и сохраняя ее в матрице Sx. Здесь Sx[i][j] содержит максимальное значение абсолютной взаимной корреляции между si и sj. Суммирование матрицы Sx по столбцам дает сумму перекрестных корреляций исходного мозаичного фрагмента si со всеми другими исходными мозаичными фрагментами T.
T[i]=Sx[i][1]+Sx[i][2]...+Sx[i][n]
Здесь T представляет меру того, насколько сильно источник является подобным другим исходным мозаичным фрагментам. Если, для любого исходного мозаичного фрагмента i:
T > пороговое значение,
то исходный мозаичный фрагмент i может быть отброшен из набора потенциальных источников, поскольку он имеет высокую корреляцию с другими источниками. Мозаичный фрагмент с наименьшей корреляцией из набора мозаичных фрагментов, которые удовлетворяют условию в уравнении 1, выбран в качестве характерного мозаичного фрагмента для этого поднабора. Таким образом, обеспечивается то, что исходные мозаичные фрагменты являются максимально несходными друг с другом.
Способ отсечения мозаичных фрагментов также заключает в себе запоминающее устройство для набора отсеченных мозаичных фрагментов, используемого в предшествующем кадре. Мозаичные фрагменты, которые являются активными в предыдущем кадре, также сохраняются в следующем кадре, если существуют альтернативные возможные варианты для отсечения.
Пусть исходные мозаичные фрагменты s3, s4 и s5 являются активными из мозаичных фрагментов {s1, s2,..., s5} в кадре k, затем в кадре k+1, даже если исходные мозаичные фрагменты s1, s3 и s2 конкурируют за отсечение, причем s3 является максимально коррелированным с другими, s3 сохраняется, поскольку он представляет собой полезный исходный мозаичный фрагмент в предыдущем кадре, и в силу этого его сохранение в наборе исходных мозаичных фрагментов является полезным для принудительной активации временной непрерывности при выборе мозаичных фрагментов. Этот способ предпочтительно применяется, если взаимная корреляция между исходным i и целевым j, представленная как Tx[i][j], является высокой.
Дополнительный способ для стабилизации мозаичных фрагментов состоит в том, чтобы сохранять порядок мозаичных фрагментов из предыдущего кадра k-1, если ни один из исходных мозаичных фрагментов в текущем кадре k не коррелируется хорошо с целевыми мозаичными фрагментами. Это может происходить, если взаимная корреляция между исходным i и целевым j, представленная как Tx [i][j], является очень низкой для всех i, j.
Например, если:
Tx [i][j]<0,6,
причем здесь используется ориентировочное пороговое значение, то:
tileNum[nTar]k=tileNum[nTar]k-1
для всех nTar этого кадра k.
Две вышеуказанные технологии значительно уменьшают артефакты, которые возникают в результате быстрого изменения заданных номеров мозаичных фрагментов между кадрами. Еще одно дополнительное преимущество этого отсечения и стабилизации мозаичных фрагментов состоит в том, что дополнительная информация не должна отправляться в декодер, и при этом не требуется изменение архитектуры декодера. Это предложенное отсечение мозаичных фрагментов является разумным способом уменьшения потенциальных музыкальных шумоподобных артефактов или избыточного шума в мозаичных спектральных областях.
Фиг. 11a иллюстрирует аудиодекодер для декодирования кодированного аудиосигнала. Аудиодекодер содержит (базовый) аудиодекодер 1102 для формирования первого декодированного представления первого набора первых спектральных частей, причем декодированное представление имеет первое спектральное разрешение.
Кроме того, аудиодекодер содержит параметрический декодер 1104 для формирования второго декодированного представления второго набора вторых спектральных частей, имеющих второе спектральное разрешение ниже первого спектрального разрешения. Кроме того, предоставляется модуль 1106 повторного формирования частоты, который принимает, в качестве первого ввода 1101, декодированные первые спектральные части и, в качестве второго ввода в 1103, параметрическую информацию, включающую в себя, для каждого целевого частотного мозаичного фрагмента или целевой полосы частот восстановления, информацию исходного диапазона. Модуль 1106 повторного формирования частоты затем применяет повторное формирование частоты посредством использования спектральных значений из исходного диапазона, идентифицированного посредством информации совпадения, чтобы формировать спектральные данные для целевого диапазона. Затем первые спектральные части 1101 и вывод модуля 1107 повторного формирования частоты вводятся в спектрально-временной преобразователь 1108, чтобы, в завершение, формировать декодированный аудиосигнал.
Предпочтительно, аудиодекодер 1102 представляет собой аудиодекодер в спектральной области, хотя аудиодекодер также может быть реализован как любой другой аудиодекодер, такой как аудиодекодер во временной области или параметрический аудиодекодер.
Как указано на фиг. 11b, модуль 1106 повторного формирования частоты может содержать функциональности блока 1120, иллюстрирующего модуль выбора исходных диапазонов/модулятор мозаичных фрагментов для нечетных запаздываний, отбеливающего фильтра 1122, когда предоставляется флаг 1123 отбеливания, и дополнительно, спектральной огибающей с функциональностями регулирования, реализованными так, как проиллюстрировано в блоке 1128, с использованием необработанных спектральных данных, сформированных либо посредством блока 1120, либо посредством блока 1122, либо посредством взаимодействия обоих блоков. В любом случае, модуль 1106 повторного формирования частоты может содержать переключатель 1124, активируемый в зависимости от принимаемого флага 1123 отбеливания. Когда флаг отбеливания задается, вывод модуля выбора исходных диапазонов/модулятора мозаичных фрагментов для нечетных запаздываний вводится в отбеливающий фильтр 1122. Тем не менее, затем флаг 1123 отбеливания не задается для определенной полосы частот восстановления, в таком случае активируется обходная линия 1126, так что вывод блока 1120 предоставляется в блок 1128 регулирования спектральной огибающей без отбеливания.
Может быть предусмотрено несколько уровней отбеливания (1123), передаваемых в служебных сигналах в потоке битов, и эти уровни могут передаваться в служебных сигналах в расчете на мозаичный фрагмент. В случае если три уровня передаются в служебных сигналах в расчете на мозаичный фрагмент, они должны быть кодированы следующим образом:
bit=readBit(1);
if(bit==1) {
for(tile_index=0...nT)
/*уровни, идентичные уровню последнего кадра*/
whitening_level[tile_index]=whitening_level_prev_frame[tile_index];
} else {
/*первый мозаичный фрагмент:*/
tile_index=0;
bit=readBit(1);
if(bit==1) {
whitening_level[tile_index]=MID_WHITENING;
} else {
bit=readBit(1);
if(bit==1) {
whitening_level[tile_index]=STRONG_WHITENING;
} else {
whitening_level[tile_index]=OFF;/*без отбеливания*/
}
}
/*оставшиеся мозаичные фрагменты:*/
bit=readBit(1);
if(bit==1) {
/*уровни сглаживания для оставшихся мозаичных фрагментов являются идентичным уровню для первого*/
/*дополнительные биты не должны считываться*/
for(tile_index=1...nT)
whitening_level[tile_index]=whitening_level[0];
} else {
/*считывание битов для оставшихся мозаичных фрагментов, как для первого мозаичного фрагмента*/
for(tile_index=1...nT) {
bit=readBit(1);
if(bit==1) {
whitening_level[tile_index]=MID_WHITENING;
} else {
bit=readBit(1);
if(bit==1) {
whitening_level[tile_index]=STRONG_WHITENING;
} else {
whitening_level[tile_index]=OFF;/*без отбеливания*/
}
}
}
}
}
MID_WHITENING и STRONG_WHITENING означают различные отбеливающие фильтры (1122), которые могут отличаться по способу, которым вычисляется огибающая (как описано выше).
Модуль повторного формирования частоты на стороне декодера может управляться посредством идентификатора 1121 исходного диапазона, когда применяется только схема приблизительного выбора спектральных мозаичных фрагментов. Тем не менее, когда применяется схема настраиваемого выбора спектральных мозаичных фрагментов, в таком случае, дополнительно, предоставляется запаздывание 1119 для исходного диапазона. Кроме того, при условии, что вычисление корреляции предоставляет отрицательный результат, в таком случае, дополнительно, знак корреляции также может применяться к блоку 1120, так что спектральные линии страничных данных умножаются на -1, с тем чтобы учитывать знак минус.
Таким образом, настоящее изобретение, как пояснено на фиг. 11a, 11b, удостоверяется, что получено оптимальное качество звука вследствие того факта, что наилучше совпадающий исходный диапазон для определенного намеченного или целевого диапазона вычисляется на стороне кодера и применяется на стороне декодера.
Фиг. 11c является определенным аудиокодером для кодирования аудиосигнала, содержащим временно-спектральный преобразователь 1130, последующий соединенный спектральный анализатор 1132 и, дополнительно, модуль 1134 вычисления параметров и базовый кодер 1136. Базовый кодер 1136 выводит кодированные исходные диапазоны, и модуль 1134 вычисления параметров выводит информацию совпадения для целевых диапазонов.
Кодированные исходные диапазоны передаются в декодер вместе с информацией совпадения для целевых диапазонов, так что декодер, проиллюстрированный на фиг. 11a, находится в позиции для того, чтобы выполнять повторное формирование частоты.
Модуль 1134 вычисления параметров выполнен с возможностью вычисления подобий между первыми спектральными частями и вторыми спектральными частями и с возможностью определения, на основе вычисленных подобий для второй спектральной части, совпадающей первой спектральной части, совпадающей со второй спектральной частью. Предпочтительно, совпадающие результаты для различных исходных диапазонов и целевых диапазонов, как проиллюстрировано на фиг. 12a, 12b, чтобы определять выбранную совпадающую пару, содержащую вторую спектральную часть, и модуль вычисления параметров выполнен с возможностью предоставления этой информации совпадения, идентифицирующей совпадающую пару, в кодированный аудиосигнал. Предпочтительно, этот модуль 1134 вычисления параметров выполнен с возможностью использования предварительно заданных целевых областей во втором наборе вторых спектральных частей или предварительно заданных исходных областей в первом наборе первых спектральных частей, как проиллюстрировано, например, на фиг. 12b. Предпочтительно, предварительно заданные целевые области являются неперекрывающимися, или предварительно заданные исходные области являются перекрывающимися. Когда предварительно заданные исходные области представляют собой поднабор первого набора первых спектральных частей ниже начальной частоты 309 заполнения интервалов по фиг. 3a, и предпочтительно, предварительно заданная целевая область, покрывающая нижнюю спектральную область, совпадает, в нижней частотной границе, с начальной частотой заполнения интервалов, так что все целевые диапазоны расположены выше начальной частоты заполнения интервалов, а исходные диапазоны расположены ниже начальной частоты заполнения интервалов.
Как пояснено, сверхвысокая степень детализации получена посредством сравнения целевой области с исходной областью без запаздывания для исходной области и с идентичной исходной областью, но с определенным запаздыванием. Эти запаздывания применяются в модуле 1140 вычисления взаимной корреляции по фиг. 11d, и выбор совпадающей пары, в завершение, выполняется посредством модуля 1144 выбора мозаичных фрагментов.
Кроме того, предпочтительно выполнять отбеливание исходных и/или целевых диапазонов, проиллюстрированное в блоке 1142. Этот блок 1142 затем предоставляет флаг отбеливания для потока битов, который используется для управления переключателем 1123 на стороне декодера по фиг. 11b. Кроме того, если модуль 1140 вычисления взаимной корреляции предоставляет отрицательный результат, то этот отрицательный результат также передается в служебных сигналах в декодер. Таким образом, в предпочтительном варианте осуществления, модуль выбора мозаичных фрагментов выводит идентификатор исходного диапазона для целевого диапазона, запаздывание, знак, а блок 1142 дополнительно предоставляет флаг отбеливания.
Кроме того, модуль 1134 вычисления параметров выполнен с возможностью осуществления отсечения 1146 исходных мозаичных фрагментов посредством уменьшения числа потенциальных исходных диапазонов так, что исходное наложение отбрасывается из набора потенциальных исходных мозаичных фрагментов на основе порогового значения подобия. Таким образом, когда два исходных мозаичных фрагмента являются подобными со значением, большим или равным пороговому значению подобия, то один из двух исходных мозаичных фрагментов удаляется из набора потенциальных источников, и удаленный исходный мозаичный фрагмент более не используется для последующей обработки и, в частности, не может выбираться посредством модуля 1144 выбора мозаичных фрагментов, либо не используется для вычисления взаимной корреляции между различными исходными диапазонами и целевыми диапазонами, выполняемого в блоке 1140.
Различные реализации описаны относительно различных чертежей. Фиг. 1a-5c связаны со схемой полноскоростного (с полной полосой пропускания) кодера/декодера. Фиг. 6a-7e связаны со схемой кодера/декодера с TNS- или TTS-обработкой. Фиг. 8a-8e связаны со схемой кодера/декодера с конкретной двухканальной обработкой. Фиг. 9a-10d связаны с конкретным вычислением и применением информации энергии, а фиг. 11a-12c связаны с конкретным способом выбора мозаичных фрагментов.
Все эти различные аспекты могут иметь изобретательское применение независимое друг от друга, но, дополнительно, также могут применяться совместно, как, по существу, проиллюстрировано на фиг. 2a и 2b. Тем не менее, конкретная двухканальная обработка также может применяться к схеме кодера/декодера, проиллюстрированной на фиг. 13, и то же является истинным для TNS/TTS-обработки, вычисления и применения информации энергии огибающей в полосе частот восстановления или адаптивной идентификации исходного диапазона и соответствующего применения на стороне декодера. С другой стороны, полноскоростной аспект может применяться с/без TNS/TTS-обработки, с/без двухканальной обработки, с/без адаптивной идентификации исходного диапазона либо с другими видами вычислений энергии для представления спектральной огибающей. Таким образом, очевидно, что признаки одного из этих отдельных аспектов также могут применяться в других аспектах.
Хотя некоторые аспекты описаны в контексте устройства для кодирования или декодирования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием энергонезависимого носителя хранения данных, такого как цифровой носитель хранения данных, например, гибкий диск, жесткий диск (HDD), DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флэш-память, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Список библиографических ссылок
[1] Dietz, L. Liljeryd, K. Kjörling и O. Kunz "Spectral Band Replication, the novel approach in audio coding", in 112th AES Convention, Мюнхен, май 2002 года.
[2] Ferreira, D. Sinha "Accurate Spectral Replacement", Audio Engineering Society Convention, Барселона, Испания, 2005 год.
[3] D. Sinha, A. Ferreira1 и E. Harinarayanan "A Novel Integrated Audio Bandwidth Extension Toolkit (ABET)", Audio Engineering Society Convention, Париж, Франция, 2006 год.
[4] R. Annadana, E. Harinarayanan, A. Ferreira и D. Sinha "New Results in Low Bit Rate Speech Coding и Bandwidth Extension", Audio Engineering Society Convention, Сан-Франциско, США, 2006 год.
[5] T. Żernicki, M. Bartkowiak "Audio bandwidth extension by frequency scaling of sinusoidal partials", Audio Engineering Society Convention, Сан-Франциско, США, 2008 год.
[6] J. Herre, D. Schulz "Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution", 104th AES Convention, Амстердам, 1998 год, Preprint 4720.
[7] M. Neuendorf, M. Multrus, N. Rettelbach и др. "MPEG Unified Speech и Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types", 132nd AES Convention, Будапешт, Венгрия, апрель 2012 года.
[8] McAulay, Robert J., Quatieri, Thomas F. "Speech Analysis/Synthesis Based on the Sinusoidal Representation". IEEE Transactions on Acoustics, Speech и Signal Processing, издание 34(4), август 1986 года.
[9] Smith, J.O., Serra, X "PARSHL: An analysis/synthesis program for non-harmonic sounds based on the sinusoidal representation", Proceedings of the International Computer Music Conference, 1987 год.
[10] Purnhagen, H.; Meine, Nikolaus "HILN-the MPEG-4 parametric audio coding tools", Circuits и Systems, 2000 Proceedings ISCAS, 2000 год, Женева, The 2000 IEEE International Symposium on, издание 3, номер, стр. 201, 204, том 3, 2000 год.
[11] International Standard ISO/IEC 13818-3 "Generic Coding of Moving Pictures и Associated Audio: Audio", Женева, 1998 год.
[12] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa "MPEG-2 Advanced Audio Coding", 101st AES Convention, Ло-Анжелес, 1996 год
[13] J. Herre "Temporal Noise Shaping, Quantization и Coding methods in Perceptual Audio Coding: A Tutorial introduction", 17th AES International Conference on High Quality Audio Coding, август 1999 года.
[14] J. Herre "Temporal Noise Shaping, Quantization и Coding methods in Perceptual Audio Coding: A Tutorial introduction", 17th AES International Conference on High Quality Audio Coding, август 1999 года.
[15] International Standard ISO/IEC 23001-3:2010 "Unified speech и audio coding Audio", Женева, 2010 год.
[16] International Standard ISO/IEC 14496-3:2005 "Information technology – Coding of audio-visual objects – Part 3: Audio", Женева, 2005 год.
[17] P. Ekstrand "Bandwidth Extension of Audio Signals by Spectral Band Replication", in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, ноябрь 2002 года.
[18] F. Nagel, S. Disch, S. Wilde "A continuous modulated single sideband bandwidth extension", ICASSP International Conference on Acoustics, Speech и Signal Processing, Даллас, Texas (США), апрель 2010 года.

Claims (76)

1. Устройство для формирования декодированного двухканального сигнала, содержащее:
- аудиопроцессор (802) для декодирования кодированного двухканального сигнала для того, чтобы получать первый набор первых спектральных частей;
- параметрический декодер (804) для предоставления параметрических данных для второго набора вторых спектральных частей и двухканального идентификатора, идентифицирующего первое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей или второе другое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей; и
- модуль (806) повторного формирования частоты для повторного формирования второй спектральной части из второго набора вторых спектральных частей в зависимости от первой спектральной части из первого набора первых спектральных частей, параметрических данных для второй спектральной части из второго набора вторых спектральных частей и двухканального идентификатора для второй спектральной части из второго набора вторых спектральных частей,
- при этом аудиопроцессор выполнен с возможностью декодировать первый набор первых спектральных частей в соответствии с дополнительным двухканальным идентификатором для первого набора первых спектральных частей, причем дополнительный двухканальный идентификатор идентифицирует первое двухканальное представление для первой спектральной части из первого набора первых спектральных частей или второе другое двухканальное представление для первой спектральной части из первого набора первых спектральных частей, и преобразовывать (832) первый набор первых спектральных частей таким образом, что получаются первое двухканальное представление первых спектральных частей из первого набора первых спектральных частей и второе двухканальное представление первых спектральных частей из первого набора первых спектральных частей, и
- при этом модуль (806) повторного формирования частоты выполнен с возможностью использовать либо первое двухканальное представление первого набора первых спектральных частей, либо второе двухканальное представление первого набора первых спектральных частей, как указано в двухканальном идентификаторе для второй спектральной части из второго набора вторых спектральных частей.
2. Устройство по п. 1, в котором двухканальный идентификатор идентифицирует либо отдельную обработку двух каналов кодированного двухканального сигнала, либо объединенную обработку двух каналов кодированного двухканального сигнала, и
- при этом модуль (806) повторного формирования частоты выполнен с возможностью повторного формирования второй спектральной части из второго набора вторых спектральных частей для первого канала из двух каналов и второй спектральной части из второго набора вторых спектральных частей для второго канала из двух каналов с использованием первой части первого канала и первой части второго канала, при этом первая часть первого канала и первая часть второго канала находятся в двухканальном представлении, идентифицированном посредством двухканального идентификатора для второй спектральной части из второго набора вторых спектральных частей.
3. Устройство по п. 1,
- в котором двухканальный идентификатор идентифицирует либо отдельную обработку двух каналов кодированного двухканального сигнала, либо объединенную обработку двух каналов кодированного двухканального сигнала, и
- при этом модуль (806) повторного формирования частоты выполнен с возможностью повторного формирования объединенного представления двух каналов во второй спектральной части из второго набора вторых спектральных частей, идентифицированного посредством двухканального идентификатора, и
- при этом модуль (806) повторного формирования частоты дополнительно содержит модуль (842) преобразования представлений для преобразования объединенного представления второй спектральной части из второго набора вторых спектральных частей в отдельное представление для второй спектральной части из второго набора вторых спектральных частей.
4. Устройство по п. 3, в котором модуль преобразования представлений использует дополнительные параметры объединенного представления для преобразования представления.
5. Устройство по п. 3, в котором объединенное представление является средним/боковым представлением, при этом модуль преобразования представлений выполнен с возможностью работать на основе следующего уравнения:
Figure 00000118
Figure 00000119
- где leftTile и rightTile являются отдельным представлением для второй спектральной части из второго набора вторых спектральных частей и где midTile и sideTile являются объединенным представлением для второй спектральной части из второго набора вторых спектральных частей.
6. Устройство по п. 3, в котором объединенное представление является представлением, содержащим дополнительный коэффициент прогнозирования, при этом модуль преобразования представлений выполнен с возможностью работать на основе следующего уравнения:
Figure 00000120
- когда направление прогнозирования задается от среднего к боковому, или
Figure 00000121
- когда направление прогнозирования указывается от бокового к среднему,
- где leftTile и rightTile являются отдельным представлением для второй спектральной части из второго набора вторых спектральных частей, и где midTile и sideTile являются объединенным представлением для второй спектральной части из второго набора вторых спектральных частей, и где predictionCoefficient является дополнительным коэффициентом прогнозирования.
7. Устройство по п. 1,
- в котором параметрические данные для второго набора вторых спектральных частей отдельно приводятся для каждого канала двухканального представления, и
- при этом модуль (806) повторного формирования частоты выполнен с возможностью преобразования (840) параметрических данных для второй спектральной части из второго набора вторых спектральных частей в объединенное представление для второй спектральной части из второго набора вторых спектральных частей и применения параметрических данных к объединенному представлению первой спектральной части из первого набора первых спектральных частей, когда двухканальный идентификатор идентифицирует объединенное представление для второй спектральной части из второго набора вторых спектральных частей.
8. Устройство по п. 1, в котором вторые спектральные части из второго набора вторых спектральных частей соответствуют полосам частот, при этом двухканальный идентификатор представляет собой массив флагов, по одному флагу для каждой полосы частот, при этом параметрический декодер (804) выполнен с возможностью проверять то, задается флаг или нет, и управлять повторным формированием частоты в соответствии с флагом, чтобы использовать либо первое двухканальное представление, либо второе двухканальное представление первой спектральной части из первого набора первых спектральных частей кодированного двухканального сигнала.
9. Устройство по п. 1, в котором параметрический декодер (804) выполнен с возможностью предоставлять дополнительный двухканальный идентификатор для первого набора первых спектральных частей, указывающих первое или второе другое двухканальное представление для первой спектральной части из первого набора первых спектральных частей, и
- при этом устройство выполнено с возможностью декодирования второго двухканального представления, как указано посредством двухканального идентификатора для первой спектральной части из первого набора первых спектральных частей, и
- при этом модуль (806) повторного формирования частоты выполнен с возможностью преобразования (832) второго двухканального представления в первое двухканальное представление после базового декодирования (830).
10. Устройство по п. 1, дополнительно содержащее модуль (846) комбинирования для комбинирования первого набора первых спектральных частей, сформированных посредством аудиопроцессора (802), и восстановленной второй спектральной части из второго набора вторых спектральных частей, сформированной посредством модуля (806) повторного формирования частоты, чтобы получать декодированный двухканальный сигнал.
11. Устройство по п. 1,
- в котором параметрический декодер выполнен с возможностью дополнительно предоставлять для второй спектральной части из второго набора вторых спектральных частей идентификатор (1121) исходной полосы частот, указывающий конкретную первую спектральную часть из первого набора первых спектральных частей, которая должна быть использована для повторного формирования второй спектральной части из второго набора вторых спектральных частей, и
- при этом модуль (806) повторного формирования частоты выполнен с возможностью повторно формировать вторую спектральную часть из второго набора вторых спектральных частей с использованием первой спектральной части из первого набора первых спектральных частей, идентифицированной посредством идентификатора (833) исходной полосы частот.
12. Устройство по п. 1,
- при этом модуль (806) повторного формирования частоты содержит модуль (832) преобразования представлений для предоставления первого и второго двухканального представления первого набора первых спектральных частей, сформированных посредством аудиопроцессора (802),
- при этом модуль (806) повторного формирования частоты дополнительно содержит модуль (836) формирования частотных мозаичных фрагментов для формирования необработанных данных для каждого канала канального представления, идентифицированного посредством двухканального идентификатора, и использования идентификатора (833) исходного диапазона, указывающего первые спектральные части из первого набора первых спектральных частей, которые должны быть использованы для формирования необработанных данных,
- при этом модуль (806) повторного формирования частоты дополнительно содержит модуль (840) преобразования параметров для преобразования параметров, предоставленных в первом двухканальном представлении, во второе двухканальное представление для параметров, когда необработанные данные для каждого канала предоставляются во втором двухканальном представлении посредством модуля (836) формирования частотных мозаичных фрагментов,
- при этом модуль (806) повторного формирования частоты дополнительно содержит модуль (838) регулирования огибающей для регулирования огибающей каждого канала двухканального представления, причем двухканальное представление представляет собой второе двухканальное представление,
- при этом модуль (806) повторного формирования частоты дополнительно содержит модуль (842) преобразования представлений для преобразования двухканального представления спектральных значений во второй спектральной части из второго набора вторых спектральных частей в первое двухканальное представление,
- при этом устройство дополнительно содержит частотно-временной преобразователь (846) для преобразования представления, сформированного посредством модуля (842) преобразования представлений, из спектральной области во временную область.
13. Аудиодекодер по п. 1, в котором первое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей и второе другое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей выбираются из группы двухканальных представлений, содержащей левое/правое двухканальное представление, среднее/боковое двухканальное представление и двухканальное представление низведение/остаток, и
при этом первое двухканальное представление для первой спектральной части из первого набора первых спектральных частей и второе другое двухканальное представление для первой спектральной части из первого набора первых спектральных частей выбираются из группы двухканальных представлений, содержащей левое/правое двухканальное представление, среднее/боковое двухканальное представление и двухканальное представление низведение/остаток.
14. Аудиокодер для кодирования двухканального аудиосигнала, содержащий:
- временно-спектральный преобразователь (860) для преобразования двухканального аудиосигнала в спектральное представление;
- спектральный анализатор (866) для предоставления индикатора первого набора первых спектральных частей, которые должны быть кодированы с первым спектральным разрешением, и второго набора вторых спектральных частей, которые должны быть кодированы посредством второго спектрального разрешения, причем второе спектральное разрешение меньше первого спектрального разрешения,
- двухканальный анализатор (864) для анализа полос частот двухканального аудиосигнала в диапазоне восстановления, чтобы определять двухканальный идентификатор для полосы частот восстановления, причем двухканальный идентификатор идентифицирует первое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей в полосе частот восстановления или второе другое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей в полосе частот восстановления, при этом полоса частот восстановления содержит вторую спектральную часть из второго набора вторых спектральных частей;
- базовый кодер (870) для кодирования первого набора первых спектральных частей, чтобы предоставлять первое кодированное представление; и
- модуль (868) кодирования параметров для вычисления параметрических данных в отношении второго набора вторых спектральных частей, чтобы получать кодированное параметрическое представление,
- при этом кодированный двухканальный аудиосигнал содержит первое кодированное представление, кодированное параметрическое представление и двухканальный идентификатор для второй спектральной части из второго набора вторых спектральных частей в полосе частот восстановления.
15. Аудиокодер по п. 14, дополнительно содержащий модуль (862) преобразования для каждой полосы частот для преобразования первых спектральных частей из первого набора первых спектральных частей в двухканальное представление, указываемое посредством двухканального идентификатора, при этом спектральный анализатор (866) выполнен с возможностью анализа двухканального представления, выводимого посредством модуля (862) преобразования для каждой полосы частот.
16. Аудиокодер по п. 14,
- в котором двухканальный анализатор (864) выполнен с возможностью выполнения вычисления корреляции между второй спектральной частью из второго набора вторых спектральных частей первого канала двухканального представления и второй спектральной частью из второго набора вторых спектральных частей двух каналов двухканального представления, чтобы определять либо отдельное двухканальное представление, либо объединенное двухканальное представление.
17. Аудиокодер по п. 14,
- в котором спектральный анализатор (866) выполнен с возможностью сравнения совпадающих результатов для различных спектральных частей по меньшей мере одного канала двухканального представления с другой первой спектральной частью из первого набора первых спектральных частей по меньшей мере одного канала двухканального представления, чтобы определять совпадающую пару из первой спектральной части из первого набора первых спектральных частей по меньшей мере одного канала и второй спектральной части из второго набора вторых спектральных частей по меньшей мере одного канала и предоставлять индикатор (833) совпадения для наилучшей совпадающей пары, и
- при этом аудиокодер выполнен с возможностью выводить, в дополнение к кодированному двухканальному аудиосигналу, индикатор (833) совпадения для второй спектральной части из второго набора вторых спектральных частей.
18. Аудиокодер по п. 14, дополнительно содержащий модуль (862) преобразования для каждой полосы частот, имеющий вход, соединенный с выходом временно-спектрального преобразователя (860),
- в котором спектральный анализатор (866) выполнен с возможностью принимать в качестве ввода вывод модуля (862) преобразования для каждой полосы частот;
- при этом двухканальный анализатор (864) выполнен с возможностью анализа вывода временно-спектрального преобразователя (860) и предоставления результата анализа, чтобы управлять модулем (862) преобразования для каждой полосы частот,
- при этом аудиокодер выполнен с возможностью кодировать вывод модуля (862) преобразования для каждой полосы частот, управляемого посредством спектрального анализатора (866), так что только первый набор первых спектральных частей из первого набора первых спектральных частей кодируется посредством базового кодера (870), и
- при этом модуль (868) вычисления параметров выполнен с возможностью параметрически кодировать второй набор вторых спектральных частей, как указано посредством спектрального анализатора (866) в выводе модуля (862) преобразования для каждой полосы частот.
19. Способ формирования декодированного двухканального сигнала, содержащий этапы, на которых:
- декодируют (802) кодированный двухканальный сигнал, чтобы получать первый набор первых спектральных частей;
- предоставляют (804) параметрические данные для второго набора вторых спектральных частей и двухканальный идентификатор, идентифицирующий первое двухканальное представление для вторых спектральных частей или второе другое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей; и
- повторно формируют (806) вторую спектральную часть из второго набора вторых спектральных частей в зависимости от первой спектральной части из первого набора первых спектральных частей, параметрических данных для второй спектральной части из второго набора вторых спектральных частей и двухканального идентификатора для второй спектральной части из второго набора вторых спектральных частей,
- при этом декодирование (802) содержит этап, на котором декодируют первый набор первых спектральных частей в соответствии с дополнительным двухканальным идентификатором для первого набора первых спектральных частей, причем дополнительный двухканальный идентификатор идентифицирует первое двухканальное представление для первой спектральной части из первого набора первых спектральных частей или второе другое двухканальное представление для первой спектральной части из первого набора первых спектральных частей, и преобразуют (832) первый набор первых спектральных частей таким образом, что получаются первое двухканальное представление первых спектральных частей из первого набора первых спектральных частей и второе двухканальное представление первых спектральных частей из первого набора первых спектральных частей, и
- при этом повторное формирование (806) содержит этап, на котором используют либо первое двухканальное представление первого набора первых спектральных частей, либо второе двухканальное представление первого набора первых спектральных частей, как указано в двухканальном идентификаторе для второй спектральной части из второго набора вторых спектральных частей.
20. Способ кодирования двухканального аудиосигнала, содержащий этапы, на которых:
- преобразуют (860) двухканальный аудиосигнал в спектральное представление;
- предоставляют (866) индикатор первого набора первых спектральных частей, которые должны быть кодированы с первым спектральным разрешением, и второго набора вторых спектральных частей, которые должны быть кодированы посредством второго спектрального разрешения, причем второе спектральное разрешение меньше первого спектрального разрешения;
- анализируют (864) полосы частот двухканального аудиосигнала в диапазоне восстановления, чтобы определять двухканальный идентификатор для полосы частот восстановления, причем двухканальный идентификатор идентифицирует первое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей в полосе частот восстановления или второе другое двухканальное представление для второй спектральной части из второго набора вторых спектральных частей в полосе частот восстановления, при этом полоса частот восстановления содержит вторую спектральную часть из второго набора вторых спектральных частей;
- кодируют (870) первый набор первых спектральных частей, чтобы предоставлять первое кодированное представление; и
- вычисляют (868) параметрические данные для второго набора вторых спектральных частей, чтобы получать кодированное параметрическое представление,
- при этом кодированный двухканальный аудиосигнал содержит первое кодированное представление, кодированное параметрическое представление и двухканальный идентификатор для второй спектральной части из второго набора вторых спектральных частей в полосе частот восстановления.
21. Машиночитаемый носитель, хранящий компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 19.
22. Машиночитаемый носитель, хранящий компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 20.
RU2016105613A 2013-07-22 2014-07-15 Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала RU2646316C2 (ru)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
EPEP13177348 2013-07-22
EPEP13177346 2013-07-22
EP13177346 2013-07-22
EPEP13177353 2013-07-22
EPEP13177350 2013-07-22
EP13177348 2013-07-22
EP13177350 2013-07-22
EP13177353 2013-07-22
EPEP13189366 2013-10-18
EP13189366.1A EP2830054A1 (en) 2013-07-22 2013-10-18 Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
PCT/EP2014/065106 WO2015010947A1 (en) 2013-07-22 2014-07-15 Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework

Publications (2)

Publication Number Publication Date
RU2016105613A RU2016105613A (ru) 2017-08-28
RU2646316C2 true RU2646316C2 (ru) 2018-03-02

Family

ID=49385156

Family Applications (7)

Application Number Title Priority Date Filing Date
RU2016105619A RU2649940C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для декодирования или кодирования звукового сигнала с использованием значений информации энергии для полосы частот восстановления
RU2016105473A RU2643641C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для декодирования и кодирования аудиосигнала с использованием адаптивного выбора спектральных фрагментов
RU2016105759A RU2635890C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для кодирования или декодирования звукового сигнала с интеллектуальным заполнением интервалов в спектральной области
RU2016105613A RU2646316C2 (ru) 2013-07-22 2014-07-15 Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала
RU2015112591A RU2607263C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений
RU2016105610A RU2640634C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для декодирования кодированного аудиосигнала с использованием фильтра разделения вокруг частоты перехода
RU2016105618A RU2651229C2 (ru) 2013-07-22 2014-07-15 Устройство, способ и компьютерная программа для декодирования кодированного аудиосигнала

Family Applications Before (3)

Application Number Title Priority Date Filing Date
RU2016105619A RU2649940C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для декодирования или кодирования звукового сигнала с использованием значений информации энергии для полосы частот восстановления
RU2016105473A RU2643641C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для декодирования и кодирования аудиосигнала с использованием адаптивного выбора спектральных фрагментов
RU2016105759A RU2635890C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для кодирования или декодирования звукового сигнала с интеллектуальным заполнением интервалов в спектральной области

Family Applications After (3)

Application Number Title Priority Date Filing Date
RU2015112591A RU2607263C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений
RU2016105610A RU2640634C2 (ru) 2013-07-22 2014-07-15 Устройство и способ для декодирования кодированного аудиосигнала с использованием фильтра разделения вокруг частоты перехода
RU2016105618A RU2651229C2 (ru) 2013-07-22 2014-07-15 Устройство, способ и компьютерная программа для декодирования кодированного аудиосигнала

Country Status (20)

Country Link
US (23) US10332539B2 (ru)
EP (20) EP2830064A1 (ru)
JP (12) JP6306702B2 (ru)
KR (7) KR101774795B1 (ru)
CN (12) CN105518777B (ru)
AU (7) AU2014295296B2 (ru)
BR (12) BR112015007533B1 (ru)
CA (8) CA2918804C (ru)
ES (9) ES2908624T3 (ru)
HK (1) HK1211378A1 (ru)
MX (7) MX356161B (ru)
MY (5) MY184847A (ru)
PL (8) PL3025343T3 (ru)
PT (7) PT3407350T (ru)
RU (7) RU2649940C2 (ru)
SG (7) SG11201600494UA (ru)
TR (1) TR201816157T4 (ru)
TW (7) TWI555009B (ru)
WO (7) WO2015010952A1 (ru)
ZA (5) ZA201502262B (ru)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2831875T3 (pl) 2012-03-29 2016-05-31 Ericsson Telefon Ab L M Rozszerzenie pasma harmonicznego sygnału audio
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
MX353200B (es) 2014-03-14 2018-01-05 Ericsson Telefon Ab L M Método y aparato de codificación de audio.
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10424305B2 (en) * 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
GB201504403D0 (en) 2015-03-16 2015-04-29 Microsoft Technology Licensing Llc Adapting encoded bandwidth
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
MY188905A (en) * 2016-01-22 2022-01-13 Fraunhofer Ges Forschung Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
BR112018014689A2 (pt) 2016-01-22 2018-12-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho e método para codificação ou decodificação de um sinal multicanal utilizando um parâmetro de alinhamento de banda larga e uma pluralidade de parâmetros de alinhamento de banda estreita
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
DE102016104665A1 (de) 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10741196B2 (en) 2016-03-24 2020-08-11 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US10141005B2 (en) 2016-06-10 2018-11-27 Apple Inc. Noise detection and removal systems, and related methods
JP6976277B2 (ja) 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
US10812550B1 (en) * 2016-08-03 2020-10-20 Amazon Technologies, Inc. Bitrate allocation for a multichannel media stream
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
US10362423B2 (en) 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
US10090892B1 (en) * 2017-03-20 2018-10-02 Intel Corporation Apparatus and a method for data detecting using a low bit analog-to-digital converter
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10354668B2 (en) 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382704A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
KR102332153B1 (ko) 2017-05-18 2021-11-26 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 네트워크 디바이스 관리
US11188422B2 (en) 2017-06-02 2021-11-30 Apple Inc. Techniques for preserving clone relationships between files
AU2018289986B2 (en) * 2017-06-19 2022-06-09 Rtx A/S Audio signal encoding and decoding
JP7257975B2 (ja) 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
JP6904209B2 (ja) * 2017-07-28 2021-07-14 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
TW202424961A (zh) 2018-01-26 2024-06-16 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
WO2019155603A1 (ja) * 2018-02-09 2019-08-15 三菱電機株式会社 音響信号処理装置及び音響信号処理方法
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
EP3576088A1 (en) 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
BR112020026967A2 (pt) * 2018-07-04 2021-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificação de áudio de multissinal usando branqueamento de sinal como pré-processamento
CN109088617B (zh) * 2018-09-20 2021-06-04 电子科技大学 比率可变数字重采样滤波器
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
CN113302688B (zh) * 2019-01-13 2024-10-11 华为技术有限公司 高分辨率音频编解码
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
WO2020185522A1 (en) * 2019-03-14 2020-09-17 Boomcloud 360, Inc. Spatially aware multiband compression system with priority
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
MX2022001162A (es) 2019-07-30 2022-02-22 Dolby Laboratories Licensing Corp Coordinacion de dispositivos de audio.
DE102020210917B4 (de) 2019-08-30 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verbesserter M/S-Stereo-Codierer und -Decodierer
TWI702780B (zh) 2019-12-03 2020-08-21 財團法人工業技術研究院 提升共模瞬變抗擾度的隔離器及訊號產生方法
CN111862953B (zh) * 2019-12-05 2023-08-22 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
US11158297B2 (en) * 2020-01-13 2021-10-26 International Business Machines Corporation Timbre creation system
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
US20230085013A1 (en) * 2020-01-28 2023-03-16 Hewlett-Packard Development Company, L.P. Multi-channel decomposition and harmonic synthesis
CN111199743B (zh) * 2020-02-28 2023-08-18 Oppo广东移动通信有限公司 音频编码格式确定方法、装置、存储介质及电子设备
CN111429925B (zh) * 2020-04-10 2023-04-07 北京百瑞互联技术有限公司 一种降低音频编码速率的方法及系统
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN111371459B (zh) * 2020-04-26 2023-04-18 宁夏隆基宁光仪表股份有限公司 一种适用于智能电表的多操作高频替换式数据压缩方法
CN113808596A (zh) 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597B (zh) * 2020-05-30 2024-10-29 华为技术有限公司 一种音频编码方法和音频编码装置
WO2022046155A1 (en) * 2020-08-28 2022-03-03 Google Llc Maintaining invariance of sensory dissonance and sound localization cues in audio codecs
CN113113033A (zh) * 2021-04-29 2021-07-13 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、设备及可读存储介质
CN113365189B (zh) * 2021-06-04 2022-08-05 上海傅硅电子科技有限公司 多声道无缝切换方法
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113593604B (zh) * 2021-07-22 2024-07-19 腾讯音乐娱乐科技(深圳)有限公司 检测音频质量方法、装置及存储介质
TWI794002B (zh) * 2022-01-28 2023-02-21 緯創資通股份有限公司 多媒體系統以及多媒體操作方法
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统
WO2023224665A1 (en) * 2022-05-17 2023-11-23 Google Llc Asymmetric and adaptive strength for windowing at encoding and decoding time for audio compression
WO2024085551A1 (ko) * 2022-10-16 2024-04-25 삼성전자주식회사 패킷 손실 은닉을 위한 전자 장치 및 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060031075A1 (en) * 2004-08-04 2006-02-09 Yoon-Hark Oh Method and apparatus to recover a high frequency component of audio data
US7328161B2 (en) * 2002-07-11 2008-02-05 Samsung Electronics Co., Ltd. Audio decoding method and apparatus which recover high frequency component with small computation
RU2323469C2 (ru) * 2003-10-02 2008-04-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки, по меньшей мере, двух входных значений
RU2325708C2 (ru) * 2003-10-02 2008-05-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ обработки сигнала, имеющего последовательность дискретных значений
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
RU2422922C1 (ru) * 2007-06-08 2011-06-27 Долби Лэборетериз Лайсенсинг Корпорейшн Гибридное извлечение аудиоканалов объемного звука посредством управляемого объединения компонент сигналов окружения и компонент матрично-декодируемых сигналов
US8473301B2 (en) * 2007-11-02 2013-06-25 Huawei Technologies Co., Ltd. Method and apparatus for audio decoding

Family Cites Families (257)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62234435A (ja) * 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
JP3465697B2 (ja) * 1993-05-31 2003-11-10 ソニー株式会社 信号記録媒体
DE69429499T2 (de) 1993-05-31 2002-05-16 Sony Corp., Tokio/Tokyo Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium
TW272341B (ru) * 1993-07-16 1996-03-11 Sony Co Ltd
GB2281680B (en) 1993-08-27 1998-08-26 Motorola Inc A voice activity detector for an echo suppressor and an echo suppressor
BE1007617A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
JPH07336231A (ja) * 1994-06-13 1995-12-22 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
BR9609799A (pt) 1995-04-10 1999-03-23 Corporate Computer System Inc Sistema para compressão e descompressão de sinais de áudio para transmissão digital
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US5913191A (en) 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6253165B1 (en) * 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6453289B1 (en) 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6061555A (en) 1998-10-21 2000-05-09 Parkervision, Inc. Method and system for ensuring reception of a communications signal
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP3762579B2 (ja) 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
DE60019268T2 (de) * 1999-11-16 2006-02-02 Koninklijke Philips Electronics N.V. Breitbandiges audio-übertragungssystem
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
BRPI0113271B1 (pt) * 2000-08-16 2016-01-26 Dolby Lab Licensing Corp método para modificar a operação da função codificadora e/ou da função decodificadora de um sistema de codificação perceptual de acordo com informação suplementar
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
KR100601748B1 (ko) 2001-01-22 2006-07-19 카나스 데이터 코포레이션 디지털 음성 데이터의 부호화 방법 및 복호화 방법
JP2002268693A (ja) 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7260541B2 (en) * 2001-07-13 2007-08-21 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
CN1288626C (zh) * 2001-10-25 2006-12-06 皇家飞利浦电子股份有限公司 利用减少的带宽在传输通道上传输宽带音频信号的方法
JP3923783B2 (ja) * 2001-11-02 2007-06-06 松下電器産業株式会社 符号化装置及び復号化装置
JP4308229B2 (ja) 2001-11-14 2009-08-05 パナソニック株式会社 符号化装置および復号化装置
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
WO2003065353A1 (en) 2002-01-30 2003-08-07 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
EP1500085B1 (en) * 2002-04-10 2013-02-20 Koninklijke Philips Electronics N.V. Coding of stereo signals
US20030220800A1 (en) * 2002-05-21 2003-11-27 Budnikov Dmitry N. Coding multichannel audio signals
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
AU2003232175A1 (en) 2002-06-12 2003-12-31 Equtech Aps Method of digital equalisation of a sound from loudspeakers in rooms and use of the method
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
ES2334934T3 (es) 2002-09-04 2010-03-17 Microsoft Corporation Codificacion de entropia por adaptacion de codificacion entre modalidades de nivel y de longitud de sucesion y nivel.
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
RU2244386C2 (ru) 2003-03-28 2005-01-10 Корпорация "Самсунг Электроникс" Способ восстановления высокочастотной составляющей аудиосигнала и устройство для его реализации
DE602004005020T2 (de) 2003-04-17 2007-10-31 Koninklijke Philips Electronics N.V. Audiosignalsynthese
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
CN1839426A (zh) * 2003-09-17 2006-09-27 北京阜国数字技术有限公司 多分辨率矢量量化的音频编解码方法及装置
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
CN1875402B (zh) 2003-10-30 2012-03-21 皇家飞利浦电子股份有限公司 音频信号编码或解码
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007200B3 (de) 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
SG10201605609PA (en) 2004-03-01 2016-08-30 Dolby Lab Licensing Corp Multichannel Audio Coding
US7739119B2 (en) 2004-03-02 2010-06-15 Ittiam Systems (P) Ltd. Technique for implementing Huffman decoding
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2005096274A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
WO2005098824A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
WO2005104094A1 (ja) 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. 符号化装置
KR20070009644A (ko) * 2004-04-27 2007-01-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
WO2005112001A1 (ja) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
JP2006003580A (ja) 2004-06-17 2006-01-05 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号符号化方法
US7465389B2 (en) 2004-07-09 2008-12-16 Exxonmobil Research And Engineering Company Production of extra-heavy lube oils from Fischer-Tropsch wax
US6963405B1 (en) 2004-07-19 2005-11-08 Itt Manufacturing Enterprises, Inc. Laser counter-measure using fourier transform imaging spectrometers
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
WO2006049204A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法
US7983904B2 (en) 2004-11-05 2011-07-19 Panasonic Corporation Scalable decoding apparatus and scalable encoding apparatus
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
US8229749B2 (en) * 2004-12-10 2012-07-24 Panasonic Corporation Wide-band encoding device, wide-band LSP prediction device, band scalable encoding device, wide-band encoding method
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
CN101184979B (zh) * 2005-04-01 2012-04-25 高通股份有限公司 用于高频带激励产生的系统、方法和设备
EP1864283B1 (en) 2005-04-01 2013-02-13 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
JP4804532B2 (ja) * 2005-04-15 2011-11-02 ドルビー インターナショナル アクチボラゲット 無相関信号の包絡線整形
WO2006116024A2 (en) * 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
US7698143B2 (en) 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
JP2006323037A (ja) * 2005-05-18 2006-11-30 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置
WO2006126856A2 (en) 2005-05-26 2006-11-30 Lg Electronics Inc. Method of encoding and decoding an audio signal
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
EP1892702A4 (en) * 2005-06-17 2010-12-29 Panasonic Corp POST-FILTER, DECODER AND POST-FILTRATION METHOD
US8082157B2 (en) 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8050915B2 (en) * 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
CN100539437C (zh) 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
JP4640020B2 (ja) 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
EP1920635B1 (en) 2005-08-30 2010-01-13 LG Electronics Inc. Apparatus and method for decoding an audio signal
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
KR100866885B1 (ko) * 2005-10-20 2008-11-04 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US8620644B2 (en) 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR20070046752A (ko) * 2005-10-31 2007-05-03 엘지전자 주식회사 신호 처리 방법 및 장치
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
TR201808453T4 (tr) * 2006-01-27 2018-07-23 Dolby Int Ab Bir kompleks modüle filtre bankası ile verimli filtreleme.
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
AR061807A1 (es) * 2006-07-04 2008-09-24 Coding Tech Ab Compresor de filtro y metodo para fabricar respuestas al impulso de filtro de subbanda comprimida
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
WO2008031458A1 (en) 2006-09-13 2008-03-20 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
DE602007001460D1 (de) 2006-10-25 2009-08-13 Fraunhofer Ges Forschung Vorrichtung und verfahren zur erzeugung von audio-subband-werten und vorrichtung und verfahren zur erzeugung von zeit-domänen-audio-beispielen
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5231243B2 (ja) 2006-11-28 2013-07-10 パナソニック株式会社 符号化装置及び符号化方法
WO2008072524A1 (ja) 2006-12-13 2008-06-19 Panasonic Corporation オーディオ信号符号化方法及び復号化方法
US8200351B2 (en) 2007-01-05 2012-06-12 STMicroelectronics Asia PTE., Ltd. Low power downmix energy equalization in parametric stereo encoders
US8634577B2 (en) 2007-01-10 2014-01-21 Koninklijke Philips N.V. Audio decoder
CN101622669B (zh) * 2007-02-26 2013-03-13 高通股份有限公司 用于信号分离的系统、方法及设备
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
JP5294713B2 (ja) 2007-03-02 2013-09-18 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR101355376B1 (ko) 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
CN101325059B (zh) * 2007-06-15 2011-12-21 华为技术有限公司 语音编解码收发方法及装置
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
EP2186089B1 (en) * 2007-08-27 2018-10-03 Telefonaktiebolaget LM Ericsson (publ) Method and device for perceptual spectral decoding of an audio signal including filling of spectral holes
EP2186086B1 (en) * 2007-08-27 2013-01-23 Telefonaktiebolaget L M Ericsson (PUBL) Adaptive transition frequency between noise fill and bandwidth extension
DE102007048973B4 (de) 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
AU2008326956B2 (en) 2007-11-21 2011-02-17 Lg Electronics Inc. A method and an apparatus for processing a signal
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
EP2229676B1 (en) 2007-12-31 2013-11-06 LG Electronics Inc. A method and an apparatus for processing an audio signal
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
US20090180531A1 (en) 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
EP2248263B1 (en) 2008-01-31 2012-12-26 Agency for Science, Technology And Research Method and device of bitrate distribution/truncation for scalable audio coding
BRPI0907508B1 (pt) * 2008-02-14 2020-09-15 Dolby Laboratories Licensing Corporation Método, sistema e método para modificar uma entrada estéreo que inclui sinais de entrada esquerdo e direito
JP5536674B2 (ja) 2008-03-04 2014-07-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 入力データストリームのミキシング及びそこからの出力データストリームの生成
CA2715432C (en) * 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
EP3296992B1 (en) 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
KR20090110244A (ko) 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
CA2721702C (en) * 2008-05-09 2016-09-27 Nokia Corporation Apparatus and methods for audio encoding reproduction
US20090319263A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2346029B1 (en) * 2008-07-11 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and corresponding computer program
BRPI0910523B1 (pt) 2008-07-11 2021-11-09 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para gerar dados de saída de extensão de largura de banda
ES2372014T3 (es) 2008-07-11 2012-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para calcular datos de ampliación de ancho de banda utilizando un encuadre controlado por pendiente espectral.
EP2311033B1 (en) 2008-07-11 2011-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Providing a time warp activation signal and encoding an audio signal therewith
BR122021003142B1 (pt) 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
EP2301019B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
KR101223835B1 (ko) 2008-07-11 2013-01-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 합성기 및 오디오 신호 인코더
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
WO2010028292A1 (en) 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8463603B2 (en) 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
WO2010031049A1 (en) 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
CN102160114B (zh) * 2008-09-17 2012-08-29 法国电信公司 用于对数字音频信号中的前回声进行衰减的方法和装置
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
ES2674386T3 (es) 2008-12-15 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio y decodificador de extensión de ancho de banda
JP5423684B2 (ja) * 2008-12-19 2014-02-19 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
ES2904373T3 (es) 2009-01-16 2022-04-04 Dolby Int Ab Transposición armónica mejorada de producto cruzado
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
BR122019023877B1 (pt) * 2009-03-17 2021-08-17 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
CN101556799B (zh) 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
TWI484481B (zh) * 2009-05-27 2015-05-11 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
PL2273493T3 (pl) 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
AU2010269127B2 (en) 2009-07-07 2015-01-22 Garrett Thermal Systems Limited Chamber condition
US8793617B2 (en) * 2009-07-30 2014-07-29 Microsoft Corporation Integrating transport modes into a communication stream
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
JP5678071B2 (ja) * 2009-10-08 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
KR101137652B1 (ko) 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
CA2862712C (en) 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore
KR101411759B1 (ko) 2009-10-20 2014-06-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
PL3998606T3 (pl) * 2009-10-21 2023-03-06 Dolby International Ab Nadrpóbkowanie w połączonym banku filtrów modułu transpozycji
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CA2780971A1 (en) 2009-11-19 2011-05-26 Telefonaktiebolaget L M Ericsson (Publ) Improved excitation signal bandwidth extension
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
PT2510515E (pt) 2009-12-07 2014-05-23 Dolby Lab Licensing Corp Descodificação de fluxos de bits de codificação de áudio multicanal utilizando transformação híbrida adaptativa
KR101764926B1 (ko) 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
UA101291C2 (ru) * 2009-12-16 2013-03-11 Долби Интернешнл Аб Сводка параметров последовательности бит sbr
KR101423737B1 (ko) * 2010-01-21 2014-07-24 한국전자통신연구원 오디오 신호의 디코딩 방법 및 장치
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
EP4148729A1 (en) * 2010-03-09 2023-03-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and program for downsampling an audio signal
EP2369861B1 (en) 2010-03-25 2016-07-27 Nxp B.V. Multi-channel audio signal processing
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
MX2012011530A (es) * 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
ES2958392T3 (es) 2010-04-13 2024-02-08 Fraunhofer Ges Forschung Método de decodificación de audio para procesar señales de audio estéreo usando una dirección de predicción variable
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CA2800613C (en) 2010-04-16 2016-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for generating a wideband signal using guided bandwidth extension and blind bandwidth extension
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
ES2565959T3 (es) 2010-06-09 2016-04-07 Panasonic Intellectual Property Corporation Of America Método de extensión del ancho de banda, aparato de extensión del ancho de banda, programa, circuito integrado y aparato de decodificación de audio
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8831933B2 (en) * 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8489403B1 (en) 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
RU2585999C2 (ru) * 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Генерирование шума в аудиокодеках
JP6185457B2 (ja) 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
WO2012158705A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN106157968B (zh) 2011-06-30 2019-11-29 三星电子株式会社 用于产生带宽扩展信号的设备和方法
DE102011106033A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels
US20130006644A1 (en) 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
JP6037156B2 (ja) * 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
KR20130022549A (ko) 2011-08-25 2013-03-07 삼성전자주식회사 마이크 노이즈 제거 방법 및 이를 지원하는 휴대 단말기
US9384749B2 (en) 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
CN103918030B (zh) 2011-09-29 2016-08-17 杜比国际公司 Fm立体声无线电信号中的高质量检测
PT3321931T (pt) * 2011-10-28 2020-02-25 Fraunhofer Ges Forschung Aparelho de codificação e método de codificação
CN103918028B (zh) * 2011-11-02 2016-09-14 瑞典爱立信有限公司 基于自回归系数的有效表示的音频编码/解码
EP2786377B1 (en) * 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
CN103165136A (zh) 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
EP2806423B1 (en) 2012-01-20 2016-09-14 Panasonic Intellectual Property Corporation of America Speech decoding device and speech decoding method
KR101398189B1 (ko) 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
WO2013147666A1 (en) 2012-03-29 2013-10-03 Telefonaktiebolaget L M Ericsson (Publ) Transform encoding/decoding of harmonic audio signals
PL2831875T3 (pl) * 2012-03-29 2016-05-31 Ericsson Telefon Ab L M Rozszerzenie pasma harmonicznego sygnału audio
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9280975B2 (en) 2012-09-24 2016-03-08 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
ES2768179T3 (es) 2013-01-29 2020-06-22 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328161B2 (en) * 2002-07-11 2008-02-05 Samsung Electronics Co., Ltd. Audio decoding method and apparatus which recover high frequency component with small computation
RU2323469C2 (ru) * 2003-10-02 2008-04-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки, по меньшей мере, двух входных значений
RU2325708C2 (ru) * 2003-10-02 2008-05-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ обработки сигнала, имеющего последовательность дискретных значений
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
US20060031075A1 (en) * 2004-08-04 2006-02-09 Yoon-Hark Oh Method and apparatus to recover a high frequency component of audio data
RU2422922C1 (ru) * 2007-06-08 2011-06-27 Долби Лэборетериз Лайсенсинг Корпорейшн Гибридное извлечение аудиоканалов объемного звука посредством управляемого объединения компонент сигналов окружения и компонент матрично-декодируемых сигналов
US8473301B2 (en) * 2007-11-02 2013-06-25 Huawei Technologies Co., Ltd. Method and apparatus for audio decoding

Also Published As

Publication number Publication date
AU2014295297B2 (en) 2017-05-25
BR112016000947A2 (ru) 2017-08-22
KR20160024924A (ko) 2016-03-07
RU2643641C2 (ru) 2018-02-02
US20190251986A1 (en) 2019-08-15
JP7483792B2 (ja) 2024-05-15
US10134404B2 (en) 2018-11-20
US11735192B2 (en) 2023-08-22
US20220139407A1 (en) 2022-05-05
US11049506B2 (en) 2021-06-29
US20160140980A1 (en) 2016-05-19
MX2016000924A (es) 2016-05-05
ES2599007T3 (es) 2017-01-31
US20190371355A1 (en) 2019-12-05
CN104769671B (zh) 2017-09-26
PL3017448T3 (pl) 2020-12-28
US20160210974A1 (en) 2016-07-21
RU2640634C2 (ru) 2018-01-10
ES2638498T3 (es) 2017-10-23
KR20150060752A (ko) 2015-06-03
JP6310074B2 (ja) 2018-04-11
CN105453175A (zh) 2016-03-30
EP3017448B1 (en) 2020-07-08
ES2908624T3 (es) 2022-05-03
EP3975180A1 (en) 2022-03-30
ES2959641T3 (es) 2024-02-27
CA2918524C (en) 2018-05-22
JP2015535620A (ja) 2015-12-14
KR101681253B1 (ko) 2016-12-01
EP3407350B1 (en) 2020-07-29
US11769512B2 (en) 2023-09-26
CN111554310A (zh) 2020-08-18
AU2014295296A1 (en) 2016-03-10
KR101764723B1 (ko) 2017-08-14
PL3025343T3 (pl) 2018-10-31
KR101807836B1 (ko) 2018-01-18
TWI555008B (zh) 2016-10-21
EP2883227A1 (en) 2015-06-17
SG11201600494UA (en) 2016-02-26
MX2016000940A (es) 2016-04-25
EP3025328B1 (en) 2018-08-01
CA2918701C (en) 2020-04-14
RU2016105618A (ru) 2017-08-28
AU2014295302A1 (en) 2015-04-02
EP2830065A1 (en) 2015-01-28
RU2649940C2 (ru) 2018-04-05
BR112016001398A2 (pt) 2017-08-22
EP3723091B1 (en) 2024-09-11
KR20160042890A (ko) 2016-04-20
ZA201601011B (en) 2017-05-31
JP2022123060A (ja) 2022-08-23
MY182831A (en) 2021-02-05
RU2016105610A (ru) 2017-08-25
ES2698023T3 (es) 2019-01-30
EP3025343A1 (en) 2016-06-01
US11996106B2 (en) 2024-05-28
AU2014295302B2 (en) 2016-06-30
BR112016000740B1 (pt) 2022-12-27
CN105580075B (zh) 2020-02-07
CN105453175B (zh) 2020-11-03
CA2973841C (en) 2019-08-20
CN105453176B (zh) 2019-08-23
CN112466312A (zh) 2021-03-09
US11922956B2 (en) 2024-03-05
MX354657B (es) 2018-03-14
JP2016527557A (ja) 2016-09-08
US20190198029A1 (en) 2019-06-27
MX2016000935A (es) 2016-07-05
US20160140979A1 (en) 2016-05-19
RU2635890C2 (ru) 2017-11-16
RU2651229C2 (ru) 2018-04-18
PL3025337T3 (pl) 2022-04-11
HK1211378A1 (en) 2016-05-20
US11769513B2 (en) 2023-09-26
CA2918810A1 (en) 2015-01-29
US20160140973A1 (en) 2016-05-19
ZA201601010B (en) 2017-11-29
EP3025337A1 (en) 2016-06-01
JP6144773B2 (ja) 2017-06-07
ZA201601111B (en) 2017-08-30
PT3025337T (pt) 2022-02-23
JP2018041100A (ja) 2018-03-15
PT3407350T (pt) 2020-10-27
US10311892B2 (en) 2019-06-04
TW201517024A (zh) 2015-05-01
WO2015010948A1 (en) 2015-01-29
BR112016001125B1 (pt) 2022-01-04
MX2016000943A (es) 2016-07-05
US11289104B2 (en) 2022-03-29
CA2918807A1 (en) 2015-01-29
PT3025328T (pt) 2018-11-27
WO2015010949A1 (en) 2015-01-29
BR112015007533A2 (ru) 2017-08-22
US20180144760A1 (en) 2018-05-24
RU2016105759A (ru) 2017-08-25
RU2607263C2 (ru) 2017-01-10
SG11201600401RA (en) 2016-02-26
AU2014295301B2 (en) 2017-05-25
BR122022011231B1 (pt) 2024-01-30
EP2830059A1 (en) 2015-01-28
AU2014295295B2 (en) 2017-10-19
AU2014295297A1 (en) 2016-03-10
CA2918804A1 (en) 2015-01-29
WO2015010954A1 (en) 2015-01-29
WO2015010953A1 (en) 2015-01-29
WO2015010947A1 (en) 2015-01-29
MX356161B (es) 2018-05-16
CN105518777A (zh) 2016-04-20
CA2918810C (en) 2020-04-28
MY184847A (en) 2021-04-27
CN105453176A (zh) 2016-03-30
KR101809592B1 (ko) 2018-01-18
CA2973841A1 (en) 2015-01-29
JP2016530556A (ja) 2016-09-29
WO2015010950A1 (en) 2015-01-29
US10573334B2 (en) 2020-02-25
US20210217426A1 (en) 2021-07-15
JP6306702B2 (ja) 2018-04-04
AU2014295300B2 (en) 2017-05-25
CN105518776B (zh) 2019-06-14
JP6321797B2 (ja) 2018-05-09
KR20160030193A (ko) 2016-03-16
PL2883227T3 (pl) 2017-03-31
US20210295853A1 (en) 2021-09-23
CA2918524A1 (en) 2015-01-29
KR20160034975A (ko) 2016-03-30
US10332531B2 (en) 2019-06-25
CA2918701A1 (en) 2015-01-29
EP4246512A2 (en) 2023-09-20
TWI545558B (zh) 2016-08-11
US10593345B2 (en) 2020-03-17
KR20160046804A (ko) 2016-04-29
SG11201600422SA (en) 2016-02-26
US11257505B2 (en) 2022-02-22
JP2018013796A (ja) 2018-01-25
CN105556603B (zh) 2019-08-27
CN110310659B (zh) 2023-10-24
MY187943A (en) 2021-10-30
EP3025328A1 (en) 2016-06-01
CN111179963A (zh) 2020-05-19
BR112016001072A2 (ru) 2017-08-22
CA2918804C (en) 2018-06-12
SG11201600464WA (en) 2016-02-26
BR112016001072B1 (pt) 2022-07-12
MX362036B (es) 2019-01-04
ES2728329T3 (es) 2019-10-23
EP3407350A1 (en) 2018-11-28
KR101774795B1 (ko) 2017-09-05
ZA201601046B (en) 2017-05-31
PL3025340T3 (pl) 2019-09-30
EP3025340A1 (en) 2016-06-01
TR201816157T4 (tr) 2018-11-21
EP2830061A1 (en) 2015-01-28
US10332539B2 (en) 2019-06-25
CA2918807C (en) 2019-05-07
US20170154631A1 (en) 2017-06-01
JP6705787B2 (ja) 2020-06-03
JP6186082B2 (ja) 2017-08-23
ES2813940T3 (es) 2021-03-25
US10147430B2 (en) 2018-12-04
JP6389254B2 (ja) 2018-09-12
ES2667221T3 (es) 2018-05-10
ZA201502262B (en) 2016-09-28
CN105518777B (zh) 2020-01-31
BR122022010960B1 (pt) 2023-04-04
CN105580075A (zh) 2016-05-11
US20190043522A1 (en) 2019-02-07
JP7092809B2 (ja) 2022-06-28
US20180268842A1 (en) 2018-09-20
BR112016000740A2 (pt) 2017-08-22
TWI541797B (zh) 2016-07-11
AU2014295298A1 (en) 2016-03-10
ES2827774T3 (es) 2021-05-24
US20220157325A1 (en) 2022-05-19
US20210065723A1 (en) 2021-03-04
KR101822032B1 (ko) 2018-03-08
CN110660410A (zh) 2020-01-07
BR112016000852B1 (pt) 2021-12-28
US11222643B2 (en) 2022-01-11
CN105518776A (zh) 2016-04-20
BR112016000947B1 (pt) 2022-06-21
CA2918835A1 (en) 2015-01-29
CN104769671A (zh) 2015-07-08
EP3506260C0 (en) 2023-08-16
PL3407350T3 (pl) 2020-12-28
CN110660410B (zh) 2023-10-24
PT3017448T (pt) 2020-10-08
EP3506260B1 (en) 2023-08-16
EP2830056A1 (en) 2015-01-28
AU2014295301A1 (en) 2016-03-10
US10002621B2 (en) 2018-06-19
JP2018077487A (ja) 2018-05-17
US20150287417A1 (en) 2015-10-08
BR122022010958B1 (pt) 2024-01-30
EP3025344B1 (en) 2017-06-21
US20190074019A1 (en) 2019-03-07
EP2830064A1 (en) 2015-01-28
US20200082841A1 (en) 2020-03-12
PT3025343T (pt) 2018-05-18
WO2015010952A9 (en) 2017-10-26
AU2014295296B2 (en) 2017-10-19
BR112016000852A2 (pt) 2017-08-22
WO2015010952A1 (en) 2015-01-29
JP6568566B2 (ja) 2019-08-28
RU2016105619A (ru) 2017-08-23
EP2883227B1 (en) 2016-08-17
JP2016527556A (ja) 2016-09-08
EP3025344A1 (en) 2016-06-01
MX354002B (es) 2018-02-07
CN111554310B (zh) 2023-10-20
US10515652B2 (en) 2019-12-24
CN105556603A (zh) 2016-05-04
PT2883227T (pt) 2016-11-18
TW201514974A (zh) 2015-04-16
EP3025340B1 (en) 2019-03-27
TWI545560B (zh) 2016-08-11
TWI549121B (zh) 2016-09-11
MX2015004022A (es) 2015-07-06
SG11201600506VA (en) 2016-02-26
TW201517019A (zh) 2015-05-01
BR112016001125A2 (ru) 2017-08-22
BR122022011238B1 (pt) 2023-12-19
MX353999B (es) 2018-02-07
EP3017448A1 (en) 2016-05-11
EP3506260A1 (en) 2019-07-03
US10347274B2 (en) 2019-07-09
US20230352032A1 (en) 2023-11-02
TW201523590A (zh) 2015-06-16
EP2830063A1 (en) 2015-01-28
CA2886505A1 (en) 2015-01-29
EP4246512A3 (en) 2023-12-13
JP6691093B2 (ja) 2020-04-28
CA2918835C (en) 2018-06-26
US20220270619A1 (en) 2022-08-25
US20160140981A1 (en) 2016-05-19
KR101826723B1 (ko) 2018-03-22
MX2016000857A (es) 2016-05-05
PL3025328T3 (pl) 2019-02-28
BR122022010965B1 (pt) 2023-04-04
TWI555009B (zh) 2016-10-21
US10276183B2 (en) 2019-04-30
BR112015007533B1 (pt) 2022-09-27
US20180102134A1 (en) 2018-04-12
EP3742444A1 (en) 2020-11-25
BR112016001398B1 (pt) 2021-12-28
EP3723091A1 (en) 2020-10-14
KR20160041940A (ko) 2016-04-18
PT3025340T (pt) 2019-06-27
RU2016105473A (ru) 2017-08-23
TWI545561B (zh) 2016-08-11
US10847167B2 (en) 2020-11-24
JP2016529546A (ja) 2016-09-23
MY180759A (en) 2020-12-08
JP2020060792A (ja) 2020-04-16
RU2015112591A (ru) 2016-10-27
CN110310659A (zh) 2019-10-08
US20160133265A1 (en) 2016-05-12
MX2016000854A (es) 2016-06-23
PL3506260T3 (pl) 2024-02-19
SG11201502691QA (en) 2015-05-28
TW201513098A (zh) 2015-04-01
CA2886505C (en) 2017-10-31
AU2014295298B2 (en) 2017-05-25
AU2014295300A1 (en) 2016-03-10
JP2016529545A (ja) 2016-09-23
AU2014295295A1 (en) 2016-03-10
JP2016525713A (ja) 2016-08-25
EP2830054A1 (en) 2015-01-28
EP3025343B1 (en) 2018-02-14
MY175978A (en) 2020-07-19
EP3025337B1 (en) 2021-12-08
MX355448B (es) 2018-04-18
US10984805B2 (en) 2021-04-20
MX340575B (es) 2016-07-13
RU2016105613A (ru) 2017-08-28
TW201517023A (zh) 2015-05-01
JP6400702B2 (ja) 2018-10-03
US11250862B2 (en) 2022-02-15
SG11201600496XA (en) 2016-02-26
TW201523589A (zh) 2015-06-16

Similar Documents

Publication Publication Date Title
RU2646316C2 (ru) Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала