RU2321901C2 - Аудиокодирование - Google Patents
Аудиокодирование Download PDFInfo
- Publication number
- RU2321901C2 RU2321901C2 RU2005104122/09A RU2005104122A RU2321901C2 RU 2321901 C2 RU2321901 C2 RU 2321901C2 RU 2005104122/09 A RU2005104122/09 A RU 2005104122/09A RU 2005104122 A RU2005104122 A RU 2005104122A RU 2321901 C2 RU2321901 C2 RU 2321901C2
- Authority
- RU
- Russia
- Prior art keywords
- time
- frame
- signal
- point
- audio signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 230000002123 temporal effect Effects 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Изобретение относится к кодированию аудиосигнала. Техническим результатом является собственно обеспечение усовершенствованного способа кодирования по меньшей мере части аудиосигнала. Указанный технический результат достигается за счет того, что по меньшей мере часть аудиосигнала кодируют для получения кодированного сигнала, при этом кодирование включает в себя кодирование с предсказанием в отношении упомянутой по меньшей мере части аудиосигнала с целью получения коэффициентов предсказания, которые представляют временные характеристики, такие как временная огибающая упомянутой по меньшей мере части аудиосигнала, преобразование коэффициентов предсказания в набор времен, представляющих коэффициенты предсказания, и включение упомянутого набора времен в кодированный сигнал. Для анализа/синтеза перекрывающихся кадров в отношении временной огибающей может быть использована избыточность в представлении линейного спектра для области перекрытия. 2 н. и 12 з.п. ф-лы, 7 ил.
Description
Область техники, к которой относится изобретение
Изобретение относится к кодированию по меньшей мере части аудиосигнала.
Предшествующий уровень техники
Среди специалистов широко известно кодирование с линейным предсказанием (LPC) для представления спектрального состава сигнала. Сверх того, было представлено много эффективных схем квантования для таких систем с линейным предсказанием, например, логарифмические отношения площадей (Log Area Ratios) [1], Коэффициенты Отражения (Reflection Coefficients) [2] и Представления Линейного Спектра (Line Spectral Representations), такие как Пары Линейного Спектра (Line Spectral Pairs) или Частоты Линейного Спектра (Line Spectral Freguencies) [3,4,5].
Не вдаваясь в излишние подробности того, как коэффициенты фильтра преобразуются в представление линейного спектра (более детальное описание приведено в [6,7,8,9,10]), результат состоит в том, что идеальный LPC-фильтр М-го порядка H(z) преобразуется в M частот, часто называемых Частотами Линейного Спектра (LSF). Эти частоты уникально представляют фильтр H(z). В качестве примера см. фиг.1. Для лучшего понимания следует заметить, что частоты линейного спектра, показанные на фиг.1 в виде вертикальных линий по направлению к амплитудной характеристике фильтра, являются не более чем частотами, и поэтому не содержат в себе какой бы то ни было информации об амплитуде.
Сущность изобретения
Задачей изобретения является обеспечение усовершенствованного кодирования по меньшей мере части аудиосигнала. Для решения этой задачи согласно изобретению предоставляется способ кодирования, кодер, кодированный аудиосигнал, носитель информации, способ декодирования, декодер, передатчик, приемник и систему, охарактеризованные в независимых пунктах формулы изобретения. Предпочтительные варианты воплощения охарактеризованы в зависимых пунктах.
В соответствии с первым аспектом изобретения, по меньшей мере часть аудиосигнала кодируют с целью получения кодированного сигнала, при этом кодирование, включает в себя кодирование с предсказанием в отношении упомянутой по меньшей мере части аудиосигнала с целью получения коэффициентов предсказания, которые представляют временные характеристики, такие как временная огибающая, упомянутой по меньшей мере части аудиосигнала, преобразование коэффициентов предсказания в набор времен, представляющих коэффициенты предсказания, и включение этого набора времен в кодированный сигнал. Необходимо заметить, что эти времена без какой-либо информации об амплитуде являются достаточными для представления коэффициентов предсказания.
Хотя временная форма сигнала или его компоненты могут быть также непосредственно закодированы в виде набора амплитуд или значений усиления, согласно пониманию изобретателей, более высокое качество может быть получено путем использования кодирования с предсказанием для получения коэффициентов предсказания, которые представляют временные характеристики, такие как временная огибающая, и преобразование этих коэффициентов предсказания в набор времен. Более высокое качество может быть достигнуто вследствие того, что локально (там где нужно) может быть получено разрешение по времени более высокое по сравнению с методиками фиксированной временной шкалы. Кодирование с предсказанием может быть реализовано с использованием амплитудной характеристики LPC-фильтра для представления временной огибающей.
Также, согласно пониманию изобретателей, использование, главным образом, производной во временной области или эквивалента представления линейного спектра является преимущественным при кодировании таких коэффициентов предсказания, представляющих временные огибающие, потому что с помощью данного способа времена или моменты времени являются хорошо определенными, что делает их более подходящими для дальнейшего кодирования. Таким образом, с помощью данного аспекта изобретения достигается эффективное кодирование временных параметров по меньшей мере части аудиосигнала, предназначенное для достижения лучшей степени сжатия по меньшей мере части аудиосигнала.
Варианты воплощения изобретения могут быть интерпретированы как использование LPC-спектра для описания временной огибающей вместо спектральной огибающей, и то, что было временем в случае спектральной огибающей, теперь является частотой, и наоборот, как показано в нижней части фиг.2. Это означает, что использование представления линейного спектра теперь приводит к набору времен или моментов времени вместо частот. Следует заметить, что в данном подходе времена не являются фиксированными по предопределенным интервалам на временной оси, но сами эти времена представляют коэффициенты предсказания.
Изобретатели полагали, что на использовании анализа/синтеза перекрывающихся кадров в отношении временной огибающей можно использовать избыточность представления линейного спектра области перекрытия. Варианты воплощения изобретения используют эту избыточность выгодным образом.
Изобретение и его варианты воплощения являются особенно преимущественными для кодирования временной огибающей шумовой составляющей в аудиосигнале в схемах параметрического аудиокодирования, таких как те, что раскрыты в WO01/69593-A1. В такой схеме параметрического аудиокодирования аудиосигнал может быть разделен на переходные составляющие сигнала, синусоидальные составляющие сигнала и шумовые составляющие. Параметрами, представляющими синусоидальные составляющие, могут быть амплитуда, частота и фаза. Для переходных составляющих дополнение этих параметров описанием огибающей является эффективным представлением.
Необходимо заметить, что изобретение и варианты его воплощения могут быть применены для всей соответствующей полосы частот аудиосигнала или его компонента, но также и для меньшей полосы частот.
Эти и другие аспекты изобретения станут ясны при рассмотрении со ссылкой на сопроводительные чертежи
Перечень чертежей
На чертежах:
Фиг.1 - пример LPC-спектра с 8-ю полюсами с соответствующими 8-ю частотами линейного спектра согласно предшествующему уровню техники;
Фиг.2 - (верхняя часть) использования LPC таким образом, что H(z) представляет частотный спектр, (нижняя часть) использование LPC таким образом, что H(z) представляет временную огибающую;
Фиг.3 - схематический вид иллюстративного применения окон анализа/синтеза;
Фиг.4 - иллюстративная последовательность LSF времен для двух последовательных кадров;
Фиг.5 - согласование LSF времен кадра k относительно предыдущего кадра k-1;
Фиг.6 - весовые функции в качестве функции, используемой в области перекрытия; и
Фиг.7 - система, соответствующая варианту воплощения изобретения.
Чертежи показывают только те элементы, которые необходимы для понимая вариантов воплощения изобретения.
Подробное описание предпочтительных вариантов осуществления
Несмотря на то, что представленное ниже описание ориентировано на использование LPC-фильтра и расчет производных во временной области или эквивалентов частот LSF, изобретение также применимо для других фильтров и представлений, которые попадают в рамки объема, определяемого формулой изобретения.
Фиг.2 показывает, как фильтр с предсказанием, такой как LPC-фильтр, может быть использован для описания временной огибающей аудиосигнала или его компонента. Для того, чтобы было возможно использовать обычный LPC-фильтр, входной сигнал сначала преобразовывают из временной области в частотную область, например, с использованием преобразования Фурье. Поэтому, фактически, временная форма преобразуется в спектральную форму, которую затем кодируют посредством известного LPC-фильтра, который обычно используется для кодирования спектральной формы. Анализ посредством LPC-фильтра обеспечивает коэффициенты предсказания, которые представляют временную форму входного сигнала. Существует компромисс между разрешением по времени и разрешением по частоте. То есть LPC-спектр будет состоять из некоторого количества очень острых пиков (синусоид). Чем слуховая система менее чувствительна к изменениям разрешения по времени, тем меньшее разрешение требуется, иначе говоря, например, для переходного процесса разрешение частотного спектра необязательно должно быть точным. В этом смысле, это может выглядеть как комбинированное кодирование, где разрешение временной области зависит от разрешения частотной области, и наоборот. Также можно использовать несколько кривых LPC для оценки во временной области, например, полосу низких и высоких частот, и в этом случае также разрешение может зависеть от разрешения оценки частоты, и так далее, это также может быть использовано.
LPC-фильтр H(z) может быть, в общем, описан как:
Коэффициенты ai при i от 1 до m являются коэффициентами фильтра с предсказанием, полученными в результате LPC-анализа. Коэффициенты ai определяют H(z).
Для вычисления эквивалентов частот LSF во временной области может быть использована следующая процедура. Эта процедура, по большей части, является действительной как для обычного идеального фильтра, так и для частотной области. Другие известные процедуры, используемые для получения частот LSF в частотной области, также могут быть использованы для вычисления эквивалентов частот LSF во временной области.
Полином A(z) разделен на два полинома P(z) и Q(z) порядка m+1. Полином P(z) образован добавлением коэффициента отражения (в форме решеточного фильтра), равно +1, к A(z), а полином Q(z) образован добавлением коэффициента отражения -1. Существует рекуррентное соотношение между LPC-фильтром в прямой форме (см. уравнение выше) и в решеточной форме:
Ai(z) = Ai-1(z)+kiz-iAi-1(z-1),
где i=1,2,...,m, A0(z)=1 и ki -коэффициент отражения.
Полиномы P(z) и Q(z) получаются следующим образом:
P(z)=Am(z)+z-(m+1)Am(z-1)
Q(z)=Am(z)-z-(m+1)Am(z-1)
Полиномы P(z)=1+p1z-1+p2z-2+...+pmz-m+z-(m+1) и Q(z)=1+q1z-1+q2z-2+...+qmz-m+z-(m+1), полученные указанным путем, обладают четной симметрией и антисимметрией:
p1=pm | q1=-qm |
p2=pm-1 | q2=-qm-1 |
. | . |
. | . |
Вот некоторые важные свойства этих полиномов:
- Все нули P(z) и Q(z) находятся на единичной окружности в z-плоскости.
- Все нули P(z) и Q(z) чередуются на единичной окружности и не налагаются.
- Свойство минимальной фазы A(z) сохраняется после квантования для обеспечения устойчивости H(z).
Оба полинома P(z) и Q(z) имеют m+1 нулей. Как легко заметить, что z=-1 и z=1 всегда являются нулем в P(z) и Q(z). Поэтому они могут быть удалены делением на 1+z-1 и
1-z-1. Если m четное, то:
1-z-1. Если m четное, то:
Если m нечетное, то:
P'(z)=P(z)
Нули полиномов P'(z) и Q'(z) теперь описываются в виде zi=ejt, поскольку LPC-фильтр применяется во временной области. Нули полиномов P'(z) и Q'(z), таким образом, полностью охарактеризованы их временем t, которое принимает значения от 0 до π по всему кадру, при этом 0 соответствует началу кадра, а π соответствует концу кадра, длина которого может быть фактически любой практически используемой длиной, например 10 или 20 миллисекунд (мс). Времена t, полученные таким образом, можно интерпретировать как эквиваленты временной области для частот линейного спектра, причем эти времена в дальнейшем будут называться LSF-временами. Для вычисления фактических LSF-времен необходимо вычислить корни полиномов P'(z) и Q'(z). В настоящем контексте также могут быть использованы различные методики, которые предложены в [9], [10], [11].
Фиг.3 показывает схематический вид иллюстративной ситуации для анализа и синтеза временных огибающих. В каждом кадре k используется окно, не обязательно прямоугольное, для анализа сегмента с помощью LPC. В результате чего, для каждого кадра, после преобразования, получается набор из N LSF-времен. Следует заметить, что N, в принципе, не обязательно должно быть константой, хотя в большинстве случаев это позволяет достичь более эффективного представления. В этом варианте воплощения предполагается, что LSF-времена квантованы равномерно, однако могут быть также применены и другие методики, например векторное квантование.
Эксперименты показывают, что в перекрывающихся областях, как показано на фиг.3, часто имеется избыточность между LSF-временами кадра k-1 и между LSF-временами кадра k. См. также фиг.4 и фиг.5. В вариантах воплощения изобретения, которые описаны ниже, эта избыточность используется для более эффективного кодирования LSF-времен, что помогает лучше сжать по меньшей мере часть аудиосигнала. Следует заметить, что фиг.4 и фиг.5 показывают обычные случаи, где LSF-времена кадра k в области перекрытия не идентичны, но достаточно близки к LSF-временам кадра k-1.
Первый вариант воплощения с использованием перекрывающихся кадров
В первом варианте воплощения при использовании перекрывающихся кадров полагается, что различиями между LSF-временами перекрывающихся областей можно, с точки зрения восприятия, пренебречь или они могут привести к допустимой потере качества. Для пары LSF-времен, одно в кадре k-1, другое в кадре k, производное LSF-время вычисляется как взвешенное среднее LSF-времен в упомянутой паре. Взвешенное среднее, в данном случае, может быть истолковано как включающее в себя случай, когда выбирается только одно время из пары LSF-времен. Такой выбор может быть интерпретирован как взвешенное среднее, где вес выбранного LSF-времени равен единице, а вес невыбранного времени равен нулю. Также возможно, что оба LSF-времени в паре имеют одинаковый вес.
Например, примем LSF-времена {l0,l1,l2,...,lN} для кадра k-1 и {l0,l1,l2,...,lM} для кадра k, как показано на фиг.4. LSF-времена в кадре k сдвинуты таким образом, что некоторый уровень l квантования находится в одинаковой позиции в обоих кадрах. Теперь предположим, что есть три LSF-времени в перекрывающейся области для каждого кадра, как в случае на фиг.4 и фиг.5. Затем могут быть сформированы следующие соответствующие пары: {lN-2,k-1 l0,k, lN-1,k-1 l1,k, lN,k-1 l2,k}. В этом варианте воплощения формируется новый набор производных LSF-времен на основании двух исходных наборов из трех LSF-времен. Практический подход состоит в том, чтобы взять LSF-времена кадра k-1 (или k) и вычислить LSF-времена кадра k (или k-1) путем простого сдвига LSF-времен кадра k-1 (или k) для выравнивания кадров во времени. Этот сдвиг выполняется как в кодере, так и в декодере. В кодере LSF-времена правого кадра k сдвигаются до совпадения с LSF-временами в левом кадре k-1. Это необходимо для поиска пар и, в конечном итоге, определения взвешенного среднего.
В предпочтительных вариантах воплощения, производное время или взвешенное среднее кодируется в битовом потоке в виде "уровня представления", который обычно является очисленным значением, например от 0 до 255 (8 бит), представляющим значения от 0 до π. В практических вариантах воплощения также используется кодирование Хаффмана. Для первого кадра первое LSF-время кодируется абсолютно (без опорной точки), а все последующие LSF-времена (включая взвешенные времена в конце) кодируются дифференциально относительно предыдущих. Пусть теперь для кадра k можно воспользоваться описанным «приемом», используя последние три LSF-времени кадра k-1. Тогда при декодировании, кадр k берет последние три уровня представления кадра k-1 (которые находятся в конце диапазона от 0 до 255) и сдвигает их назад по своей собственной временной оси (в начало диапазона от 0 до 255). Все последующие LSF-времена в кадре k будут кодированы дифференциально по отношению к предыдущим, начиная с уровня представления (на оси кадра k), соответствующего последнему LSF в области перекрытия. В случае, если кадр k не может воспользоваться описанным "приемом", то первое LSF-время кадра k будет кодировано абсолютно и все последующие LSF-времена кадра k будут кодированы дифференциально по отношению к предыдущим.
Практическим подходом является вычисление средних величин для каждой пары соответствующих LSF-времен, например:
(lN-2,k-1 + l0,k)/2, (lN-1,k-1 + l1,k)/2, (lN,k-1 + l2,k)/2.
Более выгодный подход принимает во внимание то, что окна обычно показывают плавное нарастание/падение уровня, как показано на фиг.3. В этом способе вычисляется взвешенное среднее для каждой пары, что дает более качественные для восприятия результаты. Процедура вычисления состоит в следующем. Область перекрытия соответствует области (π-r, π). Весовые функции получены как показано на фиг.6. Веса для времен левого кадра k-1 рассчитываются для каждой пары раздельно по формуле:
где lmean - среднее пары, например: lmean=(lN-2,k-1+l0,k)/2.
Вес для кадра k вычисляют как wk=1-wk-1
Теперь новые LSF-времена вычисляются как:
lweighted=lk-1wk-1+lkwk
где lk-1 и lk образуют пару. И, наконец, взвешенные LSF-времена равномерно квантуют.
Так как первый кадр в битовом потоке не имеет истории, первый кадр LSF-времен всегда необходимо кодировать без использования способа, описанного выше. Это может быть сделано путем абсолютного кодирования первого LSF-времени с использованием кодирования Хаффмана, и все последующие значения - дифференциально по отношению к предыдущим в кадре с использованием фиксированной таблицы Хаффмана. Все кадры, следующие за первым кадром, могут, в сущности, использовать преимущества вышеописанной методики. Конечно, данная методика не является преимущественной. Например, в случае, когда имеется одинаковое количество LSF-времен в области перекрытия обоих кадров, но с очень плохим совпадением. Вычисление (взвешенного) среднего может в результате дать заметные для восприятия искажения сигнала. Также, случай, когда в кадре k-1 количество LSF-времен не равно количеству LSF-времен в кадре k, не определяется в соответствии с вышеприведенной методикой. Поэтому для каждого кадра LSF-времен, используется индикатор, например, в виде одного бита, включаемый в кодированный сигнал для индикации того, используется ли или нет вышеописанная методика, т.е. должно ли первое количество LSF-времен быть получено из предыдущего кадра или они содержатся в битовом потоке. Например, если бит-индикатор равен 1, то взвешенные LSF-времена кодируют дифференциально относительно предыдущих в кадре k-1, для кадра k первое количество LSF-времен в области перекрытия получают из LSF-времен кадра k-1. Если бит-индикатор равен 0, то первое LSF-время кадра k кодируют абсолютно и все последующие LSF-времена кодируют дифференциально по отношению к предыдущим.
В практическом варианте воплощения кадры LSF-времен являются достаточно длинными, например 1440 отсчетов при 44.1 кГц; в этом случае только около 30 бит в секунду требуются для этого дополнительного бита-индикатора. Эксперименты показывают, что большинство кадров могут с успехом использовать вышеописанную методику, в результате чего сокращается общее количество битов в кадре.
Другой вариант воплощения с использованием перекрывающихся кадров
В соответствии с другим вариантом воплощения изобретения, данные LSF-времен кодируются без потерь. Так, вместо слияния перекрывающихся пар в единые LSF-времена, разности LSF-времен в данном кадре кодируются относительно LSF-времен в другом кадре. Так, в примере на фиг.3, когда значения с l0 до lN получены для кадра k-1, первые три значения с l0 до l3 из кадра k получают путем декодирования разностей по отношению к lN-2, lN-1, lN кадра k-1 соответственно. Кодированием LSF-времени со ссылкой на LSF-время в другом кадре, которое является наиболее близким во времени, чем любое другое LSF-время в упомянутом другом кадре, достигается хорошее использование избыточности, потому что времена могут быть кодированы наилучшим образом со ссылкой на ближайшие времена. Так как их разности обычно достаточно малы, они могут быть закодированы достаточно эффективно с использованием отдельной таблицы Хаффмана. Помимо бита, показывающего, следует ли использовать методику, описанную в первом варианте воплощения, для этого конкретного примера разности l0,k-lN-2,k-1, l1,k-lN-1,k-1, l2,k-lN,k-1 также помещаются в битовый поток в случае, если первый вариант воплощения не используется для рассматриваемой области перекрытия.
Хоть это и менее выгодно, но в качестве альтернативы возможно кодирование разностей по отношению к LSF-временам в предыдущем кадре. Например, можно кодировать только разность первого LSF-времени следующего кадра относительно последнего LSF-времени предыдущего кадра и, далее, кодировать каждое последующее LSF-время в упомянутом последующем кадре относительно предыдущего времени в этом же кадре, например, для кадра k-1: lN-1-ln-2, lN-lN-1, далее для кадра k: l0,k-lN,k-1, l1,k-l0,k и так далее.
Описание системы
Фиг.7 показывает систему в соответствии с одним из вариантов воплощения изобретения. Система включает в себя устройство 1 для передачи или записи кодированного сигнала [S]. Устройство 1 включает в себя блок 10 ввода для приема по меньшей мере части аудиосигнала S, предпочтительно шумовой составляющей аудиосигнала. Блок 10 ввода может быть антенной, микрофоном, сетевым соединением и т.д. Устройство 1 также включает в себя кодер 11 для кодирования сигнала S в соответствии с описанным выше вариантом воплощения изобретения (см. фиг.4, фиг.5 и фиг.6) для получения кодированного сигнала. Возможно, блок 10 ввода принимает полный аудиосигнал и предоставляет его составляющие другим специализированным кодерам. Кодированный сигнал передается блоку 12 вывода, который преобразует кодированный аудиосигнал в битовый поток [S], имеющий подходящий формат для передачи через среду 2 передачи или сохранения на носителе 2 информации. Система также включает в себя приемник или воспроизводящее устройство 3, которое принимает кодированный сигнал [S] в блоке 30 ввода. Блок 30 ввода передает кодированный сигнал [S] декодеру 31. Декодер 31 декодирует кодированный сигнал, выполняя процесс декодирования, который, по существу, является обратной операцией по отношению к кодированию в кодере 11, при этом получается декодированный сигнал S', который соответствует исходному сигналу S, за исключением тех частей, которые были потеряны в процессе кодирования. Декодер 31 передает декодированный сигнал S' в блок 32 вывода, который предоставляет декодированный сигнал S'. Блок 32 вывода может быть воспроизводящим блоком, таким как громкоговоритель, предназначенным для воспроизведения декодированного сигнала S'. Блок 32 вывода также может быть передатчиком для дальнейшей передачи декодированного сигнала S', например, через домашнюю сеть и так далее. В случае, если сигнал S' является реконструкцией составляющей аудиосигнала, такой как шумовая составляющая, тогда блок 32 вывода может включать в себя средства объединения для объединения сигнала S' с другими восстановленными составляющими для предоставления полного аудиосигнала.
Варианты воплощения изобретения могут быть применены, между прочим, в распространении через Интернет, Solid State Audio) твердотельных аудиоустройствах (без механических частей), терминалах связи третьего поколения (3G), общей службе пакетной радиопередачи (GPRS) и их коммерческих реализациях.
Следует заметить, что вышеописанные варианты воплощения скорее иллюстрируют, чем ограничивают изобретение, и специалисты в данной области техники могут создать много альтернативных вариантов воплощения без выхода за рамки объема, определяемого прилагаемой формулой изобретения. В формуле изобретения любые ссылочные символы, помещенные в скобки, не должны восприниматься как ограничение соответствующего пункта. Фраза "включает в себя" не исключает существование других элементов или этапов, чем те, которые перечислены в соответствующем пункте. Изобретение может быть реализовано с помощью аппаратных средств, включающих в себя несколько отдельных элементов, и с помощью подходящим образом запрограммированного компьютера. В пункте, описывающем устройство, где перечислены несколько средств, некоторые из них могут быть воплощены в одном и том же аппаратном элементе. Тот простой факт, что некоторые признаки приведены в различных зависимых пунктах не означает того, что комбинация этих признаков не может быть использована выгодным образом.
Claims (14)
1. Способ кодирования по меньшей мере части аудиосигнала с целью получения кодированного сигнала, причем упомянутая по меньшей мере часть аудиосигнала сегментируется на по меньшей мере первый кадр и второй кадр, и эти первый кадр и второй кадр имеют область перекрытия, при этом способ включает в себя этапы, на которых выполняют кодирование с предсказанием в отношении упомянутой по меньшей мере части аудиосигнала с целью получения коэффициентов предсказания, которые представляют временную огибающую упомянутой по меньшей мере части аудиосигнала; преобразуют коэффициенты предсказания в набор моментов времени, представляющих коэффициенты предсказания; и включают упомянутый набор моментов времени в кодированный сигнал, отличающийся тем, что упомянутая область перекрытия включает в себя по меньшей мере один момент времени из каждого кадра, при этом для пары моментов времени, состоящей из одного момента времени первого кадра в области перекрытия и одного момента времени второго кадра в области перекрытия, в кодированный сигнал включают производный момент времени, который является взвешенным средним упомянутого одного момента времени первого кадра и упомянутого одного момента времени второго кадра.
2. Способ по п.1, отличающийся тем, что кодирование с предсказанием выполняют с использованием фильтра, при этом коэффициенты предсказания являются коэффициентами фильтра.
3. Способ по п.1 или 2, отличающийся тем, что кодирование с предсказанием является кодированием с линейным предсказанием.
4. Способ по п.1 или 2, отличающийся тем, что перед этапом кодирования с предсказанием выполняют преобразование временной области в частотную область в отношении упомянутой по меньшей мере части аудиосигнала с целью получения сигнала частотной области, при этом этап кодирования с предсказанием выполняют в отношении этого сигнала частотной области.
5. Способ по п.1 или 2, отличающийся тем, что упомянутыми моментами времени являются эквиваленты частот линейного спектра во временной области.
6. Способ по п.1, отличающийся тем, что производный момент времени равен одному выбранному моменту времени из упомянутой пары моментов времени.
7. Способ по п.1, отличающийся тем, что момент времени, расположенный ближе к границе кадра, имеет меньший вес по сравнению с моментом времени, расположенным дальше от упомянутой границы.
8. Способ по п.1, отличающийся тем, что заданный момент времени второго кадра кодируют дифференциально по отношению к моменту времени в первом кадре.
9. Способ по п.8, отличающийся тем, что заданный момент времени второго кадра кодируют дифференциально по отношению к моменту времени в первом кадре, который относительно упомянутого заданного момента времени второго кадра является наиболее близким во времени, чем любой другой момент времени в первом кадре.
10. Способ по любому из пп.1, 6, 7, 8, отличающийся тем, что в кодированный сигнал дополнительно включают однобитовый индикатор, который показывает, включает ли в себя или нет кодированный сигнал производный момент времени в области перекрытия, к которой относится данный индикатор.
11. Способ по любому из пп.1, 6, 7, 8, отличающийся тем, что в кодированный сигнал дополнительно включают однобитовый индикатор, который показывает тип кодирования, который используется для кодирования моментов времени или производных моментов времени в области перекрытия, к которой относится данный индикатор.
12. Способ декодирования кодированного сигнала, представляющего по меньшей мере часть аудиосигнала, причем кодированный сигнал включает в себя по меньшей мере первый кадр и второй кадр, которые имеют область перекрытия, при этом каждый кодированный сигнал соответствует кадру, включающему в себя набор моментов времени, представляющих коэффициенты предсказания, которые представляют временную огибающую упомянутой по меньшей мере части аудиосигнала, при этом способ включает в себя этапы, на которых получают временную огибающую из упомянутого набора моментов времени и используют эту временную огибающую с целью получения декодированного сигнала, и предоставляют декодированный сигнал, отличающийся тем, что упомянутые моменты времени относятся по меньшей мере к первому кадру и второму кадру в упомянутой по меньшей мере части аудиосигнала, при этом первый кадр и второй кадр имеют область перекрытия, включающую в себя по меньшей мере один момент времени из каждого кадра, и кодированный сигнал включает в себя по меньшей мере один производный момент времени, который является взвешенным средним пары моментов времени, состоящей из одного момента времени первого кадра в области перекрытия и одного момента времени второго кадра в области перекрытия первоначальной упомянутой по меньшей мере части аудиосигнала, при этом способ дополнительно включает в себя этап, на котором используют упомянутый по меньшей мере один производный момент времени при декодировании первого кадра, а также при декодировании второго кадра.
13. Способ декодирования по п.12, отличающийся тем, что дополнительно включает в себя этап, на котором преобразуют упомянутый набор с целью получения коэффициентов предсказания, при этом временную огибающую получают из коэффициентов предсказания, а не из упомянутого набора моментов времени.
14. Способ декодирования по п.12, отличающийся тем, что кодированный сигнал дополнительно включает в себя однобитовый индикатор, который показывает, содержит ли или нет кодированный сигнал производный момент времени в области перекрытия, к которой относится данный индикатор, при этом способ дополнительно включает в себя этапы, на которых получают индикатор из кодированного сигнала, только в случае, если индикатор показывает, что область перекрытия, к которой он относится, включает в себя производный момент времени, используют упомянутый по меньшей мере один производный момент времени при декодировании первого кадра, а также при декодировании второго кадра.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02077870 | 2002-07-16 | ||
EP02077870.0 | 2002-07-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2005104122A RU2005104122A (ru) | 2005-08-10 |
RU2321901C2 true RU2321901C2 (ru) | 2008-04-10 |
Family
ID=30011204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2005104122/09A RU2321901C2 (ru) | 2002-07-16 | 2003-07-11 | Аудиокодирование |
Country Status (9)
Country | Link |
---|---|
US (1) | US7516066B2 (ru) |
EP (1) | EP1527441B1 (ru) |
JP (1) | JP4649208B2 (ru) |
KR (1) | KR101001170B1 (ru) |
CN (1) | CN100370517C (ru) |
AU (1) | AU2003247040A1 (ru) |
BR (1) | BR0305556A (ru) |
RU (1) | RU2321901C2 (ru) |
WO (1) | WO2004008437A2 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2630887C2 (ru) * | 2013-04-05 | 2017-09-13 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
ES2280592T3 (es) * | 2001-11-30 | 2007-09-16 | Koninklijke Philips Electronics N.V. | Codificacion de señal. |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
TWI393120B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式 |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
KR101215868B1 (ko) * | 2004-11-30 | 2012-12-31 | 에이저 시스템즈 엘엘시 | 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치 |
EP1817766B1 (en) * | 2004-11-30 | 2009-10-21 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US20090281812A1 (en) * | 2006-01-18 | 2009-11-12 | Lg Electronics Inc. | Apparatus and Method for Encoding and Decoding Signal |
FR2911031B1 (fr) * | 2006-12-28 | 2009-04-10 | Actimagine Soc Par Actions Sim | Procede et dispositif de codage audio |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
CN101266795B (zh) * | 2007-03-12 | 2011-08-10 | 华为技术有限公司 | 一种格矢量量化编解码的实现方法及装置 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US20090006081A1 (en) * | 2007-06-27 | 2009-01-01 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and/or decoding signal |
DE602008005250D1 (de) | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
CA2729751C (en) | 2008-07-10 | 2017-10-24 | Voiceage Corporation | Device and method for quantizing and inverse quantizing lpc filters in a super-frame |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US8276047B2 (en) * | 2008-11-13 | 2012-09-25 | Vitesse Semiconductor Corporation | Continuously interleaved error correction |
EP4276823B1 (en) * | 2009-10-21 | 2024-07-17 | Dolby International AB | Oversampling in a combined transposer filter bank |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
KR101747917B1 (ko) * | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
JP5674015B2 (ja) * | 2010-10-27 | 2015-02-18 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
US8615394B1 (en) * | 2012-01-27 | 2013-12-24 | Audience, Inc. | Restoration of noise-reduced speech |
US8725508B2 (en) * | 2012-03-27 | 2014-05-13 | Novospeech | Method and apparatus for element identification in a signal |
AU2014211520B2 (en) * | 2013-01-29 | 2017-04-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
EP2916319A1 (en) | 2014-03-07 | 2015-09-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding of information |
JP6035270B2 (ja) * | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
PL3537439T3 (pl) * | 2014-05-01 | 2020-10-19 | Nippon Telegraph And Telephone Corporation | Urządzenie generujące sekwencję okresowej połączonej obwiedni, sposób generowania sekwencji okresowej połączonej obwiedni, program do generowania sekwencji okresowej połączonej obwiedni i nośnik rejestrujący |
CN104217726A (zh) * | 2014-09-01 | 2014-12-17 | 东莞中山大学研究院 | 一种无损音频压缩编码方法及其解码方法 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US9838700B2 (en) * | 2014-11-27 | 2017-12-05 | Nippon Telegraph And Telephone Corporation | Encoding apparatus, decoding apparatus, and method and program for the same |
DE112016000545B4 (de) | 2015-01-30 | 2019-08-22 | Knowles Electronics, Llc | Kontextabhängiges schalten von mikrofonen |
JP6668372B2 (ja) * | 2015-02-26 | 2020-03-18 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
CN107871492B (zh) * | 2016-12-26 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音乐合成方法和系统 |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
UA41913C2 (ru) * | 1993-11-30 | 2001-10-15 | Ейті Енд Ті Корп. | Способ шумоглушения в системах связи |
US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
US5749064A (en) * | 1996-03-01 | 1998-05-05 | Texas Instruments Incorporated | Method and system for time scale modification utilizing feature vectors about zero crossing points |
JP3472974B2 (ja) * | 1996-10-28 | 2003-12-02 | 日本電信電話株式会社 | 音響信号符号化方法および音響信号復号化方法 |
CN1222996A (zh) * | 1997-02-10 | 1999-07-14 | 皇家菲利浦电子有限公司 | 用于传输语音信号的传输系统 |
DE69828119D1 (de) | 1997-08-28 | 2005-01-20 | Texas Instruments Inc | Quantisierung der linearen Prädiktionskoeffizienten |
FI973873A (fi) * | 1997-10-02 | 1999-04-03 | Nokia Mobile Phones Ltd | Puhekoodaus |
CN1154975C (zh) | 2000-03-15 | 2004-06-23 | 皇家菲利浦电子有限公司 | 用于声频编码的拉盖尔函数 |
-
2003
- 2003-07-11 AU AU2003247040A patent/AU2003247040A1/en not_active Abandoned
- 2003-07-11 KR KR1020057000782A patent/KR101001170B1/ko active IP Right Grant
- 2003-07-11 EP EP03764067.9A patent/EP1527441B1/en not_active Expired - Lifetime
- 2003-07-11 US US10/520,876 patent/US7516066B2/en active Active
- 2003-07-11 CN CNB038166976A patent/CN100370517C/zh not_active Expired - Lifetime
- 2003-07-11 BR BR0305556-6A patent/BR0305556A/pt not_active IP Right Cessation
- 2003-07-11 JP JP2004521016A patent/JP4649208B2/ja not_active Expired - Fee Related
- 2003-07-11 RU RU2005104122/09A patent/RU2321901C2/ru not_active IP Right Cessation
- 2003-07-11 WO PCT/IB2003/003152 patent/WO2004008437A2/en active Application Filing
Non-Patent Citations (1)
Title |
---|
KUMARESANA R. et al. On representing signals using only timing information, Journal of the Acoustical Society of America, vol.110, №5, Nov.2001, USA, c.2421-2439. KUMARESANA R. et al. On the Duality Between Line-Spectral Frequencies and Zero-Crossings of Signals, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol.9, №4, May 2001, c.458-461. * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2630887C2 (ru) * | 2013-04-05 | 2017-09-13 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
US10043528B2 (en) | 2013-04-05 | 2018-08-07 | Dolby International Ab | Audio encoder and decoder |
US10515647B2 (en) | 2013-04-05 | 2019-12-24 | Dolby International Ab | Audio processing for voice encoding and decoding |
US11621009B2 (en) | 2013-04-05 | 2023-04-04 | Dolby International Ab | Audio processing for voice encoding and decoding using spectral shaper model |
Also Published As
Publication number | Publication date |
---|---|
EP1527441A2 (en) | 2005-05-04 |
BR0305556A (pt) | 2004-09-28 |
WO2004008437A2 (en) | 2004-01-22 |
RU2005104122A (ru) | 2005-08-10 |
US20050261896A1 (en) | 2005-11-24 |
US7516066B2 (en) | 2009-04-07 |
KR20050023426A (ko) | 2005-03-09 |
JP4649208B2 (ja) | 2011-03-09 |
CN1669075A (zh) | 2005-09-14 |
EP1527441B1 (en) | 2017-09-06 |
AU2003247040A1 (en) | 2004-02-02 |
CN100370517C (zh) | 2008-02-20 |
JP2005533272A (ja) | 2005-11-04 |
KR101001170B1 (ko) | 2010-12-15 |
WO2004008437A3 (en) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2321901C2 (ru) | Аудиокодирование | |
EP2450885B1 (en) | Decoding method and apparatus using a regression analysis method for frame error concealment | |
EP1356454B1 (en) | Wideband signal transmission system | |
JP3483958B2 (ja) | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 | |
KR20090107051A (ko) | 가중 윈도우들을 사용한 저-지연 변환 코딩 | |
US9548056B2 (en) | Signal adaptive FIR/IIR predictors for minimizing entropy | |
JP2007504503A (ja) | 低ビットレートオーディオ符号化 | |
US6778953B1 (en) | Method and apparatus for representing masked thresholds in a perceptual audio coder | |
JP5295372B2 (ja) | デジタルオーディオ信号におけるプリエコーの減衰 | |
KR20200083565A (ko) | 피치 지연 선택 | |
JP4574320B2 (ja) | 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体 | |
TW201230011A (en) | Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal | |
EP0906664B1 (en) | Speech transmission system | |
JP3504485B2 (ja) | 楽音符号化装置および楽音復号化装置および楽音符号化復号化装置およびプログラム記憶媒体 | |
JPH09166999A (ja) | 音声符号化装置及び音声符号化方法 | |
KR20000045610A (ko) | 오디오의 에러 프레임 추정 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20120712 |