Nothing Special   »   [go: up one dir, main page]

RU2822612C1 - Harmonic conversion based on subband block, amplified by cross products - Google Patents

Harmonic conversion based on subband block, amplified by cross products Download PDF

Info

Publication number
RU2822612C1
RU2822612C1 RU2023132919A RU2023132919A RU2822612C1 RU 2822612 C1 RU2822612 C1 RU 2822612C1 RU 2023132919 A RU2023132919 A RU 2023132919A RU 2023132919 A RU2023132919 A RU 2023132919A RU 2822612 C1 RU2822612 C1 RU 2822612C1
Authority
RU
Russia
Prior art keywords
subband
input
signal
frame
analyzed
Prior art date
Application number
RU2023132919A
Other languages
Russian (ru)
Inventor
Ларс ВИЛЛЕМОЕС
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Application granted granted Critical
Publication of RU2822612C1 publication Critical patent/RU2822612C1/en

Links

Abstract

FIELD: physics.
SUBSTANCE: group of inventions relates to audio signal sources encoding systems, which apply a harmonic conversion method for high-frequency reconstruction (HFR) in digital effects processors, such as exciters, which generate harmonic distortion to add brightness to the processed signal, and in devices for stretching the time scale, which increase the duration of the signal while preserving the spectral composition. Disclosed method realizes high-frequency reconstruction (HFR), in which a new component with frequency QΩ+rΩ0 is generated based on existing components with frequencies Ω and Ω+Ω0. In the method, harmonic conversion is performed based on a subband block, where a time block of complex-valued discrete values of subbands is processed by well-known phase modification. Superposition of several modified discrete values gives resultant effect of limiting undesirable combination components, whereby it is possible to use coarser frequency resolution and/or less degree of oversampling. In one embodiment, the invention further comprises a window function suitable for use with a cross-product-amplified subband block-based HFR. Also disclosed is a system and a persistent data medium which implements the disclosed method.
EFFECT: creation of a more efficient implementation of HFR amplified by cross products, in particular creation of a method which reproduces an audio signal with high accuracy under the condition of reduction of computational costs.
3 cl, 9 dwg

Description

ОБЛАСТЬ ТЕХНИКИTECHNICAL FIELD

Настоящее изобретение относится к системам кодирования источников звукового сигнала, которые применяют способ гармонического преобразования для высокочастотной реконструкции (HFR) в процессорах цифровых эффектов, таких как эксайтеры, которые генерируют гармоническое искажение для добавления яркости в обрабатываемый сигнал, и в устройствах растягивания временной шкалы, которые увеличивают длительность сигнала с сохранением спектрального состава.The present invention relates to audio source encoding systems that employ harmonic transformation techniques for high frequency reconstruction (HFR) in digital effects processors such as exciters that generate harmonic distortion to add brightness to the processed signal, and in time stretchers that increase signal duration while maintaining the spectral composition.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

В документе WO 98/57436 концепция преобразования была установлена как способ воссоздания высокочастотной полосы из низкочастотной полосы звукового сигнала. Путем использования этой концепции можно получить значительную экономию битовой скорости передачи данных при кодировании звукового сигнала. В системе кодирования звукового сигнала на основе HFR сигнал с низкочастотной полосой пропускания передается в базовый кодер формы сигнала, и более высокие частоты регенерируются с использованием преобразования и дополнительной вспомогательной информации, передаваемой с очень низкой битовой скоростью передачи данных, которая описывает целевую форму спектра на стороне декодера. Для низких битовых скоростей передачи данных, когда полоса пропускания базового кодированного сигнала является узкой, приобретает возрастающую важность воссоздание высокочастотной полосы с приятными для восприятия характеристиками. Гармоническое преобразование, определенное в документе WO №98/57436, очень хорошо выполняется для сложного музыкального материала в ситуации с низкой частотой перехода. Принцип гармонического преобразования заключается в том, что синусоида с частотой ω отображается в синусоиду с частотой Q ϕ ω, где Q ϕ больше 1 - целое число, определяющее порядок преобразования. Для сравнения, HFR на основе модуляции сигнала с одной боковой полосой отображает синусоиду с частотой ω в синусоиду с частотой ω+Δω, где Δω - фиксированный сдвиг частоты. Для любого данного базового сигнала с низкой полосой пропускания, в результате преобразования SSB будет возникать артефакт диссонирующего звона.In WO 98/57436, the concept of conversion was established as a method of recreating a high frequency band from a low frequency band of an audio signal. By using this concept, significant bit rate savings can be achieved when encoding an audio signal. In an HFR-based audio encoding system, a low-bandwidth signal is passed to a base waveform encoder and higher frequencies are regenerated using a transform and additional auxiliary information transmitted at a very low bit rate that describes the target spectral shape at the decoder side . For low bit rates, where the bandwidth of the underlying encoded signal is narrow, it becomes increasingly important to recreate the high frequency band with visually pleasing characteristics. The harmonic transformation defined in WO No. 98/57436 performs very well for complex musical material in low transition frequency situations. The principle of harmonic transformation is that a sinusoid with frequency ω is mapped into a sinusoid with frequency Q ϕ ω , where Q ϕ greater than 1 - an integer that determines the conversion order. In comparison, HFR based on single sideband signal modulation maps a sine wave of frequency ω to a sine wave of frequency ω+Δω , where Δω is a fixed frequency offset. For any given low-bandwidth base signal, the resulting SSB conversion will produce a dissonant ringing artifact.

C целью достижения наилучшего возможного качества звукового сигнала способы высококачественной гармонической HFR на современном уровне техники используют для достижения требуемого качества звука блоки комплексных модулированных фильтров с очень высокой разрешающей способностью по частоте и высокой степенью передискретизации. Высокая разрешающая способность необходима для того, чтобы избежать нежелательного интермодуляционного искажения, возникающего в результате нелинейной обработки сумм синусоид. При достаточной узости поддиапазонов высококачественные способы стремятся к тому, чтобы в каждом поддиапазоне содержалось не более одной синусоиды. Высокая степень передискретизации по времени необходима для того, чтобы избежать искажений из-за недостаточной частоты дискретизации, а определенная степень передискретизации по частоте необходима для того, чтобы избежать опережающего эха для переходных сигналов. Очевидным недостатком является, то что вычислительная сложность становится при этом очень высокой.In order to achieve the best possible audio signal quality, state-of-the-art high-quality harmonic HFR techniques use complex modulated filter banks with very high frequency resolution and a high degree of oversampling to achieve the required audio quality. High resolution is necessary to avoid unwanted intermodulation distortion resulting from nonlinear processing of sums of sine waves. If the subbands are sufficiently narrow, high-quality methods strive to ensure that each subband contains no more than one sine wave. A high degree of time oversampling is necessary to avoid undersampling distortion, and a certain degree of frequency oversampling is necessary to avoid leading echoes for transient signals. The obvious disadvantage is that the computational complexity becomes very high.

Другой общеизвестный недостаток, связанный с гармоническими преобразованиями, проявляется для сигналов с выраженной периодической структурой. Эти сигналы представляют собой суперпозиции гармонически связанных синусоид с частотами Ω, 2Ω, 3Ω., где Ω - основная частота. При гармоническом преобразовании порядка Q ϕ выходные синусоиды имеют частоты Q ϕ Ω, 2Q ϕ Ω, 3Q ϕ Ω., что в случае Q ϕ больше 1 представляет собой строгое подмножество желаемого полного гармонического ряда. В отношении результирующего качества звука, как правило, будет восприниматься «паразитный» основной тон, соответствующий преобразованной основной частоте Q ϕ Ω. Часто гармоническое преобразование приводит к «металлическому» характеру звучания кодированного и декодированного звукового сигнала.Another well-known disadvantage associated with harmonic transformations appears for signals with a pronounced periodic structure. These signals are superpositions of harmonically related sinusoids with frequencies Ω, 2Ω, 3Ω ., where Ω is the fundamental frequency. With a harmonic transformation of order Q ϕ, the output sinusoids have frequencies Q ϕ Ω, 2 Q ϕ Ω, 3 Q ϕ Ω .... , which in the case of Q ϕ greater than 1 represents a strict subset of the desired complete harmonic series. In terms of the resulting sound quality, a "spurious" fundamental tone will typically be perceived corresponding to the converted fundamental frequency Q ϕ Ω. Often harmonic transformation leads to a “metallic” character in the sound of the encoded and decoded audio signal.

В документе WO 2010/081892, который ссылкой включается в настоящее описание, для обращения к решению описанной выше проблемы «паразитного» основного тона в случае высококачественного преобразования был разработан способ перекрестных произведений. Для заданной частичной или полной передаваемой информации о значении основной частоты преобладающей гармонической части сигнала, подлежащего преобразованию с высокой точностью, нелинейные модификации поддиапазонов дополняются нелинейными комбинациями по меньшей мере двух различных анализируемых поддиапазонов, где расстояния между индексами анализируемых поддиапазонов связаны с основной частотой. В результате генерируются недостающие гармоники преобразованного выходного сигнала, что, однако, происходит со значительными вычислительными затратами.In WO 2010/081892, which is incorporated by reference herein, a cross-product method was developed to address the above-described problem of a “spurious” pitch in the case of high-quality conversion. For a given partial or complete transmitted information about the value of the fundamental frequency of the predominant harmonic part of the signal to be converted with high accuracy, nonlinear modifications of the subbands are supplemented by nonlinear combinations of at least two different analyzed subbands, where the distances between the indices of the analyzed subbands are related to the fundamental frequency. As a result, missing harmonics of the converted output signal are generated, which, however, occurs at significant computational costs.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION

В виду описанных выше недостатков имеющихся в наличии способов HFR целью настоящего изобретения является создание более эффективной реализации HFR, усиленной перекрестными произведениями. В частности, целью является создание указанного способа, который допускал бы воспроизведение звукового сигнала с высокой точностью при условии снижения вычислительных затрат по сравнению с имеющимися в доступе способами.In view of the above-described shortcomings of available HFR methods, the purpose of the present invention is to provide a more efficient cross-product-enhanced implementation of HFR. In particular, the aim is to create said method which would allow the reproduction of an audio signal with high accuracy, provided that the computational cost is reduced compared to available methods.

Настоящее изобретение достигает, по меньшей мере, одной из этих целей путем создания устройств и способов согласно независимым пунктам формулы изобретения.The present invention achieves at least one of these objects by providing devices and methods according to independent claims.

В первом аспекте изобретение предусматривает систему, сконфигурированную для генерирования растянутого во времени и/или преобразованного по частоте сигнала из входного сигнала. Система содержит:In a first aspect, the invention provides a system configured to generate a time-stretched and/or frequency-converted signal from an input signal. The system contains:

• блок анализирующих фильтров, сконфигурированный для получения из входного сигнала некоторого количества Y сигналов анализируемых поддиапазонов, где каждый сигнал анализируемого поддиапазона включает ряд комплекснозначных анализируемых дискретных значений, каждое из которых имеет фазу и амплитуду;• a block of analyzing filters configured to obtain from the input signal a certain number of Y signals of analyzed subbands, where each signal of the analyzed subband includes a number of complex-valued analyzed discrete values, each of which has a phase and amplitude;

• модуль обработки поддиапазонов, сконфигурированный для определения сигнала синтезируемого поддиапазона исходя из Y сигналов анализируемых поддиапазонов с использованием коэффициента Q преобразования поддиапазонов и коэффициента S растягивания поддиапазонов, где по меньшей мере один из коэффициентов Q и S больше единицы, причем модуль обработки поддиапазонов включает:• a subband processing module configured to determine a synthesized subband signal based on the Y signals of the analyzed subbands using a subband transformation coefficient Q and a subband stretching coefficient S , where at least one of the coefficients Q and S is greater than one, wherein the subband processing module includes:

○ экстрактор блоков, сконфигурированный для:○ block extractor configured for:

■ i) формирования Y кадров, состоящих из L входных дискретных значений, где каждый кадр извлекается из указанного ряда комплекснозначных дискретных значений в сигнале анализируемого поддиапазона, и длина кадра L больше 1; и■ i) generating Y frames consisting of L input discrete values, where each frame is extracted from a specified series of complex-valued discrete values in the signal of the analyzed subband, and the frame length L is greater than 1; And

■ ii) применения величины скачка блока из h дискретных значений к указанному ряду анализируемых дискретных значений перед формированием следующего кадра, состоящего из L входных дискретных значений, посредством чего генерируется последовательность кадров входных дискретных значений;■ ii) applying the jump value of a block of h samples to the specified series of analyzed samples before generating the next frame consisting of L input samples, whereby a sequence of input sample frames is generated;

○ модуль нелинейной обработки кадров, сконфигурированный для генерирования на основе Y соответствующих кадров входных дискретных значений, сформированных в экстракторе блоков, кадра обрабатываемых дискретных значений путем определения фазы и амплитуды для каждого обрабатываемого дискретного значения кадра, где для по меньшей мере одного обрабатываемого дискретного значения:○ a nonlinear frame processing module configured to generate, based on Y corresponding frames of input samples generated in the block extractor, a frame of processed samples by determining the phase and amplitude for each processed sample of the frame, where for at least one processed sample:

■ i) фаза обрабатываемого дискретного значения основывается на соответствующих фазах соответствующего входного дискретного значения в каждом из Y кадров входных дискретных значений; и■ i) the phase of the processed sample is based on the corresponding phases of the corresponding input sample in each of the Y input sample frames; And

■ ii) амплитуда обрабатываемого дискретного значения основывается на амплитуде соответствующего входного дискретного значения в каждом из Y кадров входных дискретных значений; и■ ii) the amplitude of the processed sample is based on the amplitude of the corresponding input sample in each of the Y input sample frames; And

○ модуль наложения и сложения, сконфигурированный для определения сигнала синтезируемого поддиапазона путем наложения и сложения дискретных значений из последовательности кадров обрабатываемых дискретных значений; и○ an overlay and addition module configured to determine the signal of the synthesized subband by overlaying and adding discrete values from a sequence of frames of processed discrete values; And

• блок синтезирующих фильтров, сконфигурированный для генерирования растянутого во времени и/или преобразованного по частоте сигнала из сигнала синтезируемого поддиапазона.• a synthesis filter bank configured to generate a time-stretched and/or frequency-converted signal from the synthesis subband signal.

Система может действовать при любом положительном целочисленном значении Y. Однако она действует при, по меньшей мере, Y=2.The system can operate for any positive integer value of Y. However, it is valid for at least Y =2.

Во втором аспекте изобретение предусматривает способ генерирования растянутого во времени и/или преобразованного по частоте сигнала из входного сигнала. Способ включает:In a second aspect, the invention provides a method for generating a time-stretched and/or frequency-converted signal from an input signal. The method includes:

• получение из входного сигнала некоторого количества Y>2 сигналов анализируемых поддиапазонов, где каждый сигнал анализируемого поддиапазона включает ряд комплекснозначных анализируемых дискретных значений, каждое из которых имеет фазу и амплитуду;• obtaining from the input signal a certain number of Y >2 signals of the analyzed subranges, where each signal of the analyzed subrange includes a number of complex-valued analyzed discrete values, each of which has a phase and amplitude;

• формирование Y кадров, состоящих из L входных дискретных значений, где каждый кадр извлекается из указанного ряда комплекснозначных анализируемых дискретных значений в сигнале анализируемого поддиапазона, и длина кадра L более 1;• formation of Y frames consisting of L input discrete values, where each frame is extracted from a specified number of complex-valued analyzed discrete values in the signal of the analyzed subband, and the frame length L is more than 1;

• применение величины скачка блока из h дискретных значений к указанному ряду анализируемых дискретных значений перед получением следующего кадра, состоящего из L входных дискретных значений, посредством чего генерируется последовательность кадров входных дискретных значений;• applying a jump value of a block of h samples to a specified series of analyzed samples before obtaining the next frame consisting of L input samples, whereby a sequence of frames of input samples is generated;

• генерирование на основе Y соответствующих кадров входных дискретных значений кадра обрабатываемых дискретных значений путем определения фазы и амплитуды для каждого обрабатываемого дискретного значения кадра, где для, по меньшей мере, одного обрабатываемого дискретного значения:• generating, based on Y, the corresponding frame input samples of the frame of processed samples by determining the phase and amplitude for each processed sample of the frame, where for at least one processed sample:

○ фаза обрабатываемого дискретного значения основывается на соответствующих фазах соответствующего входного дискретного значения по меньшей мере в одном из Y кадров входных дискретных значений; и○ the phase of the processed discrete value is based on the corresponding phases of the corresponding input discrete value in at least one of the Y input discrete value frames; And

○ амплитуда обрабатываемого дискретного значения основывается на амплитуде соответствующего входного дискретного значения в каждом из Y кадров входных дискретных значений;○ the amplitude of the processed discrete value is based on the amplitude of the corresponding input discrete value in each of the Y frames of input discrete values;

• определение сигнала синтезируемого поддиапазона путем наложения и сложения дискретных значений из последовательности кадров обрабатываемых дискретных значений; и• determination of the synthesized subband signal by superimposing and adding discrete values from a sequence of frames of processed discrete values; And

• генерирование растянутого во времени и/или преобразованного по частоте сигнала из сигнала синтезируемого поддиапазона.• generation of a time-stretched and/or frequency-converted signal from a synthesized sub-band signal.

Здесь Y - произвольное целое число больше единицы. Система согласно первому аспекту действует для осуществления способа, по меньшей мере, для Y=2.Here Y is an arbitrary integer greater than one. The system according to the first aspect operates to implement the method at least for Y =2.

Третий аспект изобретения предусматривает компьютерный программный продукт, который включает машиночитаемый носитель данных (или информационный носитель), в памяти которого хранятся команды программного обеспечения, предназначенные для того, чтобы вызывать исполнение программируемым компьютером способа согласно второму аспекту.A third aspect of the invention provides a computer program product that includes a computer-readable storage medium (or information storage medium) in a memory of which software instructions are stored for causing a programmable computer to execute a method according to the second aspect.

Изобретение основывается на понимании того, что общая концепция HFR, усиленной перекрестными произведениями, будет обеспечивать улучшенные результаты тогда, когда обрабатываются данные, упорядоченные в блоки, которые состоят из комплексных дискретных значений поддиапазонов. Помимо прочего, это делает возможным применение к дискретным значениям покадрового сдвига по фазе, что, как было обнаружено, в некоторых ситуациях ослабляет комбинационные составляющие. Также возможно применение регулировки амплитуды, что может приводить к похожим полезным эффектам. Реализация усиленной перекрестными произведениями HFR согласно изобретению включает гармоническое преобразование на основе блока поддиапазонов, что может значительно ослаблять комбинационные составляющие. Поэтому, несмотря на сохранение высокого воспринимаемого качества, может использоваться блок фильтров (такой как блок QMF-фильтров) с более грубой разрешающей способностью по частоте и/или меньшей степенью передискретизации. При обработке на основе блока поддиапазонов временной блок комплексных дискретных значений поддиапазонов обрабатывается путем общеизвестной модификации фаз, а суперпозиция нескольких модифицированных дискретных значений при формировании выходного дискретного значения поддиапазона дает совокупный эффект подавления комбинационных составляющих, которые иначе возникают тогда, когда сигнал входного поддиапазона состоит из нескольких синусоид. Преобразование, основанное на обработке поддиапазона на основе блока, имеет намного меньшую вычислительную сложность, чем у преобразователей с высокой разрешающей способностью, и для многих сигналов достигает почти такого же качества.The invention is based on the understanding that the general concept of HFR, enhanced by cross products, will provide improved results when processing data arranged into blocks that consist of complex discrete subband values. Among other things, this makes it possible to apply a frame-by-frame phase shift to discrete values, which has been found to weaken the Raman components in some situations. It is also possible to use amplitude adjustment, which can lead to similar beneficial effects. The implementation of cross-product enhanced HFR according to the invention involves harmonic transformation based on a block of subbands, which can significantly attenuate the combinational components. Therefore, while maintaining high perceived quality, a filter bank (such as a QMF filter bank) with coarser frequency resolution and/or less oversampling may be used. In subband block processing, a time block of complex subband samples is processed by conventional phase modification, and the superposition of several modified samples to form an output subband sample has the cumulative effect of suppressing the combinational components that would otherwise occur when the input subband signal consists of multiple sinusoids. . Conversion based on block-based subband processing has much less computational complexity than high-resolution converters and achieves almost the same quality for many signals.

Для цели данного раскрытия отметим, что в вариантах осуществления изобретения, где Y>2, модуль нелинейной обработки использует в качестве входного сигнала Y «соответствующих» кадров входных дискретных значений в том смысле, что кадры являются синхронными или почти синхронными. Например, дискретные значения в соответствующих кадрах могут относиться к промежуткам времени, имеющим значительное перекрывание по времени между кадрами. Термин «соответствующие» также используется в отношении дискретных значений для указания того, что они являются синхронными или приблизительно являются таковыми. Кроме того, термин «кадр» будет использоваться взаимозаменяемо с термином «блок». Соответственно, «величина скачка блока» может быть равна длине кадра (возможно, скорректированной в отношении понижающей дискретизации, если она применяется) или может быть меньше длины кадра (возможно, скорректированной в отношении понижающей дискретизации, если она применяется), и в этом случае последовательные кадры накладываются в том смысле, что входное дискретное значение может принадлежать более чем одному кадру. Система необязательно генерирует каждое обрабатываемое дискретное значение в кадре путем определения его фазы и амплитуды на основе фазы и амплитуды всех Y соответствующих кадров входных дискретных значений; без отступления от изобретения система может генерировать фазу и/или амплитуду некоторых обрабатываемых дискретных значений на основе меньшего количества соответствующих входных дискретных значений или на основе только одного входного дискретного значения.For the purpose of this disclosure, note that in embodiments of the invention where Y >2, the nonlinear processing module uses as input Y "corresponding" frames of input samples in the sense that the frames are synchronous or nearly synchronous. For example, the discrete values in the corresponding frames may refer to time periods that have significant time overlap between frames. The term "corresponding" is also used in relation to discrete values to indicate that they are or approximately are synchronous. Additionally, the term "frame" will be used interchangeably with the term "block". Accordingly, the "block jump amount" may be equal to the frame length (possibly adjusted for downsampling, if applicable) or may be less than the frame length (possibly adjusted for downsampling, if applicable), in which case consecutive frames overlap in the sense that an input sample can belong to more than one frame. The system optionally generates each processed sample in a frame by determining its phase and amplitude based on the phase and amplitude of all Y corresponding frames of input samples; Without departing from the invention, the system may generate the phase and/or amplitude of some of the processed samples based on a smaller number of corresponding input samples or based on only one input sample.

В одном из вариантов осуществления изобретения, блок анализирующих фильтров представляет собой блок квадратурных зеркальных фильтров (QMF), или блок псевдо-QMF, с любым количеством звеньев и точек. Например, он может представлять собой 64-точечный блок QMF. Блок анализирующих фильтров также может выбираться из класса оконных дискретных преобразований Фурье или вейвлет-преобразований. Преимущественно, блок синтезирующих фильтров согласуется с блоком анализирующих фильтров, являясь, соответственно, блоком обратных QMF, блоком обратных псевдо-QMF и т.д. Известно, что указанные блоки фильтров могут обладать достаточно грубой разрешающей способностью по частоте и/или относительно низкой степенью передискретизации. В отличие от текущего уровня техники, изобретение может осуществляться с использованием указанных относительно более простых компонентов, необязательно страдая от понижения качества на выходе; таким образом, указанные варианты осуществления изобретения обладают экономическим преимуществом перед текущим уровнем техники.In one embodiment of the invention, the analysis filter bank is a quadrature mirror filter (QMF) bank, or pseudo-QMF bank, with any number of links and points. For example, it could be a 64-point QMF block. The analysis filter block can also be selected from a class of windowed discrete Fourier transforms or wavelet transforms. Advantageously, the synthesis filter block is coordinated with the analysis filter block, being, respectively, an inverse QMF block, an inverse pseudo-QMF block, etc. It is known that these filter banks may have a fairly coarse frequency resolution and/or a relatively low degree of oversampling. Unlike the current state of the art, the invention can be implemented using these relatively simpler components without necessarily suffering from a reduction in output quality; Thus, these embodiments of the invention have an economic advantage over the current state of the art.

В одном из вариантов осуществления изобретения, для блока анализирующих фильтров верно одно или несколько следующих утверждений:In one embodiment of the invention, one or more of the following statements are true for the analysis filter bank:

• шаг анализа по времени - Δt A ;• time step of analysis - Δ t A ;

• разнос анализируемых частот - Δƒ A ;• separation of analyzed frequencies - Δƒ A ;

• блок анализирующих фильтров включает N>1 анализируемых поддиапазонов, индексируемых по индексу анализируемого поддиапазона n=0,…, N-1;• the block of analyzing filters includes N >1 analyzed subranges, indexed by the index of the analyzed subrange n=0,..., N-1 ;

• анализируемый поддиапазон связан с одной из частотных полос входного сигнала.• the analyzed subband is associated with one of the frequency bands of the input signal.

В одном из вариантов осуществления изобретения, для блока синтезирующих фильтров верно одно или несколько следующих утверждений:In one embodiment of the invention, one or more of the following statements are true for a synthesis filter bank:

• шаг синтеза по времени - Δt s ;• synthesis time step - Δt s ;

• разнос синтезируемых частот - Δƒ s ;• separation of synthesized frequencies - Δ ƒ s ;

• блок синтезирующих фильтров включает M>1 синтезируемых поддиапазонов, индексируемых по индексу синтезируемого поддиапазона m=0 ,… , M-1;• the block of synthesis filters includes M >1 synthesized subbands, indexed by the index of the synthesized subband m=0,..., M-1 ;

• синтезируемый поддиапазон связан с одной из частотных полос сигнала, растянутого во времени и/или преобразованного по частоте.• the synthesized sub-range is associated with one of the frequency bands of the signal, stretched in time and/or converted in frequency.

В одном из вариантов осуществления изобретения, модуль нелинейной обработки кадров адаптирован для ввода двух кадров (Y=2) с целью генерирования одного кадра обрабатываемых дискретных значений, и модуль обработки поддиапазонов включает модуль управления перекрестной обработкой, предназначенный для генерирования данных управления перекрестной обработкой. Определяя количественные и/или качественные характеристики обработки поддиапазонов таким образом, изобретение добивается гибкости и приспособляемости. Управляющие данные могут определять поддиапазоны (например, идентифицируемые по индексам), которые отличаются по частоте от основной частоты входного сигнала. Иными словами, индексы, идентифицирующие поддиапазоны, могут отличаться на целое число, служащее приближением частного указанной основной частоты, деленной на разнос анализируемых частот. Это будет приводить к приятному с психоакустической точки зрения выходному сигналу, поскольку новые спектральные составляющие, генерируемые путем гармонического преобразования, будут совместимы с рядом натуральных гармоник.In one embodiment of the invention, the nonlinear frame processing module is adapted to input two frames ( Y =2) to generate one frame of processed samples, and the subband processing module includes a cross-processing control module for generating cross-processing control data. By defining quantitative and/or qualitative characteristics of subband processing in this way, the invention achieves flexibility and adaptability. The control data may define subbands (eg, identified by indices) that differ in frequency from the fundamental frequency of the input signal. In other words, the indices identifying the subbands may differ by an integer, which serves as an approximation of the quotient of the specified fundamental frequency, divided by the separation of the analyzed frequencies. This will result in a psychoacoustically pleasing output signal since the new spectral components generated by the harmonic transformation will be compatible with a range of natural harmonics.

В дальнейшем развитии предшествующего варианта осуществления изобретения индексы (входного) анализируемого и (выходного) синтезируемого поддиапазонов выбираются так, чтобы удовлетворялось приводимое ниже уравнение (16). Появляющийся в этом уравнении параметр σ делает его применимым как к неравномерно, так и к равномерно скомпонованным блокам фильтров. Если индексы поддиапазонов получаются как приближенное (например, по методу наименьших квадратов) решение уравнения (16), новая спектральная составляющая, получаемая путем гармонического преобразования, вероятно, будет совместима с рядом натуральных гармоник. Таким образом, HFR, вероятно, будет обеспечивать достоверную реконструкцию оригинального сигнала, из которого было устранено высокочастотное содержимое.In a further development of the previous embodiment of the invention, the indices of the (input) analyzed and (output) synthesized subbands are selected so as to satisfy Equation (16) below. The parameter σ that appears in this equation makes it applicable to both non-uniformly and uniformly arranged filter banks. If the subband indices are obtained as an approximate (eg least squares) solution of equation (16), the new spectral component obtained by the harmonic transformation is likely to be compatible with a number of natural harmonics. Thus, HFR is likely to provide a faithful reconstruction of the original signal from which high-frequency content has been removed.

Дальнейшее развитие предшествующего варианта осуществления изобретения предусматривает способ выбора параметра r, появляющегося в уравнении (16), и представления порядка преобразования с перекрестными произведениями. Для заданного индекса m выходного поддиапазона каждое значение порядка r преобразования будет определять два индекса n 1 , n 2 анализируемых поддиапазонов. Такое дальнейшее развитие оценивает амплитуды двух указанных поддиапазонов для некоторого количества r вариантов и выбирает то значение, которое дает максимизацию минимальной из двух амплитуд анализируемых поддиапазонов. Такой способ выбора индексов может позволить избежать необходимости в воссоздании достаточной величины амплитуды путем усиления слабых составляющих входного сигнала, что на выходе может приводить к низкому качеству. В этой связи, амплитуды поддиапазонов могут рассчитываться способом, который известен сам по себе, таким как квадратный корень из квадратов входных дискретных значений, образующих кадр (блок) или часть кадра. Амплитуда поддиапазона также может рассчитываться как амплитуда центрального, или ближайшего к центральному, дискретного значения в кадре. Такой расчет может создавать простой, но в то же время адекватный количественный показатель амплитуды.A further development of the foregoing embodiment of the invention provides a method for selecting the parameter r appearing in equation (16) and representing the order of the cross-product transformation. For a given index m of the output subrange, each value of the order r of the transformation will determine two indices n 1 , n 2 of the analyzed subranges. This further development evaluates the amplitudes of the two specified subranges for a certain number r of options and selects the value that maximizes the minimum of the two amplitudes of the analyzed subranges. This method of selecting indices can avoid the need to recreate sufficient amplitude by amplifying weak components of the input signal, which can lead to poor quality output. In this regard, the amplitudes of the subbands can be calculated in a manner that is known per se, such as the square root of the squares of the input samples forming a frame (block) or part of a frame. The subband amplitude can also be calculated as the amplitude of the central, or closest to the central, sample value in the frame. Such a calculation can create a simple, but at the same time adequate quantitative indicator of the amplitude.

В дальнейшем развитии предшествующего варианта осуществления изобретения синтезируемый поддиапазон может принимать вклады от событий гармонического преобразования согласно как прямой обработке, так и обработке на основе перекрестных произведений. В этой связи, для определения того, подлежит ли использованию особая возможность восстановления недостающей гармоники путем обработки на основе перекрестных произведений, могут применяться критерии принятия решения. Например, указанное дальнейшее развитие может адаптироваться так, чтобы оно воздерживалось от использования одного модуля перекрестной обработки поддиапазонов в случае, когда выполняется одно из следующих условий:In a further development of the previous embodiment of the invention, the synthesized subband can receive contributions from harmonic transformation events according to both direct processing and cross product processing. In this regard, decision criteria may be applied to determine whether the special ability to recover the missing harmonic through cross-product processing should be used. For example, said further development may be adapted so that it refrains from using one subband cross-processing module in the case where one of the following conditions is met:

a) соотношение амплитуды M s члена анализируемого поддиапазона из прямого источника, приводящего к синтезируемому поддиапазону, и, по меньшей мере, амплитуды M c в оптимальной паре членов из перекрестного источника, приводящих к синтезируемому поддиапазону, больше предварительно определенной постоянной;a) the ratio of the amplitude M s of the member of the analyzed subband from the direct source leading to the synthesized subband, and at least the amplitude M c in the optimal pair of terms from the cross source leading to the synthesized subband, is greater than a predetermined constant;

b) синтезируемый поддиапазон уже принимает значительный вклад от модуля прямой обработки;b) the synthesized subband already receives a significant contribution from the direct processing module;

c) основная частота Ω0 меньше, чем разнос частот блока анализирующих фильтров Δƒ A .c) the fundamental frequency Ω 0 is less than the frequency separation of the block of analyzing filters Δ ƒ A .

В одном из вариантов осуществления изобретения, изобретение включает понижающую дискретизацию (прореживание) входного сигнала. Более того, один или несколько кадров входных дискретных значений могут определяться путем понижающей дискретизации комплекснозначных дискретных значений в поддиапазоне, которая может выполняться экстрактором блоков.In one embodiment of the invention, the invention includes downsampling (decimation) of the input signal. Moreover, one or more frames of input samples may be determined by downsampling the complex-valued samples in a subrange, which may be performed by a block extractor.

В дальнейшем развитии предшествующего варианта осуществления изобретения подлежащие применению коэффициенты понижающей дискретизации удовлетворяют приводимому ниже уравнению (15). Равенство нулю обоих коэффициентов понижающей дискретизации не допускается, поскольку это соответствует тривиальному случаю. Уравнение (15) определяет взаимосвязь коэффициентов понижающей дискретизации D1, D2 с коэффициентом S растягивания поддиапазонов и коэффициентом Q преобразования поддиапазонов, а также с фазовыми коэффициентами T1, T2, появляющимися в выражении (13) для определения фазы обрабатываемого дискретного значения. Это обеспечивает согласованность фазы обрабатываемых дискретных значений с другими составляющими входного сигнала, добавлению к которым подлежат обрабатываемые дискретные значения.In a further development of the foregoing embodiment, the downsampling factors to be applied satisfy Equation (15) below. It is not allowed for both downsampling factors to be zero because this corresponds to a trivial case. Equation (15) determines the relationship of the downsampling coefficients D 1 , D 2 with the subband stretching coefficient S and the subband conversion coefficient Q , as well as with the phase coefficients T 1 , T 2 appearing in expression (13) to determine the phase of the processed discrete value. This ensures that the phase of the processed discrete values is consistent with other components of the input signal, to which the processed discrete values are subject to addition.

В одном из вариантов осуществления изобретения, кадры обрабатываемых дискретных значений перед их наложением и сложением подвергаются оконной обработке. Модуль оконной обработки может быть адаптирован для применения к обрабатываемым дискретным значениям оконной функции конечной длины. Подходящие оконные функции перечисляются в прилагаемой формуле изобретения.In one embodiment of the invention, frames of processed discrete values are windowed before they are superimposed and added. The windowing module can be adapted to be applied to processed discrete values of a finite length windowing function. Suitable window functions are listed in the accompanying claims.

Автор изобретения осознал, что способы перекрестных произведений, раскрытые в документе WO №2010/08892 изначально не вполне совместимы со способами обработки на основе блока поддиапазонов. Несмотря на то, что указанный способ может удовлетворительно применяться к одному из дискретных значений в блоке, он может приводить к артефактам наложения спектров, если его напрямую распространить на другие дискретные значения блока. C этой целью, один из вариантов осуществления изобретения применяет оконные функции, включающие оконные дискретные значения, которые, при их взвешивании посредством комплексных весовых коэффициентов и смещении на величину скачка, сводятся к, в значительной мере, постоянной последовательности. Величина скачка может представлять собой произведение величины скачка h блока на коэффициент растягивания поддиапазонов S. Использование указанных оконных функций ослабляет воздействие артефактов наложения спектров. В альтернативном варианте или в дополнение, указанные оконные функции также могут допускать и такие другие меры по ослаблению артефактов, как чередования фаз обрабатываемых дискретных значений.The inventor realized that the cross product methods disclosed in WO No. 2010/08892 are not inherently compatible with subband block based processing methods. Although this method can be satisfactorily applied to one of the samples in a block, it may lead to aliasing artifacts if directly extended to other samples in the block. To this end, one embodiment of the invention employs window functions comprising windowed discrete values which, when weighted by complex weighting factors and offset by a jump amount, are reduced to a substantially constant sequence. The jump size may be the product of the block jump size h and the subband stretch factor S. Using these windowing functions reduces the impact of aliasing artifacts. Alternatively or in addition, these window functions may also allow other artifact mitigation measures such as phase alternations of the processed discrete values.

Предпочтительно, следующие один за другим комплексные весовые коэффициенты, которые применяются к оконным дискретным значениям с целью оценивания их состояния, отличаются только на фиксированное чередование фазы. Также предпочтительно, чтобы указанное фиксированное чередование фазы было пропорционально основной частоте входного сигнала. Чередование фазы также может быть пропорционально подлежащему применению порядку преобразования перекрестных произведений и/или параметру физического преобразования, и/или разности коэффициентов понижающей дискретизации, и/или шагу анализа по времени. Чередование фазы может иметь вид уравнения (21), по меньшей мере, в приближенном смысле.Preferably, the successive complex weighting factors that are applied to the windowed samples for the purpose of estimating their state differ only by a fixed phase rotation. It is also preferable that said fixed phase rotation be proportional to the fundamental frequency of the input signal. The phase alternation may also be proportional to the cross product transformation order to be applied and/or the physical transformation parameter and/or the difference in downsampling factors and/or the time step of the analysis. The phase alternation may take the form of equation (21), at least in an approximate sense.

В одном из вариантов осуществления изобретения, настоящее изобретение делает возможным гармоническое преобразование, усиленное перекрестными произведениями, путем модификации синтезирующей оконной обработки в ответ на параметр основной частоты.In one embodiment, the present invention enables cross-product-enhanced harmonic transformation by modifying the synthesis windowing in response to a fundamental frequency parameter.

В одном из вариантов осуществления изобретения, последовательные кадры обрабатываемых дискретных значений складываются с определенным наложением. Для выполнения подходящего наложения кадры обрабатываемых дискретных значений надлежащим образом смещаются на величину скачка, которая представляет собой величину скачка h блока, помноженную на коэффициент S растягивания поддиапазонов. Таким образом, если наложение последовательных кадров входных дискретных значений составляет L-h, то наложение последовательных кадров обрабатываемых дискретных значений может составлять S(L-h).In one embodiment of the invention, successive frames of processed discrete values are added with a certain overlap. To perform a suitable overlay, the frames of the processed sample values are suitably shifted by a jump amount, which is the block jump amount h multiplied by the subband stretch factor S. Thus, if the overlap of successive frames of input samples is Lh , then the overlap of successive frames of processed samples may be S(Lh) .

В одном из вариантов осуществления изобретения, система согласно изобретению действует не только для генерирования обрабатываемого дискретного значения на основе Y=2 входных дискретных значений, но также и на основе только Y=1 дискретного значения. Таким образом, система может восстанавливать недостающие гармоники не только посредством подхода на основе перекрестных произведений (как, например, по уравнению (13)), но также и посредством прямого подхода на основе поддиапазонов (как, например, по уравнению (5) или (11)). Предпочтительно, управляющий модуль сконфигурирован для управления действием системы, в том числе и тем, какой из подходов подлежит использованию для восстановления конкретной недостающей гармоники.In one embodiment of the invention, the system of the invention operates not only to generate a process sample based on the Y =2 input samples, but also based on the Y =1 sample only. Thus, the system can recover the missing harmonics not only through a cross-product approach (such as Equation (13)), but also through a direct subband approach (such as Equation (5) or (11) )). Preferably, the control module is configured to control the operation of the system, including which approach should be used to restore a particular missing harmonic.

В дальнейшем развитии предшествующего варианта осуществления изобретения система также адаптируется для генерирования обрабатываемого дискретного значения на основе более, чем трех дискретных значений, т.е. для Y>3. Например, обрабатываемое дискретное значение может быть получено путем вклада в обрабатываемое дискретное значение от нескольких событий гармонического преобразования на основе перекрестных произведений, путем нескольких событий прямой обработки поддиапазонов, или путем сочетания преобразования с перекрестными произведениями и прямого преобразования. Указанная возможность адаптации способа преобразования обеспечивает производительную и многофункциональную HFR. Соответственно, данный вариант осуществления изобретения действует для осуществления способа согласно второму аспекту изобретения для Y=3, 4, 5 и т.п.In a further development of the previous embodiment of the invention, the system is also adapted to generate a processed discrete value based on more than three discrete values, i.e. for Y >3. For example, the processed sample value may be obtained by contributing to the processed sample value from multiple cross product harmonic transform events, by multiple direct subband processing events, or by a combination of cross product transform and direct transform. This ability to adapt the conversion method provides a productive and multifunctional HFR. Accordingly, this embodiment of the invention operates to implement the method according to the second aspect of the invention for Y = 3, 4, 5 and the like.

Один из вариантов осуществления изобретения сконфигурирован для определения обрабатываемого дискретного значения как комплексного числа, имеющего амплитуду, которая представляет собой среднее значение соответствующих амплитуд соответствующих входных дискретных значений. Указанное среднее значение может представлять собой (взвешенное) арифметическое, (взвешенное) геометрическое или (взвешенное) гармоническое среднее двух или большего количества входных дискретных значений. В случае Y=2 среднее основывается на двух комплексных входных дискретных значениях. Предпочтительно, амплитуда обрабатываемого дискретного значения представляет собой геометрическое средневзвешенное значение. Более предпочтительно, геометрическое значение, как показано в уравнении (13), взвешивается при помощи параметров ρ и 1-ρ. Здесь параметр ρ геометрического взвешивания амплитуд представляет собой действительное число, обратно пропорциональное коэффициенту Q преобразования поддиапазонов. Параметр ρ также может быть обратно пропорционален коэффициенту S растягивания.One embodiment of the invention is configured to define a processed sample value as a complex number having an amplitude that is the average of the corresponding amplitudes of the corresponding input samples. Said average may be a (weighted) arithmetic, (weighted) geometric, or (weighted) harmonic average of two or more input samples. In the case of Y =2, the average is based on two complex input samples. Preferably, the amplitude of the processed sample value is a geometric weighted average value. More preferably, the geometric value, as shown in equation (13), is weighted by the parameters ρ and 1-ρ. Here, the geometric amplitude weighting parameter ρ is a real number inversely proportional to the subband conversion factor Q. The parameter ρ can also be inversely proportional to the stretching coefficient S.

В одном из вариантов осуществления изобретения система адаптируется для определения обрабатываемого дискретного значения как комплексного числа, имеющего фазу, которая представляет собой линейную комбинацию соответствующих фаз соответствующих входных дискретных значений в кадрах входных дискретных значений. В частности, линейная комбинация может включать фазы, относящиеся к двум входным дискретным значениям (Y=2). Линейная комбинация двух фаз может применять целочисленные ненулевые коэффициенты, сумма которых равна коэффициенту S растягивания, умноженному на коэффициент Q преобразования поддиапазонов. Факультативно, фаза, полученная путем указанной линейной комбинации, дополнительно корректируется посредством фиксированного параметра коррекции фазы. Фаза обрабатываемого дискретного значения может иметь вид уравнения (13).In one embodiment of the invention, the system is adapted to define the sample value being processed as a complex number having a phase that is a linear combination of the corresponding phases of the corresponding input samples in the input sample frames. In particular, the linear combination may include phases related to two input discrete values ( Y =2). The linear combination of two phases can apply integer non-zero coefficients whose sum is equal to the stretch factor S multiplied by the subband conversion factor Q. Optionally, the phase obtained by said linear combination is further corrected by a fixed phase correction parameter. The phase of the processed discrete value can have the form of equation (13).

В одном из вариантов осуществления изобретения, экстрактор блоков (или аналогичный этап в способе согласно изобретению) адаптируется для интерполяции двух или большего количества анализируемых дискретных значений из сигнала анализируемого поддиапазона с целью получения одного входного дискретного значения, которое будет включено в кадр (блок). Указанная интерполяция может делать возможной понижающую дискретизацию входного сигнала посредством нецелочисленного коэффициента. Анализируемые дискретные значения, подлежащие интерполяции, могут быть или могут не быть следующими друг за другом.In one embodiment of the invention, a block extractor (or a similar step in the method of the invention) is adapted to interpolate two or more analysis samples from the analysis subband signal to produce a single input sample to be included in a frame (block). Said interpolation may enable downsampling of the input signal by a non-integer factor. The analyzed discrete values to be interpolated may or may not be consecutive to each other.

В одном из вариантов осуществления изобретения, конфигурация обработки поддиапазонов может управляться посредством управляющих данных, доставляемых извне модуля, выполняющего обработку. Управляющие данные могут относиться к мгновенным акустическим свойствам входного сигнала. Например, сама система может содержать секцию, адаптированную для определения таких мгновенных акустических свойств сигнала, как (преобладающая) основная частота сигнала. Знание основной частоты обеспечивает руководство при выборе анализируемых поддиапазонов, из которых требуется получить обрабатываемые дискретные значения. Соответственно, разнос анализируемых поддиапазонов пропорционален указанной основной частоте входного сигнала. В качестве альтернативы, управляющие данные также могут доставляться извне системы, предпочтительно, путем включения в формат кодирования, подходящий для передачи в качестве битового потока по сети цифровой связи. В дополнение к управляющим данным указанный формат кодирования может содержать информацию, относящуюся к низкочастотным составляющим сигнала (например, к составляющим в поз. 701 на фиг. 7). Однако в интересах экономии полосы пропускания формат, предпочтительно, не включает полную информацию, относящуюся к высокочастотным составляющим (поз. 702), которые могут восстанавливаться согласно изобретению. Изобретение может, в частности, предусматривать систему декодирования с модулем приема управляющих данных, сконфигурированным для приема указанных управляющих данных, либо включенных в принимаемый битовый поток, который также кодирует входной сигнал, либо принимаемых как отдельный сигнал или битовый поток.In one embodiment of the invention, the subband processing configuration may be controlled by control data delivered externally to the module performing the processing. The control data may relate to the instantaneous acoustic properties of the input signal. For example, the system itself may contain a section adapted to determine instantaneous acoustic properties of the signal, such as the (dominant) fundamental frequency of the signal. Knowing the fundamental frequency provides guidance in selecting the analyzed subranges from which to obtain the processed discrete values. Accordingly, the separation of the analyzed subbands is proportional to the specified fundamental frequency of the input signal. Alternatively, the control data may also be delivered from outside the system, preferably by being included in an encoding format suitable for transmission as a bit stream over a digital communications network. In addition to control data, said encoding format may contain information related to low frequency components of the signal (eg, components at 701 in FIG. 7). However, in the interest of saving bandwidth, the format preferably does not include complete information related to the high frequency components (item 702) that can be recovered according to the invention. The invention may, in particular, provide a decoding system with a control data receiving module configured to receive said control data, either included in a received bit stream that also encodes the input signal, or received as a separate signal or bit stream.

Один из вариантов осуществления изобретения предусматривает способ эффективного осуществления расчетов, обусловленных способом согласно изобретению. С этой целью аппаратная реализация может включать преднормализатор, предназначенный для изменения масштаба амплитуд соответствующих дискретных значений в некоторых из Y кадров, на которых будет основываться кадр обрабатываемых дискретных значений. После указанного изменения масштаба обрабатываемое дискретное значение может быть рассчитано как (взвешенное) комплексное произведение входных дискретных значений, подвергнутых изменению масштаба, и, возможно, не подвергнутых изменению масштаба. Входное дискретное значение, возникающее в произведении как коэффициент с измененным масштабом, обычно повторно не появляется как коэффициент с неизменным масштабом. За исключением, возможно, параметра θ коррекции фазы можно оценить уравнение (13) как произведение комплексных входных дискретных значений (возможно, с измененным масштабом). Это предоставляет вычислительное преимущество по сравнению с обработками амплитуды и фазы обрабатываемого дискретного значения по отдельности.One embodiment of the invention provides a method for efficiently performing the calculations required by the method according to the invention. To this end, the hardware implementation may include a pre-normalizer for rescaling the amplitudes of the corresponding samples in some of the Y frames on which the frame of samples being processed will be based. After said rescaling, the processed sample value can be calculated as the (weighted) complex product of the input sample values subject to rescaling and possibly unscaled values. An input discrete value that appears in a product as a rescaled coefficient typically does not reappear as an unscaled coefficient. With the possible exception of the phase correction parameter θ, one can evaluate equation (13) as the product of complex input discrete values (possibly rescaled). This provides a computational advantage over processing the amplitude and phase of the sampled value separately.

В одном из вариантов осуществления изобретения система, сконфигурированная для случая Y=2, содержит два экстрактора блоков, адаптированных для формирования каждым из них одного кадра входных дискретных значений при параллельном действии.In one embodiment of the invention, a system configured for the Y =2 case includes two block extractors adapted to each generate one frame of input samples in parallel operation.

В дальнейшем развитии вариантов осуществления изобретения, представляющих Y>3, система может содержать ряд блоков обработки поддиапазонов, каждый из которых конфигурируется для определения сигнала промежуточного синтезируемого поддиапазона с использованием отличающегося коэффициента преобразования поддиапазонов и/или отличающегося коэффициента растягивания поддиапазонов, и/или способа преобразования, отличающегося тем, что он является основанным на перекрестном произведении или прямым. Для параллельного действия модули обработки поддиапазонов могут располагаться параллельно. В этом варианте осуществления изобретения система также может включать модуль слияния, расположенный за модулями обработки поддиапазонов и перед блоком синтезирующих фильтров. Модуль слияния может адаптироваться для слияния (например, путем смешивания) соответствующих сигналов промежуточных синтезируемых поддиапазонов с целью получения сигнала синтезируемого поддиапазона. Как уже отмечалось, промежуточный синтезируемый поддиапазон, который подвергается слиянию, может быть получен как путем прямого гармонического преобразования, так и путем преобразования на основе перекрестных произведений. Система согласно этому варианту осуществления изобретения также может содержать базовый декодер, предназначенный для декодирования битового потока во входной сигнал. Она также может включать модуль HFR-обработки, адаптированный для применения информации спектральной полосы, в особенности, путем выполнения формирования спектра. Действие модуля HFR-обработки может управляться информацией, закодированной в битовом потоке.In a further development of embodiments of the invention representing Y >3, the system may comprise a number of subband processing units, each of which is configured to determine an intermediate synthesized subband signal using a different subband conversion factor and/or a different subband stretch factor, and/or conversion method, characterized in that it is cross product based or direct. For parallel operation, subband processing modules can be arranged in parallel. In this embodiment of the invention, the system may also include a fusion module located behind the subband processing modules and in front of the synthesis filter bank. The fusion module may be adapted to merge (eg, by mixing) corresponding intermediate synthesis subband signals to produce a synthesis subband signal. As already noted, the intermediate synthesized subband that undergoes merging can be obtained either by direct harmonic transformation or by cross-product transformation. The system according to this embodiment of the invention may also include a core decoder for decoding the bit stream into an input signal. It may also include an HFR processing module adapted to apply the spectral band information, especially by performing spectrum shaping. The action of the HFR processing module may be controlled by information encoded in the bitstream.

Один из вариантов осуществления изобретения предусматривает HFR многомерных сигналов, например, в системе, предназначенной для воспроизведения звука в стереофоническом формате, содержащем Z каналов, таких как левый, правый, центральный, окружающий и т.д. В одной из возможных реализаций обработки входного сигнала с несколькими каналами обрабатываемые дискретные значения каждого канала основываются на одинаковом количестве входных дискретных значений, хотя коэффициент S растягивания и коэффициент Q преобразования для каждой полосы может варьироваться между каналами. С этой целью реализация может включать блок анализирующих фильтров, предназначенный для генерирования Y сигналов анализируемых поддиапазонов из каждого канала, модуль обработки поддиапазонов, предназначенный для генерирования Z сигналов поддиапазонов, и блок синтезирующих фильтров, предназначенный для генерирования Z растянутых во времени и/или преобразованных по частоте сигналов, которые образуют выходной сигнал.One embodiment of the invention provides for HFR of multi-dimensional signals, for example, in a system designed to reproduce audio in a stereo format containing Z channels such as left, right, center, surround, etc. In one possible implementation of multi-channel input signal processing, the processed samples of each channel are based on the same number of input samples, although the stretch factor S and the transform factor Q for each band may vary between channels. To this end, the implementation may include an analysis filter bank configured to generate Y analysis subband signals from each channel, a subband processing module configured to generate Z subband signals, and a synthesis filter bank configured to generate Z time-stretched and/or frequency-converted signals that form the output signal.

В изменениях предшествующего варианта осуществления изобретения выходной сигнал может содержать выходные каналы, которые основываются на различных количествах сигналов анализируемых поддиапазонов. Например, может оказаться целесообразной передача большего количества вычислительных ресурсов к HFR для акустически более выраженных каналов; например, каналам, предназначенным для воспроизведения источниками звука, расположенными перед слушателем, может отдаваться предпочтение перед окружающими или задними каналами.In variations of the previous embodiment, the output signal may comprise output channels that are based on different numbers of analyzed subband signals. For example, it may be desirable to transfer more processing resources to the HFR for acoustically more pronounced channels; for example, channels intended to be reproduced by sound sources located in front of the listener may be given preference over surround or rear channels.

Следует подчеркнуть, что изобретение относится ко всем сочетаниям приведенных выше характерных признаков, даже если они излагаются в разных пунктах формулы изобретения.It should be emphasized that the invention relates to all combinations of the above characteristic features, even if they are set out in different claims.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS

Настоящее изобретение будет описано ниже посредством иллюстративных примеров, не ограничивающих объем или суть изобретения, со ссылкой на сопроводительные графические материалы.The present invention will be described below by way of illustrative examples, without limiting the scope or spirit of the invention, with reference to the accompanying drawings.

Фиг. 1 иллюстрирует принцип гармонического преобразования на основе блока поддиапазонов.Fig. 1 illustrates the principle of harmonic transformation based on a block of subbands.

Фиг. 2 иллюстрирует действие нелинейной обработки блока поддиапазонов с одним входным поддиапазоном.Fig. 2 illustrates the operation of nonlinear processing of a subband block with one input subband.

Фиг. 3 иллюстрирует действие нелинейной обработки блока поддиапазонов с двумя входными поддиапазонами.Fig. 3 illustrates the operation of nonlinear processing of a subband block with two input subbands.

Фиг. 4 иллюстрирует действие гармонического преобразования на основе блока поддиапазонов, усиленного перекрестными произведениями.Fig. 4 illustrates the operation of a harmonic transform based on a cross-product enhanced subband block.

Фиг. 5 иллюстрирует пример сценария применения преобразования на основе блока поддиапазонов с использованием нескольких порядков преобразования в аудиокодеке, усиленном HFR.Fig. 5 illustrates an example scenario for applying subband block based transform using multiple transform orders in an HFR enhanced audio codec.

Фиг. 6 иллюстрирует пример сценария действия преобразования нескольких порядков на основе блока поддиапазонов, применяющего 64-полосный блок анализирующих QMF-фильтров.Fig. 6 illustrates an example scenario of a multi-order transform operation based on a subband block using a 64-band QMF analysis filter bank.

Фиг. 7 и 8 иллюстрируют экспериментальные результаты описываемого способа преобразования на основе блока поддиапазонов.Fig. 7 and 8 illustrate the experimental results of the described subband block-based conversion method.

Фиг. 9 показывает детали блока нелинейной обработки согласно фиг. 2, включающего преднормализатор и умножитель.Fig. 9 shows details of the nonlinear processing unit according to FIG. 2, including a prenormalizer and a multiplier.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯDESCRIPTION OF PREFERRED OPTIONS FOR IMPLEMENTING THE INVENTION

Описываемые ниже варианты осуществления изобретения являются единственно иллюстрациями принципов настоящего изобретения «ГАРМОНИЧЕСКОЕ ПРЕОБРАЗОВАНИЕ НА ОСНОВЕ БЛОКА ПОДДИАПАЗОНОВ, УСИЛЕННОЕ ПЕРЕКРЕСТНЫМИ ПРОИЗ-ВЕДЕНИЯМИ». Следует понимать, что специалистам в данной области будут очевидны модификации и изменения описываемых в данном описании схем и деталей. Поэтому намерение заключается в том, чтобы изобретение ограничивалось только объемом прилагаемой формулы изобретения, а не конкретными деталями, представленными в данном описании с целью описания и разъяснения вариантов осуществления изобретения.The embodiments described below are solely illustrative of the principles of the present SUB-BAND BLOCK BLOCK HARMONIC CONVERSION ENHANCED BY CROSS PRODUCTS invention. It should be understood that modifications and changes to the circuitry and parts described herein will be apparent to those skilled in the art. It is therefore intended that the invention be limited only by the scope of the appended claims and not by the specific details set forth herein for the purpose of describing and explaining embodiments of the invention.

Фиг. 1 иллюстрирует принцип преобразования, растягивания во времени или сочетания преобразования с растягиванием во времени на основе блока поддиапазонов. Входной сигнал во временной области подается в блок 101 анализирующих фильтров, который создает несколько комплекснозначных сигналов поддиапазонов. Эти сигналы подаются в модуль 102 обработки поддиапазонов, на действие которого могут оказывать влияние управляющие данные 104. Каждый выходной поддиапазон может быть получен путем обработки или одного, или двух входных поддиапазонов, или даже как суперпозиция результата для нескольких указанных обрабатываемых поддиапазонов. Множество комплекснозначных выходных поддиапазонов подается в блок 103 синтезирующих фильтров, который, в свою очередь, выводит модифицированный сигнал во временной области. Необязательные управляющие данные 104 описывают конфигурацию и параметры обработки поддиапазонов, которые могут быть адаптированы к сигналу, подлежащему преобразованию. В случае преобразования, усиленного перекрестными произведениями, эти данные могут нести информацию, относящуюся к преобладающей основной частоте.Fig. 1 illustrates the principle of transformation, time stretching, or a combination of transformation and time stretching based on a block of subbands. The time domain input signal is fed to an analysis filter block 101, which produces several complex-valued subband signals. These signals are supplied to a subband processing module 102, the operation of which can be influenced by control data 104. Each output subband can be obtained by processing either one or two input subbands, or even as a superposition of the result for several specified processed subbands. A plurality of complex-valued output subbands are supplied to a synthesis filter bank 103, which in turn outputs a modified time domain signal. Optional control data 104 describes the configuration and processing parameters of the subbands that can be adapted to the signal to be converted. In the case of cross-product enhanced conversion, this data may carry information related to the dominant fundamental frequency.

Фиг. 2 иллюстрирует действие нелинейной обработки блока поддиапазонов с одним входным поддиапазоном. Для данных целевых значений физического растягивания во времени и преобразования, а также физических параметров блоков 101 и 103 анализирующих и синтезирующих фильтров выводятся параметры растягивания во времени и преобразования поддиапазонов, а также индекс исходного поддиапазона для каждого индекса целевого поддиапазона. Тогда целью обработки блока поддиапазонов является реализация соответствующего преобразования, растягивания во времени или сочетания преобразования с растягиванием во времени комплекснозначного сигнала исходного поддиапазона с целью генерирования сигнала целевого поддиапазона.Fig. 2 illustrates the operation of nonlinear processing of a subband block with one input subband. Given target physical time stretch and transform values, as well as physical parameters of the analysis and synthesis filter blocks 101 and 103, time stretch and transform subband parameters are output, as well as a source subband index for each target subband index. The purpose of processing a block of subbands is then to implement an appropriate transformation, time stretching, or a combination of transformation and time stretching of the complex-valued signal of the source subband to generate a signal of the target subband.

Экстрактор 201 блоков делает из комплекснозначного входного сигнала выборку конечного кадра, состоящего из дискретных значений. Кадр определяется положением входного указателя и коэффициентом преобразования поддиапазонов. Этот кадр претерпевает нелинейную обработку в секции 202 обработки и затем подвергается оконной обработке окнами конечной и, возможно, переменной длины в секции 203 оконной обработки. Результирующие дискретные значения добавляются к предыдущим выходным дискретным значениям в модуле 204 наложения и сложения, где положение выходного кадра определяется положением выходного указателя. Входной указатель увеличивается на фиксированную величину, и выходной указатель увеличивается на ту же величину, умноженную на коэффициент растягивания поддиапазонов. Повторение данной цепочки операций будет приводить к выходному сигналу с длительностью, которая представляет собой длительность входного сигнала поддиапазона, умноженную на коэффициент растягивания, вплоть до длины окна синтеза, и с комплексными частотами, преобразованными посредством коэффициента преобразования поддиапазонов. Управляющий сигнал 104 может оказывать влияние на каждую из трех секций 201, 202, 203.Block extractor 201 samples a final frame of discrete values from the complex-valued input signal. The frame is determined by the position of the input pointer and the subband conversion factor. This frame undergoes non-linear processing in processing section 202 and is then windowed with windows of finite and possibly variable length in windowing section 203. The resulting samples are added to the previous output samples in an overlay and addition module 204, where the position of the output frame is determined by the position of the output pointer. The input pointer is incremented by a fixed amount, and the output pointer is incremented by the same amount multiplied by the subband stretch factor. Repeating this chain of operations will result in an output signal with a duration that is the duration of the input subband signal multiplied by the stretch factor, up to the length of the synthesis window, and with complex frequencies converted by the subband conversion factor. The control signal 104 may influence each of the three sections 201, 202, 203.

Фиг. 3 иллюстрирует действие нелинейной обработки блока поддиапазонов с двумя входными сигналами поддиапазонов. Для заданных целевых значений физического растягивания во времени и преобразования и физических параметров блоков 101 и 103 анализирующих и синтезирующих фильтров выводятся параметры растягивания во времени и преобразования поддиапазонов, а также два индекса исходных поддиапазонов для каждого индекса целевого поддиапазона. В случае, когда нелинейная обработка блока поддиапазонов подлежит использованию для создания недостающих гармоник путем добавления перекрестных произведений, конфигурация секций 301-1, 301-2, 302, 303, а также значения двух индексов исходных поддиапазонов могут зависеть от выходного сигнала 403 модуля 404 управления перекрестной обработкой. Целью обработки блока поддиапазонов является реализация соответствующего преобразования, растягивания во времени или сочетания преобразования с растягиванием во времени для комбинации двух комплекснозначных сигналов исходных поддиапазонов с целью генерирования сигнала целевого поддиапазона. Первый экстрактор 301-1 блоков делает из первого комплекснозначного исходного поддиапазона выборку конечного временного кадра дискретных значений, а второй экстрактор 301-2 блоков делает выборку конечного временного кадра дискретных значений из второго комплекснозначного исходного поддиапазона. Кадры определяются общим положением входного указателя и коэффициентом преобразования поддиапазонов. Оба кадра претерпевают нелинейную обработку в секции 302 и затем подвергаются оконной обработке окном конечной длины в секции 303 оконной обработки. Модуль 204 наложения и сложения может характеризоваться конструкцией, аналогичной или идентичной модулю, представленному на фиг. 2. Повторение данной цепочки операций будет приводить к выходному сигналу с длительностью, равной длительности двух входных сигналов поддиапазонов, умноженной на коэффициент растягивания поддиапазонов (вплоть до длины окна синтеза). В случае, когда оба входных сигнала несут одинаковые частоты, выходной сигнал будет иметь комплексные частоты, преобразованные посредством коэффициента преобразования поддиапазонов. В случае, когда два входных сигнала несут различные частоты, настоящее изобретение указывает, что оконная обработка 303 может быть адаптирована для генерирования выходного сигнала, который имеет целевую частоту, пригодную для генерирования недостающих гармоник в преобразованном сигнале.Fig. 3 illustrates the operation of nonlinear processing of a subband block with two subband input signals. Given the target physical time stretch and transform values and the physical parameters of the analysis and synthesis filter blocks 101 and 103, the time stretch and transform subband parameters are output, as well as two source subband indices for each target subband index. In the case where nonlinear processing of a block of subbands is to be used to create missing harmonics by adding cross products, the configuration of sections 301-1, 301-2, 302, 303, as well as the values of the two source subband indices, may depend on the output signal 403 of the crossover control module 404 processing. The purpose of subband block processing is to implement an appropriate transform, time stretching, or a combination of transform and time stretching to combine two complex-valued source subband signals to generate a target subband signal. The first block extractor 301-1 samples a final time frame of discrete values from the first complex-valued source subband, and the second block extractor 301-2 samples a final time frame of discrete values from the second complex-valued source subband. Frames are determined by the overall position of the input pointer and the subband conversion factor. Both frames undergo non-linear processing in section 302 and are then windowed with a window of finite length in windowing section 303. The overlay and addition module 204 may have a similar or identical design to the module shown in FIG. 2. Repeating this chain of operations will result in an output signal with a duration equal to the duration of the two input subband signals multiplied by the subband stretch factor (up to the length of the synthesis window). In the case where both input signals carry the same frequencies, the output signal will have complex frequencies converted by a subband conversion factor. In the case where two input signals carry different frequencies, the present invention specifies that windowing 303 can be adapted to generate an output signal that has a target frequency suitable for generating the missing harmonics in the converted signal.

Фиг. 4 иллюстрирует принцип усиленного перекрестными произведениями преобразования на основе блока поддиапазонов, растягивания во времени или сочетания преобразования с растягиванием во времени. Модуль 401 прямой обработки поддиапазонов может относится к типу, уже описанному с отсылкой к фиг. 2 (секция 202) или фиг. 3. В модуль 402 перекрестной обработки поддиапазонов также подается множество комплекснозначных сигналов поддиапазонов, и на его действие оказывают влияние данные 403 управления перекрестной обработкой. Модуль 402 перекрестной обработки поддиапазонов выполняет обработку блоков поддиапазонов, относящуюся к типу обработки с двумя входными сигналами поддиапазонов, описанному на фиг. 3, и выходные целевые поддиапазоны добавляются к поддиапазонам из прямой обработки 401 поддиапазонов в сумматоре 405. Данные 403 управления перекрестной обработкой могут изменяться для каждого положения входного указателя и состоят из, по меньшей мере, следующих данных:Fig. 4 illustrates the principle of cross-product enhanced transform based on a block of subbands, time stretching, or a combination of transform with time stretching. The direct subband processing module 401 may be of the type already described with reference to FIG. 2 (section 202) or FIG. 3. The subband cross processing unit 402 is also supplied with a plurality of complex valued subband signals and is influenced by the cross processing control data 403. The subband cross processing unit 402 performs subband block processing related to the dual input subband processing type described in FIG. 3, and the output target subbands are added to the subbands from the forward subband processing 401 in the adder 405. The cross processing control data 403 may vary for each input pointer position and consists of at least the following data:

• выбранного списка индексов целевых поддиапазонов;• selected list of target subrange indices;

• пары индексов исходных поддиапазонов для каждого выбранного индекса целевого поддиапазона; и• pairs of source subrange indices for each selected target subrange index; And

• окна синтеза конечной длины.• synthesis windows of finite length.

Модуль 404 управления перекрестной обработкой доставляет указанные данные 403 управления перекрестной обработкой для заданной части управляющих данных 104, описывающих основную частоту, и множество комплекснозначных выходных сигналов поддиапазонов из блока 101 анализирующих фильтров. Управляющие данные 104 также могут нести другие зависящие от сигнала параметры конфигурации, которые оказывают влияние на обработку перекрестных произведений.The cross-processing control module 404 delivers said cross-processing control data 403 for a given portion of the fundamental frequency control data 104 and a plurality of complex-valued subband output signals from the analysis filter bank 101 . The control data 104 may also carry other signal-dependent configuration parameters that affect cross product processing.

В нижеследующем тексте с отсылкой к фиг. 1-4 и при помощи добавления соответствующей математической терминологии будет дано описание принципов усиленного перекрестными произведениями растягивания во времени и преобразования на основе блока поддиапазонов.In the following text with reference to FIG. 1-4 and by adding appropriate mathematical terminology, a description of the principles of cross-product enhanced time stretching and subband block based transformation will be given.

Двумя главными параметрами конфигурации общего гармонического преобразователя и/или устройства растягивания во времени в целом являются:The two main configuration parameters of a general harmonic transformer and/or time stretching device in general are:

S ϕ - требуемый коэффициент физического растягивания во времени, иS ϕ - the required coefficient of physical stretching in time, and

Q ϕ - требуемый коэффициент физического преобразования.Q ϕ - the required physical conversion coefficient.

Блоки 101, 103 фильтров могут относиться к любому типу модулированных фильтров с комплексной экспонентой, такому как QMF или оконное DFT, или вейвлет-преобразование. Блок 101 анализирующих фильтров и блок 103 синтезирующих фильтров может являться равномерно или неравномерно скомпонованным при модуляции и определяться из широкого диапазона фильтров-прототипов и/или окон. Несмотря на то, что все указанные варианты второго порядка влияют на такие детали при последующем проектировании, как коррекции фаз и управление отображением поддиапазонов, главные проектные параметры системы для обработки поддиапазонов, как правило, получаются из двух частных: Δt S /Δt A и Δƒ s ƒ A нижеследующих четырех параметров блоков фильтров, где все параметры измеряются в физических единицах. В приведенных выше частных:Filter banks 101, 103 may be any type of complex exponential modulated filters, such as QMF or windowed DFT, or wavelet transform. The analysis filter bank 101 and the synthesis filter bank 103 may be uniformly or non-uniformly modulated and determined from a wide range of prototype filters and/or windows. Although all of these second-order options affect subsequent design details such as phase corrections and subband display control, the main system design parameters for subband processing are typically derived from two quotients: Δt S /Δt A and Δ ƒ s ƒ A of the following four parameters of filter blocks, where all parameters are measured in physical units. In the above quotients:

Δt A - шаг или сдвиг по времени дискретного значения поддиапазона блока 101 анализирующих фильтров (например, измеряемый в секундах, [c]);Δt A - step or time shift of the discrete value of the sub-range of the block 101 of analyzing filters (for example, measured in seconds, [s]);

Δƒ A - разнос частот поддиапазонов блока 101 анализирующих фильтров (например, измеряемый в Герцах, [1/c]);Δ ƒ A - frequency spacing of subbands of the block 101 of analyzing filters (for example, measured in Hertz, [1/s]);

Δt S - шаг или сдвиг по времени дискретного значения поддиапазона блока 103 синтезирующих фильтров (например, измеряемый в секундах, [c]); иΔt S - step or time shift of a discrete value of the sub-band of the synthesis filter block 103 (for example, measured in seconds, [s]); And

Δf s - разнос частот поддиапазонов блока 103 синтезирующих фильтров (например, измеряемый в Герцах, [1/c]).Δf s is the frequency spacing of the subbands of the synthesis filter block 103 (for example, measured in Hertz, [1/s]).

Для конфигурирования модуля 102 обработки поддиапазонов следует рассчитать следующие параметры:To configure the subband processing module 102, the following parameters should be calculated:

S - коэффициент растягивания поддиапазонов, т.е. коэффициент растягивания, который применяется в модуле 102 обработки поддиапазонов как соотношение входного и выходного дискретных значений с целью достижения общего физического растягивания во времени сигнала во временной области посредством коэффициента S ϕ ;S - stretching coefficient of subbands, i.e. a stretch factor that is applied in the subband processing module 102 as the ratio of the input and output samples to achieve an overall physical time stretch of the time domain signal through the coefficient S ϕ ;

Q - коэффициент преобразования поддиапазонов, т.е. коэффициент преобразования, который применяется в модуле 102 обработки поддиапазонов с целью достижения общего физического преобразования сигнала во временной области посредством коэффициента Q ϕ ; иQ - conversion factor of subbands, i.e. a conversion factor that is applied in the subband processing unit 102 to achieve the overall physical conversion of the signal in the time domain by means of the coefficient Q ϕ ; And

• соответствие между индексами исходного и целевого поддиапазонов, где n обозначает индекс анализируемого поддиапазона, входящего в модуль 102 обработки поддиапазонов, и m обозначает индекс соответствующего синтезируемого поддиапазона как выходного сигнала модуля 102 обработки поддиапазонов.• correspondence between the indices of the source and target subbands, where n denotes the index of the analyzed subband included in the subband processing unit 102, and m denotes the index of the corresponding synthesized subband as the output signal of the subband processing unit 102.

С целью определения коэффициента S растягивания поддиапазонов сделано наблюдение, что входной сигнал в блок 101 анализирующих фильтров, имеющий физическую длительность D, соответствует количеству D/Δt A дискретных значений анализируемых поддиапазонов на входе в модуль 102 обработки поддиапазонов. Эти D/Δt A дискретных значений будут растягиваться до SD/Δt A дискретных значений модулем 102 обработки поддиапазонов, который применяет коэффициент S растягивания поддиапазонов. На выходе блока 103 синтезирующих фильтров эти S⋅D/Δt A дискретных значений приводят к выходному сигналу, имеющему физическую длительность Δt A ⋅SD/Δt A . Поскольку эта последняя длительность должна соответствовать заданному значению S ϕ D, т.е. поскольку длительность выходного сигнала во временной области должна быть растянута во времени по сравнению с входным сигналом во временной области посредством коэффициента S ϕ физического растягивания во времени, получается следующее правило проектирования:In order to determine the subband stretching coefficient S , it was observed that the input signal to the analyzing filter block 101, having a physical duration D , corresponds to the number D/Δt A of discrete values of the analyzed subbands at the input to the subband processing module 102. These D/Δt A samples will be stretched to SD/Δt A samples by subband processing module 102, which applies the subband stretch factor S. At the output of synthesis filter bank 103, these S⋅D/Δt A samples result in an output signal having a physical duration Δt A ⋅SD/Δt A . Since this last duration must correspond to the given value S ϕ D , i.e. Since the duration of the output time-domain signal must be time-stretched relative to the input time-domain signal by the physical time-stretch factor , the following design rule is obtained:

С целью определения коэффициента Q преобразования поддиапазонов, который применяется в модуле 102 обработки поддиапазонов для достижения физического преобразования Q ϕ , сделано наблюдение, что входная синусоида в блок 101 анализирующих фильтров с физической частотой Ω будет приводить к комплексному сигналу анализируемого поддиапазона с дискретной по времени угловой частотой ω=2πΩ⋅Δt A , и главный вклад вносится от анализируемого поддиапазона с индексом n≈Ω/Δƒ A . Выходная синусоида на выходе блока 103 синтезирующих фильтров с требуемой преобразованной физической частотой Q ϕ ⋅Ω будет являться результатом подачи на синтезируемый поддиапазон с индексом m≈Q ϕ ⋅Ω/Δƒ s комплексного сигнала поддиапазона с дискретной угловой частотой 2πQ ϕ ⋅Ω⋅Δt S . В этом контексте, следует проявлять осторожность с тем, чтобы избежать синтеза частот с наложением спектров, отличающихся от Q ϕ ⋅Ω. Как правило, этого можно избежать, делая соответствующие варианты второго порядка так, как это обсуждалось выше, например, путем выбора соответствующих блоков анализирующих и/или синтезирующих фильтров. Дискретная частота 2πQ ϕ ⋅Ω⋅Δt S на выходе модуля 102 обработки поддиапазонов должна соответствовать дискретной по времени частоте ω=2πΩ⋅Δt A на входе в блок 102 обработки поддиапазонов, умноженной на коэффициент Q преобразования поддиапазонов. Т.е. приравнивая 2πQΩΔt A к 2πQ ϕ ⋅Ω⋅Δt S , можно определить следующее соотношение между коэффициентом Q ϕ физического преобразования и коэффициентом Q преобразования поддиапазонов:In order to determine the subband conversion factor Q , which is used in the subband processing module 102 to achieve the physical conversion Q ϕ , it is observed that the input sinusoid to the analysis filter block 101 with a physical frequency Ω will result in a complex signal of the analyzed subband with a time-discrete angular frequency ω=2πΩ⋅Δt A , and the main contribution comes from the analyzed subrange with the index n≈Ω/Δ ƒ A . The output sinusoid at the output of the block 103 of synthesis filters with the required converted physical frequency Q ϕ ⋅Ω will be the result of feeding a complex subband signal with a discrete angular frequency 2πQ ϕ ⋅Ω⋅Δt S to the synthesized subband with index m≈Q ϕ ⋅Ω/Δ ƒ s . In this context, care must be taken to avoid synthesizing aliased frequencies other than Q ϕ ⋅Ω . Typically, this can be avoided by making appropriate second-order choices as discussed above, for example by selecting appropriate analysis and/or synthesis filter banks. The discrete frequency 2πQ ϕ ⋅Ω⋅Δt S at the output of the subband processing module 102 must correspond to the time-discrete frequency ω=2πΩ⋅Δt A at the input to the subband processing unit 102, multiplied by the subband conversion factor Q. Those. equating 2πQΩΔt A to 2πQ ϕ ⋅Ω⋅Δt S , we can determine the following relationship between the physical conversion coefficient Q ϕ and the subband conversion coefficient Q :

Аналогично, соответствующий индекс n исходного, или анализируемого, поддиапазона модуля 102 обработки поддиапазонов для заданного индекса m целевого, или синтезируемого, поддиапазона должен удовлетворять следующему условию:Likewise, the corresponding source or analysis subband index n of the subband processing module 102 for a given target or synthesis subband index m must satisfy the following condition:

В одном из вариантов осуществления изобретения, верно, что Δƒ s ƒ A =Q ϕ , т.е. разнос частот блока 103 синтезирующих фильтров соответствует разносу частот блока 101 анализирующих фильтров, умноженному на коэффициент физического преобразования, и можно применить взаимнооднозначное отображение индекса анализируемого поддиапазона в индекс синтезируемого поддиапазона n=m. В других вариантах осуществления изобретения отображение индексов поддиапазонов может зависеть от деталей параметров блока фильтров. В частности, если частное разносов частот блока 103 синтезирующих фильтров и блока 101 анализирующих фильтров отличается от коэффициента Q ϕ физического преобразования, то данному целевому поддиапазону может присваиваться один или два исходных поддиапазона. В случае двух исходных поддиапазонов может оказаться предпочтительным использование двух смежных исходных поддиапазонов с индексами n, n+1, соответственно. То есть первый и второй исходные поддиапазоны имеют вид или (n(m), n(m)+1), или (n(m)+1, n(m)).In one embodiment of the invention, it is true that Δ ƒ s ƒ A =Q ϕ , i.e. the frequency spacing of the synthesis filter bank 103 corresponds to the frequency spacing of the analysis filter bank 101 multiplied by the physical conversion factor, and a one-to-one mapping of the analysis subband index to the synthesis subband index n = m can be applied. In other embodiments of the invention, the display of subband indices may depend on details of the filter bank parameters. In particular, if the quotient of the frequency separations of the synthesis filter bank 103 and the analysis filter bank 101 differs from the physical conversion coefficient Q ϕ , then one or two source subbands may be assigned to a given target subband. In the case of two source subbands, it may be preferable to use two adjacent source subbands with indices n , n +1, respectively. That is, the first and second initial subranges have the form either (n(m), n(m)+1), or (n(m)+1, n(m)).

Обработка поддиапазонов, представленных на фиг. 2, с единственным исходным поддиапазоном теперь будет описываться как функция параметров S и Q обработки поддиапазонов. Пусть x(k) - входной сигнал в экстрактор 201 блоков, и пусть h - входной шаг блока. Т.е. x(k) - комплекснозначный сигнал анализируемого поддиапазона с индексом n. Блок, извлекаемый экстрактором 201 блоков, можно без потери общности рассматривать как определяемый L=R 1 +R 2 дискретными значениями:Processing of the subbands presented in FIG. 2, with a single source subband, will now be described as a function of the subband processing parameters S and Q. Let x(k) be the input signal to the block extractor 201, and let h be the input block step. Those. x(k) - complex-valued signal of the analyzed subband with index n . The block extracted by the block extractor 201 can, without loss of generality, be considered as being defined by L=R 1 +R 2 discrete values:

где целое число l - индекс подсчета блоков, L - длина блока, и R 1 , R 2 - неотрицательные целые числа. Отметим, что для Q=1 блок извлекается из следующих друг за другом дискретных значений, но для Q больше 1 - выполняется понижающая дискретизация таким образом, чтобы входные адреса растягивались посредством коэффициента Q. Если Q - целое число, эта операция, как правило, является выполняемой непосредственно, в то время как для нецелочисленных значений Q может потребоваться интерполяция. Это утверждение также справедливо и для нецелочисленных значений приращения h, т.е. для входного шага блока. В одном из вариантов осуществления изобретения, к комплекснозначному сигналу поддиапазона могут быть применены короткие интерполирующие фильтры, например, фильтры, имеющие два звена фильтра. Например, если требуется дискретное значение с дробным временным индексом k+0,5, достаточное качество может обеспечиваться двухзвенной интерполяцией в форме x(k+0,5)≈ax(k)+bx(k+1), где коэффициенты a, b могут представлять собой постоянные или могут зависеть от индекса поддиапазона (см., например, документы WO №2004/G97794 и WO №2007/085275).where the integer l is the block count index, L is the block length, and R 1 , R 2 are non-negative integers. Note that for Q=1 the block is extracted from successive samples, but for Q greater than 1, downsampling is performed so that the input addresses are stretched by a factor of Q . If Q is an integer, this operation is typically straightforward, while interpolation may be required for non-integer Q values. This statement is also true for non-integer values of the increment h , i.e. for the input block step. In one embodiment of the invention, short interpolating filters, such as filters having two filter stages, can be applied to the complex-valued subband signal. For example, if a discrete value with a fractional time index k +0.5 is required, sufficient quality can be provided by two-link interpolation in the form x(k+0.5)≈ax(k)+bx(k+1) , where coefficients a , b may be constant or may depend on the subband index (see, for example, WO No. 2004/G97794 and WO No. 2007/085275).

Интересным частным случаем формулы (4) является Ri=0, R2=1, где извлекаемый блок состоит из единственного дискретного значения, т.е. длина блока составляет L=1.An interesting special case of formula (4) is R i =0, R 2 =1, where the extracted block consists of a single discrete value, i.e. the length of the block is L =1.

В полярном представлении комплексного числа z =⏐z⏐exp(i∠z), где ⏐z⏐ - амплитуда комплексного числа, и ∠z - фаза комплексного числа, модуль 202 нелинейной обработки, генерирующий выходной кадр y 1 из входного кадра x i , преимущественно, определяется коэффициентом модификации фаз T=SQ через:In the polar representation of a complex number z =⏐z⏐exp(i∠z), where ⏐z⏐ is the amplitude of the complex number, and ∠z is the phase of the complex number, nonlinear processing module 202 generates output frame y 1 from input frame x i , predominantly determined by the phase modification coefficient T=SQ through:

, ,

где ρ∈[0,1] - геометрический весовой параметр амплитуды. Случай ρ=0 соответствует чистой модификации фаз извлекаемого блока. Особенно привлекательным значением взвешивания амплитуды является ρ=1-1/T, для которого снятие некоторой вычислительной сложности получается независимо от длины блока L, и результирующая переходная характеристика несколько улучшается относительно случая ρ=0. Параметр θ коррекции фазы зависит от деталей блока фильтров, а также индексов исходного и целевого поддиапазонов. В одном из вариантов осуществления изобретения, параметр θ коррекции фазы может определяться экспериментально путем развертки набора входных синусоид. Кроме того, параметр θ коррекции фазы может быть получен путем изучения разности фаз смежных комплексных синусоид целевого поддиапазона или путем оптимизации производительности на входном сигнале типа импульса Дирака. Наконец, при подходящей конструкции блоков 101 и 103 анализирующих и синтезирующих фильтров параметр θ коррекции фазы может быть приравнен нулю или опущен. Коэффициент Т модификации фаз должен быть целым числом с тем, чтобы коэффициенты T-1 и 1 были целыми числами в линейной комбинации фаз в первой строке формулы (5). При таком допущении, т.е. при допущении, что коэффициент Т модификации фаз является целым числом, результат нелинейной обработки является вполне определенным даже несмотря на то, что фазы являются неоднозначными из-за модуля идентификации 2π.where ρ∈ [0,1] is the geometric weight parameter of the amplitude. The case ρ=0 corresponds to a pure modification of the phases of the extracted block. A particularly attractive value for amplitude weighting is ρ=1-1/T , for which some computational complexity is removed regardless of the block length L , and the resulting transient response is somewhat improved relative to the case of ρ=0 . The phase correction parameter θ depends on the details of the filter bank, as well as the indices of the source and target subbands. In one embodiment of the invention, the phase correction parameter θ can be determined experimentally by sweeping a set of input sinusoids. In addition, the phase correction parameter θ can be obtained by studying the phase difference of adjacent complex sinusoids of the target subband or by optimizing the performance on a Dirac pulse type input signal. Finally, with a suitable design of analysis and synthesis filter blocks 101 and 103, the phase correction parameter θ can be set to zero or omitted. The phase modification coefficient T must be an integer so that the coefficients T -1 and 1 are integers in the linear combination of phases in the first line of formula (5). With this assumption, i.e. Under the assumption that the phase modification coefficient T is an integer, the result of nonlinear processing is quite certain even though the phases are ambiguous due to the identification modulus 2π.

На словах, формула (5) устанавливает, что фаза дискретного значения выходного кадра определяется смещением фазы соответствующего дискретного значения входного кадра на постоянную величину смещения. Постоянная величина смещения может зависеть от коэффициента Т модификации, который сам по себе зависит от коэффициента растягивания поддиапазонов и/или от коэффициента преобразования поддиапазонов. Кроме того, постоянная величина смещения может зависеть от фазы особого дискретного значения входного кадра из входного кадра. Указанное особое дискретное значение входного кадра сохраняется неизменным для определения фаз всех дискретных значений выходного кадра для данного блока. В случае формулы (5) в качестве фазы особого дискретного значения входного кадра используется фаза центрального дискретного значения входного кадра.In words, formula (5) states that the phase of the discrete value of the output frame is determined by the phase shift of the corresponding discrete value of the input frame by a constant displacement value. The constant amount of offset may depend on the modification factor T , which itself depends on the subband stretch factor and/or on the subband conversion factor. In addition, the constant amount of the offset may depend on the phase of a particular input frame sample from the input frame. The specified specific input frame sample is held constant to determine the phases of all output frame samples for a given block. In the case of formula (5), the phase of the central discrete value of the input frame is used as the phase of the special discrete value of the input frame.

Вторая строка формулы (5) устанавливает, что амплитуда дискретного значения выходного кадра может зависеть от амплитуды соответствующего дискретного значения входного кадра. Кроме того, амплитуда дискретного значения выходного кадра может зависеть от амплитуды особого дискретного значения входного кадра. Данное особое дискретное значение входного кадра может использоваться для определения амплитуды всех дискретных значений выходного кадра. В случае формулы (5), в качестве особого дискретного значения входного кадра используется центральное дискретное значение входного кадра. В одном из вариантов осуществления изобретения, амплитуда дискретного значения выходного кадра может соответствовать геометрическому среднему амплитуды соответствующего дискретного значения входного кадра и особого дискретного значения входного кадра.The second line of formula (5) states that the amplitude of the output frame sample can depend on the amplitude of the corresponding input frame sample value. In addition, the amplitude of the output frame sample may depend on the amplitude of a particular input frame sample. This particular input frame sample can be used to determine the amplitude of all output frame samples. In the case of formula (5), the central sample value of the input frame is used as a special discrete value of the input frame. In one embodiment of the invention, the amplitude of an output frame sample may correspond to the geometric average of the amplitude of a corresponding input frame sample and a particular input frame sample.

В модуле 203 оконной обработки к выходному кадру применяется окно w длины L, что приводит к оконному выходному кадру:In windowing module 203, a window w of length L is applied to the output frame, resulting in a windowed output frame:

Наконец, предполагается, что все кадры дополняются нулями, и операция 204 наложения и сложения определяется какFinally, all frames are assumed to be padded with zeros, and the overlay and add operation 204 is defined as

где следует отметить, что модуль 204 наложения и сложения применяет шаг блока Sh, т.е. шаг по времени, который в S раз больше, чем шаг h входного блока. По причине указанной разности в шагах по времени по формулам (4) и (7) длительность выходного сигнала z(k) в S раз больше длительности входного сигнала x(k), т.е. сигнал синтезируемого поддиапазона является растянутым посредством коэффициента S растягивания поддиапазонов по сравнению с сигналом анализируемого поддиапазона. Следует отметить, что данное наблюдение, как правило, применимо тогда, когда длина L окна пренебрежимо мала по сравнению с длительностью сигнала.where it should be noted that the overlay and addition unit 204 applies the block step Sh , i.e. a time step that is S times larger than the step h of the input block. Due to the indicated difference in time steps according to formulas (4) and (7), the duration of the output signal z(k) is S times greater than the duration of the input signal x(k) , i.e. the synthesized subband signal is stretched by a subband stretch factor S compared to the analyzed subband signal. It should be noted that this observation generally applies when the window length L is negligible compared to the signal duration.

В случае, когда в качестве входного сигнала обработки 102 поддиапазонов используется комплексная синусоида, т.е. сигнал анализируемого поддиапазона соответствует комплексной синусоиде:In the case when a complex sinusoid is used as an input signal for processing 102 subbands, i.e. the signal of the analyzed subband corresponds to a complex sinusoid:

применяя формулы (4)-(7), можно определить, что выходной сигнал обработки 102 поддиапазонов, т.е. соответствующего сигнала синтезируемого поддиапазона, имеет вид:Using formulas (4)-(7), we can determine that the output signal for processing 102 subbands, i.e. the corresponding signal of the synthesized subband has the form:

независимо от ρ. Таким образом, комплексная синусоида с дискретной по времени частотой ω будет преобразовываться в комплексную синусоиду с дискретной по времени частотой при условии, что окно синтеза смещается c шагом Sh, что в сумме для всех k приводит к одной и той же постоянной К:regardless of ρ . Thus, a complex sinusoid with a time-discrete frequency ω will be transformed into a complex sinusoid with a time-discrete frequency , provided that the synthesis window is shifted with a step Sh , which in total for all k leads to the same constant K :

Для иллюстрации рассмотрим частный случай чистого преобразования, где S=1 и T=Q. Если шаг входного блока h=1 и R 1 =0, R 2 =1, все вышеуказанное, т.е. формула (5), сокращается до поточечного или основанного на дискретных значениях правила модификации фаз:To illustrate, consider the special case of a pure transformation, where S =1 and T = Q. If the input block step h =1 and R 1 =0, R 2 =1, all of the above, i.e. Formula (5) is reduced to a pointwise or discrete value-based phase modification rule:

Для задания определенных параметров обработки, т.е. длины блока в экстракторах блоков, модуль 102 обработки поддиапазонов может использовать управляющие данные 104.To set certain processing parameters, i.e. block lengths in the block extractors, the subband processing module 102 may use the control data 104.

Ниже описание обработки поддиапазонов будет расширено для охвата случая, представленного на фиг. 3, с двумя входными сигналами поддиапазонов. Пусть x (1) (k) - сигнал входного поддиапазона в первый экстрактор 301-1 блоков, и пусть x (2) (k)- сигнал входного поддиапазона во второй экстрактор 301-2 блоков. Каждый экстрактор может использовать отличающийся коэффициент понижающей дискретизации, что приводит к извлекаемым блокам:Below, the description of subband processing will be expanded to cover the case presented in FIG. 3, with two sub-band input signals. Let x (1) (k) be the input subband signal to the first block extractor 301-1, and let x (2) (k) be the input subband signal to the second block extractor 301-2. Each extractor may use a different downsampling factor, resulting in the blocks extracted:

Нелинейная обработка 302 генерирует выходной кадр y 1 и может определяться какNonlinear processing 302 generates an output frame y 1 and can be defined as

обработка в 303 снова описывается формулами (6) и (7), и обработка 204 идентична обработке наложения и сложения, описанной в контексте случая с единственным входным сигналом.the processing at 303 is again described by formulas (6) and (7), and the processing 204 is identical to the superposition and addition processing described in the context of the single input signal case.

Определение неотрицательных действительных параметров D 1 , D 2 , ρ, неотрицательных целочисленных параметров T1, T2 и окна синтеза w теперь зависит от требуемого рабочего режима. Отметим, что если на оба входа подается один и тот же поддиапазон, x (1) (k)=x (2) (k) и D 1 =Q, D 2 =Q, T 1 =1, T 2 =T-1, то операции по формулам (12) и (13) сокращаются до операций по формулам (3) и (4) в случае единственного входного сигнала.The definition of the non-negative real parameters D 1 , D 2 , ρ , the non-negative integer parameters T 1 , T 2 and the synthesis window w now depends on the required operating mode. Note that if the same subband is supplied to both inputs, x (1) (k)=x (2) (k) and D 1 = Q , D 2 = Q , T 1 =1, T 2 =T- 1, then the operations according to formulas (12) and (13) are reduced to operations according to formulas (3) and (4) in the case of a single input signal.

В одном из вариантов осуществления изобретения, где соотношение разноса Δƒ s частот блока 103 синтезирующих фильтров и разноса Δƒ A частот блока 101 анализирующих фильтров отличается от требуемого коэффициента Q ϕ физического преобразования, может оказаться полезным определение дискретных значений синтезируемого поддиапазона с индексом m из двух анализируемых поддиапазонов, соответственно, с индексами n, n+1. Для заданного индекса m соответствующий индекс n может иметь вид целочисленного значения, получаемого путем усечения значения n анализируемого индекса, имеющего вид согласно формуле (3). Один из сигналов анализируемых поддиапазонов, например, сигнал анализируемого поддиапазона, соответствующий индексу n, подается в первый экстрактор 301-1 блоков, а другой сигнал анализируемого поддиапазона, например, сигнал, соответствующий индексу n+1, подается во второй экстрактор 301-2 блоков. На основе указанных двух сигналов анализируемых поддиапазонов путем описанной выше обработки определяется сигнал синтезируемого поддиапазона, соответствующий индексу m. Назначение смежных сигналов анализируемых поддиапазонов двум экстракторам 301-1 и 302-1 блоков может основываться на остатке, который получается при усечении значения индекса по формуле (3), т.е. на разности между точным значением индекса, имеющим вид согласно формуле (3), и усеченным целочисленным значением n, полученным по формуле (3). Если остаток больше 0,5, то сигнал анализируемого поддиапазона, соответствующий индексу n, может назначаться во второй экстрактор 301-2 блоков, в противном случае, этот сигнал анализируемого поддиапазона может назначаться в первый экстрактор 301-1 блоков. В данном рабочем режиме параметры могут проектироваться так, чтобы сигналы входных поддиапазонов совместно использовали одинаковую комплексную частоту ω:In one embodiment of the invention, where the ratio of the frequency spacing Δƒ s of the synthesis filter bank 103 and the frequency spacing Δƒ A of the analyzing filter bank 101 differs from the required physical conversion coefficient Q ϕ , it may be useful to determine discrete values of the synthesized subband with index m from the two analyzed subbands , respectively, with indices n , n +1. For a given index m, the corresponding index n can have the form of an integer value obtained by truncating the value n of the analyzed index, which has the form according to formula (3). One of the analysis subband signals, for example, the analysis subband signal corresponding to index n , is supplied to the first block extractor 301-1, and the other analysis subband signal, for example, the signal corresponding to index n +1, is supplied to the second block extractor 301-2. Based on these two signals of the analyzed subbands, the signal of the synthesized subband corresponding to the index m is determined by the processing described above. The assignment of adjacent signals of the analyzed subbands to the two block extractors 301-1 and 302-1 may be based on the remainder that is obtained by truncating the index value according to formula (3), i.e. on the difference between the exact index value, which has the form according to formula (3), and the truncated integer value nobtained according to formula (3). If the remainder is greater than 0.5, the analysis subband signal corresponding to index n may be assigned to the second block extractor 301-2, otherwise, the analysis subband signal may be assigned to the first block extractor 301-1. In a given operating mode, parameters can be designed so that the signals of the input subbands share the same complex frequency ω :

что приводит к сигналу выходного поддиапазона, который представляет собой комплексную синусоиду с дискретной по времени частотой . Оказывается, это происходит в том случае, когда верны следующие соотношения:which results in an output subband signal that is a complex sinusoid with a discrete time frequency . It turns out that this happens when the following relations are true:

Для рабочего режима генерирования недостающих гармоник посредством перекрестных произведений проектные критерии отличаются. Возвращаясь к параметру Q ϕ физического преобразования, целью добавления перекрестных произведений является генерирование выходного сигнала на частотах Q ϕ Ω+rΩ 0 , где r=1,,Q ϕ -1, при заданных входных сигналах на частотах Ω и Ω+Ω 0 , где Ω 0 - основная частота, принадлежащая к преобладающей составляющей основного тона входного сигнала. Как описывается в документе WO 2010/081892, селективное добавление этих членов будет приводить к заполнению гармонических рядов и значительному ослаблению артефакта паразитного основного тона.For the operating mode of generating missing harmonics through cross products, the design criteria are different. Returning to the physical transformation parameter Q ϕ , the purpose of adding cross products is to generate an output signal at frequencies Q ϕ Ω+rΩ 0 , where r =1, ... , Q ϕ -1, for given input signals at frequencies Ω and Ω+Ω 0 , where Ω 0 is the fundamental frequency belonging to the predominant component of the fundamental tone of the input signal. As described in WO 2010/081892, selective addition of these terms will result in the harmonic series being filled and the spurious pitch artifact being significantly reduced.

Ниже будет описан конструктивный алгоритм работы управления 404 перекрестной обработкой. Для заданного индекса m целевого выходного поддиапазона, параметра r=1,,Q ϕ -1 и основной частоты Ω 0 соответствующие индексы n 1 и n 2 исходных поддиапазонов можно получить путем решения в приближенном смысле следующей системы уравнений:Below, a design algorithm for the operation of the cross-processing control 404 will be described. For a given index m of the target output subband, parameter r =1, ... , Q ϕ -1 and fundamental frequency Ω 0, the corresponding indices n 1 and n 2 of the source subbands can be obtained by solving in an approximate sense the following system of equations:

где σ=1/2 для неравномерно скомпонованной модуляции блока фильтров (которая обычно используется для блоков QMF- и MDCT- фильтров) и σ=0 для равномерно скомпонованной модуляции блока фильтров (которая обычно используется для блоков FFT-фильтров).where σ =1/2 for non-uniformly spaced filter bank modulation (which is typically used for QMF and MDCT filter banks) and σ=0 for uniformly spaced filter bank modulation (which is typically used for FFT filter banks).

Для определенийFor definitions

p=Ω 0 ƒ A - основная частота, измеряемая в единицах разноса частот блока анализирующих фильтров;p = Ω 0 ƒ A - fundamental frequency, measured in units of frequency spacing of the block of analyzing filters;

F=Δƒ s ƒ A - отношение разносов частот синтезируемых и анализируемых поддиапазонов; иF=Δ ƒ s ƒ A - the ratio of the frequency separations of the synthesized and analyzed subbands; And

n f =((m+σ)F-rp)⋅Q ϕ - σ - действительнозначный целевой индекс для низшего исходного индекса с целочисленным значением,n f =((m+σ)F-rp)⋅Q ϕ - σ - real-valued target index for the lowest source index with an integer value,

пример преимущественного приближенного решения системы уравнений (16) имеет вид выбора n 1 как целого числа, ближайшего к n f , и n 2 - как целого числа, ближайшего к n f +p.An example of a preferential approximate solution to the system of equations (16) is the choice of n 1 as the integer closest to n f , and n 2 as the integer closest to n f + p .

Если основная частота меньше, чем разнос частот блока анализирующих фильтров, т.е. если p меньше 1, может оказаться преимущественной отмена добавления перекрестных произведений.If the fundamental frequency is less than the frequency spacing of the analysis filter block, i.e. if p is less than 1, it may be preferable to avoid adding cross products.

Как указывается в документе WO 2010/081892, перекрестное произведение не следует добавлять к выходному поддиапазону, который уже содержит значительный основной вклад от преобразования без перекрестных произведений. Более того, вклад в перекрестное произведение должен вносить, самое большее, один из случаев r=1,,Q ϕ -1. В данном описании эти правила могут осуществляться путем выполнения следующих трех этапов для каждого индекса m целевого выходного поддиапазона:As stated in WO 2010/081892, the cross product should not be added to an output subband that already contains a significant main contribution from the non-cross product transform. Moreover, at most one of the cases r =1, ... , Q ϕ -1 should contribute to the cross product. In this specification, these rules can be implemented by performing the following three steps for each index m of the target output subband:

1. Рассчитать максимальную амплитуду М с по всем вариантам r=1, , Q ϕ -1 минимальной из амплитуд исходных поддиапазонов-кандидатов ⏐x (1) ⏐ и ⏐x (2 )⏐, оцененных в центральном кванте времени k=hl (или в его окрестности), где исходные поддиапазоны x (1) и x (2) могут иметь вид индексов n 1 и n 2 , как в уравнении (16); ( or in its vicinity), where the original subranges x (1) and x (2) can have the form of indices n 1 and n 2 , as in equation (16);

2. Рассчитать соответствующую амплитуду Ms для прямого исходного члена ⏐x⏐, полученного из исходного поддиапазона с индексом n=(F/Q ϕ )m (ср. уравнение (3));2. Calculate the corresponding amplitude M s for the direct source term ⏐ x ⏐ obtained from the source subrange with index n=(F/Q ϕ )m (cf. equation (3));

3. Привести в действие перекрестный член из победившего варианта для М с на приведенном выше этапе 1 только в том случае, если M c больше qM s , где q - предварительно определенная пороговая величина.3. Operate the winning cross term for M c in step 1 above only if M c is greater than qM s , where q is a predetermined threshold value.

В зависимости от конкретных параметров конфигурации системы могут оказаться желательными изменения этой процедуры. Одним из таких изменений является замена жесткого порога на этапе 3 более мягкими правилами, зависящими от частного M c /M s . Другое изменение заключается в распространении максимизации на этапе 1 на более чем Q ϕ - 1 вариантов, например, определяемых конечным перечнем значений-кандидатов для основной частоты, измеренных в единицах p разноса анализируемых частот. Еще одно изменение заключается в применении других количественных показателей амплитуд поддиапазонов, таких как амплитуда фиксированного дискретного значения, максимальная амплитуда, средняя амплитуда, амплитуда в смысле l ϕ -нормы и т.д.Depending on your specific system configuration, modifications to this procedure may be desirable. One such change is the replacement of the hard threshold in stage 3 with softer rules depending on the quotient M c /M s . Another change is to extend the maximization in step 1 to more than Q ϕ - 1 options, for example, determined by a finite list of candidate values for the fundamental frequency, measured in units of p spacing of the analyzed frequencies. Another change is the use of other quantitative indicators of the amplitudes of the subranges, such as the amplitude of a fixed discrete value, the maximum amplitude, the average amplitude, the amplitude in the sense of the l ϕ -norm, etc.

Перечень целевых исходных полос m, выбранных для добавления перекрестного произведения, совместно со значениями n 1 и n 2 составляет основную часть данных 403 управления перекрестной обработкой. Остается описать параметры конфигурации D 1 , D 2 , ρ, неотрицательные целочисленные параметры T 1 , T 2 , появляющиеся при чередовании фаз (13), и окно синтеза w, предназначенное для использования в перекрестной обработке 402 поддиапазонов. Вставка синусоидальной модели в ситуацию с перекрестным произведением приводит к следующим сигналам исходных поддиапазонов:The list of target source bands m selected for adding the cross product, together with the values n 1 and n 2 constitutes the main part of the cross processing control data 403. It remains to describe the configuration parameters D 1 , D 2 , ρ , the non-negative integer parameters T 1 , T 2 that appear during phase alternation (13), and the synthesis window w , intended for use in cross-processing 402 subbands. Inserting a sinusoidal model into a cross-product situation results in the following original subband signals:

где ω=2πΩΔt A и ω 0 =2πΩ 0 Δt A . Аналогично, требуемый выходной поддиапазон имеет формуwhere ω=2πΩΔt A and ω 0 =2πΩ 0 Δt A. Similarly, the required output subband has the form

Вычисления обнаруживают, что данный целевой выходной сигнал можно получить, если выполнить условие (15) совместно сCalculations reveal that this target output signal can be obtained if condition (15) is satisfied together with

Условия (15) и (19) эквивалентны следующему выражению:Conditions (15) and (19) are equivalent to the following expression:

которое определяет целочисленные коэффициенты T 1 , T 2 для модификации фаз в (13) и предоставляет некоторую свободу в проектировании при задании значений коэффициентов понижающей дискретизации D 1 , D 2 . Весовой параметр амплитуд преимущественно можно выбрать как ρ=r/Q ϕ . Как видно, эти параметры конфигурации зависят только от основной частоты Ω0 через выбор r. Однако для того, чтобы было верно уравнение (18), возникает новое условие для окна w синтеза, а именно:which defines the integer coefficients T 1 , T 2 for phase modification in (13) and provides some freedom in design when specifying the values of the downsampling coefficients D 1 , D 2 . The weighting parameter of the amplitudes can advantageously be chosen as ρ=r/Q ϕ . As can be seen, these configuration parameters depend only on the fundamental frequency Ω 0 through the choice of r . However, in order for equation (18) to be true, a new condition arises for the synthesis window w , namely:

Окно w синтеза, которое или точно, или приблизительно удовлетворяет условию (21), должно предусматриваться в последнем элементе данных 403 управления перекрестной обработкой.A synthesis window w that either exactly or approximately satisfies condition (21) must be provided in the last cross-processing control data element 403.

Отметим, что приведенный выше алгоритм для расчета данных 403 управления перекрестной обработкой на основе таких входных параметров, как индекс m целевого выходного поддиапазона и основная частота Ω0 имеет чисто иллюстративную сущность и, как таковой, не ограничивает объем изобретения. Изменения данного раскрытия в пределах знаний и повседневного опыта специалистов в данной области, например, дополнительный способ обработки на основе блока поддиапазонов, создающий сигнал (18) как выходной сигнал в ответ на входные сигналы (17), полностью подпадают под объем настоящего изобретения.Note that the above algorithm for calculating cross-processing control data 403 based on input parameters such as target output subband index m and fundamental frequency Ω 0 is purely illustrative and, as such, does not limit the scope of the invention. Modifications to this disclosure within the knowledge and everyday experience of those skilled in the art, such as an additional subband block-based processing method producing a signal (18) as an output signal in response to input signals (17), are fully within the scope of the present invention.

Фиг. 5 иллюстрирует пример сценария для применения преобразования на основе блока поддиапазонов с использованием нескольких порядков преобразования в аудиокодеке, усиленном HFR. Передаваемый битовый поток принимается базовым декодером 501, который создает декодированный базовый сигнал с низкочастотной полосой пропускания на частоте дискретизации f s . Декодированный сигнал с низкочастотной полосой пропускания повторно дискретизируется до выходной частоты дискретизации 2f s при помощи 32-полосного блока 502 комплексных модулированных анализирующих QMF, за которым следует 64-полосный блок 505 синтезирующих QMF (обратных QMF). Оба блока 502 и 505 фильтров совместно используют одни и те же физические параметры Δt s t A и Δƒ s =Δƒ A , и модуль 504 HFR-обработки просто пропускает немодифицированные низкочастотные поддиапазоны, соответствующие базовому сигналу с низкочастотной полосой пропускания. Высокочастотное содержимое выходного сигнала получается путем подачи более высокочастотных поддиапазонов в 64-полосный блок 505 синтезирующих QMF с выходными полосами из модуля 503 многократного преобразователя, подвергания формированию спектра и модификации, выполняемой модулем 504 HFR-обработки. Многократный преобразователь 503 принимает в качестве входного сигнала декодированный базовый сигнал и выводит множество сигналов поддиапазонов, которые представляют 64-полосный анализ суперпозиции, или комбинации нескольких преобразованных составляющих сигнала. Цель заключается в том, чтобы, если HFR-обработка обходится, каждая составляющая соответствовала целочисленному физическому преобразованию без растягивания базового сигнала во времени (Q ϕ =2, 3, и S ϕ =1). В сценарии согласно изобретению сигнал 104 управления преобразователем содержит данные, описывающие основную частоту. Эти данные могут либо передаваться посредством битового потока из соответствующего аудиокодера, либо выводиться путем обнаружения основного тона в декодере, либо получаться из сочетания передаваемой и обнаруживаемой информации.Fig. 5 illustrates an example scenario for applying subband block based transform using multiple transform orders in an HFR enhanced audio codec. The transmitted bit stream is received by the base decoder 501, which produces a low-bandwidth decoded base signal at the sampling frequency f s . The decoded low-bandwidth signal is resampled to an output sampling rate of 2 f s using a 32-band complex modulated QMF analyzer block 502, followed by a 64-band synthetic QMF (inverse QMF) block 505. Both filter banks 502 and 505 share the same physical parameters Δt s = Δt A and Δƒ s =Δƒ A , and the HFR processing module 504 simply passes the unmodified low-frequency subbands corresponding to the base low-bandwidth signal. The high frequency content of the output signal is obtained by feeding the higher frequency subbands into the 64-band QMF synthesis block 505 with the output bands from the multiple converter module 503, subjecting it to spectrum shaping and modification by the HFR processing module 504. The multiple converter 503 takes as an input the decoded base signal and outputs a plurality of subband signals that represent a 64-band superposition analysis, or combination of several converted signal components. The goal is that, if HFR processing is bypassed, each component corresponds to an integer physical transformation without stretching the underlying signal in time ( = 2, 3 ... , and = 1). In the scenario according to the invention, the converter control signal 104 contains data describing the fundamental frequency. This data can either be transmitted via a bit stream from the corresponding audio encoder, or output by pitch detection at the decoder, or obtained from a combination of transmitted and detected information.

Фиг. 6 иллюстрирует пример сценария работы преобразования нескольких порядков на основе блока поддиапазонов, применяющего единственный 64-полосный блок анализирующих QMF-фильтров. Здесь генерированию и доставке в область 64-полосного QMF, действующего на частоте дискретизации 2fs, подлежат три порядка преобразования Q ϕ =2, 3, 4. Модуль 603 слияния просто выбирает и комбинирует значимые поддиапазоны из ветвей каждого из порядков преобразования в единое множество QMF-поддиапазонов, подлежащих подаче в модуль HFR-обработки. Целью, в особенности, является то, чтобы цепочка обработки, состоящая из 64-полосного QMF-анализа 601, модуля 602-Q ϕ обработки поддиапазонов и 64-полосного QMF-синтеза 605, приводила к физическому преобразованию с коэффициентом Q ϕ и S ϕ =1 (т.е. без растягивания). При идентификации трех указанных блоков посредством 101, 102 и 103 по фиг. 1 обнаруживается, что Δt A =64fs и Δƒ A =fs/128, поэтому Δt S /Δt A =1/2 и F=Δƒ S /Δƒ A =2. Проектирование конкретных параметров конфигурации для 602-Q ϕ будет описываться для каждого из случаев Q ϕ =2, 3, 4 отдельно. Для всех случаев шаг анализа выбирается как h=1, и предполагается, что известен нормализованный параметр основной частоты ρ=Ω0/Δƒ A =128Ω 0 /ƒs.Fig. 6 illustrates an example of a multi-order transform operation scenario based on a subband block using a single 64-band QMF analysis filter bank. Here, three transform orders Q ϕ =2, 3, 4 are subject to generation and delivery into the region of a 64-band QMF operating at a sampling rate of 2 fs . The merge module 603 simply selects and combines the significant subbands from the branches of each of the transform orders into a single set of QMFs. -subbands to be fed to the HFR processing module. The goal in particular is that the processing chain consisting of 64-band QMF analysis 601, Q ϕ subband processing module 602, and 64-band QMF synthesis 605 results in a physical conversion with Q ϕ and S ϕ = 1 (i.e. without stretching). When identifying three of these blocks by 101, 102 and 103 in FIG. 1 it is found that Δ t A =64fs and Δƒ A =fs/128 , therefore Δ t S / Δ t A =1/2 and F =Δƒ S / Δƒ A =2 . The design of specific configuration parameters for the 602- Q ϕ will be described for each of the Q ϕ =2, 3, 4 cases separately. For all cases, the analysis step is chosen as h =1, and it is assumed that the normalized fundamental frequency parameter ρ=Ω 0 /Δƒ A =128Ω 0 / ƒ s is known.

В первую очередь, рассмотрим случай Q ϕ =2. В этом случае, 602-2 должен выполнять растягивание поддиапазона с коэффициентом S=2 и преобразование поддиапазона с коэффициентом Q=1 (т.е. не выполнять преобразование), соответствие между исходным n и целевым m поддиапазонами для прямой обработки поддиапазонов имеет вид n=m. В сценарии добавления перекрестного произведения согласно изобретению существует только один тип перекрестных произведений для рассмотрения, а именно: r=1 (см. выше обсуждение после уравнения (15)), и уравнения (20) сокращаются до T 1 =T 2 =1 и D 1 +D 2 =1. Пример решения состоит из выбора D 1 =0 и D 2 =1. В качестве окна синтеза при прямой обработке может использоваться прямоугольное окно четной длины L=10 с R1=R2=5, поскольку оно удовлетворяет условию (10). Для окна синтеза при перекрестной обработке может использоваться короткое окно с L=2 звеньев и R1=R2=1 для того, чтобы поддерживать дополнительную сложность добавления перекрестных произведений на минимальном уровне. Тем не менее, благоприятный эффект использования длинного блока для обработки поддиапазонов является наиболее значительным в случае сложных звуковых сигналов, где подавляются нежелательные комбинационные члены; в случае преобладающего основного тона, возникновение указанных артефактов менее вероятно. Окно с L=2 звеньев является самым коротким из тех, которые могут удовлетворять условию (10), поскольку h=1 и S=2. Однако, согласно настоящему изобретению, окно преимущественно удовлетворяет условию (21). При имеющихся параметрах это эквивалентно следующему условию:First of all, consider the case Q ϕ =2 . In this case, 602-2 should perform subband stretching with a factor of S =2 and subband conversion with a factor of Q =1 (i.e., no conversion), the correspondence between the source n and target m subbands for direct subband processing is n = m . In the cross product addition scenario of the invention, there is only one type of cross product to consider, namely r =1 (see above discussion after equation (15)), and equations (20) reduce to T 1 = T 2 =1 and D 1 + D 2 =1. An example solution consists of choosing D 1 =0 and D 2 =1 . A rectangular window of even length L=10 with R 1 =R 2 =5 can be used as a synthesis window for direct processing, since it satisfies condition (10). For the cross-processing synthesis window, a short window with L =2 links and R 1 =R 2 =1 may be used in order to keep the additional complexity of adding cross products to a minimum level. However, the beneficial effect of using a long block to process subbands is most significant in the case of complex audio signals, where unwanted combinational terms are suppressed; in the case of a dominant fundamental tone, the occurrence of these artifacts is less likely. A window with L =2 links is the shortest of those that can satisfy condition (10), since h =1 and S =2. However, according to the present invention, the window preferably satisfies condition (21). Given the existing parameters, this is equivalent to the following condition:

которое выполняется путем выбора w(0)=1 и w(-1)=exp(iα)=exp(iπp/2).which is done by choosing w (0)=1 and w (-1)=exp(i α )=exp( iπp /2).

Для случая Q ϕ =3 технические условия для 602-3, имеющие вид условий (1)-(3), таковы, что он должен выполнять растягивание поддиапазона S=2, преобразование поддиапазона Q=3/2, и соответствие между исходным n и целевым m поддиапазонами для обработки прямых членов имеет вид n≈2m/3. Существует два типа членов с перекрестным произведением - r=1, 2, - и уравнения (20) сокращаются доFor the case of Q ϕ =3, the technical conditions for 602-3, having the form of conditions (1)-(3), are such that it must perform the stretching of the subband S=2, the transformation of the subband Q =3/2, and the correspondence between the original n and the target m subranges for processing direct terms has the form n≈2m/3 . There are two types of cross product terms - r =1, 2, - and equations (20) reduce to

. .

Пример решения состоит из выбора параметров понижающей дискретизации какAn example solution consists of choosing the downsampling parameters as

D 1 =0 и D 2 =3/2 для r=1;D 1 =0 and D 2 =3/2 for r =1;

D 1 =3/2 и D 2 =0 для r=1.D 1 =3/2 and D 2 =0 for r =1.

В качестве окна синтеза при прямой обработке можно использовать прямоугольное окно четной длины L=8 с R 1 =R 2 =4. В качестве окна обработки перекрестных произведений может использоваться короткое окно с L=2 звеньев и R1=R2=1, удовлетворяющее условиюAs a synthesis window for direct processing, you can use a rectangular window of even length L = 8 with R 1 = R 2 = 4. A short window with L = 2 links and R 1 = R 2 = 1, satisfying the condition, can be used as a window for processing cross products

которое выполняется путем выбора w(0)=1 и w(-1)=exp(iα).which is done by choosing w (0)=1 and w (-1)=exp(i α ).

В случае Q ϕ =4 технические условия для 602-4, имеющие вид условий (1)-(3), таковы, что он должен выполнять растягивание поддиапазона с коэффициентом S=2, преобразование поддиапазона с коэффициентом Q=2, и соответствие между исходным n и целевым m поддиапазонами для обработки прямых членов имеет вид n=2m. Существует три типа членов с перекрестным произведением, - r=1, 2, 3, - и уравнения (20) сокращаются доIn the case of Q ϕ =4, the technical conditions for 602-4, having the form of conditions (1)-(3), are such that it must perform subband stretching with a coefficient of S=2, subband transformation with a coefficient of Q =2, and correspondence between the original n and target m subranges for processing direct terms is of the form n = 2m . There are three types of cross product terms, - r =1, 2, 3, - and equations (20) reduce to

Пример решения состоит в выбореAn example solution is to choose

D 1 =0 и D 2 =2 для r=1;D 1 =0 and D 2 =2 for r =1;

D 1 =0 и D 2 =1 для r=2;D 1 =0 and D 2 =1 for r =2;

D 1 =2 и D 2 =0 для r=3.D 1 =2 and D 2 =0 for r =3.

В качестве окна синтеза при прямой обработке можно использовать прямоугольное окно четной длины L=6 с R1=R2=3. В качестве окна обработки перекрестных произведений может использоваться короткое окно с L=2 звеньев и R1=R2=1, удовлетворяющее условиюAs a synthesis window for direct processing, you can use a rectangular window of even length L =6 with R 1 =R 2 =3. A short window with L = 2 links and R 1 = R 2 = 1, satisfying the condition, can be used as a window for processing cross products

которое выполняется путем выбора w(0=1) и w(-1)=exp(iα).which is done by choosing w (0=1) and w (-1)=exp(iα).

В каждом из вышеописанных случаев, где применимо более чем одно значение r, будет происходить выбор, например, аналогично трехэтапной процедуре, описанной перед уравнением (17).In each of the above cases where more than one value of r is applicable, a selection will occur, for example, similar to the three-step procedure described before equation (17).

Фиг. 7 изображает амплитудный спектр гармонического сигнала с основной частотой Ω0= 564,7 Гц. Низкочастотная часть 701 сигнала подлежит использованию в качестве входного сигнала для многократного преобразователя. Целью преобразователя является генерирование сигнала, максимально возможно близкого к высокочастотной части 702 входного сигнала, поэтому передача высокочастотной части 702 становится необязательной, и доступная битовая скорость передачи данных может использоваться экономно.Fig. 7 shows the amplitude spectrum of a harmonic signal with a fundamental frequency Ω 0 = 564.7 Hz. The low frequency portion 701 of the signal is to be used as an input signal for a multiple converter. The purpose of the converter is to generate a signal as close as possible to the high frequency portion 702 of the input signal, so that transmission of the high frequency portion 702 becomes unnecessary and the available data bit rate can be used sparingly.

Фиг. 8 изображает амплитудный спектр выходных сигналов из преобразователя, который содержит в качестве входного сигнала низкочастотную часть 701 сигнала, представленного на фиг. 7. Многократный преобразователь конструируется путем использования 64-полосных блоков QMF-фильтров и входной частоты дискретизации fs=14400 Гц в соответствии с описанием фиг. 5. Однако для ясности рассматривается только два порядка преобразования Q ϕ =2,3. Три разные панели 801-803 представляют конечный выходной сигнал, полученный путем использования разных установок данных управления перекрестной обработкой.Fig. 8 shows the amplitude spectrum of the output signals from a converter that contains as an input signal the low frequency portion 701 of the signal shown in FIG. 7. A multiple converter is constructed by using 64-band QMF filter banks and an input sampling frequency fs =14400 Hz as described in FIG. 5. However, for clarity, only two orders of transformation Q ϕ =2,3 are considered. Three different panels 801-803 represent the final output signal obtained by using different cross-processing control data settings.

Верхняя панель 801 изображает выходной спектр, полученный тогда, когда отменена вся обработка перекрестных произведений, и активна только прямая обработка 401 поддиапазонов. Это будет тот случай, когда управление 404 перекрестной обработкой не принимает основной тон, или р=0. Преобразование посредством Q ϕ =2 генерирует выходной сигнал в диапазоне 4-8 кГц, а преобразование посредством Q ϕ =3 генерирует выходной сигнал в диапазоне 8-12 кГц. Как видно, созданные гармоники находятся на большом и возрастающем расстоянии друг от друга, и выходной сигнал существенно отклоняется от целевого высокочастотного сигнала 702. В результирующем выходном звуковом сигнале будут присутствовать слышимые артефакты удвоенного и утроенного «паразитного» основного тона.The top panel 801 depicts the output spectrum obtained when all cross product processing is disabled and only direct subband processing 401 is active. This will be the case where the cross-processing control 404 does not accept the pitch, or p =0. Conversion by Q ϕ =2 generates an output signal in the range of 4-8 kHz, and conversion by Q ϕ =3 generates an output signal in the range of 8-12 kHz. As can be seen, the harmonics created are widely and increasingly far apart, and the output signal deviates significantly from the target high frequency signal 702. The resulting audio output signal will have audible double and triple pitch artifacts.

Средняя панель 802 изображает выходной спектр, полученный тогда, когда обработка перекрестных произведений активна, используется параметр основного тона р=5 (который служит приближением 128Ω0/f s =5,0196), но для перекрестной обработки поддиапазонов используется простое двухзвенное окно синтеза с w(0)=w(-1)=1, удовлетворяющее условию (10). Это эквивалентно непосредственному сочетанию обработки на основе блока поддиапазонов и гармонического преобразования, усиленного перекрестными произведениями. Как видно, дополнительные составляющие выходного сигнала по сравнению с 801 не вполне совпадают с требуемым гармоническим рядом. Это показывает, что при использовании для обработки перекрестных произведений процедуры, унаследованной от прямой обработки поддиапазонов, обработка приводит к недостаточному для использования качеству звука.Middle panel 802 depicts the output spectrum obtained when cross product processing is active, using the pitch parameter p = 5 (which serves as an approximation of 128Ω 0 / f s = 5.0196), but using a simple two-link synthesis window with w for cross-product processing of subbands (0)= w (-1)=1, satisfying condition (10). This is equivalent to a direct combination of subband block-based processing and cross-product-enhanced harmonic transform. As you can see, the additional components of the output signal compared to 801 do not completely coincide with the required harmonic series. This shows that when using a procedure inherited from direct subband processing to process cross-products, the processing results in sound quality that is insufficient for use.

Нижняя панель 803 изображает выходной спектр, полученный по тому же сценарию, что и для средней панели 802, но, в данном случае, с окнами синтеза при перекрестной обработке поддиапазонов, имеющими вид формул, описанных в случае Q ϕ =2,3 согласно фиг. 5, то есть: двухзвенного окна синтеза в форме w(0)=1 и w(-1)=exp(iα), удовлетворяющего условию (21), и с указываемым настоящим изобретением характерным признаком, который заключается в том, что оно зависит от р. Как видно, комбинированный выходной сигнал очень хорошо совпадает с требуемым гармоническим рядом 702.The bottom panel 803 depicts the output spectrum obtained using the same scenario as for the middle panel 802, but, in this case, with cross-band synthesis windows having the form of the formulas described in the case of Q ϕ =2.3 according to FIG. 5, that is: a two-tier synthesis window in the form w (0)=1 and w (-1)=exp(i α ), satisfying condition (21), and with the characteristic feature indicated by the present invention, which is that it depends on r . As can be seen, the combined output matches the required harmonic series 702 very well.

Фиг. 9 показывает участок нелинейной обработки модуля 202 обработки кадров, включающий секции, сконфигурированные для приема двух входных дискретных значений u 1 , u 2 и для генерирования на их основе обрабатываемого дискретного значения w, амплитуда которого имеет вид геометрического среднего амплитуд входных значений, и фаза которого представляет собой линейную комбинацию фаз входных дискретных значений, т.е.:Fig. 9 shows the nonlinear processing section of frame processing module 202, including sections configured to receive two input samples u 1 , u 2 and to generate from them a processed sample value w , the amplitude of which is the geometric average of the amplitudes of the input values, and the phase of which is is a linear combination of the phases of the input discrete values, i.e.:

Согласно данному описанию, обрабатываемое значение w можно получить путем предварительной нормализации каждого из дискретных значений u 1 , u 2 в соответствующем преднормализаторе 901, 902 и умножения предварительно нормализованных входных дискретных значений v 1=u 1/⏐u 1a, v 2=u 2/⏐u 2b во взвешенном умножителе 910, который выводит w=v 1 α v 2 β. Ясно, что действие преднормализаторов 901, 902 и взвешенного умножителя 910 определяется входными параметрами a, b, α и β. Легко удостовериться, что уравнения (22) будут выполняться, если α=T1, β=T2, a=1-ρ/T1, b=1-(1-ρ)/T2. Специалисты легко обобщат эту схему на произвольное количество N 0 входных дискретных значений, где на умножитель подается N 0 входных дискретных значений, некоторые или все из которых были подвергнуты нормализации. Затем можно будет обнаружить, что общая предварительная нормализация (a=b в предположении, что преднормализаторы 901, 902 генерируют одинаковые результаты) возможна, если ρ приравнять к ρ=T 1 /(T 1 +T 2 ). Это приводит к вычислительному преимуществу тогда, когда рассматривается большое количество поддиапазонов, поскольку на всех поддиапазонах-кандидатах перед умножением может выполняться общий этап предварительной нормализации. В преимущественной аппаратной реализации ряд одинаково функционирующих преднормализаторов заменяется на единый модуль, который чередуется между дискретными значениями из разных поддиапазонов с разделением по времени.According to this description, the processed value w can be obtained by pre-normalizing each of the sample values u 1 , u 2 in the corresponding pre-normalizer 901, 902 and multiplying the pre-normalized input sample values v 1 = u 1 /⏐ u 1a , v 2 = u 2 /⏐ u 2b in the weighted multiplier 910, which outputs w = v 1 α v 2 β . It is clear that the operation of the prenormalizers 901, 902 and the weighted multiplier 910 is determined by the input parameters a, b, α and β. It is easy to verify that equations (22) will be satisfied if α =T 1 , β=T 2 , a=1-ρ/T 1 , b=1-(1-ρ)/T 2 . Those skilled in the art can easily generalize this circuit to an arbitrary number of N 0 input samples, where the multiplier is fed N 0 input samples, some or all of which have been normalized. It will then be found that overall pre-normalization ( a = b , assuming pre-normalizers 901, 902 generate the same results) is possible by setting ρ to ρ= T 1 /( T 1 + T 2 ). This results in a computational advantage when a large number of subbands are considered, since a common pre-normalization step can be performed on all candidate subbands before multiplication. In the preferred hardware implementation, a number of identically functioning prenormalizers are replaced by a single module, which alternates between discrete values from different subranges with a time separation.

Дальнейшие варианты осуществления настоящего изобретения станут очевидны специалистам в данной области после прочтения приведенного выше описания. И хотя настоящее описание и графические материалы раскрывают варианты и примеры осуществления изобретения, изобретение не ограничивается данными конкретными примерами. Многочисленные модификации и изменения могут быть сделаны без отступления от объема настоящего изобретения, который определяется сопроводительной формулой изобретения.Further embodiments of the present invention will become apparent to those skilled in the art upon reading the above description. Although the present description and drawings disclose embodiments and examples of the invention, the invention is not limited to these specific examples. Numerous modifications and changes may be made without departing from the scope of the present invention, which is defined by the accompanying claims.

Раскрытые выше в данном описании системы и способы могут реализовываться как программное обеспечение, встроенное программное обеспечение, аппаратное обеспечение или их комбинация. Некоторые компоненты или все компоненты могут реализовываться как программное обеспечение, исполняемое процессором цифровой обработки сигналов или микропроцессором, или они могут реализовываться как аппаратное обеспечение или как интегральная микросхема специального назначения. Указанное программное обеспечение может распространяться на машиночитаемых носителях данных, которые могут включать компьютерные носители данных (или непреходящие носители) и средства связи (преходящие носители). Как хорошо известно специалистам в данной области, компьютерные носители данных включают энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные посредством любого способа или технологии хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в качестве неограничивающих примеров RAM, ROM, EEPROM, флэш-память или другую технологию памяти, CD-ROM, компакт-диски формата DVD или другой оптический дисковый носитель, магнитные кассеты, магнитную ленту, магнитные дисковые носители или другие магнитные запоминающие устройства, или любой другой носитель данных, который может быть использован для хранения требуемой информации и для доступа компьютера к ней. Как также хорошо известно специалистам в данной области, средства связи, как правило, включают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и включает любые средства доставки информации.The systems and methods disclosed herein above may be implemented as software, firmware, hardware, or a combination thereof. Some or all of the components may be implemented as software executed by a digital signal processor or microprocessor, or they may be implemented as hardware or a special purpose integrated circuit. The software may be distributed on machine-readable storage media, which may include computer storage media (or enduring media) and communications media (transitory media). As is well known to those skilled in the art, computer storage media includes volatile and non-volatile, removable and non-removable media implemented in any method or technology for storing information, such as computer-readable instructions, data structures, program modules or other data. Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, CD-ROM or other optical disk media, magnetic cassettes, magnetic tape, magnetic disk media or other magnetic storage media. devices, or any other storage medium that can be used to store the required information and for a computer to access it. As is also well known to those skilled in the art, communications media typically include machine-readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave or other transmission mechanism, and includes any means of delivering information.

Claims (22)

1. Система, сконфигурированная для генерирования растянутого во времени и/или преобразованного по частоте сигнала из входного сигнала, при этом система содержит один или более обрабатывающих элементов, которые:1. A system configured to generate a time-stretched and/or frequency-converted signal from an input signal, the system comprising one or more processing elements that: получают некоторое количество Y≥1 сигналов анализируемых поддиапазонов из входного сигнала, при этом каждый сигнал анализируемого поддиапазона включает ряд комплекснозначных анализируемых дискретных значений, каждое из которых имеет фазу и амплитуду;obtaining a certain number Y≥1 of analyzed subband signals from the input signal, wherein each analyzed subband signal includes a number of complex-valued analyzed discrete values, each of which has a phase and amplitude; генерируют сигнал синтезируемого поддиапазона из Y сигналов анализируемых поддиапазонов с использованием коэффициента Q преобразования поддиапазонов и коэффициента S растягивания поддиапазонов, при этом по меньшей мере один из коэффициентов Q и S больше единицы, путем: generating a signal of the synthesized subband from Y signals of the analyzed subbands using the subband conversion coefficient Q and the subband stretching coefficient S, wherein at least one of the coefficients Q and S is greater than one, by: формирования Y кадров, состоящих из L входных дискретных значений, при этом каждый кадр извлекают из указанного ряда комплекснозначных анализируемых дискретных значений в сигнале анализируемого поддиапазона, при этом L является длиной кадра, которая больше 1, и при этом по меньшей мере одно из L входных дискретных значений получают путем интерполяции двух или большего количества из ряда комплекснозначных анализируемых дискретных значений; generating Y frames consisting of L input discrete values, wherein each frame is extracted from a specified number of complex-valued analyzed discrete values in the signal of the analyzed subband, wherein L is a frame length that is greater than 1, and at least one of the L input discrete values values are obtained by interpolating two or more of a series of complex-valued discrete values being analyzed; применения величины скачка блока из h дискретных значений к указанному ряду комплекснозначных анализируемых дискретных значений перед формированием следующего кадра, состоящего из L входных дискретных значений, с генерированием таким образом последовательности кадров из входных дискретных значений;applying the jump value of a block of h samples to a specified series of complex-valued analyzed samples before generating the next frame consisting of the L input samples, thereby generating a sequence of frames from the input samples; генерирования, на основе Y соответствующих кадров входных дискретных значений, кадра обрабатываемых дискретных значений путем определения фазы и амплитуды для каждого обрабатываемого дискретного значения кадра, при этом для по меньшей мере одного обрабатываемого дискретного значения:generating, based on Y corresponding frames of input samples, a frame of processed samples by determining the phase and amplitude for each processed sample of the frame, wherein for at least one processed sample: i) фаза обрабатываемого дискретного значения основывается на соответствующих фазах соответствующих входных дискретных значений в каждом из Y кадров входных дискретных значений; иi) the phase of the processed sample is based on the corresponding phases of the corresponding input samples in each of the Y input sample frames; And ii) амплитуда обрабатываемого дискретного значения определяется как среднее значение амплитуды соответствующего входного дискретного значения в первом кадре из Y кадров входных дискретных значений и амплитуды соответствующего входного дискретного значения во втором кадре из Y кадров входных дискретных значений;ii) the amplitude of the processed sample is determined as the average of the amplitude of the corresponding input sample in the first frame of Y frames of input samples and the amplitude of the corresponding input sample in the second frame of Y frames of input samples; применения оконной функции к кадру обрабатываемых дискретных значений, причем оконная функция представляет собой прямоугольное окно с длиной, соответствующей длине L кадра; иapplying a window function to a frame of processed discrete values, wherein the window function is a rectangular window with a length corresponding to the length L of the frame; And определения сигнала синтезируемого поддиапазона путем наложения и сложения дискретных значений последовательности кадров, к которым была применена оконная функция, обрабатываемых дискретных значений; determining the signal of the synthesized subband by superimposing and adding the discrete values of the sequence of frames to which the window function was applied, the processed discrete values; иAnd генерирования растянутого во времени и/или преобразованного по частоте сигнала из сигнала синтезируемого поддиапазона, при этом система является работоспособной по меньшей мере для Y=2.generating a time-stretched and/or frequency-converted signal from the synthesized sub-band signal, wherein the system is operational at least for Y=2. 2. Способ генерирования растянутого во времени и/или преобразованного по частоте сигнала из входного сигнала, при этом способ включает:2. A method for generating a time-stretched and/or frequency-converted signal from an input signal, the method comprising: получение некоторого количества Y≥2 сигналов анализируемых поддиапазонов из входного сигнала, при этом каждый сигнал анализируемого поддиапазона включает ряд комплекснозначных анализируемых дискретных значений, каждое из которых имеет фазу и амплитуду; obtaining a certain number of Y≥2 signals of the analyzed subbands from the input signal, wherein each signal of the analyzed subband includes a number of complex-valued analyzed discrete values, each of which has a phase and amplitude; формирование Y кадров, состоящих из L входных дискретных значений, при этом каждый кадр извлекают из указанного ряда комплекснозначных анализируемых дискретных значений в сигнале анализируемого поддиапазона, при этом L является длиной кадра, которая больше 1, и при этом по меньшей мере одно из L входных дискретных значений получают путем интерполяции двух или большего количества из ряда комплекснозначных анализируемых дискретных значений;generating Y frames consisting of L input discrete values, wherein each frame is extracted from a specified number of complex-valued analyzed discrete values in the signal of the analyzed subband, wherein L is a frame length that is greater than 1, and at least one of the L input discrete values values are obtained by interpolating two or more of a series of complex-valued discrete values being analyzed; применение величины скачка блока из h дискретных значений к указанному ряду комплекснозначных анализируемых дискретных значений перед получением следующего кадра, состоящего из L входных дискретных значений, с генерированием таким образом последовательности кадров из входных дискретных значений; applying a jump value of a block of h samples to said series of complex-valued analyzed samples before obtaining the next frame consisting of the L input samples, thereby generating a sequence of frames from the input samples; генерирование, на основе Y соответствующих кадров входных дискретных значений, кадра обрабатываемых дискретных значений путем определения фазы и амплитуды для каждого обрабатываемого дискретного значения кадра, при этом для по меньшей мере одного обрабатываемого дискретного значения:generating, based on Y corresponding frames of input samples, a frame of processed samples by determining the phase and amplitude for each processed sample of the frame, wherein for at least one processed sample: i) фаза обрабатываемого дискретного значения основывается на соответствующих фазах соответствующих входных дискретных значений в каждом из Y кадров входных дискретных значений; иi) the phase of the processed sample is based on the corresponding phases of the corresponding input samples in each of the Y input sample frames; And ii) амплитуда обрабатываемого дискретного значения определяется как среднее значение амплитуды соответствующего входного дискретного значения в первом кадре из Y кадров входных дискретных значений и амплитуды соответствующего входного дискретного значения во втором кадре из Y кадров входных дискретных значений;ii) the amplitude of the processed sample is determined as the average of the amplitude of the corresponding input sample in the first frame of Y frames of input samples and the amplitude of the corresponding input sample in the second frame of Y frames of input samples; определение сигнала синтезируемого поддиапазона путем применения оконной функции к кадру обрабатываемых дискретных значений, и наложение и сложение дискретных значений последовательности кадров, к которым была применена оконная функция, обрабатываемых дискретных значений, причем оконная функция представляет собой прямоугольное окно с длиной, соответствующей длине L кадра; иdetermining the signal of the synthesized subband by applying a window function to a frame of processed discrete values, and superimposing and adding the discrete values of a sequence of frames to which the window function was applied, the processed discrete values, wherein the window function is a rectangular window with a length corresponding to the length L of the frame; And генерирование растянутого во времени и/или преобразованного по частоте сигнала из сигнала синтезируемого поддиапазона.generating a time-stretched and/or frequency-converted signal from a synthesized subband signal. 3. Постоянный носитель данных, на котором хранятся машиночитаемые команды, предназначенные для выполнения способа по п. 2.3. A permanent storage medium on which machine-readable commands are stored, intended for executing the method according to claim 2.
RU2023132919A 2010-09-16 2023-12-12 Harmonic conversion based on subband block, amplified by cross products RU2822612C1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US61/383,441 2010-09-16
US61/419,164 2010-12-02

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2023121145A Division RU2810281C1 (en) 2010-09-16 2023-08-11 Harmonic transformation based on block of sub-bands enhanced by cross products

Publications (1)

Publication Number Publication Date
RU2822612C1 true RU2822612C1 (en) 2024-07-09

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328162B2 (en) * 1997-06-10 2008-02-05 Coding Technologies Ab Source coding enhancement using spectral-band replication
RU2374703C2 (en) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Coding or decoding of audio signal
RU2386179C2 (en) * 2005-04-01 2010-04-10 Квэлкомм Инкорпорейтед Method and device for coding of voice signals with strip splitting
WO2010081892A2 (en) * 2009-01-16 2010-07-22 Dolby Sweden Ab Cross product enhanced harmonic transposition
WO2010086461A1 (en) * 2009-01-28 2010-08-05 Dolby International Ab Improved harmonic transposition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328162B2 (en) * 1997-06-10 2008-02-05 Coding Technologies Ab Source coding enhancement using spectral-band replication
RU2374703C2 (en) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Coding or decoding of audio signal
RU2386179C2 (en) * 2005-04-01 2010-04-10 Квэлкомм Инкорпорейтед Method and device for coding of voice signals with strip splitting
WO2010081892A2 (en) * 2009-01-16 2010-07-22 Dolby Sweden Ab Cross product enhanced harmonic transposition
WO2010086461A1 (en) * 2009-01-28 2010-08-05 Dolby International Ab Improved harmonic transposition

Similar Documents

Publication Publication Date Title
RU2694587C1 (en) Harmonic transformation based on a block of subranges amplified by cross products
RU2822612C1 (en) Harmonic conversion based on subband block, amplified by cross products
RU2810281C1 (en) Harmonic transformation based on block of sub-bands enhanced by cross products
RU2801960C1 (en) Harmonic transformation based on a block of sub-bands enhanced by cross products
RU2796943C2 (en) Harmonic transformation based on a block of sub-bands enhanced by cross products
AU2015202647B2 (en) Cross product enhanced subband block based harmonic transposition