DE102017102988B4 - Method and device for processing a digital audio signal for binaural reproduction - Google Patents
Method and device for processing a digital audio signal for binaural reproduction Download PDFInfo
- Publication number
- DE102017102988B4 DE102017102988B4 DE102017102988.5A DE102017102988A DE102017102988B4 DE 102017102988 B4 DE102017102988 B4 DE 102017102988B4 DE 102017102988 A DE102017102988 A DE 102017102988A DE 102017102988 B4 DE102017102988 B4 DE 102017102988B4
- Authority
- DE
- Germany
- Prior art keywords
- order
- filters
- sound field
- rendering
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 title claims abstract description 17
- 238000009877 rendering Methods 0.000 claims abstract description 63
- 230000004044 response Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000008859 change Effects 0.000 claims description 10
- 230000004886 head movement Effects 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims 2
- 210000003128 head Anatomy 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000002775 capsule Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
Verfahren zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im Higher Order Ambisonics HOA-Format einer Ordnung N vorliegt, wobei ein linkes Ausgangssignal und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden, mit den Schritten:Drehen (110) der 3D-Schallfeldbeschreibung des digitalen Audiosignals im Higher Order Ambisonics HOA-Format gemäß einem Rotationssteuersignal, das von einem Headtracker erhalten werden kann,Filtern (120) der gedrehten 3D-Schallfeldbeschreibung des digitalen Audiosignals mit (N + 1)ersten Renderingfiltern (21L) gemäß ersten kopfbezogenen Impulsantworten (HRIRs) für einen Links-Kanal und (N + 1)zweiten Renderingfiltern (21R) gemäß zweiten kopfbezogenen Impulsantworten (HRIRs) für einen Rechts-Kanal, wobei die Renderingfilter einer Approximation der ersten und zweiten kopfbezogenen Impulsantworten durch Kugelfunktionen entsprechen und die Approximation auf die Ordnung N begrenzt ist, wobei die Kugelfunktionen dieselben wie im Higher Order Ambisonics HOA-Format der Schallfeldbeschreibung sind,Aufsummieren (130) der Ausgangssignale der ersten Renderingfilter (21L) zu einem Zwischensignal für den Links-Kanal, und Aufsummieren (130) der Ausgangssignale der zweiten Renderingfilter (21R) zu einem Zwischensignal für den Rechts-Kanal,Filtern (140) des Zwischensignals für den Links-Kanal mit einem ersten Equalizationfilter (30L) zur Veränderung der Klangfarbe, wobei der erste Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das linke Ausgangssignal (40L) für binaurale Wiedergabe entsteht, undFiltern (150) des Zwischensignals für den Rechts-Kanal mit einem zweiten Equalizationfilter zur Veränderung der Klangfarbe, wobei der zweite Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das rechte Ausgangssignal (40R) für binaurale Wiedergabe entsteht.A method of processing a digital audio signal presented as a 3D sound field description in Higher Order Ambisonics HOA format of order N, producing a left output signal and a right output signal for binaural reproduction via headphones, comprising the steps of: rotating (110) the 3D sound field description of the digital audio signal in Higher Order Ambisonics HOA format according to a rotation control signal obtainable from a head tracker, filtering (120) the rotated 3D sound field description of the digital audio signal with (N + 1) first rendering filters (21L) according to the first one head-related impulse responses (HRIRs) for a left-channel and (N + 1) second rendering filters (21R) according to second head-related impulse responses (HRIRs) for a right channel, the rendering filters corresponding to an approximation of the first and second head-related impulse responses by spherical functions, and the Approximation is limited to the order N, w wherein the spherical functions are the same as in the Higher Order Ambisonics HOA format of the sound field description, summing (130) the outputs of the first rendering filters (21L) to an intermediate signal for the left channel, and summing (130) the outputs of the second rendering filters (21R) to an intermediate signal for the right channel, filtering (140) the intermediate signal for the left channel with a first equalization filter (30L) for changing the timbre, wherein the first equalization filter is automatically adjusted according to the order N, and wherein the left output signal ( 40L) for binaural reproduction, and filtering (150) the right channel intermediate signal with a second equalization filter to alter the timbre, the second equalization filter being automatically adjusted according to the N order, and the right output signal (40R) for binaural reproduction arises.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung vorliegt, zu einem für binaurale Wiedergabe über Kopfhörer geeigneten Ausgangssignal.The invention relates to a method and a device for processing a digital audio signal, which is present as a 3D sound field description, to a suitable for binaural playback via headphones output signal.
Hintergrundbackground
Higher Order Ambisonics (HOA) ist ein Ansatz zur Darstellung physikalischer Schalldruckfelder im Raum. Die zugrundeliegende Idee ist, dass jedes 3-dimensionale Schallfeld, das frei von Schallquellen ist, durch Überlagerung ebener Wellen aus allen möglichen Einfallsrichtungen dargestellt werden kann [7, Kap.2.4], [11, Kap.7.3.3], ähnlich dem Prinzip der Darstellung von konventionellen Audiosignalen durch Überlagerung von Sinuswellen verschiedener Frequenzen. Insbesondere können die Beiträge jeder einzelnen ebenen Welle zum Schalldruckfeld an einer bestimmten Position im Raum durch eine auf der Oberfläche einer Einheitskugel definierte Funktion ausgedrückt werden, da jede Einfallsrichtung mathematisch eindeutig einer bestimmten Position auf der Einheitskugel zugeordnet werden kann. Mit HOA wird diese Funktion approximiert als abgebrochene Reihe sphärischer Basisfunktionen, den sogenannten Sphärisch-Harmonischen (SH). Die eigentlichen HOA (Koeffizienten-) Signale sind die zeitlichen Sequenzen der Gewichtungen von einzelnen sphärisch-harmonischen Funktionen. Die Stelle, an der die SH-Reihe abgebrochen wird, wird durch die sogenannte Ordnung
In der Praxis können HOA Schallfeld-Repräsentationen entweder künstlich erzeugt oder mit Hilfe eines Mikrofonarrays (siehe z.B. [13], [6]) aufgenommen werden. Im zweiten Fall hängt die sinnvollerweise gewählte Ordnung von der Anzahl der Mikrofone ab. Bei den zur Zeit kommerziell erhältlichen am höchsten entwickelten spärischen Arrays, wie dem Eigenmike von mhacoustics mit 32 Mikrofonkapseln oder der audio-visuellen Kamera vom VisiSonics mit 64 Mikrofonkapseln, ist die Ordnung nicht höher als N=7, oft deutlich niedriger.In practice, HOA sound field representations can either be artificially generated or acquired using a microphone array (see, e.g., [13], [6]). In the second case, the meaningfully chosen order depends on the number of microphones. In the currently most commercially available spherical arrays, such as mhacoustics' own mike with 32 microphone capsules or the visiSonics audio-visual camera with 64 microphone capsules, the order is not higher than N = 7, often much lower.
Die Wiedergabe von HOA Schallfeld-Repräsentationen über Kopfhörer erfordert eine spezielle Signalverarbeitung, die binaurales Rendering genannt wird. Dabei wird typischerweise die Tatsache berücksichtigt, dass das menschliche Gehör in der Lage ist, die 3-dimensionale Position individueller Schallquellen durch sogenannte binaurale Merkmale (binaural cues) zu lokalisieren. Zu diesen gehören Unterschiede bezüglich der Intensität und der spektralen Zusammensetzung, sowie dem zeitlichen Versatz zwischen den Schalldrucksignalen an den beiden Trommelfellen. Diese Merkmale rühren von der Streuung her, die entsteht, wenn Schallwellen auf den menschlichen Körper, insbesondere die Ohrmuschel, den Kopf und Rumpf treffen. Diese Streuung wird durch sogenannte Kopfbezogene Impulsantworten („Head Related Impulse Responses“, HRIRs) modelliert, die üblicherweise individuell deutlich variieren.The playback of HOA sound field representations via headphones requires special signal processing called binaural rendering. This typically takes into account the fact that the human ear is able to locate the 3-dimensional position of individual sound sources by so-called binaural cues. These include differences in intensity and spectral composition, as well as the temporal offset between the sound pressure signals on the two eardrums. These features are due to the scattering that occurs when sound waves strike the human body, especially the pinna, head and trunk. This scattering is modeled by so-called head-related impulse responses (HRIRs), which usually vary significantly individually.
Ein durch HOA repräsentiertes Schallfeld enthält per Definition keine Information über eine durch den Körper des Zuhörers hervorgerufene Streuung. Daher muss diese Information beim binauralen Rendering künstlich synthetisiert werden. Um ein maximales Präsenzgefühl in einer virtuellen akustischen Umgebung zu erreichen, müssen die binauralen Merkmale konsistent sein mit Kopfbewegungen des Zuhörers. Ein Headtracker kann daher benutzt werden, um die betreffende Information zur Adaption des Renderingprozesses zu erhalten. Ein weiterer Vorteil von Headtrackern in diesem Zusammenhang ist, dass sie helfen, die Fähigkeit zur Lokalisation von Schallquellen zu verbessern, indem sie inhärent kleine unbewusste Kopfbewegungen erfassen [2, Kap.3].A sound field represented by HOA by definition contains no information about a scattering caused by the body of the listener. Therefore, this information must be artificially synthesized in binaural rendering. To achieve maximum presence in a virtual acoustic environment, the binaural features must be consistent with the listener's head movements. A head tracker can therefore be used to obtain the relevant information for adapting the rendering process. Another advantage of head trackers in this regard is that they help to improve the ability to localize sound sources by inherently detecting small unconscious head movements [2, Chap.3].
Zum binauralen Rendern von Ambisonics Schallfeld-Repräsentationen erster Ordnung bemerken z.B. die Autoren in [3], dass im Prinzip nur ein einzelner linearer Filter pro individuellem Ambisonicssignal und Ohr erforderlich ist (siehe [3, Kap.4]), was zu insgesamt 2·(1+1)2 = 8 linearen Filtern für eine Ambisonics Schallfeld-Repräsentation erster Ordnung führt. Insbesondere schlagen die Autoren einen zweistufigen binauralen Renderingprozess vor, um die Filter zu bestimmen [3, Kap.6.1], wobei die erste Stufe die Ambisonics Schallfeld-Repräsentation für eine Gruppe virtueller Lautsprechersignale rendert, welche in der zweiten Stufe mit den jeweiligen HRIRs für das linke und das rechte Ohr gefiltert werden. Eine wesentliche Annahme in diesem Zusammenhang ist, dass die Richtungen der HRIRs mit den Richtungen der virtuellen Lautsprechersignale übereinstimmen.For the binaural rendering of Ambisonics first-order sound field representations, for example, the authors note in [3] that, in principle, only a single linear filter per individual ambisonic signal and ear is required (see [3, chap.4]), resulting in a total of 2 (1 + 1) 2 = 8 linear filters for an Ambisonics first-order sound field representation. Specifically, the authors propose a two-stage binaural rendering process to determine the filters [3, Chap. 6.1], where the first stage renders the Ambisonics sound field representation for a group of virtual loudspeaker signals which in the second stage match the respective HRIRs for the left and right ear are filtered. An essential assumption in this connection is that the directions of the HRIRs coincide with the directions of the virtual loudspeaker signals.
Zur Adaption des binauralen Rendering an eine Kopfrotation des Zuhörers nutzen die Autoren die Tatsache, dass es keinen Unterschied gibt zwischen einer Rotation des Zuhörerkopfes und der inversen Rotation des Schallfeldes. Daher werden dort nicht die Lautsprecher rotiert, so dass Unterschiede zwischen den Richtungen der rotierten Lautsprecher und den gegebenen Richtungen der HRIRs vermieden werden. Stattdessen wird das Schallfeld direkt im Ambisonicsbereich (domain) rotiert, was sich durch Anwendung quadratischer Rotationsmatrizen der Dimension
Im Gegensatz dazu wird in [11] eine einstufiges binaurales Rendering für HOA Schallfeldrepräsentationen angeregt, welches das Konzept der virtuellen Lautsprecher vermeidet, indem es direkt im SH-Bereich arbeitet. Dafür wird die Richtungsabhängigkeit der HRIRs durch eine Reihe von Sphärisch-Harmonischen approximiert, die dann bei derselben Ordnung
Zusammenfassung der ErfindungSummary of the invention
Eine Aufgabe der vorliegenden Erfindung besteht in der Bereitstellung eines Verfahrens und einer Vorrichtung zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im HOA-Format einer Ordnung
Ein erfindungsgemäßes Verfahren ist in Anspruch 1 angegeben. Eine erfindungsgemäße Vorrichtung ist in Anspruch 11 angegeben. Eine andere erfindungsgemäße Vorrichtung ist in Anspruch 15 angegeben.A method according to the invention is specified in
Ein solches erfindungsgemäßes Verfahren beinhaltet eine Drehung der 3D-Schallfeldbeschreibung des digitalen Audiosignals im HOA-Format gemäß einem Richtungssteuersignal, eine Filterung der gedrehten 3D-Schallfeldbeschreibung mit Renderingfiltern gemäß kopfbezogenen Impulsantworten (head-related impulse response, HRIR) für einen Links-Kanal und einen Rechts-Kanal, eine Summation der Ausgangssignale der Renderingfilter zu Zwischensignalen jeweils für den Links-Kanal und den Rechts-Kanal, und eine Korrektur der Zwischensignale mit jeweils einem Equalizationfilter zur Veränderung der Klangfarbe, wobei die beiden Equalizationfilter automatisch entsprechend der Ordnung
Eine erfindungsgemäße Vorrichtung zur Verarbeitung eines digitalen Audiosignales hat in einer Ausführungsform mindestens einen Prozessor und einen Speicher, wobei der Speicher ein Programm speichert, das den Prozessor dafür konfiguriert, ein Verfahren wie oben beschrieben durchzuführen.In one embodiment, an apparatus for processing a digital audio signal according to the invention has at least one processor and memory, the memory storing a program that configures the processor to perform a method as described above.
Weitere vorteilhafte Ausführungsformen werden in den abhängigen Ansprüchen 2-10 beschrieben.Further advantageous embodiments are described in the dependent claims 2-10.
Figurenlistelist of figures
Weitere Einzelheiten und vorteilhafte Ausführungsformen sind in den Zeichnungen dargestellt. Darin zeigt
-
1 einen Überblick über die Verarbeitung eines digitalen Audiosignales im HOA-Format; -
2 ein vereinfachtes Flussdiagram eines Verfahrens; -
3 das Prinzip der Dimensionierung der Renderingfilter; -
4 exemplarische Frequenzgänge der Equalizationfilter und ihrer normierten Eingangssignale; und -
5 eine skalierbare Filterstruktur der Equalizationfilter.
-
1 an overview of the processing of a digital audio signal in HOA format; -
2 a simplified flow diagram of a method; -
3 the principle of sizing the rendering filters; -
4 exemplary frequency responses of the equalization filters and their normalized input signals; and -
5 a scalable filter structure of the equalization filter.
Detaillierte Beschreibung der ErfindungDetailed description of the invention
Zunächst wird die 3D-Schallfeldbeschreibung des digitalen Audiosignals im HOA-Format c(N)(t) gemäß einem Rotationssteuersignal
Die gedrehte 3D-Schallfeldbeschreibung
Die Ausgangssignale der ersten Renderingfilter
Dann wird das Zwischensignal für den Links-Kanal mit einem ersten Equalizationfilter
In einer Ausführungsform wird ein Ordnungsparameter entsprechend der Ordnung
Optional können z.B. die ersten und zweiten Renderingfilter
In einer Ausführungsform wird das Verfahren oder Teile davon als Programmcode implementiert, so dass es von einem mit dem Programmcode entsprechend konfigurierten Computer ausgeführt werden kann.In one embodiment, the method or portions thereof are implemented as program code so that it may be executed by a computer configured according to the program code.
Die Korrektur
In einer Ausführungsform bewirkt oder approximiert die Anpassung des ersten und des zweiten Equalizationfilters
Die Equalizationfilter
In einer Ausführungsform wird der Ordnungsparameter
Die Koeffzienten des ersten und des zweiten Equalizationfilters
In einer Ausführungsform sind der erste und der zweite Equalizationfilter
In einer Ausführungsform stellen die Impulsantworten der Renderingfilter den zeitlichen Verlauf der Gewichte von Kugelfunktionen einer auf die Ordnung
In einer Ausführungsform werden die digitalen Audiosignale mittels FFT in den Frequenzbereich transformiert, die Koeffizienten der Renderingfilter liegen im Frequenzbereich vor, und die Ausgangssignale werden nach dem Aufsummieren jeweils mittels inverser FFT in den Zeitbereich transformiert. Dabei wird vorteilhafterweise nur eine inverse FFT je Ausgangssignal benötigt.In one embodiment, the digital audio signals are transformed into the frequency domain by means of FFT, the coefficients of the rendering filters are present in the frequency domain, and the output signals are each transformed into the time domain by means of inverse FFT after the summation. In this case, advantageously only one inverse FFT is required per output signal.
In einer Ausführungsform enthält die 3D-Schallfeldbeschreibung im HOA-Format zeitdiskrete Abtastsamples und das Rotationssteuersignal ist ebenfalls zeitdiskret. Dabei wird das Rotationssteuersignal vor dem Drehen zeitlich interpoliert, um den Abtastzeitpunkten der Audiosamples zu entsprechen. Im einfachsten Fall wird zwischen zwei Werten des Rotationssteuersignals interpoliert, es können jedoch auch mehr sein.In one embodiment, the 3D sound field description in HOA format includes time discrete sample samples and the rotation control signal is also time discrete. In this case, the rotation control signal is temporally interpolated before the rotation in order to correspond to the sampling instants of the audio samples. In the simplest case, interpolation between two values of the rotation control signal, but it can also be more.
In einer Ausführungsform, in der ebenfalls die 3D-Schallfeldbeschreibung zeitdiskrete Abtastsamples enthält und das Rotationssteuersignal zeitdiskret ist, werden zwei oder mehr aufeinanderfolgende Werte des Rotationssteuersignals zur Berechnung von zwei oder mehr Drehungen angewandt und die Audiosamples der zwei oder mehr gedrehten 3D-Schallfelddarstellungen werden zeitlich interpoliert.In an embodiment where also the 3D sound field description includes time discrete sample samples and the rotation control signal is time discrete, two or more consecutive values of the rotation control signal are applied to calculate two or more rotations and the audio samples of the two or more rotated 3D sound field representations are temporally interpolated ,
Im folgenden werden weitere Details verschiedener oben genannter Komponenten und Schritte erläutert. In the following, further details of various components and steps mentioned above will be explained.
HOA RotationHOA rotation
Die Drehung bzw. ein HOA Rotationsblock bewirkt eine Drehung einer HOA-Schallfeldrepräsentation (HOA-Schallfelddarstellung), die invers zur Drehung des Kopfes eines Zuhörers ist. Im Prinzip kann die gedrehte HOA-Schallfelddarstellung
Einstufiges binaurales Rendering von HOA-Signalen im SH-BereichOne-stage binaural rendering of HOA signals in the SH domain
Normalerweise werden (Fernfeld-) HRIRs für eine gewisse Anzahl Q von verschiedenen Einfallsrichtungen Ωq (q = 1,...,Q) jeweils für das linke und das rechte Ohr gemessen. Daher können sie als zwei Sätze von Q Funktionen im Zeitbereich ausgedrückt werden, hL(t,Ωq) und hR(t,Ωq), wobei die Indizes „L“ und „R“ für das linke und das rechte Ohr stehen. Zur Vereinfachung werden diese Indizes im Folgenden weggelassen, da die Herleitung im Prinzip für beide Ohren gleich ist und implizit angenommen wird, dass für jedes Ohr die entsprechenden kopfbezogenen Impulsantworten (HRIRs) für die Berechnungen benutzt werden.Normally, (far-field) HRIRs are measured for a certain number Q of different directions of incidence Ω q (q = 1, ..., Q) for the left and the right ear, respectively. Therefore, they can be expressed as two sets of Q functions in the time domain, h L (t, Ω q ) and h R (t, Ω q ), with the "L" and "R" indices standing for the left and right ears , For simplicity, these indices are omitted below, as the derivation is basically the same for both ears and it is implicitly assumed that for each ear the corresponding head-related impulse responses (HRIRs) are used for the calculations.
Dies ist eine kontinuierliche sphärische Funktion und approximiert die HRIRs zu den gemessenen Richtungen, d.h.
Verfahren für diese Art von Approximationen werden z.B. in [14] beschrieben. Wenn die abgebrochenen SH-Repräsentation N-ter Ordnung der HRIRs vorliegen,
Wegen ihrer komplexen Struktur haben die Filter, die aus der SH-Repräsentation der HRIRs gewonnen werden, normalerweise eine endliche Impulsantwort (Finite Impulse Response, FIR), die typischerweise eine Länge von etwa 256 Taps bei einer Abtastrate von 48 kHz hat. Weiter hat eine SH-Repräsentation eine skalierbare Struktur, was bedeutet, dass eine Repräsentation N-ter Ordnung eine Untermenge einer Repräsentation (N+1)-ter Ordnung ist. Deswegen ist es sinnvoll, eine SH-Repräsentation h(
Weiterhin kann durch eine FFT-basierte Implementation die Effizienz der Verarbeitung für das binaurale Rendering von HOA-Signalen erhöht werden. Dabei liegen die Koeffizienten der Renderingfilter im Frequenzbereich vor. Dann werden die digitalen Audiosignale mittels FFT in den Frequenzbereich transformiert und mit den Renderingfiltern im Frequenzbereich mittels einer Multiplikation gefiltert. Deren Ausgangssignale werden jeweils aufsummiert und mittels inverser FFT in den Zeitbereich transformiert. Eine Reduktion von Rechenkapazität ergibt sich daraus, dass wegen der Aufsummierung der Filterergebnisse im FFT-Bereich nur eine einzige inverse FFT pro binauralem Signal (d.h. pro Seite) benötigt wird.Furthermore, through an FFT-based implementation, the processing efficiency for the binaural rendering of HOA signals can be increased. The coefficients of the rendering filters are in the frequency domain. Then the digital audio signals are transformed by means of FFT into the frequency domain and filtered with the rendering filters in the frequency domain by means of a multiplication. Their output signals are each summed up and transformed into the time domain by means of inverse FFT. A reduction in computational capacity results from the fact that only one single inverse FFT is required per binaural signal (i.e., per page) due to the summation of FFT filter results.
Equalizationfilter zur Veränderung der KlangfarbeEqualization filter to change the timbre
Das Abbrechen der Koeffizientenreihe bei einer bestimmten Ordnung zur Berechnung der SH-Repräsentation hat den Effekt einer spektralen Tiefpassfilterung [8], [9]. Um diesen Effekt zu kompensieren, wird wie in [8], [9] eine einkanalige Nachfilterung jedes der beiden binauralen Signale durchgeführt. Zur Dimensionierung der Nachfilter wird allgemein angenommen, dass die HRIRs für eine große Anzahl von Richtungen vorliegen. Das erleichtert die Berechnung der bei einer Ordnung NH abgebrochenen SH-Repräsentation (wobei die Ordnung NH deutlich größer als die Ordnung
Diese Funktion gilt jedoch nur unter der Annahme, dass das binaural wiederzugebende Schallfeld diffus ist. Da die Annahme eines diffusen Schallfeldes in der Praxis kaum vertretbar ist, wird erfindungsgemäß die Ordnung NH nicht auf einen möglichst großen Wert gesetzt, weil dies im Allgemeinen zu einer übermäßigen Verstärkung hoher Frequenzen führt. Stattdessen wird ein geringerer Wert für die höhere Ordnung NH gewählt, der auch von der Ordnung
Außerdem können die Equalizationfilter auch als Filter mit unendlicher Impulsantwort (infinite impulse response, IIR) und daher effizient implementiert werden. Wenn ein individueller Equalizationfilter (Nachfilter) für jedes der vorläufigen binauralen Signale angewandt wird, müssen zwei verschiedene IIR-Filter mit unterschiedlichen Frequenzgängen entworfen werden, die im Allgemeinen auch verschiedene Phasengänge haben. Dies kann jedoch zu einer Beeinträchtigung der binauralen Merkmale (binaural cues) führen und damit die binaurale Wiedergabe stören oder verschlechtern. Daher werden in einer Ausführungsform der Erfindung zwei gleichartige IIR-Equalizationfilter als Nachfilter eingesetzt. Diese können z.B. eine Übertragungsfunktion haben, die durch Mittelung der beiden seitenabhängigen Übertragungsfunktionen erhalten wird.In addition, the equalization filters can also be implemented as infinite impulse response (IIR) filters and therefore efficiently. If an individual equalization filter (postfilter) is used for each of the preliminary binaural signals, two different IIR filters with different frequency responses must be designed, which generally have different phase responses. However, this can lead to an impairment of the binaural features (binaural cues) and thus disrupt or worsen the binaural reproduction. Therefore, in one embodiment of the invention, two similar IIR equalization filters are used as post filters. These may e.g. have a transfer function obtained by averaging the two page-dependent transfer functions.
Eine Berechnung der Equalizationfilter
HOA Grundlagen und NomenklaturHOA basics and nomenclature
Das Ambisonicsformat höherer Ordnung (Higher Order Ambisonics, HOA) basiert auf einer Schallfeldbeschreibung innerhalb eines gegebenen Raumes, der als frei von Schallquellen angenommen wird (also z.B. der Raum zwischen mehreren Schallquellen). In dem Fall ist das räumlich-zeitliche Verhalten des Schalldrucks p(t,x) zur Zeit t und an einer Position
Allgemein kann der Schalldruck einer ebenen Welle (GPW) an irgendeiner Position x nur mit Kenntnis der Einfallsrichtung
Der Positionsindex des HOA--Koeffizientensignals
Eine beispielhafte Definition einer reellwertigen Sphärisch-Harmonischen Funktion
Die Erfindung lässt sich vorteilhaft für Audiowiedergabesysteme oder deren Komponenten einsetzen, insbesondere für binaurale Wiedergabe. Diese erfolgt am besten über Kopfhörer oder Ohrhörer.The invention can be used advantageously for audio reproduction systems or their components, in particular for binaural reproduction. This is best done via headphones or earphones.
Referenzenreferences
-
[1]
J.R. Driscoll and D.M. Healy. Computing Fourier Transforms and Convolutions on the 2-Sphere. Advances in Applied Mathematics, 15(2):202 - 250, 1994 JR Driscoll and DM Healy. Computing Fourier Transforms and Convolution on the 2-Sphere. Advances in Applied Mathematics, 15 (2): 202-250, 1994 -
[2]
R.Duraiswami, E.Grassi, N.A. Gumerov, Z.Li, D.N. Zotkin, and L.S. Davis. High Order Spatial Audio Capture and Its Binaural Head-Tracked Playback Over Headphones with HRTF Cues. In Audio Engineering Society Convention 119, Oct 2005 R.Duraiswami, E.Grassi, NA Gumerov, Z.Li, DN Zotkin, and LS Davis. High Order Spatial Audio Capture and Its Binaural Head-Tracked Playback Over Headphones with HRTF Cues. In Audio Engineering Society Convention 119, Oct 2005 -
[3]
G. Enzner, M. Weinert, S. Abeling, J. M. Batke, and P. Jax. Advanced system options for binaural rendering of Ambisonic format. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 251-255, May 2013 G. Enzner, M. Weinert, S. Abeling, JM Batke, and P. Jax. Advanced system options for binaural rendering of Ambisonic format. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 251-255, May 2013 -
[4]
Z. Gimbutas and L. Greengard. A fast and stable method for rotating spherical harmonic expansions. Journal of Computational Physics, 228(16):5621 - 5627, 2009 Z. Gimbutas and L. Greengard. A fast and stable method for rotating spherical harmonic expansion. Journal of Computational Physics, 228 (16): 5621-5627, 2009 -
[5]
Adam McKeag and David McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Preprint of the Audio Engineering Society for the 6th Australian Regional Convention, (4302), 1996 Adam McKeag and David McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Preprint of the Audio Engineering Society for the 6th Australian Regional Convention, (4302), 1996 -
[6]
J. Meyer and G. Elko. A highly scalable spherical microphone array based on an orthonormal decomposition of the soundfield. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages 1781-1784, May 2002 J. Meyer and G. Elko. A highly scalable spherical microphone array based on orthonormal decomposition of the soundfield. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages 1781-1784, May 2002 -
[7]
B. Rafaely. Fundamentals of Spherical Array Processing. Springer, Berlin, 2015 B. Rafaely. Fundamentals of Spherical Array Processing. Springer, Berlin, 2015 -
[8]
J. Sheaffer and B. Rafaely. Equalization strategies for binaural room impulse response rendering using spherical arrays. In 2014 IEEE 28th Convention of Electrical Electronics Engineers in Israel (IEEEI), pages 1-5, Dec 2014 J. Sheaffer and B. Rafaely. Equalization strategies for binaural room impulse response rendering using spherical arrays. In 2014, IEEE 28th Convention of Electrical Electronics Engineers in Israel (IEEEI), pages 1-5, Dec 2014 -
[9]
J.Sheaffer, S.Villeval, B.Rafaely. Rendering Binaural Room Impulse Responses from Spherical Microphone Array Recordings Using Timbre Correction. In Proc. of the EAA Joint Symposium on Auralization and Ambisonics, pages 81-85, Berlin, 2014 J.Sheaffer, S.Villeval, B.Rafaely. Rendering Binaural Room Impulse Responses from Spherical Microphone Array Recordings Using Timbre Correction. In Proc. of the EAA Joint Symposium on Auralization and Ambisonics, pages 81-85, Berlin, 2014 -
[10]
E. M. Wenzel. What Perception Implies About Implementation of Interactive Virtual Acoustic Environments. In Audio Engineering Society Convention 101, Nov 1996 EM Wenceslas. What Perception Implies About Implementation of Interactive Virtual Acoustic Environments. In Audio Engineering Society Convention 101, Nov 1996 -
[11]
Earl G. Williams. Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography. Academic Press, 1 edition, June 1999 Earl G. Williams. Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography. Academic Press, 1 edition, June 1999 -
[12]
D. N. Zotkin, R. Duraiswami, and L. S. Davis. Creation of virtual auditory spaces. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages II-2113-II-2116, May 2002 DN Zotkin, R. Duraiswami, and LS Davis. Creation of virtual auditory spaces. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, Volume 2, pages II-2113-II-2116, May 2002 -
[13]
D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Sound field decomposition using spherical microphone arrays. In 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 277-280, March 2008 DN Zotkin, R. Duraisvami, and NA Gumerov. Sound field decomposition using spherical microphone arrays. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 277-280, March 2008 -
[14]
D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Regularized HRTF fitting using spherical harmonics. In 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 257-260, Oct 2009 DN Zotkin, R. Duraisvami, and NA Gumerov. Regularized HRTF fitting using spherical harmonics. In 2009 IEEE Workshop on Signal Processing to Audio and Acoustics, pages 257-260, Oct 2009
Claims (15)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017102988.5A DE102017102988B4 (en) | 2017-02-15 | 2017-02-15 | Method and device for processing a digital audio signal for binaural reproduction |
PCT/EP2018/053388 WO2018149774A1 (en) | 2017-02-15 | 2018-02-12 | Method and device for processing a digital audio signal for binaural reproduction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017102988.5A DE102017102988B4 (en) | 2017-02-15 | 2017-02-15 | Method and device for processing a digital audio signal for binaural reproduction |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102017102988A1 DE102017102988A1 (en) | 2018-08-16 |
DE102017102988B4 true DE102017102988B4 (en) | 2018-12-20 |
Family
ID=61198858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102017102988.5A Active DE102017102988B4 (en) | 2017-02-15 | 2017-02-15 | Method and device for processing a digital audio signal for binaural reproduction |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102017102988B4 (en) |
WO (1) | WO2018149774A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019101362A1 (en) * | 2019-01-21 | 2020-07-23 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Aircraft |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK180449B1 (en) | 2019-10-05 | 2021-04-29 | Idun Aps | A method and system for real-time implementation of head-related transfer functions |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140355794A1 (en) * | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Binaural rendering of spherical harmonic coefficients |
EP3048814A1 (en) * | 2013-09-17 | 2016-07-27 | Wilus Institute of Standards and Technology Inc. | Method and device for audio signal processing |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006126161A2 (en) * | 2005-05-26 | 2006-11-30 | Bang & Olufsen A/S | Recording, synthesis and reproduction of sound fields in an enclosure |
US9767618B2 (en) * | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
-
2017
- 2017-02-15 DE DE102017102988.5A patent/DE102017102988B4/en active Active
-
2018
- 2018-02-12 WO PCT/EP2018/053388 patent/WO2018149774A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140355794A1 (en) * | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Binaural rendering of spherical harmonic coefficients |
EP3048814A1 (en) * | 2013-09-17 | 2016-07-27 | Wilus Institute of Standards and Technology Inc. | Method and device for audio signal processing |
Non-Patent Citations (14)
Title |
---|
Adam McKeag and David McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Preprint of the Audio Engineering Society for the 6th Australian Regional Convention, (4302), 1996 |
B. Rafaely. Fundamentals of Spherical Array Processing. Springer, Berlin, 2015 |
D. N. Zotkin, R. Duraiswami, and L. S. Davis. Creation of virtual auditory spaces. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages II-2113-II-2116, May 2002 |
D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Regularized HRTF fitting using spherical harmonics. In 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 257-260, Oct 2009 |
D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Sound field decomposition using spherical microphone arrays. In 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 277-280, March 2008 |
E. M. Wenzel. What Perception Implies About Implementation of Interactive Virtual Acoustic Environments. In Audio Engineering Society Convention 101, Nov 1996 |
Earl G. Williams. Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography. Academic Press, 1 edition, June 1999 |
G. Enzner, M. Weinert, S. Abeling, J. M. Batke, and P. Jax. Advanced system options for binaural rendering of Ambisonic format. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 251-255, May 2013 |
J. Meyer and G. Elko. A highly scalable spherical microphone array based on an orthonormal decomposition of the soundfield. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages 1781-1784, May 2002 |
J. Sheaffer and B. Rafaely. Equalization strategies for binaural room impulse response rendering using spherical arrays. In 2014 IEEE 28th Convention of Electrical Electronics Engineers in Israel (IEEEI), pages 1-5, Dec 2014 |
J.R. Driscoll and D.M. Healy. Computing Fourier Transforms and Convolutions on the 2-Sphere. Advances in Applied Mathematics, 15(2):202 - 250, 1994 |
J.Sheaffer, S.Villeval, B.Rafaely. Rendering Binaural Room Impulse Responses from Spherical Microphone Array Recordings Using Timbre Correction. In Proc. of the EAA Joint Symposium on Auralization and Ambisonics, pages 81-85, Berlin, 2014 |
R.Duraiswami, E.Grassi, N.A. Gumerov, Z.Li, D.N. Zotkin, and L.S. Davis. High Order Spatial Audio Capture and Its Binaural Head-Tracked Playback Over Headphones with HRTF Cues. In Audio Engineering Society Convention 119, Oct 2005 |
Z. Gimbutas and L. Greengard. A fast and stable method for rotating spherical harmonic expansions. Journal of Computational Physics, 228(16):5621 - 5627, 2009 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019101362A1 (en) * | 2019-01-21 | 2020-07-23 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Aircraft |
Also Published As
Publication number | Publication date |
---|---|
DE102017102988A1 (en) | 2018-08-16 |
WO2018149774A1 (en) | 2018-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69132085T2 (en) | COMPENSATION FILTER | |
DE69433258T2 (en) | Surround sound signal processing device | |
DE69525163T2 (en) | SOUND RECORDING AND PLAYBACK SYSTEMS | |
EP2486561B1 (en) | Reconstruction of a recorded sound field | |
DE60304358T2 (en) | METHOD FOR PROCESSING AUDIO FILES AND DETECTION DEVICE FOR THE APPLICATION THEREOF | |
DE602005005186T2 (en) | METHOD AND SYSTEM FOR SOUND SOUND SEPARATION | |
EP3069530B1 (en) | Method and device for compressing and decompressing sound field data of an area | |
EP0905933A2 (en) | Method and system for mixing audio signals | |
EP2891334B1 (en) | Producing a multichannel sound from stereo audio signals | |
DE69232327T2 (en) | A sound reproduction | |
CN109699200B (en) | Variable acoustic speaker | |
EP2189010A1 (en) | Apparatus and method for determining a component signal with great accuracy | |
EP3044972B1 (en) | Device and method for the decorrelation of loudspeaker signals | |
KR102660704B1 (en) | Spectrally orthogonal audio component processing | |
DE102010026884B4 (en) | Method for operating a hearing device with two-stage transformation | |
EP2930953A1 (en) | Sound wave field generation | |
JP7008862B2 (en) | Subband spatial processing and crosstalk cancellation system for conferences | |
EP2754151B1 (en) | Device, method and electro-acoustic system for prolonging a reverberation period | |
DE102017102988B4 (en) | Method and device for processing a digital audio signal for binaural reproduction | |
EP1471770B1 (en) | Method for generating an approximated partial transfer function | |
Hahn et al. | Cylindrical radial filter design with application to local wave field synthesis | |
DE112006002548T5 (en) | Apparatus and method for playing two-channel virtual sound | |
EP0156334B1 (en) | Method and device for simulating (electronic artificial head) the free-field transmission characteristics of the ear | |
WO2012016992A2 (en) | Device and method for evaluating and optimizing signals on the basis of algebraic invariants | |
AT523644B1 (en) | Method for generating a conversion filter for converting a multidimensional output audio signal into a two-dimensional auditory audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final | ||
R081 | Change of applicant/patentee |
Owner name: SENNHEISER ELECTRONIC SE & CO. KG, DE Free format text: FORMER OWNER: SENNHEISER ELECTRONIC GMBH & CO. KG, 30900 WEDEMARK, DE |