Nothing Special   »   [go: up one dir, main page]

DE102017102988B4 - Method and device for processing a digital audio signal for binaural reproduction - Google Patents

Method and device for processing a digital audio signal for binaural reproduction Download PDF

Info

Publication number
DE102017102988B4
DE102017102988B4 DE102017102988.5A DE102017102988A DE102017102988B4 DE 102017102988 B4 DE102017102988 B4 DE 102017102988B4 DE 102017102988 A DE102017102988 A DE 102017102988A DE 102017102988 B4 DE102017102988 B4 DE 102017102988B4
Authority
DE
Germany
Prior art keywords
order
filters
sound field
rendering
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102017102988.5A
Other languages
German (de)
Other versions
DE102017102988A1 (en
Inventor
Alexander Krüger
Eugen Rasumow
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sennheiser Electronic Se & Co Kg De
Original Assignee
Sennheiser Electronic GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sennheiser Electronic GmbH and Co KG filed Critical Sennheiser Electronic GmbH and Co KG
Priority to DE102017102988.5A priority Critical patent/DE102017102988B4/en
Priority to PCT/EP2018/053388 priority patent/WO2018149774A1/en
Publication of DE102017102988A1 publication Critical patent/DE102017102988A1/en
Application granted granted Critical
Publication of DE102017102988B4 publication Critical patent/DE102017102988B4/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Verfahren zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im Higher Order Ambisonics HOA-Format einer Ordnung N vorliegt, wobei ein linkes Ausgangssignal und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden, mit den Schritten:Drehen (110) der 3D-Schallfeldbeschreibung des digitalen Audiosignals im Higher Order Ambisonics HOA-Format gemäß einem Rotationssteuersignal, das von einem Headtracker erhalten werden kann,Filtern (120) der gedrehten 3D-Schallfeldbeschreibung des digitalen Audiosignals mit (N + 1)ersten Renderingfiltern (21L) gemäß ersten kopfbezogenen Impulsantworten (HRIRs) für einen Links-Kanal und (N + 1)zweiten Renderingfiltern (21R) gemäß zweiten kopfbezogenen Impulsantworten (HRIRs) für einen Rechts-Kanal, wobei die Renderingfilter einer Approximation der ersten und zweiten kopfbezogenen Impulsantworten durch Kugelfunktionen entsprechen und die Approximation auf die Ordnung N begrenzt ist, wobei die Kugelfunktionen dieselben wie im Higher Order Ambisonics HOA-Format der Schallfeldbeschreibung sind,Aufsummieren (130) der Ausgangssignale der ersten Renderingfilter (21L) zu einem Zwischensignal für den Links-Kanal, und Aufsummieren (130) der Ausgangssignale der zweiten Renderingfilter (21R) zu einem Zwischensignal für den Rechts-Kanal,Filtern (140) des Zwischensignals für den Links-Kanal mit einem ersten Equalizationfilter (30L) zur Veränderung der Klangfarbe, wobei der erste Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das linke Ausgangssignal (40L) für binaurale Wiedergabe entsteht, undFiltern (150) des Zwischensignals für den Rechts-Kanal mit einem zweiten Equalizationfilter zur Veränderung der Klangfarbe, wobei der zweite Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das rechte Ausgangssignal (40R) für binaurale Wiedergabe entsteht.A method of processing a digital audio signal presented as a 3D sound field description in Higher Order Ambisonics HOA format of order N, producing a left output signal and a right output signal for binaural reproduction via headphones, comprising the steps of: rotating (110) the 3D sound field description of the digital audio signal in Higher Order Ambisonics HOA format according to a rotation control signal obtainable from a head tracker, filtering (120) the rotated 3D sound field description of the digital audio signal with (N + 1) first rendering filters (21L) according to the first one head-related impulse responses (HRIRs) for a left-channel and (N + 1) second rendering filters (21R) according to second head-related impulse responses (HRIRs) for a right channel, the rendering filters corresponding to an approximation of the first and second head-related impulse responses by spherical functions, and the Approximation is limited to the order N, w wherein the spherical functions are the same as in the Higher Order Ambisonics HOA format of the sound field description, summing (130) the outputs of the first rendering filters (21L) to an intermediate signal for the left channel, and summing (130) the outputs of the second rendering filters (21R) to an intermediate signal for the right channel, filtering (140) the intermediate signal for the left channel with a first equalization filter (30L) for changing the timbre, wherein the first equalization filter is automatically adjusted according to the order N, and wherein the left output signal ( 40L) for binaural reproduction, and filtering (150) the right channel intermediate signal with a second equalization filter to alter the timbre, the second equalization filter being automatically adjusted according to the N order, and the right output signal (40R) for binaural reproduction arises.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung vorliegt, zu einem für binaurale Wiedergabe über Kopfhörer geeigneten Ausgangssignal.The invention relates to a method and a device for processing a digital audio signal, which is present as a 3D sound field description, to a suitable for binaural playback via headphones output signal.

Hintergrundbackground

Higher Order Ambisonics (HOA) ist ein Ansatz zur Darstellung physikalischer Schalldruckfelder im Raum. Die zugrundeliegende Idee ist, dass jedes 3-dimensionale Schallfeld, das frei von Schallquellen ist, durch Überlagerung ebener Wellen aus allen möglichen Einfallsrichtungen dargestellt werden kann [7, Kap.2.4], [11, Kap.7.3.3], ähnlich dem Prinzip der Darstellung von konventionellen Audiosignalen durch Überlagerung von Sinuswellen verschiedener Frequenzen. Insbesondere können die Beiträge jeder einzelnen ebenen Welle zum Schalldruckfeld an einer bestimmten Position im Raum durch eine auf der Oberfläche einer Einheitskugel definierte Funktion ausgedrückt werden, da jede Einfallsrichtung mathematisch eindeutig einer bestimmten Position auf der Einheitskugel zugeordnet werden kann. Mit HOA wird diese Funktion approximiert als abgebrochene Reihe sphärischer Basisfunktionen, den sogenannten Sphärisch-Harmonischen (SH). Die eigentlichen HOA (Koeffizienten-) Signale sind die zeitlichen Sequenzen der Gewichtungen von einzelnen sphärisch-harmonischen Funktionen. Die Stelle, an der die SH-Reihe abgebrochen wird, wird durch die sogenannte Ordnung N des HOA-Signals ausgedrückt, die die Anzahl der HOA-Signale zu (N+1)2 bestimmt und dadurch die räumliche Auflösung der Schallfelddarstellung definiert. Allgemein können einzelne direktionale Beiträge zum Schallfeld um so besser aufgelöst werden, je höher die Ordnung N ist.Higher Order Ambisonics (HOA) is an approach to represent physical sound pressure fields in space. The underlying idea is that any 3-dimensional sound field that is free of sound sources can be represented by superimposing plane waves from all possible directions of incidence [7, Chap.2.4], [11, Chap.7.3.3], similar to the principle the representation of conventional audio signals by superimposing sine waves of different frequencies. In particular, the contributions of each individual plane wave to the sound pressure field at a specific position in space can be expressed by a function defined on the surface of a unit sphere, since each direction of incidence can be mathematically unambiguously assigned to a specific position on the unit sphere. With HOA this function is approximated as a broken series of spherical basis functions, the so-called spherical harmonics (SH). The actual HOA (coefficient) signals are the time sequences of the weights of individual spherical-harmonic functions. The point at which the SH series is broken off, is the so-called order N of the HOA signal, which determines the number of HOA signals to be (N + 1) 2, thereby defining the spatial resolution of the sound field representation. In general, individual directional contributions to the sound field can be resolved the better, the higher the order N is.

In der Praxis können HOA Schallfeld-Repräsentationen entweder künstlich erzeugt oder mit Hilfe eines Mikrofonarrays (siehe z.B. [13], [6]) aufgenommen werden. Im zweiten Fall hängt die sinnvollerweise gewählte Ordnung von der Anzahl der Mikrofone ab. Bei den zur Zeit kommerziell erhältlichen am höchsten entwickelten spärischen Arrays, wie dem Eigenmike von mhacoustics mit 32 Mikrofonkapseln oder der audio-visuellen Kamera vom VisiSonics mit 64 Mikrofonkapseln, ist die Ordnung nicht höher als N=7, oft deutlich niedriger.In practice, HOA sound field representations can either be artificially generated or acquired using a microphone array (see, e.g., [13], [6]). In the second case, the meaningfully chosen order depends on the number of microphones. In the currently most commercially available spherical arrays, such as mhacoustics' own mike with 32 microphone capsules or the visiSonics audio-visual camera with 64 microphone capsules, the order is not higher than N = 7, often much lower.

Die Wiedergabe von HOA Schallfeld-Repräsentationen über Kopfhörer erfordert eine spezielle Signalverarbeitung, die binaurales Rendering genannt wird. Dabei wird typischerweise die Tatsache berücksichtigt, dass das menschliche Gehör in der Lage ist, die 3-dimensionale Position individueller Schallquellen durch sogenannte binaurale Merkmale (binaural cues) zu lokalisieren. Zu diesen gehören Unterschiede bezüglich der Intensität und der spektralen Zusammensetzung, sowie dem zeitlichen Versatz zwischen den Schalldrucksignalen an den beiden Trommelfellen. Diese Merkmale rühren von der Streuung her, die entsteht, wenn Schallwellen auf den menschlichen Körper, insbesondere die Ohrmuschel, den Kopf und Rumpf treffen. Diese Streuung wird durch sogenannte Kopfbezogene Impulsantworten („Head Related Impulse Responses“, HRIRs) modelliert, die üblicherweise individuell deutlich variieren.The playback of HOA sound field representations via headphones requires special signal processing called binaural rendering. This typically takes into account the fact that the human ear is able to locate the 3-dimensional position of individual sound sources by so-called binaural cues. These include differences in intensity and spectral composition, as well as the temporal offset between the sound pressure signals on the two eardrums. These features are due to the scattering that occurs when sound waves strike the human body, especially the pinna, head and trunk. This scattering is modeled by so-called head-related impulse responses (HRIRs), which usually vary significantly individually.

Ein durch HOA repräsentiertes Schallfeld enthält per Definition keine Information über eine durch den Körper des Zuhörers hervorgerufene Streuung. Daher muss diese Information beim binauralen Rendering künstlich synthetisiert werden. Um ein maximales Präsenzgefühl in einer virtuellen akustischen Umgebung zu erreichen, müssen die binauralen Merkmale konsistent sein mit Kopfbewegungen des Zuhörers. Ein Headtracker kann daher benutzt werden, um die betreffende Information zur Adaption des Renderingprozesses zu erhalten. Ein weiterer Vorteil von Headtrackern in diesem Zusammenhang ist, dass sie helfen, die Fähigkeit zur Lokalisation von Schallquellen zu verbessern, indem sie inhärent kleine unbewusste Kopfbewegungen erfassen [2, Kap.3].A sound field represented by HOA by definition contains no information about a scattering caused by the body of the listener. Therefore, this information must be artificially synthesized in binaural rendering. To achieve maximum presence in a virtual acoustic environment, the binaural features must be consistent with the listener's head movements. A head tracker can therefore be used to obtain the relevant information for adapting the rendering process. Another advantage of head trackers in this regard is that they help to improve the ability to localize sound sources by inherently detecting small unconscious head movements [2, Chap.3].

Zum binauralen Rendern von Ambisonics Schallfeld-Repräsentationen erster Ordnung bemerken z.B. die Autoren in [3], dass im Prinzip nur ein einzelner linearer Filter pro individuellem Ambisonicssignal und Ohr erforderlich ist (siehe [3, Kap.4]), was zu insgesamt 2·(1+1)2 = 8 linearen Filtern für eine Ambisonics Schallfeld-Repräsentation erster Ordnung führt. Insbesondere schlagen die Autoren einen zweistufigen binauralen Renderingprozess vor, um die Filter zu bestimmen [3, Kap.6.1], wobei die erste Stufe die Ambisonics Schallfeld-Repräsentation für eine Gruppe virtueller Lautsprechersignale rendert, welche in der zweiten Stufe mit den jeweiligen HRIRs für das linke und das rechte Ohr gefiltert werden. Eine wesentliche Annahme in diesem Zusammenhang ist, dass die Richtungen der HRIRs mit den Richtungen der virtuellen Lautsprechersignale übereinstimmen.For the binaural rendering of Ambisonics first-order sound field representations, for example, the authors note in [3] that, in principle, only a single linear filter per individual ambisonic signal and ear is required (see [3, chap.4]), resulting in a total of 2 (1 + 1) 2 = 8 linear filters for an Ambisonics first-order sound field representation. Specifically, the authors propose a two-stage binaural rendering process to determine the filters [3, Chap. 6.1], where the first stage renders the Ambisonics sound field representation for a group of virtual loudspeaker signals which in the second stage match the respective HRIRs for the left and right ear are filtered. An essential assumption in this connection is that the directions of the HRIRs coincide with the directions of the virtual loudspeaker signals.

Zur Adaption des binauralen Rendering an eine Kopfrotation des Zuhörers nutzen die Autoren die Tatsache, dass es keinen Unterschied gibt zwischen einer Rotation des Zuhörerkopfes und der inversen Rotation des Schallfeldes. Daher werden dort nicht die Lautsprecher rotiert, so dass Unterschiede zwischen den Richtungen der rotierten Lautsprecher und den gegebenen Richtungen der HRIRs vermieden werden. Stattdessen wird das Schallfeld direkt im Ambisonicsbereich (domain) rotiert, was sich durch Anwendung quadratischer Rotationsmatrizen der Dimension 4 auf die Ambisonicssignale erreichen lässt [4, Kap.2], [5]. Dieselbe Technik wird für HOA Schallfeldrepräsentationen beliebiger Ordnungen N in [3] angewandt, während die alternative Strategie der Drehung der virtuellen Lautsprecher z.B. in [7, Kap.2], [8, Kap.3.6], [9] und [10, Kap.3.5] benutzt wird. Dabei müssen die HRIRs zur Evaluierung an den Richtungen dergedrehten virtuellen Lautsprecherpositionen aufwändig interpoliert werden.To adapt the binaural rendering to a head rotation of the listener, the authors use the fact that there is no difference between a rotation of the listener's head and inverse rotation of the sound field. Therefore, the speakers are not rotated there, so that differences between the directions of the rotated speakers and the given directions of the HRIRs are avoided. Instead, the sound field is rotated directly in the ambisonics area (domain), resulting in the use of quadratic rotation matrices of dimension 4 to the ambisonic signals [4, Chap. 2], [5]. The same technique is used for HOA sound field representations of arbitrary orders N in [3], while the alternative strategy of turning the virtual loudspeakers is used eg in [7, ch. 2], [8, ch.3.6], [9] and [10, ch.3.5]. In doing so, the HRIRs for evaluation have to be elaborately interpolated at the directions of the rotated virtual loudspeaker positions.

Im Gegensatz dazu wird in [11] eine einstufiges binaurales Rendering für HOA Schallfeldrepräsentationen angeregt, welches das Konzept der virtuellen Lautsprecher vermeidet, indem es direkt im SH-Bereich arbeitet. Dafür wird die Richtungsabhängigkeit der HRIRs durch eine Reihe von Sphärisch-Harmonischen approximiert, die dann bei derselben Ordnung N wie die wiederzugebende HOA-Schallfeldrepräsentation abgebrochen wird. Das Abbrechen der Reihe führt nicht nur zu einer Limitierung der räumlichen Auflösung, sondern auch zu einer starken Dämpfung hoher spektro-temporaler Frequenzen, was die Klangfarbe (timbre) des gerenderten binauralen Signals in Mitleidenschaft zieht. Um diese Klangfarbenveränderung zu kompensieren, schlagen die Autoren in [12], [13] eine nachgeschaltete Filterung jedes der gerenderten binauralen Signale vor, welche die hohen spektro-temporalen Frequenzen verstärkt.In contrast, in [11] a single-stage binaural rendering for HOA sound field representations is suggested, which avoids the concept of virtual speakers by working directly in the SH domain. For this, the directional dependence of the HRIRs is approximated by a series of spherical harmonics, which are then at the same order N how the HOA sound field representation to be reproduced is aborted. Canceling the series not only limits the spatial resolution, but also greatly attenuates high spectral-temporal frequencies, which affects the timbre of the rendered binaural signal. To compensate for this change in timbre, the authors suggest in [12], [13] a downstream filtering of each of the rendered binaural signals, which amplifies the high spectro-temporal frequencies.

Zusammenfassung der ErfindungSummary of the invention

Eine Aufgabe der vorliegenden Erfindung besteht in der Bereitstellung eines Verfahrens und einer Vorrichtung zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im HOA-Format einer Ordnung N vorliegt, wobei ein linkes und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden.It is an object of the present invention to provide a method and apparatus for processing a digital audio signal that is a 3D sound field description in HOA format N present, wherein a left and a right output signal for a binaural reproduction are generated via headphones.

Ein erfindungsgemäßes Verfahren ist in Anspruch 1 angegeben. Eine erfindungsgemäße Vorrichtung ist in Anspruch 11 angegeben. Eine andere erfindungsgemäße Vorrichtung ist in Anspruch 15 angegeben.A method according to the invention is specified in claim 1. A device according to the invention is specified in claim 11. Another device according to the invention is specified in claim 15.

Ein solches erfindungsgemäßes Verfahren beinhaltet eine Drehung der 3D-Schallfeldbeschreibung des digitalen Audiosignals im HOA-Format gemäß einem Richtungssteuersignal, eine Filterung der gedrehten 3D-Schallfeldbeschreibung mit Renderingfiltern gemäß kopfbezogenen Impulsantworten (head-related impulse response, HRIR) für einen Links-Kanal und einen Rechts-Kanal, eine Summation der Ausgangssignale der Renderingfilter zu Zwischensignalen jeweils für den Links-Kanal und den Rechts-Kanal, und eine Korrektur der Zwischensignale mit jeweils einem Equalizationfilter zur Veränderung der Klangfarbe, wobei die beiden Equalizationfilter automatisch entsprechend der Ordnung N angepasst werden. Dabei entstehen das linke und das rechte Ausgangssignal für die binaurale Wiedergabe.Such a method according to the invention includes a rotation of the 3D sound field description of the digital audio signal in HOA format according to a direction control signal, filtering the rotated 3D sound field description with head-related impulse response (HRIR) rendering filters for a left channel and a Right channel, a summation of the output signals of the rendering filters to intermediate signals respectively for the left channel and the right channel, and a correction of the intermediate signals, each with an equalization filter to change the timbre, the two equalization filters automatically corresponding to the order N be adjusted. This produces the left and the right output signal for the binaural reproduction.

Eine erfindungsgemäße Vorrichtung zur Verarbeitung eines digitalen Audiosignales hat in einer Ausführungsform mindestens einen Prozessor und einen Speicher, wobei der Speicher ein Programm speichert, das den Prozessor dafür konfiguriert, ein Verfahren wie oben beschrieben durchzuführen.In one embodiment, an apparatus for processing a digital audio signal according to the invention has at least one processor and memory, the memory storing a program that configures the processor to perform a method as described above.

Weitere vorteilhafte Ausführungsformen werden in den abhängigen Ansprüchen 2-10 beschrieben.Further advantageous embodiments are described in the dependent claims 2-10.

Figurenlistelist of figures

Weitere Einzelheiten und vorteilhafte Ausführungsformen sind in den Zeichnungen dargestellt. Darin zeigt

  • 1 einen Überblick über die Verarbeitung eines digitalen Audiosignales im HOA-Format;
  • 2 ein vereinfachtes Flussdiagram eines Verfahrens;
  • 3 das Prinzip der Dimensionierung der Renderingfilter;
  • 4 exemplarische Frequenzgänge der Equalizationfilter und ihrer normierten Eingangssignale; und
  • 5 eine skalierbare Filterstruktur der Equalizationfilter.
Further details and advantageous embodiments are shown in the drawings. It shows
  • 1 an overview of the processing of a digital audio signal in HOA format;
  • 2 a simplified flow diagram of a method;
  • 3 the principle of sizing the rendering filters;
  • 4 exemplary frequency responses of the equalization filters and their normalized input signals; and
  • 5 a scalable filter structure of the equalization filter.

Detaillierte Beschreibung der ErfindungDetailed description of the invention

1 zeigt einen Überblick über die erfindungsgemäße Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im High Order Ambisonics HOA-Format einer Ordnung N vorliegt, wobei ein linkes Ausgangssignal und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden. 1 shows an overview of the inventive processing of a digital audio signal, the 3D sound field description in the High Order Ambisonics HOA format of an order N is present, with a left output signal and a right output signal for a binaural reproduction can be generated via headphones.

Zunächst wird die 3D-Schallfeldbeschreibung des digitalen Audiosignals im HOA-Format c(N)(t) gemäß einem Rotationssteuersignal 16 gedreht 10. Dieses kann z.B. von einem Headtracker 15, einer Kamera o.ä. empfangen werden. Dabei erfolgt die Drehung 10 invers zur Drehung des Kopfes des Nutzers, so dass der Nutzer den Eindruck hat, dass das Schallfeld trotz Kopfbewegungen räumlich fest bleibt.First, the 3D sound field description of the digital audio signal in HOA format c (N) (t) according to a rotation control signal 16 turned 10 , This can eg by a head tracker 15 , a camera or similar be received. The rotation takes place 10 Inverse to the rotation of the user's head, so that the user has the impression that the sound field remains spatially fixed despite head movements.

Die gedrehte 3D-Schallfeldbeschreibung 12 des digitalen Audiosignals wird mit (N+1)2 ersten Renderingfiltern 21L gemäß ersten kopfbezogenen Impulsantworten (head-related impulse response, HRIR) für einen Links-Kanal gefiltert. Außerdem wird die gedrehte 3D-Schallfeldbeschreibung 12 des digitalen Audiosignals auch mit (N+1)2 zweiten Renderingfiltern 21R gemäß zweiten kopfbezogenen Impulsantworten (HRIRs) für einen Rechts-Kanal gefiltert. Die Renderingfilter 21L,21R erzeugen aus der Schallfeldbeschreibung 12 ein Wiedergabeformat, d.h. sie wandeln die Schallfeldbeschreibung in Audiokanäle um. Die Renderingfilter 21L,21R sind so dimensioniert, dass ihre Impulsantworten den zeitlichen Verlauf der Gewichte von Kugelfunktionen einer auf die Ordnung N begrenzten Reihendarstellung durch sphärisch-harmonische Funktionen der ersten und zweiten kopfbezogenen Impulsantworten (HRIRs) darstellen. Auf Grund der Approximation sind diese auf die Ordnung N begrenzt. Die Kugelfunktionen sind die gleichen, die auch im Format der Schallfeldbeschreibung benutzt werden, was die Berechnungen erleichtert.The rotated 3D sound field description 12 of the digital audio signal becomes (N + 1) 2 first rendering filters 21L according to first head-related impulse responses (HRIR) filtered for a left channel. In addition, the rotated 3D sound field description 12 of the digital audio signal also with (N + 1) 2 second rendering filters 21R filtered according to second head related impulse responses (HRIRs) for a right channel. The rendering filters 21L . 21R generate from the sound field description 12 a playback format, ie they convert the sound field description into audio channels. The rendering filters 21L . 21R are dimensioned so that their impulse responses the time course of the weights of spherical functions one on the order N represent limited series representation by spherical-harmonic functions of the first and second head-related impulse responses (HRIRs). Due to the approximation, these are on the order N limited. The spherical functions are the same as those used in the format of the sound field description, which facilitates the calculations.

Die Ausgangssignale der ersten Renderingfilter 21L werden zu einem Zwischensignal für den Links-Kanal aufsummiert 25L, und die Ausgangssignale der zweiten Renderingfilter 21R werden zu einem Zwischensignal für den Rechts-Kanal aufsummiert 25R.The output signals of the first rendering filter 21L are added up to an intermediate signal for the left channel 25L , and the output signals of the second rendering filter 21R are added up to an intermediate signal for the right channel 25R ,

Dann wird das Zwischensignal für den Links-Kanal mit einem ersten Equalizationfilter 30L zur Veränderung der Klangfarbe gefiltert, wobei der erste Equalizationfilter 30L automatisch entsprechend der Ordnung N angepasst wird. Dabei entsteht das linke Ausgangssignal 40L für die binaurale Wiedergabe. Ebenso wird das Zwischensignal für den Rechts-Kanal mit einem zweiten Equalizationfilter 30R zur Veränderung der Klangfarbe gefiltert, wobei der zweite Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das rechte Ausgangssignal 40R für die binaurale Wiedergabe entsteht. Die Ausgangssignale 40L,40R für binaurale Wiedergabe können optional ggf. verstärkt und zur Wiedergabe auf einen Kopfhörer 50 gegeben werden. An diesem kann z.B. ein Headtracker 15 befestigt sein, um Kopfbewegungen aufzunehmen und das oben genannte Rotationssteuersignal 16 zu liefern.Then the intermediate signal for the left channel with a first Equalisierungsfilter 30L Filtered to change the timbre, using the first equalization filter 30L automatically according to the order N is adjusted. This creates the left output signal 40L for binaural playback. Similarly, the intermediate signal for the right channel with a second Equalisierungsfilter 30R Filtered to change the timbre, with the second equalization filter automatically according to the order N is adjusted, and where the right output signal 40R for the binaural reproduction arises. The output signals 40L . 40R for binaural playback may optionally be amplified if necessary and for playback on a headphone 50 are given. At this example, a head tracker 15 be attached to receive head movements and the above-mentioned rotation control signal 16 to deliver.

In einer Ausführungsform wird ein Ordnungsparameter entsprechend der Ordnung N der 3D-Schallfeldbeschreibung eingestellt, aus einem Speicher ausgelesen oder anderweitig detektiert oder empfangen. Dieser Ordnungsparameter dient zur Konfiguration mindestens der Equalizationfilter 30L,30R und der ersten und zweiten Renderingfilter 21L,21R. Optional können auch andere Blöcke entsprechend dem Ordnungsparameter adaptiert werden.In one embodiment, an order parameter corresponding to the order N set the 3D sound field description, read from a memory or otherwise detected or received. This order parameter is used to configure at least the equalization filters 30L . 30R and the first and second rendering filters 21L . 21R , Optionally, other blocks can also be adapted according to the order parameter.

Optional können z.B. die ersten und zweiten Renderingfilter 21L,21R mit ersten und zweiten Addierern 25L,25R zum Aufsummieren ihrer jeweiligen Ausgangssignale zu einer ersten Verarbeitungseinheit 20 zusammengefasst werden, wie in 1 dargestellt. Die Verarbeitungseinheit 20 kann in anderen Varianten auch die Equalizationfilter 30L,30R und/oder eine Rotationseinheit 10 zur Drehung der 3D-Schallfeldbeschreibung des digitalen Audiosignals umfassen.Optionally, for example, the first and second rendering filters 21L . 21R with first and second adders 25L . 25R for summing their respective output signals to a first processing unit 20 be summarized as in 1 shown. The processing unit 20 can in other variants, the equalization filter 30L . 30R and / or a rotation unit 10 for rotating the 3D sound field description of the digital audio signal.

2 zeigt ein Flussdiagramm eines Verfahrens zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im HOA-Format einer Ordnung N vorliegt, wobei ein linkes und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden. Das Verfahren beinhaltet ein Drehen 110 der 3D-Schallfeldbeschreibung des digitalen Audiosignals im HOA-Format gemäß einem Rotationssteuersignal, eine Filterung 120 der gedrehten 3D-Schallfeldbeschreibung mit Renderingfiltern gemäß kopfbezogenen Impulsantworten (head-related impulse response, HRIR) für einen Links-Kanal und einen Rechts-Kanal, eine Summation 130 der Ausgangssignale der Renderingfilter zu Zwischensignalen jeweils für den Links-Kanal und den Rechts-Kanal, und eine Korrektur 140,150 der Zwischensignale mit jeweils einem Equalizationfilter zur Veränderung der Klangfarbe, wobei mindestens die Equalizationfilter und die Renderingfilter automatisch entsprechend der Ordnung N angepasst werden. Dabei entstehen das linke und das rechte Ausgangssignal 40L,40R für die binaurale Wiedergabe. 2 shows a flowchart of a method for processing a digital audio signal, the 3D sound field description in the HOA format of an order N present, wherein a left and a right output signal for a binaural reproduction are generated via headphones. The procedure involves turning 110 the 3D sound field description of the digital audio signal in HOA format according to a rotation control signal, a filtering 120 the rotated 3D sound field description with head-related impulse response (HRIR) rendering filters for a left channel and a right channel, a summation 130 the output signals of the rendering filters to intermediate signals respectively for the left channel and the right channel, and a correction 140 . 150 the intermediate signals, each with an equalization filter to change the timbre, with at least the Equalisierungsfilter and the rendering filter automatically according to the order N be adjusted. This produces the left and the right output signal 40L . 40R for binaural playback.

In einer Ausführungsform wird das Verfahren oder Teile davon als Programmcode implementiert, so dass es von einem mit dem Programmcode entsprechend konfigurierten Computer ausgeführt werden kann.In one embodiment, the method or portions thereof are implemented as program code so that it may be executed by a computer configured according to the program code.

Die Korrektur 140,150 der Zwischensignale mit jeweils einem Equalizationfilterfür die linke und rechte Seite erfolgt normalerweise gleichzeitig. Bei ausreichender Verarbeitungskapazität kann aber die Korrektur der beiden Zwischensignale auch nacheinander erfolgen, wenn mindestens das erste Ergebnis zwischengespeichert wird, so dass beide Ergebnisse gleichzeitig ausgegeben werden können. Dabei können dieselben, jeweils adaptierten Hardware-Filter bzw. Softwareroutinen für beide Kanäle benutzt werden. In diesem Fall können die beiden Kanäle (L,R) in beliebiger Reihenfolge verarbeitet werden. Entsprechendes gilt im Prinzip auch für die ersten und zweiten Renderingfilter 21L,21R. The correction 140 . 150 the intermediate signals, each with an equalization filter for the left and right sides, are normally taken simultaneously. With sufficient processing capacity, however, the correction of the two intermediate signals can also take place one after the other, if at least the first result is buffered, so that both results can be output simultaneously. The same, respectively adapted hardware filters or software routines can be used for both channels. In this case, the two channels (L, R) can be processed in any order. The same applies in principle also to the first and second rendering filters 21L . 21R ,

In einer Ausführungsform bewirkt oder approximiert die Anpassung des ersten und des zweiten Equalizationfilters 30L,30R eine Änderung der Klangfarbe entsprechend einer Erhöhung der Ordnung der 3D-Schallfeldbeschreibung sowie auch der Renderingfilter von der Ordnung N auf eine höhere Ordnung NH . Mit anderen Worten, die durch eine höhere Ordnung NH erreichbare Klangfarbe wird durch die Höhenanhebung modelliert, obwohl das Signal nur in der geringeren Ordnung N vorliegt und verarbeitet wird.In one embodiment, the adjustment of the first and second equalization filters effects or approximates 30L . 30R a change in timbre corresponding to an increase in the order of the 3D sound field description as well as the rendering filter of the order N to a higher order N H. In other words, the timbre attainable by a higher order N H is modeled by the elevation enhancement, though the signal is only in the lower order N is present and processed.

Die Equalizationfilter 30L,30R bewirken grundsätzlich eine Anhebung hoher Frequenzen. In einer Ausführungsform sind hohe Frequenzen solche Frequenzen im hörbaren Bereich, die durch die Approximation der ersten und zweiten kopfbezogenen Impulsantworten (HRIRs) für die Renderingfilter 21L,21R gedämpft werden. Dabei beinhaltet die Anpassung des ersten und des zweiten Equalizationfilters entsprechend der Ordnung N bzw. dem Ordnungsparameter, dass die Anhebung bei niedrigeren Ordnungen ausgeprägter ist als bei höheren Ordnungen N (bei konstantem NH). Vorzugsweise werden jedoch niedrigere Frequenzen von den Equalizationfilter 30L,30R nicht oder nur sehr wenig gedämpft.The Equalization filter 30L , 30R basically cause an increase in high frequencies. In one embodiment, high frequencies are those frequencies in the audible range obtained by the approximation of the first and second head related impulse responses (HRIRs) for the rendering filters 21L . 21R be steamed. Here, the adaptation of the first and the second Equalisierungsfilters according to the order includes N or the order parameter that the increase is more pronounced for lower orders than for higher orders N (at constant N H ). Preferably, however, lower frequencies are produced by the equalization filters 30L . 30R not or only very little steamed.

In einer Ausführungsform wird der Ordnungsparameter N automatisch entsprechend der 3D-Schallfeldbeschreibung des digitalen Audiosignals eingestellt und die Anzahl der ersten und zweiten Renderingfilter wird durch die Ordnung N bzw. den Ordnungsparameter modifiziert. Dabei wird bei einer Erhöhung der Ordnung N auch die Zahl der Filter erhöht, wobei die Filter der niedrigeren Ordnung weiter verwendet werden. Somit entsteht eine skalierbare Struktur, wie weiter unten anhand von 5 näher erläutert.In one embodiment, the order parameter becomes N is set automatically according to the 3D sound field description of the digital audio signal and the number of the first and second rendering filters is determined by the order N or the order parameter modified. It will increase the order N also increases the number of filters, with the lower order filters still being used. This creates a scalable structure, as explained below with reference to 5 explained in more detail.

Die Koeffzienten des ersten und des zweiten Equalizationfilters 30L,30R ergeben sich im Prinzip aus den Renderingfiltern, insbesondere aus einem Quotienten der Betragsspektren der Zwischensignale aus Renderingfiltern für eine höhere Ordnung NH und Betragsspektren der Zwischensignale aus Renderingfiltern für die tatsächliche Ordnung N, unter der Annahme eines diffusen Schallfeldes als Eingangssignal.The coefficients of the first and second equalization filters 30L . 30R result in principle from the rendering filters, in particular from a quotient of the magnitude spectra of the intermediate signals from rendering filters for a higher order N H and magnitude spectra of the intermediate signals from rendering filters for the actual order N , assuming a diffuse sound field as the input signal.

In einer Ausführungsform sind der erste und der zweite Equalizationfilter 30L,30R Infinite-Impulse-Response(IIR)-Filter, und beide sind gleich. Ihre Koeffizienten können z.B. aus einem Durchschnittswert der beiden Seiten berechnet werden.In one embodiment, the first and second equalization filters are 30L . 30R Infinite Impulse Response (IIR) filter, and both are the same. Their coefficients can be calculated, for example, from an average value of the two sides.

In einer Ausführungsform stellen die Impulsantworten der Renderingfilter den zeitlichen Verlauf der Gewichte von Kugelfunktionen einer auf die Ordnung N begrenzten Reihendarstellung durch sphärisch-harmonische Funktionen der ersten und zweiten kopfbezogenen Impulsantworten (HRIRs) dar. In einer Ausführungsform werden dabei während einer Initialisierung Filterkoeffizienten der Renderingfilter aus einem Speicher abgerufen, der Koeffizienten für eine größte Ordnung Nmax enthält, wobei die Koeffizienten für kleinere Ordnungen eine Untermenge der Koeffizienten der größten Ordnung Nmax sind (entsprechend der unten beschriebenen skalierbaren Struktur).In one embodiment, the impulse responses of the rendering filters place the time history of the weights of spherical functions on order N In one embodiment, during initialization, filter coefficients of the rendering filters are retrieved from a memory containing coefficients for a largest order N max , the coefficients for smaller orders are a subset of the largest order coefficients N max (corresponding to the scalable structure described below).

In einer Ausführungsform werden die digitalen Audiosignale mittels FFT in den Frequenzbereich transformiert, die Koeffizienten der Renderingfilter liegen im Frequenzbereich vor, und die Ausgangssignale werden nach dem Aufsummieren jeweils mittels inverser FFT in den Zeitbereich transformiert. Dabei wird vorteilhafterweise nur eine inverse FFT je Ausgangssignal benötigt.In one embodiment, the digital audio signals are transformed into the frequency domain by means of FFT, the coefficients of the rendering filters are present in the frequency domain, and the output signals are each transformed into the time domain by means of inverse FFT after the summation. In this case, advantageously only one inverse FFT is required per output signal.

In einer Ausführungsform enthält die 3D-Schallfeldbeschreibung im HOA-Format zeitdiskrete Abtastsamples und das Rotationssteuersignal ist ebenfalls zeitdiskret. Dabei wird das Rotationssteuersignal vor dem Drehen zeitlich interpoliert, um den Abtastzeitpunkten der Audiosamples zu entsprechen. Im einfachsten Fall wird zwischen zwei Werten des Rotationssteuersignals interpoliert, es können jedoch auch mehr sein.In one embodiment, the 3D sound field description in HOA format includes time discrete sample samples and the rotation control signal is also time discrete. In this case, the rotation control signal is temporally interpolated before the rotation in order to correspond to the sampling instants of the audio samples. In the simplest case, interpolation between two values of the rotation control signal, but it can also be more.

In einer Ausführungsform, in der ebenfalls die 3D-Schallfeldbeschreibung zeitdiskrete Abtastsamples enthält und das Rotationssteuersignal zeitdiskret ist, werden zwei oder mehr aufeinanderfolgende Werte des Rotationssteuersignals zur Berechnung von zwei oder mehr Drehungen angewandt und die Audiosamples der zwei oder mehr gedrehten 3D-Schallfelddarstellungen werden zeitlich interpoliert.In an embodiment where also the 3D sound field description includes time discrete sample samples and the rotation control signal is time discrete, two or more consecutive values of the rotation control signal are applied to calculate two or more rotations and the audio samples of the two or more rotated 3D sound field representations are temporally interpolated ,

Im folgenden werden weitere Details verschiedener oben genannter Komponenten und Schritte erläutert. In the following, further details of various components and steps mentioned above will be explained.

HOA RotationHOA rotation

Die Drehung bzw. ein HOA Rotationsblock bewirkt eine Drehung einer HOA-Schallfeldrepräsentation (HOA-Schallfelddarstellung), die invers zur Drehung des Kopfes eines Zuhörers ist. Im Prinzip kann die gedrehte HOA-Schallfelddarstellung c ROT ( N ) ( t )

Figure DE102017102988B4_0001
aus der ursprünglichen, oben beschriebenen HOA-Schallfelddarstellung c(N)(t) durch eine einfache Matrixoperation gemäß c ROT ( N ) ( t ) = R c ( N ) ( t ) ,
Figure DE102017102988B4_0002
erhalten werden, wobei R ∈ ℝ(N+1) 2×(N+1) 2 die Rotationsmatrix bedeutet.Diese hat eine blockweise diagonale Struktur (siehe [1, Kap.2], [4]). Typischerweise liefert ein Headtracker zeitdiskrete Rotationsparameter mit einer Abtastrate, die deutlich geringer als die Audio-Abtastrate ist. Prinzipiell muss die Abtastrate des Headtrackers angeglichen werden. Um hier jedoch Diskontinuitäten in der gedrehten HOA-Schallfelddarstellung zu vermeiden, die aus plötzlichen Änderungen der Drehung bzw. Position herrühren können, wird in einer Ausführungsform Interpolation genutzt. Die Interpolation kann im Bereich (domain) der Rotationsmatrizen oder der gedrehten HOA-Schallfelddarstellung angewandt werden.The rotation or an HOA rotation block causes a rotation of an HOA sound field representation (HOA sound field representation), which is inverse to the rotation of the head of a listener. In principle, the rotated HOA sound field representation c RED ( N ) ( t )
Figure DE102017102988B4_0001
from the original HOA sound field representation c (N) (t) described above by a simple matrix operation according to FIG c RED ( N ) ( t ) = R c ( N ) ( t ) .
Figure DE102017102988B4_0002
where R ∈ ℝ (N + 1) 2 × (N + 1) 2 means the rotation matrix. This has a blockwise diagonal structure (see [1, Chap. 2], [4]). Typically, a head tracker provides discrete-time rotation parameters at a sampling rate that is significantly less than the audio sample rate. In principle, the sampling rate of the head tracker must be adjusted. However, to avoid discontinuities in the rotated HOA sound field representation that may result from sudden changes in rotation or position, interpolation is used in one embodiment. The interpolation can be applied in the range (domain) of the rotation matrices or the rotated HOA sound field representation.

Einstufiges binaurales Rendering von HOA-Signalen im SH-BereichOne-stage binaural rendering of HOA signals in the SH domain

Normalerweise werden (Fernfeld-) HRIRs für eine gewisse Anzahl Q von verschiedenen Einfallsrichtungen Ωq (q = 1,...,Q) jeweils für das linke und das rechte Ohr gemessen. Daher können sie als zwei Sätze von Q Funktionen im Zeitbereich ausgedrückt werden, hL(t,Ωq) und hR(t,Ωq), wobei die Indizes „L“ und „R“ für das linke und das rechte Ohr stehen. Zur Vereinfachung werden diese Indizes im Folgenden weggelassen, da die Herleitung im Prinzip für beide Ohren gleich ist und implizit angenommen wird, dass für jedes Ohr die entsprechenden kopfbezogenen Impulsantworten (HRIRs) für die Berechnungen benutzt werden.Normally, (far-field) HRIRs are measured for a certain number Q of different directions of incidence Ω q (q = 1, ..., Q) for the left and the right ear, respectively. Therefore, they can be expressed as two sets of Q functions in the time domain, h L (t, Ω q ) and h R (t, Ω q ), with the "L" and "R" indices standing for the left and right ears , For simplicity, these indices are omitted below, as the derivation is basically the same for both ears and it is implicitly assumed that for each ear the corresponding head-related impulse responses (HRIRs) are used for the calculations.

3 zeigt das Prinzip der Dimensionierung der Renderingfilter bzw. der Filterkoeffizienten. Schallquellen aus allen räumlichen Richtungen Ω = {Ω12,...} werden überlagert. Der erste Schritt des binauralen Renderingverfahren für HOA-Signale (d.h. Signale im Format der HOA-Schallfelddarstellung) besteht darin, die diskreten HRIRs (in Bezug auf die Einfallsrichtung) durch eine abgebrochene SH-Reihe N-ter Ordnung zu ersetzen, die definiert wird als h N ( t , Ω ) = n = 0 N m = n n h n m ( t ) S n m ( Ω )

Figure DE102017102988B4_0003
3 shows the principle of dimensioning the rendering filters and the filter coefficients. Sound sources from all spatial directions Ω = {Ω 1 , Ω 2 , ...} are superimposed. The first step in the binaural rendering process for HOA signals (ie, signals in the HOA sound field representation format) is to replace the discrete HRIRs (with respect to the direction of incidence) by an N-th order aborted SH-series, which is defined as H N ( t . Ω ) = Σ n = 0 N Σ m = - n n H n m ( t ) S n m ( Ω )
Figure DE102017102988B4_0003

Dies ist eine kontinuierliche sphärische Funktion und approximiert die HRIRs zu den gemessenen Richtungen, d.h. h N ( t , Ω q ) h ( t , Ω q )  für  1 q Q .

Figure DE102017102988B4_0004
This is a continuous spherical function and approximates the HRIRs to the measured directions, ie H N ( t . Ω q ) H ( t . Ω q ) For 1 q Q ,
Figure DE102017102988B4_0004

Verfahren für diese Art von Approximationen werden z.B. in [14] beschrieben. Wenn die abgebrochenen SH-Repräsentation N-ter Ordnung der HRIRs vorliegen, h ( N ) ( t ) = [ h 0 0 ( t ) h 1 1 ( t ) h 1 0 ( t ) h 1 1 ( t ) h 2 2 ( t ) h N N ( t ) ] T

Figure DE102017102988B4_0005
wird das gerenderte binaurale Zwischensignal erhalten durch y BIN ,I ( t ) = n = 0 N m = n n c n m ( t ) h n m ( t )
Figure DE102017102988B4_0006
ähnlich dem Vorschlag in [8], Gl.4. Das heißt insbesondere, dass in einer ersten Stufe jedes HOA-Koeffizientensignal mit dem entsprechenden, aus der SH-Repräsentation der HRIRs erhaltenen Filter gefiltert wird. In einer zweiten Stufe werden alle Ergebnisse der Filterung aufsummiert.Zu beachten ist, dass yBIN,I (t) auch ausgedrückt werden kann als Filterung des Beitrags jeder einzelnen ebenen Welle mit der HRIR für die entsprechende Einfallsrichtung, gemäß y BIN ,I ( t ) = δ 2 c N ( t , Ω ) h N ( t , Ω ) d Ω
Figure DE102017102988B4_0007
Methods for this kind of approximations are described eg in [14]. If the aborted N-order SH representation of the HRIRs is present, H ( N ) ( t ) = [ H 0 0 ( t ) H 1 - 1 ( t ) H 1 0 ( t ) H 1 1 ( t ) H 2 - 2 ( t ) ... H N N ( t ) ] T
Figure DE102017102988B4_0005
the rendered binaural intermediate signal is obtained by y BIN , I ( t ) = Σ n = 0 N Σ m = - n n c n m ( t ) * H n m ( t )
Figure DE102017102988B4_0006
similar to the proposal in [8], Eq.4. This means, in particular, that in a first stage each HOA coefficient signal is filtered with the corresponding filter obtained from the SH representation of the HRIRs. In a second stage all results of the filtering are summed up. Note that y BIN, I (t) can also be expressed as filtering the contribution of each individual plane wave to the HRIR for the corresponding direction of incidence, according to y BIN , I ( t ) = δ 2 c N ( t . Ω ) * H N ( t . Ω ) d Ω
Figure DE102017102988B4_0007

Wegen ihrer komplexen Struktur haben die Filter, die aus der SH-Repräsentation der HRIRs gewonnen werden, normalerweise eine endliche Impulsantwort (Finite Impulse Response, FIR), die typischerweise eine Länge von etwa 256 Taps bei einer Abtastrate von 48 kHz hat. Weiter hat eine SH-Repräsentation eine skalierbare Struktur, was bedeutet, dass eine Repräsentation N-ter Ordnung eine Untermenge einer Repräsentation (N+1)-ter Ordnung ist. Deswegen ist es sinnvoll, eine SH-Repräsentation h( NMAX)(t) der HRIRs der Ordnung NMAX zu berechnen und in einem Speicher zu speichern. Die Ordnung NMAX wird als maximale Ordnung einer vom binauralen Rendering handhabbaren HOA-Schallfeldrepräsentation angenommen. Die benötigte SH-Repräsentation h(N)(t) kann dann während einer Initialisierung in Abhängigkeit von der benötigten Ordnung N ≤ NMAX geladen werden.Because of their complex structure, the filters derived from the SH representation of the HRIRs typically have a finite impulse response (FIR) that is typically about 256 taps in length at a sampling rate of 48 kHz. Further, an SH representation has a scalable structure, which means that an Nth order representation is a subset of an N + 1 order representation. Therefore, it makes sense to have an SH representation h ( N MAX) (t) of the HRIRs of order N MAX and to store in a memory. The order N MAX is assumed to be the maximum order of a HOA sound field representation that can be handled by binaural rendering. The required SH representation h (N) (t) can then during an initialization depending on the required order N ≤ N MAX are charged.

Weiterhin kann durch eine FFT-basierte Implementation die Effizienz der Verarbeitung für das binaurale Rendering von HOA-Signalen erhöht werden. Dabei liegen die Koeffizienten der Renderingfilter im Frequenzbereich vor. Dann werden die digitalen Audiosignale mittels FFT in den Frequenzbereich transformiert und mit den Renderingfiltern im Frequenzbereich mittels einer Multiplikation gefiltert. Deren Ausgangssignale werden jeweils aufsummiert und mittels inverser FFT in den Zeitbereich transformiert. Eine Reduktion von Rechenkapazität ergibt sich daraus, dass wegen der Aufsummierung der Filterergebnisse im FFT-Bereich nur eine einzige inverse FFT pro binauralem Signal (d.h. pro Seite) benötigt wird.Furthermore, through an FFT-based implementation, the processing efficiency for the binaural rendering of HOA signals can be increased. The coefficients of the rendering filters are in the frequency domain. Then the digital audio signals are transformed by means of FFT into the frequency domain and filtered with the rendering filters in the frequency domain by means of a multiplication. Their output signals are each summed up and transformed into the time domain by means of inverse FFT. A reduction in computational capacity results from the fact that only one single inverse FFT is required per binaural signal (i.e., per page) due to the summation of FFT filter results.

Equalizationfilter zur Veränderung der KlangfarbeEqualization filter to change the timbre

Das Abbrechen der Koeffizientenreihe bei einer bestimmten Ordnung zur Berechnung der SH-Repräsentation hat den Effekt einer spektralen Tiefpassfilterung [8], [9]. Um diesen Effekt zu kompensieren, wird wie in [8], [9] eine einkanalige Nachfilterung jedes der beiden binauralen Signale durchgeführt. Zur Dimensionierung der Nachfilter wird allgemein angenommen, dass die HRIRs für eine große Anzahl von Richtungen vorliegen. Das erleichtert die Berechnung der bei einer Ordnung NH abgebrochenen SH-Repräsentation (wobei die Ordnung NH deutlich größer als die Ordnung N ist).Mit H n m ( ω )

Figure DE102017102988B4_0008
als Fouriertransformierte der Signale h n m ( t )
Figure DE102017102988B4_0009
der SH-Repräsentation, wobei ω die Winkelfrequenz ist, wird die ideale Übertragungsfunktion des Nachfilters zu F N N H ( ω ) = n = 0 N H m = n n | H n m ( ω ) | 2 n = 0 N m = n n | H n m ( ω ) | 2
Figure DE102017102988B4_0010
Canceling the coefficient series at a particular order to calculate the SH representation has the effect of spectral low-pass filtering [8], [9]. In order to compensate for this effect, a single-channel post-filtering of each of the two binaural signals is performed as in [8], [9]. For dimensioning the post-filters, it is generally believed that the HRIRs are for a large number of directions. This simplifies the calculation of the SH representation aborted at an order N H (where the order N H is significantly greater than the order N is with H n m ( ω )
Figure DE102017102988B4_0008
as Fourier transform of the signals H n m ( t )
Figure DE102017102988B4_0009
The SH representation, where ω is the angular frequency, becomes the ideal transfer function of the postfilter F N N H ( ω ) = Σ n = 0 N H Σ m = - n n | H n m ( ω ) | 2 Σ n = 0 N Σ m = - n n | H n m ( ω ) | 2
Figure DE102017102988B4_0010

Diese Funktion gilt jedoch nur unter der Annahme, dass das binaural wiederzugebende Schallfeld diffus ist. Da die Annahme eines diffusen Schallfeldes in der Praxis kaum vertretbar ist, wird erfindungsgemäß die Ordnung NH nicht auf einen möglichst großen Wert gesetzt, weil dies im Allgemeinen zu einer übermäßigen Verstärkung hoher Frequenzen führt. Stattdessen wird ein geringerer Wert für die höhere Ordnung NH gewählt, der auch von der Ordnung N abhängen kann. Z.B. wurde experimentell festgestellt, dass für eine Ordnung N=1 die höhere Ordnung NH nicht über 12 liegen sollte.However, this function is valid only on the assumption that the binaural sound field to be reproduced is diffuse. Since the assumption of a diffuse sound field is hardly justifiable in practice, according to the invention the order N H is not set as high as possible, because this generally leads to an excessive amplification of high frequencies. Instead, a lower value is chosen for the higher order N H , which is also of order N can depend. For example, it has been found experimentally that for an order N = 1, the higher order N H does not exceed 12 should lie.

Außerdem können die Equalizationfilter auch als Filter mit unendlicher Impulsantwort (infinite impulse response, IIR) und daher effizient implementiert werden. Wenn ein individueller Equalizationfilter (Nachfilter) für jedes der vorläufigen binauralen Signale angewandt wird, müssen zwei verschiedene IIR-Filter mit unterschiedlichen Frequenzgängen entworfen werden, die im Allgemeinen auch verschiedene Phasengänge haben. Dies kann jedoch zu einer Beeinträchtigung der binauralen Merkmale (binaural cues) führen und damit die binaurale Wiedergabe stören oder verschlechtern. Daher werden in einer Ausführungsform der Erfindung zwei gleichartige IIR-Equalizationfilter als Nachfilter eingesetzt. Diese können z.B. eine Übertragungsfunktion haben, die durch Mittelung der beiden seitenabhängigen Übertragungsfunktionen erhalten wird.In addition, the equalization filters can also be implemented as infinite impulse response (IIR) filters and therefore efficiently. If an individual equalization filter (postfilter) is used for each of the preliminary binaural signals, two different IIR filters with different frequency responses must be designed, which generally have different phase responses. However, this can lead to an impairment of the binaural features (binaural cues) and thus disrupt or worsen the binaural reproduction. Therefore, in one embodiment of the invention, two similar IIR equalization filters are used as post filters. These may e.g. have a transfer function obtained by averaging the two page-dependent transfer functions.

Eine Berechnung der Equalizationfilter 30L,30R kann abhängig von der Ordnung N eines HOA-Eingangssignals und einer gegebenen oder gewählten höheren Ordnung NH während einer Initialisierung bzw. in einer Initialisierungsstufe stattfinden. In einer anderen Ausführungsform werden Filterkoeffizienten für verschiedene Ordnungen N vorab berechnet und in einem Speicher gespeichert. Die gespeicherten Koeffizienten können dann während der Initialisierung geladen werden, um die Renderingfilter (d.h. Nachfilter) zu konfigurieren. Für die Wiedergabe natürlicher Aufnahmen sind dabei nur wenige verschiedene Sätze von Filterkoeffizienten zu speichern, da die gegenwärtig verfügbaren Mikrofone nur HOA-Schallfeldaufnahmen bis zu einer Ordnung N = 7 machen können, wie oben erwähnt.A calculation of the equalization filter 30L . 30R may depend on the order N of an HOA input signal and a given or selected higher order N H during an initialization or in an initialization stage, respectively. In another embodiment, filter coefficients for different orders N calculated in advance and stored in a memory. The stored coefficients may then be loaded during initialization to configure the rendering filters (ie post-filters). For the reproduction of natural recordings, only a few different sets of filter coefficients are to be stored since the currently available microphones can only make HOA sound field recordings up to an order N = 7, as mentioned above.

4 zeigt exemplarisch Frequenzgänge von binauralen Zwischensignalen für jeweils die gleiche beispielhafte Person für ein diffuses Schallfeld, welches durch eine HOA-Darstellung der drei verschiedenen Ordnungen N = 1,3,6 approximiert wird, normiert auf den Frequenzgang des binauralen Zwischensignales der Ordnung NH=12, sowie die Frequenzgänge FN→N H (ω) der dazugehörigen Equalisationsfilter. Wird das diffuse Schallfeld z.B. durch eine HOA-Darstellung der Ordnung N = 1 approximiert, fällt der Frequenzgang 410 des zugehörigen binauralen Zwischensignals relativ schnell ab. Eine für die Wahrnehmung signifikante Dämpfung setzt etwa bei der Frequenz f1 ein und nimmt in ihrem Ausmaß für höhere Frequenzen zu. Das entsprechende Equalisationsfilter hat entsprechend einen Frequenzgang 510, der etwa bei der Frequenz f1 deutlich ansteigt und so diesen Abfall exakt ausgleicht. Bei geringeren Frequenzen f < f1 beträgt das Betragsspektrum des Equalisationsfilters ca. 0 dB, was also keiner oder einer nur sehr geringen Dämpfung oder Verstärkung entspricht. Wird das diffuse Schallfeld z.B. durch eine HOA-Darstellung einer höheren Ordnung N = 3 approximiert, hat das zugehörige binaurale Zwischensignal einen weniger steil abfallenden Frequenzgang 420. Das zugehörige Equalisationsfilter besitzt einen entsprechend inversen Frequenzgang 520, der erst ab einer höheren Frequenz f2 > f1 eine merkliche Verstärkung bringt. Der erkennbare Trend bei den Frequenzgängen der binauralen Zwischensignale 430 und Equalizationfilter 530 setzt sich bei einer noch höheren Ordnung N = 6 fort. Dabei wird nur der hörbare Frequenzbereich, also ein Bereich unterhalb einer hörbaren Maximalfrequenz f3 betrachtet. 4 shows exemplary frequency responses of binaural intermediate signals for each the same exemplary person for a diffuse sound field, which is approximated by an HOA representation of the three different orders N = 1,3,6, normalized to the frequency response of the binaural intermediate signal of order N H = 12 , as well as the frequency responses F N → N H (ω) of the corresponding equalization filter. If the diffuse sound field is approximated by an HOA representation of the order N = 1, for example, the frequency response drops 410 of the associated binaural intermediate signal relatively quickly. A perception that is significant for perception begins at about the frequency f 1 and increases in its magnitude for higher frequencies. The corresponding equalization filter has a corresponding frequency response 510 , which increases significantly at about the frequency f 1 and thus exactly compensates for this waste. At lower frequencies f <f1, the magnitude spectrum of the equalization filter is approximately 0 dB, which corresponds to no or very little damping or amplification. If the diffuse sound field is approximated, for example, by a HOA representation of a higher order N = 3, the associated binaural intermediate signal has a less steeply falling frequency response 420 , The associated Equalisationsfilter has a corresponding inverse frequency response 520 , which brings a noticeable gain only from a higher frequency f2> f1. The recognizable trend in the frequency responses of the binaural intermediate signals 430 and equalization filters 530 continues with an even higher order N = 6. Only the audible frequency range, ie an area below an audible maximum frequency f 3, is considered.

5 zeigt eine skalierbare Struktur von Filtern bzw. Filterparametern, die in einer besonders vorteilhaften Variante als Renderingfilter 21L,21R benutzt werden können. Wenn das wiederzugebende Eingangssignal als digitales Audiosignal als 3D-Schallfeldbeschreibung im HOA-Format einer Ordnung N vorliegt, werden (N+1)2 erste Renderingfilter 21L und (N+1)2 zweite Renderingfilter 21R benutzt. Z.B. bei einem Eingangssignal erster Ordnung mit N=1 gilt (N+1)2=4 und es werden je vier Filter bzw. Sätze von Filterkoeffizienten F1L, F21L, F22L, F23L und F1R, F21R, F22R, F23R für jede Seite benutzt. Bei einem Eingangssignal zweiter Ordnung dagegen mit N=2 gilt (N+1)2=9 und es werden je neun Filter bzw. Sätze von Filterkoeffizienten F1L, F21L, F22L, ...,F29L und F1R, F21R, F22R, ..., F29R für jede Seite benutzt. Dabei sind jedoch die Filter bzw. Filterkoeffizientensätze F1L, F21L, F22L, F23L und F1R, F21R, F22R, F23R dieselben wie für ein Eingangssignal erster Ordnung. Es kommen nur neue Filter hinzu. Entsprechend werden diese neun Filter bzw. Filterkoeffizientensätze je Seite bei einer weiteren Erhöhung der Ordnung auf N=3 und (N+1)2=16 Filter je Seite weiter verwendet. Für N=4 ist (N+1)2=25 und es kommen 9 Filter bzw. Koeffizientensätze je Seite hinzu. Diese skalierbare Struktur ist vorteilhaft, weil weniger Filter bzw. Filterkoeffizientensätze vorgehalten werden müssen, um auch eine Verarbeitung von Eingangssignalen höherer Ordnungen zu ermöglichen, insbesondere da die Anzahl der benötigten Filter im Prinzip quadratisch mit der Ordnung ansteigt. 5 shows a scalable structure of filters or filter parameters, which in a particularly advantageous variant as a rendering filter 21L . 21R can be used. When the input signal to be reproduced as a digital audio signal as a 3D sound field description in the HOA format of an order N is present, (N + 1) 2 first rendering filters 21L and (N + 1) 2 second rendering filters 21R used. For example, for a first-order input signal with N = 1, (N + 1) 2 = 4 and four filters or sets of filter coefficients F1L, F2 1 L, F2 2 L, F2 3 L and F1R, F2 1 R, F2 2 R, F2 3 R used for each side. On the other hand, with a second-order input signal with N = 2, (N + 1) 2 = 9 and nine filters or sets of filter coefficients F1L, F2 1 L, F2 2 L,..., F2 9 L and F1R, respectively. F2 1 R, F2 2 R, ..., F2 9 R used for each side. However, the filter or filter coefficient sets F1L, F2 1 L, F2 2 L, F2 3 L and F1R, F2 1 R, F2 2 R, F2 3 R are the same as for a first order input signal. There are only new filters added. Accordingly, these nine filters or sets of filter coefficients per page are further used in further increasing the order to N = 3 and (N + 1) 2 = 16 filters per side. For N = 4, (N + 1) 2 = 25 and there are 9 filters or coefficient sets added on each side. This scalable structure is advantageous because fewer filters or sets of filter coefficients need to be kept in order to also allow processing of higher order input signals, especially as the number of filters required in principle increases quadratically with order.

HOA Grundlagen und NomenklaturHOA basics and nomenclature

Das Ambisonicsformat höherer Ordnung (Higher Order Ambisonics, HOA) basiert auf einer Schallfeldbeschreibung innerhalb eines gegebenen Raumes, der als frei von Schallquellen angenommen wird (also z.B. der Raum zwischen mehreren Schallquellen). In dem Fall ist das räumlich-zeitliche Verhalten des Schalldrucks p(t,x) zur Zeit t und an einer Position x innerhalb des gegebenen Raumes vollständig physikalisch determiniert durch die homogene Wellengleichung. Insbesondere kann der Schalldruck als Überlagerung von Beiträgen individueller allgemeiner ebener Wellen (general plane waves, GPWs), deren Quelle außerhalb des gegebenen Raumes liegt, eindeutig angegeben werden gemäß p ( t , x ) = δ 2 p GPW ( t , x , Ω ) d Ω

Figure DE102017102988B4_0011
wobei pGPW(t,x,Ω) den Schalldruckbeitrag zur Zeit t und Position x auf Grund einer ebenen Welle aus der Einfallsrichtung Ω ∈ S2 bezogen auf den Koordinatenursprung darstellt, und wobei S2 die Einheitskugel im dreidimensionalen Euklidischen Raum darstellt. Die Einfallsrichtung Ω kann durch das Tupel Ω = (θ,ϕ) dargestellt werden, das aus einem von der Polarachse z aus gemessenen Elevationswinkel θ ∈ [0, π] und einem in der x-y-Ebene von der x-Achse aus im Gegenuhrzeigersinn gemessenen Azimuthwinkel ϕ ∈ [-π,π] besteht.The Higher Order Ambisonics (HOA) format is based on a sound field description within a given space that is assumed to be free of sound sources (eg, the space between multiple sound sources). In this case, the spatial-temporal behavior of the sound pressure p (t, x) is at time t and at one position x within the given space completely physically determined by the homogeneous wave equation. In particular, the sound pressure as a superposition of contributions of individual general plane waves (GPWs), the source of which lies outside the given space, can be clearly stated according to p ( t . x ) = δ 2 p GPW ( t . x . Ω ) d Ω
Figure DE102017102988B4_0011
where p GPW (t, x, Ω) the sound pressure contribution at time t and position x on the basis of a plane wave from the direction of incidence Ω ∈ S 2 relative to the origin of the coordinates, and where S 2 represents the unit sphere in the three-dimensional Euclidean space. The direction of incidence Ω can be represented by the tuple Ω = (θ, φ) that originates from one of the polar axis z from measured elevation angle θ ∈ [0, π] and an azimuth angle φ ∈ [-π, π] measured in the xy plane from the x axis in the counterclockwise direction.

Allgemein kann der Schalldruck einer ebenen Welle (GPW) an irgendeiner Position x nur mit Kenntnis der Einfallsrichtung Ω und deren zeitlicherÄnderung an irgendeiner beliebigen Position, also insbesondere auch am Koordinatenursprung, berechnet werden. Daher kann der Schalldruck für den zuvor betrachteten schallfeldfreien Raum exakt rekonstruiert werden, nur mit Kenntnis der Funktion c ( t , Ω ) = p GPW ( t , x , Ω ) | x = 0

Figure DE102017102988B4_0012
die die zeitlichen Veränderungen von allgemeinen ebenen Wellen (GPWs) im Koordinatenursprung beschreibt, die aus allen möglichen Einfallsrichtungen Ω eintreffen. Darüber hinaus kann die Funktion c(t, Ω) dargestellt werden durch eine Reihe sphärischer Basisfunktionen, die sogenannten Sphärisch-Harmonischen (SH), gemäß c ( t , Ω ) = n = 0 m = n n c n m ( t ) S n m ( Ω )
Figure DE102017102988B4_0013
wobei S n m ( )
Figure DE102017102988B4_0014
eine reellwertige sphärisch-harmonische Funktion der Ordnung n und dem Grad m ist. Eine exemplarische Definition wird weiter unten gegeben. Die aktuellen Gewichte c n m ( t )
Figure DE102017102988B4_0015
der Reihe, als Funktion der Zeit betrachtet, werden als HOA Koeffizientensignale bezeichnet. Aus praktischen Gründen wird die Reihe normalerweise bei einer Ordnung N abgebrochen, was zu einer räumlichen frequenzband-limitieren Approximation c N ( t , Ω ) = n = 0 N m = n n c n m ( t ) S n m ( Ω )
Figure DE102017102988B4_0016
führt. Der Satz von HOA-Koeffizientensignalen c n m ( t )
Figure DE102017102988B4_0017
mit dem Ordnungsindex nN stellt die eigentliche HOA Schallfeldrepräsentation dar, die kompakt als Vektor geschrieben werden kann: c ( N ) ( t ) = [ c 0 0 ( t ) c 1 1 ( t ) c 1 0 ( t ) c 1 1 ( t ) c 2 2 ( t ) c N N ( t ) ] T
Figure DE102017102988B4_0018
In general, the sound pressure of a plane wave (GPW) at any position x can only with knowledge of the direction of incidence Ω and their temporal change at any arbitrary position, so in particular at the coordinate origin, are calculated. Therefore, the sound pressure for the previously considered sound field-free space can be reconstructed exactly, only with knowledge of the function c ( t . Ω ) = p GPW ( t . x . Ω ) | x = 0
Figure DE102017102988B4_0012
which describes the temporal changes of general plane waves (GPWs) in the origin of coordinates, from all possible directions of incidence Ω arrive. In addition, the function c (t, Ω) can be represented by a series of spherical basis functions, the so-called spherical harmonics (SH), according to c ( t . Ω ) = Σ n = 0 Σ m = - n n c n m ( t ) S n m ( Ω )
Figure DE102017102988B4_0013
in which S n m ( )
Figure DE102017102988B4_0014
a real-valued spherical harmonic function of order n and the degree is m. An exemplary definition is given below. The current weights c n m ( t )
Figure DE102017102988B4_0015
The series, considered as a function of time, are referred to as HOA coefficient signals. For practical reasons, the series usually gets in order N aborted, resulting in a spatial frequency band-limiting approximation c N ( t . Ω ) = Σ n = 0 N Σ m = - n n c n m ( t ) S n m ( Ω )
Figure DE102017102988B4_0016
leads. The set of HOA coefficient signals c n m ( t )
Figure DE102017102988B4_0017
with the order index n N represents the actual HOA sound field representation that can be compact written as a vector: c ( N ) ( t ) = [ c 0 0 ( t ) c 1 - 1 ( t ) c 1 0 ( t ) c 1 1 ( t ) c 2 - 2 ( t ) ... c N N ( t ) ] T
Figure DE102017102988B4_0018

Der Positionsindex des HOA--Koeffizientensignals c n m ( t )

Figure DE102017102988B4_0019
innerhalb des Vektors c(N)(t) wird hier gemäß der sogenannten Ambisonics Channel Number (ACN)-Konvention gewählt zu n (n + 1) + 1 + m.The position index of the HOA coefficient signal c n m ( t )
Figure DE102017102988B4_0019
within the vector c (N) (t), here, according to the so-called Ambisonics Channel Number (ACN) convention, one chooses n (n + 1) + 1 + m.

Eine beispielhafte Definition einer reellwertigen Sphärisch-Harmonischen Funktion S n m ( )

Figure DE102017102988B4_0020
mit sogenannter N3D Normierung kann angegeben werden durch S n m ( ( θ , ϕ ) ) = ( 2 n + 1 ) ( n | m | ) ! ( n + | m | ) ! P n | m | ( cos θ ) { 2 cos ( m ϕ ) for  m > 0 1 for  m = 0 2 sin ( m ϕ ) for  m < 0  
Figure DE102017102988B4_0021
wobei P n m ( )
Figure DE102017102988B4_0022
die zugehörigen Legendre'schen Funktionen sind, die (anders als z.B. in [11, Kap.6.3.2] ohne Benutzung des Condon-Shortley Phasenterms (-1)m) mittels der Legendrepolynome Pn(·) definiert sind als P n m ( x ) = ( 1 x 2 ) m / 2 d m d x m P n ( x ) ,   m 0.
Figure DE102017102988B4_0023
An exemplary definition of a real-valued spherical harmonic function S n m ( )
Figure DE102017102988B4_0020
with so-called N3D normalization can be indicated by S n m ( ( θ . φ ) ) = ( 2 n + 1 ) ( n - | m | ) ! ( n + | m | ) ! P n | m | ( cos θ ) { 2 cos ( m φ ) for m > 0 1 for m = 0 - 2 sin ( m φ ) for m < 0
Figure DE102017102988B4_0021
in which P n m ( )
Figure DE102017102988B4_0022
are the associated Legendre functions, which (unlike, for example, in [11, chap.6.3.2] without the use of the Condon-Shortley phase term (-1) m ) are defined by the legend polynomials P n (·) P n m ( x ) = ( 1 - x 2 ) m / 2 d m d x m P n ( x ) . m 0th
Figure DE102017102988B4_0023

Die Erfindung lässt sich vorteilhaft für Audiowiedergabesysteme oder deren Komponenten einsetzen, insbesondere für binaurale Wiedergabe. Diese erfolgt am besten über Kopfhörer oder Ohrhörer.The invention can be used advantageously for audio reproduction systems or their components, in particular for binaural reproduction. This is best done via headphones or earphones.

Referenzenreferences

  1. [1] J.R. Driscoll and D.M. Healy. Computing Fourier Transforms and Convolutions on the 2-Sphere. Advances in Applied Mathematics, 15(2):202 - 250, 1994 .[1] JR Driscoll and DM Healy. Computing Fourier Transforms and Convolution on the 2-Sphere. Advances in Applied Mathematics, 15 (2): 202-250, 1994 ,
  2. [2] R.Duraiswami, E.Grassi, N.A. Gumerov, Z.Li, D.N. Zotkin, and L.S. Davis. High Order Spatial Audio Capture and Its Binaural Head-Tracked Playback Over Headphones with HRTF Cues. In Audio Engineering Society Convention 119, Oct 2005 .[2] R.Duraiswami, E.Grassi, NA Gumerov, Z.Li, DN Zotkin, and LS Davis. High Order Spatial Audio Capture and Its Binaural Head-Tracked Playback Over Headphones with HRTF Cues. In Audio Engineering Society Convention 119, Oct 2005 ,
  3. [3] G. Enzner, M. Weinert, S. Abeling, J. M. Batke, and P. Jax. Advanced system options for binaural rendering of Ambisonic format. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 251-255, May 2013 .[3] G. Enzner, M. Weinert, S. Abeling, JM Batke, and P. Jax. Advanced system options for binaural rendering of Ambisonic format. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 251-255, May 2013 ,
  4. [4] Z. Gimbutas and L. Greengard. A fast and stable method for rotating spherical harmonic expansions. Journal of Computational Physics, 228(16):5621 - 5627, 2009 .[4] Z. Gimbutas and L. Greengard. A fast and stable method for rotating spherical harmonic expansion. Journal of Computational Physics, 228 (16): 5621-5627, 2009 ,
  5. [5] Adam McKeag and David McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Preprint of the Audio Engineering Society for the 6th Australian Regional Convention, (4302), 1996 .[5] Adam McKeag and David McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Preprint of the Audio Engineering Society for the 6th Australian Regional Convention, (4302), 1996 ,
  6. [6] J. Meyer and G. Elko. A highly scalable spherical microphone array based on an orthonormal decomposition of the soundfield. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages 1781-1784, May 2002 .[6] J. Meyer and G. Elko. A highly scalable spherical microphone array based on orthonormal decomposition of the soundfield. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages 1781-1784, May 2002 ,
  7. [7] B. Rafaely. Fundamentals of Spherical Array Processing. Springer, Berlin, 2015 .[7] B. Rafaely. Fundamentals of Spherical Array Processing. Springer, Berlin, 2015 ,
  8. [8] J. Sheaffer and B. Rafaely. Equalization strategies for binaural room impulse response rendering using spherical arrays. In 2014 IEEE 28th Convention of Electrical Electronics Engineers in Israel (IEEEI), pages 1-5, Dec 2014 .[8th] J. Sheaffer and B. Rafaely. Equalization strategies for binaural room impulse response rendering using spherical arrays. In 2014, IEEE 28th Convention of Electrical Electronics Engineers in Israel (IEEEI), pages 1-5, Dec 2014 ,
  9. [9] J.Sheaffer, S.Villeval, B.Rafaely. Rendering Binaural Room Impulse Responses from Spherical Microphone Array Recordings Using Timbre Correction. In Proc. of the EAA Joint Symposium on Auralization and Ambisonics, pages 81-85, Berlin, 2014 .[9] J.Sheaffer, S.Villeval, B.Rafaely. Rendering Binaural Room Impulse Responses from Spherical Microphone Array Recordings Using Timbre Correction. In Proc. of the EAA Joint Symposium on Auralization and Ambisonics, pages 81-85, Berlin, 2014 ,
  10. [10] E. M. Wenzel. What Perception Implies About Implementation of Interactive Virtual Acoustic Environments. In Audio Engineering Society Convention 101, Nov 1996 .[10] EM Wenceslas. What Perception Implies About Implementation of Interactive Virtual Acoustic Environments. In Audio Engineering Society Convention 101, Nov 1996 ,
  11. [11] Earl G. Williams. Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography. Academic Press, 1 edition, June 1999 .[11] Earl G. Williams. Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography. Academic Press, 1 edition, June 1999 ,
  12. [12] D. N. Zotkin, R. Duraiswami, and L. S. Davis. Creation of virtual auditory spaces. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages II-2113-II-2116, May 2002 .[12] DN Zotkin, R. Duraiswami, and LS Davis. Creation of virtual auditory spaces. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, Volume 2, pages II-2113-II-2116, May 2002 ,
  13. [13] D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Sound field decomposition using spherical microphone arrays. In 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 277-280, March 2008 .[13] DN Zotkin, R. Duraisvami, and NA Gumerov. Sound field decomposition using spherical microphone arrays. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 277-280, March 2008 ,
  14. [14] D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Regularized HRTF fitting using spherical harmonics. In 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 257-260, Oct 2009 .[14] DN Zotkin, R. Duraisvami, and NA Gumerov. Regularized HRTF fitting using spherical harmonics. In 2009 IEEE Workshop on Signal Processing to Audio and Acoustics, pages 257-260, Oct 2009 ,

Claims (15)

Verfahren zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im Higher Order Ambisonics HOA-Format einer Ordnung N vorliegt, wobei ein linkes Ausgangssignal und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden, mit den Schritten: Drehen (110) der 3D-Schallfeldbeschreibung des digitalen Audiosignals im Higher Order Ambisonics HOA-Format gemäß einem Rotationssteuersignal, das von einem Headtracker erhalten werden kann, Filtern (120) der gedrehten 3D-Schallfeldbeschreibung des digitalen Audiosignals mit (N + 1)2 ersten Renderingfiltern (21L) gemäß ersten kopfbezogenen Impulsantworten (HRIRs) für einen Links-Kanal und (N + 1)2 zweiten Renderingfiltern (21R) gemäß zweiten kopfbezogenen Impulsantworten (HRIRs) für einen Rechts-Kanal, wobei die Renderingfilter einer Approximation der ersten und zweiten kopfbezogenen Impulsantworten durch Kugelfunktionen entsprechen und die Approximation auf die Ordnung N begrenzt ist, wobei die Kugelfunktionen dieselben wie im Higher Order Ambisonics HOA-Format der Schallfeldbeschreibung sind, Aufsummieren (130) der Ausgangssignale der ersten Renderingfilter (21L) zu einem Zwischensignal für den Links-Kanal, und Aufsummieren (130) der Ausgangssignale der zweiten Renderingfilter (21R) zu einem Zwischensignal für den Rechts-Kanal, Filtern (140) des Zwischensignals für den Links-Kanal mit einem ersten Equalizationfilter (30L) zur Veränderung der Klangfarbe, wobei der erste Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das linke Ausgangssignal (40L) für binaurale Wiedergabe entsteht, und Filtern (150) des Zwischensignals für den Rechts-Kanal mit einem zweiten Equalizationfilter zur Veränderung der Klangfarbe, wobei der zweite Equalizationfilter automatisch entsprechend der Ordnung N angepasst wird, und wobei das rechte Ausgangssignal (40R) für binaurale Wiedergabe entsteht.A method of processing a digital audio signal presented as a 3D sound field description in Higher Order Ambisonics HOA format of order N, producing a left output signal and a right output signal for binaural reproduction via headphones, comprising the steps of: rotating (110) the 3D sound field description of the digital audio signal in the Higher Order Ambisonics HOA format according to a rotation control signal obtainable from a head tracker, filtering (120) the rotated 3D sound field description of the digital audio signal with (N + 1) 2 first rendering filters (21L) first head related impulse responses (HRIRs) for a left channel and (N + 1) 2 second rendering filters (21R) according to second head related impulse responses (HRIRs) for a right channel, the rendering filters corresponding to approximation of the first and second head related impulse responses by spherical functions and the approximation to the order N limit t, where the spherical functions are the same as in the Higher Order Ambisonics HOA format of the sound field description, summing (130) the outputs of the first rendering filters (21L) into an intermediate signal for the left channel, and summing (130) the outputs of the second rendering filters (21R) to an intermediate signal for the right channel, Filtering (140) the intermediate signal for the left channel with a first equalization filter (30L) for changing the tone color, the first equalization filter being automatically adjusted according to the order N, and the left output signal (40L) being for binaural reproduction, and filtering (150) the right-channel intermediate signal having a second equalization filter for changing the timbre, the second equalization filter being automatically adjusted according to the N-order, and the right-hand output signal (40R) for binaural reproduction. Verfahren nach Anspruch 1, wobei die Anpassung des ersten und des zweiten Equalizationfilters (30L,30R) eine Änderung der Klangfarbe entsprechend einer Erhöhung der Ordnung der 3D-Schallfeldbeschreibung und der Renderingfilter von der Ordnung N auf eine höhere Ordnung NH bewirkt.Method according to Claim 1 wherein the fitting of the first and second equalization filters (30L, 30R) causes a change in the timbre corresponding to an increase in the order of the 3D sound field description and the rendering filters of the order N to a higher order N H. Verfahren nach Anspruch 1 oder 2, wobei der erste und zweite Equalizationfilter (30L,30R) eine Anhebung hoher Frequenzen bewirkt, wobei hohe Frequenzen solche Frequenzen im hörbaren Bereich sind, die durch die Approximation der ersten und zweiten kopfbezogenen Impulsantworten (HRIRs) gedämpft werden, und wobei die Anpassung des ersten und des zweiten Equalizationfilters entsprechend der Ordnung N beinhaltet, dass die Anhebung bei niedrigeren Ordnungen ausgeprägter ist als bei höheren Ordnungen N.Method according to Claim 1 or 2 wherein the first and second equalization filters (30L, 30R) cause high frequency boosting, high frequencies being those frequencies in the audible range that are attenuated by the approximation of the first and second head related impulse responses (HRIRs), and wherein the matching of the first and the second Equalisierungsfilters according to the order N implies that the increase at lower orders is more pronounced than at higher orders N. Verfahren nach einem der Ansprüche 1-3, wobei der Ordnungsparameter N automatisch entsprechend der 3D-Schallfeldbeschreibung des digitalen Audiosignals eingestellt wird und die Anzahl der ersten und zweiten Renderingfilter durch die Ordnung N modifiziert werden.Method according to one of Claims 1 - 3 wherein the order parameter N is automatically set according to the 3D sound field description of the digital audio signal and the number of the first and second rendering filters are modified by the order N. Verfahren nach einem der Ansprüche 1-4, wobei der erste und der zweite Equalizationfilter IIR-Filter sind und gleich sind.Method according to one of Claims 1 - 4 , wherein the first and the second equalization filters are IIR filters and are the same. Verfahren nach einem der Ansprüche 1-5, wobei die Impulsantworten der Renderingfilter den zeitlichen Verlauf der Gewichte von Kugelfunktionen einer auf die Ordnung N begrenzten Reihendarstellung durch sphärisch-harmonische Funktionen der ersten und zweiten kopfbezogenen Impulsantworten (HRIRs) darstellen.Method according to one of Claims 1 - 5 in which the impulse responses of the rendering filters represent the time history of the weights of spherical functions of a sequence representation bounded by the order N by spherical-harmonic functions of the first and second head-related impulse responses (HRIRs). Verfahren nach Anspruch 6, wobei während einer Initialisierung Filterkoeffizienten der Renderingfilter aus einem Speicher abgerufen werden, der Koeffizienten für eine größte Ordnung Nmax enthält, und wobei die Koeffizienten für kleinere Ordnungen eine Untermenge der Koeffizienten der größten Ordnung Nmax sind.Method according to Claim 6 wherein, during initialization, filter coefficients of the rendering filters are retrieved from a memory containing coefficients for a largest order N max , and wherein the smaller order coefficients are a subset of the largest order coefficients N max . Verfahren nach einem der Ansprüche 1-7, wobei die digitalen Audiosignale mittels FFT in den Frequenzbereich transformiert werden, die Koeffizienten der Renderingfilter im Frequenzbereich vorliegen, die digitalen Audiosignale mit den Renderingfiltern im Frequenzbereich mittels einer Multiplikation gefiltert werden und die Ausgangssignale nach dem Aufsummieren jeweils mittels inverser FFT in den Zeitbereich transformiert werden, wobei nur eine inverse FFT je Ausgangssignal benötigt wird.Method according to one of Claims 1 - 7 in which the digital audio signals are transformed by means of FFT into the frequency domain, the coefficients of the rendering filters are in the frequency domain, the digital audio signals are filtered with the rendering filters in the frequency domain by means of a multiplication and the output signals after the summation are in each case transformed by means of inverse FFT into the time domain, where only one inverse FFT per output is needed. Verfahren nach einem der Ansprüche 1-8, wobei die 3D-Schallfeldbeschreibung im Higher Order Ambisonics HOA-Format zeitdiskrete Abtastsamples enthält, und wobei das Rotationssteuersignal von dem Headtracker bereitgestellt wird und ebenfalls zeitdiskret ist und vor dem Drehen zeitlich interpoliert wird, um den Abtastzeitpunkten der Audiosamples zu entsprechen.Method according to one of Claims 1 - 8th wherein the 3D sound field description in Higher Order Ambisonics HOA format includes discrete-time sample samples, and wherein the rotation control signal is provided by the head tracker and is also time-discrete and interpolated prior to rotation to correspond to the sample instants of the audio samples. Verfahren nach einem der Ansprüche 1-8, wobei die 3D-Schallfeldbeschreibung im Higher Order Ambisonics HOA-Format zeitdiskrete Abtastsamples enthält, und wobei das Rotationssteuersignal von dem Headtracker bereitgestellt wird und ebenfalls zeitdiskret ist, und wobei zwei oder mehr aufeinanderfolgende Werte des Rotationssteuersignals zur Berechnung von zwei oder mehr Drehungen angewandt werden und die Audiosamples der zwei oder mehr gedrehten 3D-Schallfelddarstellungen zeitlich interpoliert werden.Method according to one of Claims 1 - 8th wherein the 3D sound field description in Higher Order Ambisonics HOA format includes discrete-time sample samples, and wherein the rotation control signal is provided by the head tracker and is also time-discrete, and wherein two or more consecutive values of the rotation control signal are applied to calculate two or more rotations and the audio samples of the two or more rotated 3D sound field representations are temporally interpolated. Vorrichtung zur Verarbeitung eines digitalen Audiosignales, das als 3D-Schallfeldbeschreibung im Higher Order Ambisonics HOA-Format einer Ordnung N vorliegt, wobei ein linkes Ausgangssignal und ein rechtes Ausgangssignal für eine binaurale Wiedergabe über Kopfhörer erzeugt werden, enthaltend eine Rotationseinheit (10) zur Drehung der 3D-Schallfeldbeschreibung gemäß einem Rotationssteuersignal, das Kopfbewegungen eines Nutzers beschreibt, einen ersten und einen zweiten Renderingfilter (21L,21R), die die gedrehte 3D-Schallfeldbeschreibung erhalten und jeweils mehrere Ausgänge haben, einen ersten und einen zweiten Addierer (25L,25R), die jeweils an die Ausgänge der ersten und zweiten Renderingfilter (21L,21R) angeschlossen sind, um deren Ausgangssignale aufzusummieren, und einen ersten und einen zweiten Equalizationfilter (30L,30R), die jeweils die von einem Addierer (25L,25R) aufsummierten Ausgangssignale der Renderingfilter filtern, um deren Klangfarbe zu ändern, wobei die Ausgangssignale (40L,40R) für binaurale Wiedergabe entstehen, und wobei der erste und der zweite Equalizationfilter automatisch entsprechend der Ordnung N angepasst werden, und wobei die Klangfarbe derart angepasst wird, dass sie einer höheren Ordnung NH > N entspricht.Apparatus for processing a digital audio signal presented as a 3D sound field description in Higher Order Ambisonics HOA format of order N, wherein a left output signal and a right output signal for binaural reproduction are generated via headphones, comprising a rotation unit (10) for rotating the 3D sound field description according to a rotation control signal describing head movements of a user, first and second rendering filters (21L, 21R) which receive the rotated 3D sound field description and each having a plurality of outputs, first and second adders (25L, 25R), each connected to the outputs of the first and second rendering filters (21L, 21R) for summing their output signals, and first and second equalization filters (30L, 30R), each of which outputs the summed outputs from an adder (25L, 25R) Filter the rendering filter to change its tone, with the Output signals (40L, 40R) for binaural reproduction, and wherein the first and the second equalization filters are automatically adjusted according to the order N, and wherein the timbre is adjusted to correspond to a higher order N H > N. Vorrichtung nach Anspruch 11, wobei der erste und zweite Equalizationfilter (30L,30R) eine Anhebung hoher Frequenzen bewirkt, wobei hohe Frequenzen solche Frequenzen im hörbaren Bereich sind, die durch die Approximation der ersten und zweiten kopfbezogenen Impulsantworten (HRIRs) gedämpft werden, und wobei die Anpassung des ersten und des zweiten Equalizationfilters entsprechend der Ordnung N beinhaltet, dass die Anhebung bei niedrigeren Ordnungen ausgeprägter ist als bei höheren Ordnungen N.Device after Claim 11 wherein the first and second equalization filters (30L, 30R) cause high frequency boosting, high frequencies being those frequencies in the audible range that are attenuated by the approximation of the first and second head related impulse responses (HRIRs), and wherein the matching of the first and the second Equalisierungsfilters according to the order N implies that the increase at lower orders is more pronounced than at higher orders N. Vorrichtung nach Anspruch 11 oder 12, wobei der erste und der zweite Equalizationfilter IIR-Filtersind und gleich sind.Device after Claim 11 or 12 , where the first and second equalization filters are IIR filters and are the same. Vorrichtung nach einem der Ansprüche 11-13, weiterhin enthaltend eine FFT-Einheit und zwei Invers-FFT-Einheiten, wobei die digitalen Audiosignale durch die FFT-Einheit mittels FFT in den Frequenzbereich transformiert werden, die Koeffizienten der Renderingfilter im Frequenzbereich vorliegen, die digitalen Audiosignale mit den Renderingfiltern im Frequenzbereich mittels einer Multiplikation gefiltert werden und die Ausgangssignale nach dem Aufsummieren jeweils mittels inverser FFT durch die Invers-FFT-Einheit in den Zeitbereich transformiert werden, wobei nur eine inverse FFT je Ausgangssignal benötigt wird.Device according to one of Claims 11 - 13 further comprising an FFT unit and two inverse FFT units, wherein the digital audio signals are FFT transformed into the frequency domain by FFT, the coefficients of the rendering filters are in the frequency domain, the digital audio signals are rendered in frequency domain with the rendering filters Multiplication are filtered and the output signals after summing are each transformed by means of inverse FFT by the inverse FFT unit in the time domain, with only one inverse FFT per output signal is required. Vorrichtung zur Verarbeitung eines digitalen Audiosignales mit mindestens einem Prozessor und einem Speicher, wobei der Speicher ein Programm speichert, das den Prozessor dafür konfiguriert, ein Verfahren nach einem der Ansprüche 1-10 durchzuführen.Apparatus for processing a digital audio signal having at least a processor and a memory, wherein the memory stores a program that configures the processor to perform a method according to any one of Claims 1 - 10 perform.
DE102017102988.5A 2017-02-15 2017-02-15 Method and device for processing a digital audio signal for binaural reproduction Active DE102017102988B4 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102017102988.5A DE102017102988B4 (en) 2017-02-15 2017-02-15 Method and device for processing a digital audio signal for binaural reproduction
PCT/EP2018/053388 WO2018149774A1 (en) 2017-02-15 2018-02-12 Method and device for processing a digital audio signal for binaural reproduction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102017102988.5A DE102017102988B4 (en) 2017-02-15 2017-02-15 Method and device for processing a digital audio signal for binaural reproduction

Publications (2)

Publication Number Publication Date
DE102017102988A1 DE102017102988A1 (en) 2018-08-16
DE102017102988B4 true DE102017102988B4 (en) 2018-12-20

Family

ID=61198858

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017102988.5A Active DE102017102988B4 (en) 2017-02-15 2017-02-15 Method and device for processing a digital audio signal for binaural reproduction

Country Status (2)

Country Link
DE (1) DE102017102988B4 (en)
WO (1) WO2018149774A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019101362A1 (en) * 2019-01-21 2020-07-23 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Aircraft

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK180449B1 (en) 2019-10-05 2021-04-29 Idun Aps A method and system for real-time implementation of head-related transfer functions

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140355794A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
EP3048814A1 (en) * 2013-09-17 2016-07-27 Wilus Institute of Standards and Technology Inc. Method and device for audio signal processing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126161A2 (en) * 2005-05-26 2006-11-30 Bang & Olufsen A/S Recording, synthesis and reproduction of sound fields in an enclosure
US9767618B2 (en) * 2015-01-28 2017-09-19 Samsung Electronics Co., Ltd. Adaptive ambisonic binaural rendering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140355794A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
EP3048814A1 (en) * 2013-09-17 2016-07-27 Wilus Institute of Standards and Technology Inc. Method and device for audio signal processing

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
Adam McKeag and David McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Preprint of the Audio Engineering Society for the 6th Australian Regional Convention, (4302), 1996
B. Rafaely. Fundamentals of Spherical Array Processing. Springer, Berlin, 2015
D. N. Zotkin, R. Duraiswami, and L. S. Davis. Creation of virtual auditory spaces. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages II-2113-II-2116, May 2002
D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Regularized HRTF fitting using spherical harmonics. In 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 257-260, Oct 2009
D. N. Zotkin, R. Duraiswami, and N. A. Gumerov. Sound field decomposition using spherical microphone arrays. In 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 277-280, March 2008
E. M. Wenzel. What Perception Implies About Implementation of Interactive Virtual Acoustic Environments. In Audio Engineering Society Convention 101, Nov 1996
Earl G. Williams. Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography. Academic Press, 1 edition, June 1999
G. Enzner, M. Weinert, S. Abeling, J. M. Batke, and P. Jax. Advanced system options for binaural rendering of Ambisonic format. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 251-255, May 2013
J. Meyer and G. Elko. A highly scalable spherical microphone array based on an orthonormal decomposition of the soundfield. In 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pages 1781-1784, May 2002
J. Sheaffer and B. Rafaely. Equalization strategies for binaural room impulse response rendering using spherical arrays. In 2014 IEEE 28th Convention of Electrical Electronics Engineers in Israel (IEEEI), pages 1-5, Dec 2014
J.R. Driscoll and D.M. Healy. Computing Fourier Transforms and Convolutions on the 2-Sphere. Advances in Applied Mathematics, 15(2):202 - 250, 1994
J.Sheaffer, S.Villeval, B.Rafaely. Rendering Binaural Room Impulse Responses from Spherical Microphone Array Recordings Using Timbre Correction. In Proc. of the EAA Joint Symposium on Auralization and Ambisonics, pages 81-85, Berlin, 2014
R.Duraiswami, E.Grassi, N.A. Gumerov, Z.Li, D.N. Zotkin, and L.S. Davis. High Order Spatial Audio Capture and Its Binaural Head-Tracked Playback Over Headphones with HRTF Cues. In Audio Engineering Society Convention 119, Oct 2005
Z. Gimbutas and L. Greengard. A fast and stable method for rotating spherical harmonic expansions. Journal of Computational Physics, 228(16):5621 - 5627, 2009

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019101362A1 (en) * 2019-01-21 2020-07-23 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Aircraft

Also Published As

Publication number Publication date
DE102017102988A1 (en) 2018-08-16
WO2018149774A1 (en) 2018-08-23

Similar Documents

Publication Publication Date Title
DE69132085T2 (en) COMPENSATION FILTER
DE69433258T2 (en) Surround sound signal processing device
DE69525163T2 (en) SOUND RECORDING AND PLAYBACK SYSTEMS
EP2486561B1 (en) Reconstruction of a recorded sound field
DE60304358T2 (en) METHOD FOR PROCESSING AUDIO FILES AND DETECTION DEVICE FOR THE APPLICATION THEREOF
DE602005005186T2 (en) METHOD AND SYSTEM FOR SOUND SOUND SEPARATION
EP3069530B1 (en) Method and device for compressing and decompressing sound field data of an area
EP0905933A2 (en) Method and system for mixing audio signals
EP2891334B1 (en) Producing a multichannel sound from stereo audio signals
DE69232327T2 (en) A sound reproduction
CN109699200B (en) Variable acoustic speaker
EP2189010A1 (en) Apparatus and method for determining a component signal with great accuracy
EP3044972B1 (en) Device and method for the decorrelation of loudspeaker signals
KR102660704B1 (en) Spectrally orthogonal audio component processing
DE102010026884B4 (en) Method for operating a hearing device with two-stage transformation
EP2930953A1 (en) Sound wave field generation
JP7008862B2 (en) Subband spatial processing and crosstalk cancellation system for conferences
EP2754151B1 (en) Device, method and electro-acoustic system for prolonging a reverberation period
DE102017102988B4 (en) Method and device for processing a digital audio signal for binaural reproduction
EP1471770B1 (en) Method for generating an approximated partial transfer function
Hahn et al. Cylindrical radial filter design with application to local wave field synthesis
DE112006002548T5 (en) Apparatus and method for playing two-channel virtual sound
EP0156334B1 (en) Method and device for simulating (electronic artificial head) the free-field transmission characteristics of the ear
WO2012016992A2 (en) Device and method for evaluating and optimizing signals on the basis of algebraic invariants
AT523644B1 (en) Method for generating a conversion filter for converting a multidimensional output audio signal into a two-dimensional auditory audio signal

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: SENNHEISER ELECTRONIC SE & CO. KG, DE

Free format text: FORMER OWNER: SENNHEISER ELECTRONIC GMBH & CO. KG, 30900 WEDEMARK, DE