Nothing Special   »   [go: up one dir, main page]

NO309831B1 - Method and apparatus for classifying speech signals - Google Patents

Method and apparatus for classifying speech signals Download PDF

Info

Publication number
NO309831B1
NO309831B1 NO961636A NO961636A NO309831B1 NO 309831 B1 NO309831 B1 NO 309831B1 NO 961636 A NO961636 A NO 961636A NO 961636 A NO961636 A NO 961636A NO 309831 B1 NO309831 B1 NO 309831B1
Authority
NO
Norway
Prior art keywords
speech
frames
divided
frame
segment
Prior art date
Application number
NO961636A
Other languages
Norwegian (no)
Other versions
NO961636L (en
NO961636D0 (en
Inventor
Joachim Stegmann
Original Assignee
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE19538852A external-priority patent/DE19538852A1/en
Application filed by Deutsche Telekom Ag filed Critical Deutsche Telekom Ag
Publication of NO961636D0 publication Critical patent/NO961636D0/en
Publication of NO961636L publication Critical patent/NO961636L/en
Publication of NO309831B1 publication Critical patent/NO309831B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

The method classifies speech, in particular speech signals, for the adaptive control of a speech encoding process. This encoding reduces the bit rate while keeping the speech quality the same, or increases the quality while keeping the bit rate the same. After segmenting the speech signal for each frame, a wavelet transformation is calculated. Using adaptive thresholds, a set of parameters is derived which control a state model. The speech frames are divided into sub-frames. Each sub-frame is divided into one of several typical classes for the speech encoding. The speech signal may be divided into segments of constant length. To reduce the edge effects with the wavelet transformation, either the segment at the boundaries is reflected or the wavelet transformation is calculated at smaller intervals. The frames are preferably shifted such that the segments overlap, or at the edges the segments are filled with previous or predicted sample values.

Description

Foreliggende oppfinnelse angår en fremgangsmåte for klassifisering av talesignaler av den art som angitt i innledningen til krav 1, såvel som en anordning for utførelse av fremgangsmåte som angitt i innledningen til krav 5. The present invention relates to a method for classifying voice signals of the kind stated in the introduction to claim 1, as well as a device for carrying out the method as stated in the introduction to claim 5.

Talekodemetoder og tilhørende anordning for klassifisering av talesignaler for bithastigheter under 8 kbits pr. sekund blir mer og mer av betydning. Speech coding methods and associated device for classifying speech signals for bit rates below 8 kbits per second becomes more and more important.

Hovedanvendelsen for disse er mellom annet ved multipleksoverføring for bestående faste nett og ved mobilsystemer av den tredje generasjonen. Også for beredskapsholdelse av tjenester som f.eks. videofoni er det nødvendig med talekodemetoder innenfor dette datahastighetsområde. The main use for these is, among other things, for multiplex transmission for existing fixed networks and for mobile systems of the third generation. Also for standby maintenance of services such as e.g. videophone, voice coding methods are required within this data rate range.

De fleste til nå kjente høykvalitative talekodemetodene for datahastighet mellom 4 kbits/s og 8 kbits/s arbeider etter prinsippet med kodeeksitert lineærforutsigelse (CELP)-metoden som beskrevet av Schroder, M.R., Atal, B.S.: "Code-Exited Linear Prediction CELP)": "High Quality Speech at Very Low Bit Rates" i Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1985. Her blir talesignalene syntetisert ved lineær filtrering av aktiveringsvektorer fra en eller flere kodebøker. I et første trinn blir koeffisientene til korttids-syntesefilteret tilveiebrakt ved LPC-analyse fra inngangs-talevektoren og så kvantisert. I tilslutning blir aktiveringskodebøkene gjennomsøkt, idet det som optimeringskriterium anvendes den perseptuelle vektede feil mellom opprinnelig og syntetisert talevektor (analyse ved syntese). Overført blir til slutt kun merket til den optimale vektoren, fra hvilket dekoderen kan igjen frembringe den syntetiserte talevektoren. Most of the currently known high-quality speech coding methods for data rates between 4 kbits/s and 8 kbits/s work on the principle of the code-excited linear prediction (CELP) method as described by Schroder, M.R., Atal, B.S.: "Code-Excited Linear Prediction CELP)" : "High Quality Speech at Very Low Bit Rates" in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1985. Here the speech signals are synthesized by linear filtering of activation vectors from one or more codebooks. In a first step, the coefficients of the short-term synthesis filter are obtained by LPC analysis from the input speech vector and then quantized. In addition, the activation codebooks are searched, with the perceptual weighted error between the original and synthesized speech vector being used as an optimization criterion (analysis by synthesis). In the end, only the tag is transferred to the optimal vector, from which the decoder can again produce the synthesized speech vector.

Mange av disse kodemetodene, som f.eks. den nye kbit/s talekoden til ITU-T, beskrevet i "Study Group 15 Contribution" - Q. 12/15: Draft Recommendation G.729 - Coding of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited-Linear-Predictive (CS-ACELP) Coding, 1995, arbeider med en fast kombinasjon av kodebøker. Denne stive anordningen tar ikke hensyn til den sterke tidsmessige endringen av egenskapene til talesignalet og trenger for koding i gjennomsnitt flere biter enn nødvendig. F.eks. forblir den adaptive kodeboken, som er nødvendig kun for koding av periodiske taleavsnitt, også innkoblet i løpet av entydige ikke-periodiske segmenter. Many of these coding methods, such as the new kbit/s speech code of ITU-T, described in "Study Group 15 Contribution" - Q. 12/15: Draft Recommendation G.729 - Coding of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited -Linear-Predictive (CS-ACELP) Coding, 1995, works with a fixed combination of codebooks. This rigid device does not take into account the strong temporal change of the characteristics of the speech signal and needs, on average, more bits than necessary for coding. E.g. the adaptive codebook, which is required only for coding periodic speech segments, also remains engaged during unambiguous non-periodic segments.

For å oppnå ved lave datahastigheter i området 4 kbits/s minst mulig reduksjon i kvaliteten, blir det derfor foreslått i andre publikasjoner, som f.eks. i artikkelen av Wang, S., Gersho, A.: "Phonetically-Based Vector Excitation Coding of Speech at 3,6 kbit/s", "Proceeding of IEEE International Conference On Acoustics, Speech and Signal Processing", 1989, at talesignaler før kodingen innordnes i forskjellige typiske klasser. I forslaget for GSM-halvhastighetssystemet blir signalet delt på basis av langtids-prediksjonsgevinst rammevis (alle 20 ms) i stemte og ustemte avsnitt med respektive tilpassede kodebøker, hvorved datahastigheten for aktiveringen reduseres og kvaliteten forblir stort sett lik i forhold til fullhastighetssystemet. Ved en generell undersøkelse ble signalet inndelt i klassene stemt, ustemt og "Onset". Derved ble det utvunnet avgjørelse rammevis (her 11,25 ms) på basis av parametrene, som mellom annet nullgjennomgangshastighetene, refleksjonskoeffisisentene, energi, ved lineær diskriminering. Jfr. eksempelet av Campbell, J., Tremain, T.: "Voiced/Unvoiced Classification of Speech with Application to the U.S. Gouvernment LPC-10e algoritme", i "Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing", i 1986. Hver klasse blir igjen tilordnet en bestemt kombinasjon av kodebøker slik at datahastigheten kan bli redusert til 3,6 kbits/s ved midlere kvalitet. In order to achieve at low data rates in the area of 4 kbits/s the least possible reduction in quality, it is therefore suggested in other publications, such as e.g. in the article by Wang, S., Gersho, A.: "Phonetically-Based Vector Excitation Coding of Speech at 3.6 kbit/s", "Proceeding of IEEE International Conference On Acoustics, Speech and Signal Processing", 1989, at speech signals before the coding is classified into different typical classes. In the proposal for the GSM half-speed system, the signal is divided on the basis of long-term prediction gain frame-wise (every 20 ms) into tuned and untuned sections with respective adapted codebooks, whereby the data rate for the activation is reduced and the quality remains largely the same compared to the full-speed system. In a general examination, the signal was divided into the classes tuned, untuned and "Onset". Thereby, a decision was extracted frame by frame (here 11.25 ms) on the basis of the parameters, such as, among other things, the zero crossing speeds, the reflection coefficients, energy, by linear discrimination. Cf. the example of Campbell, J., Tremain, T.: "Voiced/Unvoiced Classification of Speech with Application to the U.S. Government LPC-10e algorithm", in "Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing", in 1986. Each class is again assigned a specific combination of codebooks so that the data rate can be reduced to 3.6 kbits/s at medium quality.

Alle disse kjente metodene tilveiebringer resultatet av sin klassifisering ut fra parametere, som frembringes ved beregning av tidsmiddelverdien fra et vindu av konstant lengde. Den tidsmessige oppløsningen er også først bestemt på forhånd av valget av denne vinduslengden. Reduseres vinduslengden så reduseres også nøyaktigheten på middelverdien. Økes vinduslengden så kan derimot det tidsmessige forløpet til middelverdien ikke lenger følge forløpet til det ikke-stasjonære talesignal. Dette gjelder spesielt for sterke, ikke-stasjonære overganger (Onsets) fra ustemte til stemte taleavsnitt. Nettopp de tidsmessige riktige reproduksjonene av posisjonen til den første signifikante pulsen for stemte avsnitt er imidlertid viktig for den subjektive bedømmelsen av en kodemetode. Ytterligere ulemper ved vanlige klassifiseirngsmetoder er ofte en stor kompleksitet eller sterk avhengighet av i praksis stadig tilstedeværende bakgrunnsstøy. All these known methods provide the result of their classification based on parameters, which are produced by calculating the time average value from a window of constant length. The temporal resolution is also first determined in advance by the choice of this window length. If the window length is reduced, the accuracy of the mean value is also reduced. If the window length is increased, on the other hand, the temporal course of the mean value can no longer follow the course of the non-stationary speech signal. This applies in particular to strong, non-stationary transitions (Onsets) from unvoiced to voiced speech sections. Precisely the temporally correct reproductions of the position of the first significant pulse for voiced passages are, however, important for the subjective judgment of a coding method. Further disadvantages of common classification methods are often a great complexity or strong dependence on background noise, which in practice is constantly present.

Foreliggende oppfinnelse har til oppgave å tilveiebringe en fremgangsmåte og klassifisering av talesignaler for signaltilpasset styring av talekodemetoder for reduksjon av bithastigheten ved samme talekvalitet hhv. øking i kvaliteten ved lik bithastighet, hvor talesignalet klassifiseres ved hjelp av småbølgetransformasjoner (wavelet transform) for hvert tidsrom, idet det skal tilveiebringes såvel en høy oppløsning i tidsområdet som i frekvensområdet. The present invention has the task of providing a method and classification of speech signals for signal-adapted control of speech code methods for reducing the bit rate at the same speech quality or increase in quality at the same bit rate, where the speech signal is classified using wavelet transforms for each time slot, as a high resolution must be provided in the time range as well as in the frequency range.

Foreliggende oppfinnelses oppgave løses ved hjelp av en fremgangsmåte av den innledningsvis nevnte art hvis karakteristiske trekk fremgår av karakteristikken til krav 1 samt ved hjelp av en anordning av den innledningsvis nevnte art hvis karakteristiske trekk fremgår av krav 5. The task of the present invention is solved by means of a method of the type mentioned at the outset, the characteristic features of which are apparent from the characteristics of claim 1, as well as by means of a device of the type mentioned at the outset, the characteristics of which are apparent from claim 5.

Ytterligere løsninger hhv. utforminger av oppfinnelsen fremgår av de uselvstendige kravene. Further solutions or designs of the invention appear from the independent claims.

Her beskrives en fremgangsmåte og en anordning hvor talesignalet klassifiseres på basis av småbølge-transformasjon for hver tidsramme. Derved kan, tilsvarende kravet til talesignalene, det tilveiebringes en høy oppløsning i tidsområdet (lokalisering av pulser) som også i frekvensområdet (god middelverdi). Klassifiseringen egner seg derfor spesielt til styring hhv. utvalg av kodebøker i en lavhastighetstalekoder. Fremgangsmåten og anordningen viser dessuten stor ufølsomhet i forhold til bakgrunnsstøy såvel som en lav kompleksitet. Ved småbølge-transformasjon er det her, lignende Fourier-transformasjon, en matematisk metode for dannelse av en modell for et signal eller et system. I motsetning til Fourier-transformasjonen kan imidlertid i tids- og frekvens- hhv. skaleringsområdet oppløsningen tilsvarende fleksibelt tilpasses kravene. Basisfunksjonen til småbølge-transformasjonen blir frembrakt ved skalering og forskyvning av en såkalt mor-småbølge og har båndpasskarakter. Småbølge-transformasjonen er dermed først entydig definert ved angivelse av tilhørende mor-småbølge. Bakgrunnen til detaljene for den matematiske teorien er f.eks. oppvist av Rioul O., Vetterli, M. i artikkelen "Wavelets and Signal Processing, IEEE Signal Processing Magazine", oktober 1991. Here is described a method and a device where the speech signal is classified on the basis of small-wave transformation for each time frame. Thereby, corresponding to the requirement for the voice signals, a high resolution can be provided in the time range (localization of pulses) as well as in the frequency range (good mean value). The classification is therefore particularly suitable for management or selection of codebooks in a low-speed speech coder. The method and device also show great insensitivity to background noise as well as a low complexity. In the case of small-wave transformation, it is here, similar to Fourier transformation, a mathematical method for forming a model for a signal or a system. In contrast to the Fourier transformation, however, in time and frequency the scaling range, the resolution correspondingly flexibly adapted to the requirements. The basic function of the small-wave transformation is produced by scaling and shifting a so-called mother small-wave and has a bandpass character. The small-wave transformation is therefore first unambiguously defined by specifying the associated mother small-wave. The background to the details of the mathematical theory is e.g. presented by Rioul O., Vetterli, M. in the article "Wavelets and Signal Processing, IEEE Signal Processing Magazine", October 1991.

På grunn av sine egenskaper egner småbølgetransformasjonen seg godt for analysering av ikke-stasjonære signaler. En ytterligere fordel er eksistensen av hurtige algoritmer, med hvilke det kan utføres en effektiv beregning av småbølgetransformasjonen. Vellykket anvendelse i området av signalbearbeidelsen finnes mellom annet innenfor bildekoding, ved bredbåndkorrelasjonsmetoder (f.eks. for radar) såvel som for talegrunnfrekvensantagelse, som mellom annet fremgår av følgende litteratursteder: Mallat, S., Zhong, S.: "Characterization of Signals from Multiscale Edges", i IEEE Transactions on Pattern Analysis and Machine Intelligence", i juli 1992, såvel som i artikkelen av Kadambe, S. Boudreaux-Bartels, G.F.: "Applications of the Wavelet Transform for Pitch Detection of Speech Signals", i "IEEE Transactions on Information Theory" fra mars 1992. Due to its properties, the small wavelet transform is well suited for analyzing non-stationary signals. A further advantage is the existence of fast algorithms, with which an efficient calculation of the wavelet transform can be performed. Successful application in the area of signal processing can be found, among other things, within image coding, by broadband correlation methods (e.g. for radar) as well as for speech fundamental frequency assumption, which can be seen, among other things, from the following literature sources: Mallat, S., Zhong, S.: "Characterization of Signals from Multiscale Edges", in IEEE Transactions on Pattern Analysis and Machine Intelligence", in July 1992, as well as in the article by Kadambe, S. Boudreaux-Bartels, G.F.: "Applications of the Wavelet Transform for Pitch Detection of Speech Signals", in " IEEE Transactions on Information Theory" from March 1992.

I det påfølgende skal oppfinnelsen beskrives nærmere ved hjelp av et utførelseseksempel med henvisning til tegningene, hvor: In what follows, the invention will be described in more detail by means of an embodiment with reference to the drawings, where:

Fig. 1 viser den prinsipielle oppbygningen av en klassifisering. Fig. 1 shows the basic structure of a classification.

Fig. 2A og 2B viser klassifiseringsresultatene for talesegmenter. Fig. 2A and 2B show the classification results for speech segments.

På fig. 1 er først vist segmentering av talesignalet. Talesignalet blir oppdelt i segmenter av konstant lengde, idet lengden på segmentene skal utgjøre mellom 5 ms og 40 ms. For å unngå kanteffekter ved den påfølgende transformasjonen kan det anvendes en av de tre følgende teknikker: In fig. 1 first shows the segmentation of the speech signal. The speech signal is divided into segments of constant length, the length of the segments being between 5 ms and 40 ms. To avoid edge effects during the subsequent transformation, one of the three following techniques can be used:

Segmentet blir speilet ved grensene. The segment is mirrored at the boundaries.

Småbølge-transformasjonen blir beregnet i mindre intervall (L/2, N-L/2) og forskjøvet i rammen kun om konstanten L/2 slik at segmentene overlappes. L er da lengden til en på den tidsmessige opprinnelig sentrerte småbølge, idet betingelsen N>L må gjelde. The small-wave transformation is calculated in a smaller interval (L/2, N-L/2) and shifted in the frame only by the constant L/2 so that the segments overlap. L is then the length of a small wave originally centered on the time, as the condition N>L must apply.

På kantene til segmentet påfylles med den forangående hhv. fremtidige The edges of the segment are filled with the preceding or future

avtastingsverdi. sampling value.

Deretter foregår en diskret småbølge-transformasjon. For et slikt segment s(k) blir beregnet en tidsdiskret småbølge-transformasjon (DWT) SH(m,n) i forhold til en småbølge h(k) med en heltallig parameterskalering m og en tidsforskyvelse n. Denne transformasjonen defineres av: A discrete small-wave transformation then takes place. For such a segment s(k), a time-discrete small-wave transform (DWT) SH(m,n) is calculated in relation to a small-wave h(k) with an integer parameter scaling m and a time shift n. This transformation is defined by:

hvor Nu og N0 utgjør de av den valgte segmenteringen på forhånd gitte nedre hhv. øvre grense til tidsindekset k. Transformasjonen må kun bli beregnet for skaleringsområdet 0<m<M og tidsområdet i intervallet (0,N), idet konstanten M må velges i avhengighet av aQ så stor at den laveste signalfrekvensen i transformasjonsområdet fremdeles kan bli tilstrekkelig godt representert. where Nu and N0 constitute the previously given lower and upper limit of the time index k. The transformation must only be calculated for the scaling range 0<m<M and the time range in the interval (0,N), as the constant M must be chosen in dependence on aQ so large that the lowest signal frequency in the transformation range can still be sufficiently good represented.

For klassifisering av talesignalene er det som regel tilstrekkelig å betrakte signalet som dyadiske skaleringer (a0=2). Er det mulig å fremstille småbølgen h(k) ved hjelp av en såkalt "multioppløsnings-analyse" ifølge Rioul, Vetterli ved hjelp av en iterasjons-filterrekke slik at det for beregning av den dyadiske småbølge-transformasjonen kan anvendes i literaturen angitte, effektive, rekursive algoritmer. I dette tilfelle (a0=2) er en spalting til maksimalt M=6 tilstrekkelig. For klassifisering egner seg spesielt småbølger med mindre signifikant oscillasjonssyklus, men imidlertid så glatt som mulig funksjonsforløp. F.eks. kan kubiske spline-småbølger eller ortogonale Daubechies-småbølger av liten lengde anvendes. For the classification of the speech signals, it is usually sufficient to consider the signal as dyadic scalings (a0=2). Is it possible to produce the small wave h(k) by means of a so-called "multi-resolution analysis" according to Rioul, Vetterli by means of an iteration filter series so that for the calculation of the dyadic small wave transformation, the effective, specified in the literature, can be used recursive algorithms. In this case (a0=2) a split to a maximum of M=6 is sufficient. For classification, small waves with a less significant oscillation cycle, but as smooth as possible a functional course, are particularly suitable. E.g. cubic spline wavelets or orthogonal Daubechies wavelets of small length can be used.

Deretter foregår klasseinndelingen. Talesegmentet inndeles på basis av transformasjonskoeffisientene i klasser. For å tilveiebringe en tilstrekkelig fin tidsoppløsning blir segmentene inndelt ytterligere i P underrammer slik at for hver underramme utleveres et klassifiseringsresultat. For en anvendelse i lavhastighetstalekodemetoden ble adskillelsen foretatt i følgende klasser: The class division then takes place. The speech segment is divided into classes on the basis of the transformation coefficients. In order to provide a sufficiently fine time resolution, the segments are further divided into P subframes so that a classification result is provided for each subframe. For an application in the low-speed speech coding method, the separation was made into the following classes:

(1) Bakgrunnsstøy/ustemt, (1) Background noise/out of tune,

(2) signaloverganger/"voicing onsets", (2) voicing onsets,

(3) periodisk/stemt. (3) periodic/voiced.

Ved anvendelse i bestemte kodemetoder kan det være hensiktsmessig å oppdele den periodiske klassen ytterligere, og da i avsnitt med overveiende lavfrekvent energi eller jevnt fordelt energi. Valgvis kan derfor også utføres et skille på mer enn tre klasser. When used in certain coding methods, it may be appropriate to divide the periodic class further, and then into sections with predominantly low-frequency energy or evenly distributed energy. Optionally, a separation of more than three classes can therefore also be carried out.

I tilslutning dertil foregår i en tilsvarende prosessor en parameterberegning. Først blir av transformasjonskoeffisientene Sn(m,n,) bestemt et sett med parametere, med hjelp av hvilke det deretter kan foretas den endelige klasseinndelingen. Utvalg av parametrene skalerings-forskjellsmål (Pj), tidsmessig forskjellsmål (P2) og periodisitetsmål (P3) har vist seg å være spesielt gunstig, da de har en direkte avhengighet av definerte klasser (1) til (3). In addition, a parameter calculation takes place in a corresponding processor. First, a set of parameters is determined from the transformation coefficients Sn(m,n,), with the help of which the final class division can then be made. Selection of the parameters scaling-difference measure (Pj), temporal difference measure (P2) and periodicity measure (P3) has proven to be particularly beneficial, as they have a direct dependence on defined classes (1) to (3).

For Pj blir variasjonen av energien til DWT-transformasjonskoeffisientene beregnet over alle skaleringsområdene. På basis av disse parametrene kan rammevis, altså fra en relativt grov tidsraster, bestemmes om talesignalet er ustemt eller hhv. foreligger kun ved bakgrunnsstøy. For Pj, the variation of the energy of the DWT transformation coefficients is calculated over all the scaling ranges. On the basis of these parameters, it can be determined roughly, i.e. from a relatively rough time grid, whether the speech signal is out of tune or is only available in the case of background noise.

For å tilveiebringe P2 beregnes først den midlere energiforskjellen til transformasjonskoeffisienten mellom den aktuelle og den forutgående rammen. Nå blir for transformasjonskoeffisienten i finere skaleringstrinn (m liten) tilveiebrakt energiforskjellen mellom tilliggende delrammer og sammenlignet med energiforskjellen for totalrammen. Dermed kan det bestemmes et mål for sannsynligheten av en signalovergang (f.eks. ustemt til stemt) for hver delramme, altså for en finere tidsraster. To provide P2, the average energy difference of the transformation coefficient between the current and the previous frame is first calculated. Now for the transformation coefficient in finer scaling steps (m small) the energy difference between adjacent sub-frames is provided and compared with the energy difference for the total frame. Thus, a measure can be determined for the probability of a signal transition (e.g. untuned to tuned) for each subframe, i.e. for a finer time frame.

For P3 er rammevis bestemt og testet de lokale maksimaene for transformasjonskoeffisientene av grovere skaleringstrinn (m nær M) om disse opptrer i regelmessige avstander. Som lokale maksima beregnet derved spissene, som overstiger en viss prosentsats T av det globale maksimum til rammen. For P3, the local maxima for the transformation coefficients of coarser scaling steps (m close to M) have been determined and tested as a framework if these occur at regular intervals. The tips, which exceed a certain percentage T of the global maximum of the frame, are thereby calculated as local maxima.

Den for denne parameterberegningen nødvendige terskelen styres adaptivt i avhengighet av det aktuelle nivået til bakgrunnsstøyen hvorved robustheten til metoden økes i støyende omgivelse. The threshold required for this parameter calculation is adaptively controlled depending on the current level of the background noise, whereby the robustness of the method is increased in noisy environments.

Derpå foretas bedømmelsen. De tre parametrene tilføres bedømmelsesenheten i form av "sannsynlighet" (på verdiområdet (0,1) dannede størrelser). Bedømmelsesenheten treffer det endelige klassifiseringsresultatet for hver delramme på basis av en tilstandsmodell. Dermed blir hukommelsen for den forangående delrammen tatt hensyn til med den foretatte avgjørelsen. Hensiktsmessige overganger er ikke forbudt, som f.eks. direktesprang fra ustemt til stemt. Som et resultat avgis til slutt pr. ramme en vektor med P komponenter, som inneholder klassifiseringsresultatet for de P delrammene. The assessment is then carried out. The three parameters are supplied to the assessment unit in the form of "probability" (quantities formed in the value range (0,1)). The judgment unit hits the final classification result for each subframe on the basis of a state model. Thus, the memory for the preceding subframe is taken into account with the decision made. Expedient transitions are not prohibited, such as e.g. direct jump from unvoiced to voiced. As a result, it is finally issued per frame a vector with P components, which contains the classification result for the P subframes.

På fig. 2a og 2b er vist klassifiseringsresultatet for talesegmentet "....parcel, Td like... " til en engelsktalende. Derved blir talerammen av lengden 20 ms oppdelt i fire med lik avstand delrammer av respektive 5 ms. DWT ble kun tilveiebrakt for dyadiske skaleringstrinn og på basis av kubisk Spline-småbølge implementert ved hjelp av en rekursiv filterrekke. De tre signalklassene ble betegnet med 0,1,2 i samme rekkefølge som ovenfor. For fig. 2a ble anvendt telefonbånd-tale (200 Hz til 3400 Hz) uten forstyrrelse, mens på fig. 2b ble i tillegg overlagret kjøretøystøy ved en gjennomsnittlig signal-støy-avstand på 10 dB. Sammenligning av de to figurene viser at klassifiseringsresultatet er nærmest uavhengig av støynivået. Med unntak av mindre forskjeller, som er irrelevant for anvendelse i talekoding blir de perseptuelle viktige periodiske avsnittene såvel som deres begynnelsespunkt og sluttpunkt godt lokalisert i begge tilfellene. Ved vurdering av et større mangfold av forskjellige talematerialer fremgikk det at klassifiseirngsfeilene lå tydelig under 5% for signal-støy-avstander ovenfor lOdB. In fig. 2a and 2b are shown the classification result for the speech segment "....parcel, Td like..." to an English speaker. Thereby, the speech frame of length 20 ms is divided into four equally spaced sub-frames of 5 ms each. DWT was provided only for dyadic scaling steps and based on cubic Spline wavelet implemented using a recursive filter array. The three signal classes were denoted by 0,1,2 in the same order as above. For fig. 2a, telephone band speech (200 Hz to 3400 Hz) was used without interference, while in fig. 2b, vehicle noise was additionally superimposed at an average signal-to-noise distance of 10 dB. Comparison of the two figures shows that the classification result is almost independent of the noise level. With the exception of minor differences, which are irrelevant for application in speech coding, the perceptually important periodic sections as well as their starting point and ending point are well located in both cases. When assessing a greater variety of different speech materials, it emerged that the classification errors were clearly below 5% for signal-to-noise distances above lOdB.

Klassifisereren ble dessuten testet med følgende typiske anvendelsestilfeller: En CELP-kodemetode arbeidet med en rammelengde på 20 ms og delte denne rammen for effektiv aktiveringskoding i fire delrammer å 5 ms. For hver delramme skal det tilsvarende anvendes tre av ovenfor nevnte signalklasser på basis av klassifisering av en tilpasset kombinasjon av kodebøker. For hver klasse ble det anvendt en typisk kodebok med respektive 9 bits/delrammer for koding av aktiveringen, hvorved det fremkom en bithastighet på kun 1800 bits/s for aktiveringskodingen (uten forsterkning). Det ble for den ustemte klassen anvendt en Gauss-kodebok, for Onset-klassen en to-pulskodebok og for den periodiske klassen en adaptiv kodebok. Allerede på denne enkle, med faste delrammelengder arbeidende konstellasjon av kodebøker, fremkommer en god forståelig talekvalitet, men med en viss rå klang i periodiske avsnitt. Til sammenligning skal nevnes at i ITU-T, Study Group 15 Contribution - Q. 12/15: "Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code - Exited-Linear-Predictive (CS-ACELP) Coding" fra 1995, ble det for kodingen av aktiveringen (uten forsterkning) nødvendig med 4800 bits/s for å tilveiebringe en ledingskvalitet. I artikkelen av Gerson, I. et al., "Speech and Channel Coding for the Half-Rate GSM Channel", ITG-Fachbericht "Codierung fur Quelle, Kanal und Ubertragung" fra 1994, ble det anvendt 2800 bits/s for å sikre mobiltelefonkvalitet. The classifier was also tested with the following typical application cases: A CELP coding method worked with a frame length of 20 ms and divided this frame for efficient activation coding into four subframes of 5 ms. For each subframe, three of the above-mentioned signal classes must be used correspondingly, based on the classification of an adapted combination of codebooks. For each class, a typical codebook with respective 9 bits/subframes was used for encoding the activation, resulting in a bit rate of only 1800 bits/s for the activation encoding (without amplification). A Gaussian codebook was used for the untuned class, a two-pulse codebook for the Onset class and an adaptive codebook for the periodic class. Already on this simple constellation of codebooks working with fixed sub-frame lengths, a good intelligible speech quality emerges, but with a certain raw sound in periodic sections. For comparison, it should be mentioned that in ITU-T, Study Group 15 Contribution - Q. 12/15: "Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code - Exited-Linear-Predictive (CS-ACELP) Coding" from 1995, for the coding of the activation (without gain) 4800 bits/s was required to provide a line quality. In the article by Gerson, I. et al., "Speech and Channel Coding for the Half-Rate GSM Channel", ITG-Fachbericht "Codierung fur Quelle, Kanal und Ubertragung" from 1994, 2800 bits/s was used to ensure mobile phone quality.

Claims (5)

1. Fremgangsmåte for klassifisering av tale, spesielt talesignaler for den signaltilpassede styring av talekodemetoder for reduksjon av bithastigheten ved samme talekvalitet eller for øking i kvaliteten ved lik bithastighet, karakterisert v e d at etter segmenteringen av talesignaler for hver dannet ramme beregnes en småbølge-transformasjon, av hvilken det ved hjelp av adaptiv terskel bestemmes et sett parametere (P1-P3), som styrer en tilstandsmodell, som deler opp talerammen i delrammer, og hver av disse delrammene deles opp i en av flere for talekodingen typiske klasser.1. Method for classifying speech, in particular speech signals for the signal-adapted control of speech code methods for reducing the bit rate at the same speech quality or increasing the quality at the same bit rate, characterized in that after the segmentation of speech signals for each formed frame a small-wave transformation is calculated, from which the by means of adaptive threshold, a set of parameters (P1-P3) is determined, which controls a state model, which divides the speech frame into sub-frames, and each of these sub-frames is divided into one of several classes typical for speech coding. 2. Fremgangsmåte ifølge krav 1, karakterisert ved at talesignalet deles inn i segmenter av konstant lengde, og at for unngåelse av kanteffekter ved påfølgende småbølge-transformasjon blir enten segmentet speilet ved grensene eller småbølge-transformasjonen beregnes i mindre intervaller (L/2, N-L/2) og rammene forskyves med en konstant forskyvning L/2, slik at segmentene overlappes eller at ved kantene til segmentet utfylles med forutgående hhv. påfølgende avfølingsverdier.2. Method according to claim 1, characterized in that the speech signal is divided into segments of constant length, and that to avoid edge effects during subsequent small-wave transformation, either the segment is mirrored at the boundaries or the small-wave transformation is calculated in smaller intervals (L/2, N-L/2 ) and the frames are displaced with a constant displacement L/2, so that the segments overlap or that the edges of the segment are filled with preceding or subsequent sensing values. 3. Fremgangsmåte ifølge krav 1 eller 2, karakterisert v e d at for et segment s(k) beregnes en tidsdiskret småbølge-transformasjon (DWT) Sn(mn) i forhold til en småbølge h(k) med heltallig parameterskalering m og tidsforskyvning n, og at segmentet på basis av transformasjonskoeffisienten deles i klasser, og inndeles ytterligere i P delrammer for tilveiebringelse av en finere tidsoppløsning og for hver delramme beregnes og utarbeides et klassifiseringsresultat.3. Method according to claim 1 or 2, characterized in that for a segment s(k) a time-discrete small wave transformation (DWT) Sn(mn) is calculated in relation to a small wave h(k) with integer parameter scaling m and time shift n, and that the segment on the basis of the transformation coefficient is divided into classes, and further divided into P sub-frames to provide a finer time resolution and for each sub-frame a classification result is calculated and prepared. 4. Fremgangsmåte ifølge et av kravene 1-3, karakterisert ved at av transformasjonskoeffisientene Sh(mn) bestemmes et sett med parametere, især skalerings-forskjellsmål (Pi), tidsmessig forskjellsmål (P2) og periodisitetsmål (P3), ved hjelp av hvilket det deretter foretas en endelig klasseinndeling, idet de for denne parameterberegningen nødvendige terskelverdier styres adaptivt i avhengighet av et aktuelt nivå til bakgrunnsstøyen.4. Method according to one of the claims 1-3, characterized in that a set of parameters is determined from the transformation coefficients Sh(mn), in particular scaling difference measure (Pi), temporal difference measure (P2) and periodicity measure (P3), with the help of which it is then carried out a final class division, as the threshold values required for this parameter calculation are controlled adaptively depending on a current level of the background noise. 5. Anordning, spesielt en klassifiserer for gjennomføring av fremgangsmåten ifølge et av kravene 1-4, karakterisert ved at inngangstalesignalet sendes gjennom en segmenteringsanordning, at en prosessor deretter beregner en diskret wavelet (småbølge) transformasjon for hvert segment eller ramme av signalet, at et sett med parametre (P1-P3) blir utledet derfra ved hjelp av adaptive terskler, at parametrene er inngangsstørrelser i en tilstandsmodell der talerammene blir delt i underrammer, og at hver underramme blir tildelt en av flere typiske klasser for talekodingen.5. Device, in particular a classifier for carrying out the method according to one of claims 1-4, characterized by that the input speech signal is sent through a segmentation device, that a processor then calculates a discrete wavelet transform for each segment or frame of the signal, that a set of parameters (P1-P3) is derived from there by means of adaptive thresholds, that the parameters are input quantities in a state model where the speech frames are divided into subframes, and that each subframe is assigned to one of several typical classes for the speech coding.
NO961636A 1995-06-30 1996-04-24 Method and apparatus for classifying speech signals NO309831B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19523598 1995-06-30
DE19538852A DE19538852A1 (en) 1995-06-30 1995-10-19 Method and arrangement for classifying speech signals

Publications (3)

Publication Number Publication Date
NO961636D0 NO961636D0 (en) 1996-04-24
NO961636L NO961636L (en) 1997-01-02
NO309831B1 true NO309831B1 (en) 2001-04-02

Family

ID=26016384

Family Applications (1)

Application Number Title Priority Date Filing Date
NO961636A NO309831B1 (en) 1995-06-30 1996-04-24 Method and apparatus for classifying speech signals

Country Status (4)

Country Link
EP (1) EP0751495B1 (en)
AT (1) ATE206841T1 (en)
ES (1) ES2165933T3 (en)
NO (1) NO309831B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19716862A1 (en) * 1997-04-22 1998-10-29 Deutsche Telekom Ag Voice activity detection

Also Published As

Publication number Publication date
EP0751495A2 (en) 1997-01-02
NO961636L (en) 1997-01-02
NO961636D0 (en) 1996-04-24
EP0751495B1 (en) 2001-10-10
EP0751495A3 (en) 1998-04-15
ATE206841T1 (en) 2001-10-15
ES2165933T3 (en) 2002-04-01

Similar Documents

Publication Publication Date Title
US5781881A (en) Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
KR100908219B1 (en) Method and apparatus for robust speech classification
US6959274B1 (en) Fixed rate speech compression system and method
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP3197155B2 (en) Method and apparatus for estimating and classifying a speech signal pitch period in a digital speech coder
US6871176B2 (en) Phase excited linear prediction encoder
US5930747A (en) Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands
KR20020052191A (en) Variable bit-rate celp coding of speech with phonetic classification
US9818421B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
JPH05346797A (en) Voiced sound discriminating method
Latorre et al. Continuous F0 in the source-excitation generation for HMM-based TTS: Do we need voiced/unvoiced classification?
EP1995723B1 (en) Neuroevolution training system
KR100463417B1 (en) The pitch estimation algorithm by using the ratio of the maximum peak to candidates for the maximum of the autocorrelation function
US6564182B1 (en) Look-ahead pitch determination
KR20040042903A (en) Generalized analysis-by-synthesis speech coding method, and coder implementing such method
Xia et al. A new strategy of formant tracking based on dynamic programming
Stegmann et al. Robust classification of speech based on the dyadic wavelet transform with application to CELP coding
Kuropatwinski et al. Estimation of the excitation variances of speech and noise AR-models for enhanced speech coding
NO309831B1 (en) Method and apparatus for classifying speech signals
EP0713208B1 (en) Pitch lag estimation system
Wong On understanding the quality problems of LPC speech
Hassanein et al. A hybrid multiband excitation coder for low bit rates
Yu et al. Variable bit rate MBELP speech coding via v/uv distribution dependent spectral quantization
DE19538852A1 (en) Method and arrangement for classifying speech signals

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees