NO309831B1 - FremgangsmÕte og anordning for klassifisering av talesignaler - Google Patents
FremgangsmÕte og anordning for klassifisering av talesignaler Download PDFInfo
- Publication number
- NO309831B1 NO309831B1 NO961636A NO961636A NO309831B1 NO 309831 B1 NO309831 B1 NO 309831B1 NO 961636 A NO961636 A NO 961636A NO 961636 A NO961636 A NO 961636A NO 309831 B1 NO309831 B1 NO 309831B1
- Authority
- NO
- Norway
- Prior art keywords
- speech
- frames
- divided
- frame
- segment
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000009466 transformation Effects 0.000 claims abstract description 28
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims 1
- 230000004913 activation Effects 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
Foreliggende oppfinnelse angår en fremgangsmåte for klassifisering av talesignaler av den art som angitt i innledningen til krav 1, såvel som en anordning for utførelse av fremgangsmåte som angitt i innledningen til krav 5.
Talekodemetoder og tilhørende anordning for klassifisering av talesignaler for bithastigheter under 8 kbits pr. sekund blir mer og mer av betydning.
Hovedanvendelsen for disse er mellom annet ved multipleksoverføring for bestående faste nett og ved mobilsystemer av den tredje generasjonen. Også for beredskapsholdelse av tjenester som f.eks. videofoni er det nødvendig med talekodemetoder innenfor dette datahastighetsområde.
De fleste til nå kjente høykvalitative talekodemetodene for datahastighet mellom 4 kbits/s og 8 kbits/s arbeider etter prinsippet med kodeeksitert lineærforutsigelse (CELP)-metoden som beskrevet av Schroder, M.R., Atal, B.S.: "Code-Exited Linear Prediction CELP)": "High Quality Speech at Very Low Bit Rates" i Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1985. Her blir talesignalene syntetisert ved lineær filtrering av aktiveringsvektorer fra en eller flere kodebøker. I et første trinn blir koeffisientene til korttids-syntesefilteret tilveiebrakt ved LPC-analyse fra inngangs-talevektoren og så kvantisert. I tilslutning blir aktiveringskodebøkene gjennomsøkt, idet det som optimeringskriterium anvendes den perseptuelle vektede feil mellom opprinnelig og syntetisert talevektor (analyse ved syntese). Overført blir til slutt kun merket til den optimale vektoren, fra hvilket dekoderen kan igjen frembringe den syntetiserte talevektoren.
Mange av disse kodemetodene, som f.eks. den nye kbit/s talekoden til ITU-T, beskrevet i "Study Group 15 Contribution" - Q. 12/15: Draft Recommendation G.729 - Coding of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited-Linear-Predictive (CS-ACELP) Coding, 1995, arbeider med en fast kombinasjon av kodebøker. Denne stive anordningen tar ikke hensyn til den sterke tidsmessige endringen av egenskapene til talesignalet og trenger for koding i gjennomsnitt flere biter enn nødvendig. F.eks. forblir den adaptive kodeboken, som er nødvendig kun for koding av periodiske taleavsnitt, også innkoblet i løpet av entydige ikke-periodiske segmenter.
For å oppnå ved lave datahastigheter i området 4 kbits/s minst mulig reduksjon i kvaliteten, blir det derfor foreslått i andre publikasjoner, som f.eks. i artikkelen av Wang, S., Gersho, A.: "Phonetically-Based Vector Excitation Coding of Speech at 3,6 kbit/s", "Proceeding of IEEE International Conference On Acoustics, Speech and Signal Processing", 1989, at talesignaler før kodingen innordnes i forskjellige typiske klasser. I forslaget for GSM-halvhastighetssystemet blir signalet delt på basis av langtids-prediksjonsgevinst rammevis (alle 20 ms) i stemte og ustemte avsnitt med respektive tilpassede kodebøker, hvorved datahastigheten for aktiveringen reduseres og kvaliteten forblir stort sett lik i forhold til fullhastighetssystemet. Ved en generell undersøkelse ble signalet inndelt i klassene stemt, ustemt og "Onset". Derved ble det utvunnet avgjørelse rammevis (her 11,25 ms) på basis av parametrene, som mellom annet nullgjennomgangshastighetene, refleksjonskoeffisisentene, energi, ved lineær diskriminering. Jfr. eksempelet av Campbell, J., Tremain, T.: "Voiced/Unvoiced Classification of Speech with Application to the U.S. Gouvernment LPC-10e algoritme", i "Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing", i 1986. Hver klasse blir igjen tilordnet en bestemt kombinasjon av kodebøker slik at datahastigheten kan bli redusert til 3,6 kbits/s ved midlere kvalitet.
Alle disse kjente metodene tilveiebringer resultatet av sin klassifisering ut fra parametere, som frembringes ved beregning av tidsmiddelverdien fra et vindu av konstant lengde. Den tidsmessige oppløsningen er også først bestemt på forhånd av valget av denne vinduslengden. Reduseres vinduslengden så reduseres også nøyaktigheten på middelverdien. Økes vinduslengden så kan derimot det tidsmessige forløpet til middelverdien ikke lenger følge forløpet til det ikke-stasjonære talesignal. Dette gjelder spesielt for sterke, ikke-stasjonære overganger (Onsets) fra ustemte til stemte taleavsnitt. Nettopp de tidsmessige riktige reproduksjonene av posisjonen til den første signifikante pulsen for stemte avsnitt er imidlertid viktig for den subjektive bedømmelsen av en kodemetode. Ytterligere ulemper ved vanlige klassifiseirngsmetoder er ofte en stor kompleksitet eller sterk avhengighet av i praksis stadig tilstedeværende bakgrunnsstøy.
Foreliggende oppfinnelse har til oppgave å tilveiebringe en fremgangsmåte og klassifisering av talesignaler for signaltilpasset styring av talekodemetoder for reduksjon av bithastigheten ved samme talekvalitet hhv. øking i kvaliteten ved lik bithastighet, hvor talesignalet klassifiseres ved hjelp av småbølgetransformasjoner (wavelet transform) for hvert tidsrom, idet det skal tilveiebringes såvel en høy oppløsning i tidsområdet som i frekvensområdet.
Foreliggende oppfinnelses oppgave løses ved hjelp av en fremgangsmåte av den innledningsvis nevnte art hvis karakteristiske trekk fremgår av karakteristikken til krav 1 samt ved hjelp av en anordning av den innledningsvis nevnte art hvis karakteristiske trekk fremgår av krav 5.
Ytterligere løsninger hhv. utforminger av oppfinnelsen fremgår av de uselvstendige kravene.
Her beskrives en fremgangsmåte og en anordning hvor talesignalet klassifiseres på basis av småbølge-transformasjon for hver tidsramme. Derved kan, tilsvarende kravet til talesignalene, det tilveiebringes en høy oppløsning i tidsområdet (lokalisering av pulser) som også i frekvensområdet (god middelverdi). Klassifiseringen egner seg derfor spesielt til styring hhv. utvalg av kodebøker i en lavhastighetstalekoder. Fremgangsmåten og anordningen viser dessuten stor ufølsomhet i forhold til bakgrunnsstøy såvel som en lav kompleksitet. Ved småbølge-transformasjon er det her, lignende Fourier-transformasjon, en matematisk metode for dannelse av en modell for et signal eller et system. I motsetning til Fourier-transformasjonen kan imidlertid i tids- og frekvens- hhv. skaleringsområdet oppløsningen tilsvarende fleksibelt tilpasses kravene. Basisfunksjonen til småbølge-transformasjonen blir frembrakt ved skalering og forskyvning av en såkalt mor-småbølge og har båndpasskarakter. Småbølge-transformasjonen er dermed først entydig definert ved angivelse av tilhørende mor-småbølge. Bakgrunnen til detaljene for den matematiske teorien er f.eks. oppvist av Rioul O., Vetterli, M. i artikkelen "Wavelets and Signal Processing, IEEE Signal Processing Magazine", oktober 1991.
På grunn av sine egenskaper egner småbølgetransformasjonen seg godt for analysering av ikke-stasjonære signaler. En ytterligere fordel er eksistensen av hurtige algoritmer, med hvilke det kan utføres en effektiv beregning av småbølgetransformasjonen. Vellykket anvendelse i området av signalbearbeidelsen finnes mellom annet innenfor bildekoding, ved bredbåndkorrelasjonsmetoder (f.eks. for radar) såvel som for talegrunnfrekvensantagelse, som mellom annet fremgår av følgende litteratursteder: Mallat, S., Zhong, S.: "Characterization of Signals from Multiscale Edges", i IEEE Transactions on Pattern Analysis and Machine Intelligence", i juli 1992, såvel som i artikkelen av Kadambe, S. Boudreaux-Bartels, G.F.: "Applications of the Wavelet Transform for Pitch Detection of Speech Signals", i "IEEE Transactions on Information Theory" fra mars 1992.
I det påfølgende skal oppfinnelsen beskrives nærmere ved hjelp av et utførelseseksempel med henvisning til tegningene, hvor:
Fig. 1 viser den prinsipielle oppbygningen av en klassifisering.
Fig. 2A og 2B viser klassifiseringsresultatene for talesegmenter.
På fig. 1 er først vist segmentering av talesignalet. Talesignalet blir oppdelt i segmenter av konstant lengde, idet lengden på segmentene skal utgjøre mellom 5 ms og 40 ms. For å unngå kanteffekter ved den påfølgende transformasjonen kan det anvendes en av de tre følgende teknikker:
Segmentet blir speilet ved grensene.
Småbølge-transformasjonen blir beregnet i mindre intervall (L/2, N-L/2) og forskjøvet i rammen kun om konstanten L/2 slik at segmentene overlappes. L er da lengden til en på den tidsmessige opprinnelig sentrerte småbølge, idet betingelsen N>L må gjelde.
På kantene til segmentet påfylles med den forangående hhv. fremtidige
avtastingsverdi.
Deretter foregår en diskret småbølge-transformasjon. For et slikt segment s(k) blir beregnet en tidsdiskret småbølge-transformasjon (DWT) SH(m,n) i forhold til en småbølge h(k) med en heltallig parameterskalering m og en tidsforskyvelse n. Denne transformasjonen defineres av:
hvor Nu og N0 utgjør de av den valgte segmenteringen på forhånd gitte nedre hhv. øvre grense til tidsindekset k. Transformasjonen må kun bli beregnet for skaleringsområdet 0<m<M og tidsområdet i intervallet (0,N), idet konstanten M må velges i avhengighet av aQ så stor at den laveste signalfrekvensen i transformasjonsområdet fremdeles kan bli tilstrekkelig godt representert.
For klassifisering av talesignalene er det som regel tilstrekkelig å betrakte signalet som dyadiske skaleringer (a0=2). Er det mulig å fremstille småbølgen h(k) ved hjelp av en såkalt "multioppløsnings-analyse" ifølge Rioul, Vetterli ved hjelp av en iterasjons-filterrekke slik at det for beregning av den dyadiske småbølge-transformasjonen kan anvendes i literaturen angitte, effektive, rekursive algoritmer. I dette tilfelle (a0=2) er en spalting til maksimalt M=6 tilstrekkelig. For klassifisering egner seg spesielt småbølger med mindre signifikant oscillasjonssyklus, men imidlertid så glatt som mulig funksjonsforløp. F.eks. kan kubiske spline-småbølger eller ortogonale Daubechies-småbølger av liten lengde anvendes.
Deretter foregår klasseinndelingen. Talesegmentet inndeles på basis av transformasjonskoeffisientene i klasser. For å tilveiebringe en tilstrekkelig fin tidsoppløsning blir segmentene inndelt ytterligere i P underrammer slik at for hver underramme utleveres et klassifiseringsresultat. For en anvendelse i lavhastighetstalekodemetoden ble adskillelsen foretatt i følgende klasser:
(1) Bakgrunnsstøy/ustemt,
(2) signaloverganger/"voicing onsets",
(3) periodisk/stemt.
Ved anvendelse i bestemte kodemetoder kan det være hensiktsmessig å oppdele den periodiske klassen ytterligere, og da i avsnitt med overveiende lavfrekvent energi eller jevnt fordelt energi. Valgvis kan derfor også utføres et skille på mer enn tre klasser.
I tilslutning dertil foregår i en tilsvarende prosessor en parameterberegning. Først blir av transformasjonskoeffisientene Sn(m,n,) bestemt et sett med parametere, med hjelp av hvilke det deretter kan foretas den endelige klasseinndelingen. Utvalg av parametrene skalerings-forskjellsmål (Pj), tidsmessig forskjellsmål (P2) og periodisitetsmål (P3) har vist seg å være spesielt gunstig, da de har en direkte avhengighet av definerte klasser (1) til (3).
For Pj blir variasjonen av energien til DWT-transformasjonskoeffisientene beregnet over alle skaleringsområdene. På basis av disse parametrene kan rammevis, altså fra en relativt grov tidsraster, bestemmes om talesignalet er ustemt eller hhv. foreligger kun ved bakgrunnsstøy.
For å tilveiebringe P2 beregnes først den midlere energiforskjellen til transformasjonskoeffisienten mellom den aktuelle og den forutgående rammen. Nå blir for transformasjonskoeffisienten i finere skaleringstrinn (m liten) tilveiebrakt energiforskjellen mellom tilliggende delrammer og sammenlignet med energiforskjellen for totalrammen. Dermed kan det bestemmes et mål for sannsynligheten av en signalovergang (f.eks. ustemt til stemt) for hver delramme, altså for en finere tidsraster.
For P3 er rammevis bestemt og testet de lokale maksimaene for transformasjonskoeffisientene av grovere skaleringstrinn (m nær M) om disse opptrer i regelmessige avstander. Som lokale maksima beregnet derved spissene, som overstiger en viss prosentsats T av det globale maksimum til rammen.
Den for denne parameterberegningen nødvendige terskelen styres adaptivt i avhengighet av det aktuelle nivået til bakgrunnsstøyen hvorved robustheten til metoden økes i støyende omgivelse.
Derpå foretas bedømmelsen. De tre parametrene tilføres bedømmelsesenheten i form av "sannsynlighet" (på verdiområdet (0,1) dannede størrelser). Bedømmelsesenheten treffer det endelige klassifiseringsresultatet for hver delramme på basis av en tilstandsmodell. Dermed blir hukommelsen for den forangående delrammen tatt hensyn til med den foretatte avgjørelsen. Hensiktsmessige overganger er ikke forbudt, som f.eks. direktesprang fra ustemt til stemt. Som et resultat avgis til slutt pr. ramme en vektor med P komponenter, som inneholder klassifiseringsresultatet for de P delrammene.
På fig. 2a og 2b er vist klassifiseringsresultatet for talesegmentet "....parcel, Td like... " til en engelsktalende. Derved blir talerammen av lengden 20 ms oppdelt i fire med lik avstand delrammer av respektive 5 ms. DWT ble kun tilveiebrakt for dyadiske skaleringstrinn og på basis av kubisk Spline-småbølge implementert ved hjelp av en rekursiv filterrekke. De tre signalklassene ble betegnet med 0,1,2 i samme rekkefølge som ovenfor. For fig. 2a ble anvendt telefonbånd-tale (200 Hz til 3400 Hz) uten forstyrrelse, mens på fig. 2b ble i tillegg overlagret kjøretøystøy ved en gjennomsnittlig signal-støy-avstand på 10 dB. Sammenligning av de to figurene viser at klassifiseringsresultatet er nærmest uavhengig av støynivået. Med unntak av mindre forskjeller, som er irrelevant for anvendelse i talekoding blir de perseptuelle viktige periodiske avsnittene såvel som deres begynnelsespunkt og sluttpunkt godt lokalisert i begge tilfellene. Ved vurdering av et større mangfold av forskjellige talematerialer fremgikk det at klassifiseirngsfeilene lå tydelig under 5% for signal-støy-avstander ovenfor lOdB.
Klassifisereren ble dessuten testet med følgende typiske anvendelsestilfeller: En CELP-kodemetode arbeidet med en rammelengde på 20 ms og delte denne rammen for effektiv aktiveringskoding i fire delrammer å 5 ms. For hver delramme skal det tilsvarende anvendes tre av ovenfor nevnte signalklasser på basis av klassifisering av en tilpasset kombinasjon av kodebøker. For hver klasse ble det anvendt en typisk kodebok med respektive 9 bits/delrammer for koding av aktiveringen, hvorved det fremkom en bithastighet på kun 1800 bits/s for aktiveringskodingen (uten forsterkning). Det ble for den ustemte klassen anvendt en Gauss-kodebok, for Onset-klassen en to-pulskodebok og for den periodiske klassen en adaptiv kodebok. Allerede på denne enkle, med faste delrammelengder arbeidende konstellasjon av kodebøker, fremkommer en god forståelig talekvalitet, men med en viss rå klang i periodiske avsnitt. Til sammenligning skal nevnes at i ITU-T, Study Group 15 Contribution - Q. 12/15: "Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code - Exited-Linear-Predictive (CS-ACELP) Coding" fra 1995, ble det for kodingen av aktiveringen (uten forsterkning) nødvendig med 4800 bits/s for å tilveiebringe en ledingskvalitet. I artikkelen av Gerson, I. et al., "Speech and Channel Coding for the Half-Rate GSM Channel", ITG-Fachbericht "Codierung fur Quelle, Kanal und Ubertragung" fra 1994, ble det anvendt 2800 bits/s for å sikre mobiltelefonkvalitet.
Claims (5)
1.
Fremgangsmåte for klassifisering av tale, spesielt talesignaler for den signaltilpassede styring av talekodemetoder for reduksjon av bithastigheten ved samme talekvalitet eller for øking i kvaliteten ved lik bithastighet, karakterisert v e d at etter segmenteringen av talesignaler for hver dannet ramme beregnes en småbølge-transformasjon, av hvilken det ved hjelp av adaptiv terskel bestemmes et sett parametere (P1-P3), som styrer en tilstandsmodell, som deler opp talerammen i delrammer, og hver av disse delrammene deles opp i en av flere for talekodingen typiske klasser.
2.
Fremgangsmåte ifølge krav 1, karakterisert ved at talesignalet deles inn i segmenter av konstant lengde, og at for unngåelse av kanteffekter ved påfølgende småbølge-transformasjon blir enten segmentet speilet ved grensene eller småbølge-transformasjonen beregnes i mindre intervaller (L/2, N-L/2) og rammene forskyves med en konstant forskyvning L/2, slik at segmentene overlappes eller at ved kantene til segmentet utfylles med forutgående hhv. påfølgende avfølingsverdier.
3.
Fremgangsmåte ifølge krav 1 eller 2, karakterisert v e d at for et segment s(k) beregnes en tidsdiskret småbølge-transformasjon (DWT) Sn(mn) i forhold til en småbølge h(k) med heltallig parameterskalering m og tidsforskyvning n, og at segmentet på basis av transformasjonskoeffisienten deles i klasser, og inndeles ytterligere i P delrammer for tilveiebringelse av en finere tidsoppløsning og for hver delramme beregnes og utarbeides et klassifiseringsresultat.
4.
Fremgangsmåte ifølge et av kravene 1-3, karakterisert ved at av transformasjonskoeffisientene Sh(mn) bestemmes et sett med parametere, især skalerings-forskjellsmål (Pi), tidsmessig forskjellsmål (P2) og periodisitetsmål (P3), ved hjelp av hvilket det deretter foretas en endelig klasseinndeling, idet de for denne parameterberegningen nødvendige terskelverdier styres adaptivt i avhengighet av et aktuelt nivå til bakgrunnsstøyen.
5.
Anordning, spesielt en klassifiserer for gjennomføring av fremgangsmåten ifølge et av kravene 1-4, karakterisert ved
at inngangstalesignalet sendes gjennom en segmenteringsanordning,
at en prosessor deretter beregner en diskret wavelet (småbølge) transformasjon for hvert segment eller ramme av signalet,
at et sett med parametre (P1-P3) blir utledet derfra ved hjelp av adaptive terskler,
at parametrene er inngangsstørrelser i en tilstandsmodell der talerammene blir delt i underrammer, og
at hver underramme blir tildelt en av flere typiske klasser for talekodingen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19523598 | 1995-06-30 | ||
DE19538852A DE19538852A1 (de) | 1995-06-30 | 1995-10-19 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Publications (3)
Publication Number | Publication Date |
---|---|
NO961636D0 NO961636D0 (no) | 1996-04-24 |
NO961636L NO961636L (no) | 1997-01-02 |
NO309831B1 true NO309831B1 (no) | 2001-04-02 |
Family
ID=26016384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO961636A NO309831B1 (no) | 1995-06-30 | 1996-04-24 | FremgangsmÕte og anordning for klassifisering av talesignaler |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0751495B1 (no) |
AT (1) | ATE206841T1 (no) |
ES (1) | ES2165933T3 (no) |
NO (1) | NO309831B1 (no) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19716862A1 (de) * | 1997-04-22 | 1998-10-29 | Deutsche Telekom Ag | Sprachaktivitätserkennung |
-
1996
- 1996-03-16 EP EP96104213A patent/EP0751495B1/de not_active Expired - Lifetime
- 1996-03-16 AT AT96104213T patent/ATE206841T1/de not_active IP Right Cessation
- 1996-03-16 ES ES96104213T patent/ES2165933T3/es not_active Expired - Lifetime
- 1996-04-24 NO NO961636A patent/NO309831B1/no not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP0751495A2 (de) | 1997-01-02 |
NO961636L (no) | 1997-01-02 |
NO961636D0 (no) | 1996-04-24 |
EP0751495B1 (de) | 2001-10-10 |
EP0751495A3 (de) | 1998-04-15 |
ATE206841T1 (de) | 2001-10-15 |
ES2165933T3 (es) | 2002-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5781881A (en) | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters | |
US5781880A (en) | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual | |
KR100908219B1 (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
US6959274B1 (en) | Fixed rate speech compression system and method | |
US5751903A (en) | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset | |
JP3197155B2 (ja) | ディジタル音声コーダにおける音声信号ピッチ周期の推定および分類のための方法および装置 | |
US6871176B2 (en) | Phase excited linear prediction encoder | |
US5930747A (en) | Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands | |
KR20020052191A (ko) | 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법 | |
US9818421B2 (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction | |
JPH05346797A (ja) | 有声音判別方法 | |
Latorre et al. | Continuous F0 in the source-excitation generation for HMM-based TTS: Do we need voiced/unvoiced classification? | |
EP1995723B1 (en) | Neuroevolution training system | |
KR100463417B1 (ko) | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 | |
US6564182B1 (en) | Look-ahead pitch determination | |
KR20040042903A (ko) | 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더 | |
Xia et al. | A new strategy of formant tracking based on dynamic programming | |
Stegmann et al. | Robust classification of speech based on the dyadic wavelet transform with application to CELP coding | |
Kuropatwinski et al. | Estimation of the excitation variances of speech and noise AR-models for enhanced speech coding | |
NO309831B1 (no) | FremgangsmÕte og anordning for klassifisering av talesignaler | |
EP0713208B1 (en) | Pitch lag estimation system | |
Wong | On understanding the quality problems of LPC speech | |
Hassanein et al. | A hybrid multiband excitation coder for low bit rates | |
Yu et al. | Variable bit rate MBELP speech coding via v/uv distribution dependent spectral quantization | |
DE19538852A1 (de) | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Lapsed by not paying the annual fees |