Nothing Special   »   [go: up one dir, main page]

DE19755191A1 - Determining model-specific factors for assigning classes to test data in speech recognition - Google Patents

Determining model-specific factors for assigning classes to test data in speech recognition

Info

Publication number
DE19755191A1
DE19755191A1 DE1997155191 DE19755191A DE19755191A1 DE 19755191 A1 DE19755191 A1 DE 19755191A1 DE 1997155191 DE1997155191 DE 1997155191 DE 19755191 A DE19755191 A DE 19755191A DE 19755191 A1 DE19755191 A1 DE 19755191A1
Authority
DE
Germany
Prior art keywords
classes
probability
training data
model
assignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1997155191
Other languages
German (de)
Inventor
Peter Beyerlein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE1997155191 priority Critical patent/DE19755191A1/en
Priority to EP98957052A priority patent/EP0960417B1/en
Priority to US09/367,214 priority patent/US6456969B1/en
Priority to PCT/IB1998/001990 priority patent/WO1999031654A2/en
Priority to JP53225499A priority patent/JP2001511267A/en
Priority to DE69815067T priority patent/DE69815067T2/en
Publication of DE19755191A1 publication Critical patent/DE19755191A1/en
Priority to US10/135,336 priority patent/US8112274B2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

The method uses a probability model to evaluate test data and assign them in different classes. Probability values of different models for the same class assignment are evaluated with model-specific factors and combined to form a total probability value. The model-specific factors are determined such that the total probability of assigning the training data to particular classes is a minimum compared to other classes, and erroneous classification of the training data is minimized.

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen modellspezifischer Faktoren zur Kombination verschiedener Modelle bei der Mustererkennung, insbesondere bei der Spracherkennung.The invention relates to a method for determining model-specific factors for the combination different models in pattern recognition, especially in speech recognition.

Die statistische Spracherkennungsmethode bedient sich der Bayesschen Entscheidungstheorie, um Erkenner mit minimaler Fehlerrate zu konstruieren [1]. Entsprechend dieser Theorie muß eine Beobachtung x in die Klasse k eingeordnet werden (kurz x ∈ k,) wenn bei gegebener a-posteriori Verteilung π(k|x) gilt:
The statistical speech recognition method uses Bayesian decision theory to construct recognizers with a minimal error rate [1]. According to this theory, an observation x must be classified in the class k (short x ∈ k,) if π (k | x) applies for a given posterior distribution:

Der Term log(π(k|x)/π(k'|x)) wird in der Literatur [1] als Diskriminantenfunktion bezeichnet.The term log (π (k | x) / π (k '| x)) is referred to in the literature [1] as a discriminant function.

Im folgenden wird dafür g(x,k,k') verwendet.In the following, g (x, k, k ') is used for this.

Projiziert man die Entscheidungsregel (1) auf die Erkennung ganzer Sätze, so werden beobachtete Äußerungen x T|1 = (x¹, . . ., xT) der zeitlichen Länge T in gesprochenen Wortfolgen w S|1 = (w¹, . . ., wS) der Länge S klassifiziert. Die a-posteriori Verteilung π(w S|1|x T|1) ist jedoch unbekannt, denn sie beschreibt den komplexen natürlichen Sprachkommunikationsprozeß des Menschen. Die muß folglich durch eine Verteilung p(w S|1|x T|1) approximiert werden. Als leistungsfähigste Approximationsmethode hat sich bisher die akustisch-phonetische und grammatikalische Modellierung der Sprache in Form von parametrischen Wahrscheinlichkeitsverteilungen erwiesen. Dabei ist die Form der Verteilung p(w S|1|x T|1) vorgegeben, die unbekannten Parameter der Verteilung werden auf Trainingsdaten geschätzt. Die gewonnene Verteilung p(w S|1|x T|1) wird anschließend in die Bayessche Entscheidungsregel eingesetzt. Die Äußerung x T|1 wird dann derjenigen Wortfolge w S|1 zugeordnet, für die gilt:
If the decision rule (1) is projected onto the recognition of entire sentences, observed utterances x T | 1 = (x 1,..., X T ) of the length of time T in spoken word sequences w S | 1 = (w 1,... , w S ) of length S classified. However, the a-posteriori distribution π (w S | 1 | x T | 1) is unknown, because it describes the complex natural speech communication process of humans. It must therefore be approximated by a distribution p (w S | 1 | x T | 1). So far, acoustic, phonetic and grammatical modeling of language in the form of parametric probability distributions has proven to be the most powerful approximation method. The form of the distribution p (w S | 1 | x T | 1) is predetermined, the unknown parameters of the distribution are estimated on training data. The distribution p (w S | 1 | x T | 1) obtained is then used in the Bayesian decision rule. The utterance x T | 1 is then assigned to the word sequence w S | 1 for which the following applies:

Durch Umformen der Diskriminantenfunktion
By reshaping the discriminant function

erhält man in natürlicher Weise die Trennung zwischen dem grammatischen Modell (p(w S|1) und dem akustisch-phonetischen Modell p(x T|1w S|1). Das grammatische Modell p(w S|1) beschreibt dabei die Wahrscheinlichkeit für das Auftreten der Wortfolge w S|1 an sich, das akustisch-phonetische Modell p(x T|1|w S|1) bewertet die Wahrscheinlichkeit, daß beim Sprechen der Wortfolge w S|1 das akustische Signal x T|1 entsteht. Beide Modelle können nun separat geschätzt werden, wodurch die begrenzte Trainingsdatenmenge optimal ausgenutzt werden kann. Durch eine Abweichung der Form der Verteilung p von der unbekannten Verteilung π kann die Entscheidungsregel (3) suboptimal sein, obwohl die Verteilung p optimal geschäzt wurde. Dieser Umstand motiviert die Verwendung diskriminativer Verfahren. Diskriminative Verfahren optimieren die Verteilung p direkt bezüglich der empirischen auf Trainingsdaten gemessenen Fehlerrate der Entscheidungsregel. Das einfachste Beispiel für eine solche diskriminative Optimierung ist die Verwendung des sogenannten Sprachmodellfaktors λ. Dabei wird (3) wie folgt modifiziert:
the separation between the grammatical model (p (w S | 1) and the acoustic-phonetic model p (x T | 1w S | 1) is obtained in a natural way. The grammatical model p (w S | 1) describes the probability for the occurrence of the word sequence w S | 1 per se, the acoustic-phonetic model p (x T | 1 | w S | 1) evaluates the probability that the acoustic signal x T | 1 arises when the word sequence w S | 1 is said Both models can now be estimated separately, so that the limited amount of training data can be used optimally. By deviating the shape of the distribution p from the unknown distribution π, the decision rule (3) can be suboptimal, although the distribution p was estimated optimally motivates the use of discriminative methods. Discriminative methods optimize the distribution p directly with respect to the empirical error rate of the decision rule measured on training data. The simplest example of such a discriminatory tive optimization is the use of the so-called language model factor λ. (3) is modified as follows:

Experimentelle Erfahrungen zeigen, daß die Fehlerrate der Entscheidungsregel (4) sinkt, wenn λ < 1 gewählt wird. Die Ursache für diese Abweichung von der Theorie (d. h. λ = 1) liegt offensichtlich in der unvollständigen oder fehlerhaften Modellierung der Wahrscheinlichkeit des Verbundereignisses (w S|1, x T|1). Letzteres ist unvermeidbar, da das Wissen über den generierenden Prozeß des Ereignisses (w S|1, x T|1) zu unvollständig ist.Experimental experience shows that the error rate of decision rule (4) decreases if λ <1 is chosen. The reason for this deviation from theory (i.e. λ = 1) obviously lies in the  incomplete or incorrect modeling of the probability of the compound event (w S | 1, x T | 1). The latter is inevitable because knowledge about the generating process of the event (w S | 1, x T | 1) increases is incomplete.

Vielfältige akustisch-phonetische und grammatische Modellierungen der Sprache wurden bisher analysiert. Ziel dieser Analysen war es, die "beste" Modellierung für die jeweilige Erkennungsaufgabe zu finden. Alle so ermittelten Modelle geben jedoch die reale Wahrscheinlichkeitsverteilung nur unvollkommen wieder, so daß bei der Anwendung dieser Modelle in der Mustererkennung, insbesondere in der Spracherkennung, fehlerhafte Erkennungen im Sinne fehlerhafter Zuordnungen zu Klassen auftreten.A variety of acoustic-phonetic and grammatical models of the language have been analyzed so far. The aim of these analyzes was to find the "best" model for the respective recognition task. However, all models determined in this way only give an incomplete representation of the real probability distribution, so that when using these models in pattern recognition, especially in speech recognition, erroneous detections in the sense of incorrect assignments to classes occur.

Aufgabe der Erfindung ist es, eine Modellierung insbesondere der Sprache anzugeben, die der realen Wahrscheinlichkeitsverteilung möglichst nahe kommt und dennoch mit begrenztem Verarbeitungsaufwand anwendbar ist.The object of the invention is to provide a modeling, in particular of the language, that of the real one Probability distribution comes as close as possible and yet with limited processing effort is applicable.

Diese Aufgabe wird erfindungsgemäß durch die im Anspruch 1 angegebenen Merkmale gelöst.This object is achieved by the features specified in claim 1.

Das Neue an diesem Ansatz ist, daß nicht versucht wird, die bekannten Eigenschaften der Sprache in ein einziges akustisch-phonetisches Verteilungsmodell und ein einziges grammatisches Verteilungsmodell zu integrieren, die dann komplex und schwer trainierbar werden. Die verschiedenen akustisch-phonetischen und grammatischen Eigenschaften werden nun in Form der Verteilungen pj(w S|1|x T|1), j = 1, . . ., M) separat modelliert, trainiert und anschließend in eine Verteilung
What is new about this approach is that no attempt is made to integrate the known properties of language into a single acoustic-phonetic distribution model and a single grammatical distribution model, which then become complex and difficult to train. The various acoustic-phonetic and grammatical properties are now in the form of the distributions p j (w S | 1 | x T | 1), j = 1,. . ., M) modeled separately, trained and then in a distribution

integriert. Der Einfluß des Modells pj auf die Verteilung pΠ {Λ} wird durch den Koeffizienten λj bestimmt.integrated. The influence of the model p j on the distribution p Π {Λ} is determined by the coefficient λ j .

Der Faktor C(Λ) garantiert dabei die Erfüllung der Normierungsbedingung für Wahrscheinlichkeiten. Die freien Koeffizienten Λ = (λ₁, . . ., λM)tr müssen dabei so eingestellt werden, daß die resultierende Diskriminantenfunktion
The factor C (Λ) guarantees the fulfillment of the normalization condition for probabilities. The free coefficients Λ = (λ₁,..., Λ M ) tr must be set so that the resulting discriminant function

eine möglichst geringe Fehlerrate besitzt.has the lowest possible error rate.

Dies ist der Kerngedanke der vorliegenden Erfindung.This is the essence of the present invention.

Für die Verwirklichung dieses Kerngedankens bestehen verschiedene Möglichkeiten, von denen nachfolgend einige näher erläutert werden.There are various options for realizing this core idea, of which the following some are explained in more detail.

Zunächst werden einige Begriffe, von denen einige bereits verwendet wurden, zusammenfassend eindeutig definiert.
First, some terms, some of which have already been used, are clearly defined in summary.

  • ⚫ Jede Wortfolge w S|1 ist eine Klasse k, die Länge S kann dabei von Klasse zu Klasse variieren.⚫ Each word sequence w S | 1 is a class k, the length S can vary from class to class.
  • ⚫ Die Äußerung x T|1 wird als Beobachtung x aufgefaßt, die Länge T kann dabei von Beobachtung zu Beobachtung verschieden sein.⚫ The expression x T | 1 is interpreted as observation x, the length T can vary from observation Observation may be different.
  • ⚫ Trainingsdaten werden mit (xn, knr), n = 1, . . ., N, r = 0, . . ., K bezeichnet, dabei ist N die Anzahl der akustischen Trainingsbeobachtungen xn, kn0 ist die zur Beobachtung xn zugehörige korrekte Klasse, und knr, r = 1, . . ., K seien die K verschiedenen zu kn0 rivalisierenden fehlerhaften Klassen.⚫ Training data are with (x n , k nr ), n = 1,. . ., N, r = 0,. . ., K, where N is the number of training acoustic observations x n, k n0 is the observation x n corresponding correct class, and k nr, r = 1,. . ., K are the K different faulty classes to be rivaled.

Es wird die Klassifikation der Beobachtung x in die Klasse k entsprechend der Bayesschen Entscheidungsregel (1) betrachtet. Die Beobachtung x ist dabei eine akustische Realisierung der Klasse k. Die nachfolgende Erläuterung bezieht sich im wesentlichen auf die Spracherkennung, so daß die Klasse k immer eine Wortfolge symbolisiert. It classifies the observation x into the class k according to the Bayesian decision rule (1) considered. The observation x is an acoustic realization of the class k. The following Explanation essentially refers to speech recognition, so that class k is always a word sequence symbolizes.  

Da die Klasse kn0, die die Trainingsbeobachtung xn emittiert hat, bekannt ist, kann auf den Trainingsdaten (xn, knr), n = 1, . . ., N, r = 0, . . ., K eine ideale empirische Verteilung (k|x) konstruiert werden. Von dieser Verteilung wird gefordert, daß die aus ihr gebildete Entscheidungsregel auf den Trainingsdaten eine minimale Fehlerrate besitzt. Bei der Klassifikation von ganzen Wortfolgen k, kann ein Klassifikationsfehler (Wahl der falschen Wortfolge k' ≠ k) zu mehreren Wortfehlern führen. Die Anzahl der Wortfehler zwischen der inkorrekten Klasse k' und der korrekten Klasse k wird dabei als Levenshtein-Distanz L (k', k) bezeichnet. Die aus der Verteilung (k|x) gebildete Entscheidungsregel besitzt eine minimale Wortfehlerrate, wenn folgende Monotonieeigenschaft erfüllt ist:
Since the class k n0 , which the training observation x n emitted, is known, the training data (x n , k nr ), n = 1 ,. . ., N, r = 0,. . ., K an ideal empirical distribution (k | x) can be constructed. This distribution requires that the decision rule formed from it have a minimal error rate on the training data. When classifying whole word sequences k, one classification error (choice of the wrong word sequence k '≠ k) can lead to several word errors. The number of word errors between the incorrect class k 'and the correct class k is referred to as the Levenshtein distance L (k', k). The decision rule formed from the distribution (k | x) has a minimum word error rate if the following monotony property is fulfilled:

(knr|xn) < (knr'|xn) ⇔ L(knr, kn0) < L(knr', kn0). (7)(k nr | x n ) <(k nr ' | x n ) ⇔ L (k nr , k n0 ) <L (k nr' , k n0 ). (7)

Unter allen möglichen Verteilungen mit dieser Eigenschaft wird für die nachfolgende Erläuterung die folgende gewählt:
From all possible distributions with this property, the following is chosen for the following explanation:

Wird der Wert µ in (8) sehr groß gewählt, dann geht die Verteilung (knr|xn) in die Indikatorfunktion δ(knr, kn0) ∈ {0, 1} über. Letztere wird in den klassischen diskriminativen Trainingsverfahren [8], [7] als ideale empirische Verteilung für die Optimierung verwendet. Die Indikatorfunktion hat jedoch den Nachteil, daß sie bei der Bildung einer Entscheidungsregel der Form (1) zu nicht definierten logarithmischen Werten führen würde.If the value µ in (8) is chosen to be very large, then the distribution (k nr | x n ) changes into the indicator function δ (k nr , k n0 ) ∈ {0, 1}. The latter is used in the classic discriminative training methods [8], [7] as an ideal empirical distribution for optimization. However, the indicator function has the disadvantage that it would lead to undefined logarithmic values if a decision rule of the form (1) were formed.

Die ideale empirische Verteilung liefert zwar einen optimalen Klassifikator auf den vorgegebenen Trainingsdaten, ist jedoch auf unbekannten Testdaten nicht definiert, da hier die korrekte Klassenzuordnung nicht gegeben ist. Deswegen wird mit ihrer Hilfe eine Verteilung
The ideal empirical distribution provides an optimal classifier on the given training data, but is not defined on unknown test data, since the correct class assignment is not given here. Therefore, with their help, it becomes a distribution

gesucht, die auf beliebigen unabhängigen Testdaten definiert ist, und die eine möglichst geringe empirische Fehlerrate auf den Trainingsdaten besitzt. Sind die M vorgegebenen Verteilungsmodelle p1 (k|x), . . ., pM (k|z) auf beliebigen Testdaten definiert, so gilt das auch für die Verteilung pΠ {Λ}(k|x). Werden die frei wählbaren Koeffizienten Λ = (λ₁, . . ., λM)tr so bestimmt, daß pΠ {Λ} (k|x) auf den Trainingsdaten eine minimale Fehlerrate besitzt, und sind die Trainingsdaten repräsentativ, so sollte pΠ {Λ}(k|x) auch auf unabhängigen Testdaten eine optimale Entscheidungsregel liefern.sought, which is defined on any independent test data and which has the lowest possible empirical error rate on the training data. Are the M given distribution models p 1 (k | x),. . ., p M (k | z) defined on any test data, this also applies to the distribution p Π {Λ} (k | x). If the freely selectable coefficients Λ = (λ₁,..., Λ M ) tr are determined such that p Π {Λ} (k | x) has a minimal error rate on the training data, and if the training data are representative, then p Π {Λ} (k | x) also provide an optimal decision rule on independent test data.

Um die empirische Fehlerrate dieser Verteilung auf den Trainingsdaten tatsächlich zu minimieren, werden zwei diskriminative Methoden betrachtet:
In order to actually minimize the empirical error rate of this distribution on the training data, two discriminative methods are considered:

  • ⚫ die bekannte GPD-Methode ("Generalized Probabilistic Descent" [8] zur direkten Minimierung der geglätteten empirischen Fehlerrate der Verteilung pΠ {Λ}(k|x) auf den Trainingsdaten. Diese Methode optimiert iterativ die freien Parameter einer Verteilung bezüglich eines differenzierbaren Fehlerratenmaßes. Bekannte the well-known GPD method ("Generalized Probabilistic Descent" [8] for direct minimization of the smoothed empirical error rate of the distribution p Π {Λ} (k | x) on the training data. This method iteratively optimizes the free parameters of a distribution with respect to a differentiable one Error rate measure.
  • ⚫ eine neue Quadratmittelmethode (Minimierung des mittleren quadratischen Abstandes der Diskriminantenfunktionen der Verteilungen pΠ {Λ}(k|x) und (k|x)). Da (k|x) per Definition eine minimale empirische Fehlerrate besitzt und da die Diskriminantenfunktion über die Klassenzuordnung entscheidet, muß durch diese Methode die empirische Fehlerrate von pΠ {Λ}(k|x) auf den Trainingsdaten sinken.⚫ a new square mean method (minimization of the mean square distance of the discriminant functions of the distributions p Π {Λ} (k | x) and (k | x)). Since (k | x) by definition has a minimal empirical error rate and since the discriminant function decides on the class assignment, the empirical error rate of p Π {Λ} (k | x) on the training data must decrease by this method.

Sowohl die GPD-Methode als auch die Quadratmittelmethode optimieren ein Kriterium, welches die mittlere Fehlerrate des Klassifikators approximiert. Die Quadratmittelmethode hat jedoch gegenüber der GPD-Methode den Vorteil, daß sie zu einer geschlossenen Lösung für die optimalen Koeffizienten Λ führt. Both the GPD method and the square mean method optimize a criterion that the average error rate of the classifier approximated. However, the square mean method has over the GPD method has the advantage that it leads to a closed solution for the optimal coefficients Λ.  

Zunächst wird die Quadratmittelmethode betrachtet.First, the square mean method is considered.

Da die Diskriminantenfunktion (1) die Güte des Klassifikators bestimmt, sollen die Koeffizienten Λ die mittlere quadratische Abweichung
Since the discriminant function (1) determines the quality of the classifier, the coefficients Λ are the mean square deviation

der Diskriminantenfunktionen der Verteilungen pΠ {Λ}(k|x) und der empirischen idealen Verteilung (k|x) minimieren.¹ Die Summation über r bezieht dabei alle rivalisierenden Klassen in das Kriterium ein. D. h. die Verteilung pΠ {Λ} wird so bestimmt, daß sie auf den Trainingsdaten (xn, knr) ein möglichst gleiches log-likelihood Verhältnis zwischen korrekter und fehlerhafter Hypothese besitzt, wie die Verteilung . Die Minimierung von D(Λ) führt zu folgender geschlossenen Lösung für den optimalen Koeffizientenvektor Λ.
minimize the discriminant functions of the distributions p Π {Λ} (k | x) and the empirical ideal distribution (k | x) .¹ The summation over r includes all rival classes in the criterion. That is, The distribution p Π {Λ} is determined in such a way that on the training data (x n , k nr ) it has the same log-likelihood ratio between correct and incorrect hypothesis as the distribution. The minimization of D (Λ) leads to the following closed solution for the optimal coefficient vector Λ.

Λ = Q-1P, (11)
Λ = Q -1 P, (11)

mit
With

und
and

Man beachte, daß Q die Autokorrelationsmatrix der Diskriminantenfunktionen der vorgegebenen Verteilungsmodelle ist. Der Vektor P beinhaltet den Zusammenhang zwischen den Diskriminantenfunktionen der vorgegebenen Modelle und der Diskriminantenfunktion der Verteilung .Note that Q is the autocorrelation matrix of the discriminant functions of the given distribution models is. The vector P contains the relationship between the discriminant functions the predefined models and the discriminant function of the distribution.

Einsetzen von (8) liefert letztendlich auf den Trainingsdaten:
Inserting (8) ultimately yields on the training data:

Damit geht die Wortfehlerrate L(knr, kn0) der Hypothesen knr, r = 1, . . ., K linear in die Koeffizienten λ1, . . ., λM ein. Umgekehrt geht auch die Diskriminationsfähigkeit des Verteilungsmodelles pi über die Diskriminatenfunktion
The word error rate L (k nr , k n0 ) of the hypotheses k nr , r = 1 ,. . ., K linear in the coefficients λ 1 ,. . ., λ M a. Conversely, the ability of the distribution model p i to discriminate goes beyond the discriminate function

linear in die Koeffizienten λ1, . . ., λM ein.linear in the coefficients λ 1 ,. . ., λ M a.

Auf diese Weise können die Koeffizienten direkt bestimmt werden.In this way, the coefficients can be determined directly.

Eine andere Möglichkeit, diese Koeffizienten zu bestimmen, besteht in der Verwendung der GPD-Methode. Mit der GPD-Methode [8] kann man die geglättete empirische Fehlerrate L(Λ):
Another way to determine these coefficients is to use the GPD method. With the GPD method [8], the smoothed empirical error rate L (Λ) can be:

auf den Trainingsdaten direkt minimieren. ℓ(xn, kn0, Λ) ist dabei ein geglättetes Maß für das Fehlklassifikationsrisiko der Beobachtung xn. Die Werte A < 0, B < 0, η < 0 bestimmen die Art der Glättung des Fehlklassifikationsrisikos und müssen geeignet vorgegeben werden.minimize directly on the training data. ℓ (x n , k n0 , Λ) is a smoothed measure for the misclassification risk of observation x n . The values A <0, B <0, η <0 determine the type of smoothing of the misclassification risk and must be specified appropriately.

Wird L(Λ) bezüglich der Koeffizienten Λ der log-linearen Kombination minimiert, so ergibt sich für die Koeffizienten λj, j = 1, . . ., M folgende Iterationsgleichung mit der Schrittweite ε:
If L (Λ) is minimized with respect to the coefficients Λ of the log-linear combination, then the coefficients λ j , j = 1,. . ., M the following iteration equation with the step size ε:

Man beachte, daß der Koeffizientenvektor Λ mittels der Diskriminantenfunktion
Note that the coefficient vector Λ by means of the discriminant function

in das Kriterium L(Λ) eingeht. Sinkt L(Λ), so muß die Diskriminantenfunktion (17) wegen (14) und (15) im Mittel wachsen. Das führt zu einer optimaleren Entscheidungsregel (vgl. (1)).enters criterion L (Λ). If L (Λ) drops, then the discriminant function (17) due to (14) and (15) grow on average. This leads to a more optimal decision rule (cf. (1)).

Eine weitere Möglichkeit zur Ermittlung der Koeffizienten besteht in der Anwendung der GIS-Methode. Bei den vorher beschriebenen Verfahren wurden die optimalen Koeffizienten Λ der a-posteriorie Verteilung pΠ {Λ}(k|x) gesucht. Die analoge log-lineare Verbundverteilung ist dann
Another way to determine the coefficients is to use the GIS method. In the previously described methods, the optimal coefficients Λ of the a-posterior distribution p Π {Λ} (k | x) were sought. The analog log-linear distribution is then

Man beachte, daß mit (9) und (18) immer gilt:
Note that with (9) and (18) the following always applies:

Im kontinuierlichen aber beschränkten Raum der Beobachtungen x wird nun eine Vektorquantisierung durchgeführt. Dabei wird jeder Trainingsbeobachtung xn eine sie umgebende Punktmenge Bn mit dem Volumen Vn zugewiesen. Durch die Vektorquantisierung können die Koeffizienten der kontinuierlichen Verteilung pΠ {Λ}(k, x) durch die Koeffizienten Λ der diskreten Verteilung pΠ {Λ} (knr, xn) mit
In the continuous but limited space of the observations x, vector quantization is now carried out. Each training observation x n is assigned a surrounding point set B n with the volume V n . The vector quantization enables the coefficients of the continuous distribution p Π {Λ} (k, x) to be replaced by the coefficients Λ of the discrete distribution p Π {Λ} (k nr , x n )

approximiert werden. Mit Hilfe der GIS-Methode werden nun die Koeffizienten Λ der diskreten Verteilung pΠ {Λ} (knr, xn) auf den Trainingsdaten (xn, knr), n = 1, . . ., N, r = 0, . . ., K optimiert. Dabei soll durch das GIS-Verfahren die folgende Nebenbedingung erfüllt werden:
be approximated. Using the GIS method, the coefficients Λ of the discrete distribution p Π {Λ} (k nr , x n ) on the training data (x n , k nr ), n = 1 ,. . ., N, r = 0,. . ., K optimized. The GIS procedure is intended to meet the following constraint:

wobei h(knr, xn) die relative Häufigkeit des Ereignisses (knr, xn) auf den Trainingsdaten ist. Da es auf den Trainingsdaten zu jedem Merkmal xn nur eine korrekte Wortfolge kn0 geben kann, gilt für die relative Häufigkeit h(knr, xn):
where h (k nr , x n ) is the relative frequency of the event (k nr , x n ) on the training data. Since there can only be one correct word sequence k n0 on the training data for each characteristic x n , the following applies to the relative frequency h (k nr , x n ):

Um die Funktion h(knr, xn) zu glätten, kann man auch
To smooth the function h (k nr , x n ), you can also

mit (knr|xn) aus (8) ansetzen.start with (k nr | x n ) from (8).

Die Iterationsgleichungen für die Wahrscheinlichkeit pΠ {Λ} (knr, xn) lauten:
The iteration equations for the probability p Π {Λ} (k nr , x n ) are:

mit
With

Im Ergebnis der Iterationen entstehen die Verbundwahrscheinlichkeiten pΠ {Λ} (knr, xn) (*). Mit diesen Wahrscheinlichkeiten und (20) ergibt sich folgendes lineares Gleichungssystem für die Koeffizienten λj:
The result of the iterations results in the union probabilities p Π {Λ} (k nr , x n ) (*) . With these probabilities and (20), the following linear system of equations results for the coefficients λ j :

Dieses Gleichungssystem besitzt nur M unabhängige Gleichungen, da laut dem GIS-Theorem [5] alle Verbundwahrscheinlichkeiten pΠ {Λ} (knr, xn)(*), n = 1, . . ., N, r = 0, . . ., K der Verteilungsform (20) genügen. Damit erhält man eine eindeutige Lösung für die M Koeffizienten λj, j = 1, . . ., M.This system of equations has only M independent equations, since according to the GIS theorem [5] all association probabilities p Π {Λ} (k nr , x n ) (*) , n = 1,. . ., N, r = 0,. . ., K of the distribution form (20) are sufficient. This gives a clear solution for the M coefficients λ j , j = 1,. . ., M.

Claims (3)

1. Verfahren zum Bestimmen modellspezifischer Faktoren für die Zuordnung zugeführter Testdaten zu aus einer Trainingsdatenfolge bestimmten Klassen unter Verwendung mehrerer ebenfalls aus der Trainingsdatenfolge ermittelten Wahrscheinlichkeitsmodelle, mit denen die Testdaten bewertet werden, um Wahrscheinlichkeitswerte für die Zuordnung derselben Testdaten zu verschiedenen Klassen zu bestimmen, und die Wahrscheinlichkeitswerte verschiedener Modelle für dieselbe Klassenzuordnung mit den modellspezifischen Faktoren bewertet zu einem Gesamt-Wahrscheinlichkeitswert kombiniert werden, wobei die modellspezifischen Faktoren so bestimmt werden, daß die Gesamt-Wahrscheinlichkeit der Zuordnung der Trainingsdaten zu bestimmten Klassen ein Minimum gegenüber der Zuordnung der gleichen Trainingsdaten zu anderen Klassen erreicht und die Fehlklassifikation der Trainingsdaten minimiert ist.1. Procedure for determining model-specific factors for the assignment of supplied test data to a training data sequence certain classes using several also from the Training data sequence determined probability models with which the test data are evaluated in order Determine probability values for assigning the same test data to different classes, and the probability values of different models for the same class assignment with the model-specific factors are combined to form an overall probability value, where the model-specific factors are determined so that the overall probability of the assignment of Training data for certain classes is a minimum compared to the assignment of the same training data to other classes and the misclassification of training data is minimized. 2. Verfahren nach Anspruch 1, wobei iterativ Zwischenschritt-Faktoren gebildet werden und bei jedem Iterationsschritt die Zwischenschritt-Faktoren für alle Modelle um einen vom Verhältnis des Wahrscheinlichkeitswertes jedes Trainingsdatums für die Zuordnung zur korrekten Klasse zu den Wahrscheinlichkeitswerten für die Zuordnung zu allen anderen Klassen abhängigen Wert, getrennt für jedes Modell, verändert wird.2. The method according to claim 1, wherein iterative intermediate step factors are formed and for each Iteration step the intermediate step factors for all models by one from the ratio of Probability value of each training date for the assignment to the correct class to the Probability values for the assignment to all other classes dependent value, separated for each Model being changed. 3. Verfahren nach Anspruch 1, wobei für jeden modellspezifischen Faktor die normierte Summe über alle Klassen und alle Trainingsdaten des Verhältnisses der Wahrscheinlichkeit der Zuordnung jedes Trainingsdatums zu der korrekten Klasse zur Wahrscheinlichkeit der Zuordnung dieses Trainingsdatums zu allen anderen Klassen, multipliziert mit einer die Wortfehlerrate angebenden Funktion, gebildet wird.3. The method of claim 1, wherein for each model-specific factor, the normalized sum over all Classes and all training data of the ratio of the probability of assigning each Training date to the correct class for the probability of assigning this training date all other classes multiplied by a function indicating the word error rate.
DE1997155191 1997-12-12 1997-12-12 Determining model-specific factors for assigning classes to test data in speech recognition Withdrawn DE19755191A1 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE1997155191 DE19755191A1 (en) 1997-12-12 1997-12-12 Determining model-specific factors for assigning classes to test data in speech recognition
EP98957052A EP0960417B1 (en) 1997-12-12 1998-12-11 Method of determining model-specific factors for pattern recognition, in particular for speech patterns
US09/367,214 US6456969B1 (en) 1997-12-12 1998-12-11 Method of determining model-specific factors for pattern recognition, in particular for speech patterns
PCT/IB1998/001990 WO1999031654A2 (en) 1997-12-12 1998-12-11 Method of determining model-specific factors for pattern recognition, in particular for speech patterns
JP53225499A JP2001511267A (en) 1997-12-12 1998-12-11 A method for determining model special factors for speech pattern recognition.
DE69815067T DE69815067T2 (en) 1997-12-12 1998-12-11 METHOD FOR DETERMINING MODEL-SPECIFIC FACTORS FOR PATTERN RECOGNITION, IN PARTICULAR FOR VOICE PATTERNS
US10/135,336 US8112274B2 (en) 1997-12-12 2002-04-30 Method of determining model-specific factors for pattern recognition, in particular for speech patterns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1997155191 DE19755191A1 (en) 1997-12-12 1997-12-12 Determining model-specific factors for assigning classes to test data in speech recognition

Publications (1)

Publication Number Publication Date
DE19755191A1 true DE19755191A1 (en) 1999-06-17

Family

ID=7851639

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1997155191 Withdrawn DE19755191A1 (en) 1997-12-12 1997-12-12 Determining model-specific factors for assigning classes to test data in speech recognition

Country Status (1)

Country Link
DE (1) DE19755191A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10114874A1 (en) * 2001-03-26 2002-11-14 Bernd Falkowski Learning system classifying bank customer credit worthiness employs systematic assessment through scoring- or points vectors

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10114874A1 (en) * 2001-03-26 2002-11-14 Bernd Falkowski Learning system classifying bank customer credit worthiness employs systematic assessment through scoring- or points vectors
DE10114874C2 (en) * 2001-03-26 2003-04-10 Bernd Falkowski Learning computer-based classifier

Similar Documents

Publication Publication Date Title
DE69815067T2 (en) METHOD FOR DETERMINING MODEL-SPECIFIC FACTORS FOR PATTERN RECOGNITION, IN PARTICULAR FOR VOICE PATTERNS
DE69818231T2 (en) METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS
DE19636739C1 (en) Multi-lingual hidden Markov model application for speech recognition system
DE69519297T2 (en) METHOD AND DEVICE FOR VOICE RECOGNITION BY MEANS OF OPTIMIZED PARTIAL BUNDLING OF LIKELIHOOD MIXTURES
DE69938374T2 (en) Method and apparatus for speech recognition using both a neural network and hidden Markov models
DE69422097T2 (en) Training of combined chain models with minimal error rate
DE69322894T2 (en) Learning method and device for speech recognition
EP0925579B1 (en) Process for adaptation of a hidden markov sound model in a speech recognition system
WO1993006591A1 (en) Process for recognizing patterns in time-varying measurement signals
DE69423692T2 (en) Speech coding device and method using classification rules
EP0862161A2 (en) Speech recognition method with model adaptation
DE69720134T2 (en) Speech recognizer using fundamental frequency intensity data
EP1733223B1 (en) Device and method for assessing the quality class of an object to be tested
WO1999059135A2 (en) Arrangement and method for computer recognition of a predefined vocabulary in spoken language
EP1251489A2 (en) Training the parameters of a speech recognition system for the recognition of pronunciation variations
EP1182646A2 (en) Classification method of phonemes
EP1199704A2 (en) Selection of an alternate stream of words for discriminant adaptation
DE19842151A1 (en) Process for the adaptation of linguistic language models
DE69628603T2 (en) System for pattern matching using a tree structure
EP1193687A2 (en) Speaker adaptation for a speech recognition
EP0813734B1 (en) Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed
EP1039447B1 (en) Determination of regression classes tree structure for a speech recognizer
DE10014337A1 (en) Generating speech model involves successively reducing body of text on text data in user-specific second body of text, generating values of speech model using reduced first body of text
DE19755191A1 (en) Determining model-specific factors for assigning classes to test data in speech recognition
DE69901324T2 (en) Device, method and storage medium for speaker recognition

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233

8127 New person/name/address of the applicant

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20

8141 Disposal/no request for examination