DE19755191A1 - Determining model-specific factors for assigning classes to test data in speech recognition - Google Patents
Determining model-specific factors for assigning classes to test data in speech recognitionInfo
- Publication number
- DE19755191A1 DE19755191A1 DE1997155191 DE19755191A DE19755191A1 DE 19755191 A1 DE19755191 A1 DE 19755191A1 DE 1997155191 DE1997155191 DE 1997155191 DE 19755191 A DE19755191 A DE 19755191A DE 19755191 A1 DE19755191 A1 DE 19755191A1
- Authority
- DE
- Germany
- Prior art keywords
- classes
- probability
- training data
- model
- assignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 16
- 230000007423 decrease Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/17—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zum Bestimmen modellspezifischer Faktoren zur Kombination verschiedener Modelle bei der Mustererkennung, insbesondere bei der Spracherkennung.The invention relates to a method for determining model-specific factors for the combination different models in pattern recognition, especially in speech recognition.
Die statistische Spracherkennungsmethode bedient sich der Bayesschen Entscheidungstheorie, um Erkenner
mit minimaler Fehlerrate zu konstruieren [1]. Entsprechend dieser Theorie muß eine Beobachtung x
in die Klasse k eingeordnet werden (kurz x ∈ k,) wenn bei gegebener a-posteriori Verteilung π(k|x) gilt:
The statistical speech recognition method uses Bayesian decision theory to construct recognizers with a minimal error rate [1]. According to this theory, an observation x must be classified in the class k (short x ∈ k,) if π (k | x) applies for a given posterior distribution:
Der Term log(π(k|x)/π(k'|x)) wird in der Literatur [1] als Diskriminantenfunktion bezeichnet.The term log (π (k | x) / π (k '| x)) is referred to in the literature [1] as a discriminant function.
Im folgenden wird dafür g(x,k,k') verwendet.In the following, g (x, k, k ') is used for this.
Projiziert man die Entscheidungsregel (1) auf die Erkennung ganzer Sätze, so werden beobachtete Äußerungen
x T|1 = (x¹, . . ., xT) der zeitlichen Länge T in gesprochenen Wortfolgen
w S|1 = (w¹, . . ., wS) der
Länge S klassifiziert. Die a-posteriori Verteilung π(w S|1|x T|1) ist jedoch unbekannt, denn sie beschreibt
den komplexen natürlichen Sprachkommunikationsprozeß des Menschen. Die muß folglich durch eine Verteilung
p(w S|1|x T|1) approximiert werden. Als leistungsfähigste Approximationsmethode hat sich bisher
die akustisch-phonetische und grammatikalische Modellierung der Sprache in Form von parametrischen
Wahrscheinlichkeitsverteilungen erwiesen. Dabei ist die Form der Verteilung p(w S|1|x T|1) vorgegeben, die
unbekannten Parameter der Verteilung werden auf Trainingsdaten geschätzt. Die gewonnene Verteilung
p(w S|1|x T|1) wird anschließend in die Bayessche Entscheidungsregel eingesetzt. Die Äußerung x T|1 wird dann
derjenigen Wortfolge w S|1 zugeordnet, für die gilt:
If the decision rule (1) is projected onto the recognition of entire sentences, observed utterances x T | 1 = (x 1,..., X T ) of the length of time T in spoken word sequences w S | 1 = (w 1,... , w S ) of length S classified. However, the a-posteriori distribution π (w S | 1 | x T | 1) is unknown, because it describes the complex natural speech communication process of humans. It must therefore be approximated by a distribution p (w S | 1 | x T | 1). So far, acoustic, phonetic and grammatical modeling of language in the form of parametric probability distributions has proven to be the most powerful approximation method. The form of the distribution p (w S | 1 | x T | 1) is predetermined, the unknown parameters of the distribution are estimated on training data. The distribution p (w S | 1 | x T | 1) obtained is then used in the Bayesian decision rule. The utterance x T | 1 is then assigned to the word sequence w S | 1 for which the following applies:
Durch Umformen der Diskriminantenfunktion
By reshaping the discriminant function
erhält man in natürlicher Weise die Trennung zwischen dem grammatischen Modell (p(w S|1) und dem
akustisch-phonetischen Modell p(x T|1w S|1). Das grammatische Modell p(w S|1) beschreibt dabei die Wahrscheinlichkeit
für das Auftreten der Wortfolge w S|1 an sich, das akustisch-phonetische Modell p(x T|1|w S|1)
bewertet die Wahrscheinlichkeit, daß beim Sprechen der Wortfolge w S|1 das akustische Signal x T|1 entsteht.
Beide Modelle können nun separat geschätzt werden, wodurch die begrenzte Trainingsdatenmenge optimal
ausgenutzt werden kann. Durch eine Abweichung der Form der Verteilung p von der unbekannten
Verteilung π kann die Entscheidungsregel (3) suboptimal sein, obwohl die Verteilung p optimal geschäzt
wurde. Dieser Umstand motiviert die Verwendung diskriminativer Verfahren. Diskriminative Verfahren
optimieren die Verteilung p direkt bezüglich der empirischen auf Trainingsdaten gemessenen Fehlerrate
der Entscheidungsregel. Das einfachste Beispiel für eine solche diskriminative Optimierung ist die Verwendung
des sogenannten Sprachmodellfaktors λ. Dabei wird (3) wie folgt modifiziert:
the separation between the grammatical model (p (w S | 1) and the acoustic-phonetic model p (x T | 1w S | 1) is obtained in a natural way. The grammatical model p (w S | 1) describes the probability for the occurrence of the word sequence w S | 1 per se, the acoustic-phonetic model p (x T | 1 | w S | 1) evaluates the probability that the acoustic signal x T | 1 arises when the word sequence w S | 1 is said Both models can now be estimated separately, so that the limited amount of training data can be used optimally. By deviating the shape of the distribution p from the unknown distribution π, the decision rule (3) can be suboptimal, although the distribution p was estimated optimally motivates the use of discriminative methods. Discriminative methods optimize the distribution p directly with respect to the empirical error rate of the decision rule measured on training data. The simplest example of such a discriminatory tive optimization is the use of the so-called language model factor λ. (3) is modified as follows:
Experimentelle Erfahrungen zeigen, daß die Fehlerrate der Entscheidungsregel (4) sinkt, wenn λ < 1 gewählt wird. Die Ursache für diese Abweichung von der Theorie (d. h. λ = 1) liegt offensichtlich in der unvollständigen oder fehlerhaften Modellierung der Wahrscheinlichkeit des Verbundereignisses (w S|1, x T|1). Letzteres ist unvermeidbar, da das Wissen über den generierenden Prozeß des Ereignisses (w S|1, x T|1) zu unvollständig ist.Experimental experience shows that the error rate of decision rule (4) decreases if λ <1 is chosen. The reason for this deviation from theory (i.e. λ = 1) obviously lies in the incomplete or incorrect modeling of the probability of the compound event (w S | 1, x T | 1). The latter is inevitable because knowledge about the generating process of the event (w S | 1, x T | 1) increases is incomplete.
Vielfältige akustisch-phonetische und grammatische Modellierungen der Sprache wurden bisher analysiert. Ziel dieser Analysen war es, die "beste" Modellierung für die jeweilige Erkennungsaufgabe zu finden. Alle so ermittelten Modelle geben jedoch die reale Wahrscheinlichkeitsverteilung nur unvollkommen wieder, so daß bei der Anwendung dieser Modelle in der Mustererkennung, insbesondere in der Spracherkennung, fehlerhafte Erkennungen im Sinne fehlerhafter Zuordnungen zu Klassen auftreten.A variety of acoustic-phonetic and grammatical models of the language have been analyzed so far. The aim of these analyzes was to find the "best" model for the respective recognition task. However, all models determined in this way only give an incomplete representation of the real probability distribution, so that when using these models in pattern recognition, especially in speech recognition, erroneous detections in the sense of incorrect assignments to classes occur.
Aufgabe der Erfindung ist es, eine Modellierung insbesondere der Sprache anzugeben, die der realen Wahrscheinlichkeitsverteilung möglichst nahe kommt und dennoch mit begrenztem Verarbeitungsaufwand anwendbar ist.The object of the invention is to provide a modeling, in particular of the language, that of the real one Probability distribution comes as close as possible and yet with limited processing effort is applicable.
Diese Aufgabe wird erfindungsgemäß durch die im Anspruch 1 angegebenen Merkmale gelöst.This object is achieved by the features specified in claim 1.
Das Neue an diesem Ansatz ist, daß nicht versucht wird, die bekannten Eigenschaften der Sprache in ein
einziges akustisch-phonetisches Verteilungsmodell und ein einziges grammatisches Verteilungsmodell zu
integrieren, die dann komplex und schwer trainierbar werden. Die verschiedenen akustisch-phonetischen
und grammatischen Eigenschaften werden nun in Form der Verteilungen pj(w S|1|x T|1), j = 1, . . ., M) separat
modelliert, trainiert und anschließend in eine Verteilung
What is new about this approach is that no attempt is made to integrate the known properties of language into a single acoustic-phonetic distribution model and a single grammatical distribution model, which then become complex and difficult to train. The various acoustic-phonetic and grammatical properties are now in the form of the distributions p j (w S | 1 | x T | 1), j = 1,. . ., M) modeled separately, trained and then in a distribution
integriert. Der Einfluß des Modells pj auf die Verteilung pΠ {Λ} wird durch den Koeffizienten λj bestimmt.integrated. The influence of the model p j on the distribution p Π {Λ} is determined by the coefficient λ j .
Der Faktor C(Λ) garantiert dabei die Erfüllung der Normierungsbedingung für Wahrscheinlichkeiten.
Die freien Koeffizienten Λ = (λ₁, . . ., λM)tr müssen dabei so eingestellt werden, daß die resultierende
Diskriminantenfunktion
The factor C (Λ) guarantees the fulfillment of the normalization condition for probabilities. The free coefficients Λ = (λ₁,..., Λ M ) tr must be set so that the resulting discriminant function
eine möglichst geringe Fehlerrate besitzt.has the lowest possible error rate.
Dies ist der Kerngedanke der vorliegenden Erfindung.This is the essence of the present invention.
Für die Verwirklichung dieses Kerngedankens bestehen verschiedene Möglichkeiten, von denen nachfolgend einige näher erläutert werden.There are various options for realizing this core idea, of which the following some are explained in more detail.
Zunächst werden einige Begriffe, von denen einige bereits verwendet wurden, zusammenfassend eindeutig
definiert.
First, some terms, some of which have already been used, are clearly defined in summary.
- ⚫ Jede Wortfolge w S|1 ist eine Klasse k, die Länge S kann dabei von Klasse zu Klasse variieren.⚫ Each word sequence w S | 1 is a class k, the length S can vary from class to class.
- ⚫ Die Äußerung x T|1 wird als Beobachtung x aufgefaßt, die Länge T kann dabei von Beobachtung zu Beobachtung verschieden sein.⚫ The expression x T | 1 is interpreted as observation x, the length T can vary from observation Observation may be different.
- ⚫ Trainingsdaten werden mit (xn, knr), n = 1, . . ., N, r = 0, . . ., K bezeichnet, dabei ist N die Anzahl der akustischen Trainingsbeobachtungen xn, kn0 ist die zur Beobachtung xn zugehörige korrekte Klasse, und knr, r = 1, . . ., K seien die K verschiedenen zu kn0 rivalisierenden fehlerhaften Klassen.⚫ Training data are with (x n , k nr ), n = 1,. . ., N, r = 0,. . ., K, where N is the number of training acoustic observations x n, k n0 is the observation x n corresponding correct class, and k nr, r = 1,. . ., K are the K different faulty classes to be rivaled.
Es wird die Klassifikation der Beobachtung x in die Klasse k entsprechend der Bayesschen Entscheidungsregel (1) betrachtet. Die Beobachtung x ist dabei eine akustische Realisierung der Klasse k. Die nachfolgende Erläuterung bezieht sich im wesentlichen auf die Spracherkennung, so daß die Klasse k immer eine Wortfolge symbolisiert. It classifies the observation x into the class k according to the Bayesian decision rule (1) considered. The observation x is an acoustic realization of the class k. The following Explanation essentially refers to speech recognition, so that class k is always a word sequence symbolizes.
Da die Klasse kn0, die die Trainingsbeobachtung xn emittiert hat, bekannt ist, kann auf den Trainingsdaten
(xn, knr), n = 1, . . ., N, r = 0, . . ., K eine ideale empirische Verteilung (k|x) konstruiert werden. Von
dieser Verteilung wird gefordert, daß die aus ihr gebildete Entscheidungsregel auf den Trainingsdaten eine
minimale Fehlerrate besitzt. Bei der Klassifikation von ganzen Wortfolgen k, kann ein Klassifikationsfehler
(Wahl der falschen Wortfolge k' ≠ k) zu mehreren Wortfehlern führen. Die Anzahl der Wortfehler
zwischen der inkorrekten Klasse k' und der korrekten Klasse k wird dabei als Levenshtein-Distanz L (k', k)
bezeichnet. Die aus der Verteilung (k|x) gebildete Entscheidungsregel besitzt eine minimale Wortfehlerrate,
wenn folgende Monotonieeigenschaft erfüllt ist:
Since the class k n0 , which the training observation x n emitted, is known, the training data (x n , k nr ), n = 1 ,. . ., N, r = 0,. . ., K an ideal empirical distribution (k | x) can be constructed. This distribution requires that the decision rule formed from it have a minimal error rate on the training data. When classifying whole word sequences k, one classification error (choice of the wrong word sequence k '≠ k) can lead to several word errors. The number of word errors between the incorrect class k 'and the correct class k is referred to as the Levenshtein distance L (k', k). The decision rule formed from the distribution (k | x) has a minimum word error rate if the following monotony property is fulfilled:
(knr|xn) < (knr'|xn) ⇔ L(knr, kn0) < L(knr', kn0). (7)(k nr | x n ) <(k nr ' | x n ) ⇔ L (k nr , k n0 ) <L (k nr' , k n0 ). (7)
Unter allen möglichen Verteilungen mit dieser Eigenschaft wird für die nachfolgende Erläuterung die folgende
gewählt:
From all possible distributions with this property, the following is chosen for the following explanation:
Wird der Wert µ in (8) sehr groß gewählt, dann geht die Verteilung (knr|xn) in die Indikatorfunktion δ(knr, kn0) ∈ {0, 1} über. Letztere wird in den klassischen diskriminativen Trainingsverfahren [8], [7] als ideale empirische Verteilung für die Optimierung verwendet. Die Indikatorfunktion hat jedoch den Nachteil, daß sie bei der Bildung einer Entscheidungsregel der Form (1) zu nicht definierten logarithmischen Werten führen würde.If the value µ in (8) is chosen to be very large, then the distribution (k nr | x n ) changes into the indicator function δ (k nr , k n0 ) ∈ {0, 1}. The latter is used in the classic discriminative training methods [8], [7] as an ideal empirical distribution for optimization. However, the indicator function has the disadvantage that it would lead to undefined logarithmic values if a decision rule of the form (1) were formed.
Die ideale empirische Verteilung liefert zwar einen optimalen Klassifikator auf den vorgegebenen Trainingsdaten,
ist jedoch auf unbekannten Testdaten nicht definiert, da hier die korrekte Klassenzuordnung
nicht gegeben ist. Deswegen wird mit ihrer Hilfe eine Verteilung
The ideal empirical distribution provides an optimal classifier on the given training data, but is not defined on unknown test data, since the correct class assignment is not given here. Therefore, with their help, it becomes a distribution
gesucht, die auf beliebigen unabhängigen Testdaten definiert ist, und die eine möglichst geringe empirische Fehlerrate auf den Trainingsdaten besitzt. Sind die M vorgegebenen Verteilungsmodelle p1 (k|x), . . ., pM (k|z) auf beliebigen Testdaten definiert, so gilt das auch für die Verteilung pΠ {Λ}(k|x). Werden die frei wählbaren Koeffizienten Λ = (λ₁, . . ., λM)tr so bestimmt, daß pΠ {Λ} (k|x) auf den Trainingsdaten eine minimale Fehlerrate besitzt, und sind die Trainingsdaten repräsentativ, so sollte pΠ {Λ}(k|x) auch auf unabhängigen Testdaten eine optimale Entscheidungsregel liefern.sought, which is defined on any independent test data and which has the lowest possible empirical error rate on the training data. Are the M given distribution models p 1 (k | x),. . ., p M (k | z) defined on any test data, this also applies to the distribution p Π {Λ} (k | x). If the freely selectable coefficients Λ = (λ₁,..., Λ M ) tr are determined such that p Π {Λ} (k | x) has a minimal error rate on the training data, and if the training data are representative, then p Π {Λ} (k | x) also provide an optimal decision rule on independent test data.
Um die empirische Fehlerrate dieser Verteilung auf den Trainingsdaten tatsächlich zu minimieren, werden zwei
diskriminative Methoden betrachtet:
In order to actually minimize the empirical error rate of this distribution on the training data, two discriminative methods are considered:
- ⚫ die bekannte GPD-Methode ("Generalized Probabilistic Descent" [8] zur direkten Minimierung der geglätteten empirischen Fehlerrate der Verteilung pΠ {Λ}(k|x) auf den Trainingsdaten. Diese Methode optimiert iterativ die freien Parameter einer Verteilung bezüglich eines differenzierbaren Fehlerratenmaßes. Bekannte the well-known GPD method ("Generalized Probabilistic Descent" [8] for direct minimization of the smoothed empirical error rate of the distribution p Π {Λ} (k | x) on the training data. This method iteratively optimizes the free parameters of a distribution with respect to a differentiable one Error rate measure.
- ⚫ eine neue Quadratmittelmethode (Minimierung des mittleren quadratischen Abstandes der Diskriminantenfunktionen der Verteilungen pΠ {Λ}(k|x) und (k|x)). Da (k|x) per Definition eine minimale empirische Fehlerrate besitzt und da die Diskriminantenfunktion über die Klassenzuordnung entscheidet, muß durch diese Methode die empirische Fehlerrate von pΠ {Λ}(k|x) auf den Trainingsdaten sinken.⚫ a new square mean method (minimization of the mean square distance of the discriminant functions of the distributions p Π {Λ} (k | x) and (k | x)). Since (k | x) by definition has a minimal empirical error rate and since the discriminant function decides on the class assignment, the empirical error rate of p Π {Λ} (k | x) on the training data must decrease by this method.
Sowohl die GPD-Methode als auch die Quadratmittelmethode optimieren ein Kriterium, welches die mittlere Fehlerrate des Klassifikators approximiert. Die Quadratmittelmethode hat jedoch gegenüber der GPD-Methode den Vorteil, daß sie zu einer geschlossenen Lösung für die optimalen Koeffizienten Λ führt. Both the GPD method and the square mean method optimize a criterion that the average error rate of the classifier approximated. However, the square mean method has over the GPD method has the advantage that it leads to a closed solution for the optimal coefficients Λ.
Zunächst wird die Quadratmittelmethode betrachtet.First, the square mean method is considered.
Da die Diskriminantenfunktion (1) die Güte des Klassifikators bestimmt, sollen die Koeffizienten Λ die
mittlere quadratische Abweichung
Since the discriminant function (1) determines the quality of the classifier, the coefficients Λ are the mean square deviation
der Diskriminantenfunktionen der Verteilungen pΠ {Λ}(k|x) und der empirischen idealen Verteilung (k|x)
minimieren.¹ Die Summation über r bezieht dabei alle rivalisierenden Klassen in das Kriterium ein. D. h.
die Verteilung pΠ {Λ} wird so bestimmt, daß sie auf den Trainingsdaten (xn, knr) ein möglichst gleiches
log-likelihood Verhältnis zwischen korrekter und fehlerhafter Hypothese besitzt, wie die Verteilung .
Die Minimierung von D(Λ) führt zu folgender geschlossenen Lösung für den optimalen Koeffizientenvektor
Λ.
minimize the discriminant functions of the distributions p Π {Λ} (k | x) and the empirical ideal distribution (k | x) .¹ The summation over r includes all rival classes in the criterion. That is, The distribution p Π {Λ} is determined in such a way that on the training data (x n , k nr ) it has the same log-likelihood ratio between correct and incorrect hypothesis as the distribution. The minimization of D (Λ) leads to the following closed solution for the optimal coefficient vector Λ.
Λ = Q-1P, (11)
Λ = Q -1 P, (11)
mit
With
und
and
Man beachte, daß Q die Autokorrelationsmatrix der Diskriminantenfunktionen der vorgegebenen Verteilungsmodelle ist. Der Vektor P beinhaltet den Zusammenhang zwischen den Diskriminantenfunktionen der vorgegebenen Modelle und der Diskriminantenfunktion der Verteilung .Note that Q is the autocorrelation matrix of the discriminant functions of the given distribution models is. The vector P contains the relationship between the discriminant functions the predefined models and the discriminant function of the distribution.
Einsetzen von (8) liefert letztendlich auf den Trainingsdaten:
Inserting (8) ultimately yields on the training data:
Damit geht die Wortfehlerrate L(knr, kn0) der Hypothesen knr, r = 1, . . ., K linear in die Koeffizienten
λ1, . . ., λM ein. Umgekehrt geht auch die Diskriminationsfähigkeit des Verteilungsmodelles pi über die
Diskriminatenfunktion
The word error rate L (k nr , k n0 ) of the hypotheses k nr , r = 1 ,. . ., K linear in the coefficients λ 1 ,. . ., λ M a. Conversely, the ability of the distribution model p i to discriminate goes beyond the discriminate function
linear in die Koeffizienten λ1, . . ., λM ein.linear in the coefficients λ 1 ,. . ., λ M a.
Auf diese Weise können die Koeffizienten direkt bestimmt werden.In this way, the coefficients can be determined directly.
Eine andere Möglichkeit, diese Koeffizienten zu bestimmen, besteht in der Verwendung der GPD-Methode.
Mit der GPD-Methode [8] kann man die geglättete empirische Fehlerrate L(Λ):
Another way to determine these coefficients is to use the GPD method. With the GPD method [8], the smoothed empirical error rate L (Λ) can be:
auf den Trainingsdaten direkt minimieren. ℓ(xn, kn0, Λ) ist dabei ein geglättetes Maß für das Fehlklassifikationsrisiko der Beobachtung xn. Die Werte A < 0, B < 0, η < 0 bestimmen die Art der Glättung des Fehlklassifikationsrisikos und müssen geeignet vorgegeben werden.minimize directly on the training data. ℓ (x n , k n0 , Λ) is a smoothed measure for the misclassification risk of observation x n . The values A <0, B <0, η <0 determine the type of smoothing of the misclassification risk and must be specified appropriately.
Wird L(Λ) bezüglich der Koeffizienten Λ der log-linearen Kombination minimiert, so ergibt sich für die
Koeffizienten λj, j = 1, . . ., M folgende Iterationsgleichung mit der Schrittweite ε:
If L (Λ) is minimized with respect to the coefficients Λ of the log-linear combination, then the coefficients λ j , j = 1,. . ., M the following iteration equation with the step size ε:
Man beachte, daß der Koeffizientenvektor Λ mittels der Diskriminantenfunktion
Note that the coefficient vector Λ by means of the discriminant function
in das Kriterium L(Λ) eingeht. Sinkt L(Λ), so muß die Diskriminantenfunktion (17) wegen (14) und (15) im Mittel wachsen. Das führt zu einer optimaleren Entscheidungsregel (vgl. (1)).enters criterion L (Λ). If L (Λ) drops, then the discriminant function (17) due to (14) and (15) grow on average. This leads to a more optimal decision rule (cf. (1)).
Eine weitere Möglichkeit zur Ermittlung der Koeffizienten besteht in der Anwendung der GIS-Methode. Bei den
vorher beschriebenen Verfahren wurden die optimalen Koeffizienten Λ der a-posteriorie Verteilung pΠ {Λ}(k|x)
gesucht. Die analoge log-lineare Verbundverteilung ist dann
Another way to determine the coefficients is to use the GIS method. In the previously described methods, the optimal coefficients Λ of the a-posterior distribution p Π {Λ} (k | x) were sought. The analog log-linear distribution is then
Man beachte, daß mit (9) und (18) immer gilt:
Note that with (9) and (18) the following always applies:
Im kontinuierlichen aber beschränkten Raum der Beobachtungen x wird nun eine Vektorquantisierung
durchgeführt. Dabei wird jeder Trainingsbeobachtung xn eine sie umgebende Punktmenge Bn mit dem
Volumen Vn zugewiesen. Durch die Vektorquantisierung können die Koeffizienten der kontinuierlichen
Verteilung pΠ {Λ}(k, x) durch die Koeffizienten Λ der diskreten Verteilung pΠ {Λ} (knr, xn) mit
In the continuous but limited space of the observations x, vector quantization is now carried out. Each training observation x n is assigned a surrounding point set B n with the volume V n . The vector quantization enables the coefficients of the continuous distribution p Π {Λ} (k, x) to be replaced by the coefficients Λ of the discrete distribution p Π {Λ} (k nr , x n )
approximiert werden. Mit Hilfe der GIS-Methode werden nun die Koeffizienten Λ der diskreten Verteilung
pΠ {Λ} (knr, xn) auf den Trainingsdaten (xn, knr), n = 1, . . ., N, r = 0, . . ., K optimiert. Dabei soll durch das
GIS-Verfahren die folgende Nebenbedingung erfüllt werden:
be approximated. Using the GIS method, the coefficients Λ of the discrete distribution p Π {Λ} (k nr , x n ) on the training data (x n , k nr ), n = 1 ,. . ., N, r = 0,. . ., K optimized. The GIS procedure is intended to meet the following constraint:
wobei h(knr, xn) die relative Häufigkeit des Ereignisses (knr, xn) auf den Trainingsdaten ist. Da es auf
den Trainingsdaten zu jedem Merkmal xn nur eine korrekte Wortfolge kn0 geben kann, gilt für die relative
Häufigkeit h(knr, xn):
where h (k nr , x n ) is the relative frequency of the event (k nr , x n ) on the training data. Since there can only be one correct word sequence k n0 on the training data for each characteristic x n , the following applies to the relative frequency h (k nr , x n ):
Um die Funktion h(knr, xn) zu glätten, kann man auch
To smooth the function h (k nr , x n ), you can also
mit (knr|xn) aus (8) ansetzen.start with (k nr | x n ) from (8).
Die Iterationsgleichungen für die Wahrscheinlichkeit pΠ {Λ} (knr, xn) lauten:
The iteration equations for the probability p Π {Λ} (k nr , x n ) are:
mit
With
Im Ergebnis der Iterationen entstehen die Verbundwahrscheinlichkeiten pΠ {Λ} (knr, xn) (*). Mit diesen
Wahrscheinlichkeiten und (20) ergibt sich folgendes lineares Gleichungssystem für die Koeffizienten λj:
The result of the iterations results in the union probabilities p Π {Λ} (k nr , x n ) (*) . With these probabilities and (20), the following linear system of equations results for the coefficients λ j :
Dieses Gleichungssystem besitzt nur M unabhängige Gleichungen, da laut dem GIS-Theorem [5] alle Verbundwahrscheinlichkeiten pΠ {Λ} (knr, xn)(*), n = 1, . . ., N, r = 0, . . ., K der Verteilungsform (20) genügen. Damit erhält man eine eindeutige Lösung für die M Koeffizienten λj, j = 1, . . ., M.This system of equations has only M independent equations, since according to the GIS theorem [5] all association probabilities p Π {Λ} (k nr , x n ) (*) , n = 1,. . ., N, r = 0,. . ., K of the distribution form (20) are sufficient. This gives a clear solution for the M coefficients λ j , j = 1,. . ., M.
Claims (3)
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1997155191 DE19755191A1 (en) | 1997-12-12 | 1997-12-12 | Determining model-specific factors for assigning classes to test data in speech recognition |
EP98957052A EP0960417B1 (en) | 1997-12-12 | 1998-12-11 | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
US09/367,214 US6456969B1 (en) | 1997-12-12 | 1998-12-11 | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
PCT/IB1998/001990 WO1999031654A2 (en) | 1997-12-12 | 1998-12-11 | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
JP53225499A JP2001511267A (en) | 1997-12-12 | 1998-12-11 | A method for determining model special factors for speech pattern recognition. |
DE69815067T DE69815067T2 (en) | 1997-12-12 | 1998-12-11 | METHOD FOR DETERMINING MODEL-SPECIFIC FACTORS FOR PATTERN RECOGNITION, IN PARTICULAR FOR VOICE PATTERNS |
US10/135,336 US8112274B2 (en) | 1997-12-12 | 2002-04-30 | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1997155191 DE19755191A1 (en) | 1997-12-12 | 1997-12-12 | Determining model-specific factors for assigning classes to test data in speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19755191A1 true DE19755191A1 (en) | 1999-06-17 |
Family
ID=7851639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1997155191 Withdrawn DE19755191A1 (en) | 1997-12-12 | 1997-12-12 | Determining model-specific factors for assigning classes to test data in speech recognition |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19755191A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10114874A1 (en) * | 2001-03-26 | 2002-11-14 | Bernd Falkowski | Learning system classifying bank customer credit worthiness employs systematic assessment through scoring- or points vectors |
-
1997
- 1997-12-12 DE DE1997155191 patent/DE19755191A1/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10114874A1 (en) * | 2001-03-26 | 2002-11-14 | Bernd Falkowski | Learning system classifying bank customer credit worthiness employs systematic assessment through scoring- or points vectors |
DE10114874C2 (en) * | 2001-03-26 | 2003-04-10 | Bernd Falkowski | Learning computer-based classifier |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69815067T2 (en) | METHOD FOR DETERMINING MODEL-SPECIFIC FACTORS FOR PATTERN RECOGNITION, IN PARTICULAR FOR VOICE PATTERNS | |
DE69818231T2 (en) | METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS | |
DE19636739C1 (en) | Multi-lingual hidden Markov model application for speech recognition system | |
DE69519297T2 (en) | METHOD AND DEVICE FOR VOICE RECOGNITION BY MEANS OF OPTIMIZED PARTIAL BUNDLING OF LIKELIHOOD MIXTURES | |
DE69938374T2 (en) | Method and apparatus for speech recognition using both a neural network and hidden Markov models | |
DE69422097T2 (en) | Training of combined chain models with minimal error rate | |
DE69322894T2 (en) | Learning method and device for speech recognition | |
EP0925579B1 (en) | Process for adaptation of a hidden markov sound model in a speech recognition system | |
WO1993006591A1 (en) | Process for recognizing patterns in time-varying measurement signals | |
DE69423692T2 (en) | Speech coding device and method using classification rules | |
EP0862161A2 (en) | Speech recognition method with model adaptation | |
DE69720134T2 (en) | Speech recognizer using fundamental frequency intensity data | |
EP1733223B1 (en) | Device and method for assessing the quality class of an object to be tested | |
WO1999059135A2 (en) | Arrangement and method for computer recognition of a predefined vocabulary in spoken language | |
EP1251489A2 (en) | Training the parameters of a speech recognition system for the recognition of pronunciation variations | |
EP1182646A2 (en) | Classification method of phonemes | |
EP1199704A2 (en) | Selection of an alternate stream of words for discriminant adaptation | |
DE19842151A1 (en) | Process for the adaptation of linguistic language models | |
DE69628603T2 (en) | System for pattern matching using a tree structure | |
EP1193687A2 (en) | Speaker adaptation for a speech recognition | |
EP0813734B1 (en) | Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed | |
EP1039447B1 (en) | Determination of regression classes tree structure for a speech recognizer | |
DE10014337A1 (en) | Generating speech model involves successively reducing body of text on text data in user-specific second body of text, generating values of speech model using reduced first body of text | |
DE19755191A1 (en) | Determining model-specific factors for assigning classes to test data in speech recognition | |
DE69901324T2 (en) | Device, method and storage medium for speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH, 2233 |
|
8127 | New person/name/address of the applicant |
Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20 |
|
8141 | Disposal/no request for examination |