JP6401126B2 - Feature amount vector calculation apparatus, feature amount vector calculation method, and feature amount vector calculation program. - Google Patents
Feature amount vector calculation apparatus, feature amount vector calculation method, and feature amount vector calculation program. Download PDFInfo
- Publication number
- JP6401126B2 JP6401126B2 JP2015158861A JP2015158861A JP6401126B2 JP 6401126 B2 JP6401126 B2 JP 6401126B2 JP 2015158861 A JP2015158861 A JP 2015158861A JP 2015158861 A JP2015158861 A JP 2015158861A JP 6401126 B2 JP6401126 B2 JP 6401126B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature
- speech
- noise
- posterior probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、特徴量ベクトル算出装置、音声認識装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラムに関する。 The present invention relates to a feature vector calculation device, a speech recognition device, a feature vector calculation method, and a feature vector calculation program.
近年、音声認識技術における音響モデルとして、GMM(Gaussian Mixture Model)に基づくHMM(Hidden Markov Model)音響モデル(GMM−HMM音響モデル)よりも認識精度が高い、DNN(Deep Neural Network)に基づくHMM音響モデル(DNN−HMM音響モデル)が用いられるようになってきている(例えば非特許文献1及び2参照)。DNN−HMM音響モデルでは、話者、雑音、チャネル等の影響を受けた入力音声データの認識精度が変動することから、各種の変動要因に対するDNN−HMM音響モデルの適応化が盛んに研究されている(例えば非特許文献3及び4参照)。例えば、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトルに基づく主に話者変動へのDNN−HMM音響モデル適応化が、簡易かつ高精度な手法として注目されている(例えば非特許文献4及び5参照)。 In recent years, HMM acoustics based on DNN (Deep Neural Network), which have higher recognition accuracy than HMM (Hidden Markov Model) acoustic models (GMM-HMM acoustic models) based on GMM (Gaussian Mixture Model) as acoustic models in speech recognition technology. A model (DNN-HMM acoustic model) has been used (for example, see Non-Patent Documents 1 and 2). In the DNN-HMM acoustic model, the recognition accuracy of the input speech data affected by the speaker, noise, channel, etc. fluctuates. Therefore, adaptation of the DNN-HMM acoustic model to various fluctuation factors has been actively studied. (For example, see Non-Patent Documents 3 and 4). For example, the DNN-HMM acoustic model adaptation to speaker variation mainly based on a feature vector called i-vector that expresses speaker features with vectors of about tens to hundreds of dimensions is simple and highly accurate. It attracts attention as a technique (see, for example, Non-Patent Documents 4 and 5).
しかしながら、上記技術では、i-vectorに基づくDNN−HMM音響モデル適応化において、雑音やチャネル歪みなどの影響を受けていないクリーンな入力音声データを想定して行われている。あるいは、入力音声データが雑音やチャネル歪みの影響を受けているとしても、それらに何ら対処を施さずにDNN−HMM音響モデル適応化が行われている。 However, in the above technique, DNN-HMM acoustic model adaptation based on i-vector is performed assuming clean input voice data that is not affected by noise or channel distortion. Alternatively, even if the input voice data is affected by noise and channel distortion, DNN-HMM acoustic model adaptation is performed without taking any measures against them.
ここで、i-vectorは、入力音声データの特徴量に基づき抽出されるため、入力音声データに雑音やチャネル歪みが付加されている場合は、抽出されたi-vectorも雑音やチャネル歪みの影響を受ける。よって、入力音声データが雑音やチャネル歪みなどの影響を受けている場合は、i-vectorに基づくDNN−HMM音響モデル適応化の効果が低下する。 Here, since i-vectors are extracted based on the features of the input audio data, if noise or channel distortion is added to the input audio data, the extracted i-vector is also affected by noise or channel distortion. Receive. Therefore, when the input voice data is affected by noise or channel distortion, the effect of adapting the DNN-HMM acoustic model based on the i-vector is reduced.
本願が開示する実施形態の一例は、例えば、特徴量ベクトルに基づくDNN−HMM音響モデル適応化の効果の低減を抑制することを目的とする。 An example of the embodiment disclosed in the present application is to suppress, for example, a reduction in the effect of DNN-HMM acoustic model adaptation based on a feature vector.
本願の実施形態の一例において、入力音声から第1の特徴量ベクトルを抽出する。入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する。そして、雑音又は歪みを含む音声に対して低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、第2の特徴量ベクトルが混合分布モデルの各分布に該当する確率を示す事後確率を計算する。そして、雑音又は歪みを含む音声及び事後確率から、混合分布モデルにおける各分布の平均ベクトルを算出する。そして、第1の特徴量ベクトルと、事後確率と、平均ベクトルとから、入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する。そして、0次のBaum-Welch統計量及び1次のBaum-Welch統計量から特徴量ベクトルを計算する。 In an example of the embodiment of the present application, a first feature vector is extracted from input speech. A second feature amount vector is extracted from the speech in which noise or channel distortion reduction processing has been performed on the input speech. Then, based on the parameters of the mixed distribution model obtained by learning the voice that has been subjected to reduction processing on the voice including noise or distortion, the probability that the second feature vector corresponds to each distribution of the mixed distribution model is indicated. Calculate the posterior probability. Then, an average vector of each distribution in the mixed distribution model is calculated from the speech including noise or distortion and the posterior probability. Then, the 0th-order Baum-Welch statistic and the 1st-order Baum-Welch statistic for the input speech are calculated from the first feature vector, the posterior probability, and the average vector. Then, a feature vector is calculated from the zeroth-order Baum-Welch statistic and the first-order Baum-Welch statistic.
本願が開示する実施形態の一例によれば、例えば、特徴量ベクトルに基づくDNN−HMM音響モデル適応化の効果の低減を抑制できる。 According to an example of the embodiment disclosed in the present application, for example, it is possible to suppress a reduction in the effect of DNN-HMM acoustic model adaptation based on a feature vector.
以下、本願の開示技術に関する実施形態の一例について、図面を参照して説明する。なお、以下の実施形態により、本願の開示技術が限定されるものではない。また、以下の実施形態は、適宜組合せてもよい。以下、本願が開示する実施形態の説明に先立ち、前提となる従来技術について説明し、その後、本願が開示する実施形態を説明する。 Hereinafter, an exemplary embodiment related to the disclosed technology of the present application will be described with reference to the drawings. The disclosed technology of the present application is not limited by the following embodiments. Further, the following embodiments may be appropriately combined. Prior to the description of the embodiments disclosed in the present application, the premise prior art will be described, and then the embodiments disclosed in the present application will be described.
なお、以下の記載において、記号Aに対して“^A”と表記する場合は、下記の(1−1)式に示すように、「Aの直上に^が付された記号」と同等であるとする。また、記号Aに対して“−A”と表記する場合は、下記の(1−2)式に示すように、「Aの直上に−が付された記号」と同等であるとする。また、記号Aに対して“{A}α β”と表記する場合は、下記の(1−3)式に示すように、「{A}の右方にαが下付きで表記され、{A}の右方にβが上付きで表記された記号」と同等であるとする。また、Aがベクトルである場合には「ベクトルA」、Aが行列である場合には「行列A」、Aが集合である場合には「集合A」と記載する。 In addition, in the following description, when “^ A” is written with respect to the symbol A, it is equivalent to “a symbol with a ^ immediately above A” as shown in the following equation (1-1). Suppose there is. In addition, when “-A” is written for the symbol A, it is assumed to be equivalent to “a symbol with − immediately above A” as shown in the following equation (1-2). Also, when “{A} α β ” is written for the symbol A, “α is written as a subscript to the right of {A}, as shown in the following equation (1-3): { It is assumed that β is equivalent to a symbol in which β is superscripted on the right side of A}. Further, “A” is described as “Vector A” when A is a vector, “Matrix A” when A is a matrix, and “Set A” when A is a set.
[従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力]
図1は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力の概要の一例を示す図である。図1に示すように、一般的に、音声認識において、入力音声データは、フレーム長30msec程度、フレームシフト10msec程度の単位で音響分析され、40次元程度のMFCC(Mel-Frequency Cepstral Coefficient)やFBANK(log-mel Filter BANK)等の基本特徴量ベクトルがフレーム毎に抽出される。
[Input of basic feature vector to DNN-HMM acoustic model according to prior art]
FIG. 1 is a diagram illustrating an example of an outline of input of a basic feature vector into a DNN-HMM acoustic model according to the related art. As shown in FIG. 1, in general, in speech recognition, input speech data is acoustically analyzed in units of a frame length of about 30 msec and a frame shift of about 10 msec, and about 40-dimensional MFCC (Mel-Frequency Cepstral Coefficient) or FBANK A basic feature vector such as (log-mel Filter BANK) is extracted for each frame.
そして、図1に示すように、DNN−HMM音響モデルは、1フレームの基本特徴量ベクトルが与えられたときに、当該フレームのHMM状態の事後確率ベクトルを出力する。より詳細には、DNN−HMM音響モデルは、例えば当該フレーム及び当該フレームの前後5フレーム分の特徴量ベクトルが連結された合計数百〜千数百程度の次元の基本特徴量ベクトルが与えられるのに対して、当該フレームのHMM状態の事後確率ベクトルを出力する。この音声認識の基本の枠組みについては、例えば非特許文献1及び2で詳細に説明されている。 As shown in FIG. 1, when a basic feature vector of one frame is given, the DNN-HMM acoustic model outputs a posterior probability vector of the HMM state of the frame. More specifically, the DNN-HMM acoustic model is provided with basic feature vectors having a total dimension of about several hundred to several hundreds, for example, in which the frame and feature vectors for five frames before and after the frame are connected. In response, the posterior probability vector of the HMM state of the frame is output. This basic framework for speech recognition is described in detail in Non-Patent Documents 1 and 2, for example.
[従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力]
図2は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力の概要の一例を示す図である。図2に示すように、MFCCやFBANK等の基本特徴量ベクトルとは別に、入力音声データに含まれる話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトルが入力音声データから抽出される。そして、基本特徴量ベクトル及びi-vectorを連結した拡張特徴量ベクトルをDNN−HMM音響モデルに与えて、主に話者変動に対して適応化した音声認識に用いる。この方法の有効性は、例えば非特許文献4及び5で詳細に説明されている。
[Input of basic feature vector and i-vector to DNN-HMM acoustic model according to prior art]
FIG. 2 is a diagram illustrating an example of an outline of basic feature vector and i-vector input to a DNN-HMM acoustic model according to the related art. As shown in FIG. 2, apart from basic feature vectors such as MFCC and FBANK, feature values called i-vectors that represent speaker features contained in input speech data with vectors of about several tens to several hundreds of dimensions A vector is extracted from the input speech data. Then, an extended feature vector obtained by concatenating the basic feature vector and the i-vector is given to the DNN-HMM acoustic model and used mainly for speech recognition adapted to speaker variation. The effectiveness of this method is described in detail in Non-Patent Documents 4 and 5, for example.
ここで、雑音やチャネル歪みが付加されている入力音声データを音声認識するためにi-vectorを用いる場合は、話者変動に加えて、雑音やチャネルの変動にもDNN−HMM音響モデルを適応化する必要があるため、話者の特徴に加えて、雑音やチャネル歪みの情報もi-vectorに含まれている方が望ましい。i-vectorは、元来、話者認識の分野で開発されたものである。 Here, when i-vector is used for speech recognition of input speech data to which noise and channel distortion are added, the DNN-HMM acoustic model is applied to noise and channel variations in addition to speaker variations. Therefore, it is desirable that the i-vector includes noise and channel distortion information in addition to speaker characteristics. i-vector was originally developed in the field of speaker recognition.
[従来技術に係るi-vectorの抽出手順]
図3は、従来技術に係るi-vectorの抽出手順の概要の一例を示す図である。以下、i-vectorの抽出手順について説明する。以下、i-vector抽出手順のうち、開示技術に関わる部分のみについて説明する。i-vectorが登場した経緯や抽出手順については、例えば非特許文献7で詳細に説明されている。
[Existing procedure of i-vector according to the prior art]
FIG. 3 is a diagram illustrating an example of an outline of an i-vector extraction procedure according to the related art. The i-vector extraction procedure will be described below. Hereinafter, only the part related to the disclosed technology in the i-vector extraction procedure will be described. The details of the appearance of i-vector and the extraction procedure are described in detail in Non-Patent Document 7, for example.
従来技術の話者認識における標準的なi-vectorの抽出手法は、GMM(Gaussian Mixture Model:混合ガウス分布モデル)−UBM(Universal Background Model)(GMM−UBM)アプローチである。なお、UBMもGMMの一種である。GMM−UBMアプローチは、「音声らしい」モデル(UBM)を多数の不特定話者の大量のUBM学習用の音声データを用いて学習しておき、新たな話者のモデル(GMM)は、当該話者の少量の音声データを用いてUBMを適応して得る、という手法である。 A standard i-vector extraction method in speaker recognition of the prior art is a GMM (Gaussian Mixture Model) -UBM (Universal Background Model) (GMM-UBM) approach. UBM is a kind of GMM. In the GMM-UBM approach, a “voice-like” model (UBM) is learned using a large amount of speech data for UBM learning of a large number of unspecified speakers, and a new speaker model (GMM) This is a method of adaptively obtaining UBM using a small amount of voice data of a speaker.
一方、近年の話者認識においては、GMMの平均ベクトルを混合数分だけ連結したGMMスーパーベクトルを特徴量ベクトルとして用いる枠組みが主流となってきている。GMMスーパーベクトルは、時系列データである音声データをベクトル空間上の一点として表現するものである。i-vectorもこのGMMスーパーベクトルを基礎としている。 On the other hand, in recent speaker recognition, a framework using a GMM super vector obtained by connecting GMM average vectors by the number of mixtures as a feature vector has become mainstream. The GMM super vector represents audio data as time series data as one point on a vector space. i-vector is also based on this GMM supervector.
ここで、入力音声データuから得られるD次元のLフレームの特徴量ベクトル系列Xuを、下記の(2)式のように定義する。特徴量ベクトルxt(t=1,2,・・・,L)は、例えばMFCCであり、その次元数Dは、例えば40である。 Here, a D-dimensional L frame feature vector sequence X u obtained from the input speech data u is defined as in the following equation (2). The feature vector x t (t = 1, 2,..., L) is, for example, MFCC, and its dimension number D is, for example, 40.
また、c=1,2,・・・,CをUBM(GMM)のガウス分布を表す添え字(例えばC=2048)とし、c番目のガウス分布の混合重みπc、c番目の平均ベクトルmc、対角共分散行列Σcとすると、UBMのパラメータ集合Ωは、下記の(3)式で表される。 In addition, c = 1, 2,..., C is a subscript (for example, C = 2048) representing a Gaussian distribution of UBM (GMM), and the mixing weight π c of the c-th Gaussian distribution and the c-th average vector m c, when the diagonal covariance matrix sigma c, the parameter set Ω of UBM, represented by (3) below.
このとき、特徴量ベクトルxtに対するUBMの尤度p(xt|Ω)は、下記の(4)式のように与えられる。 At this time, the likelihood p (x t | Ω) of the UBM with respect to the feature quantity vector x t is given by the following equation (4).
このUBMから得られる話者非依存のCD(C×D)次元のGMMスーパーベクトルmは、下記(5)式のようになる。ただし、数式の右肩のTは、行列又はベクトルの転置記号である。 The speaker-independent CD (C × D) -dimensional GMM supervector m obtained from the UBM is expressed by the following equation (5). However, T on the right side of the equation is a transposition symbol of a matrix or a vector.
そして、入力音声データuのCD次元のGMMスーパーベクトルMuは、下記の(6)式のように得られるものとする。 The CD-dimensional GMM super vector M u of the input audio data u is assumed to be obtained by the following equation (6).
ここで、上記の(6)式における行列Tは、全変動行列と呼ばれるCD次元×M次元の矩形行列(M<<CD)であり、ベクトルwuが入力音声データuに対するM次元のi-vectorである。つまり、i-vectorは、GMMスーパーベクトル空間における平均的な話者(UBMの平均)からの「差」(を次元圧縮したもの)として各入力音声データuに含まれる話者の特徴を表現したものといえる。 Here, the matrix T in the above equation (6) is a CD dimension × M dimension rectangular matrix (M << CD) called a total variation matrix, and the vector w u is an M dimension i− with respect to the input speech data u. vector. In other words, the i-vector represents the characteristics of the speakers included in each input speech data u as a “difference” (dimensionally compressed) from the average speaker (average of UBM) in the GMM super vector space. It can be said that.
以下、i-vectorであるベクトルwuの具体的な一連の抽出手順について述べる。先ず、γt(c)を、UBMにおいてc番目であるガウス分布からxtが生成される事後確率とする。事後確率γt(c)は、下記の(7)式のように得られる。 Hereinafter, a specific series of extraction procedures of the vector w u which is an i-vector will be described. First, let γ t (c) be the posterior probability that x t is generated from the Gaussian distribution that is the c-th in the UBM. The posterior probability γ t (c) is obtained by the following equation (7).
事後確率γt(c)を用いると、UBMを用いた入力音声データuに対する0次、1次のBaum-Welch統計量Nu,c、ベクトルFu,cは、下記の(8)式及び(9)式のようにそれぞれ書くことができる。ただし、ベクトルFu,cは、D次元のベクトルである。 Using the posterior probability γ t (c), the 0th-order and 1st-order Baum-Welch statistics N u, c and the vector F u, c for the input speech data u using UBM are expressed by the following equation (8) and Each can be written as shown in equation (9). However, the vector Fu, c is a D-dimensional vector.
さらに、上記の(8)式及び(9)式を用いて、下記の(10)式及び(11)式のように、0次、1次のBaum-Welch統計量である行列Nu、ベクトルFuを定義する。ただし、行列NuはCD次元×CD次元の行列、ベクトルFuはD次元のベクトルである。 Further, using the above equations (8) and (9), a matrix N u that is a 0th-order and first-order Baum-Welch statistic, a vector, as in the following equations (10) and (11): Define Fu . However, the matrix N u is a CD dimension × CD dimension matrix, and the vector F u is a D dimension vector.
ここで、上記の(10)式の対角成分に現れる行列IDは、D次元×D次元の単位行列である。また、行列Σを全変動行列Tで表現できない残留変動成分をモデル化するD次元×D次元の対角行列とする。行列T及び行列Σの計算手順は省略するが、以上を用いてi-vectorwuは、下記の(12)式のように計算できる。なお、下記の(12)式における行列IMは、M次元×M次元の単位行列である。 Here, the matrix I D that appears in the diagonal component of the above equation (10) is a D-dimensional × D-dimensional unit matrix. Further, the matrix Σ is a D-dimensional × D-dimensional diagonal matrix that models residual fluctuation components that cannot be expressed by the total fluctuation matrix T. Although the calculation procedure of the matrix T and the matrix Σ is omitted, the i-vectorw u can be calculated as in the following equation (12) using the above. Note that the matrix I M in the following equation (12) is an M-dimensional × M-dimensional unit matrix.
上記の(7)式〜(12)式で示したi-vectorwuの具体的な一連の抽出手順は、大きく分けて二つの手順に分けることができる。<一つ目の手順>は、上記の(7)式に相当するもので、入力音声データuから得られるLフレームの特徴量ベクトル系列Xuの各フレームの特徴量xt(t=1,2,・・・,L)がUBMのc番目のガウス分布から生成される事後確率γt(c)を計算する手順である。<二つ目の手順>は、上記の(7)式で計算した事後確率γt(c)を用いて、上記の(8)式〜(12)式に従い、i-vectorwuを計算する手順である。 Specific series of extraction steps of i-vectorw u shown in the above (7) to (12) can be divided roughly into two steps. The <first procedure> corresponds to the above equation (7), and the feature quantity x t (t = 1, t) of each frame of the L frame feature quantity vector sequence X u obtained from the input speech data u. 2,..., L) is a procedure for calculating the posterior probability γ t (c) generated from the c-th Gaussian distribution of UBM. <Second procedure> is a procedure for calculating i-vectorw u according to the above equations (8) to (12) using the posterior probability γ t (c) calculated in the above equation (7). It is.
UBM内の各ガウス分布は、理想的には、前後数音素分の依存性も含めた音素の情報を含む各音素コンテキストに対応している。i-vector抽出の<一つ目の手順>で、事後確率γt(c)を計算しているが、これはベクトルxtの音素コンテキストを確率的に推定していることに相当する。事後確率γt(c)を精度良く計算することは、i-vector抽出の二つ目の手順で、話者の特徴を表現したi-vectorwuを、音素コンテキストすなわち入力音声データuの発話内容に依存せずに、精度良く計算するために必要不可欠である。 Each Gaussian distribution in the UBM ideally corresponds to each phoneme context including phoneme information including the dependency of several phonemes before and after. In the <first procedure> of i-vector extraction, the posterior probability γ t (c) is calculated, which corresponds to probabilistic estimation of the phoneme context of the vector x t . Possible to accurately calculate the posterior probability γ t (c) is a second step in the i-vector extraction, the i-vectorw u representing the characteristics of the speaker, the speech contents of the phoneme contexts or input audio data u It is indispensable to calculate with high accuracy without depending on.
実環境において音声認識を行う際には、入力音声データuには雑音やチャネル歪みが付加されることが多い。この場合、i-vector抽出の<一つ目の手順>で、事後確率γt(c)を精度良く計算することが困難になり、その結果、i-vector抽出の<二つ目の手順>で、i-vectorを精度良く計算することが困難になる。この問題を解決するために、例えば何らかの音声強調技術を用いて、入力音声データuから雑音やチャネル歪みを低減した上で、上記の(7)式〜(12)式で示されるi-vector抽出の一連の手順を行うという方法が考えられる。 When speech recognition is performed in an actual environment, noise and channel distortion are often added to the input speech data u. In this case, it becomes difficult to accurately calculate the posterior probability γ t (c) by the <first procedure> of i-vector extraction. As a result, the <second procedure> of i-vector extraction This makes it difficult to calculate i-vectors with high accuracy. In order to solve this problem, i-vector extraction represented by the above equations (7) to (12) is performed after reducing noise and channel distortion from the input speech data u using, for example, some speech enhancement technique. A method of performing a series of procedures is possible.
この方法によれば、i-vector抽出の<一つ目の手順>で、事後確率γt(c)は精度良く計算することが可能になるが、i-vector抽出の<二つ目の手順>での処理対象が雑音やチャネル歪みが低減された情報となるため、実際に計算されたi-vectorからも雑音やチャネル歪みの情報が失われることになり、話者の特徴に加えて雑音やチャネル歪みの情報もi-vectorに含めるようにして音声認識で積極的に利用したい場合に、不都合となる。 According to this method, the posterior probability γ t (c) can be accurately calculated by the <first procedure> of i-vector extraction, but the <second procedure of i-vector extraction Since the processing target in <> is information with reduced noise and channel distortion, noise and channel distortion information will be lost from the actually calculated i-vector, and in addition to speaker characteristics, noise And channel distortion information is also included in the i-vector, which is inconvenient if you want to use it actively in speech recognition.
[実施形態に係るi-vector抽出]
以上から、実施形態は、i-vectorの抽出手順において、(第1の要件)i-vector抽出の<一つ目の手順>で、入力音声データuに含まれる雑音やチャネル歪みを低減して事後確率γt(c)を精度良く計算し、(第2の要件)i-vector抽出の<二つ目の手順>では、話者の特徴に加えて雑音やチャネル歪みの情報も含んだ形で、つまり、雑音やチャネル歪みが含まれる入力音声データuを使ってi-vectorを計算する。
[I-vector extraction according to the embodiment]
As described above, in the i-vector extraction procedure, the first embodiment reduces the noise and channel distortion included in the input audio data u in the <first procedure> of i-vector extraction. The posterior probability γ t (c) is calculated with high accuracy. (Second requirement) In the <second procedure> of i-vector extraction, in addition to speaker characteristics, information including noise and channel distortion is included. That is, i-vector is calculated using input speech data u including noise and channel distortion.
図4は、実施形態に係るi-vector算出装置の一例を示す図である。i-vector算出装置10は、第1の基本特徴量抽出部11A、第2の基本特徴量抽出部11B、^γt(c)計算部12、−mc計算部13、^Nu,c,^Fu,c計算部14、i-vector計算部15を有する。なお、第1の基本特徴量抽出部11A、第2の基本特徴量抽出部11B、^γt(c)計算部12、−mc計算部13、^Nu,c,^Fu,c計算部14、i-vector計算部15は、CPU(Central Processing Unit)等の処理装置及びRAM(Random Access Memory)等の一時記憶装置の協働により処理を行う処理部であり、適宜統合又は分散してもよい。
FIG. 4 is a diagram illustrating an example of the i-vector calculation apparatus according to the embodiment. i-vector calculating unit 10, a first basic feature amount extracting section 11A, second basic feature amount extracting unit 11B, ^ γ t (c) calculating
実施形態では、雑音やチャネル歪みが付加された多数の不特定話者の大量のUBM学習用の音声データから抽出されるD次元、Qフレームの特徴量ベクトル時系列Oを、下記の(13)式のように定義する。特徴量ベクトル時系列Oは、雑音歪み音声特徴量記憶部100Aに保存される。
In the embodiment, the D-dimensional and Q-frame feature vector time series O extracted from a large amount of speech data for UBM learning of a large number of unspecified speakers to which noise and channel distortion are added is represented by the following (13): Define it like an expression. The feature vector time series O is stored in the noise distortion speech
また、雑音やチャネル歪みが付加された多数の不特定話者の大量のUBM学習用の音声データに対して所定の音声強調技術を用いて雑音やチャネル歪みを低減して得た音声データから抽出されるD次元、Qフレーム特徴量ベクトル時系列^Oを、下記の(14)式のように定義する。特徴量ベクトル時系列^Oは、雑音歪み低減音声特徴量記憶部100Bに保存される。
In addition, a large amount of voice data for UBM learning of a large number of unspecified speakers to which noise and channel distortion are added is extracted from voice data obtained by reducing noise and channel distortion using a predetermined voice enhancement technique. A D-dimensional, Q-frame feature vector time series ^ O to be defined is defined as in the following equation (14). The feature vector time series ^ O is stored in the noise distortion reduced speech
雑音やチャネル歪みが付加された入力音声データuから抽出されたD次元、Lフレームの特徴量ベクトル系列Xuを、下記の(15)式のように定義する。第1の基本特徴量抽出部11Aは、下記の(15)式により、入力音声データuから特徴量ベクトル系列Xuを抽出する。 A D-dimensional and L-frame feature vector sequence X u extracted from input speech data u to which noise and channel distortion have been added is defined as in the following equation (15). The first basic feature quantity extraction unit 11A extracts a feature quantity vector series X u from the input speech data u by the following equation (15).
入力音声データuに対して、上記した所定の音声強調技術を用いて雑音やチャネル歪みを低減した入力音声データ^uから得たD次元、Lフレームの特徴量ベクトル時系列^Xuを、下記の(16)式のように定義する。第2の基本特徴量抽出部11Bは、下記の(16)式により、入力音声データuから特徴量ベクトル系列^Xuを抽出する。すると、ベクトル系列^Oを用いて学習したUBM(以下、^UBMと表記する)の^xt(t=1,2,・・・,L)に対する各尤度p(^xt|^Ω)は、下記の(17)式のように書くことができる。 For the input speech data u, the D-dimensional and L-frame feature vector time series { circumflex over (X) } u obtained from the input speech data {circumflex over (u)} using the above-described predetermined speech enhancement technique to reduce noise and channel distortion (16). The second basic feature quantity extraction unit 11B extracts the feature quantity vector series ^ X u from the input speech data u by the following equation (16). Then, each likelihood p (^ x t | ^ Ω) for ^ x t (t = 1, 2,..., L) of the UBM (hereinafter referred to as ^ UBM) learned using the vector sequence ^ O. ) Can be written as the following equation (17).
ここで、c=1,2,・・・,Cを^UBMのガウス分布を表す添え字(例えばC=2048)とし、c番目のガウス分布の混合重み^πc、c番目の平均ベクトル^mc、対角共分散行列^Σcとすると、^UBMのパラメータ集合^Ωは、下記の(18)式のようになる。^UBMのパラメータ集合^Ωは、UBM学習装置200により特徴量ベクトル時系列^Oから算出され、^UBM記憶部300に保存される。
Here, c = 1, 2,..., C is a subscript representing the UBM Gaussian distribution (for example, C = 2048), and the c-th Gaussian distribution weight ^ π c and the c-th average vector ^ Assuming that m c is a diagonal covariance matrix ^ Σ c , the parameter set ^ Ω of ^ UBM is expressed by the following equation (18). The UBM parameter set ^ Ω is calculated from the feature vector time series ^ O by the UBM learning device 200 and stored in the ^
^γt(c)計算部12は、^UBMのパラメータ集合^Ωを用いて、^Xuの各フレームの特徴量ベクトル^xt(t=1,2,・・・,L)が^UBMのc番目のガウス分布から生成される事後確率^γt(c)を、下記の(19)式のように計算する。
^ Γ t (c) Using the UBM parameter set ^ Ω, the
事後確率^γt(c)は、雑音やチャネル歪みを低減した^UBMと、雑音やチャネル歪みを低減したベクトル系列^Xuとを用いて計算されているため、上記の(第1の要件)を満たすi-vectorの抽出手順の<一つ目の手順>である。続けて、^Nu,c,^Fu,c計算部14は、事後確率^γt(c)を用いて、入力音声データuに対する0次、1次のBaum-Welch統計量^Nu,c、ベクトル^Fu,cを、下記の(20)式及び(21)式のようにそれぞれ計算する。ただし、ベクトル^Fu,cは、D次元のベクトルである。 The posterior probability ^ γ t (c) is calculated using ^ UBM with reduced noise and channel distortion and the vector sequence ^ X u with reduced noise and channel distortion. This is the <first procedure> of the i-vector extraction procedure that satisfies (1). Subsequently, the ^ N u, c , Fu, c calculation unit 14 uses the posterior probability ^ γ t (c) to calculate the 0th-order and 1st-order Baum-Welch statistics ^ N u for the input speech data u. , c and vector { circumflex over (F) }, c , respectively, as shown in the following equations (20) and (21). However, the vector ^ F u, c is a D-dimensional vector.
ここで着目すべきは、上記の(21)式において、ベクトル^Fu,cの計算に、雑音やチャネル歪みが付加された入力音声データuの特徴量ベクトルxt(t=1,2,・・・,L)を用いることである。このようにベクトル^Fu,cを計算することで、最終的に抽出されるi-vectorは、話者の特徴に加えて、雑音やチャネル歪みの情報も保持したものとなり、<二つ目の手順>において上記の(第2の要件)が満されていることになる。 It should be noted here that in the above equation (21), the feature vector x t (t = 1, 2,) of the input speech data u in which noise and channel distortion are added to the calculation of the vector F u, c . ..., L). By calculating the vector FF u, c in this way, the i-vector that is finally extracted retains noise and channel distortion information in addition to the speaker characteristics. In the above procedure, the above (second requirement) is satisfied.
なお、−mc計算部13は、上記の(21)式における−mcを、事後確率^γt(c)と、上記の(13)式で示されるUBM学習用の音声データから得られるD次元、Qフレームの特徴量ベクトル時系列Oを用いて、下記の(22)式のように計算する。 Incidentally, -m c calculating unit 13, the -m c in the above equation (21), a posterior probability ^ gamma t (c), derived from the sound data for UBM learning represented by the formula (13) Using the feature vector time series O of the D dimension and Q frame, calculation is performed as shown in the following equation (22).
これは、仮に特徴量ベクトル時系列Oを用いてUBMを学習したとしても、UBMのガウス分布番号と、^UBMのガウス分布番号の対応を取ることは不可能であるため、単純にUBMの分布番号cのガウス分布の平均ベクトルmcを用いることができないためである。すなわち、UBMと^UBMは別物であり、UBMを構成するガウス分布と^UBMを構成するガウス分布とは何ら関係はないことから、両者のガウス分布の分布番号同士にも何ら関係はないためである。つまり、^UBMでのガウス分布番号が既知であっても、この番号はUBMでのガウス分布の分布番号とは異なり、UBMでのガウス分布番号を求めることはできないことから、特徴量ベクトルxt(t=1,2,・・・,L)から差し引くべきc番目の平均ベクトルmcを求めることができない。この問題を解決するため、^UBMでのガウス分布番号を用いて、上記の(22)式に従って、c番目の平均ベクトルmcの近似値−mcを求める。 Even if the UBM is learned using the feature vector time series O, it is impossible to take correspondence between the UBM Gaussian distribution number and the ^ UBM Gaussian distribution number. it can not be used an average vector m c of the Gaussian distribution of the number c. That is, UBM and ^ UBM are different, and since there is no relationship between the Gaussian distribution that constitutes UBM and the Gaussian distribution that constitutes ^ UBM, there is no relationship between the distribution numbers of both Gaussian distributions. is there. In other words, ^ even known Gaussian distribution number in UBM, this number is different from the distribution number of the Gaussian distribution at UBM, since it is impossible to obtain the Gaussian distribution number in UBM, feature vector x t (t = 1,2, ···, L ) can not be obtained c-th mean vector m c to subtract from. To solve this problem, by using a Gaussian distribution number in ^ UBM, according to the above (22), approximated -m c of the c-th mean vector m c.
最後に、i-vector計算部15は、下記の(23)式、(24)式、(25)式により、i-vectorwuを計算する。 Finally, the i-vector calculation unit 15 calculates i-vectorw u by the following equations (23), (24), and (25).
[実施形態に係るi-vector抽出処理]
図5は、実施形態に係るi-vector抽出処理の一例を示すフローチャートである。先ず、i-vector算出装置10の第1の基本特徴量抽出部11Aは、上記の(15)式により、入力音声データuから特徴量ベクトル系列Xu(第1の基本特徴量)を抽出する(ステップS11)。次に、第2の基本特徴量抽出部11Bは、上記の(16)式により、入力音声データuから特徴量ベクトル系列^Xu(第2の基本特徴量)を抽出する(ステップS12)。なお、ステップS11及びステップS12の実行順序は、前後しても、同時であってもよい。
[I-vector extraction processing according to the embodiment]
FIG. 5 is a flowchart illustrating an example of the i-vector extraction process according to the embodiment. First, the first basic feature quantity extraction unit 11A of the i-vector calculation apparatus 10 extracts a feature quantity vector series X u (first basic feature quantity) from the input speech data u by the above equation (15). (Step S11). Next, the second basic feature quantity extraction unit 11B extracts a feature quantity vector series ^ X u (second basic feature quantity) from the input speech data u by the above equation (16) (step S12). In addition, the execution order of step S11 and step S12 may be before and after, or may be simultaneous.
次に、^γt(c)計算部12は、^UBMのパラメータ集合^Ωと、特徴量ベクトル系列^Xuとを用いて、^Xuの各フレームの特徴量ベクトル^xt(t=1,2,・・・,L)が^UBMのc番目のガウス分布から生成される事後確率^γt(c)を、上記の(19)式のように計算する(ステップS13)。
Next, ^ gamma t (c) calculating
次に、−mc計算部13は、上記の(21)式における−mcを、事後確率^γt(c)と、上記の(13)式で示されるUBM学習用の音声データから得られるD次元、Qフレームの特徴量ベクトル時系列Oと、事後確率^γt(c)とを用いて、上記の(22)式のように計算する(ステップS14)。 Next, -m c calculating unit 13, to give the -m c in the above equation (21), a posterior probability ^ gamma t (c), from the voice data for UBM learning represented by the formula (13) Using the D-dimensional and Q-frame feature vector time series O and the posterior probability ^ γ t (c), calculation is performed as in the above equation (22) (step S14).
次に、^Nu,c,^Fu,c計算部14は、特徴量ベクトル系列Xuと、事後確率^γt(c)と、−mcとから、入力音声データuに対する0次、1次のBaum-Welch統計量^Nu,c、ベクトル^Fu,cを、上記の(20)式及び(21)式のようにそれぞれ計算する(ステップS15)。 Next, ^ N u, c, ^ F u, c calculating unit 14, a feature vector sequence X u, the posterior probability ^ γ t (c), and a -m c, 0-order with respect to the input audio data u First-order Baum-Welch statistics ^ N u, c and vector ^ F u, c are calculated as shown in the above equations (20) and (21) (step S15).
次に、i-vector計算部15は、上記の(23)式、(24)式、(25)式により、i-vectorwuを計算する(ステップS16)。i-vector算出装置10は、ステップS15で計算したi-vectorwuを出力する。i-vectorwuは、例えば図2に示すように、基本特徴量ベクトル及びi-vectorwuが連結された拡張特徴量ベクトルが、例えばDNN−HMM音響モデルに入力され求められたHMM状態事後確率ベクトルを用いて音声認識を行う音声認識装置に適用できる。 Next, i-vector calculating unit 15, the above equation (23), (24) and (25), to calculate the i-vectorw u (step S16). The i-vector calculation device 10 outputs the i-vectorw u calculated in step S15. i-vectorw u, for example, as shown in FIG. 2, the basic feature vector and i-vectorw u is expanded feature vectors, which are connected, for example DNN-HMM acoustic model is input to the obtained HMM state posterior probability vector It can be applied to a speech recognition apparatus that performs speech recognition using
なお、以上の実施形態に係るi-vectorの抽出手順における雑音やチャネル歪みを低減する方法としては、任意の音声強調処理技術を適用することができる。各種の音声強調処理技術については、例えば非特許文献8に詳細に記載されている。または、雑音やチャネル歪みの影響を低減する方法として音声強調処理技術に代えて、DNN−HMM音響モデルから得られるボトルネック特徴量を用いる処理技術を用いてもよい。ボトルネック特徴量は、例えば非特許文献2に詳細に記載されている。 Note that any speech enhancement processing technique can be applied as a method of reducing noise and channel distortion in the i-vector extraction procedure according to the above embodiment. Various speech enhancement processing techniques are described in detail in Non-Patent Document 8, for example. Alternatively, as a method of reducing the influence of noise and channel distortion, a processing technique using a bottleneck feature amount obtained from a DNN-HMM acoustic model may be used instead of the voice enhancement processing technique. The bottleneck feature amount is described in detail in Non-Patent Document 2, for example.
また、特徴量ベクトル時系列^Oを用いて学習する混合分布モデルは、GMMに基づくUBMに限らず、HMMであってもよい。 Further, the mixed distribution model learned using the feature vector time series ^ O is not limited to the UBM based on the GMM but may be an HMM.
[評価実験]
実施形態と比較する従来技術は、非特許文献4及び5に記載の従来技術とした。下記の(表1)及び(表2)は、実施形態のi-vector算出装置10により算出されたi-vectorをDNNの音響モデルへ投入した場合の評価実験結果を示す表である。各表における百分率は、単語誤り率(Word Error Rate:WER)である。
[Evaluation experiment]
The conventional technique compared with the embodiment is the conventional technique described in Non-Patent Documents 4 and 5. The following (Table 1) and (Table 2) are tables showing evaluation experiment results when the i-vector calculated by the i-vector calculation apparatus 10 of the embodiment is input to the acoustic model of DNN. The percentage in each table is the word error rate (WER).
(表1)において、“+”記号の左側は“i-vector抽出の<一つ目の手順>で用いた特徴量の種別”を表し、“+”記号の右側は“i-vector抽出の<二つ目の手順>で用いた特徴量の種別”を表す。“noisy MFCC”は雑音MFCCであり、“Bottleneck”はBottleneck特徴量であり、“VTS enhanced”はベクトルテーラー展開強調量である。 In (Table 1), the left side of the “+” symbol represents “type of feature quantity used in the <first procedure> of i-vector extraction”, and the right side of the “+” symbol represents “i-vector extraction”. <Type of feature amount used in <second procedure> ". “Noisy MFCC” is a noise MFCC, “Bottleneck” is a Bottleneck feature, and “VTS enhanced” is a vector tailor expansion enhancement.
(表1)は、いずれの組合せであっても、ベースラインのDNNよりもWERの削減が見られたことを示す。 Table 1 shows that for any combination, WER reduction was seen over baseline DNN.
また、(表2)は、i-vector抽出中における^UBMの混合分布モデル学習の際に用いたボトルネック特徴量のサイズの違いによるWERを示す。(表2)は、いずれのサイズであってもベースラインのDNNよりWERの削減が見られたことを示す。 Table 2 shows the WER depending on the difference in the size of the bottleneck feature amount used in the ^ UBM mixed distribution model learning during i-vector extraction. (Table 2) shows that WER reduction was seen over baseline DNN for any size.
i-vector算出装置10及びi-vector算出装置10を含む音声認識装置において行われる各処理は、全部又は任意の一部が、CPU等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、i-vector算出装置10及びi-vector算出装置10を含む音声認識装置において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。 Each process performed in the i-vector calculation apparatus 10 and the speech recognition apparatus including the i-vector calculation apparatus 10 is realized by a processing apparatus such as a CPU and a program that is analyzed and executed by the processing apparatus. May be. In addition, each process performed in the i-vector calculation apparatus 10 and the speech recognition apparatus including the i-vector calculation apparatus 10 may be realized as hardware by wired logic.
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。 In addition, among the processes described in the embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or some of the processes described as being manually performed among the processes described in the embodiments can be automatically performed by a known method. In addition, the above-described and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be changed as appropriate unless otherwise specified.
(プログラムについて)
図6は、プログラムが実行されることにより、実施形態に係るi-vector算出装置及びi-vector算出装置を含む音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
(About the program)
FIG. 6 is a diagram illustrating an example of a computer that realizes an i-vector calculation apparatus and a speech recognition apparatus including the i-vector calculation apparatus according to the embodiment by executing a program. The
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、i-vector算出装置10及びi-vector算出装置10を含む音声認識装置の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、i-vector算出装置10及びi-vector算出装置10を含む音声認識装置における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The hard disk drive 1031 stores, for example, an
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
The setting data used in the processing of the embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The embodiments are included in the invention disclosed in the claims and equivalents thereof, as well as included in the technology disclosed in the present application.
10 i-vector算出装置
11A 第1の基本特徴量抽出部
11B 第2の基本特徴量抽出部
12 ^γt(c)計算部
13 −mc計算部
14 ^Nu,c,^Fu,c計算部
15 i-vector計算部
1000 コンピュータ
1010 メモリ
1020 CPU
10 i-vector calculating device 11A first basic feature amount extracting section 11B second basic feature
Claims (6)
前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出部と、
雑音又は歪みを含む音声に対して雑音又はチャネル歪みの低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算部と、
前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出部と、
前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算部と、
前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算部と
を備えることを特徴とする特徴量ベクトル算出装置。 A first feature quantity extraction unit for extracting a first feature quantity vector from input speech;
A second feature amount extraction unit that extracts a second feature amount vector from speech that has been subjected to noise or channel distortion reduction processing on the input speech;
Based on the parameters of the mixture distribution model obtained by learning the speech on which noise or channel distortion reduction processing has been performed on the speech including noise or distortion, the second feature vector is included in each distribution of the mixture distribution model. A posterior probability calculation unit for calculating a posterior probability indicating a corresponding probability;
An average vector calculation unit that calculates an average vector of each distribution in the mixed distribution model from the noise or distortion-containing speech and the posterior probability;
A statistic calculator that calculates a zero-order Baum-Welch statistic and a first-order Baum-Welch statistic for the input speech from the first feature vector, the posterior probability, and the average vector; ,
A feature vector calculation apparatus comprising: a feature vector calculator that calculates a feature vector from the zero-order Baum-Welch statistic and the first-order Baum-Welch statistic.
ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。 The feature quantity vector calculation apparatus according to claim 1, wherein the reduction process is a voice enhancement process.
ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。 The feature vector calculation apparatus according to claim 1, wherein the reduction process is a process using a bottleneck feature quantity.
入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出ステップと、
前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出ステップと、
雑音又は歪みを含む音声に対して前記低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算ステップと、
前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出ステップと、
前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算ステップと、
前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算ステップと
を含んだことを特徴とする特徴量ベクトル算出方法。 A feature vector calculation method executed by a feature vector calculator,
A first feature amount extraction step of extracting a first feature amount vector from the input speech;
A second feature amount extracting step of extracting a second feature amount vector from the speech in which noise or channel distortion reduction processing has been performed on the input speech;
The probability that the second feature vector corresponds to each distribution of the mixed distribution model is determined based on the parameters of the mixed distribution model obtained by learning the voice subjected to the reduction processing on the voice including noise or distortion. A posterior probability calculation step for calculating a posterior probability to be shown;
An average vector calculation step of calculating an average vector of each distribution in the mixed distribution model from the speech including the noise or distortion and the posterior probability;
A statistic calculation step of calculating a zeroth-order Baum-Welch statistic and a first-order Baum-Welch statistic for the input speech from the first feature vector, the posterior probability, and the average vector; ,
A feature vector calculation method comprising: calculating a feature vector from the zeroth-order Baum-Welch statistic and the first-order Baum-Welch statistic.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015158861A JP6401126B2 (en) | 2015-08-11 | 2015-08-11 | Feature amount vector calculation apparatus, feature amount vector calculation method, and feature amount vector calculation program. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015158861A JP6401126B2 (en) | 2015-08-11 | 2015-08-11 | Feature amount vector calculation apparatus, feature amount vector calculation method, and feature amount vector calculation program. |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017037222A JP2017037222A (en) | 2017-02-16 |
JP6401126B2 true JP6401126B2 (en) | 2018-10-03 |
Family
ID=58048199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015158861A Active JP6401126B2 (en) | 2015-08-11 | 2015-08-11 | Feature amount vector calculation apparatus, feature amount vector calculation method, and feature amount vector calculation program. |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6401126B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473119B (en) * | 2017-09-07 | 2023-04-07 | 中国科学院声学研究所 | Acoustic target event monitoring method |
CN107623614B (en) | 2017-09-19 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | Method and device for pushing information |
JP6977004B2 (en) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | In-vehicle devices, methods and programs for processing vocalizations |
JP2021105684A (en) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | Speech-in-noise recognition device and speech-in-noise recognition system |
US20230109177A1 (en) * | 2020-01-31 | 2023-04-06 | Nec Corporation | Speech embedding apparatus, and method |
CN111739508B (en) * | 2020-08-07 | 2020-12-01 | 浙江大学 | An end-to-end speech synthesis method and system based on DNN-HMM bimodal alignment network |
CN113393847B (en) * | 2021-05-27 | 2022-11-15 | 杭州电子科技大学 | Voiceprint recognition method based on fusion of Fbank features and MFCC features |
CN113327599B (en) * | 2021-06-30 | 2023-06-02 | 北京有竹居网络技术有限公司 | Voice recognition method, device, medium and electronic equipment |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
JP6244297B2 (en) * | 2014-12-25 | 2017-12-06 | 日本電信電話株式会社 | Acoustic score calculation apparatus, method and program thereof |
-
2015
- 2015-08-11 JP JP2015158861A patent/JP6401126B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017037222A (en) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6401126B2 (en) | Feature amount vector calculation apparatus, feature amount vector calculation method, and feature amount vector calculation program. | |
Singer et al. | The MITLL NIST LRE 2011 language recognition system. | |
JP6556575B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP5752060B2 (en) | Information processing apparatus, large vocabulary continuous speech recognition method and program | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP6499095B2 (en) | Signal processing method, signal processing apparatus, and signal processing program | |
JP2017097188A (en) | Speaker likeness evaluation device, speaker identification device, speaker verification device, speaker likeness evaluation method, program | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
JP6367773B2 (en) | Speech enhancement device, speech enhancement method, and speech enhancement program | |
Gales et al. | Canonical state models for automatic speech recognition. | |
JP6728083B2 (en) | Intermediate feature amount calculation device, acoustic model learning device, speech recognition device, intermediate feature amount calculation method, acoustic model learning method, speech recognition method, program | |
JP4571921B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium thereof | |
Gao et al. | Open-set speaker identification in broadcast news | |
Liu et al. | An iterative framework for unsupervised learning in the plda based speaker verification | |
JP5369079B2 (en) | Acoustic model creation method and apparatus and program thereof | |
JP5457999B2 (en) | Noise suppressor, method and program thereof | |
Bharathi et al. | GMM and i-vector based speaker verification using speaker-specific-text for short utterances | |
JP4801108B2 (en) | Voice recognition apparatus, method, program, and recording medium thereof | |
JP4801107B2 (en) | Voice recognition apparatus, method, program, and recording medium thereof | |
JP4909318B2 (en) | Acoustic model creation method, acoustic model creation device, program thereof, and recording medium thereof | |
CN108630207A (en) | Method for identifying speaker and speaker verification's equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180703 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6401126 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |