Nothing Special   »   [go: up one dir, main page]

JP3088364B2 - 音声言語理解装置及び音声言語理解システム - Google Patents

音声言語理解装置及び音声言語理解システム

Info

Publication number
JP3088364B2
JP3088364B2 JP09303075A JP30307597A JP3088364B2 JP 3088364 B2 JP3088364 B2 JP 3088364B2 JP 09303075 A JP09303075 A JP 09303075A JP 30307597 A JP30307597 A JP 30307597A JP 3088364 B2 JP3088364 B2 JP 3088364B2
Authority
JP
Japan
Prior art keywords
data
language
speech
sentence
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09303075A
Other languages
English (en)
Other versions
JPH11143493A (ja
Inventor
浩和 政瀧
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP09303075A priority Critical patent/JP3088364B2/ja
Publication of JPH11143493A publication Critical patent/JPH11143493A/ja
Application granted granted Critical
Publication of JP3088364B2 publication Critical patent/JP3088364B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発声音声から音声
認識装置によって音声認識された音声認識結果の音声文
に基づいて、音声文の意味する検索条件の内容を理解し
て、データベースを参照して応答する処理を実行するた
めの音声言語理解装置、並びに、音声認識装置及び音声
言語理解装置とを備えた音声言語理解システムに関す
る。
【0002】
【従来の技術及び発明が解決しようとする課題】近年、
隠れマルコフモデルを用いた音響モデル、及びN−gr
amを用いた言語モデルを用いた連続音声認識が盛んに
研究されており、数万語彙の認識でも、単語認識率が9
0%以上とかなり実用レベルに近くなっている。しかし
ながら、音声認識技術を用いたアプリケーションを考え
た場合、読み上げた文章をそのまま出力するディクテー
ションシステムを除くと、旅客機案内システム、電話番
号案内システム、音声翻訳システム等、音声認識結果を
理解し、ユーザーに情報を提供するいわゆる「音声理解
システム」の方が応用分野が広いと考えられる(例え
ば、従来技術文献1「坂井信輔ほか,“音声入力を用い
たパソコンネットワーク旅客機空席案内システムの試
作”,電子情報通信学会技術報告,SP94−89,p
p.29−36,1995年1月」参照。)。
【0003】現在、音声理解システムのための言語理解
の技術は、発話の内容を構文で限定したものや文法理論
を用いたもの(例えば、従来技術文献2「S.Sene
ff,“TINA:A Natural Langua
ge System forSpoken Langu
age Applications”,Computa
tional Linguistics,Vol.1
8,No.1,1992年3月」参照。)が主流であ
る。発話内容を構文で限定する手法は、理解率は高いと
考えられるが、計算機が受理できる発話内容をユーザー
が事前に知っていなければならず、ユーザーへの負担が
大きく、使いやすいシステムとは言えない。
【0004】また、文法理論を用いた方法は、構文によ
る手法よりは、発話内容の自由度が高いが、文法的に正
しい文章でないと、理解できないという問題がある。し
かしながら、音声認識で広く使われているN−gram
言語モデルは、認識率の観点からは非常に有利とされて
いるが、直前の(N−1)単語から次の単語への接続を
確率で表現するという極めて単純なモデルであるため、
局所的な制約しか表現できず、文全体として必ずしも文
法的に正しい文章を出力するとは限らない。従って、認
識結果に誤りが含まれる場合、正しく言語理解を行うの
は困難であると考えられる。また、実際のシステムの使
用時には、ユーザーが文法的に正しい文章を発声すると
は限らず、自然発話を理解するのは困難である。
【0005】この問題を解決するため、認識結果文を言
語理解部が受理できる部分に分割する手法等(例えば、
従来技術文献3「Y.Wakita et al.,
“Correct parts extraction
from speech recognition
results using semantic di
stance calculation,and it
s application to speech t
ranslation”,ACL,1997年」参
照。)が提案されているが、分割を行うことにより、文
章の大局的な情報を得ることができないと考えられる。
【0006】また、従来技術文献4「遠藤充ほか,“音
声による文例検索システムの検討”,日本音響学会講演
論文集,2−Q−12,pp.163−164,199
7年3月」においては、キーワードによる方法が提案さ
れているが、キーワードのみでは文章の意味を正しく理
解することができず、また、ユーザーインターフェース
等でキーワードの間を補う必要がある。
【0007】本発明の目的は以上の問題点を解決し、上
記従来技術に比較して頑健にかつ正確に音声理解を行う
ことができ、適切に応答する処理を実行することができ
る音声言語理解装置及び、音声言語理解システムを提供
することにある。
【0008】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、発声音声から音声認識装置によっ
て音声認識された音声認識結果の音声文に基づいて、音
声文の意味する検索条件の内容を理解して、データベー
スを参照して応答する処理を実行するための音声言語理
解装置であって、検索条件を含む文章データと、それに
対応しかつ少なくとも応答する処理の内容及びデータの
項目名を含む所定の中間言語データとの対である学習デ
ータに基づいて、識別誤りが最小となるように、文章デ
ータをそれに対応する中間言語に変換するための隠れマ
ルコフモデルを学習して得られた隠れマルコフモデルを
記憶する第1の記憶装置と、複数の項目名に対応したデ
ータを含むデータベースを記憶する第2の記憶装置と、
上記第1の記憶装置に記憶された隠れマルコフモデルを
用いて、上記音声認識されかつ検索条件を含む音声認識
結果の音声文を上記中間言語に変換して生成する生成手
段と、上記生成手段によって生成された中間言語を、上
記データベースに対応した所定のデータベース言語に変
換した後、上記データベース言語に含まれる検索条件に
基づいて、上記第2の記憶装置に記憶されたデータベー
スを検索して、上記検索条件を満たすデータを獲得し、
そのデータについて上記中間言語に対応した応答する処
理を実行する実行手段とを備えたことを特徴とする。
【0009】また、本発明に係る請求項2記載の音声言
語理解システムは、発声音声を音声認識して、音声認識
された音声認識結果の音声文に基づいて、音声文の意味
する検索条件の内容を理解して、データベースを参照し
て応答する処理を実行するための音声言語理解システム
であって、発声音声を音声認識して、音声認識された音
声認識結果の音声文を出力する音声認識装置と、検索条
件を含む文章データと、それに対応しかつ少なくとも応
答する処理の内容及びデータの項目名を含む所定の中間
言語データとの対である学習データに基づいて、識別誤
りが最小となるように、文章データをそれに対応する中
間言語に変換するための隠れマルコフモデルを学習して
得られた隠れマルコフモデルを記憶する第1の記憶装置
と、複数の項目名に対応したデータを含むデータベース
を記憶する第2の記憶装置と、上記第1の記憶装置に記
憶された隠れマルコフモデルを用いて、上記音声認識装
置によって音声認識されかつ検索条件を含む音声認識結
果の音声文を上記中間言語に変換して生成する生成手段
と、上記生成手段によって生成された中間言語を、上記
データベースに対応した所定のデータベース言語に変換
した後、上記データベース言語に含まれる検索条件に基
づいて、上記第2の記憶装置に記憶されたデータベース
を検索して、上記検索条件を満たすデータを獲得し、そ
のデータについて上記中間言語に対応した応答する処理
を実行する実行手段とを備えたことを特徴とする。
【0010】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0011】図1は、本発明に係る一実施形態である音
声言語理解装置20を備えた音声言語理解システムの構
成を示すブロック図である。本発明に係る実施形態にお
いては、統計的処理に基づく中間言語への変換を行うこ
とにより、ユーザーの発声に対して頑健な理解が行える
音声言語理解装置20を提供することを特徴としてい
る。
【0012】ここで、音声言語理解装置20は、発声音
声から音声認識装置によって音声認識された音声認識結
果の音声文に基づいて、音声文の意味する検索条件の内
容を理解して、データベースを参照して応答する処理を
実行するための音声言語理解装置であり、(a)学習デ
ータメモリ31に格納され、検索条件を含む文章データ
と、それに対応しかつ少なくとも応答する処理の内容及
びデータの項目名を含む所定の中間言語データとの対で
ある学習データに基づいて、識別誤りが最小となるよう
に、文章データをそれに対応する中間言語に変換するた
めの隠れマルコフモデル(HMM)をMCE学習処理部
30によって学習して得られた隠れマルコフモデルを記
憶する隠れマルコフモデルメモリ32と、(b)複数の
項目名に対応したデータを含むデータベースを記憶する
データベースメモリ23と、(c)隠れマルコフモデル
メモリ32に記憶された隠れマルコフモデルを用いて、
上記音声認識されかつ検索条件を含む音声認識結果の音
声文を上記中間言語に変換して生成する中間言語生成部
21と、(d)中間言語生成部21によって生成された
中間言語を、上記データベースに対応した所定のデータ
ベース言語に変換した後、上記データベース言語に含ま
れる検索条件に基づいて、データベースメモリ23に記
憶されたデータベースを検索して、上記検索条件を満た
すデータを獲得し、そのデータについて上記中間言語に
対応した応答する処理、具体的には表示処理を実行する
コマンド実行部22とを備えたことを特徴としている。
【0013】まず、本実施形態の音声言語理解システム
の概要について説明する。本実施形態では、音声言語理
解システムとして、音声入力による指示により、データ
ベースメモリ23内データベースへアクセスし、ユーザ
ーの要求する情報を表示するシステムを開示する。好ま
しい実施形態として構築したシステムは、スキー場案内
システムであって、音声により、スキー場のデータの入
ったデータベースにアクセスし、必要な情報を得るシス
テムである。システム全体の構成を図1に示す。本シス
テムは、主に「音声認識装置10」と「音声言語理解装
置20」とで構成される。
【0014】音声認識装置10では、入力された発声音
声の波形データに対して特徴量計算を行った後、公知の
隠れマルコフ網による音響モデル、及び公知の可変長N
−gramによる言語モデルを用いて、単語グラフサー
チ法により解の探索を行い、認識結果を出力する。音声
認識装置10の認識結果は音声言語理解装置20に渡さ
れる。音声言語理解装置20では、音声認識結果の単語
列を、中間言語に変換し、中間言語の内容に基づいてデ
ータベース言語の生成し、データベースから情報の検索
を行い、中間言語の要求に応じて検索結果の表示を行
う。本システムは、次の3つの動作を行うことができ
る。 (a)各スキー場のデータ(県・標高差・リフト数等1
2項目)の表示(SHOWVALUE)、(b)ユーザ
ーが要求する条件を満たすスキー場の検索(SHOWL
IST)、及び(c)スキー場の地図の表示(SHOW
IMAGE)。
【0015】次いで、音声言語理解装置20について説
明する。その動作の概要を表1に示す。また、データベ
ースメモリ23内のデータベースの一例を表2に示す。
【0016】
【表1】 ─────────────────────────────────── 入力文:“八方尾根スキー場の標高差を教えて下さい” ─────────────────────────────────── 1.中間言語生成 “R_SHOWVALUE O_標高差 D_スキー場名 C_= V_八方尾 根” ─────────────────────────────────── 2.データベース言語への変換 “SELECT標高差 FROMスキー場データ WHEREスキー場名=八方尾根” ───────────────────────────────────
【0017】表1の2.においてデータベース言語の一
例について示している。この例では、「スキー場デー
タ」というデータベース名のデータベースから(FRO
M)、「スキー場名=八方尾根」という検索条件のもと
(WHERE)で、項目名「標高差」のデータを検索
(SELECT)しなさいというデータベース言語であ
る。
【0018】
【表2】 データベースの一例 スキー場データ ──────────────────────────────── スキー場名 県 標高差 入場者数 ──────────────────────────────── 志賀高原 長野 500 1000000 野沢温泉 長野 1100 900000 妙高赤倉 新潟 800 800000 八方尾根 長野 1000 700000 ←動作例 栂池高原 長野 700 600000 ──────────────────────────────── (注)動作例 3.スキー場名=八方尾根の行を検索 4.標高差を出力
【0019】音声言語理解装置20の処理は、音声認識
結果をデータベースアクセス用の中間言語に変換するこ
とにより行う。本システムで用いた中間言語は次の要素
から構成される。 (a)R_(コマンド名) 要求動作の指定(Request) (b)O_(対象物名) 動作の対象(Object) (c)D_(ドメイン名) データベースの検索項目(Domain) (d)C_(比較方法) データベース検索時の比較方法(Compariso
n) (e)V_(値) データベース検索時の比較値(Value)
【0020】中間言語は、これらの要素の列として表現
され、次の表で示すフォーマットで与えられる。
【0021】
【表3】 ─────────────────────────────────── R_(コマンド名) O_(対象物名1)… O_(対象物名m) D_(ドメイン名1) C_(比較方法1) V_(値1) … D_(ドメイン名n) C_(比較方法n) V_(値n) ───────────────────────────────────
【0022】以下に、自然言語から中間言語への変換例
を挙げる。以下の変換例は、図1の学習データメモリ3
1に、学習データの文章データとそれに対応する中間言
語データとして格納される。 (a)八方尾根スキー場の標高差はいくらですか。 →R_SHOWVALUE O_標高差 D_スキー場名 C_= V_八方尾根 (b)標高差が1000m以上のスキー場を教えて下さ
い。 →R_SHOWLIST O_スキー場名 D_標高差
C_>= V_1000 (c)八方尾根のゲレンデマップを見せて下さい。 →R_SHOWIMAGE O_ゲレンデマップ D_スキー場名 C_= V_八方尾根
【0023】音声言語理解装置20のの一連の動作を表
1及び表2に示す。音声言語理解装置20は、音声認識
結果が入力されると、次の順序で処理を行う。 (1)音声認識結果から中間言語への変換処理、(2)
中間言語の、対象物名、ドメイン名(表2における項目
名である。)、比較方法、及び比較値からデータベース
言語を生成する処理、(3)条件に適合するデータをデ
ータベースから検索し、動作の対象情報を獲得する処
理、及び、(4)対象物名に対して中間言語のコマンド
名で規定された動作を実行する処理。ここで、上記
(1)の処理は図1の中間言語生成部21によって実行
され、上記(2)、(3)及び(4)の処理は図1のコ
マンド実行部22によって実行される。なお、データベ
ース言語は公知のSQL言語と類似した言語を用いてお
り、中間言語は、データベース言語へ必ず正しく変換さ
れるように設計されている。
【0024】次いで、自然言語から中間言語への変換に
ついて説明する。音声言語理解装置10において、最も
重要かつ困難な部分は、音声認識の入力文章から中間言
語への変換部分である。本実施形態は、これを統計的手
法に基づいて実行する方法を用いる。
【0025】統計的手法による自然言語から中間言語へ
の変換では、単語系列Wが与えられたとき、次式を満た
す中間言語列Sを求めることにより、最適な中間言語を
得ることができる。
【数1】 ここで、P(S|W)は、単語系列Wが与えられたとき
の中間言語列Sを取り得る確率であり、数1は、中間言
語列Sを変化したときに確率P(S|W)が最大となる
ときの中間言語列Sを表わす。
【0026】上記数1は、ベイズ則を用いると、次式の
ように表される。
【数2】 上記数2で、確率P(W|S)は、中間言語から音声認
識結果が出力される確率を意味する。この確率を直接的
に求めるのは困難なため、次式の近似を考える。
【数3】
【0027】すなわち、中間言語のそれぞれの要素は独
立しており、また、中間言語のそれぞれの要素は、特定
の単語のみを出力するのではなく、入力文の全ての単語
をある確率で出力すると仮定する。この仮定により、誤
認識が生じた際や、不完全な文が入力された場合でも、
中間言語への変換が容易になり、頑健な言語理解が可能
になる。この確率P(W|S)を求めるモデルを文生成
モデルと呼ぶ。一方、確率P(S)は、中間言語の事前
確率で、入力文とは全く独立に求められる。統計的手法
による自然言語から中間言語への変換の精度は、これら
の確率の精度に依存する。
【0028】次いで、これらの確率を求めるための文生
成モデルについて述べる。上記確率P(W|si)、即
ち、中間言語の各要素siから音声認識結果文を与える
モデルとして、隠れマルコフモデル(HMM)を用いる
(図4参照)。隠れマルコフモデルは、図4に示すよう
に、複数の状態から構成され、単語が入力される毎に、
状態iから状態jへ確率aijで遷移し、遷移後の状態j
から確率bj,wtで単語を出力するモデルである。隠れマ
ルコフモデルは、音声認識の音響モデルにおいては、通
常Left to Right型のモデルが用いられる
が、ここで用いるモデルは、全ての状態間遷移が可能な
エルゴディックモデルを考える。ここで、用いる隠れマ
ルコフモデル(HMM)のパラメータは次の通りであ
る。 (a)状態数:M (b)状態iから状態jへの遷移確率:aij (c)状態jから単語wtへの出力確率:bj,wt
【0029】隠れマルコフモデルのパラメータの推定
は、文章とそれに対応する中間言語列のデータを大量に
容易し、P(W|si)の値が最大になるように決定す
る(最尤推定法による)。隠れマルコフモデルの場合、
観測データに対応する状態系列が分からないため、公知
のEM(Expectation−Maximum)ア
ルゴリズムによって最尤推定を行う。隠れマルコフモデ
ルの場合は特に、バーム・ウェルチ(Baum−Wel
ch)アルゴリズムと呼ばれる。隠れマルコフモデル
は、中間言語の各要素毎に作成し、文が入力されると、
全てのモデルが独立に、平行して動作する。隠れマルコ
フモデルを用いて、入力文から中間言語への変換を行う
際は、公知のビタビ(Viterbi)アルゴリズムを
用いてそれぞれの要素に対して文の生成確率のみを求
め、R_,O_,D_,C_,V_のそれぞれのグルー
プ内で最も確率の高い要素を選び、中間言語列を得る
(図5参照。)。
【0030】次いで、中間言語への変換の高精度化のた
めの、図1のMCE学習処理部30によって実行される
公知のMCE(Minimum Classifica
tion Error;識別誤り最小法)トレーニング
による学習について説明する。通常、隠れマルコフモデ
ルの学習は、公知のEMアルゴリズムによって行われ
る。EMアルゴリズムは、基本的には最尤推定法であ
り、本実施形態で用いる文生成モデルに使用した場合、
不都合が生じる場合がある。例として、次の2つの場合
について考える。(1)長野県のスキー場を教えて下さ
い。 →R_SHOWLIST O_スキー場名 D_県 C
_= V_長野 (2)長野県以外のスキー場を教えて下さい。 →R_SHOWLIST O_スキー場名 D_県 C
_<> V_長野
【0031】この場合、文(1)と文(2)との差は、
単語「以外」があるかないかのみの違いであり、その差
が中間言語の「C_=」と「C_<>」との差となる。
しかしながら、上述の文生成モデルであると、「C_<
>」のモデルでは、文(1)例に出現する単語全てに対
して比較的高い確率を出力し、(1)の文が入力された
場合「C_=」と「C_<>」との区別が困難になる可
能性がある。このため、類似した文に対する識別度を向
上させるため、隠れマルコフモデルに対して、MCE学
習を行う。
【0032】MCEに基づく学習法は、クラスの識別に
用いる尺度を識別関数gkとし、あるサンプルXに対す
る識別関数の差で表される識別誤り関数dk(X,Λ)
から、シグモイド(sigmoid)関数で現れる損失
関数l(dk)を用いて実効的な識別誤り数を評価し、
この識別誤り数を最小化する基準でモデルパラメータΛ
を求める方法である。ここで、用いる識別関数、識別誤
り関数、及び損失関数を次式に示す。
【0033】(a)識別関数
【数4】g(X,Λ)=log[L(χ)] ここで、L(χ)は、隠れマルコフモデルによる文生成
確率P(W|si)を表わす。(b)識別誤り関数
【数5】 ここで、kは読み込んだデータの中間言語に含まれる要
素で、jはkのグループに属する中間言語の要素であ
る。(c)損失関数
【数6】 l(dk)=1/(1+exp[−a(dk+b)]) ここで、a及びbは予め経験的に決定される定数であ
る。
【0034】損失関数l(dk)に対して、最急降下法
を用いてて漸化的にパラメータΛを調整しながら、最適
パラメータを求める。
【数7】Λht+1=Λht−ε∇l(dk(X;Λh)
【0035】図6は、図1のMCE学習処理部30によ
って実行されるMCE学習処理を示すフローチャートで
ある。MCE学習処理部30は、学習データメモリ31
内の学習データの文章データとそれに対応する中間言語
データに基づいて、以下のMCE学習処理を実行するこ
とにより、識別誤りが最小となるように、文章データを
それに対応する中間言語に変換するための隠れマルコフ
モデルを学習して隠れマルコフモデルメモリ32に格納
する。
【0036】図6において、まず、ステップS0でパラ
メータiに1を代入し、ステップS1で学習データメモ
リ31から、文章データ及び中間言語データをそれぞれ
1文読み込む。次いで、ステップS2で、数6を用い
て、損失lを計算し、ステップS3で数7を用いて隠れ
マルコフモデル(HMM)の各パラメータを更新する。
そして、ステップS4で処理すべき学習データがまだあ
るか否かが判断され、YESのときはステップS1に戻
り上記の処理を繰り返す一方、ステップS5では全ての
文について総損失Liを計算する。そして、ステップS
6では、学習終了判定が実行されて、|Li−Li-1|<
C(ここで、Cは定数である。)であるか否かが判断さ
れ、NOのときは終了していないとして、ステップS7
でパラメータiを1だけインクリメントしてステップS
1に戻り上記の処理を繰り返す。ステップS6でYES
のときは、終了したと判断して当該MCE学習処理を終
了する。ここで、学習データメモリ31内の学習データ
の一例を次の表に示す。
【0037】
【表4】 ─────────────────────────────────── 文章データ / 中間言語データ ─────────────────────────────────── 八方尾根スキー場の標高差を教えて下さい。 / R_SHOWVALUE O_標高差 D_スキー場名 C_= V_八方尾 根 ─────────────────────────────────── 標高差が1000メートル以上のスキー場を教えて下さい。 / R_SHOWLIST O_スキー場名 D_標高差 C_>= V_100 0 ───────────────────────────────────
【0038】図7は、図1の中間言語生成部21によっ
て実行される中間言語生成処理を示すフローチャートで
ある。図7において、まず、ステップS11でバッファ
メモリ24から音声認識結果を1文読み込む。次いで、
ステップS12で音声認識結果の単語列W(L単語)に
対して、次式を用いて中間言語の各要素si(1≦i≦
N;Nは中間言語の要素数である。)毎に隠れマルコフ
モデル(HMM)による文生成確率P(W|si)を計
算する。
【数8】 ただし、wlは単語列Wのl番目の単語axy(si)は中
間言語の要素siのモデルにおける、状態xから状態y
への遷移確率axy(si)は中間言語の要素siのモデル
における、状態yから単語wlへの出力確率を表す。
【0039】次いで、ステップS13で中間言語の各要
素の文生成確率P(W|si)に対して、各グループ内
で尤度最大のものを選択する。すなわち、中間言語の各
グループ(R_*,O_*,D_*,C_*,V_*)
において、そのグループに属する中間言語要素の内、ス
テップS12で求めた文生成確率P(W|si)の最も
高いものを選択する。次いで、ステップS14で選択さ
れた中間言語の要素を所定のフォーマットにしたがって
並べた後出力する。すなわち、ステップS13で入力さ
れた中間言語の各要素を中間言語文のフォーマット、す
なわち、R_*,O_*,D_*,C_*,V_*の順
番に従って並べ、中間言語を生成してコマンド実行部2
2に出力する。さらに、ステップS15で処理すべき音
声認識結果がまだあるか否かが判断され、YESのとき
はステップS11に戻り上記の処理を繰り返す。一方、
NOのときは当該中間言語生成処理を終了する。
【0040】図8は、図1のコマンド実行部22によっ
て実行されるコマンド実行処理を示すフローチャートで
ある。図8において、まず、ステップS21で中間言語
生成部21から中間言語を1文入力する。次いで、ステ
ップS22で、中間言語をデータベース言語(SQL言
語)に変換する。すなわち、この変換は、次の表に示す
ように機械的に行われる。
【0041】
【表5】 ─────────────────────────────────── 中間言語: “R_SHOWVALUE O_標高差 D_スキー場名 C_= V_八方尾根” ─────────────────────────────────── データベース言語: “SELECT標高差 FROMスキー場データ WHEREスキー場名=八方尾根” ───────────────────────────────────
【0042】ここで、データベース言語は、「SLEE
CT(1)FROMスキー場データWHERE(2)
(3)(4)」の形式をしており、(1)から(4)ま
での項目を、それぞれ、中間言語のO_,D_,C_,
V_等の頭文字を削除した物を並べることにより用意に
変換が可能である。
【0043】次いで、ステップS23で変換されたデー
タベース言語に基づいて、所定の条件に適合するデータ
をデータベースメモリ23から検索する。さらに、ステ
ップS24では、データベースより得られたデータを中
間言語のコマンド名に応じて加工して出力する。すなわ
ち、ステップS23で得られた値を中間言語のコマンド
名に応じて表示する。具体的には、次の表に示す表示処
理を行う。
【0044】
【表6】 ─────────────────────────────────── コマンド名 → 表示内容 ─────────────────────────────────── R_SHOWVALUE→データベースから得られた値を表示 R_SHOWLIST→データベースからスキー場名の一覧を表示 R_SHOWIMAGE→データベースから得られたファイル名の画像を表示 ───────────────────────────────────
【0045】ステップS24における表示処理において
は、表示内容のデータがコマンド実行部22からパーソ
ナルコンピュータ40を介してCRTディスプレイ41
に出力されて表示され、また、表示内容のデータがプリ
ンタ42に出力されて印字される。さらに、ステップS
25では、処理すべき中間言語があるか否かが判断さ
れ、YESのときはステップS21に戻り上記の処理を
繰り返す一方、NOのときは当該コマンド実行処理を終
了する。
【0046】図1において、MCE学習処理部30、中
間言語生成部21、及びコマンド実行部22は例えばデ
ジタル計算機で構成され、学習データメモリ31、隠れ
マルコフモデル(HMM)メモリ32、バッファメモリ
24及びデータベースメモリ23は例えばハードディス
クメモリなどの記憶装置で構成される。
【0047】図2に本実施形態で用いる連続音声認識装
置10のブロック図を示す。本実施形態の連続音声認識
装置10は、公知のワン−パス・ビタビ復号化法を用い
て、入力される発声音声文の音声信号の特徴パラメータ
に基づいて上記発声音声文の単語仮説を検出し尤度を計
算して出力する単語照合部4を備えた連続音声認識装置
において、単語照合部4からバッファメモリ5を介して
出力される、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、統計的言語モデル13を参照
して、当該単語の先頭音素環境毎に、発声開始時刻から
当該単語の終了時刻に至る計算された総尤度のうちの最
も高い尤度を有する1つの単語仮説で代表させるように
単語仮説の絞り込みを行う単語仮説絞込部6を備える。
【0048】ここで用いる統計的言語モデル13は、学
習用テキストデータに基づいて言語モデル生成部(図示
せず。)により生成されたものであって、統計的言語モ
デル13は、例えば特開平9−134192号公報にお
いて開示されたように、品詞クラス間のバイグラム(N
=2)を基本としたものであるが、単独で信頼できる単
語は品詞クラスより分離させ、単独のクラスとして取り
扱い、さらに、予測精度を向上させるため、頻出単語列
に関してはそれらの単語を結合して一つのクラスとして
取り扱い、長い単語連鎖の表現を可能にさせ、こうし
て、生成されたモデルは、品詞バイグラムと可変長単語
N−グラムとの特徴を併せ持つ統計的言語モデルとな
り、遷移確率の精度と信頼性とのバランスをとられたも
のである。
【0049】図2において、単語照合部4に接続され、
例えばハードディスクメモリに格納される音素HMM1
1は、各状態を含んで表され、各状態はそれぞれ以下の
情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMM11は、各
分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合HMMを変換して生成する。ここ
で、出力確率密度関数は34次元の対角共分散行列をも
つ混合ガウス分布である。また、単語照合部4に接続さ
れ、例えばハードディスクに格納される単語辞書12
は、音素HMM11の各単語毎にシンボルで表した読み
を示すシンボル列を格納する。
【0050】図2において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
単語照合部4は、ワン−パス・ビタビ復号化法を用い
て、バッファメモリ3を介して入力される特徴パラメー
タのデータに基づいて、音素HMM11と単語辞書12
とを用いて単語仮説を検出し尤度を計算して出力する。
ここで、単語照合部4は、各時刻の各HMMの状態毎
に、単語内の尤度と発声開始からの尤度を計算する。尤
度は、単語の識別番号、単語の開始時刻、先行単語の違
い毎に個別にもつ。また、計算処理量の削減のために、
音素HMM11及び単語辞書12とに基づいて計算され
る総尤度のうちの低い尤度のグリッド仮説を削減する。
単語照合部4は、その結果の単語仮説と尤度の情報を発
声開始時刻からの時間情報(具体的には、例えばフレー
ム番号)とともにバッファメモリ5を介して単語仮説絞
込部6に出力する。
【0051】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデル13を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として、バッファメモリ24を介して音声言語
理解装置20内の中間言語生成部21に出力し、上述の
音声言語理解装置20の処理が実行される。本実施形態
においては、好ましくは、処理すべき当該単語の先頭音
素環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の2つの音素とを含む3
つの音素並びをいう。
【0052】例えば、図3に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図3で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図3
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0053】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0054】図2において、特徴抽出部2と、単語照合
部4と、単語仮説絞込部6と、言語モデル生成部20と
は、例えば、デジタル電子計算機で構成され、バッファ
メモリ3,5は例えばハードデイスクメモリなどの記憶
装置で構成され、音素HMM11と単語辞書12と統計
的言語モデル13とは、例えばハードデイスクメモリな
どの記憶装置に記憶される。
【0055】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデル13を参照して単語
の音声認識を行う音声認識部とで構成してもよい。
【0056】
【実施例】本発明者は、音声言語理解装置20における
言語理解率を評価するために、まず、正解文からの言語
理解率を評価した。実験に用いたデータは、本特許出願
人が所有するスキー場案内システムのために収集してい
る会話で、現在、443文、7,569単語あり、語彙
は281語である。全ての文章に、それに対応する中間
言語を人手で作成している。言語理解のためのモデル
は、最尤推定による隠れマルコフモデル(ML−HM
M)、及び、最尤推定後にMCE学習を行ったモデル
(MCE−HMM)の2種類用意した。ただし、隠れマ
ルコフ状態数は、いずれのモデルも2とした。
【0057】評価は言語理解率で行った。ただし、言語
理解率は、入力文章から中間言語へ正確に変換できた割
合であり、中間言語の全ての要素が正しく変換できた場
合のみ正解とする。最尤推定による隠れマルコフモデル
(HMM)を用いた場合、言語理解率は96.0%とか
なり高い率を得た。さらにMCE学習を行うことにより
言語理解率は99.6と極めて高い率を得ることができ
た。
【0058】以上説明したように、本実施形態によれ
ば、隠れマルコフモデルを用いた統計的手法により、自
然言語から中間言語への変換を行い、言語理解を行う音
声言語理解システムを構築して、最尤推定による隠れマ
ルコフモデルにおける言語理解率が96.0%であり、
さらにMCE学習を行うことにより、99.6%と非常
に高い確率で言語理解率が得られることを確認した。音
声言語理解装置20は、統計的手法を用いて処理するた
め、文法ルールの作成やキーワードの選択等の作業を必
要とせず、また、モデルの学習には数千語程度のデータ
で良好な結果を得るため、短時間でのシステム構築が可
能であるという利点がある。すなわち、従来技術に比較
して頑健にかつ正確に音声理解を行うことができ、適切
に応答する処理を実行することができる音声言語理解装
置20及び、音声言語理解システムを提供することがで
きる。
【0059】
【発明の効果】以上詳述したように、本発明に係る請求
項1記載の音声認識装置によれば、発声音声から音声認
識装置によって音声認識された音声認識結果の音声文に
基づいて、音声文の意味する検索条件の内容を理解し
て、データベースを参照して応答する処理を実行するた
めの音声言語理解装置であって、検索条件を含む文章デ
ータと、それに対応しかつ少なくとも応答する処理の内
容及びデータの項目名を含む所定の中間言語データとの
対である学習データに基づいて、識別誤りが最小となる
ように、文章データをそれに対応する中間言語に変換す
るための隠れマルコフモデルを学習して得られた隠れマ
ルコフモデルを記憶する第1の記憶装置と、複数の項目
名に対応したデータを含むデータベースを記憶する第2
の記憶装置と、上記第1の記憶装置に記憶された隠れマ
ルコフモデルを用いて、上記音声認識されかつ検索条件
を含む音声認識結果の音声文を上記中間言語に変換して
生成する生成手段と、上記生成手段によって生成された
中間言語を、上記データベースに対応した所定のデータ
ベース言語に変換した後、上記データベース言語に含ま
れる検索条件に基づいて、上記第2の記憶装置に記憶さ
れたデータベースを検索して、上記検索条件を満たすデ
ータを獲得し、そのデータについて上記中間言語に対応
した応答する処理を実行する実行手段とを備える。従っ
て、従来技術に比較して頑健にかつ正確に音声理解を行
うことができ、適切に応答する処理を実行することがで
きる音声言語理解装置を提供することができる。
【0060】また、本発明に係る請求項2記載の音声言
語理解システムによれば、発声音声を音声認識して、音
声認識された音声認識結果の音声文に基づいて、音声文
の意味する検索条件の内容を理解して、データベースを
参照して応答する処理を実行するための音声言語理解シ
ステムであって、発声音声を音声認識して、音声認識さ
れた音声認識結果の音声文を出力する音声認識装置と、
検索条件を含む文章データと、それに対応しかつ少なく
とも応答する処理の内容及びデータの項目名を含む所定
の中間言語データとの対である学習データに基づいて、
識別誤りが最小となるように、文章データをそれに対応
する中間言語に変換するための隠れマルコフモデルを学
習して得られた隠れマルコフモデルを記憶する第1の記
憶装置と、複数の項目名に対応したデータを含むデータ
ベースを記憶する第2の記憶装置と、上記第1の記憶装
置に記憶された隠れマルコフモデルを用いて、上記音声
認識装置によって音声認識されかつ検索条件を含む音声
認識結果の音声文を上記中間言語に変換して生成する生
成手段と、上記生成手段によって生成された中間言語
を、上記データベースに対応した所定のデータベース言
語に変換した後、上記データベース言語に含まれる検索
条件に基づいて、上記第2の記憶装置に記憶されたデー
タベースを検索して、上記検索条件を満たすデータを獲
得し、そのデータについて上記中間言語に対応した応答
する処理を実行する実行手段とを備える。従って、従来
技術に比較して頑健にかつ正確に音声理解を行うことが
でき、適切に応答する処理を実行することができる音声
言語理解システムを提供することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声言語理解
装置20を備えた音声言語理解システムの構成を示すブ
ロック図である。
【図2】 図1の音声認識装置10の構成を示すブロッ
ク図である。
【図3】 図2の音声認識装置における単語仮説絞込部
6の処理を示すタイミングチャートである。
【図4】 図1の隠れマルコフモデル(HMM)メモリ
32に格納されたHMMを示す状態遷移図である。
【図5】 図1の中間言語生成部21の処理を示す説明
図である。
【図6】 図1のMCE学習処理部30によって実行さ
れるMCE学習処理を示すフローチャートである。
【図7】 図1の中間言語生成部21によって実行され
る中間言語生成処理を示すフローチャートである。
【図8】 図1のコマンド実行部22によって実行され
るコマンド実行処理を示すフローチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMM、 12…単語辞書、 13…統計的言語モデル、 20…音声言語理解装置、 21…中間言語生成部、 23…データベースメモリ、 24…バッファメモリ、 30…MCE学習処理部、 31…学習データメモリ、 32…隠れマルコフモデル(HMM)メモリ、 40…パーソナルコンピュータ、 41…CRTディスプレイ、 42…プリンタ。
フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/00 G06F 15/38 P 15/06 15/403 310Z 15/14 G10L 3/00 521F 15/22 551B (56)参考文献 電子情報通信学会論文誌,Vol.J 82−D−▲II▼,No.2,Febu rary 1999,政瀧浩和外「統計処理 による入力文から中間表現への変換を用 いた音声言語理解」,p.169−177, (平成11年2月25日発行) 日本音響学会平成10年度春季研究発表 会講演論文集▲I▼,1−6−7,政瀧 浩和外「統計的手法による認識結果から 中間表現への変換を用いた音声理解シス テム」,p.13−14(平成10年3月17日 発行) 電子情報通信学会技術研究報告[音声 ],Vol.97,No.505,SP97− 98,政瀧浩和外「統計的処理による音 声・言語理解モデル」,p.23−30 (1998年1月31日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 JICSTファイル(JOIS) 実用ファイル(PATOLIS) 特許ファイル(PATOLIS) IEEE/IEE Electroni c Library Online

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 発声音声から音声認識装置によって音声
    認識された音声認識結果の音声文に基づいて、音声文の
    意味する検索条件の内容を理解して、データベースを参
    照して応答する処理を実行するための音声言語理解装置
    であって、 検索条件を含む文章データと、それに対応しかつ少なく
    とも応答する処理の内容及びデータの項目名を含む所定
    の中間言語データとの対である学習データに基づいて、
    識別誤りが最小となるように、文章データをそれに対応
    する中間言語に変換するための隠れマルコフモデルを学
    習して得られた隠れマルコフモデルを記憶する第1の記
    憶装置と、 複数の項目名に対応したデータを含むデータベースを記
    憶する第2の記憶装置と、 上記第1の記憶装置に記憶された隠れマルコフモデルを
    用いて、上記音声認識されかつ検索条件を含む音声認識
    結果の音声文を上記中間言語に変換して生成する生成手
    段と、 上記生成手段によって生成された中間言語を、上記デー
    タベースに対応した所定のデータベース言語に変換した
    後、上記データベース言語に含まれる検索条件に基づい
    て、上記第2の記憶装置に記憶されたデータベースを検
    索して、上記検索条件を満たすデータを獲得し、そのデ
    ータについて上記中間言語に対応した応答する処理を実
    行する実行手段とを備えたことを特徴とする音声言語理
    解装置。
  2. 【請求項2】 発声音声を音声認識して、音声認識され
    た音声認識結果の音声文に基づいて、音声文の意味する
    検索条件の内容を理解して、データベースを参照して応
    答する処理を実行するための音声言語理解システムであ
    って、 発声音声を音声認識して、音声認識された音声認識結果
    の音声文を出力する音声認識装置と、 検索条件を含む文章データと、それに対応しかつ少なく
    とも応答する処理の内容及びデータの項目名を含む所定
    の中間言語データとの対である学習データに基づいて、
    識別誤りが最小となるように、文章データをそれに対応
    する中間言語に変換するための隠れマルコフモデルを学
    習して得られた隠れマルコフモデルを記憶する第1の記
    憶装置と、 複数の項目名に対応したデータを含むデータベースを記
    憶する第2の記憶装置と、 上記第1の記憶装置に記憶された隠れマルコフモデルを
    用いて、上記音声認識装置によって音声認識されかつ検
    索条件を含む音声認識結果の音声文を上記中間言語に変
    換して生成する生成手段と、 上記生成手段によって生成された中間言語を、上記デー
    タベースに対応した所定のデータベース言語に変換した
    後、上記データベース言語に含まれる検索条件に基づい
    て、上記第2の記憶装置に記憶されたデータベースを検
    索して、上記検索条件を満たすデータを獲得し、そのデ
    ータについて上記中間言語に対応した応答する処理を実
    行する実行手段とを備えたことを特徴とする音声言語理
    解システム。
JP09303075A 1997-11-05 1997-11-05 音声言語理解装置及び音声言語理解システム Expired - Fee Related JP3088364B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09303075A JP3088364B2 (ja) 1997-11-05 1997-11-05 音声言語理解装置及び音声言語理解システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09303075A JP3088364B2 (ja) 1997-11-05 1997-11-05 音声言語理解装置及び音声言語理解システム

Publications (2)

Publication Number Publication Date
JPH11143493A JPH11143493A (ja) 1999-05-28
JP3088364B2 true JP3088364B2 (ja) 2000-09-18

Family

ID=17916603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09303075A Expired - Fee Related JP3088364B2 (ja) 1997-11-05 1997-11-05 音声言語理解装置及び音声言語理解システム

Country Status (1)

Country Link
JP (1) JP3088364B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3997459B2 (ja) 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
CN100583086C (zh) * 2002-04-11 2010-01-20 株式会社PtoPA 对话控制系统和对话控制方法
US8126713B2 (en) 2002-04-11 2012-02-28 Shengyang Huang Conversation control system and conversation control method
JP4846336B2 (ja) 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4849663B2 (ja) 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4849662B2 (ja) 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP6981860B2 (ja) * 2017-11-30 2021-12-17 日本電信電話株式会社 系列データ解析装置、系列データ解析方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成10年度春季研究発表会講演論文集▲I▼,1−6−7,政瀧浩和外「統計的手法による認識結果から中間表現への変換を用いた音声理解システム」,p.13−14(平成10年3月17日発行)
電子情報通信学会技術研究報告[音声],Vol.97,No.505,SP97−98,政瀧浩和外「統計的処理による音声・言語理解モデル」,p.23−30(1998年1月31日発行)
電子情報通信学会論文誌,Vol.J82−D−▲II▼,No.2,Feburary 1999,政瀧浩和外「統計処理による入力文から中間表現への変換を用いた音声言語理解」,p.169−177,(平成11年2月25日発行)

Also Published As

Publication number Publication date
JPH11143493A (ja) 1999-05-28

Similar Documents

Publication Publication Date Title
JP6827548B2 (ja) 音声認識システム及び音声認識の方法
US8639509B2 (en) Method and system for computing or determining confidence scores for parse trees at all levels
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US6374224B1 (en) Method and apparatus for style control in natural language generation
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US7620548B2 (en) Method and system for automatic detecting morphemes in a task classification system using lattices
US10170107B1 (en) Extendable label recognition of linguistic input
JP2021501376A (ja) 音声認識システム
US20040220809A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
EP1617409B1 (en) Multimodal method to provide input to a computing device
EP0849723A2 (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
Hakkinen et al. N-gram and decision tree based language identification for written words
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
Kadambe et al. Language identification with phonological and lexical models
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2886117B2 (ja) 音声認識装置
JP3059413B2 (ja) 自然言語理解装置及び自然言語理解システム
JP3016779B1 (ja) 音声理解装置及び音声理解システム
Isotani et al. An automatic speech translation system on PDAs for travel conversation
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2965529B2 (ja) 音声認識装置
Makino et al. A Japanese text dictation system based on phoneme recognition and a dependency grammar
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees