Nothing Special   »   [go: up one dir, main page]

JP2005345846A - 入力テキストのポーズ位置予測装置 - Google Patents

入力テキストのポーズ位置予測装置 Download PDF

Info

Publication number
JP2005345846A
JP2005345846A JP2004166732A JP2004166732A JP2005345846A JP 2005345846 A JP2005345846 A JP 2005345846A JP 2004166732 A JP2004166732 A JP 2004166732A JP 2004166732 A JP2004166732 A JP 2004166732A JP 2005345846 A JP2005345846 A JP 2005345846A
Authority
JP
Japan
Prior art keywords
pos
chunking
sequence
chunk
chunks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004166732A
Other languages
English (en)
Inventor
Ni Jinfu
ジンフ・ニ
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004166732A priority Critical patent/JP2005345846A/ja
Publication of JP2005345846A publication Critical patent/JP2005345846A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】注釈付きの大規模コーパスを用いることなく、入力テキストのポーズ位置を予測可能にする。
【解決手段】 ポーズ位置予測装置20は、入力テキスト22の各語に対応の品詞(POS)タグでタグ付けし、それぞれのPOSタグが付された語のシーケンス34を出力する品詞(POS)タグ付けユニット30と、語のシーケンス34のPOSを分析し、語のシーケンス34におけるPOSタグシーケンスのパターンに基づき入力テキストにおけるポーズ位置を予測するためのPOSチャンク化ユニット32とを含む。
【選択図】 図1

Description

この発明はテキスト−トゥ−スピーチ(text−to−speech:TTS)合成に関し、特に、テキスト−トゥ−スピーチシステムにおけるポーズを予測するための方法と装置とに関する。
テキスト−トゥ−スピーチシステムは、マン−マシンインターフェイスの鍵となる要素の一つである。特に、最近のコーパスベースの音声合成の発展に伴い、合成音声の自然さは格段に向上している。しかし、現在のテキスト−トゥ−スピーチにさらに改善の余地があることは否定できない。
ポーズは、合成音声をより自然にかつ理解しやすくするために重要な要因である。合成音声にますます自然さが求められるようになっているため、テキスト−トゥ−スピーチシステムでポーズを予測するための努力がなされてきた。これには、句切れを割当てること[非特許文献1]、及び、品詞(part−of−speech:POS)シーケンスから、統計的モデリングを用いて韻律的構造を予測すること[非特許文献2][非特許文献3]が含まれる。
P.タイラー及びA.W.ブラック、「品詞シーケンスからの句切れ割当」、コンピュータスピーチ及び言語、第12巻、1998年(P. Taylor and A. W. Black, "Assigning phrase breaks from part-of-speech sequences," Computer Speech and Languages, Vol. 12, 1998) Q.シ、X.マ、W.ズ、W.ジャン、及びL.シェン、「統計的韻律構造予測」、TTSワークショップ2002予稿集(Q. Shi, X. Ma, W. Zhu, W. Zhang, and L. Shen, "Statistic prosody structure prediction," Proc. TTS Workshop 2002) 藤尾 茂、匂坂 芳典、樋口 宜男、「確率文脈自由文法を用いた韻律句境界とポーズ位置の予測」、電子情報通信学会論文誌 D−II、Vol.1、J80−D−II、No.1、pp.18−25、1997年 M.アサハラ及びY.マツモト、「高性能品詞タグ付け装置の拡張モデル及びツール」、COLING2000予稿集(M. Asahara and Y. Matsumoto, "Extended models and tools for high-performance part-of-speech tagger," Proc. of COLING 2000) http://cl.aist-nara.ac.jp/thesis/dthesis-tatuo.pdf http://chasen.org/~taku/software/mecab/ http://rocling.iis.sinica.edu.tw http://www.ldc.upenn.edu/Catalog/LDC2001T11.html http://www.icl.pku.edu.cn/research/corpus/addition.htm J.ニ、及びH.カワイ、「合成指向の標準中国語音声コーパス」、日本音響学会周期会合予稿集、319−320、2002年(J. Ni and H. Kawai, "A synthesis-oriented Mandarin speech corpus", Proc. Autumn Meeting of the Acoustical Society of Japan, 319-320, 2002) N. キャンベル、「クロッシングフィート、英語における統語論的フット構造対韻律的フット構造」日本音響学会秋季会合予稿集、2001年(N. Campbell, "Crossing feet: syntactic versus prosodic foot structure in English," Proc. Autumn Meeting of the Acoustical Society of Japan, 2001)
しかし、統計的手法には難点がある。なぜなら、予期される性能を得るためには、ポーズ予測に関して正しく注釈を付けたデータが必要となるからである。ポーズ予測の課題に対し利用可能な注釈付きの大規模コーパスがないので、学習モデルのチューニングに容易に用いることのできる、柔軟な装置が求められている。
従って、この発明の目的は、ポーズ予測に関して注釈付きの大規模コーパスを用いることなく、入力テキストのポーズ位置を予測するための装置を提供することである。
この発明に従った入力テキストのポーズ位置予測装置は、入力テキストの各単語を対応の品詞(part−of−speech:POS)タグでタグ付けし、それぞれのPOSタグが付された単語シーケンスを出力するための手段と、単語シーケンスのPOSを分析し、単語シーケンス内のPOSのパターンに基づき入力テキスト内のポーズ位置を予測するための分析手段とを含む。
この装置においては、入力テキストの各単語がPOSタグでタグ付けされ、POSタグシーケンスが分析手段によって分析される。POSタグシーケンスのパターンに従って、入力テキスト中のポーズ位置または複数のポーズ位置が、人手を介することなく好ましい正確さをもって予測される。この装置は、ポーズ予測に関して注釈付きの大規模コーパスを何ら必要としない。
好ましくは、入力テキストの語は何らかの予め定められた単語分離シンボルによって分離されてはおらず、タグ付け手段は、単語と対応のPOSタグとを各々が含む複数個のエントリを記憶する辞書と、予め選択された言語モデルと、辞書及び言語モデルを参照して、入力テキストを形態素解析するための形態素解析手段とを含む。
文中の単語が何らかの単語分離シンボルによって分離されていない場合、文はまず単語に分離され、形態素解析手段によりPOSタグでタグ付けされる。日本語または中国語等の文を分析することができる。
より好ましくは、分析手段は、単語シーケンスのPOSタグを分析し、POSチャンク化規則の第1の組に従って分離された、タグ付け手段によって出力された予め定められたPOSチャンクを含むPOSチャンクシーケンスを出力するための第1パスチャンク化手段と、第1パスチャンク化手段によって出力されたPOSチャンクシーケンスを分析し、第1の組のサブセットである予め選択された第2の組のPOSチャンク化規則に従って、第1パスチャンク化手段によって出力されたPOSチャンクシーケンスを訂正するための第2パスチャンク化手段とを含み、第2の組の規則は、第2の組の規則のいずれかに合致するPOSシーケンスが、第2の組により選択されなかった規則に比してポーズを伴う確率が高いと考えられるように予め選択される。
POSチャンク化は2パスの処理で行なわれる。2つのパスで用いられる規則が互いに異なるため、結果は1パスの処理で得られるものより信頼性が高い。
さらに好ましくは、分析手段はさらに、予め選択されたトライグラム規則に従って、第2パスチャンク化手段によって出力されたPOSチャンクをマージするためのPOSチャンクマージ手段を含み、規則の各々は、一組のトライグラムPOSシーケンスと、第2パスチャンク化手段によって出力されたPOSチャンク中の3個のPOSタグシーケンスであってトライグラムPOSシーケンスに一致するものに対して行なわれるべき対応の動作とを特定する。
トライグラム規則がPOSチャンクに適用される。1個または2個のPOS単位のみからなる短いチャンクを隣接するものとマージすることができる。
第1パスチャンク化手段は、語のシーケンスのPOSタグを形態素解析し、予め定められた第1の組のPOSシーケンスの一つに一致するPOSチャンクの第1のシーケンスを出力するための第1の手段と、2個の連続したPOSチャンクのうちの第1のものの最後のPOSタグと、2個の連続したPOSチャンクのうちの第2のものの最初のPOSタグとが、予め選択された第1のバイグラムマージ規則のいずれか一つに一致するとき、第1の手段によって出力された2個の連続するPOSチャンクをマージするための手段とを含む。
第1の手段によって出力されたPOSチャンクはその後、マージ手段によってマージされる。これによって、第1手段によるPOSチャンク化の誤差が小さくされる。音声においてポーズを予測する際には、過剰マージしても許容されると考えられるので、POSチャンク化の誤差を小さくすることが好ましい。
好ましくは、マージする手段は、いずれか2個の連続するPOSチャンクがマージされると第1の値をとり、そうでなければ第1の値と異なる第2の値をとる信号を出力する。ポーズ位置予測装置はさらに、信号の値が第1の値をとったときに、第2パスチャンク化手段をバイパスして第1パスチャンク化手段が出力したPOSチャンクシーケンスをPOSチャンクマージ手段に与えるための手段を含む。
もし第1パスチャンク化手段においてPOSチャンクがいずれもマージされない場合、チャンク化は正しいと考えられ、第2パスチャンク化手段はバイパスされる。
より好ましくは、第2パスチャンク化手段は、単語シーケンスのPOSタグを形態素解析し、予め定められた第2の組のPOSシーケンスの一つに一致するPOSチャンクの第1のシーケンスを出力するための第2の手段と、第2の手段によって出力された2個の連続したPOSチャンクのうちの第1のものの最後のPOSタグと、第2の手段によって出力された2個の連続したPOSチャンクのうちの第2のものの最初のPOSタグとが、予め選択された第2のバイグラムマージ規則のいずれか一つに一致するとき、第2の手段によって出力された2個の連続するPOSチャンクをマージするための手段とを含む。
さらに好ましくは、第1の手段は、各々がPOSエントリと対応の尤度とを含む複数個のエントリを有する辞書に基づき、最尤推定を用いて単語シーケンスのPOSタグを形態素解析し、POSシーケンスの第1の組の一つと最も高い尤度で一致するPOSチャンクの第1のシーケンスを出力するための手段を含む。
1.はじめに
この発明は、生のテキストコーパスからPOSチャンク化モデルの教師無し学習を通してポーズ位置を予測するための、品詞(part−of−speech:POS)チャンク化に基づく方法と装置とに関する。測定されたポーズの57.7%が2個の句読点の間で起こり、例えばポーズを伴わないカンマは1%しかない、という実験結果から、句読点を伴わないこともあるポーズ位置の予測において、統語的な句構造情報が有用であろうと思われる。
この観点から、本発明者らは2つのポーズ間の句構造(またはPOSシーケンスパターン)を表すためにPOSシーケンス(POSチャンク)を導入し、制限付きの統語節からこれらを学習してPOSチャンクのモデルをトレーニングした。POSチャンク化は最尤推定によって行なった。
POSシーケンスをあたかもテキストのように扱って、最尤推定を行なうツールとして、形態素解析部を用いた。以下の実施の形態は中国語のテキスト−トゥ−スピーチシステムのためのポーズ予測装置に関するものである。
2.統計的形態素解析
日本語と同様に、中国語の文では語と語がスペースで分離されていない。このため、中国語の形態素解析では、入力テキストをトークン化し、入力テキストの語シーケンスW=w1,…,wnについて品詞(POS)タグT=t1,…,tnを見出さなければならない。形態素解析の問題に対する解は、確率を最大にする語シーケンスTを見出すことである[非特許文献4参照]。
Figure 2005345846
ベイズの確率論の規則を用いると、最も確率の高いシーケンスTは以下を計算することに相当する。
Figure 2005345846
確率は、最尤推定を用いることにより、注釈付きコーパスから以下のように推定される。
Figure 2005345846
ここでF(ti−1|t)はti−1に続いてtが起こる頻度、F(t)はtの頻度、F(w,t)はtをもつwの頻度、F(ti−1)はti−1の頻度である。これらのパラメータを用いて、ビタビアルゴリズムを用いて、またはすべての取り得るパスから最小のパスコストを見出すことによって、最も確率の高いタグシーケンスを決定することができる[非特許文献5参照]。
ここで、パスコストはパスに沿った2個のトークン間のすべての「トークンコスト」と「接続コスト」との和として定義される。pminをすべてのp(w|t)及びp(t|ti−1)の内の最小値とし、Cmaxは所与の基準コストを示すものとする。トークンコストと接続コストの両者を計算する一つの方法は以下のように示される。

cost coefficient= |Cmax/log(pmin)|.

i番目のトークンコスト=|log(p(wi|ti))|×コスト係数であり、i番目の接続コスト=|log(p(ti|ti-1))|×コスト係数である。パスコストを最小化するのに適した形態素解析装置が、非特許文献6に記載の通り公に入手可能である。
3.実施の形態の概要
この発明の一実施の形態に従った装置は、コスト最小化ベースの形態素解析方法を採用して、入力テキストからそのポーズ位置を予測する。この予測プロセスは論理的には2段階に分けられる。第1段階では、入力テキストはPOSタグ付けと同時にトークン化される。第2段階では、最尤推定と規則ベースの技術を用いることにより、POSシーケンスがチャンクに分けられる(以下POSチャンク化と称する)。形態素解析装置[非特許文献6]を、POSシーケンスがテキストであるかのように最尤推定を行なうツールとして用いる。
図1はこの実施の形態に従った中国語文のためのポーズ位置予測装置20のブロック図である。ポーズ位置予測装置20は中国語の入力テキスト22を受取り(図1は入力テキスト22の一例を示す。これは、「当ホテルのチェックイン時間は午後1時です。それまではチェックイン手続きができません」という意味である)、POSチャンク化により入力テキスト22のポーズ位置を予測し、POSタグの付いた中国語単語のチャンクシーケンス24を出力する。チャンクシーケンス24中のチャンクは、入力テキスト22のポーズに対応するものと考えられる。
図1を参照して、ポーズ位置予測装置20は、入力テキスト22を形態素解析し、POSタグを付した中国語単語のシーケンス34を出力するためのPOSタグ付けユニット30と、POSタグを付した単語シーケンス34を分析し、ポーズが存在すると仮定される境界で互いに分離されたPOSチャンクを含むチャンクシーケンス24を出力するためのPOSチャンク化ユニット32とを含む。
POSチャンク化ユニット32によるPOSチャンク化は、形態素解析装置での2パス技術に基づいている。形態素解析装置が必要とする、辞書等のPOSチャンク化モデルは、教師無しで生のテキストコーパスから学習される。注釈つきのコーパスを用いることなく、多数のエントリを限られた数の意味のあるタグにマッピングして適切なn−グラムモデルをトレーニングすることは困難である。これに代えて、本件発明者らはPOSチャンク化を行なうために、2−パス技術と結合したある種のマージ処理を導入した。規則ベースのマージ処理を使用する目的は、POSチャンク化における教師無し学習とPOSタグ付けの性能の限界の影響を削減するためであり、一方で、2−パス技術によりある程度まで過剰マージを防ぐことができるものと思われる。以下のサブセクションでは、テキストの形態素解析、教師無し学習及びマージ規則を説明し、POSチャンク化のn−グラムモデルについてはセクション4で論じる。
3.1 トークン化及びPOSタグ付け
図2を参照して、図1に示されるPOSタグ付けユニット30は、機械可読な辞書40及びN−グラムセット(言語モデル)42と、辞書40及びN−グラムセット42を用いて入力テキスト22を形態素解析するための形態素解析装置44[非特許文献6]とを含む。辞書40及びN−グラムセット42は、形態素解析装置44を用いて入力テキスト22を分析するのに必要とされる。本発明者らは、辞書40を構築し、3個の注釈付き中国語テキストコーパス、すなわちシニカコーパス[非特許文献7]、ペン中国語ツリーバンク[非特許文献8]、及び北京大学によって構築されたテキストコーパス[非特許文献9]から、N−グラムセット42としてバイグラム言語モデルのトレーニングを行なった。この実施の形態ではおよそ5,830kの単語が用いられた。
この実験では、図3に示すとおり、シニカコーパスで用いられるPOSセットが採用された。その後、他の2個のコーパスに割当てられたPOSタグが、可能な場合にはまずダイレクトマッピングを行ない、さもなければ最尤推定により強制マッピングを行なう、という規則により、シニカPOSセットにマッピングされた。この結果、約195kのエントリを持つ辞書40(図2)が構築され、N−グラムセット42は3,204バイグラムモデルを有することとなった。
シニカコーパス全体に対して行なった(閉じた)テストによれば、トレーニングされた形態素解析装置の再現率はトークン化について95%であり、トークン化とPOSタグ付けの両者については89%であった。POSチャンク化に関しては、POSタグ付けの性能が限られている点を許容できるよう、柔軟な方法が望まれる。
3.2 POSチャンク化モデルの教師無し学習
図4はブロック図中のPOSチャンク化ユニット32の構造を示す。図4を参照して、POSチャンク化ユニット32は、POSタグ付けユニット30から受取ったタグ付けされたテキストをPOSチャンク化してPOSチャンクシーケンス60と、POSマージ(後述する)が第1のPOSチャンク化モジュール50で行なわれたか否かを示す選択信号56を出力するための、POSチャンク化モジュール50を含む。POSマージが行なわれた場合、選択信号56は第1の値(論理「1」)をとり、そうでなければ第2の値(論理「0」)をとる。
POSチャンク化ユニット32はさらに、第1パスPOSチャンク化モジュール50でのマージがなかったことを示す選択信号56に応答して、第1パスPOSチャンク化モジュール50から出力されたPOSチャンクシーケンス60に第2のPOSチャンク化を行ない、POSチャンクシーケンス62を出力する第2パスPOSチャンク化モジュール52と、第1パスPOSチャンク化モジュール50から出力されたPOSチャンクシーケンス60または第2パスPOSチャンク化モジュール52から出力されたPOSチャンクシーケンス62のいずれかを選択し、POSチャンクシーケンス64を出力するセレクタ54と、セレクタ54によって出力されたPOSチャンクシーケンス64内のPOSチャンクをマージして最終的なチャンクシーケンス24を出力するためのPOSチャンクマージモジュール58とを含む。ある意味で、第2パスPOSチャンク化モジュール52は、第1パスPOSチャンク化モジュール50で用いられる規則よりも高い確率でポーズを伴うPOSシーケンスを規定する規則の組を用いて、第1パスPOSチャンク化モジュール50によって出力されたPOSチャンクシーケンスを訂正するということができる。
図5は図4に示された、第1パスPOSチャンク化モジュール50の詳細な構造を示す。図5を参照して、第1パスPOSチャンク化モジュール50は、各々がPOSシーケンスとN−グラムセット(言語モデル)72とを含む複数個のエントリを有する機械可読な辞書70と、POSタグ付けされた語シーケンス34が単語であるかのように、機械可読な辞書70及びN−グラムセット72を用いてPOSタグ付けされた語シーケンス34を形態素解析し、ポーズ候補位置で分離されたチャンクを含むPOSチャンクシーケンス76を出力するための形態素解析装置74と、機械可読なバイグラムセット(言語モデル)78と、バイグラムセット78中の予め選択されたマージ規則を用いて、POSチャンクをマージし、形態素解析装置74のPOSチャンク化誤差を最小にするためのPOSチャンクマージモジュール80とを含む。POSチャンクマージモジュール80はPOSチャンクがマージされたか否かを示す選択信号56を出力する。
図6は図4に示された第2パスPOSチャンク化モジュール52の詳細な構造を示す。図5及び図6を参照して、第2パスPOSチャンク化モジュール52は構造的には第1パスPOSチャンク化モジュール50と同様であって、機械可読な辞書90及びN−グラムセット(言語モデル)92と、POSチャンクシーケンス60を形態素解析してPOSチャンクシーケンス96を出力するための形態素解析装置94と、機械可読なバイグラムセット(言語モデル)98と、バイグラムセット98中の予め選択されたマージ規則を用いて、POSチャンクシーケンス96をマージし、形態素解析装置94のPOSチャンク化誤差を最小にするためのPOSチャンクマージモジュール100とを含む。
図4から図6で見られるように、ポーズ位置の予測はPOSチャンク化に基づいている。POSシーケンスを文とみなすことで、シーケンスのPOSチャンク化は、形態素解析技術を用いたテキストのトークン化として取扱うことができる。従って、例えば、形態素解析装置[非特許文献6]に適した辞書70及び90を作成し言語モデル72、78、92及び98をトレーニングする必要がある。
しかし実際には、適切なモデルを信頼性をもってトレーニングするための、チャンク注釈付きの大規模コーパスは利用できない。というのも、良好な注釈付きのPOSコーパスは大規模な音声コーパス上に構築しなければならないからである。この実施の形態では、この問題に対処するために、非常に大規模な生の中国語テキストコーパスから、ベース−POS−チャンク辞書の教師無し学習を適用している。ベース−POS−チャンクとは、ある音声文脈においておそらくポーズを伴うであろうPOSシーケンスを意味する。通常、統語節のほとんどがベース−POS−チャンクを表す。これについてはセクション4で論じる。
図7は教師無し学習により辞書70及び90を作成するプロセスを示す。図7を参照して、教師無し学習は3つのステップを含む。第1に、ステップ142で、特定の長さの統語節が新聞(数年分)、ラジオ番組からの書き起こし、及び出願人の収集した旅行会話の200kの文からなる非常に大規模なテキストコーパス140から抽出される。統語節が選択されるのは以下の条件が満たされたときである。
(1)ある節が、もしあれば、以下の6個の句読点記号「,.;:?!」のいずれかの後に続き、さらにその節の後に同じ6個の句読点記号のいずれかのみが続く場合
(2)節の中に上記した6個の句読点記号がどれも生じない場合
(3)長さが3音節から9音節である場合
第2に、ステップ144で、これらの抽出された統語節に対し形態素解析を行なってそれらのPOSタグを得る。統語句から抽出されたPOSシーケンスは図7のベース−POS−チャンク146で示されるように、ベース−POS−チャンクであるとみなされる。これらのベース−POS−チャンク146を用いて図5に示される辞書を構築する。
この実施の形態では、辞書70は474kのエントリを有し、各々のトークンコストはベース−POS−チャンク146の集合内におけるエントリの出現頻度に従って推定できる。
第3に、ステップ148で、ベース−POS−チャンク146のサブセット150が以下に特に注目して抽出される。すなわち
(1)POS構造“P...Ng”及び“P...Ncd”の両者を備える前置詞句
(2)“Cab”が先頭にくる節
(3)“SHI”または“V−2”が先頭にくる節
(4)“Ng”または“Ncd”で終わる句
(5)“DE”で終わる句
(6)名詞及び“Na”、“Nb”、“Nc”、“Nd”、“Neqa”、“Neqb”、“Nes”、“Nep”、“Neu”、“Nf”、“Ng”、“Nh”、“Ncd”からのみ成る数量詞句。
ベース−POS−チャンク146のサブセット150は図6に示される辞書90を作成するのに用いられる。この辞書90はおよそ92kのエントリと対応するトークンコストとを有する。辞書70に対するベース−POS−チャンク146と比較して、辞書90のものは会話中国語に基づくポーズを伴う確率が高い。
3.3 POSチャンク化誤りに対する規則ベースのマージ
図5及び図6で見られるように、各パスから出力されたPOSチャンクシーケンス(形態素解析装置74または94の出力)に対し、POSチャンクマージモジュール80及び100によってそれぞれ2セットのバイグラム規則(バイグラムセット78及び98)が適用される。マージ規則を決定する基本原則は、過剰マージが許容されるものとし、POSチャンク化の誤差を最小にすることである。現在これらの規則は基本的には大規模なテキストを人手により分析して決定されている。
第1パスPOSチャンク化モジュール50でPOSチャンクがどれもマージされなかった場合、第2パスPOSチャンク化モジュール52はバイパスされ、第1パスPOSチャンク化モジュール50の出力POSチャンクシーケンスが、以下に説明するとおり、直接、セレクタ54に与えられる。さもなければ、第1パスPOSチャンク化モジュール50の出力は第2パスPOSチャンク化モジュール52に与えられる。この場合、第2パスPOSチャンク化モジュール52においてPOSチャンク化の第2のパスが行なわれる。出力されるPOSチャンクシーケンスはセレクタ54に与えられる。セレクタ54は、信号56が第1パスPOSチャンク化モジュール50でのマージがなかったことを示す場合は第1パスPOSチャンク化モジュール50の出力を選択し、そうでなければ第2パスPOSチャンク化モジュール52の出力を選択する。セレクタ54の出力POSチャンクシーケンス64はPOSチャンクマージモジュール58に与えられる。
図8はPOSチャンクマージモジュール58の構造を示す。図8を参照して、POSチャンクマージモジュール58は、トライグラムセット(言語モデル)120と、セレクタ54から受取ったPOSチャンク64をトライグラムセット120に従ってマージし、最終的なPOSチャンクシーケンス62を出力するためのトライグラムベースPOSチャンクマージモジュール122とを含む。
バイグラムセット78及び98、並びにトライグラムセット120内のこれらの規則の例を図9に示す。バイグラムセットでは、各パスからの出力中の2個の近接したPOSチャンクの両者が、POSend(第1のチャンクの最後のPOS)及びPOSbeg(第2のチャンクの最初のPOS)対に対応の規則を適用することによってチェックされ、これら2個のチャンクをマージすべきか否かが決定される。例えば、図5に示す例の2個のPOSチャンク“NepNdD”と“VCVAVC”とがマージされて図9に示す例の規則に従って“NepNdDVCVAVC”というチャンクが生成され、その後、第2のパスに入る。
2−パスモジュール(POSチャンク化ユニット32)の出力に関連して、1個または2個のPOS単位のみからなる短いPOSチャンクは、トライグラムセット120のトライグラム規則の組を用いて隣接するものとマージ可能である。図8では、POScurは短いPOSチャンクの最初のPOSを示し、POSpreはそれに先行するチャンクの最後のPOSを示し、POSfowはそれに続くチャンクの最初のPOSを示す。ある演算は、この短いPOSチャンクを「先行するものとマージ」または「後続のものとマージ」すべきことを示す。例えば、トライグラムセット120内の規則によれば、“…VC”“Na”“P…”というストリングは“…VCNa”“P…”とマージされるべきであり、一方“…Vc”“Na”“VC…”は“…VC”“NaVC…”とマージされるべきである。最終的な出力で短いPOSの数を減じるために、より多くの種類の規則を用いることが期待される。
4.シミュレーション結果
上述の実施の形態に従い、特に(1)音声中のポーズ位置とテキスト中の句読点との相関、(2)音韻論的句分けと統語的境界との相互依存、及び(3)提案された方法の有効性、を調査するために実験を行なった。実験に用いられた音声サンプルは一人の母語話者[非特許文献10]が録音した音声コーパスから採用された。この音声コーパスでは、各文は4個の句読点「.;!?」のいずれかで終わる。なお、この明細書で説明される評価実験では、文の最後の句読点及び最後のポーズ/無音声はいずれもカウントされない。
4.1 ポーズ間及び句読点間の訂正
実験1は8,874個の文(約8.3時間分の音声)について行なわれた。{,.;:!?_……/}(/はポーズカテゴリの句読点を示す)の組に属する2個の句読点間の統語節、及び境界で2個のポーズによって検出される韻律句の長さを、音節数でカウントした。この実験では、2つの典型的なポーズしきい値、すなわち100msと300msとを用いた。
図10は韻律句と統語節との長さ分布を示す。図10から明らかなように、一般に、韻律句の長さは統語節のそれよりも短い。ここでは、測定されたポーズの約57%が2個の近接した句読点の間で起こっており、韻律句の86%が3音節から9音節にわたっていた。表1はこれらの音声サンプルから測定されたポーズと選択された句読点との間の相関を示す。
Figure 2005345846
カウントすべき句読点(PU)は2,581個ある。「句読点で」の項は、ポーズを伴う句読点の結果を示す。「句読点間で」の項は、句読点がない位置で起こるポーズを示す。「句読点でポーズなし」の項は、句読点のうちポーズを伴わなかったものがどの程度あるかを示し、ここで、()は一語中のポーズの発生頻度を含み、()はポーズが見出せなかったカンマの発生頻度を示す。
実験結果から、(1)テキスト−トゥ−スピーチシステムでは句読点の他にポーズを予測する方法が望ましいこと、(2)2個の句読点間の統語節はPOSチャンク化に適した重要な構造的情報を提供し、これはテキストからポーズ位置を予測するのに有用であること、が示された。例えば、ポーズを伴わないカンマはわずか1%しかない。この結果は、上で抽出したようなある種の統語節からベース−POS−チャンクが学習できる、という考え方を強く支持するものである。
4.2 韻律と統語論との相互依存
テキストパージング技術でどの程度ポーズ位置を予測できるかという疑問が生じる。というのも、韻律が統語情報を担っていることが良く知られているからである。パージングそのものが依然として難しい問題なので、この問題の一局面を、韻律と統語論との相互依存を調査することで検討した。多くの場合、統語論的境界は、非特許文献11で報告されているように、韻律句には反映されていないようである。図11に例160を示す。図11において、韻律句は{}で示され、統語的境界は[]で示される。この例では、第1の韻律句のみに相互依存/交差(cross)がある。
実験2は1,091個の発話(約3時間の音声)に対して行なわれた。録音用の1,091個の文は、ペン中国語ツリーバンク[非特許文献8]から選択された。バンクの統語ツリーはこの実験では統語句の境界を示すのに用いられた。韻律句は単に特定のポーズしきい値、例えば100ms及び300msで決定された。交差数をパーセンテージでカウントして、韻律と統語の相互依存を表した。韻律句で交差数が0ならば、この韻律句は統語句のサブストリングであることを意味し、一方交差数がnであれば、これはその韻律句の中にn個の対にならない統語的境界があることを意味する。例えば、図11に示した第1の韻律句では交差は1だけであり、第2の韻律句では交差は0である。表2は実験の結果を示す。約73%の韻律句で交差は0であった。交差0の韻律句のみが統語構造から予測可能である。
Figure 2005345846
実験結果から、統語構造は韻律句を予測するのに有用であるものの、問題に対処するには不充分であることが示された。その理由は、(1)相互依存が約27%であること、(2)その一部が(約73%の精度で)句読点によって容易に検出可能であること、及び(3)最新のテキストパージング性能が限られていること、である。
4.3 テキストからのポーズ位置予測シミュレーション
提案された方法の有効性をシミュレーションによって検討した。実験材料は2つのセットを含む。セット1は実験2で用いた1,091個の文からなり、セット2は他の4,645個の文(約4.6時間の音声)から成る。バイグラムセット78、バイグラムセット98及びトライグラムセット120として用いるための適切な規則を得るために、セット1内の文を分析し、各段階でのPOSチャンク化の出力に従って、対応のセットに人手で規則を追加していった。
モノグラム及びバイグラムモデルがPOSチャンク化の性能に及ぼす影響を、これらをそれぞれN−グラムセット72及びN−グラムセット92として用いることによって調査した。モノグラムモデルの場合、デフォルトの接続コストが用いられ、これは一貫して1.5×Cmaxに固定されていた。バイグラムのモデルでは、ペン中国語ツリーバンク[非特許文献8参照]を用いて2ステップのトレーニングが行なわれた。第1のステップでは、可能な場合にはツリーバンクから抽出した統語句のタグで辞書70及び90のエントリにタグ付けが行なわれた。特に、非終端ノードの全てで統語句が抽出された。これらの統語句はその後形態素解析装置で分析されてベース−POS−チャンクが得られ、これが統語句のタグとエントリとのギャップを埋めるものとなった。第2のステップでは、バイグラムモデルが統語構造によってトレーニングされた。この結果、676個のバイグラムモデルが得られた。ツリーバンクのサイズが小さいので(約100k語)、辞書70のエントリのうちタグ付けできたのは3.1%のみであり、辞書90では5.4%であった。
2個の発話セットのポーズ位置を、100msのしきい値で決定した。予測ポーズ位置を以下のように評価した。
再現率(測定されたポーズからのアライメント)=N/N
適合率(予測されたポーズからのアライメント)=N/N
適合率(句読点間の予測されたポーズ)=N bp/N bp
は予測されたポーズ位置の内測定されたポーズ位置と一貫するものの数を示し、Nは測定されたポーズ位置の数を示し、Npは予測されたポーズ位置の数を示し、N bpは予測されたポーズ位置の内で句読点を伴わないものの数を示し、N bpは予測されたポーズ位置の内で句読点を伴わないものであって測定されたポーズ位置と整合するものの数を示す。表3は実験結果を示す。
Figure 2005345846
実験結果から以下のことがわかる。
(1)測定されたポーズ位置の約61.6%を提案された方法によってリコールすることができ、予測されたポーズ位置の約83.7%は測定されたポーズ位置と整合している。予測されたポーズ位置の内、句読点を伴わないものに焦点をあてると、精度は約64.2%である。
(2)データスパースネスの問題と、韻律と統語との相互依存とによりバイグラムのモデルはモノグラムのモデルほど良好に働かなかった。
(3)現在のマージ規則は、一般的なテキストに関しまだ改良の余地がある。これらのマージ規則はセット1の分析から学習されるので、セット2の分析の結果からは1個または2個のトークンのみからなる多くの短いチャンクが生じる。これはセット1とセット2とのN bp/N、すなわち31%対53%、を比較すれば明らかである。
上述の実施の形態では、POSチャンク化は中国語のテキストについて行なわれた。しかしながら、この発明は中国語だけでなく、品詞タグでタグ付けが可能ないかなる言語にも適用可能である。もし言語の単語が単語分離シンボルで分離されている場合、例えば英語のようにスペースで分けられている場合には、第1段階の形態素解析は不要である。
上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
この発明の一実施の形態に従ったポーズ位置予測装置のブロック図である。 図1に示されるPOSタグ付けユニット30のブロック図である。 実施の形態に従った実験で用いられる品詞セットの表である。 図1に示されるPOSチャンク化ユニット32のブロック図である。 図4に示されるPOSチャンク化モジュール50のブロック図である。 図4に示されるPOSチャンク化モジュール52のブロック図である。 それぞれ図5及び図6に示される辞書70及び90を構築するプロセスを示す図である。 図4に示されるPOSチャンクマージモジュール58のブロック図である。 POSチャンクマージの規則例を表形式で示す図である。 実験に従った韻律句及び統合節の長さ分布を示すグラフである。 統語的境界([]で示す)と交差する韻律句({}で示す)の例を示す図である。
符号の説明
20 ポーズ位置予測装置、22 入力テキスト、24 チャンクシーケンス、30 POSタグ付けユニット、32 POSチャンク化ユニット、34 POSタグ付け語シーケンス、40、70、90 辞書、42、72、92 N−グラムセット、44、74、94 形態素解析装置、50 第1パスPOSチャンク化モジュール、52 第2パスPOSチャンク化モジュール、54 セレクタ、56 選択信号、58 POSチャンクマージモジュール、60、62、76、96 POSチャンクシーケンス、78、98 バイグラムセット、80、100 POSチャンクマージモジュール、120 トライグラムセット、122 トライグラムベースPOSチャンクマージモジュール

Claims (8)

  1. 入力テキストのポーズ位置予測装置であって、
    入力テキストの各単語を対応の品詞(part−of−speech:POS)タグでタグ付けし、それぞれのPOSタグが付された単語シーケンスを出力するためのタグ付け手段と、
    前記単語シーケンスのPOSを分析し、単語シーケンス内のPOSのパターンに基づき前記入力テキスト内のポーズ位置を予測するための手段とを含む、ポーズ位置予測装置。
  2. 前記入力テキストの単語は何らかの予め定められた単語分離シンボルによって分離されてはおらず、
    前記タグ付け手段は、
    単語と対応のPOSタグとを各々が含む複数個のエントリを記憶する辞書と、
    予め選択された言語モデルと、
    前記辞書及び前記言語モデルを参照して、前記入力テキストを形態素解析するための形態素解析手段とを含む、請求項1に記載のポーズ位置予測装置。
  3. 前記分析手段は、
    前記単語シーケンスのPOSタグを分析し、予め定められたPOSチャンク化規則の第1の組に従って分離された、前記タグ付け手段によって出力されたPOSチャンクを含むPOSチャンクシーケンスを出力するための第1パスチャンク化手段と、
    第1パスチャンク化手段によって出力された前記POSチャンクシーケンスを分析し、前記第1の組のサブセットである予め選択された第2の組のPOSチャンク化規則に従って、前記第1パスチャンク化手段によって出力された前記POSチャンクシーケンスを訂正するための第2パスチャンク化手段とを含み、
    前記第2の組の規則は、前記第2の組の規則のいずれかに合致するPOSシーケンスが、前記第2の組によって選択されなかった規則に比して、ポーズを伴う確率が高いと考えられるように予め選択される、請求項1または請求項2に記載のポーズ位置予測装置。
  4. 前記分析手段はさらに、
    予め選択されたトライグラム規則に従って、前記第2パスチャンク化手段によって出力された前記POSチャンクをマージするためのPOSチャンクマージ手段を含み、当該トライグラム規則の各々は、一組のトライグラムPOSシーケンスと、前記第2パスチャンク化手段によって出力された前記POSチャンク中の3個のPOSタグシーケンスであって前記トライグラムPOSシーケンスに一致するものに対して行なわれるべき対応の操作とを特定する、請求項3に記載のポーズ位置予測装置。
  5. 前記第1パスチャンク化手段は、
    前記単語シーケンスのPOSタグを形態素解析し、予め定められた第1の組のPOSシーケンスの一つに一致するPOSチャンクの第1のシーケンスを出力するための第1の手段と、
    2個の連続したPOSチャンクのうちの第1のものの最後のPOSタグと、前記2個の連続したPOSチャンクのうちの第2のものの最初のPOSタグとが、予め選択された第1のバイグラムマージ規則のいずれか一つに一致するとき、前記第1の手段によって出力された前記2個の連続するPOSチャンクをマージするための手段とを含む、請求項3に記載のポーズ位置予測装置。
  6. 前記マージするための手段は、2個の連続するPOSチャンクがマージされると第1の値をとり、さもなければ前記第1の値と異なる第2の値をとる信号を出力し、
    前記ポーズ位置予測装置はさらに、前記信号の値が前記第1の値をとったときに、第1パスチャンク化手段が出力したPOSチャンクシーケンスを前記第2パスチャンク化手段をバイパスして前記POSチャンクマージ手段に与えるための手段を含む、請求項5に記載のポーズ位置予測装置。
  7. 前記第2パスチャンク化手段は、
    前記単語シーケンスのPOSタグを形態素解析し、予め定められた第2の組のPOSシーケンスの一つに一致する第1のPOSチャンクのシーケンスを出力するための第2の手段と、
    前記第2の手段によって出力された2個の連続したPOSチャンクのうちの第1のものの最後のPOSタグと、前記第2の手段によって出力された前記2個の連続したPOSチャンクのうちの第2のものの最初のPOSタグとが、予め選択された第2のバイグラムマージ規則のいずれか一つに一致するとき、前記第2の手段によって出力された2個の連続するPOSチャンクをマージするための手段とを含む、請求項3から請求項6のいずれかに記載のポーズ位置予測装置。
  8. 前記第1の手段は、
    各々がPOSエントリと対応の尤度とを含む複数個のエントリを有する辞書に基づき、最尤推定を用いて前記単語シーケンスのPOSタグを形態素解析し、前記第1の組のPOSシーケンスの一つと最も高い尤度で一致するPOSチャンクの第1のシーケンスを出力するための手段を含む、請求項5に記載のポーズ位置予測装置。
JP2004166732A 2004-06-04 2004-06-04 入力テキストのポーズ位置予測装置 Pending JP2005345846A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004166732A JP2005345846A (ja) 2004-06-04 2004-06-04 入力テキストのポーズ位置予測装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004166732A JP2005345846A (ja) 2004-06-04 2004-06-04 入力テキストのポーズ位置予測装置

Publications (1)

Publication Number Publication Date
JP2005345846A true JP2005345846A (ja) 2005-12-15

Family

ID=35498282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004166732A Pending JP2005345846A (ja) 2004-06-04 2004-06-04 入力テキストのポーズ位置予測装置

Country Status (1)

Country Link
JP (1) JP2005345846A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014160188A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム
JP2021071709A (ja) * 2019-10-30 2021-05-06 百度在綫網絡技術(北京)有限公司 リズム一時停止予測方法、装置および電子機器
JPWO2021106069A1 (ja) * 2019-11-26 2021-06-03
JP2021196598A (ja) * 2020-06-15 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014160188A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム
JP2021071709A (ja) * 2019-10-30 2021-05-06 百度在綫網絡技術(北京)有限公司 リズム一時停止予測方法、装置および電子機器
US11200382B2 (en) 2019-10-30 2021-12-14 Baidu Online Network Technology (Beijing) Co., Ltd. Prosodic pause prediction method, prosodic pause prediction device and electronic device
JPWO2021106069A1 (ja) * 2019-11-26 2021-06-03
WO2021106069A1 (ja) * 2019-11-26 2021-06-03 日本電信電話株式会社 ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム
JP7235136B2 (ja) 2019-11-26 2023-03-08 日本電信電話株式会社 ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム
JP2021196598A (ja) * 2020-06-15 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7259197B2 (ja) 2020-06-15 2023-04-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US11769480B2 (en) 2020-06-15 2023-09-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium

Similar Documents

Publication Publication Date Title
US5930746A (en) Parsing and translating natural language sentences automatically
US7136802B2 (en) Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
US9176946B2 (en) System and method of extracting clauses for spoken language understanding
US9484020B2 (en) System and method of extracting clauses for spoken language understanding
Kirchhoff et al. Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition
Snover et al. A lexically-driven algorithm for disfluency detection
Kirchhoff et al. Novel speech recognition models for Arabic
Lease et al. Recognizing disfluencies in conversational speech
Szaszák et al. Exploiting prosody for automatic syntactic phrase boundary detection in speech
Ying et al. An RNN-based algorithm to detect prosodic phrase for Chinese TTS
Ananthakrishnan et al. Automatic diacritization of Arabic transcripts for automatic speech recognition
Sheng et al. Chinese prosodic phrasing with extended features
Hillard et al. Impact of automatic comma prediction on POS/name tagging of speech
Shi et al. Statistic prosody structure prediction
Liu et al. A maximum entropy based hierarchical model for automatic prosodic boundary labeling in mandarin
JP2005345846A (ja) 入力テキストのポーズ位置予測装置
KR100202292B1 (ko) 한문어 문서 음성 변환 시스템을 위한 문서 분석기
Hale et al. PCFGs with syntactic and prosodic indicators of speech repairs
Kim et al. Automatic capitalisation generation for speech input
Boughariou et al. Classification based method for disfluencies detection in spontaneous spoken Tunisian dialect
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Lease et al. Parsing and its applications for conversational speech
Qin et al. Automatic segmentation and tagging of Hanzi text using a hybrid algorithm
Keri et al. Pause prediction from lexical and syntax information
Ranjan et al. Forward surprisal models production planning in reading aloud