WO2009122779A1

WO2009122779A1 - テキストデータ処理装置、方法、プログラムが格納された記録媒体

Info

Publication number: WO2009122779A1
Application number: PCT/JP2009/052378
Authority: WO
Inventors: 祐北出; 孝文越仲
Original assignee: 日本電気株式会社
Priority date: 2008-04-03
Filing date: 2009-02-13
Publication date: 2009-10-08
Also published as: US20110010175A1; JPWO2009122779A1; US8892435B2

Abstract

　適切な位置に記号を付することができるテキストデータ処理装置、方法、及びプログラムを提供する。本実施形態に係る装置は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段５２と、記号編集判定手段において記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、ブロックに含まれる単語に対する記号編集尤度からブロック中の記号編集位置を算出する記号編集位置算出手段５３と、を備えるものである。

Description

[規則37.2に基づきISAが決定した発明の名称]　テキストデータ処理装置、方法、プログラムが格納された記録媒体

　本発明は、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに関し、特に詳しくはテキストデータに対して記号を編集する、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに関する。

　音声言語処理単位変換装置の一例が、特許文献１に記載されている。図７に示すように、この音声言語処理単位変換装置は、音声認識装置４５０と、バッファメモリ４０６と、処理単位変換部４０７と、統計モデルメモリ４２１と、経験的規則メモリ４２２と、日英翻訳部４０８とから構成されている。

　このような構成を有する従来の音声言語処理単位変換装置は次のように動作する。

　音声認識装置４５０は、音声認識を行う。そして、音声認識装置４５０は、音声認識結果をバッファメモリ４０６に書き込む。統計モデルメモリ４２１には、句点に対応する境界らしさを表すスコアが学習されている。処理単位変換部４０７は、統計モデルメモリ４２１を用いて、節境界らしさを表すスコアを算出する。そして、処理単位変換部４０７は、スコアがしきい値を越えた時、その位置を句読点挿入候補とする。さらに、処理単位変換部４０７は、経験的規則メモリ４２２の句点挿入箇所の韻律情報から抽出された経験的規則により最終的に句点挿入を確定する。

　また、特許文献２に別の装置が記載されている。図８に示す字幕番組制作システムは、同期検出装置５１５と、単位字幕抽出５３３、自動字幕生成５３５、およびタイミング情報付与５３７を含む統合化装置５１７と、形態素解析５１９と、分割ルール５２１とから構成されている。

　そして、字幕番組制作システムは、入力文を字幕画面に収まり読み易い字幕文となるように改行・改頁点を挿入する。このような構成を有する従来の記号挿入装置は次のように動作する。

　字幕テキスト文を入力として、統合化装置５１７では１画面もしくは１行に収まるように改行・改頁点の候補を求める。同期検出装置５１５にて、その結果の妥当性を評価し、再び統合化装置５１７にその結果を返して、最終的に改行・改頁を施して自動分割する。統合化装置５１７は、入力文が指定文字数より多いときに形態素解析５１９に入力文を渡して形態素解析する。さらに、統合化装置５１７は、文字数も考慮した上で分割ルール５２１にしたがって区切り可能箇所候補を提示する。
特開平１１－１２６０９１号公報特開２００２－３４２３１１号公報

　特許文献１に記載の装置では、前後の記号挿入の分布を考慮せず、数単語の履歴のみから記号挿入判定を行っている。このため、局所的に過度に記号を挿入してしまう場合がある。また、特許文献２のように記号間距離の上限を固定値で与えると、長い文書を意味的に不自然な位置で分割してしまう。これは、状況により適切な記号挿入位置、単語間距離が変わるためである。よって、記号が適切な位置に付されたテキストを作成することができないという問題点がある。

　本発明は、このような問題点を鑑みてなされてものであって、記号が適切な位置に付されたテキストを作成することができるテキストデータ処理装置、テキストデータ処理方法、テキストデータ処理プログラム、及び音声認識装置を提供することを目的とする。

　本発明の第１の態様に係るテキストデータ処理装置は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるものである。

　本発明の第２の態様に係るテキストデータ処理装置は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴に基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるものである。

　本発明の第３の態様に係るテキストデータ処理方法は、入力されたテキストに対して記号を編集するテキストデータ処理方法であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定するステップと、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるものである。

　本発明の第４の態様に係るテキストデータ処理方法は、入力されたテキストに対して記号を編集するテキストデータ処理方法であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する判定ステップと、前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴に基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるものである。

　本発明の第５の態様に係るテキストデータ処理プログラムが格納された記録媒体は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、コンピュータに対して、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させるステップと、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるものである。

　本発明の第６の態様に係るテキストデータ処理プログラムは、入力されたテキストに対して記号を編集するテキストデータ処理プログラムであって、コンピュータに対して、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させる判定ステップと、前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出させ、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるものである。

　本発明の目的は、記号が適切な位置に付されたテキストを作成することができるテキストデータ処理装置、テキストデータ処理方法、テキストデータ処理プログラム、及び音声認識装置を提供することにある。

本発明にかかるテキストデータ処理装置の構成を示すブロック図である。実施の形態１にかかるテキストデータ処理装置の構成を示すブロック図である。実施の形態１にかかるテキストデータ処理方法を示すフローチャートである。実施の形態２にかかるテキストデータ処理装置の構成を示すブロック図である。実施の形態２にかかるテキストデータ処理方法を示すフローチャートである。実施の形態３にかかるテキストデータ処理装置の構成を示すブロック図である。特許文献１に記載の装置の構成を示す図である。特許文献２に記載の装置の構成を示す図である。

符号の説明

　５１　ブロック分割手段
　５２　記号編集判定手段
　５３　記号編集位置算出手段
　５４　記号挿入モデル記憶手段
　５５　記号位置確定手段
　５６　音声認識手段
　６０　テキストデータ処理装置
　６１　記号編集判定手段
　６２　記号編集位置算出手段
　１０１　仮記号挿入位置算出手段
　１０２　記号挿入モデル記憶手段
　１０３　仮記号挿入結果記憶手段
　１０４　ブロック分割手段
　１０５　記号編集判定手段
　１０６　記号編集位置算出手段
　１０７　記号位置確定手段
　３００　入力装置
　３１０　データ処理装置
　３１１　仮記号挿入位置算出手段
　３１２　ブロック分割手段
　３１３　記号編集判定手段
　３１４　記号編集位置算出手段
　３１５　記号位置確定手段
　３２０　データ記憶装置
　３２１　記号挿入モデル記憶部
　３２２　仮記号挿入結果記憶部
　３２３　記号挿入結果記憶部
　４０６　バッファメモリ
　４０７　処理単位変換部
　４０８　日英翻訳部
　４２１　統計モデルメモリ
　４２２　経験的規則メモリ
　４５０　音声認識装置
　５１５　同期検出装置
　５１７　統合化装置
　５１９　形態素解析
　５２１　分割ルール
　５３３　単位字幕抽出
　５３５　自動字幕生成
　５３７　タイミング情報付与

　本発明にかかるテキストデータ処理装置は、入力されたテキストに対して記号を編集する。例えば、テキストデータ処理装置は、句点「。」、読点「、」、疑問符「？」、感嘆符「！」、ピリオド「．」、カンマ「，」、改行コードなどの記号を入力テキストの適切な位置に挿入する。あるいは、不適切な位置の記号を入力テキストから削除する。このテキストデータ処理装置について図１を用いて説明する。図１は、テキストデータ処理装置の構成を示すブロック図である。

　テキストデータ処理装置６０は、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段６１と、記号編集判定手段６１において記号の編集が要と判定された場合に、記号挿入尤度と記号間距離とに基づいてブロックに含まれる単語に対する記号編集尤度を算出し、ブロックに含まれる単語に対する記号編集尤度からブロック中の記号編集位置を算出する記号編集位置算出手段６２と、を備えている。

　記号編集判定手段６１は、１ブロックに挿入する記号挿入数を算出する。記号編集位置算出手段６２は、記号挿入モデルに基づいて、各単語に対する記号挿入尤度を算出する。そして、記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出する。ブロック内において、記号編集尤度が高い位置を記号編集位置とし、その位置に記号を挿入する。ブロック内の各単語に対して算出された記号編集尤度を比較して、その比較結果により記号編集位置を決定する。

　ブロック内の記号の数が記号編集判定手段６１で算出された記号挿入数になるまで記号編集要と判定される。従って、ブロック中の記号の数が記号挿入数になるまで記号が挿入されていく。これにより、適切な位置に記号を付けることができる。なお、記号間距離の代わりに、記号挿入履歴を用いて、記号編集尤度を算出してもよい。すなわち、記号挿入尤度と記号挿入済みのテキストの挿入頻度に応じた記号挿入履歴とに基づいてブロックに含まれる単語に対する記号編集尤度を算出することも可能である。

　次に、本実施の形態にかかるテキストデータ処理装置について図２を参照して詳細に説明する。図２は、テキストデータ処理装置の構成を示すブロック図である。

　テキストデータ処理装置は、ブロック分割手段５１と、記号編集判定手段５２と、記号編集位置算出手段５３と、記号挿入モデル記憶手段５４と、記号位置確定手段５５とを有している。さらに、テキストデータ処理装置は、音声認識手段５６、を備えている。

　なお、これらの手段は、物理的に同一の構成であってもよい。テキストデータ処理装置は、データの入出力が可能なパーソナルコンピュータ等の演算処理装置である。例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、記憶ディスク、通信用のインターフェースなどを有し、テキストデータ処理プログラムにしたがって各種演算処理を実行する。ＲＡＭや記憶ディスクなどが記号挿入モデル記憶手段５４となる。また、ＣＰＵなどのプロセッサが、ブロック分割手段５１と、記号編集判定手段５２と、記号編集位置算出手段５３と、記号挿入モデル記憶手段５４と、記号位置確定手段５５となる。

　そして、これらの手段は、予め格納されたコンピュータプログラムを実行することで、それぞれの処理を行う。したがって、これらの手段は物理的に同一のプロセッサなどで構成されていても良い。例えば、記憶ディスクなどに記憶されている演算プログラムをＣＰＵによって実行されると、入力されている設定等をＲＡＭなどに読み込んで、各種演算を行う。そして、その計算過程のデータや計算結果のデータをＲＡＭや記憶ディスクなどに書き込む。このように、演算処理装置に予め記録されているテキストデータ処理プログラムにしたがって、下記の演算処理が実行される。

　音声認識手段５６は、人の発話を受音するマイクロフォン等を有している。音声認識手段５６は、音声認識処理を行い、マイクロフォンが取得した音声データに基づいたテキスト文を作成する。音声認識手段５６によって作成されたテキストが入力テキストとなる。これにより、話者が発した音声が認識され、入力テキストが作成される。さらに、音声認識手段５６が、形態素解析を行って、入力文を単語単位に分割してもよい。また、音声認識手段５６が検出した音声の特徴量に基づいて、話者を識別するようにしてもよい。もちろん、音声認識によらずテキストを入力してもよい。例えば、音声書き起こしによって入力テキストを作成してもよい。

　このように、音声認識手段５６は、単語単位に分割して出力可能である。なお、形態素解析は、音声認識手段５６以外で行われていてもよい。例えば、音声書き起こしによって入力テキストを作成する場合、形態素解析が行なわれていないテキスト文が作成され、この場合、形態素解析入力テキストに対しては、後述する記号編集判定手段５２が形態素解析を行ってもよい。

　ブロック分割手段５１には、音声認識手段５６によって認識されたテキストが入力される。ブロック分割手段５１は、所定の基準にしたがって複数のブロックに入力テキストを分割する。すなわち、入力テキストが２以上のブロックに分割される。入力テキストの分割方法として、話題や話者単位、ｘ秒(ｘ＞０)やｎ発話（ｎ＞０）などが考えられる。ただし、入力テキストを分割せず、入力テキスト全体を１つのブロックとみなすことも可能である。ここでは、入力テキストがＩ個のブロックに分割されたとして説明する。

　また、ｎ発話を選択する場合、入力テキストには記号が挿入されていないため、擬似的な記号を挿入して、発話単位に分ける。一例として、ポーズ長を基に区切ることが考えられる。例えば、発話と発話の間の発話がされていない区間をポーズとし、その長さをポーズ長とする。そして、ポーズ長があるしきい値以上になったとき、すなわち、しきい値以上のポーズが挿入された時、その位置に"ポーズ"という記号を挿入する。これにより、ブロック内に擬似的な記号であるポーズ記号が挿入される。

　さらに、ブロック分割手段５１は、入力テキストを複数のブロックに分割する。なお、１ブロックは通常、複数の分割テキストから構成される。ここで分割テキストとは、１ブロック中の文字列をある記号によって分割した時の１つのかたまりを指す。例えば、その記号を句点とした場合、分割テキストは１文に相当する。この場合、１つのブロックは、複数の文から構成される。なお、１つのブロックが１つの文から構成されていてもよい。

　記号編集判定手段５２は、それぞれのブロックに挿入する記号の適正な挿入数を計算する。これにより、Ｉ個のブロックのそれぞれに対して、記号の挿入数が算出される。記号挿入数の算出には、以下の数１を条件式として用いる。

　ここで、θ（Ｃ_ｋ）_ｍｉｎおよびθ（Ｃ_ｋ）_ｍａｘは、記号Ｃ_ｋの編集判定を行うしきい値である。しきい値は、経験的に定めても良いし、実験的に求めても良い。そして、しきい値θ（Ｃ_ｋ）_ｍｉｎおよびθ（Ｃ_ｋ）_ｍａｘを予め記憶しておく。また、Ｓ_ｉ，_Ｃｋはｉ番目のブロックの記号Ｃ_ｋの記号挿入頻度を表す。すなわち、記号挿入頻度Ｓ_ｉ，_Ｃｋが予め設定された上限値と下限値との間になるように、各ブロックに挿入される記号数を決定する。具体的には、以下の数２、又は数３等を用いて記号挿入頻度Ｓ_ｉ，_Ｃｋを算出する。

　このように記号挿入頻度Ｓ_ｉ，_Ｃｋはｉ番目のブロックに含まれる記号Ｃ_ｋの出現頻度、に応じて決まる。ブロック内の記号Ｃ_ｋの数が多いほど、記号挿入頻度Ｓ_ｉ，_Ｃｋが大きくなる。数１を満たすＳ_ｉ，Ｃｋの分子の値が自動挿入する記号数となる。記号が挿入されていないテキストを入力とする場合にはＳ_ｉ，Ｃｋ＜θ（Ｃ_ｋ）_ｍｉｎとなるため、記号編集が要となり、記号を挿入する。ここで、Ｓ_ｉ，Ｃｋは１つ以上の分割テキストから構成されるブロックに対して、単語数もしくは文字数を考慮した記号挿入頻度となっている。したがって、文字数、又は単語数が異なれば、記号挿入数も異なる。１つのブロックに含まれる文字数、又は単語数に応じて、記号挿入頻度Ｓ_ｉ，_Ｃｋを算出する。このようにすることで、ブロック中に挿入される記号挿入数を適切に算出することができる。すなわち、１ブロックに含まれるテキストの長さが変わった場合でも、適切に記号挿入数を決定することができる。

　なお、上記のように、記号編集判定手段５２が形態素解析を行ってもよい。ただし、音声認識結果等の既に単語単位に区切られているテキストに対しては処理を行わず、その情報を用いる。すなわち、テキストがそのテキストを単語単位に区切った情報と共に入力される場合は、その情報を用いる。

　記号編集位置算出手段５３は、単語ごとに記号編集尤度を計算して、１ブロック内で最適な位置に記号を挿入する。記号編集位置算出手段５３は、記号編集判定手段５２で求めた記号挿入数だけ、そのブロックに記号を挿入する。

　具体的には、記号編集位置算出手段５３が、以下の３つの処理を行う。１つ目の処理は、単語単位で記号挿入尤度を求める処理である。２つめの処理は、記号挿入尤度に基づいて、記号編集尤度を求める処理である。３つ目の処理は記号編集尤度に応じて、記号挿入位置を求める処理である。

　１番目の処理について説明する。ここでは、単語単位に記号挿入尤度を算出する。記号挿入モデル記憶手段５４には、文字列に対して記号が挿入される記号挿入尤度をモデル化した記号挿入モデルが記憶されている。記号挿入尤度を求める方法としては、下岡ら,"日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化,"　自然言語処理, ２００５年第１２巻３号（以下、文献１）や大庭ら(ＮＴＴ)，"チャンキングと逐次的係り受け解析に基づく話し言葉の文境界検出,"日本音響学会講演論文集,２００６（以下、文献２）の方式を用いることができる。

　したがって、これらの方式に応じた記号挿入モデルが、記号挿入モデル記憶手段５４に格納されている。記号編集位置算出手段５３は、記号挿入モデル記憶手段５４に記憶された記号挿入モデルを用いて、着目した単語の直後にある記号が挿入される尤度である記号挿入尤度を計算する。このように、ブロックに含まれる全単語に対する記号挿入尤度を算出する。もちろん、文献１、及び文献２以外の方法で、単語の記号挿入尤度を算出してもよい。このような記号挿入尤度は、単語に応じて異なっている。すなわち、単語によって、その単語の直後に挿入される尤度である記号挿入尤度が決まる。

　２番目の処理について説明する。ここでは、記号挿入尤度に基づいて、記号編集尤度を算出する。ここで、ブロックｉに含まれるｊ番目の単語について考える（ｉ、ｊは自然数）。記号Ｃ_ｋの記号挿入尤度をｐ(ｉ，ｊ，Ｃ_ｋ)とすると、記号Ｃ_ｋの記号編集尤度Ｐｒ(ｉ，ｊ，Ｃ_ｋ)は、以下の数４で算出することができる。

　数４において、α、β、γは事前に定めた値であり、Ｌ（ｉ，ｊ，Ｃ_ｋ）も含めて記号編集尤度の補正係数として機能する。したがって、定数α、β、γの値は、予めメモリ等に記憶されている。また、Ｌ（ｉ，ｊ，Ｃ_ｋ）は、記号間距離に基づく関数ｆ_ｋ（ｙ）を用いて以下の数５で表せる。

　変数ｙは、ブロックｉに含まれるｊ番目の単語から最近傍のいずれかの記号までの距離である。すなわち、最近傍の記号までの単語数もしくは文字数を距離ｙとすることができる。具体的には、既に挿入済みのいずれかの記号、もしくは擬似的な記号、例えば"ポーズ"との距離となる。このように、その単語位置から前、又は後の記号までの距離が記号間距離となる。したがって、変数ｙは以下の数６、又は数７で表すことができる。

　ここで、ｌｅｎｇｔｈ（ｊ，ｊ'）は、ｊ番目の単語とｊ'番目の単語間の文字数を表す。数４では、Ｌ（ｉ，ｊ，Ｃ_ｋ）の項が含まれているため、記号間距離に応じて、記号編集尤度Ｐｒ（ｉ，ｊ，Ｃ_ｋ）の値が変化する。すなわち、隣接する記号間距離が長くなると記号編集尤度Ｐｒ（ｉ，ｊ，Ｃ_ｋ）の値が高くなる。したがって、記号間距離が長い区間に、より記号が挿入されやすくなる。記号間距離は記号編集位置から既に記号挿入済みの最近傍の記号までの単語数、又は文字数である。

　なお、別の記号編集尤度算出方法として、以下の数８を用いることができる。同様に定数α、β、γを用いる。

　なお、数８におけるα、β、γは数４と同様に、予め設定された定数である。

　ここで、ｗ_ｊ＋ｎ' ^{ｊ－ｎ＋１}は直前ｎ単語から直後ｎ'単語までの単語列を表す。Ｎ（ｗ_ｊ＋ｎ' ^{ｊ－ｎ＋１}，Ｃ_ｋ）は、単語列ｗ_ｊ＋ｎ' ^{ｊ－ｎ＋１}のｉ番目の単語ｗ_jの直後に記号Ｃ_ｋが挿入された頻度を表し、例えば、同一話者の記号挿入履歴から求める。記号挿入履歴として、既に記号挿入確定済みのブロックにおける記号挿入結果を用いることができる。すなわち、過去に挿入された当該記号の挿入結果を挿入履歴として用いることができる。あるいは、後述する実施形態２の仮記号挿入位置算出手段での記号挿入判定結果を用いてもよい。

　また、評価対象の音声とは別に、同一話者の発話を収集した記号挿入済みテキストがある場合には、それらを用いても良い。つまり、評価対象話者の記号挿入傾向を反映させた記号編集尤度が求められる。記号編集尤度が、既に記号挿入済みのテキストの記号挿入履歴に基づいて算出されている。例えば、既に記号が付されている他のテキストにおける当該記号の挿入頻度に応じた記号挿入履歴に基づいて算出されている。記号挿入履歴が同一話者による他のテキストにおける当該記号の挿入頻度に応じて設定されていてもよい。

　３つ目の処理について説明する。ここでは、記号編集尤度を用いて、記号挿入位置が決定される。すなわち、１ブロック内の全単語を対象に、記号編集尤度が最大となった単語を求める。すなわち、１つ以上の分割テキストにまたがって記号編集尤度が最大となる単語を求める。そして、その単語の直後に記号を挿入する。この算出式を、以下の数９に示す。

　ここで、ｃ_ｉ，_ｊはブロックiのj番目の単語の直後に挿入される記号を表し、ｃ_ｉ，_ｊ＝ＮＵＬＬは何も記号が挿入されないことを表す。数９は、記号Ｃ_ｋに対する記号編集尤度が最も高い位置を出力することを意味する。数１の条件が満たされるまで繰り返し、Ｃ_ｋが挿入される位置を計算する。

　このように、１ブロック内の全単語に対する記号編集尤度を比較する。そして、ブロック内において、記号編集尤度が高い単語から順番に記号を挿入していく。数１に応じた記号挿入数の記号を１ブロック内に挿入していく。すなわち、記号編集判定手段５２は、ブロック内に挿入された記号数が記号挿入数になるまで、記号編集を要と判定する。

　ただし、擬似的な記号が挿入された位置に関しては、特別処理を行っても良い。すなわち、以下の数１０のように記号ごとの記号編集尤度を求め、ＮＵＬＬを除いた最も尤度の高かった記号Ｃ＾を挿入する。

　ただし、記号間で挿入の優先順位がある場合、優先度下位の記号は優先度上位の記号が挿入されている箇所には挿入しないなどの制限を設けることも考えられる。例えば、挿入対象の記号が句点と読点の場合に、句点が読点よりも優先度が高いとすると、句点が挿入されている箇所には読点が選択されることはない。また、ここで、非常に長いポーズが挿入された時には、いずれかの記号を挿入するという制約の下で記号位置を編集することも考えられる。

　記号位置確定手段５５は、記号編集位置算出手段５３の記号挿入位置情報をもとに、入力テキストに記号を挿入し、結果を出力する。これにより、適切な位置に記号が挿入されたテキストデータが出力される。もちろん、上記の処理によって、異なる種類の記号を挿入してもよい。例えば、句点に対する記号編集尤度を算出して、句点を挿入した後に、読点に対する記号編集尤度を算出して、読点を挿入することができる。

　次に、図３のフローチャートを参照して本実施形態の全体動作について説明する。なお、図３では、音声認識を行わずに、テキストを入力する例について示している。まず、入力テキストをブロック単位に分割する（図３のステップＳ５０１）。ここでは、入力テキストを２以上のブロックに分割する。もちろん、入力テキスト全体を１つのブロックとしてもよい。

　そして、分割されたブロック毎に、各記号の適切な記号挿入数を計算する（ステップＳ５０２）。すなわち、ブロックに含まれる文字数等に応じて、適切な記号挿入数を設定する。次に、ブロック内のテキストを単語単位に分割する（ステップＳ５０３）。これにより、ブロック内のテキストが単語単位に区切られる。ただし、既に単語単位に区切られている場合は不要である。なお、ステップＳ５０３は、ステップＳ５０１の前でも、ステップＳ５０２の前でもよい。例えば、ステップＳ５０２で記号挿入数を算出するときに、数２を用いる場合、先にステップＳ５０３を実行して、単語単位に区切っておく。そして、ブロック内の単語数をカウントして、記号挿入数を決定する。

　その後、記号挿入尤度および記号間距離に基づく値を用いて記号編集尤度を求め、記号編集位置を算出する（ステップＳ５０４）。すなわち、記号編集位置算出手段５３が記号挿入モデルを読み出し、各単語に対する記号挿入尤度を算出する。そして、記号挿入尤度と記号間距離に基づいて、記号編集尤度を算出する。もちろん、記号間距離ではなく、記号挿入履歴を参照して、記号編集尤度を算出してもよい。さらに、記号間距離、及び記号挿入履歴の両方を用いて、記号編集尤度を算出してもよい。

　最後に、前ステップでの結果をテキストに反映させて（ステップＳ５０５）、これを全ブロックに対して実行する（ステップＳ５０６）。このように、ブロック内に挿入された記号数がステップＳ５０１で設定された記号挿入数に到達するまで、記号編集を要と判定する。そして、記号挿入数になるまで、記号編集尤度が高い単語位置から順番に記号を挿入していく。一連の処理を全記号に対して実行してもよい。

　上記のテキストデータ処理装置を、音声認識装置に適用してもよい。この場合、音声認識処理結果を入力テキストとする。すなわち、音声認識装置に、音声認識部とテキストデータ処理装置を設ける。音声認識部がテキストデータ処理装置に対して音声認識処理の結果によるテキストを入力する。このとき、音声認識部がポーズ箇所を検出し、記号編集尤度が、記号編集位置から最近傍のポーズ箇所までの距離に基づいて算出されていてもよい。

　次に、本実施の形態の効果について説明する。

　本実施の形態では、複数の分割テキストが含まれるブロック単位で適切な記号挿入数を計算している。このため、記号を挿入するか否かをブロック単位で大局的に判断することができる。すなわち、数単語や１文等の短区間における局所的に最適位置、最適な量ではなく、ブロック単位での最適な位置に最適な量を記号挿入可能である。よって、１つのブロック中において記号が過度に挿入される部分が発生するのを防ぐことができ、適切な位置に記号を付することができる。なお、ブロックが１文のみで構成されていてもよい。すなわち、１つ以上の分割テキストが含まれるブロック単位で最適な記号挿入位置を決定することができる。

　従来の記号挿入尤度に加えて記号間距離を考慮した上で記号挿入位置を特定している。このため、言語的に記号が挿入されやすい単語列の箇所のうち、記号が少ない位置に記号を挿入可能となる。また、１文が極端に長くなったり不要な箇所まで記号を挿入して細切れになったりすることなく、意味的にも問題のない位置、もしくは適切な位置に記号を挿入することができる。さらに、記号間距離を加味しているために、従前の記号挿入方式では記号挿入尤度が低いために記号が割り当てられなかった、もしくは他の記号が割り当てられていた箇所に記号を挿入することもできる。よって、適切な位置に記号を挿入することができる。

　あるいは、記号編集尤度を同一話者の記号挿入履歴から求めることで、評価対象話者の記号挿入傾向を反映させた記号編集尤度を求めることができる。よって、話者の話し方に応じた、そして文法的に妥当な位置に記号を挿入することができる。

実施の形態２．
　本発明の第２実施形態について図面を参照して詳細に説明する。

　図４に示すように、実施の形態２にかかるテキストデータ処理装置では、仮記号挿入位置算出手段１０１と、記号挿入モデル記憶手段１０２と、仮記号挿入結果記憶手段１０３と、ブロック分割手段１０４と、記号編集判定手段１０５と、記号編集位置算出手段１０６と、記号位置確定手段１０７とから構成されている。なお、実施の形態１と同様の内容については、適宜省略して説明する。

　仮記号挿入位置算出手段１０１には、テキストが入力される。例えば、音声書き起こしを入力とする。もちろん、実施の形態１と同様に、音声認識結果を入力テキストとしてもよい。そして、入力テキストが単語単位に区切られていない時、仮記号挿入位置算出手段１０１は、形態素解析を行って入力テキストを単語単位に区切る。さらに、各単語直後に記号が挿入される尤度（記号挿入尤度）を計算する。さらに記号挿入尤度に基づいて記号挿入判定を行う。記号挿入尤度に基づいて入力テキストに仮記号を挿入する。

　記号挿入モデル記憶手段１０２は、第１の実施の形態での記号挿入モデル記憶手段５４と同様である。したがって、記号挿入モデル記憶手段１０２には、記号挿入モデルが記憶されている。

　仮記号挿入結果記憶手段１０３は、仮記号挿入位置算出手段１０１の結果を記憶する。具体的には、入力文に加えて記号挿入判定結果および各記号の記号挿入尤度を記憶する。

　ブロック分割手段１０４は、仮記号挿入結果記憶手段１０３より文字列を取得して、所定の基準にしたがってテキストをブロックに分割する。なお、仮記号挿入前に、テキストをブロックに分割することも可能である。分割の基準は、第１の実施の形態と同様である。ただし、ｎ発話を選択する場合には、仮記号挿入結果の記号から算出する。

　記号編集判定手段１０５は、ブロック分割手段１０４によって分けられたＩ個のブロックそれぞれに対して、ブロックの記号挿入情報を編集すべきか判定する。記号編集判定手段１０５は、ブロックに含まれる単語の情報や記号挿入の有無の情報（記号挿入情報）、記号挿入尤度の情報を仮記号挿入結果記憶手段１０３より取得し、これらを用いて判定を行なう。具体的には、記号編集判定手段１０５は、記号の挿入もしくは削除を行うか判定を行う。判定式は数１および数２を用いる。もちろん、数２の代わりに数３を用いてもよい。Ｓ_ｉ，Ｃｋがθ（Ｃ_ｋ）_ｍｉｎからθ（Ｃ_ｋ）_ｍａｘの範囲にある場合には、記号編集を行わず結果を記号位置確定手段１０７に送る。すなわち、仮記号挿入結果を、そのまま記号位置確定手段１０７に送る。しかしながら、数１の条件を満たしていない場合は、記号編集位置算出手段１０６にて記号位置の編集を行う。

　記号編集位置算出手段１０６は、記号編集判定手段１０５にて編集の必要があるとされたブロックについて、記号の編集位置を特定する。具体的には、仮記号挿入結果記憶手段１０３から取得した記号挿入尤度の情報をもとに記号編集尤度を求める。この記号編集尤度に基づいて記号編集位置を特定する。そして、記号挿入位置情報を更新して、それらの情報を記号位置確定手段１０７に渡す。

　記号編集尤度Ｐｒ（ｉ，ｊ，Ｃ_ｋ）は、数４もしくは数８を用いる。但し、数４に使用される数５のｙは、数６、数７以外に、以下の数１１又は数１２で求めることもできる。

　このように、数１１、又は数１２を用いて変数ｙを算出してもよい。すなわち、変数ｙは、ブロックiのj番目の単語から最近傍の記号Ｃ_ｋまでの距離としてもよいし、記号の種類に関係なくいずれかの記号との距離としてもよい。すなわち、仮記号挿入位置算出手段１０１によって当該記号が挿入されているため、同じ記号Ｃ_ｋの記号間距離を用いることができる。距離とは、具体的には、記号間の単語数もしくは文字数である。

　以下に記号編集位置特定方法を詳細に述べる。

　まず、記号編集判定手段１０５での結果がＳ_ｉ，Ｃｋ＜θ（Ｃ_ｋ）_ｍｉｎであった場合について述べる。Ｓ_ｉ，Ｃｋ＜θ（Ｃ_ｋ）_ｍｉｎは、すなわちブロックiにおける記号Ｃ_ｋの挿入数が少ないことを意味する。したがって、Ｓ_ｉ，Ｃｋ≧θ（Ｃ_ｋ）_ｍｉｎとなるまでブロックｉの文字列に記号Ｃ_ｋを挿入する。記号挿入位置は数９で求められる。すなわち、ブロックｉの記号Ｃ_ｋが挿入されていないすべての単語境界のうち、記号Ｃ_ｋの記号編集尤度が最も高い位置を求めている。

　ただし、記号間で挿入の優先順位がある場合、優先度下位の記号は優先度上位の記号が挿入されている箇所には挿入しないなどの制限を設けることも考えられる。例えば、挿入対象の記号が句点と読点の場合に、句点が読点よりも優先度が高いとすると、句点が挿入されている箇所には読点が選択されることはない。ここで、非常に長いポーズが挿入された時には、いずれかの記号を挿入するという制約の下で記号位置を編集することも考えられる。

　次に、記号編集判定手段１０５での結果がＳ_ｉ，Ｃｋ＞θ（Ｃ_ｋ）_maxであった場合について述べる。Ｓ_ｉ，Ｃｋ＞θ（Ｃ_ｋ）_maxは、ブロックｉにおける記号のＣ_ｋの挿入数が多すぎることを表す。したがって、ブロックｉの記号Ｃ_ｋが挿入されている箇所からＳ_ｉ，Ｃｋ≦θ（Ｃ_ｋ）_maxとなるまで記号Ｃ_ｋを削除する。削除箇所、すなわちｃ_ｉ，ｍ≠Ｃ_ｋを以下の数１３で求める。

　上述の式は、記号Ｃ_ｋが挿入されている箇所のうち、記号編集尤度が最も低い位置を出力することを意味する。また別の記号削除箇所の算出方法として、以下の数１４が考えられる。

　上述の数１４は、記号Ｃ_ｋが挿入されている箇所のうち、記号がＮＵＬＬである尤度が最も高い位置を出力することを意味する。ここで、非常に長いポーズが挿入された時には、当該箇所の記号は削除しない（Ｃ_ｉ，ｍ≠ＮＵＬＬ）という制約の下で記号位置を編集することも考えられる。

　記号位置確定手段１０７は、記号編集判定手段１０５および記号編集位置算出手段１０６で出力された記号挿入位置情報をもとに、入力テキストに記号を挿入し、結果を出力する。

　次に、図５のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

　まず、入力テキストを単語単位に区切る（図５のステップＳ２０１）。既に、単語境界がわかっている音声認識結果等では、その情報を用いて単語単位に区切る。単語境界がわかっていない入力テキストに対しては、形態素解析を実行して入力テキストを単語に区切る。次に、ステップＳ２０１にて区切られた単語単位で記号挿入尤度を求めて直後に挿入すべき記号を決定し、記号挿入判定結果（記号挿入情報）および記号挿入尤度の情報を追加する（ステップＳ２０２）。これを入力の全単語について実施する（ステップＳ２０３）。

　これにより、全単語に対して記号挿入判定が行なわれ、仮記号が挿入される。さらに、前述の所定の基準にしたがって入力テキストを分割し、１つ以上のブロックに分ける（ステップＳ２０４）。なお、入力テキストをブロックに分割した後に、形態素解析を行ってもよい。なお、ステップＳ２０４は、ステップＳ２０１の前でも、ステップＳ２０２の前でもよい。

　各ブロックに対して記号挿入頻度を計算し（ステップＳ２０５）、その結果に基づいて当該ブロックに記号編集の要否を判定する（ステップＳ２０６）。編集を行う場合には、編集位置を算出し（ステップＳ２０７）、記号挿入情報を更新する（ステップＳ２０８）。すなわち、記号挿入数が上限値を超えている場合は記号を削除し、下限値をより少ない場合は記号を追加する。その上で、記号挿入情報をもとに記号挿入位置を確定し、入力文に記号を挿入する（ステップＳ２０９）。この一連の処理を全てのブロックに対して実施する（ステップＳ２１０）。

　次に、本実施の形態の効果について説明する。

　本実施の形態では、仮記号挿入結果を用いて、記号間距離を計算する。そして、この記号間距離に基づいて記号編集尤度を求め、記号編集を行う。よって、擬似的に挿入された記号より信頼度の高い記号の情報を用いて記号間距離に基づく関数値、及び記号編集尤度を求めることができる。このため、より高精度に記号挿入が可能となる。また、仮記号挿入結果を踏まえて記号の多寡を判定するため、過度に記号が挿入されていた際に余分な記号の削除が可能である。さらに、一度挿入された記号を記号間距離や記号挿入履歴を加味して、より適切な別の記号に置き換えることも可能である。よって、適切な位置に記号を付することができる。

実施の形態３．
　実施形態３について図面を参照して詳細に説明する。図６は、本実施の形態にかかるテキストデータ処理装置の構成を示すブロック図である。なお、実施の形態１，２と同様の内容については、説明を省略する。

　図６を参照すると、テキストデータ処理装置は、実施形態１をプログラムにより構成した場合に、そのプログラムにより動作されるコンピュータの構成図で、入力装置３００と、データ処理装置３１０と、データ記憶装置３２０と、出力装置３３０とから構成されている。データ処理装置３１０は、仮記号挿入位置算出手段３１１、ブロック分割手段３１２、記号編集判定手段３１３、記号編集位置算出手段３１４、記号位置確定手段３１５を含んでいる。データ記憶装置３２０は、記号挿入モデル記憶部３２１、仮記号挿入結果記憶部３２２、記号挿入結果記憶部３２３を含んでいる。なお、これらの各装置は、物理的に単一の装置から構成されていてもよい。すなわち、各装置が、１つのコンピュータによって構成されていてもよい。

　入力装置３００は、記号を含まない形態素解析済みテキストや音声認識結果等を入力する。もちろん、入力装置３００が音声認識処理を行ってもよい。この場合、入力装置３００が音声データを取得するためのマイクなどを有している。

　データ処理装置３１０は、仮記号挿入位置算出手段３１１、ブロック分割手段３１２、記号編集判定手段３１３、記号編集位置算出手段３１４、記号位置確定手段３１５とを含み、入力装置３００からの入力を受け、データ記憶装置３２０より必要な単語情報、記号挿入情報などを得て、記号挿入位置を算出、入力文字列を編集して出力装置３３０に結果を送る。

　データ記憶装置３２０は、記号挿入モデル記憶部３２１と、仮記号挿入結果記憶部３２２、記号挿入結果記憶部３２３とを含み、主に入力文字列の単語情報や記号挿入情報、記号挿入尤度情報を記憶する。さらに、データ処理装置３１０から要求に応じて、必要な単語情報、記号挿入情報、記号挿入尤度情報をデータ処理装置３１０に返す。

　記号挿入モデル記憶部３２１は、記号挿入モデルを記憶する。

　仮記号挿入結果記憶部３２２は、仮記号挿入位置算出手段３１１の算出結果を保存し、ブロック分割手段３１２に必要な情報を送る。

　記号挿入結果記憶部３２３は、記号編集判定手段３１３および記号編集位置算出手段３１４の結果を記憶し、記号位置確定手段３１５にその結果を送る。

　本実施の形態によれば、音声信号をテキスト化する音声認識装置や音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。例えば、音声認識装置に、本実施の形態にかかるテキストデータ処理プログラムをインストールする。また、音声や映像コンテンツを適切な単位に区切って分割された単位でコンテンツを表示・再生したり検索したりするコンテンツ再生装置やコンテンツ検索装置、録音された音声データの書き起こし支援装置といった用途にも適用可能である。

　音声をテキスト化した文字列に対して、適切な位置に記号を挿入することができる。特に話し言葉音声をテキスト化した文章に対して記号挿入する場合には、１文が長くなったり文が細切れになったりする場合が多いので、適切に編集することができる。本発明に係る方法では、複数の文を含むブロック毎に適切な挿入位置を判定している。よって、適切な量の記号を適切な位置に挿入することができる。

　この出願は、２００８年４月３日に出願された日本出願特願２００８－０９７３５０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに関し、特に詳しくはテキストデータに対して記号を編集する、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに適用することができる。

Claims

　複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、
　前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるテキストデータ処理装置。
　前記記号間距離が前記記号編集位置から既に挿入済みの最近傍の記号までの単語数、又は文字数に応じて決定されている請求項１に記載のテキストデータ処理装置。
　複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、
　前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるテキストデータ処理装置。
　前記記号挿入履歴が同一話者によるテキストにおける当該記号の挿入頻度に応じて設定されている請求項３に記載のテキストデータ処理装置。
　前記ブロック中に挿入される記号挿入数を算出し、前記ブロック内の記号数が前記記号挿入数になるまで、前記記号編集を要と判定する請求項１乃至４のいずれか１項に記載のテキストデータ処理装置。
　請求項１乃至５のいずれか１項に記載のテキストデータ処理装置と、
　前記テキストデータ処理装置に対して音声認識処理の結果によるテキストを出力する音声認識部とを備える音声認識装置。
　前記音声認識部がポーズ箇所を検出し、
　前記記号編集尤度が、前記記号編集位置から最近傍の前記ポーズ箇所までの距離に基づいて算出されている請求項６に記載の音声認識装置。
　複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する判定ステップと、
　前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるテキストデータ処理方法。
　前記記号間距離が前記記号編集位置から既に挿入済みの最近傍の記号までの単語数、又は文字数に応じて決定されている請求項８に記載のテキストデータ処理方法。
　複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する判定ステップと、
　前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるテキストデータ処理方法。
　前記記号挿入履歴が同一話者によるテキストにおける当該記号の挿入頻度に応じて設定されている請求項１０に記載のテキストデータ処理方法。
　前記ブロック中に挿入される記号挿入数を算出し、前記ブロック内の記号数が前記記号挿入数になるまで、前記記号編集を要と判定する請求項８乃至１１のいずれか１項に記載のテキストデータ処理方法。
　入力されたテキストに対して記号を編集するテキストデータ処理プログラムが格納された記録媒体であって、
　コンピュータに対して、
　複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させる判定ステップと、
　前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出させ、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるテキストデータ処理プログラムが格納された記録媒体。
　前記記号間距離が前記記号編集位置から既に挿入済みの最近傍の記号までの単語数、又は文字数に応じて決定されている請求項１３に記載のテキストデータ処理プログラム。
　入力されたテキストに対して記号を編集するテキストデータ処理プログラムが格納された記録媒体であって、
　コンピュータに対して、
　複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させる判定ステップと、
　前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出させ、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるテキストデータ処理プログラムが格納された記録媒体。
　前記記号挿入履歴が同一話者によるテキストにおける当該記号の挿入頻度に応じて設定されている請求項１５に記載のテキストデータ処理プログラムが格納された記録媒体。
　前記ブロック中に挿入される記号挿入数を算出し、前記ブロック内の記号数が前記記号挿入数になるまで、前記記号編集を要と判定する請求項１３乃至１６のいずれか１項に記載のテキストデータ処理プログラムが格納された記録媒体。