JP5106608B2

JP5106608B2 - 読み上げ支援装置、方法、およびプログラム

Info

Publication number: JP5106608B2
Application number: JP2010219777A
Authority: JP
Inventors: 光生布目; 優鈴木; 勇詞清水; 達也出羽
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2012-12-26
Anticipated expiration: 2030-09-29
Also published as: US20120078633A1; US9009051B2; JP2012073519A

Description

本発明の実施形態は、文書を読み上げる読み上げ支援装置、方法、およびプログラムに関する。

近年、書籍の電子化（電子書籍）の普及の伴い、電子書籍をＰＣや携帯端末、電子書籍専用端末により閲覧したり、コンテンツのテキストを音声合成システム（ＴＴＳ：Text to Speech）により朗読された音声として聴くようになっている。朗読音声として聴く場合には、任意のテキストを発話させることができるため、コンテンツごとの朗読音声を用意することなく、手軽に朗読音声を得ることができる。但し、合成された音声出力には、語の読み誤りやアクセントの誤り、また音だけでは意味が分かりにくい言葉、または同音異義語が出現する可能性がある。そのため、ユーザは、再生が続けられている朗読音声に対して、一定時間戻る指示を与えたり、画面ＵＩ（User Interface）上で再生開始地点を指定することにより読み直しを行う必要がある。

しかしながら、音声読み上げ中の任意の位置から読み直しを行う場合には、読み直しの候補となる語が時系列と逆順に読み上げられるのを注意深く聞きながら、希望する開始位置を指定しなくてはならない。また、特定のタイプをもった文節区切りまたは韻律境界などを手掛かりとして、読み直しの候補となる語を限定した場合であっても、そこから再度読み上げられる出力音声は、予め登録されている類義語を除いて、一度読み上げられた内容と同じものである。そのため、聞き手にとっては、誤りや曖昧性をもった読み上げ内容を再度聞くことになり、文書に対する理解が損なわれたままとなる。

特開２００３−１４０６７９号公報特開２０００−２６７６８７号公報

本開示は、上述の課題を解決するためになされたものであり、効率的な読み直しをおこなうことができる読み上げ支援装置、方法、およびプログラムを提供することを目的とする。

本実施形態に係る読み上げ支援装置は、指示受信部と、文書抽出部と、語句抽出部と、詳細属性取得部と、提示候補生成部と、候補提示部とを含む。指示受信部は、ユーザの指示を受け付け、指示信号を生成する。文書抽出部は、文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出する。語句抽出部は、前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を１以上の候補語として抽出する。詳細属性取得部は、前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得する。提示候補生成部は、前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成する。候補提示部は、前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示する。

本実施形態に係る読み上げ支援装置を示すブロック図。部分文書抽出部における部分文書の一例を示す図。語句抽出部の動作を示すフローチャート。語句抽出部における形態素解析結果の一例を示す図。語句抽出部における形態素解析結果の一例を示す図。語句抽出部における形態素解析結果の一例を示す図。語句抽出部において抽出される候補語情報の一例を示す図。詳細属性取得部の動作を示すフローチャート。候補語情報と対応する詳細属性の一例を示す図。提示候補生成部の動作を示すフローチャート。ノード表示された候補語の提示順序の一例を示す図。ノード表示された候補語の提示順序の別例を示す図。提示順序の一例を示す遷移図。提示順序の具体例を示す遷移図。本実施形態の変形例に係る読み上げ支援装置を示すブロック図。

以下、図面を参照しながら本実施形態に係る読み上げ支援装置、方法、およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
（本実施形態）
本実施形態に係る読み上げ支援装置について図１のブロック図を参照して説明する。
本実施形態に係る読み上げ支援装置１００は、ユーザ指示受信部１０１、部分文書抽出部１０２、語句抽出部１０３、詳細属性取得部１０４、提示候補生成部１０５、候補提示部１０６、音声合成部１０７、形態素解析辞書１０８、および用語辞書１０９を含む。なお、本実施形態では、外部から自動読み上げの対象となる文書（以下、入力文書という）の文字列を音声合成部１０７が音声として出力している状態（読み上げている状態）を仮定するが、外部の音声合成装置を支援する読み上げ支援装置であってもよい。

ユーザ指示受信部１０１は、ユーザからの指示を受け取り、指示信号を生成する。ユーザからの指示は、例えば、ある文書に対応する読み上げの音声が出力されている間に、ユーザが読み直しを指示する場合、または読み直しの開始位置となる語を指示する場合に入力される。また、語の変更、属性情報の変更、読み上げの音声の読みを修正する場合などにも入力される。また、ユーザ指示受信部１０１がユーザから指示を受け取る手法としては、例えば、ユーザがイヤホンに付属したリモコンボタンを押すことや、端末の特定のボタンを操作することが挙げられる。また、加速度センサ等が内蔵されている端末の場合は、端末を振ること、または画面等をタップすることが挙げられるが、これらに限定されるものではなく、ユーザ指示受信部１０１に指示があることを伝達できる方法であればよい。

部分文書抽出部１０２は、外部から自動読み上げの対象となる文書（以下、入力文書という）を、ユーザ指示受信部１０１から指示信号をそれぞれ受け取る。部分文書抽出部１０２は、指示信号を受け取った時点で読み上げられた語を含めた前後のある範囲で、入力文書の一部を部分文書として抽出する。部分文書については、図２を参照して後述する。
語句抽出部１０３は、部分文書抽出部１０２から部分文書を受け取り、形態素解析辞書１０８を参照して部分文書を形態素解析し、文書の読み直しの開始位置の対象となる品詞である語を候補語として抽出する。さらに、候補語と候補語を形態素解析した情報（以下、形態素解析情報という）とを対応付けた候補語情報を得る。語句抽出部１０３の動作については、図４および図５を参照して後述する。
詳細属性取得部１０４は、語句抽出部１０３から候補語情報を受け取り、形態素解析辞書１０８と用語辞書１０９とを参照して、候補語情報ごとに候補語に関する情報を示す属性情報を取得し、候補語情報と属性情報とを対応付けた詳細属性情報を得る。属性情報は、例えば候補語の他の読み候補や、同音異義語などである。詳細属性取得部１０４の動作については、図６および図７を参照して後述する。

提示候補生成部１０５は、詳細属性取得部１０４から詳細属性情報を受け取り、提示する候補語の順序を示す提示順序を生成する。提示候補生成部１０５の動作については図８から図１０までを参照して後述する。
候補提示部１０６は、提示候補生成部１０５から提示順序と詳細属性情報とを受け取り、提示順序に従って候補語と候補語の属性情報とを提示する。また、候補提示部はユーザ指示受信部１０１から指示信号を受け取った場合に、別の候補語などを提示する。
音声合成部１０７は、外部から入力文書を受け取り、文書の文字列を音声として出力し、文書の読み上げを行う。また、音声合成部１０７は、候補提示部１０６から候補語と候補語の属性情報とを受け取り、音声情報に変換して外部に音声として出力する。
形態素解析辞書１０８は、形態素解析をおこなうためのデータを格納する。
用語辞書１０９は、例えば、データリポジトリであって、アクセス可能な状態にある国語辞書、技術用語辞書、オントロジ、または百科辞典的情報が格納されるが、これらに限定されない。
なお、形態素解析辞書１０８および用語辞書１０９は、それぞれ外部にある辞書を参照しネットワークを介してｗｅｂなどから適宜必要な情報を取得するようにしてもよいし、語句抽出部１０３および詳細属性取得部１０４がそれぞれ、形態素解析辞書１０８および用語辞書１０９を含んでもよい。

次に、部分文書抽出部１０２における部分文書の一例について図２を参照して説明する。
部分文書として抽出する対象は、ユーザが指示を入力した時点で読み上げていた語を含む文や、その読み上げていた語を含む文に先行する文、ある期間を設定しその期間内で読み上げられた文、またはそれらの組み合わせでもよい。さらに、文の途中でユーザから指示があった場合は、その一文の文末までといった、未だ読み上げていない部分を含めて部分文書としてもよい。図２の例では、ユーザからの指示があり、部分文書抽出部１０２がユーザ指示受信部１０１から指示信号を受け取った時点で読み上げられていた直前の２文を部分文書とする。なお、ここでは、図２に示す（Ａ）の時点でユーザからの指示信号を受け取った場合を想定する。

次に、語句抽出部１０３の動作について図３のフローチャートを参照して説明する。
ステップＳ３０１では、部分文書抽出部１０２から部分文書を受け取り、部分文書に対して形態素解析をおこなう。
ステップＳ３０２では、形態素解析結果から、接尾語および非自立語を除外した名詞を候補語として抽出する。なお、本実施形態では、接尾語および非自立語を除いた名詞を抽出したが、これに限らず、形容詞または動詞を抽出してもよい。また、文字種に着目し、アルファベットによる単語、または数値表現が出現した場合に、それらを抽出してもよい。
ステップＳ３０３では、ステップＳ３０２で抽出された候補語と、対応する見出し表記、読み、名詞、属性（固有名詞）の情報、及び出現順序とをそれぞれ対応付けて候補語情報を得る。

ここで、形態素解析を実施した結果の一例について図４Ａから図４Ｃまでに示す。
図４Ａから図４Ｃまでは、図２に示す部分文書の形態素解析結果を示す。カラム４０１は、部分文書が品詞ごとに区切られた表層表現、カラム４０２が各品詞に対応付けられた形態素解析情報である。形態素解析情報としては、品詞名、読み、活用形などがある。なお、「＊」は情報がないことを示す。

次に、ステップＳ３０２で抽出される候補語と形態素解析情報とについて図５を参照して説明する。
図４Ａから図４Ｃまでの形態素解析結果のうち、カラム４０２の詳細情報に含まれる品詞名が「名詞」である品詞を候補語としてカラム４０１から抽出する。具体的には、図４Ａでは、「湾岸」「雨脚」が、図４Ｂでは、「リア」「遮光」といった候補語が抽出される。また、抽出された候補語に対応する形態素解析情報も共に抽出され、候補語と形態素解析情報とを合わせて候補語情報として格納される。ＩＤ５０１は、部分文書の先頭から抽出された候補語の順番、つまり候補語の出現順序を示す。表記５０２は、図４のカラム４０１から抽出された候補語の表記である。形態素解析結果５０３は、名詞に対応する詳細情報である。ここでは、品詞名、名詞の種類、読みが格納されるが、これらに限らない。以上より、ＩＤ５０１と、表記５０２と、形態素解析結果５０３とがそれぞれ対応付けられて候補語情報５０４となる。

次に、詳細属性取得部１０４の動作について図６のフローチャートを参照して説明する。
ステップＳ６０１では、１つの候補語に関する候補語情報を受け取る。

ステップＳ６０２では、候補語について複数の読みが存在するかどうかを判定する。複数の読みが存在すれば、ステップＳ６０３へ進み、複数の読みが存在しない、つまり１つの読みしかない場合はステップＳ６０４へ進む。

ステップＳ６０３では、複数の読みのうち、読まれる可能性のある読みを優先度付きで保持する。優先度は、例えば値が小さいほど読まれる優先度が高いと設定すればよい。

ステップＳ６０４では、同音異義語が存在するかどうかを判定する。同音異義語が存在すればステップＳ６０５へ進み、同音異義語が存在しなければステップＳ６０６へ進む。

ステップＳ６０５では、存在する同音異義語の表記および読みを保持し、その同音異義語が複数の漢字から構成される場合は、各文字列に分解した情報についても保持する。

ステップＳ６０６では、ステップＳ６０１で受け取った名詞が人名、組織名、未知語、アルファベット、および略称のいずれかに該当するかどうかを判定する。名詞がこれらのいずれかに該当する場合はステップＳ６０７へ進み、いずれにも該当しない場合はステップＳ６０８へ進む。

ステップＳ６０７では、ステップＳ６０７に該当する場合の内容を取得して保持する。例えば、正式名称が「ＡＢＣ株式会社」であり、候補語「ＡＢＣ」が略称であった場合、その正式名称「ＡＢＣ株式会社」を保持する。

ステップＳ６０８では、部分文書が含まれる文書に対して予めインデックス情報が作成されている場合は、インデックス情報を参照して、該当する候補語の見出しがあるかどうかを判定する。インデックス情報は、文書全体に対して、機械的な検索や閲覧する場合に参照する目的で予め作成されたインデックスを示す。該当する候補語の見出しがある場合はステップＳ６０９に進み、該当する候補語の見出しがない場合はステップＳ６１０へ進む。

ステップＳ６０９では、該当する候補語の見出しを保持する。

ステップＳ６１０では、候補語が外部にある用語辞書１０９のインデックスに見出しがあるかどうかを判定する。候補語の見出しがある場合は、ステップＳ６１１へ進み、候補語の見出しがない場合は、ステップＳ６１２へ進む。

ステップＳ６１１では、該当する候補語の見出しを保持する。

ステップＳ６１２では、形態素解析時の処理で連接コストが高い候補語が存在するかどうかを判定する。連接コストとは、単語間のつながりやすさを示す値である。例えば、一般的な文脈であれば、単語「姓」の後には単語「名」が続いた「姓名」とつながる確率が高く、逆に、単語「名」の後に単語「姓」が続いた「名姓」とつながる確率は低いので、「姓」「名」の連接コストは高くなる。このような連接コストが高い語が存在する場合は、ステップＳ６１３へ進み、連接コストが高い語が存在しない場合は、ステップＳ６１４へ進む。なお、連接コストは形態素解析辞書１０８から受け取ってもよいし、語句抽出部１０３において形態素解析したときに得た連接コストを語句抽出部１０３から受け取ってもよい。
ステップＳ６１３では、候補語に対して、他の連接パターン、すなわち他の品詞の区切り位置を保持する。ここでは、全ての連接パターンを保持することが望ましい。

ステップＳ６１４では、語句抽出部１０３で抽出された全ての候補語に対して処理が行われたかどうかを判定する。全ての候補語に対して処理が行われた場合は、ステップＳ６１５へ進む。全ての候補語に対し処理が行われていない場合は、ステップＳ６０１に戻り、次の候補語に対して上述した処理を同様におこなう。

ステップＳ６１５では、候補語情報と上述のステップにより保持した属性情報とを対応付けて詳細属性情報を得る。以上で詳細属性取得部１０４の動作を終了する。

次に、詳細属性取得部１０４から出力される詳細属性情報の一例について図７を参照して説明する。
第３カラムまでが語句抽出部１０３からの候補語情報であり、第４カラム以降の連接コスト７０１、他の読み７０２、異義語７０３、内部索引または内部辞書７０４、および外部辞書７０５といった要素を合わせた情報が属性情報７０６である。これら候補語情報５０４と属性情報７０６とを合わせたものが詳細属性情報７０７となる。例えばＩＤ５０１（８）の語では、形態素解析の結果、固有名詞で読みは「サエグサ」が得られているが、属性情報を取得した結果、他の読み候補として「ミエ」や「サンシ」などが保持されていることを示している。

また、ＩＤ５０１（５）（６）の語は、それぞれ形態素解析の結果、読みとして「クルマ」、「コーチョー」が得られているが、これらの連節コストが高い場合は、それぞれマーク付けされる。

次に、提示候補生成部１０５の動作について図８のフローチャートを参照して説明する。
ステップＳ８０１では、候補語を１つ抽出する。なお、ここでは、図７に示すＩＤ５０１が大きい順に抽出する。すなわち、文書の読み直しの指示信号を受け取った時点に近い候補語から遡って抽出する。
ステップＳ８０２では、抽出した候補語に対して属性情報が保持されているかどうかを判定する。属性情報が保持されていない場合は、ステップＳ８０５へ進み、属性情報が保持されている場合は、ステップＳ８０３へ進む。
ステップＳ８０３では、保持されている属性情報に応じて重み付けを行い、ノードを生成する。
ステップＳ８０４では、属性情報の取得結果に応じて、ステップＳ８０３において重み付けした値を補正する。なお、ステップＳ８０３とステップＳ８０４とにおけるノードに対する重み付けは、以下の式（１）を用いて算出することができる。

ここで、ノードをｎとすると、Ｗ（ｎ）はノードｎの重み付け値、ｄ（ｎ）はユーザの指示が発生した語の位置からノードｎまでの文字数を表し、以下ではこの文字数を距離と呼ぶ。また、ｋは属性情報の全種別数（全要素数）であり、Ｗ_ｉは属性情報の各要素に対応付けられた重み係数であり、Ｏ_ｉは属性情報の各要素の出現数を、ノードｎに出現した全要素数（要素を区別せずにノードｎで枚挙されているすべての候補の数）で割った値である。なお、ここでの重み付けは、各ノードとなる候補語の品詞情報や、属性情報の要素の取得数などに固定的に係数を持たせておく手法を用いるが、これに限らず、過去にユーザが選択しやすい情報をモデルとして蓄積しておき、入力に対する重み付けをそのモデルを参照しておこなう方法などでもよい。

ステップＳ８０５では、候補語と、その属性情報の取得結果に応じて、属性情報の種類との間にリンクを張る。
ステップＳ８０６では、各候補語のノードの重みと、候補語ノードごとの距離を考慮して基点からリンクを張る。ノード間の重み付けは、以下の式（２）を用いて算出すればよい。

ここで、ｓ（ｐ，ｑ）は、ノードｐとノードｑとの間の重み付けを示し、Ｗ（ｐ）、Ｗ（ｑ）は、ノードｐおよびノードｑのそれぞれの重み付けを示し、ｄ（ｐ）、ｄ（ｑ）は、ノードｐおよびノードｑのそれぞれの距離を示す。一般的には、距離が近いほど、重み付けが大きくなる。

ステップＳ８０７では、全ての候補語に対して処理を行ったかどうかを判定する。全ての候補語に対して処理を行っていない場合は、ステップＳ８０１へ戻り、同様の処理を繰り返す。全ての候補語に対して処理を行った場合は、提示候補生成部１０５における処理を終了する。

次に、提示候補生成部１０５の処理結果の一例について図９および図１０を参照して説明する。

ユーザからの指示が発生した時点を起点ノードとして、候補語へリンクが張られている様子を示す。また各単語からは、各単語に関する属性情報へのリンクが張られている。

図９の例では、実線で記載されたＩＤ（１４），（１３），（８）へのリンクの重み付けは、重み付けが大きいほど、それ以外の点線で記されたリンクと比較して重要度が高いことを示す。この重み付けの重要度によって、文書の読み直し時における提示順序が決定される。

また、ＩＤ（６），（５）に対しては、他の連接可能性があることから、異なる種類（ここでは、一点鎖線）のリンクで示す。なお、ＩＤ（６），（５）に関しては、現在の［車／高調］という品詞区切りのほか、［車高調］という区切りなしが存在するとした場合は、属性情報「他の連接候補」として保持してもよい。

また、提示候補生成部１０５の別の処理結果を図１０に示す。図１０の例では、属性情報へのリンクがあれば各属性情報を説明し、属性情報へのリンクがなければ属性情報については説明しない。図７の詳細属性情報に示すように、「リア」および「モニタ」は、属性情報を有さないため、属性情報へのリンクがない。

次に、候補提示部１０６における単語の提示順序の一例を図１１に示す。
ステップＳ１１０１では、ユーザの指示が発生する。なお、以下では、図２に示す（Ｂ）の位置、つまり「は」という語を読み上げ終わった位置でユーザの指示が発生した場合を想定する。

ステップＳ１１０２では、候補語の他の読み候補を重み付けが大きい、すなわち重要度が高い候補から順に提示する。例えば「サエグサ、ミエ、サンシ」などである。なお、候補語の他の読み候補は、自動的に高い読み候補から提示されてもよいし、ユーザの選択によって提示されてもよい。例えば、他の読み候補が提示されたときに、ユーザからの指示（第１指示）があれば次の読み候補を提示するようにすればよい。ユーザからの指示がなければ、現在提示されている読み候補をユーザが確定したとして、ステップＳ１１０９に遷移し、文書の読み上げを継続する。また、他の読み候補を提示しているときに、次の読み候補を提示させる指示とは異なる指示（第２指示）を与えることで候補語の切り替え（ステップＳ１１０３）、または対象語の辞書引き（ステップＳ１１０５）に推移する。

ステップＳ１１０３では、候補語の切り替えをおこなう。例えば、「航跡」「ＡＣＡＲＳ」「湾岸」などである。また、ユーザが第２指示を与えることにより、他の連接候補（ステップＳ１１０４）を提示してもよいし、候補語の辞書引き（ステップＳ１１０５）を提示してもよい。

ステップＳ１１０４では、他の連接候補を提示する。

ステップＳ１１０５では、候補語の辞書引きを提示するため、ステップＳ１１０６またはステップＳ１１０７に遷移する。

ステップＳ１１０６では、文書内インデックスから取得した属性情報の要素である、文書内の説明文、文書内の略語辞書、文書内の人名定義などを提示する。

ステップＳ１１０７では、文書外インデックスから取得した属性情報の要素である、文書外の説明文、外部の辞書などを提示する。

また、ステップＳ１１０２において、ユーザからさらに第２指示とは異なる第３指示を受け取った場合に、ステップ１１０８に推移する。ここでの異なるユーザ指示とは、たとえば第２指示がイヤホンリモコンのボタンを一回押し下げることに対して、第３指示が２回連続で押し下げることを示す。同様に、第２指示が読み上げ端末を１度振ることであれば、第３指示が端末を２回振る、といった指示の違いを示す。

ステップＳ１１０８では、文書構造に基づく区切りを提示する。また、ステップＳ１１０８では、第２指示を受け取った場合またはユーザアクションが無く一定時間経った場合に、読み上げを継続する（ステップＳ１１０９）。

また、候補語を切り替えた場合に、詳細候補情報が存在していれば同じ語句の次の候補を提示する、存在していなければ他の候補語の属性情報を提示するといった切り替えを自動でおこなってもよい。また、候補語が存在しなかった場合には、抽出された部分文書の先頭に戻って読み直したり、前段落または前文に戻ったり、または経過時間のうちある一定の固定時間だけ戻る操作ができるようにしてもよい。

次に、本実施形態に係る読み上げ支援装置１００の動作の具体例について図１２を参照して説明する。
ステップＳ１２０１では、ユーザから指示が発生する。ここでは文書中の「航跡」（読み：コーセキ）が候補語とする。

ステップＳ１２０２では、他の読みを提示することの重み付けが低い場合として、「航跡」の意味「航空機の飛んだ航程」を提示する。出力された意味によりユーザが理解すれば、操作をせずに待機するか、規定の操作を行うことにより、ステップＳ１２０６に遷移して読み上げが継続される。一方、「航跡」の意味を提示中に、ユーザが第３指示（２度押し、または２回端末を振るなど）をおこなった場合に、ステップＳ１２０３へ遷移する。

ステップＳ１２０３では、同じ語句「航跡」に関する他の情報として、漢字を分けた場合での読み「わたる／あと」を提示する。

ステップＳ１２０４では、ステップＳ１２０３において同様に、ユーザが第３指示をおこなった場合に次の語句、「ＡＣＡＲＳ」が提示される。アルファベットの場合は、それぞれの言語に応じた読みを出力するか、それぞれのスペルの読みを出力することで、読みが誤っていてもユーザに正しい情報を伝えることを支援することができる。ここでは、「エー・カーズ」または「エー・シー・エー・アール・エス」と音声出力する。また、ユーザの指示が無い場合はステップＳ１２０６に遷移して、読み上げを継続する。第３指示があった場合は次の語句に遡って、ステップＳ１２０５へ遷移する。

ステップＳ１２０５では、「三枝」に対する読みが複数付与されており、「ミエ」「サエグサ」「サンシ」の候補を順に提示し、読み上げた「サエグサ」だとコンテンツの文脈からユーザにとって意味が分からない場合、第１指示を与えて他の読み候補を出す。提示された候補に対してユーザが納得すれば、この読み候補を確定したものとして、ステップＳ１２０６へ遷移して読み上げを継続する。具体的には、例えば「サエグサ」ではなく、ユーザが「ミエ」であると判断した場合には、指示をせずに一定期間経過後、読み上げが継続される。なお、この場合、文書の以降の読み上げにおいて「三枝」が出現した場合に、読みとして「ミエ」が読み上げられるように、読みの優先度を変更してもよい。さらに、これらの指示（アクション）と提示する候補語の対応は固定ではなく、ユーザがそれらの対応を自由にカスタマイズしたり、特定の候補語が存在する場合には優先的に出力したり、逆に特定の候補語に関しては出力しないようにしてもよい。

以上に示した本実施形態によれば、品詞に基づいて読み直しの対象となる候補語を選択することで、読み直し位置の自由度を高めることができる。さらに、その際に必要な情報が補完された状態で候補語および候補語に関する属性情報を提示することで、ユーザは候補語を選択するか聞き流すという簡単なアクションにより、一定期間読み上げ位置を遡るような単純な読み直し以上に、情報を拡充した文書の読み直しが可能となり、ユーザの理解を支援することができる。

（本実施形態の変形例）
本変形例では、文書のコンテンツおよび種類に応じた候補語の提示順序と候補語に関する属性情報とを対応付けたモデルを参照することにより、提示順序と提示する属性情報とを変更する点が本実施形態と異なる。

本実施形態の変形例に係る読み上げ支援装置について図１３のブロック図を参照して説明する。
本実施形態の変形例に係る読み上げ支援装置１３００は、ユーザ指示受信部１０１、部分文書抽出部１０２、語句抽出部１０３、詳細属性取得部１０４、提示候補生成部１３０３、候補提示部１０６、音声合成部１０７、形態素解析辞書１０８、用語辞書１０９、提示用モデル１３０１、および文書判定部１３０２を含む。

ユーザ指示受信部１０１、部分文書抽出部１０２、語句抽出部１０３、詳細属性取得部１０４、候補提示部１０６、音声合成部１０７、形態素解析辞書１０８、および用語辞書１０９については、本実施形態と同様の動作を行うため、ここでの説明は省略する。

提示用モデル１３０１は、個別のユーザプロファイルが格納され、さらに語句の一般的に用いられる提示順序と重み付けとが定義されたモデルが格納される。なお、文書の種類に応じた候補語の提示順序と候補語に関する属性情報とを対応付けたモデルをそれぞれ格納してもよい。例えば、文書のコンテンツがスポーツに関するものであれば、提示順序に示される候補語のうち、スポーツに関する用語から順に提示されるように重み付けを決定する。さらにこの候補語（スポーツに関する用語）の属性情報として、読みや異義語よりも外部辞書を参照したチーム情報といった属性情報の要素が優先して提示されるように重み付けを決定したモデルであってもよい。

文書判定部１３０２は、後述の提示候補生成部１３０３から詳細属性情報を受け取り、詳細属性情報から読み上げ中の文書のコンテンツおよび種類の判定結果を提示する。なお、図示しないが、入力文書を直接受け取り、入力文書に関連付けられているジャンルなどの情報を参照することにより、文書のコンテンツおよび種類を判定してもよい。

提示候補生成部１３０３は、本実施形態に係る提示候補生成部１０５とほぼ同様の動作をおこない、詳細属性取得部１０４から詳細属性情報を、文書判定部１３０２から判定結果を、提示用モデル１３０１からモデルをそれぞれ受け取る。その後、判定結果に応じたモデルを参照して、提示順序および属性情報の要素に関する重み付けを変更することで、提示順序と属性情報の要素が提示される順番を変更する。

以上に示した本実施形態の変形例によれば、文書のコンテンツおよび種類に応じて提示順序および属性情報の要素の重み付けを変更することで、文書に適した候補語と対応する属性情報とをユーザに提示することができ、よりユーザの理解を支援する読み直しをおこなうことができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した読み上げ支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の読み上げ支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，１３００・・・読み上げ支援装置、１０１・・・ユーザ指示受信部、１０２・・・部分文書抽出部、１０３・・・語句抽出部、１０４・・・詳細属性取得部、１０５，１３０３・・・提示候補生成部、１０６・・・候補提示部、１０７・・・音声合成部、１０８・・・形態素解析辞書、１０９・・・用語辞書、４０１，４０２・・・カラム、５０１・・・ＩＤ、５０２・・・表記、５０３・・・形態素解析結果、５０４・・・候補語情報、７０１・・・連接コスト、７０２・・・他の読み、７０３・・・異義語、７０４・・・内部索引または内部辞書、７０５・・・外部辞書、７０６・・・属性情報、７０７・・・詳細属性情報、１３０１・・・提示用モデル、１３０２・・・文書判定部。

Claims

文書の文字列を音声として読み上げる音声合成装置を支援する読み上げ支援装置であって、
ユーザの指示を受け付け、指示信号を生成する指示受信部と、
前記文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出する文書抽出部と、
前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を１以上の候補語として抽出する語句抽出部と、
前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得する詳細属性取得部と、
前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成する提示候補生成部と、
前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示する候補提示部と、を具備することを特徴とする読み上げ支援装置。
前記詳細属性取得部は、前記属性情報の要素として、前記候補語の複数の読み候補と、該候補語の同音異義語と、および内部文書と外部文書との少なくとも１つから該候補語の人名または該候補語の正式名称とを取得することを特徴とする請求項１に記載の読み上げ支援装置。
前記提示候補生成部は、ユーザによる前記読み候補の選択結果に応じて、文書読み上げ時の前記候補語の読みの優先度を変更することを特徴とする請求項１に記載の読み上げ支援装置。
前記候補提示部は、前記候補語を提示中にユーザから第１指示があった場合は、該候補語の次の読み候補を提示し、ユーザから第２指示があった場合は、別の候補語を提示し、ユーザから第３指示があった場合は、提示中の前記候補語の属性情報の要素とは別の要素を提示することを特徴とする請求項２に記載の読み上げ支援装置。
文書の種類を判定して判定結果を得る文書判定部と、をさらに具備し、
前記提示候補生成部は、前記判定結果と、文書の種類に応じた候補語の提示順序と該候補語の属性情報とを対応付けたモデルとを参照して、前記提示順序と候補語の属性情報の要素が提示される順番を変更することを特徴とする請求項１に記載の読み上げ支援装置。
前記提示候補生成部は、属性情報の要素を取得した数と、該要素ごとの重み係数とを用いて候補語ごとの重み付けをさらにおこない、候補語の前記距離が近いほど該候補語の重み付けを大きくすることを特徴とする請求項１に記載の読み上げ支援装置。
文書の文字列を音声として読み上げる音声合成装置を支援する読み上げ支援方法であって、
ユーザの指示を受け付け、指示信号を生成し、
前記文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出し、
前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を１以上の候補語として抽出し、
前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得し、
前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成し、
前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示することを具備することを特徴とする読み上げ支援方法。
文書の文字列を音声として読み上げる音声合成装置を支援する読み上げ支援プログラムであって、
コンピュータを、
ユーザの指示を受け付け、指示信号を生成する指示受信手段と、
前記文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出する文書抽出手段と、
前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を１以上の候補語として抽出する語句抽出手段と、
前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得する詳細属性取得手段と、
前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成する提示候補生成手段と、
前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示する候補提示手段として機能させるための読み上げ支援プログラム。