Nothing Special   »   [go: up one dir, main page]

JP5106608B2 - 読み上げ支援装置、方法、およびプログラム - Google Patents

読み上げ支援装置、方法、およびプログラム Download PDF

Info

Publication number
JP5106608B2
JP5106608B2 JP2010219777A JP2010219777A JP5106608B2 JP 5106608 B2 JP5106608 B2 JP 5106608B2 JP 2010219777 A JP2010219777 A JP 2010219777A JP 2010219777 A JP2010219777 A JP 2010219777A JP 5106608 B2 JP5106608 B2 JP 5106608B2
Authority
JP
Japan
Prior art keywords
candidate
document
word
reading
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010219777A
Other languages
English (en)
Other versions
JP2012073519A (ja
Inventor
光生 布目
優 鈴木
勇詞 清水
達也 出羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010219777A priority Critical patent/JP5106608B2/ja
Priority to US13/053,976 priority patent/US9009051B2/en
Publication of JP2012073519A publication Critical patent/JP2012073519A/ja
Application granted granted Critical
Publication of JP5106608B2 publication Critical patent/JP5106608B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明の実施形態は、文書を読み上げる読み上げ支援装置、方法、およびプログラムに関する。
近年、書籍の電子化(電子書籍)の普及の伴い、電子書籍をPCや携帯端末、電子書籍専用端末により閲覧したり、コンテンツのテキストを音声合成システム(TTS:Text to Speech)により朗読された音声として聴くようになっている。朗読音声として聴く場合には、任意のテキストを発話させることができるため、コンテンツごとの朗読音声を用意することなく、手軽に朗読音声を得ることができる。但し、合成された音声出力には、語の読み誤りやアクセントの誤り、また音だけでは意味が分かりにくい言葉、または同音異義語が出現する可能性がある。そのため、ユーザは、再生が続けられている朗読音声に対して、一定時間戻る指示を与えたり、画面UI(User Interface)上で再生開始地点を指定することにより読み直しを行う必要がある。
しかしながら、音声読み上げ中の任意の位置から読み直しを行う場合には、読み直しの候補となる語が時系列と逆順に読み上げられるのを注意深く聞きながら、希望する開始位置を指定しなくてはならない。また、特定のタイプをもった文節区切りまたは韻律境界などを手掛かりとして、読み直しの候補となる語を限定した場合であっても、そこから再度読み上げられる出力音声は、予め登録されている類義語を除いて、一度読み上げられた内容と同じものである。そのため、聞き手にとっては、誤りや曖昧性をもった読み上げ内容を再度聞くことになり、文書に対する理解が損なわれたままとなる。
特開2003−140679号公報 特開2000−267687号公報
本開示は、上述の課題を解決するためになされたものであり、効率的な読み直しをおこなうことができる読み上げ支援装置、方法、およびプログラムを提供することを目的とする。
本実施形態に係る読み上げ支援装置は、指示受信部と、文書抽出部と、語句抽出部と、詳細属性取得部と、提示候補生成部と、候補提示部とを含む。指示受信部は、ユーザの指示を受け付け、指示信号を生成する。文書抽出部は、文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出する。語句抽出部は、前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を1以上の候補語として抽出する。詳細属性取得部は、前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得する。提示候補生成部は、前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成する。候補提示部は、前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示する。
本実施形態に係る読み上げ支援装置を示すブロック図。 部分文書抽出部における部分文書の一例を示す図。 語句抽出部の動作を示すフローチャート。 語句抽出部における形態素解析結果の一例を示す図。 語句抽出部における形態素解析結果の一例を示す図。 語句抽出部における形態素解析結果の一例を示す図。 語句抽出部において抽出される候補語情報の一例を示す図。 詳細属性取得部の動作を示すフローチャート。 候補語情報と対応する詳細属性の一例を示す図。 提示候補生成部の動作を示すフローチャート。 ノード表示された候補語の提示順序の一例を示す図。 ノード表示された候補語の提示順序の別例を示す図。 提示順序の一例を示す遷移図。 提示順序の具体例を示す遷移図。 本実施形態の変形例に係る読み上げ支援装置を示すブロック図。
以下、図面を参照しながら本実施形態に係る読み上げ支援装置、方法、およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(本実施形態)
本実施形態に係る読み上げ支援装置について図1のブロック図を参照して説明する。
本実施形態に係る読み上げ支援装置100は、ユーザ指示受信部101、部分文書抽出部102、語句抽出部103、詳細属性取得部104、提示候補生成部105、候補提示部106、音声合成部107、形態素解析辞書108、および用語辞書109を含む。なお、本実施形態では、外部から自動読み上げの対象となる文書(以下、入力文書という)の文字列を音声合成部107が音声として出力している状態(読み上げている状態)を仮定するが、外部の音声合成装置を支援する読み上げ支援装置であってもよい。
ユーザ指示受信部101は、ユーザからの指示を受け取り、指示信号を生成する。ユーザからの指示は、例えば、ある文書に対応する読み上げの音声が出力されている間に、ユーザが読み直しを指示する場合、または読み直しの開始位置となる語を指示する場合に入力される。また、語の変更、属性情報の変更、読み上げの音声の読みを修正する場合などにも入力される。また、ユーザ指示受信部101がユーザから指示を受け取る手法としては、例えば、ユーザがイヤホンに付属したリモコンボタンを押すことや、端末の特定のボタンを操作することが挙げられる。また、加速度センサ等が内蔵されている端末の場合は、端末を振ること、または画面等をタップすることが挙げられるが、これらに限定されるものではなく、ユーザ指示受信部101に指示があることを伝達できる方法であればよい。
部分文書抽出部102は、外部から自動読み上げの対象となる文書(以下、入力文書という)を、ユーザ指示受信部101から指示信号をそれぞれ受け取る。部分文書抽出部102は、指示信号を受け取った時点で読み上げられた語を含めた前後のある範囲で、入力文書の一部を部分文書として抽出する。部分文書については、図2を参照して後述する。
語句抽出部103は、部分文書抽出部102から部分文書を受け取り、形態素解析辞書108を参照して部分文書を形態素解析し、文書の読み直しの開始位置の対象となる品詞である語を候補語として抽出する。さらに、候補語と候補語を形態素解析した情報(以下、形態素解析情報という)とを対応付けた候補語情報を得る。語句抽出部103の動作については、図4および図5を参照して後述する。
詳細属性取得部104は、語句抽出部103から候補語情報を受け取り、形態素解析辞書108と用語辞書109とを参照して、候補語情報ごとに候補語に関する情報を示す属性情報を取得し、候補語情報と属性情報とを対応付けた詳細属性情報を得る。属性情報は、例えば候補語の他の読み候補や、同音異義語などである。詳細属性取得部104の動作については、図6および図7を参照して後述する。
提示候補生成部105は、詳細属性取得部104から詳細属性情報を受け取り、提示する候補語の順序を示す提示順序を生成する。提示候補生成部105の動作については図8から図10までを参照して後述する。
候補提示部106は、提示候補生成部105から提示順序と詳細属性情報とを受け取り、提示順序に従って候補語と候補語の属性情報とを提示する。また、候補提示部はユーザ指示受信部101から指示信号を受け取った場合に、別の候補語などを提示する。
音声合成部107は、外部から入力文書を受け取り、文書の文字列を音声として出力し、文書の読み上げを行う。また、音声合成部107は、候補提示部106から候補語と候補語の属性情報とを受け取り、音声情報に変換して外部に音声として出力する。
形態素解析辞書108は、形態素解析をおこなうためのデータを格納する。
用語辞書109は、例えば、データリポジトリであって、アクセス可能な状態にある国語辞書、技術用語辞書、オントロジ、または百科辞典的情報が格納されるが、これらに限定されない。
なお、形態素解析辞書108および用語辞書109は、それぞれ外部にある辞書を参照しネットワークを介してwebなどから適宜必要な情報を取得するようにしてもよいし、語句抽出部103および詳細属性取得部104がそれぞれ、形態素解析辞書108および用語辞書109を含んでもよい。
次に、部分文書抽出部102における部分文書の一例について図2を参照して説明する。
部分文書として抽出する対象は、ユーザが指示を入力した時点で読み上げていた語を含む文や、その読み上げていた語を含む文に先行する文、ある期間を設定しその期間内で読み上げられた文、またはそれらの組み合わせでもよい。さらに、文の途中でユーザから指示があった場合は、その一文の文末までといった、未だ読み上げていない部分を含めて部分文書としてもよい。図2の例では、ユーザからの指示があり、部分文書抽出部102がユーザ指示受信部101から指示信号を受け取った時点で読み上げられていた直前の2文を部分文書とする。なお、ここでは、図2に示す(A)の時点でユーザからの指示信号を受け取った場合を想定する。
次に、語句抽出部103の動作について図3のフローチャートを参照して説明する。
ステップS301では、部分文書抽出部102から部分文書を受け取り、部分文書に対して形態素解析をおこなう。
ステップS302では、形態素解析結果から、接尾語および非自立語を除外した名詞を候補語として抽出する。なお、本実施形態では、接尾語および非自立語を除いた名詞を抽出したが、これに限らず、形容詞または動詞を抽出してもよい。また、文字種に着目し、アルファベットによる単語、または数値表現が出現した場合に、それらを抽出してもよい。
ステップS303では、ステップS302で抽出された候補語と、対応する見出し表記、読み、名詞、属性(固有名詞)の情報、及び出現順序とをそれぞれ対応付けて候補語情報を得る。
ここで、形態素解析を実施した結果の一例について図4Aから図4Cまでに示す。
図4Aから図4Cまでは、図2に示す部分文書の形態素解析結果を示す。カラム401は、部分文書が品詞ごとに区切られた表層表現、カラム402が各品詞に対応付けられた形態素解析情報である。形態素解析情報としては、品詞名、読み、活用形などがある。なお、「*」は情報がないことを示す。
次に、ステップS302で抽出される候補語と形態素解析情報とについて図5を参照して説明する。
図4Aから図4Cまでの形態素解析結果のうち、カラム402の詳細情報に含まれる品詞名が「名詞」である品詞を候補語としてカラム401から抽出する。具体的には、図4Aでは、「湾岸」「雨脚」が、図4Bでは、「リア」「遮光」といった候補語が抽出される。また、抽出された候補語に対応する形態素解析情報も共に抽出され、候補語と形態素解析情報とを合わせて候補語情報として格納される。ID501は、部分文書の先頭から抽出された候補語の順番、つまり候補語の出現順序を示す。表記502は、図4のカラム401から抽出された候補語の表記である。形態素解析結果503は、名詞に対応する詳細情報である。ここでは、品詞名、名詞の種類、読みが格納されるが、これらに限らない。以上より、ID501と、表記502と、形態素解析結果503とがそれぞれ対応付けられて候補語情報504となる。
次に、詳細属性取得部104の動作について図6のフローチャートを参照して説明する。
ステップS601では、1つの候補語に関する候補語情報を受け取る。
ステップS602では、候補語について複数の読みが存在するかどうかを判定する。複数の読みが存在すれば、ステップS603へ進み、複数の読みが存在しない、つまり1つの読みしかない場合はステップS604へ進む。
ステップS603では、複数の読みのうち、読まれる可能性のある読みを優先度付きで保持する。優先度は、例えば値が小さいほど読まれる優先度が高いと設定すればよい。
ステップS604では、同音異義語が存在するかどうかを判定する。同音異義語が存在すればステップS605へ進み、同音異義語が存在しなければステップS606へ進む。
ステップS605では、存在する同音異義語の表記および読みを保持し、その同音異義語が複数の漢字から構成される場合は、各文字列に分解した情報についても保持する。
ステップS606では、ステップS601で受け取った名詞が人名、組織名、未知語、アルファベット、および略称のいずれかに該当するかどうかを判定する。名詞がこれらのいずれかに該当する場合はステップS607へ進み、いずれにも該当しない場合はステップS608へ進む。
ステップS607では、ステップS607に該当する場合の内容を取得して保持する。例えば、正式名称が「ABC株式会社」であり、候補語「ABC」が略称であった場合、その正式名称「ABC株式会社」を保持する。
ステップS608では、部分文書が含まれる文書に対して予めインデックス情報が作成されている場合は、インデックス情報を参照して、該当する候補語の見出しがあるかどうかを判定する。インデックス情報は、文書全体に対して、機械的な検索や閲覧する場合に参照する目的で予め作成されたインデックスを示す。該当する候補語の見出しがある場合はステップS609に進み、該当する候補語の見出しがない場合はステップS610へ進む。
ステップS609では、該当する候補語の見出しを保持する。
ステップS610では、候補語が外部にある用語辞書109のインデックスに見出しがあるかどうかを判定する。候補語の見出しがある場合は、ステップS611へ進み、候補語の見出しがない場合は、ステップS612へ進む。
ステップS611では、該当する候補語の見出しを保持する。
ステップS612では、形態素解析時の処理で連接コストが高い候補語が存在するかどうかを判定する。連接コストとは、単語間のつながりやすさを示す値である。例えば、一般的な文脈であれば、単語「姓」の後には単語「名」が続いた「姓名」とつながる確率が高く、逆に、単語「名」の後に単語「姓」が続いた「名姓」とつながる確率は低いので、「姓」「名」の連接コストは高くなる。このような連接コストが高い語が存在する場合は、ステップS613へ進み、連接コストが高い語が存在しない場合は、ステップS614へ進む。なお、連接コストは形態素解析辞書108から受け取ってもよいし、語句抽出部103において形態素解析したときに得た連接コストを語句抽出部103から受け取ってもよい。
ステップS613では、候補語に対して、他の連接パターン、すなわち他の品詞の区切り位置を保持する。ここでは、全ての連接パターンを保持することが望ましい。
ステップS614では、語句抽出部103で抽出された全ての候補語に対して処理が行われたかどうかを判定する。全ての候補語に対して処理が行われた場合は、ステップS615へ進む。全ての候補語に対し処理が行われていない場合は、ステップS601に戻り、次の候補語に対して上述した処理を同様におこなう。
ステップS615では、候補語情報と上述のステップにより保持した属性情報とを対応付けて詳細属性情報を得る。以上で詳細属性取得部104の動作を終了する。
次に、詳細属性取得部104から出力される詳細属性情報の一例について図7を参照して説明する。
第3カラムまでが語句抽出部103からの候補語情報であり、第4カラム以降の連接コスト701、他の読み702、異義語703、内部索引または内部辞書704、および外部辞書705といった要素を合わせた情報が属性情報706である。これら候補語情報504と属性情報706とを合わせたものが詳細属性情報707となる。例えばID501(8)の語では、形態素解析の結果、固有名詞で読みは「サエグサ」が得られているが、属性情報を取得した結果、他の読み候補として「ミエ」や「サンシ」などが保持されていることを示している。
また、ID501(5)(6)の語は、それぞれ形態素解析の結果、読みとして「クルマ」、「コーチョー」が得られているが、これらの連節コストが高い場合は、それぞれマーク付けされる。
次に、提示候補生成部105の動作について図8のフローチャートを参照して説明する。
ステップS801では、候補語を1つ抽出する。なお、ここでは、図7に示すID501が大きい順に抽出する。すなわち、文書の読み直しの指示信号を受け取った時点に近い候補語から遡って抽出する。
ステップS802では、抽出した候補語に対して属性情報が保持されているかどうかを判定する。属性情報が保持されていない場合は、ステップS805へ進み、属性情報が保持されている場合は、ステップS803へ進む。
ステップS803では、保持されている属性情報に応じて重み付けを行い、ノードを生成する。
ステップS804では、属性情報の取得結果に応じて、ステップS803において重み付けした値を補正する。なお、ステップS803とステップS804とにおけるノードに対する重み付けは、以下の式(1)を用いて算出することができる。
Figure 0005106608
ここで、ノードをnとすると、W(n)はノードnの重み付け値、d(n)はユーザの指示が発生した語の位置からノードnまでの文字数を表し、以下ではこの文字数を距離と呼ぶ。また、kは属性情報の全種別数(全要素数)であり、Wは属性情報の各要素に対応付けられた重み係数であり、Oは属性情報の各要素の出現数を、ノードnに出現した全要素数(要素を区別せずにノードnで枚挙されているすべての候補の数)で割った値である。なお、ここでの重み付けは、各ノードとなる候補語の品詞情報や、属性情報の要素の取得数などに固定的に係数を持たせておく手法を用いるが、これに限らず、過去にユーザが選択しやすい情報をモデルとして蓄積しておき、入力に対する重み付けをそのモデルを参照しておこなう方法などでもよい。
ステップS805では、候補語と、その属性情報の取得結果に応じて、属性情報の種類との間にリンクを張る。
ステップS806では、各候補語のノードの重みと、候補語ノードごとの距離を考慮して基点からリンクを張る。ノード間の重み付けは、以下の式(2)を用いて算出すればよい。
Figure 0005106608
ここで、s(p,q)は、ノードpとノードqとの間の重み付けを示し、W(p)、W(q)は、ノードpおよびノードqのそれぞれの重み付けを示し、d(p)、d(q)は、ノードpおよびノードqのそれぞれの距離を示す。一般的には、距離が近いほど、重み付けが大きくなる。
ステップS807では、全ての候補語に対して処理を行ったかどうかを判定する。全ての候補語に対して処理を行っていない場合は、ステップS801へ戻り、同様の処理を繰り返す。全ての候補語に対して処理を行った場合は、提示候補生成部105における処理を終了する。
次に、提示候補生成部105の処理結果の一例について図9および図10を参照して説明する。
ユーザからの指示が発生した時点を起点ノードとして、候補語へリンクが張られている様子を示す。また各単語からは、各単語に関する属性情報へのリンクが張られている。
図9の例では、実線で記載されたID(14),(13),(8)へのリンクの重み付けは、重み付けが大きいほど、それ以外の点線で記されたリンクと比較して重要度が高いことを示す。この重み付けの重要度によって、文書の読み直し時における提示順序が決定される。
また、ID(6),(5)に対しては、他の連接可能性があることから、異なる種類(ここでは、一点鎖線)のリンクで示す。なお、ID(6),(5)に関しては、現在の[車/高調]という品詞区切りのほか、[車高調]という区切りなしが存在するとした場合は、属性情報「他の連接候補」として保持してもよい。
また、提示候補生成部105の別の処理結果を図10に示す。図10の例では、属性情報へのリンクがあれば各属性情報を説明し、属性情報へのリンクがなければ属性情報については説明しない。図7の詳細属性情報に示すように、「リア」および「モニタ」は、属性情報を有さないため、属性情報へのリンクがない。
次に、候補提示部106における単語の提示順序の一例を図11に示す。
ステップS1101では、ユーザの指示が発生する。なお、以下では、図2に示す(B)の位置、つまり「は」という語を読み上げ終わった位置でユーザの指示が発生した場合を想定する。
ステップS1102では、候補語の他の読み候補を重み付けが大きい、すなわち重要度が高い候補から順に提示する。例えば「サエグサ、ミエ、サンシ」などである。なお、候補語の他の読み候補は、自動的に高い読み候補から提示されてもよいし、ユーザの選択によって提示されてもよい。例えば、他の読み候補が提示されたときに、ユーザからの指示(第1指示)があれば次の読み候補を提示するようにすればよい。ユーザからの指示がなければ、現在提示されている読み候補をユーザが確定したとして、ステップS1109に遷移し、文書の読み上げを継続する。また、他の読み候補を提示しているときに、次の読み候補を提示させる指示とは異なる指示(第2指示)を与えることで候補語の切り替え(ステップS1103)、または対象語の辞書引き(ステップS1105)に推移する。
ステップS1103では、候補語の切り替えをおこなう。例えば、「航跡」「ACARS」「湾岸」などである。また、ユーザが第2指示を与えることにより、他の連接候補(ステップS1104)を提示してもよいし、候補語の辞書引き(ステップS1105)を提示してもよい。
ステップS1104では、他の連接候補を提示する。
ステップS1105では、候補語の辞書引きを提示するため、ステップS1106またはステップS1107に遷移する。
ステップS1106では、文書内インデックスから取得した属性情報の要素である、文書内の説明文、文書内の略語辞書、文書内の人名定義などを提示する。
ステップS1107では、文書外インデックスから取得した属性情報の要素である、文書外の説明文、外部の辞書などを提示する。
また、ステップS1102において、ユーザからさらに第2指示とは異なる第3指示を受け取った場合に、ステップ1108に推移する。ここでの異なるユーザ指示とは、たとえば第2指示がイヤホンリモコンのボタンを一回押し下げることに対して、第3指示が2回連続で押し下げることを示す。同様に、第2指示が読み上げ端末を1度振ることであれば、第3指示が端末を2回振る、といった指示の違いを示す。
ステップS1108では、文書構造に基づく区切りを提示する。また、ステップS1108では、第2指示を受け取った場合またはユーザアクションが無く一定時間経った場合に、読み上げを継続する(ステップS1109)。
また、候補語を切り替えた場合に、詳細候補情報が存在していれば同じ語句の次の候補を提示する、存在していなければ他の候補語の属性情報を提示するといった切り替えを自動でおこなってもよい。また、候補語が存在しなかった場合には、抽出された部分文書の先頭に戻って読み直したり、前段落または前文に戻ったり、または経過時間のうちある一定の固定時間だけ戻る操作ができるようにしてもよい。
次に、本実施形態に係る読み上げ支援装置100の動作の具体例について図12を参照して説明する。
ステップS1201では、ユーザから指示が発生する。ここでは文書中の「航跡」(読み:コーセキ)が候補語とする。
ステップS1202では、他の読みを提示することの重み付けが低い場合として、「航跡」の意味「航空機の飛んだ航程」を提示する。出力された意味によりユーザが理解すれば、操作をせずに待機するか、規定の操作を行うことにより、ステップS1206に遷移して読み上げが継続される。一方、「航跡」の意味を提示中に、ユーザが第3指示(2度押し、または2回端末を振るなど)をおこなった場合に、ステップS1203へ遷移する。
ステップS1203では、同じ語句「航跡」に関する他の情報として、漢字を分けた場合での読み「わたる/あと」を提示する。
ステップS1204では、ステップS1203において同様に、ユーザが第3指示をおこなった場合に次の語句、「ACARS」が提示される。アルファベットの場合は、それぞれの言語に応じた読みを出力するか、それぞれのスペルの読みを出力することで、読みが誤っていてもユーザに正しい情報を伝えることを支援することができる。ここでは、「エー・カーズ」または「エー・シー・エー・アール・エス」と音声出力する。また、ユーザの指示が無い場合はステップS1206に遷移して、読み上げを継続する。第3指示があった場合は次の語句に遡って、ステップS1205へ遷移する。
ステップS1205では、「三枝」に対する読みが複数付与されており、「ミエ」「サエグサ」「サンシ」の候補を順に提示し、読み上げた「サエグサ」だとコンテンツの文脈からユーザにとって意味が分からない場合、第1指示を与えて他の読み候補を出す。提示された候補に対してユーザが納得すれば、この読み候補を確定したものとして、ステップS1206へ遷移して読み上げを継続する。具体的には、例えば「サエグサ」ではなく、ユーザが「ミエ」であると判断した場合には、指示をせずに一定期間経過後、読み上げが継続される。なお、この場合、文書の以降の読み上げにおいて「三枝」が出現した場合に、読みとして「ミエ」が読み上げられるように、読みの優先度を変更してもよい。さらに、これらの指示(アクション)と提示する候補語の対応は固定ではなく、ユーザがそれらの対応を自由にカスタマイズしたり、特定の候補語が存在する場合には優先的に出力したり、逆に特定の候補語に関しては出力しないようにしてもよい。
以上に示した本実施形態によれば、品詞に基づいて読み直しの対象となる候補語を選択することで、読み直し位置の自由度を高めることができる。さらに、その際に必要な情報が補完された状態で候補語および候補語に関する属性情報を提示することで、ユーザは候補語を選択するか聞き流すという簡単なアクションにより、一定期間読み上げ位置を遡るような単純な読み直し以上に、情報を拡充した文書の読み直しが可能となり、ユーザの理解を支援することができる。
(本実施形態の変形例)
本変形例では、文書のコンテンツおよび種類に応じた候補語の提示順序と候補語に関する属性情報とを対応付けたモデルを参照することにより、提示順序と提示する属性情報とを変更する点が本実施形態と異なる。
本実施形態の変形例に係る読み上げ支援装置について図13のブロック図を参照して説明する。
本実施形態の変形例に係る読み上げ支援装置1300は、ユーザ指示受信部101、部分文書抽出部102、語句抽出部103、詳細属性取得部104、提示候補生成部1303、候補提示部106、音声合成部107、形態素解析辞書108、用語辞書109、提示用モデル1301、および文書判定部1302を含む。
ユーザ指示受信部101、部分文書抽出部102、語句抽出部103、詳細属性取得部104、候補提示部106、音声合成部107、形態素解析辞書108、および用語辞書109については、本実施形態と同様の動作を行うため、ここでの説明は省略する。
提示用モデル1301は、個別のユーザプロファイルが格納され、さらに語句の一般的に用いられる提示順序と重み付けとが定義されたモデルが格納される。なお、文書の種類に応じた候補語の提示順序と候補語に関する属性情報とを対応付けたモデルをそれぞれ格納してもよい。例えば、文書のコンテンツがスポーツに関するものであれば、提示順序に示される候補語のうち、スポーツに関する用語から順に提示されるように重み付けを決定する。さらにこの候補語(スポーツに関する用語)の属性情報として、読みや異義語よりも外部辞書を参照したチーム情報といった属性情報の要素が優先して提示されるように重み付けを決定したモデルであってもよい。
文書判定部1302は、後述の提示候補生成部1303から詳細属性情報を受け取り、詳細属性情報から読み上げ中の文書のコンテンツおよび種類の判定結果を提示する。なお、図示しないが、入力文書を直接受け取り、入力文書に関連付けられているジャンルなどの情報を参照することにより、文書のコンテンツおよび種類を判定してもよい。
提示候補生成部1303は、本実施形態に係る提示候補生成部105とほぼ同様の動作をおこない、詳細属性取得部104から詳細属性情報を、文書判定部1302から判定結果を、提示用モデル1301からモデルをそれぞれ受け取る。その後、判定結果に応じたモデルを参照して、提示順序および属性情報の要素に関する重み付けを変更することで、提示順序と属性情報の要素が提示される順番を変更する。
以上に示した本実施形態の変形例によれば、文書のコンテンツおよび種類に応じて提示順序および属性情報の要素の重み付けを変更することで、文書に適した候補語と対応する属性情報とをユーザに提示することができ、よりユーザの理解を支援する読み直しをおこなうことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した読み上げ支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の読み上げ支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,1300・・・読み上げ支援装置、101・・・ユーザ指示受信部、102・・・部分文書抽出部、103・・・語句抽出部、104・・・詳細属性取得部、105,1303・・・提示候補生成部、106・・・候補提示部、107・・・音声合成部、108・・・形態素解析辞書、109・・・用語辞書、401,402・・・カラム、501・・・ID、502・・・表記、503・・・形態素解析結果、504・・・候補語情報、701・・・連接コスト、702・・・他の読み、703・・・異義語、704・・・内部索引または内部辞書、705・・・外部辞書、706・・・属性情報、707・・・詳細属性情報、1301・・・提示用モデル、1302・・・文書判定部。

Claims (8)

  1. 文書の文字列を音声として読み上げる音声合成装置を支援する読み上げ支援装置であって、
    ユーザの指示を受け付け、指示信号を生成する指示受信部と、
    前記文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出する文書抽出部と、
    前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を1以上の候補語として抽出する語句抽出部と、
    前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得する詳細属性取得部と、
    前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成する提示候補生成部と、
    前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示する候補提示部と、を具備することを特徴とする読み上げ支援装置。
  2. 前記詳細属性取得部は、前記属性情報の要素として、前記候補語の複数の読み候補と、該候補語の同音異義語と、および内部文書と外部文書との少なくとも1つから該候補語の人名または該候補語の正式名称とを取得することを特徴とする請求項1に記載の読み上げ支援装置。
  3. 前記提示候補生成部は、ユーザによる前記読み候補の選択結果に応じて、文書読み上げ時の前記候補語の読みの優先度を変更することを特徴とする請求項1に記載の読み上げ支援装置。
  4. 前記候補提示部は、前記候補語を提示中にユーザから第1指示があった場合は、該候補語の次の読み候補を提示し、ユーザから第2指示があった場合は、別の候補語を提示し、ユーザから第3指示があった場合は、提示中の前記候補語の属性情報の要素とは別の要素を提示することを特徴とする請求項2に記載の読み上げ支援装置。
  5. 文書の種類を判定して判定結果を得る文書判定部と、をさらに具備し、
    前記提示候補生成部は、前記判定結果と、文書の種類に応じた候補語の提示順序と該候補語の属性情報とを対応付けたモデルとを参照して、前記提示順序と候補語の属性情報の要素が提示される順番を変更することを特徴とする請求項1に記載の読み上げ支援装置。
  6. 前記提示候補生成部は、属性情報の要素を取得した数と、該要素ごとの重み係数とを用いて候補語ごとの重み付けをさらにおこない、候補語の前記距離が近いほど該候補語の重み付けを大きくすることを特徴とする請求項1に記載の読み上げ支援装置。
  7. 文書の文字列を音声として読み上げる音声合成装置を支援する読み上げ支援方法であって、
    ユーザの指示を受け付け、指示信号を生成し、
    前記文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出し、
    前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を1以上の候補語として抽出し、
    前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得し、
    前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成し、
    前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示することを具備することを特徴とする読み上げ支援方法。
  8. 文書の文字列を音声として読み上げる音声合成装置を支援する読み上げ支援プログラムであって、
    コンピュータを、
    ユーザの指示を受け付け、指示信号を生成する指示受信手段と、
    前記文書の読み上げ時に前記指示信号を受け取った場合、該指示信号を受け取った時に読み上げられていた語を含んだ前後のある範囲である前記文書の一部を、部分文書として抽出する文書抽出手段と、
    前記部分文書に含まれる文を形態素解析し、前記部分文書から、文書の読み直しの開始位置の対象となる品詞である語を1以上の候補語として抽出する語句抽出手段と、
    前記候補語に関する、読み候補を含む情報を示す属性情報を候補語ごとに取得する詳細属性取得手段と、
    前記候補語から前記読み上げられていた語までの文字数を示す距離に対応する値を含む重み付けをおこない、該重み付けに対応して優先して提示する候補語を判定し提示順序を生成する提示候補生成手段と、
    前記提示順序に応じて、前記候補語と該候補語に対応する属性情報とを提示する候補提示手段として機能させるための読み上げ支援プログラム。
JP2010219777A 2010-09-29 2010-09-29 読み上げ支援装置、方法、およびプログラム Expired - Fee Related JP5106608B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010219777A JP5106608B2 (ja) 2010-09-29 2010-09-29 読み上げ支援装置、方法、およびプログラム
US13/053,976 US9009051B2 (en) 2010-09-29 2011-03-22 Apparatus, method, and program for reading aloud documents based upon a calculated word presentation order

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010219777A JP5106608B2 (ja) 2010-09-29 2010-09-29 読み上げ支援装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012073519A JP2012073519A (ja) 2012-04-12
JP5106608B2 true JP5106608B2 (ja) 2012-12-26

Family

ID=45871529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010219777A Expired - Fee Related JP5106608B2 (ja) 2010-09-29 2010-09-29 読み上げ支援装置、方法、およびプログラム

Country Status (2)

Country Link
US (1) US9009051B2 (ja)
JP (1) JP5106608B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198277A (ja) 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9075872B2 (en) * 2012-04-25 2015-07-07 International Business Machines Corporation Content-based navigation for electronic devices
JP5863598B2 (ja) * 2012-08-20 2016-02-16 株式会社東芝 音声合成装置、方法およびプログラム
JP6172491B2 (ja) * 2012-08-27 2017-08-02 株式会社アニモ テキスト整形プログラム、方法及び装置
JP2014240884A (ja) 2013-06-11 2014-12-25 株式会社東芝 コンテンツ作成支援装置、方法およびプログラム
WO2015040743A1 (ja) 2013-09-20 2015-03-26 株式会社東芝 アノテーション共有方法、アノテーション共有装置及びアノテーション共有プログラム
JP6336749B2 (ja) * 2013-12-18 2018-06-06 株式会社日立超エル・エス・アイ・システムズ 音声合成システム及び音声合成方法
JP6289950B2 (ja) 2014-03-19 2018-03-07 株式会社東芝 読み上げ装置、読み上げ方法及びプログラム
JP7541733B2 (ja) 2021-01-12 2024-08-29 国立研究開発法人農業・食品産業技術総合研究機構 計測システム、計測方法、計測用プログラムおよび計測装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH045695A (ja) * 1990-04-23 1992-01-09 Oki Electric Ind Co Ltd 規則合成装置
JPH04177526A (ja) * 1990-11-09 1992-06-24 Hitachi Ltd 文章読み上げ装置
JPH05197384A (ja) * 1992-01-23 1993-08-06 Nippon Telegr & Teleph Corp <Ntt> 音声読み上げ装置
US6384743B1 (en) * 1999-06-14 2002-05-07 Wisconsin Alumni Research Foundation Touch screen for the vision-impaired
JP2905465B2 (ja) 1997-09-04 1999-06-14 協全商事株式会社 きのこ培基撹拌装置
JP2000267687A (ja) * 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
JP3655808B2 (ja) * 2000-05-23 2005-06-02 シャープ株式会社 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2001341143A (ja) 2000-06-05 2001-12-11 Ist:Kk 複合管状物及びその製造方法
JP2003140679A (ja) 2001-11-06 2003-05-16 Mitsubishi Electric Corp 音声合成装置及び方法、並びに音声合成処理をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
CN1452102A (zh) * 2002-04-19 2003-10-29 英业达股份有限公司 不完全提示造句系统及其方法
US20060190260A1 (en) * 2005-02-24 2006-08-24 Nokia Corporation Selecting an order of elements for a speech synthesis
WO2007034478A2 (en) * 2005-09-20 2007-03-29 Gadi Rechlis System and method for correcting speech
JP2008083856A (ja) 2006-09-26 2008-04-10 Toshiba Corp 情報処理装置、情報処理方法及び情報処理プログラム
WO2008073850A2 (en) * 2006-12-08 2008-06-19 Sri International Method and apparatus for reading education
JP4810469B2 (ja) 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
JP4406440B2 (ja) * 2007-03-29 2010-01-27 株式会社東芝 音声合成装置、音声合成方法及びプログラム
US20090313020A1 (en) * 2008-06-12 2009-12-17 Nokia Corporation Text-to-speech user interface control
US20110264452A1 (en) * 2010-04-27 2011-10-27 Ramya Venkataramu Audio output of text data using speech control commands

Also Published As

Publication number Publication date
US20120078633A1 (en) 2012-03-29
JP2012073519A (ja) 2012-04-12
US9009051B2 (en) 2015-04-14

Similar Documents

Publication Publication Date Title
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
JP3920812B2 (ja) コミュニケーション支援装置、支援方法、及び支援プログラム
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
JP2007094086A (ja) 入力装置、入力方法および入力プログラム
JP2013072957A (ja) 文書読み上げ支援装置、方法及びプログラム
JP2000137596A (ja) 対話型音声応答システム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
JP2002197118A (ja) 情報アクセス方法、情報アクセスシステムおよび記録媒体
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2007206796A (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP2015099290A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2003099089A (ja) 音声認識・合成装置および方法
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP2004294577A (ja) 文字情報音声変換方法
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

R151 Written notification of patent or utility model registration

Ref document number: 5106608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees