JP2014202848A - テキスト生成装置、方法、及びプログラム - Google Patents
テキスト生成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014202848A JP2014202848A JP2013077576A JP2013077576A JP2014202848A JP 2014202848 A JP2014202848 A JP 2014202848A JP 2013077576 A JP2013077576 A JP 2013077576A JP 2013077576 A JP2013077576 A JP 2013077576A JP 2014202848 A JP2014202848 A JP 2014202848A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- transcription
- unit
- recognition
- recognized character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013518 transcription Methods 0.000 claims description 186
- 230000035897 transcription Effects 0.000 claims description 186
- 238000003780 insertion Methods 0.000 claims description 50
- 230000037431 insertion Effects 0.000 claims description 50
- 230000001186 cumulative effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 244000205754 Colocasia esculenta Species 0.000 description 1
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 240000006829 Ficus sundaica Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Description
<概略>
本実施形態に係るテキスト生成装置が有する機能(以下「テキスト生成機能」という)について説明する。本実施形態に係るテキスト生成装置は、音声認識結果に基づき算出した認識文字列の信頼度と、書き起こし精度に関するパラメータとに基づき、書き起こし文として用いる認識文字列を選択する。又は、本実施形態に係るテキスト生成装置は、音声認識結果に基づき算出した認識文字列の信頼度と、書き起こしに要する作業量に関するパラメータとに基づき、書き起こし文として用いる認識文字列を選択する。その結果、本実施形態に係るテキスト生成装置は、選択した認識文字列から書き起こし文を生成する。これにより、本実施形態に係るテキスト生成装置では、適度な音声認識結果を利用した書き起こし作業が可能となる。本実施形態に係るテキスト生成装置では、このようなテキスト生成機能を有する。
図2は、本実施形態に係るテキスト生成装置の機能構成例を示す図である。図2に示すように、本実施形態に係るテキスト生成装置100は、取得部11、認識部12、選択部13、生成部14、設定部15、探索部16、再生部17、及び認識結果保持部18などを有する。
《処理》
図3は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図3に示すように、取得部11は、音声を取得する(ステップS101)。次に認識部12は、取得部11で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する(ステップS102)。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部18に記憶される。
ここからは、上記各機能部の詳細について説明する。
(取得部11)
取得部11は、文字へと書き起こす対象となる音声を取得する。
認識部12は、取得部11で取得された音声を認識して、少なくとも、認識単位ごとの認識文字列と認識文字列の信頼度とを認識結果として得る。
選択部13は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。
書き起こし精度wp = N×(対象文字列wの信頼度/信頼度の最高値) ・・・ (式1)
書き起こしに要する作業時間t = α×(対象文字列wの文字数) ・・・ (式2)
なお、αには、例えば、1文字を書き起こすのにかかる平均時間を用いる。
書き起こしに要する作業時間t = β×(対象文字列wの終端時刻―対象文字列wの始端時刻) ・・・ (式3)
なお、βには、例えば、1形態素(1つの認識単位)を書き起こすのにかかる平均時間を用いる。
書き起こしに要する作業コストc = γ×(対象文字列wの文字数) ・・・ (式4)
なお、γには、例えば、1文字を書き起こすのにかかる平均コストを用いる。
書き起こしに要する作業コストc = ζ×(対象文字列wの終端時刻―対象文字列wの始端時刻) ・・・ (式5)
なお、ζには、例えば、1形態素(1つの認識単位)を書き起こすのにかかる平均コストを用いる。
生成部14は、選択部13において、選択された認識文字列と選択されなかった認識文字列とを用いて、書き起こし文を生成する。
設定部15は、生成部14で生成された書き起こし文kの非選択要素nsに基づき、文字挿入位置(文字入力の開始位置)を設定する。このとき設定部15は、検出した現在の文字挿入位置と、書き起こし文内において、選択部13で選択された認識文字列に相当する選択要素と選択部13で選択されなかった認識文字列に相当する非選択要素との位置関係とに基づき、文字挿入位置を設定する。
次に設定部15は、書き起こし文内の現在の文字挿入位置cpを検出する(ステップS602)。なお、現在の文字挿入位置cpは、書き起こし文内の文字列における現在の文字挿入位置cpである。例えば、書き起こし文が表示される画面上では、カーソル位置(例えば「縦棒が点滅する位置」)に相当する。
探索部16は、文字挿入位置cpにおいて、作業者Uによる文字入力が開始された場合に、入力文字に対応する音声位置を探索する。
再生部17は、探索部16で探索された音声位置pから音声を再生する。
以上のように、本実施形態に係るテキスト生成装置100によれば、音声認識結果に基づき算出した認識文字列の信頼度と、作業者Uが指定した書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ)とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。
<概略>
本実施形態に係るテキスト生成装置が有する機能(テキスト生成機能)について説明する。本実施形態に係るテキスト生成装置は、認識部で得られた認識結果を、文単位、又は、時間単位で結合し、結合した結果を、書き起こし文に用いる点で、上記実施形態と異なる。より具体的には、本実施形態に係るテキスト生成装置は、認識文字列の文末表現に基づき、認識結果を文単位に結合した結果を書き起こし文に用いる。又は、本実施形態に係るテキスト生成装置は、認識文字列の始端時刻と終端時刻とに基づき、認識結果を所定の時間単位に結合した結果を、書き起こし文に用いる。
図19は、本実施形態に係るテキスト生成装置100の機能構成例を示す図である。図19に示すように、本実施形態に係るテキスト生成装置100は、第1の実施形態の機能構成に対して、結合部21及び認識結合結果保持部22などを、さらに有する。
《処理》
図20は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図20に示すように、取得部11は、音声を取得する(ステップS801)。次に認識部12は、取得部11で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する(ステップS802)。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部18に記憶される。
ここからは、主に結合部21と選択部13の詳細について説明する。
(結合部21)
結合部21は、認識文字列の文末表現に基づき、認識結果を文単位に結合し、認識結合結果を得る。又は、結合部21は、認識文字列の始端時刻と終端時刻とに基づき、認識結果を所定の時間単位に結合し、結合した文字列(結合後の認識文字列)と結合結果の信頼度とを含む認識結合結果を得る。
結合部21は、対象認識結果rの認識文字列が文末か否かの判定結果に基づき、結合を完了するか否かを判定する。この場合、結合部21は、対象認識結果rの認識文字列が文末である場合、結合を完了すると判定する(ステップS904:Yes)。一方、結合部21は、対象認識結果rの認識文字列が文末でない場合、結合を完了しないと判定する(ステップS904:No)。なお、文末の判定方法には、例えば、「。」(句点)、「.」(ピリオド)、又は「?」(疑問符)などの文の終わりを表す文字又は記号が、認識文字列に含まれているか否かにより判定する方法などがある。また、これらの文字又は記号が含まれていない場合には、例えば、「です」や「ます」などの所定の文末表現が認識文字列に含まれているか否かにより判定してもよい。
結合部21は、認識結果として得られた認識文字列の始端時刻と終端時刻とに基づき、結合を完了するか否かを判定する。この場合、結合部21は、対象認識結果rに相当する認識文字列の始端時刻から、対象認識結果rのひとつ前に一時結合結果crに追加された認識結果に相当する認識文字列の終端時刻までの経過時間が、所定の時間以上の場合、結合を完了すると判定する(ステップS904:Yes)。一方、結合部21は、経過時間が、所定の時間未満の場合、結合を完了しないと判定する(ステップS904:No)。なお、結合部21は、対象認識結果rの始端時刻から、一時結合結果crに追加された最初の認識結果に相当する認識文字列の始端時刻までの経過時間が、所定の時間以上の場合、結合を完了すると判定してもよい。
選択部13は、書き起こし精度に関するパラメータと認識結合結果の信頼度(結合後の認識文字列の信頼度)、又は、書き起こしに要する作業量に関するパラメータと認識結合結果の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。
以上のように、本実施形態に係るテキスト生成装置100によれば、文単位、又は、所定の時間単位ごとに結合した認識文字列の信頼度と、作業者Uが指定した書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ)とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。
本実施形態に係るテキスト生成装置が有する機能(テキスト生成機能)について説明する。本実施形態に係るテキスト生成装置は、発話者、又は、発話区間ごとに、認識文字列の信頼度と書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、又は、書き起こしに要する作業量)とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する点で、上記実施形態と異なる。
図22は、本実施形態に係るテキスト生成装置100の機能構成例を示す図である。図22に示すように、本実施形態に係るテキスト生成装置100は、第1の実施形態の機能構成に対して、発話区間情報生成部31及び発話区間情報保持部32などを、さらに有する。
《処理》
図23は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図23に示すように、取得部11は、音声を取得する(ステップS1001)。次に認識部12は、取得部11で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する(ステップS1002)。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部18に記憶される。
ここからは、主に発話区間情報生成部31と選択部13の詳細について説明する。
(発話区間情報生成部31)
発話区間情報生成部31は、次のような方法で発話者と発話区間とを特定し、発話区間情報を生成する。例えば、発話区間情報生成部31は、音声を聞きながら各発話の発話者と発話開始時刻とを特定した作業者Uからの特定結果を受け付け、受け付けた特定結果から発話区間情報を生成する。また、発話区間情報生成部31は、音響的特徴量に基づく話者認識技術を用いて、発話者と発話区間とを推定し、推定した結果から発話区間情報を生成してもよい。
選択部13は、発話区間情報生成部31で生成された発話区間情報D3に基づき、発話者、又は、発話区間ごとに、認識文字列の信頼度と書き起こし作業の作業条件に関する各種パラメータとに基づき、音声から認識した認識文字列を選択する。より具体的には、選択部13は、発話者、又は、発話区間ごとに、書き起こし精度に関するパラメータと認識文字列の信頼度とに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。また、選択部13は、発話者、又は、発話区間ごとに、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度とに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。
以上のように、本実施形態に係るテキスト生成装置100によれば、発話者、又は、発話区間ごとに、作業者Uが指定した書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ)と、認識文字列の信頼度とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。
図27は、上記実施形態に係るテキスト生成装置100の構成例を示す図である。図27に示すように、実施形態に係るテキスト生成装置100は、CPU(Central Processing Unit)101、及び主記憶装置102などを備える。また、テキスト生成装置100は、補助記憶装置103、通信IF(interface)104、外部IF105、及びドライブ装置107などを備える。テキスト生成装置100は、各デバイスがバスBを介して相互に接続される。このように、実施形態に係るテキスト生成装置100は、一般的な情報処理装置に相当する。
12 認識部
13 選択部
14 生成部
15 設定部
16 探索部
17 再生部
18 認識結果保持部
21 結合部
22 認識結合結果保持部
31 発話区間情報生成部
32 発話区間情報保持部
100 テキスト生成装置
Claims (19)
- 取得した音声を認識し、認識単位ごとの認識文字列と前記認識文字列の信頼度とを得る認識部と、
書き起こし精度のパラメータ、及び、書き起こしに要する作業量のパラメータの、少なくとも一方の前記パラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する選択部と、
選択された前記認識文字列を用いて、前記書き起こし文を生成する生成部と、
を備えるテキスト生成装置。 - 前記選択部は、
前記書き起こし精度のパラメータと前記認識文字列の信頼度、及び、前記書き起こしに要する作業量のパラメータと前記認識文字列の信頼度の、少なくとも一方の前記パラメータと前記認識文字列の信頼度との組み合わせに基づき、前記認識文字列を選択する、
請求項1に記載のテキスト生成装置。 - 前記選択部は、
前記認識文字列の信頼度に基づき、前記書き起こし精度を算出し、算出した前記書き起こし精度と、前記書き起こし精度の許容値とを比較し、前記書き起こし精度が前記許容値以上の場合に、前記認識文字列を選択する、
請求項2に記載のテキスト生成装置。 - 前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業時間を用い、
前記認識文字列の文字数に基づき、前記書き起こし作業時間を算出し、算出した前記書き起こし作業時間を前記認識文字列の信頼度の降順に累積した累積作業時間と、前記書き起こし作業時間の許容値とを比較し、前記累積作業時間が前記許容値以下の場合に、前記認識文字列を選択する、
請求項2に記載のテキスト生成装置。 - 前記認識部は、
前記認識文字列の始端時刻と終端時刻とを、さらに得て、
前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業時間を用い、
前記認識文字列の始端時刻と終端時刻とに基づき、前記書き起こし作業時間を算出し、算出した前記書き起こし作業時間を前記認識文字列の信頼度の降順に累積した累積作業時間と、前記書き起こし作業時間の許容値とを比較し、前記累積作業時間が前記許容値以下の場合に、前記認識文字列を選択する、
請求項2に記載のテキスト生成装置。 - 前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業コストを用い、
前記認識文字列の文字数に基づき、前記書き起こし作業時間を算出し、算出した前記書き起こし作業時間と、単位時間あたりの作業コストとに基づき、前記書き起こし作業コストを算出し、算出した前記書き起こし作業コストを前記認識文字列の信頼度の降順に累積した累積作業コストと、前記書き起こし作業コストの許容値とを比較し、前記累積作業コストが前記許容値以下の場合に、前記認識文字列を選択する、
請求項2に記載のテキスト生成装置。 - 前記認識部は、
前記認識文字列の始端時刻と終端時刻とを、さらに得て、
前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業コストを用い、
前記認識文字列の始端時刻と終端時刻に基づき、前記書き起こし作業時間を算出し、算出した前記書き起こし作業時間と、単位時間あたりの作業コストとに基づき、前記書き起こし作業コストを算出し、算出した前記書き起こし作業コストを前記認識文字列の信頼度の降順に累積した累積作業コストと、前記書き起こし作業コストの許容値とを比較し、前記累積作業コストが前記許容値以下の場合に、前記認識文字列を選択する、
請求項2に記載のテキスト生成装置。 - 前記生成部は、
前記選択部で選択されなかった前記認識文字列のうち、前記認識文字列の信頼度の高い第N候補(Nは1以上の整数)までの前記認識文字列を、作業者が選択可能な状態で表示される前記書き起こし文を生成する、
請求項2に記載のテキスト生成装置。 - 前記選択部で選択されなかった前記認識文字列に対応する前記書き起こし文の位置において、作業者による文字入力の開始位置に相当する文字挿入位置を設定する設定部を、さらに備え、
前記設定部は、
検出した現在の前記文字挿入位置と、前記書き起こし文内において、前記選択部で選択された前記認識文字列に相当する選択要素と前記選択部で選択されなかった前記認識文字列に相当する非選択要素との位置関係とに基づき、前記文字挿入位置を設定する、
請求項1に記載のテキスト生成装置。 - 前記設定部は、
検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内である場合に、前記文字挿入位置より後方で、前記文字挿入位置に最も近い位置の前記非選択要素を検出し、検出した前記非選択要素の先頭位置に前記文字挿入位置を移動する、
請求項9に記載のテキスト生成装置。 - 前記設定部は、
検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内でない場合に、前記文字挿入位置より後方で、前記文字挿入位置に最も近い位置の前記選択要素を検出し、検出した前記選択要素より後方で、前記選択要素に最も近い位置の前記非選択要素を検出し、検出した前記非選択要素の先頭位置に前記文字挿入位置を移動する、
請求項9に記載のテキスト生成装置。 - 前記設定部で設定された前記文字挿入位置において、作業者による文字入力が開始された場合に、入力された文字に対応する音声位置を探索する探索部と、
前記探索部で探索された前記音声位置から前記音声を再生する再生部と、をさらに備え、
前記探索部は、
前記設定部で検出された現在の前記文字挿入位置と、前記書き起こし文内において、前記選択部で選択された前記認識文字列に相当する選択要素と前記選択部で選択されなかった前記認識文字列に相当する非選択要素との位置関係とに基づき、前記音声位置を探索する、
請求項9に記載のテキスト生成装置。 - 前記探索部は、
検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内である場合に、前記選択要素に相当する前記認識文字列の始端時刻を、前記音声位置とする、
請求項12に記載のテキスト生成装置。 - 前記認識部で得られた前記認識文字列を、文単位、又は、所定の時間単位に結合し、結合した前記認識文字列及び結合した前記認識文字列の信頼度を得る結合部を、さらに備え、
前記選択部は、
前記文単位、又は、前記時間単位に結合した前記認識文字列を選択する、
請求項1に記載のテキスト生成装置。 - 前記選択部は、
前記書き起こし精度のパラメータ及び結合した前記認識文字列の信頼度、又は、前記書き起こしに要する作業量のパラメータ及び結合した前記認識文字列の信頼度に基づき、前記文単位、又は、前記時間単位に結合した前記認識文字列を選択する、
請求項14に記載のテキスト生成装置。 - 前記音声に対する、各発話を識別する情報、各発話の発話開始時刻、各発話の発話者を識別する情報を含む発話区間情報を生成する生成部を、さらに備え、
前記選択部は、
前記発話者、又は、前記発話ごとに、前記認識文字列を選択する、
請求項1に記載のテキスト生成装置。 - 前記選択部は、
前記発話者、又は、前記発話ごとに、前記書き起こし精度のパラメータと前記認識文字列の信頼度、又は、前記書き起こしに要する作業量のパラメータと前記認識文字列の信頼度に基づき、前記認識文字列を選択する、
請求項16に記載のテキスト生成装置。 - 取得した音声を認識し、認識単位ごとの認識文字列と前記認識文字列の信頼度とを得る認識工程と、
書き起こし精度のパラメータ、及び、書き起こしに要する作業量のパラメータの、少なくとも一方の前記パラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する選択工程と、
選択された前記認識文字列を用いて、前記書き起こし文を生成する生成工程と、
を含むテキスト生成方法。 - コンピュータを、
取得した音声を認識し、認識単位ごとの認識文字列と前記認識文字列の信頼度とを得る手段と、
書き起こし精度のパラメータ、及び、書き起こしに要する作業量のパラメータの、少なくとも一方の前記パラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する手段と、
選択された前記認識文字列を用いて、前記書き起こし文を生成する手段、
として機能させるテキスト生成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013077576A JP2014202848A (ja) | 2013-04-03 | 2013-04-03 | テキスト生成装置、方法、及びプログラム |
CN201410090288.6A CN104103273A (zh) | 2013-04-03 | 2014-03-12 | 文本生成器和文本生成方法 |
US14/206,178 US9460718B2 (en) | 2013-04-03 | 2014-03-12 | Text generator, text generating method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013077576A JP2014202848A (ja) | 2013-04-03 | 2013-04-03 | テキスト生成装置、方法、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017120758A Division JP6499228B2 (ja) | 2017-06-20 | 2017-06-20 | テキスト生成装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014202848A true JP2014202848A (ja) | 2014-10-27 |
Family
ID=51655090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013077576A Pending JP2014202848A (ja) | 2013-04-03 | 2013-04-03 | テキスト生成装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9460718B2 (ja) |
JP (1) | JP2014202848A (ja) |
CN (1) | CN104103273A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016109735A (ja) * | 2014-12-02 | 2016-06-20 | 富士通株式会社 | 情報処理装置、書き起こし支援方法、及び書き起こし支援プログラム |
JP2017040856A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | 音声認識結果編集装置、音声認識結果編集方法、プログラム |
US11328727B2 (en) | 2017-03-31 | 2022-05-10 | Optim Corporation | Speech detail recording system and method |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9886423B2 (en) * | 2015-06-19 | 2018-02-06 | International Business Machines Corporation | Reconciliation of transcripts |
CN106340297A (zh) * | 2016-09-21 | 2017-01-18 | 广东工业大学 | 一种基于云计算与置信度计算的语音识别方法与系统 |
US9934785B1 (en) * | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
CN110162751A (zh) * | 2019-05-13 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 文本生成器训练方法和文本生成器训练系统 |
CN112382278B (zh) * | 2020-11-18 | 2021-08-17 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11231891A (ja) * | 1997-12-16 | 1999-08-27 | Internatl Business Mach Corp <Ibm> | 音声を認識するシステムおよび方法 |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
JP2008158511A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声データ検索用webサイトシステム |
JP2010197669A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
US20100250250A1 (en) * | 2009-03-30 | 2010-09-30 | Jonathan Wiggs | Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems |
JP2011193177A (ja) * | 2010-03-13 | 2011-09-29 | Konica Minolta Business Technologies Inc | 登録情報表示装置および画像処理装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6973428B2 (en) * | 2001-05-24 | 2005-12-06 | International Business Machines Corporation | System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition |
US8239197B2 (en) * | 2002-03-28 | 2012-08-07 | Intellisist, Inc. | Efficient conversion of voice messages into text |
EP1611570B1 (en) * | 2003-03-31 | 2017-06-28 | Nuance Communications Austria GmbH | System for correction of speech recognition results with confidence level indication |
US7346506B2 (en) * | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
US8095364B2 (en) * | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
CA2575373C (en) * | 2004-07-30 | 2015-09-08 | Dictaphone Corporation | A system and method for report level confidence |
JP4757599B2 (ja) | 2005-10-13 | 2011-08-24 | 日本電気株式会社 | 音声認識システムと音声認識方法およびプログラム |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
GB2451371B (en) * | 2006-04-17 | 2011-02-23 | Vovision Llc | Method and systems for correcting transcribed audio files |
EP1976255B1 (en) * | 2007-03-29 | 2015-03-18 | Intellisist, Inc. | Call center with distributed speech recognition |
US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
US20090125299A1 (en) * | 2007-11-09 | 2009-05-14 | Jui-Chang Wang | Speech recognition system |
US20110022387A1 (en) * | 2007-12-04 | 2011-01-27 | Hager Paul M | Correcting transcribed audio files with an email-client interface |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
US20130138637A1 (en) * | 2009-09-21 | 2013-05-30 | Walter Bachtiger | Systems and methods for ranking media files |
US8825488B2 (en) * | 2010-04-12 | 2014-09-02 | Adobe Systems Incorporated | Method and apparatus for time synchronized script metadata |
JP6066354B2 (ja) * | 2011-07-01 | 2017-01-25 | 日本電気株式会社 | 信頼度計算の方法及び装置 |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP5638479B2 (ja) * | 2011-07-26 | 2014-12-10 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
JP5779032B2 (ja) * | 2011-07-28 | 2015-09-16 | 株式会社東芝 | 話者分類装置、話者分類方法および話者分類プログラム |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
JP5404726B2 (ja) | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9275636B2 (en) * | 2012-05-03 | 2016-03-01 | International Business Machines Corporation | Automatic accuracy estimation for audio transcriptions |
US20130317818A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Rochester | Systems and Methods for Captioning by Non-Experts |
JP5743976B2 (ja) | 2012-08-10 | 2015-07-01 | 株式会社東芝 | 情報処理装置、プログラム、及び情報処理方法 |
-
2013
- 2013-04-03 JP JP2013077576A patent/JP2014202848A/ja active Pending
-
2014
- 2014-03-12 US US14/206,178 patent/US9460718B2/en active Active
- 2014-03-12 CN CN201410090288.6A patent/CN104103273A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11231891A (ja) * | 1997-12-16 | 1999-08-27 | Internatl Business Mach Corp <Ibm> | 音声を認識するシステムおよび方法 |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
JP2008158511A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声データ検索用webサイトシステム |
JP2010197669A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
US20100250250A1 (en) * | 2009-03-30 | 2010-09-30 | Jonathan Wiggs | Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems |
JP2011193177A (ja) * | 2010-03-13 | 2011-09-29 | Konica Minolta Business Technologies Inc | 登録情報表示装置および画像処理装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016109735A (ja) * | 2014-12-02 | 2016-06-20 | 富士通株式会社 | 情報処理装置、書き起こし支援方法、及び書き起こし支援プログラム |
JP2017040856A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | 音声認識結果編集装置、音声認識結果編集方法、プログラム |
US11328727B2 (en) | 2017-03-31 | 2022-05-10 | Optim Corporation | Speech detail recording system and method |
Also Published As
Publication number | Publication date |
---|---|
CN104103273A (zh) | 2014-10-15 |
US20140303974A1 (en) | 2014-10-09 |
US9460718B2 (en) | 2016-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014202848A (ja) | テキスト生成装置、方法、及びプログラム | |
JP5703256B2 (ja) | 単語レベルの変換候補生成に基づく音声認識システム及び方法 | |
US9236045B2 (en) | Methods and apparatus for proofing of a text input | |
JP4987623B2 (ja) | ユーザと音声により対話する装置および方法 | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
JP6726354B2 (ja) | 訂正済みタームを使用する音響モデルトレーニング | |
US20080052073A1 (en) | Voice Recognition Device and Method, and Program | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP6150268B2 (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2005321730A (ja) | 対話システム、対話システム実行方法、及びコンピュータプログラム | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
JP2016118999A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP6499228B2 (ja) | テキスト生成装置、方法、及びプログラム | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP4027357B2 (ja) | 文字列入力装置およびその制御方法 | |
JP5818753B2 (ja) | 音声対話システム及び音声対話方法 | |
JP6387044B2 (ja) | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP2012190088A (ja) | 音声記録装置、方法及びプログラム | |
JP2018063272A (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 | |
JP2015172625A (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170509 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20171031 |