Nothing Special   »   [go: up one dir, main page]

JP5703256B2 - 単語レベルの変換候補生成に基づく音声認識システム及び方法 - Google Patents

単語レベルの変換候補生成に基づく音声認識システム及び方法 Download PDF

Info

Publication number
JP5703256B2
JP5703256B2 JP2012106776A JP2012106776A JP5703256B2 JP 5703256 B2 JP5703256 B2 JP 5703256B2 JP 2012106776 A JP2012106776 A JP 2012106776A JP 2012106776 A JP2012106776 A JP 2012106776A JP 5703256 B2 JP5703256 B2 JP 5703256B2
Authority
JP
Japan
Prior art keywords
word
displayed
speech recognition
words
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012106776A
Other languages
English (en)
Other versions
JP2012237997A (ja
Inventor
相 浩 李
相 浩 李
▲勳▼ 金
▲勳▼ 金
東 ▲晃▼ ▲具▼
東 ▲晃▼ ▲具▼
大 成 ▲鄭▼
大 成 ▲鄭▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2012237997A publication Critical patent/JP2012237997A/ja
Application granted granted Critical
Publication of JP5703256B2 publication Critical patent/JP5703256B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Description

本発明は単語レベルの変換候補生成に基づく音声認識システム及び方法に関する。
音声認識によってディクテーション(dictation)しようとするとき、音声認識の後に出力された変換候補文章が極めて多い場合、ユーザに少しずつ異なるn個の文章を確認させて所望の文章を選択させることは難しい問題である。すなわち、モバイル端末のようなユーザ端末の場合、当該端末が小さいため一度に多くの文章を全て露出させることが難しく、ユーザの立場からはn個の文章を見たとき、どの文章が適切な文章であるかを一瞬で把握することができないという問題がある。
本明細書では、音声認識によってより効果的にディクテーションを提供することのできる音声認識システム及び方法が提案される。
韓国公開特許第2006−0098673号公報
本発明の目的は、ユーザに音声認識の結果による文字列を表示して提供する際に、変換候補が存在する単語を文字列上の他の単語と区分して表示し、変換候補が存在する単語に対するユーザの選択に応じて当該単語を変換候補単語に変更して表示することで、一回の選択でユーザが音声認識の結果を単語ごとに修正することのできる音声認識システム及び音声認識方法を提供する。
本発明の目的は、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列を選択し、選択された単語列に含まれる単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内で音声信号に対して認識された他の単語のうち、他の単語それぞれについて算出される信頼度を用いて選択される少なくとも1つの単語を候補単語に設定することで、より正確な単語ごとの結果を提供することのできる音声認識システム及び音声認識方法を提供する。
本発明の目的は、表示された単語列の全てを一度に削除できるユーザインタフェースを提供することにあり、表示された単語列がとんでもない結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができる音声認識システム及び音声認識方法を提供する。
本発明の目的は、音声認識によって作成される文章の単語列に対して、当該単語列が音声認識によって作成されたことを示す標識を単語列と共に表示しまたは送信することで、表示された単語列を確認するユーザ、またはこのような単語列をSMS、Eメールなどを介して受信したユーザが当該単語列が音声認識によって作成されたことを認識できる音声認識システム及び音声認識方法を提供する。
音声認識の結果として、単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語が提供される場合、単語列及び変換候補単語を確認する音声認識結果確認部と、単語列を表示装置を介して表示する際に、変換候補単語が存在する少なくとも1つの単語を単語列の他の単語と区分して表示する単語列表示部とを備え、単語列表示部は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示することを特徴とする音声認識システムが提供される。
本発明の一側面によると、音声認識システムは、表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部をさらに備え、単語列表示部は、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列を全て削除してもよい。
本発明の他の側面によると、単語列が表示装置を介して表示される場合、または単語列が他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。
本発明の他の側面によると、音声認識システムは、入力装置を介して入力される音声信号を音声認識サーバに送信する音声信号送信部と、音声信号に対応する音声認識の結果を音声認識サーバを介して受信する音声認識結果受信部とをさらに備えてもよい。
本発明の他の側面によると、音声認識システムは、入力装置を介して入力される音声信号に対応する音声認識の結果を生成する音声認識結果生成部をさらに備えてもよい。
本発明の他の側面によると、単語列は、音声認識サーバでの音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列として選択されてもよい。
本発明の他の側面によると、変換候補単語は、音声認識サーバで少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも1つの単語として選択されてもよい。この場合、他の単語のうち少なくとも1つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよい。また、時間範囲は、認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
音声信号に対応する単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語を決定して音声認識の結果として生成する音声認識結果生成部と、ユーザ端末に音声認識の結果を提供する音声認識結果提供部と、を備え、端末の表示装置で単語列が表示され、変換候補が存在する少なくとも1つの単語が単語列の他の単語と区分して表示され、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が変換候補単語に変更されて表示されることを特徴とする音声認識システムが提供される。
音声認識の結果として、単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補が提供される場合、単語列及び変換候補単語を確認し、単語列を表示装置を介して表示する際に、変換候補が存在する少なくとも1つの単語を単語列の残りの単語と区分して表示することを含み、表示することは、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を候補単語に変更して表示することを特徴とする音声認識方法が提供される。
音声信号に対応する単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語を決定して音声認識の結果として生成し、ユーザ端末に音声認識の結果を提供することを含み、端末の表示装置で単語列が表示され、変換候補単語が存在する少なくとも1つの単語は単語列の他の単語と区分して表示され、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が候補単語に変更されて表示されることを特徴とする音声認識方法が提供される。
本発明によると、ユーザに音声認識の結果による文字列を表示してユーザに提供する際に、変換候補が存在する単語を文字列上の他の単語と区分して表示し、変換候補が存在する単語に対するユーザの選択に応じて当該単語を変換候補単語に変更して表示することによって、一回の選択でユーザが音声認識の結果を単語ごとに修正することができる。
本発明によると、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列を選択し、選択された単語列に含まれる単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内で音声信号に対して認識された他の単語のうち、他の単語それぞれに対して算出される信頼度を用いて選択される少なくとも1つの単語を変換候補単語として設定することで、より正確な単語ごとの結果を提供することができる。
本発明によると、表示された単語列の全てを一度に削除できるユーザインタフェースを提供することができ、表示された単語列がとんでもない結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができる。
本発明によると、音声認識によって作成される文章の単語列に対して、当該単語列が音声認識によって作成されたことを示す標識を単語列と共に表示しまたは送信することで、表示された単語列を確認するユーザ、またはこのような単語列をSMS、Eメールなどによって受信したユーザが当該単語列が音声認識によって作成されたことを認識することができる。
本発明の一実施形態におけるユーザ端末及び音声認識サーバを示す図である。 本発明の一実施形態におけるユーザ端末のディスプレイ画面に単語列が表示された状態を示す一例である。 本発明の一実施形態におけるユーザ端末のディスプレイ画面でユーザの選択に応じて表示された単語を変換候補単語に変更して表示した状態を示す一例である。 本発明の一実施形態におけるユーザインタフェースを用いて表示された単語列を全て削除することを示す一例である。 本発明の一実施形態におけるユーザ端末において標識を表示する状態を示す一例である。 本発明の一実施形態における音声信号に対して検索された単語を示す図である。 本発明の一実施形態における音声認識システムの内部構成を説明するためのブロック図である。 本発明の一実施形態における音声認識方法を示すフローチャートである。 本発明の他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。 本発明の他の実施形態における音声認識方法を示すフローチャートである。 本発明の更に他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。 本発明の更に他の実施形態における音声認識方法を示すフローチャートである。 本発明の更に他の実施形態におけるユーザによって選択された単語の変換候補単語を表示した画面の一例である。
以下、本発明の実施形態について添付の図面を参照しながら詳細に説明する。
図1は、本発明の一実施形態におけるユーザ端末及び音声認識サーバを示す図である。図1は、ユーザ端末110及び音声認識サーバ120を示している。
ユーザ端末110には入力装置を介して音声信号が入力され、音声信号は音声認識サーバ120に送信されてもよい。ここで、音声認識サーバ120は、受信した音声信号に対応する音声認識の結果を生成してユーザ端末110に送信してもよい。
ユーザ端末110は、音声認識サーバ120によって受信された音声認識の結果に含まれている単語列と、単語列に含まれる少なくとも1つの単語に対する変換候補単語を確認し、確認された単語列を表示装置を介して表示するところ、変換候補単語が存在する少なくとも1つの単語は単語列の残りの単語と区分されるように表示してもよい。
図2は、本発明の一実施形態におけるユーザ端末のディスプレイ画面に単語列が表示された形状を示す一例である。図2に示すディスプレイ画面200は図1を参照して説明したユーザ端末110のディスプレイ画面の一部に対応する。ここで、ディスプレイ画面200には「アンドロイドフォンいつから販売したん」のように音声認識の結果を含む単語列が表示される。ここで、単語列に含まれる単語のうち、変換候補を有する単語は単語列に含まれる他の単語と区別されて表示される。すなわち、図2では変換候補が存在する単語「アンドロイド」、「いつから」、「したん」は,変換候補が存在しない単語「フォン」及び「販売」と区別されるようにアンダーラインで表示される。
再び図1を参照すると、ユーザ端末110は区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示してもよい。ここで、単語がユーザによって選択されることはユーザ端末110が提供するユーザインタフェースを介して当該単語が選択されることを意味する。例えば、ユーザがタッチパッドを介して当該単語が表示された位置をタッチすることによって、当該単語がユーザによって選択される。
図3は、本発明の一実施形態におけるユーザ端末のディスプレイ画面でユーザの選択に応じて表示された単語を変換候補単語に変更して表示した状態を示す一例である。図3に示すディスプレイ画面310から330はそれぞれ図1を参照して説明したユーザ端末110のディスプレイ画面の一部に対応する。
まず、ディスプレイ画面310には「アンドロイドフォンいつから販売したん」のように最初の音声認識の結果を含む単語列が表示されている。ここで、ユーザが単語「したん」を選択する場合、ディスプレイ画面320のように単語「したん」が変換候補単語「した」のように変更して表示されてもよい。この場合、変更して表示された単語「した」も変換候補が存在しない他の単語と区分するためにアンダーラインで表示される。
図3では単語を区分するためにアンダーラインを用いたが、アンダーラインは1つの例に過ぎず、字の大きさ、字の色、または模様などを異なるように表示する方法など、単語が区分される全ての方法のうち少なくとも1つの方法を用いてもよい。
ユーザが単語「した」を再び選択した場合にはディスプレイ画面330のように単語「した」がその次の変換候補単語「したの」に変更されて表示されてもよい。
もし、他の変換候補単語「したの」が存在しない場合には再びディスプレイ画面310のように本来の単語列に含まれている単語「したん」に変更されて表示されてもよい。
このように、本実施形態では単語列に含まれる単語に対する変換候補のリストを提供する代わりに、ユーザの選択に応じて音声認識の変換候補単語を順次に変更可能であり、このような変換候補単語は音声認識による信頼度に応じて整列され、信頼度が高い順に表示される。ここで、大部分の場合、1,2回の変更によってユーザが意図した単語が表示される確率が極めて高いため、変換候補単語のリストを提供することで効率よくユーザに音声認識を通したディクテーション(dictation)を提供することができる。ここで、音声認識による単語の信頼度を算出する方法は公知の通りで、このように既に知らされた様々な方法の1つが単語の信頼度を算出するために用いられる。
また、図3において、ユーザインタフェースの「編集」を用いてユーザが当該単語を直接編集できる機能を提供してもよい。
再び図1を参照すると、ユーザ端末110は、表示された単語列を全て削除するためのユーザインタフェースを提供してもよい。すなわち、表示された単語列の全てを一度に削除することのできるユーザインタフェースを提供することによって、表示された単語列が全く違う結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができるようにする。
図4は、本発明の一実施形態におけるユーザインタフェースを用いて表示された単語列を全て削除することを示す一例である。図4に示すディスプレイ画面410及び420はそれぞれ図1を参照して説明したユーザ端末110のディスプレイ画面の一部に対応する。
ディスプレイ画面410は、音声認識の結果に含まれる単語列が表示された状態を示している。ここで、「クリア」411のような、ユーザ端末110が提供するユーザインタフェースを介してユーザがイベントを発生させる場合、ディスプレイ画面420のように表示された単語列を全て削除してもよい。すなわち、「好奇心の解消の消失30分到着」のようにユーザが意図した文章(単語列)と全く異なる文章が表示された場合、ユーザはこのような文章を編集することよってユーザ自身が文章を直接入力するか、または新たに音声認識の過程を行ってもよい。
このような場合、本実施形態におけるユーザ端末110は「クリア」411のようなユーザインタフェースをユーザに提供し、ユーザが「クリア」411をタッチするなどのイベントが発生した場合、表示された文章の全体を削除することができる。
再び図1を参照すると、ユーザ端末110は音声認識によって作成された文章(単語列)に音声認識に対する標識を含ませてもよい。ここで、音声認識に対する標識は当該文章が音声認識によって作成されたことを表す。例えば、ユーザが音声認識によって作成された文章をSMSやEメールなどを用いて他のユーザに提供する場合、他のユーザは当該文章に誤字またはエラーが存在しても、このような文章が音声認識によって作成されたことを直ちに確認することができる。
図5は、本発明の一実施形態におけるユーザ端末で標識を提供する形状を示す一例である。図5に示すディスプレイ画面510は図1を参照して説明したユーザ端末110のディスプレイ画面の一部に対応する。
ここで、ディスプレイ画面510は「アンドロイドフォンで映画を見ようとします。By Speech」のように単語列「アンドロイドフォンで映画を見ようとします。」だけではなく標識「By Speech」を共に表示している。すなわち、このような標識により,当該単語列が音声認識によって作成された文章であることをユーザが容易に把握することができる。
再び図1を参照すると、音声認識サーバ120は、上述したようにユーザ端末110が受信した音声信号に対応する単語列及び変換候補単語を決定して音声認識の結果としてユーザ端末110に提供してもよい。ここで、音声認識サーバ120は、音声信号に対応してマッチングされ得る全ての単語列を探し、全ての単語列それぞれの確率のうち最も高い確率を有する単語列を音声認識の結果に含まれる単語列として選択する。また、音声認識サーバ120は、少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち、少なくとも1つの単語を音声認識の結果に含まれる変換候補単語として選択してもよい。この場合、他の単語のうち、少なくとも1つの単語は、他の単語それぞれに対して算出される信頼度(confidence)に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
図6は、本発明の一実施形態における音声信号に対して検索された単語を示す図である。図6において、矢印610は時間の流れを示し、四角形のボックスの長さは当該単語が認識された時間範囲を示す。ここで、互いに異なる時間範囲で認識される同一の単語、すなわち、図6において「イチゴ」(1)と「イチゴ」(2)、そして「ゴジュ」(1)と「ゴジュ」(2)とはスタート時刻は同一であるが、終了時間が互いに異なり、音声では確率的に当該時間帯において最も確率の高い単語を探したとき偶然に同じ単語になった場合である。
まず、ユーザの発話内容が「イチゴジュース」と仮定する。すなわち、ユーザが「イチゴジュース」を発話して図1に示すユーザ端末110が入力装置を介して「イチゴジュース」が含まれた音声信号の入力を受けて音声認識サーバ120に送信すると、音声認識サーバ120は音声信号を分析して全ての含まれ得る単語列を確認し、最も高い確率を有する単語列を選択してもよい。ここで、図6では、最も高い確率を有する単語列として、単語「イチゴ」(1)と単語「ソース」が結合された「イチゴソース」が選択された場合を示している。
この場合、音声認識サーバ120は、最も高い確率を有する単語列に含まれた単語「イチゴ」(1)と「ソース」とのそれぞれに対する変換候補単語を決定してもよい。すなわち、「イチゴ」(1)と「ソース」それぞれに対する当該時間範囲内に含まれる他の単語に対して各単語の信頼度を算出し、信頼度の高い順にn個の単語を変換候補単語として抽出してもよい。ここで、当該時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
例えば、単語「ソース」に対する変換候補単語を求めるために、音声認識サーバ120は単語「ソース」に対して決定された時間範囲内に含まれる他の単語を確認する。ここで、時間範囲内に含まれる他の単語は単語「ソース」の認識が終了した時刻に予め選定された許容時間値を付与した時刻、そして「ソース」の認識がスタートした時刻の時間範囲内に含まれ,かつ、スタート時間が同一の単語を含んでもよい。ここで、許容時間値は30msのように音声認識サーバ120によって決定されてもよい。
ここで、スタート時刻は同一であるが、終了した時間が「ソース」の認識が終了した時間よりも予め選定された許容時間値以上に短くて、当該時間範囲内にさらに他の単語が認識された場合には認識された各単語を結合して1つの変換候補単語として決定してもよい。
すなわち、上述した一例として、単語「ゴジュ」(1)及び単語「ス」が結合して1つの単語「ゴジュス」として「ソース」の変換候補単語として選択される場合や、単語「ゴジュ」(1)及び単語「ュース」が結合して1つの単語「ゴージュュース」として「ソース」の変換候補単語として選択される場合を例にあげてもよい。また、単語「ゴジュ」(2)及び「シュース」そして「ジュス」が単語「ソース」の変換候補単語として選択されてもよい。すなわち、図6では単語「ゴジュ」(1)と単語「ズース」が結合された「ゴジュズース」だけが時間範囲から外れる関係により変換候補単語に選択されない一例を示している。もし、許容時間値を減らして時間範囲をさらに減せば、変換候補単語の選択のための範囲はさらに削減される。
ここで、選択された変換候補単語が信頼度の高い順に「シュース」、「ジュス」、「ゴジュス」、「ゴジュュース」、及び「ゴジュ」(2)の順であれば、選択された変換候補単語は信頼度の高い順に応じて音声認識の結果に含まれてもよい。
すなわち、図1及び図6を共に参照すると、ユーザ端末110は表示装置を介して「イチゴソース」を表示してもよい。この場合にも変換候補が存在する単語と変換候補が存在しない単語は互いに区分して表示されてもよい。ここで、単語「ソース」がユーザによって選択される場合、単語「ソース」は最初の順番に決定された単語「ジュース」に変更されて表示される。また、変更された単語「シュース」が再びユーザに選択される場合には単語「シュース」が二番目に決定された単語「ジュス」に変更されて表示される。これ以上変更する変換候補単語がない場合には、最初に表示された単語「ソース」がユーザに表示されたりユーザが直接に当該単語を編集可能な機能を提供したりしてもよい。
このように、ユーザは変換候補単語全体のリストから所望する単語を検索することなく、選択によって次の変換候補単語を確認することができる。既に上述したように、信頼度に基づいて変換候補単語を選定すると、大部分の場合は1,2回の選択によってユーザが意図した単語が表示されることから、ユーザは変換候補単語全体を調べる必要がなく、単語列から特定単語を意図する単語に容易かつ素早く編集することができる。
図7は、本発明の一実施形態における音声認識システムの内部構成を説明するためのブロック図である。このような音声認識システム700は、図7に示すように音声認識結果確認部730及び単語列表示部740を備えてもよく、必要に応じて選択的に音声信号送信部710及び音声認識結果受信部720を備えてもよい。ここで、音声認識システム700が音声信号送信部710及び音声認識結果受信部720を備える場合、音声認識システム700は図1に示すユーザ端末110に対応する。
音声信号送信部710は、入力装置を介して入力される音声信号を音声認識サーバに送信する。例えば、ユーザの発話による音声信号がマイクのような入力装置を介して音声認識システム700から入力されてもよく、音声信号送信部710はこのような音声信号を音声認識サーバに送信してもよい。ここで、音声認識サーバは、図1を参照して説明した音声認識サーバ120に対応する。
音声認識結果受信部720は音声信号に対応する音声認識の結果を音声認識サーバを介して受信する。ここで、単語列は音声認識サーバで音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列として選択される。また、変換候補単語は、音声認識サーバで少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも1つの単語として選択されてもよい。ここで、他の単語のうち少なくとも1つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、及び認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
音声認識結果確認部730は音声認識の結果として、単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語が提供される場合に単語列及び変換候補単語を確認する。すなわち、音声認識サーバから音声認識の結果が受信されるなどの過程によって音声認識システム700に音声認識の結果が提供されると、音声認識システム700は音声認識結果確認部730を介して提供された音声認識の結果として単語列と変換候補単語を確認することができる。
単語列表示部740は単語列を表示装置を介して表示するが、変換候補単語が存在する少なくとも1つの単語を単語列の他の単語と区分して表示する。ここで、単語列表示部740は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示する。もし、更に他の変換候補単語が存在し、変更された変換候補単語が再びユーザによって選択される場合、変更された変換候補単語は更に他の変換候補単語に変更されてもよい。
また、音声認識システム700は、表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部(図示せず)をさらに備えてもよい。この場合、単語列表示部740はユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列を全て削除してもよい。
また、単語列が表示装置を介して表示される場合、または単語列が他の機器に送信される場合、単語列が音声認識によって提供されたことを表す標識が単語列と共に表示されおよび送信されてもよい。
図8は、本発明の一実施形態に係る音声認識方法を示すフローチャートである。本実施形態における音声認識方法は図7を参照して説明した音声認識システム700によって行われてもよい。図8では音声認識システム700によって各ステップが実施される過程を説明することによって、本実施形態における音声認識方法を説明する。この場合にもステップS810及びステップS820は必要に応じて選択的に音声認識システム700によって行われてもよい。
ステップS810において、音声認識システム700は入力装置を介して入力される音声信号を音声認識サーバに送信する。例えば、ユーザの発話による音声信号がマイクのような入力装置を介して音声認識システム700から入力されてもよく、音声認識システム700はこのような音声信号を音声認識サーバに送信してもよい。ここで、音声認識サーバは図1を参照して説明した音声認識サーバ120に対応する。
ステップS820において、音声認識システム700は音声信号に対応する音声認識の結果を音声認識サーバを介して受信する。ここで、単語列は、音声認識サーバで音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列として選択されてもよい。また、変換候補単語は、音声認識サーバで少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも1つの単語として選択されてもよい。ここで、他の単語のうち少なくとも1つの単語は他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
ステップS830において、音声認識システム700は音声認識の結果として、単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語が提供される場合、単語列及び変換候補単語を確認する。すなわち、音声認識サーバから音声認識の結果が受信されるなどの過程を介して音声認識システム700に音声認識の結果が提供されると、音声認識システム700はこのような提供された音声認識の結果として単語列と変換候補単語を確認する。
ステップS840において、音声認識システム700は単語列を表示装置を介して表示するが、変換候補単語が存在する少なくとも1つの単語を単語列の残りの単語と区分して表示する。ここで、音声認識システム700は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示する。もし、更に他の変換候補単語が存在し、変更された変換候補単語が再びユーザによって選択される場合、変更された変換候補単語は更に他の変換候補単語に変更されてもよい。
また、音声認識システム700は、表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部(図示せず)をさらに備えてもよい。この場合、音声認識システム700は、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列の全てを削除する。
また、単語列が表示装置を介して表示される場合、または単語列が他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。
図9は、本発明の他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。本実施形態に係る音声認識システム900は、図9に示すように音声認識結果生成部920及び音声認識結果提供部930を備えてもよく、必要に応じて選択的に音声信号受信部910を備えてもよい。ここで、音声認識システム900が音声信号受信部910を備える場合、音声認識システム900は図1で示した音声認識サーバ120に対応する。
音声信号受信部910は端末の入力装置を介して入力された音声信号を端末を介して受信する。ここで、端末はユーザ端末として、図1を参照して説明したユーザ端末110に対応する。すなわち、ユーザ端末110の入力装置を介してユーザが発話した音声信号が入力されると、ユーザ端末110は入力された音声信号を音声認識システム900に送信してもよく、音声認識システム900は送信された音声信号を受信してもよい。
音声認識結果生成部920は、音声信号に対応する単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語を決定して音声認識の結果として生成する。ここで、音声認識結果生成部920は、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列を音声認識の結果に含まれる単語列として選択してもよい。また、音声認識結果生成部920は、少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも1つの単語を音声認識の結果に含まれる変換候補単語として選択してもよい。ここで、他の単語のうち少なくとも1つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、及び認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
音声認識結果提供部930はユーザ端末で音声認識の結果を提供する。ここで、提供された音声認識の結果に含まれる単語列は端末の表示装置を介して表示され、変換候補単語が存在する少なくとも1つの単語は単語列の他の単語と区分して表示される。また、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が変換候補単語に変更されて表示される。
このような端末において、表示された単語列の全体を削除するのためのユーザインタフェースを提供してもよく、ここで、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列が全て削除されてもよい。
また、単語列が表示装置を介して表示される場合、または単語列が端末から他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。
図10は、本発明の他の実施形態における音声認識方法を示すフローチャートである。本実施形態における音声認識方法については図9を参照して説明した音声認識システム900によって行われてもよい。図10では音声認識システム900によって各ステップが行われる過程を説明することで、本実施形態に係る音声認識方法を説明する。この場合にもステップS1010は必要に応じて選択的に音声認識システム700によって行われてもよい。
ステップS1010において、音声認識システム900は端末の入力装置を介して入力された音声信号を端末で受信する。ここで、端末はユーザ端末として図1を参照して説明したユーザ端末110に対応する。すなわち、ユーザ端末110の入力装置を介してユーザが発話した音声信号が入力されると、ユーザ端末110は入力された音声信号を音声認識システム900に送信してもよく、音声認識システム900は送信された音声信号を受信してもよい。
ステップS1020において、音声認識システム900は音声信号に対応する単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補単語を決定して音声認識の結果として生成する。ここで、音声認識システム900は、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列を音声認識の結果に含まれる単語列として選択してもよい。また、音声認識システム900は、少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち、少なくとも1つの単語を音声認識の結果に含まれる変換候補単語として選択してもよい。ここで、他の単語のうち少なくとも1つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。
ステップS1030において、音声認識システム900はユーザ端末に音声認識の結果を提供する。ここで、提供された音声認識の結果に含まれる単語列は端末の表示装置を介して表示され、変換候補単語が存在する少なくとも1つの単語は単語列の残りの単語と区分して表示される。また、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が変換候補単語に変更されて表示される。
このような端末において、表示された単語列の全体を削除するためのユーザインタフェースを提供してもよく、ここで、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列を全て削除してもよい。
また、単語列が表示装置を介して表示される場合、または単語列が端末から他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。
図11は、本発明の更に他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。本実施形態における音声認識システム1100は、図1で説明したユーザ端末110及び音声認識サーバ120とは異なり、1つのシステムで音声認識の結果の生成と表示が行われる。このような音声認識システム1100は、図11に示すように音声認識結果確認部1120及び単語列表示部1130を備え、必要に応じて選択的に音声認識結果生成部1110を備えてもよい。
ここで、音声認識結果生成部1110を備えていない場合には、図7において音声認識システム700が音声信号送信部710及び音声認識結果受信部720を備えていない場合と同一であり、音声認識結果確認部1120及び単語列表示部1130は音声認識結果確認部730及び単語列表示部740と同一に動作するため、音声認識結果確認部1120及び単語列表示部1130に対する繰り返しの説明は省略する。
音声認識結果生成部1110は入力装置を介して入力される音声信号に対応する音声認識の結果を生成する。ここで、音声認識の結果を生成する方法については既に詳しく説明したため繰り返しの説明は省略する。
図12は、本発明の更に他の実施形態における音声認識方法を示すフローチャートである。本実施形態における音声認識方法は図11を参照して説明した音声認識システム1100によって行われてもよい。ここで、ステップS1210は必要に応じて音声認識システム1100によって行われてもよい。
ここで、ステップS1210を行わない場合には、図8に示す音声認識システム700がステップS810及びステップS820を行わない場合と同一であり、ステップS1220及びステップS1230はステップS830及びステップS840と同一であるため、ステップS1220及びステップS1230に対する繰り返しの説明は省略する。
ステップS1210において、音声認識システム1100は入力装置を介して入力される音声信号に対応する音声認識の結果を生成する。ここで、音声認識の結果を生成する方法については既に詳しく説明したため、その反復的な説明は省略する。
図7から図12において省略された内容は図1から図6を参照されたい。
本発明の更に他の実施形態に係る音声認識システム及び音声認識方法では、変換候補単語をリストの形式でユーザに提供してもよい。例えば、図1を参照して説明したユーザ端末110に対応する音声認識システムは入力装置を介して入力される音声信号を音声認識サーバに送信し、音声信号に対応する音声認識の結果を音声認識サーバを介して受信してもよい。ここで、音声認識システムは音声認識の結果として、単語列及び単語列に含まれる少なくとも1つの単語に対する変換候補が提供される場合、単語列および変換候補単語を確認して単語列を表示装置を介して表示するが、変換候補単語が存在する少なくとも1つの単語を単語列の残りの単語と区分して表示してもよい。
このとき、音声認識システムは、区分して表示された単語がユーザによって選択された場合、区分して表示された単語に対する変換候補単語をリストの形式で表示してもよい。一例として、図7に示す単語列表示部740は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語の変換候補のうち少なくとも1つの変換候補を含むリストを表示してもよい。この場合、単語列表示部740は区分して表示された単語を表示されたリストからユーザによって選択された変換候補単語に変更して表示してもよい。これは他の実施形態においても同様に適用されてもよい。
図13は、本発明の更に他の実施形態において、ユーザによって選択された単語の変換候補を表示した画面の一例である。ここで、ディスプレイ画面1300は、ユーザによって選択された単語「したん」1310と単語「したん」1310の変換候補単語1320から1350を示している。ユーザはこのように提示された変換候補単語1320から1350のうち単語「したん」1310を変換するための変換候補単語を選択してもよい。例えば、図13の一例として、ユーザは変換候補単語「した」1320を選択してもよく、この場合、音声認識システムは単語「したん」1310を変換候補単語「した」1320に変更して表示してもよい。
このように、音声認識システムは、区分して表示された単語がユーザによって選択される場合、区分して表示された単語に対する変換候補単語をリストの形式で表示し、表示された変換候補単語のうちユーザによって選択された変換候補単語を、初めて区分して表示された単語のうちユーザによって選択された単語に変更して表示してもよい。
本発明の実施形態によると、ユーザに音声認識の結果による文字列を表示してユーザに提供する際に、変換候補が存在する単語を文字列上の他の単語と区分して表示し、変換候補が存在する単語に対するユーザの選択に応じて当該単語を変換候補単語に変更して表示することによって、一回の選択でユーザが音声認識の結果を単語ごとに修正することができる。また、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列を選択し、選択された単語列に含まれる単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内で音声信号に対して認識された他の単語のうち、他の単語それぞれに対して算出される信頼度を用いて選択される少なくとも1つの単語を変換候補単語として設定することにより、より正確な単語ごとの結果を提供することができる。それだけではなく、表示された単語列の全てを一度に削除できるユーザインタフェースを提供することによって、表示された単語列がとんでもない結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができ、音声認識によって作成される文章の単語列に対して、当該単語列が音声認識によって作成されたことを表す標識を単語列と共に表示しまたは送信することで、表示された単語列を確認するユーザまたはこのような単語列をSMS、Eメールなどで受信したユーザが当該単語列が音声認識によって作成されたことを認識することができる。
本発明の実施形態における方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する技術分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められる。
110 ユーザ端末
120 音声認識サーバ

Claims (8)

  1. 音声認識の結果をモバイル端末に表示する音声認識システムにおいて、
    入力装置を介して入力される音声信号を音声認識サーバに送信する音声信号送信部と、
    前記音声信号に対応する前記音声認識の結果を前記音声認識サーバを介して受信する音声認識結果受信部と、
    音声認識の結果として、単語列及び前記単語列に含まれる少なくとも1つの単語に対する変換候補単語が提供される場合、前記単語列及び前記変換候補単語を確認する音声認識結果確認部と、
    前記単語列を表示装置を介して表示する際に、前記変換候補単語が存在する少なくとも1つの単語を前記単語列の他の単語と区分して表示する単語列表示部と、
    を備え、
    前記変換候補単語は、前記音声認識サーバにおいて前記少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内において前記音声信号によって認識される他の単語のうち少なくとも1つの単語が選択され、
    前記他の単語のうち少なくとも1つの単語は、前記他の単語それぞれに対して算出される信頼度の高さに基づいて選択され、
    前記時間範囲は、前記認識がスタートした時刻及び前記認識が終了した時刻、及び前記認識が終了した時刻に付与される予め選定された許容時間値に応じて決定され、
    前記単語列表示部は、前記区分して表示された単語がユーザによって選択される場合、当該選択のたびに前記区分して表示された単語を順次に前記変換候補単語に変更して表示し、
    前記単語列が前記表示装置を介して表示される場合、または前記単語列が他の機器に送信される場合、前記単語列が音声認識によって提供されたことを示す標識が前記単語列と共に表示されまたは送信されることを特徴とする音声認識システム。
  2. 前記表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部をさらに備え、
    前記単語列表示部は、前記ユーザインタフェースを介してユーザ入力が発生する場合、前記表示された単語列を全て削除することを特徴とする請求項1に記載の音声認識システム。
  3. 入力装置を介して入力される音声信号に対応する前記音声認識の結果を生成する音声認識結果生成部をさらに備えることを特徴とする請求項1に記載の音声認識システム。
  4. 前記単語列は、前記音声認識サーバにおいて前記音声信号に対応してマッチングされ得る全ての単語列のうち、最も高い確率を有する単語列が選択されることを特徴とする請求項1に記載の音声認識システム。
  5. 音声認識の結果をモバイル端末に表示する音声認識システムにおいて、
    音声信号に対応する単語列及び前記単語列に含まれる少なくとも1つの単語に対する変換候補単語を決定して音声認識の結果として生成する音声認識結果生成部と、
    前記モバイル端末に前記音声認識の結果を提供する音声認識結果提供部と、
    を備え、
    前記音声認識結果生成部は、前記少なくとも1つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に前記の音声信号によって認識された他の単語のうち少なくとも1つの単語を前記音声認識の結果に含まれる変換候補単語として選択し、
    前記他の単語のうち少なくとも1つの単語は、前記他の単語それぞれに対して算出される信頼度に基づいて選択され、
    前記時間範囲は、前記認識がスタートした時刻及び前記認識が終了した時刻、そして前記認識が終了した時刻に付与される予め選定された許容時間値に応じて決定され、
    前記モバイル端末の表示装置で前記単語列が表示され、
    前記変換候補単語が存在する少なくとも1つの単語は前記単語列の残りの単語と区分して表示され、
    前記区分して表示された単語が前記モバイル端末でユーザによって選択される場合、当該選択のたびに前記区分して表示された単語が順次に前記変換候補単語に変更されて表示され
    前記単語列が前記表示装置を介して表示される場合、または前記単語列が前記モバイル端末から他の機器に送信される場合、前記単語列が音声認識によって提供されたことを表す標識が前記単語列と共に表示されまたは送信されることを特徴とする音声認識システム。
  6. 前記モバイル端末で前記表示された単語列の全体を削除するためのユーザインタフェースが提供され、
    前記ユーザインタフェースを介してユーザ入力が発生する場合、前記表示された単語列が全て削除されることを特徴とする請求項に記載の音声認識システム。
  7. 前記モバイル端末の入力装置を介して入力された前記音声信号を前記モバイル端末を介して受信する音声信号受信部をさらに備えることを特徴とする請求項に記載の音声認識システム。
  8. 前記音声認識結果生成部は、前記音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列を前記音声認識の結果に含まれる単語列として選択することを特徴とする請求項に記載の音声認識システム。
JP2012106776A 2011-05-12 2012-05-08 単語レベルの変換候補生成に基づく音声認識システム及び方法 Active JP5703256B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020110044613A KR101233561B1 (ko) 2011-05-12 2011-05-12 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
KR10-2011-0044613 2011-05-12

Publications (2)

Publication Number Publication Date
JP2012237997A JP2012237997A (ja) 2012-12-06
JP5703256B2 true JP5703256B2 (ja) 2015-04-15

Family

ID=46046025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012106776A Active JP5703256B2 (ja) 2011-05-12 2012-05-08 単語レベルの変換候補生成に基づく音声認識システム及び方法

Country Status (5)

Country Link
US (1) US9002708B2 (ja)
EP (1) EP2523188A1 (ja)
JP (1) JP5703256B2 (ja)
KR (1) KR101233561B1 (ja)
CN (1) CN102779511B (ja)

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN103366742B (zh) * 2012-03-31 2018-07-31 上海果壳电子有限公司 语音输入方法及系统
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
DE102015212413A1 (de) * 2015-07-02 2017-01-05 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Auswählen eines Bestandteils einer Spracheingabe
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN106251869B (zh) * 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN110651324B (zh) * 2017-05-15 2023-05-16 苹果公司 多模态界面
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07222248A (ja) 1994-02-08 1995-08-18 Hitachi Ltd 携帯型情報端末における音声情報の利用方式
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
JP3369121B2 (ja) 1999-05-20 2003-01-20 日本電気株式会社 音声認識方法および音声認識装置
KR20040008546A (ko) * 2002-07-18 2004-01-31 엘지전자 주식회사 연속 음성인식 기기의 오인식 수정 방법
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US8275618B2 (en) * 2004-12-22 2012-09-25 Nuance Communications, Inc. Mobile dictation correction user interface
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US7949536B2 (en) * 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
JP2009098490A (ja) 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
JP5244663B2 (ja) 2009-03-18 2013-07-24 Kddi株式会社 音声によってテキストを入力する音声認識処理方法及びシステム
JP5364412B2 (ja) * 2009-03-26 2013-12-11 富士通テン株式会社 検索装置
US20100315266A1 (en) * 2009-06-15 2010-12-16 Microsoft Corporation Predictive interfaces with usability constraints
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
KR20130001261A (ko) * 2010-03-12 2013-01-03 뉘앙스 커뮤니케이션즈, 인코포레이티드 이동 전화의 터치 스크린과 함께 사용하기 위한 다중 모드 문자 입력 시스템

Also Published As

Publication number Publication date
KR20120126641A (ko) 2012-11-21
CN102779511A (zh) 2012-11-14
KR101233561B1 (ko) 2013-02-14
US20120290303A1 (en) 2012-11-15
JP2012237997A (ja) 2012-12-06
EP2523188A1 (en) 2012-11-14
CN102779511B (zh) 2014-12-03
US9002708B2 (en) 2015-04-07

Similar Documents

Publication Publication Date Title
JP5703256B2 (ja) 単語レベルの変換候補生成に基づく音声認識システム及び方法
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
KR101042119B1 (ko) 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체
KR101066741B1 (ko) 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체
US10089974B2 (en) Speech recognition and text-to-speech learning system
JP2013068952A (ja) 音声認識結果の統合
US20090228274A1 (en) Use of intermediate speech transcription results in editing final speech transcription results
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2020118955A (ja) 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング
JP6336749B2 (ja) 音声合成システム及び音声合成方法
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
JP2016529603A (ja) オンライン音声翻訳方法及び装置
JP2015153108A (ja) 音声会話支援装置、及び音声会話支援方法及びプログラム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP2015158582A (ja) 音声認識装置、及びプログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
KR101406983B1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP2015099290A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR100782556B1 (ko) 질의어 자동완성 서비스 방법 및 상기 방법을 수행하는서버
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140325

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150223

R150 Certificate of patent or registration of utility model

Ref document number: 5703256

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250