JP2016521383A - 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 - Google Patents
少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2016521383A JP2016521383A JP2016515299A JP2016515299A JP2016521383A JP 2016521383 A JP2016521383 A JP 2016521383A JP 2016515299 A JP2016515299 A JP 2016515299A JP 2016515299 A JP2016515299 A JP 2016515299A JP 2016521383 A JP2016521383 A JP 2016521383A
- Authority
- JP
- Japan
- Prior art keywords
- semantic unit
- improvement
- unit set
- semantic
- captured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本発明は、少なくとも一つの意味論的単位の集合を改善するための方法、システムおよびコンピュータ読み取り可能な記録媒体に関するものである。本発明によれば、少なくとも一つの意味単位の集合を音声やテキストを用いて改善することができるようになる。【選択図】図2
Description
本発明は、少なくとも一つの意味論的単位(以下では、簡略に“意味単位”と称することにする)の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体に関するものである。
[関連出願の相互参照]
本出願は、本発明者の関連発明に関する特許出願である韓国特許出願第10−2014−0048315号および第10−2014−0077056号と相互参照の関係にある。ここで、前記出願の明細書はその全体として編入されたと見なされなければならない。
本出願は、本発明者の関連発明に関する特許出願である韓国特許出願第10−2014−0048315号および第10−2014−0077056号と相互参照の関係にある。ここで、前記出願の明細書はその全体として編入されたと見なされなければならない。
人の音声を認識してこれをより標準的な意味単位の集合(即ち、意味論的な単位を少なくとも一つ含む集合)に変換するための試みが複数行われたことがある。このような意味単位集合は、特定言語に該当するデジタル音声で出力されるか特定言語のテキストで表記されるものでもある。前者の場合、意味単位集合は広義の音声認識の一つであるアナログ音声の分析による結果であるデジタル音声であり得、後者の場合、意味単位集合は狭義の音声認識による結果である音声認識テキストであり得る。
しかし、前記のような試みによって獲得される意味単位集合は、品質の側面においてある程度限界があった。例えば、人ごとに無数に多様な発話習慣や一部人物の不明瞭な発音、辞典にない語彙や方言の使用、周辺の雑音などは音声認識技術に依存し意味単位の集合を導出する作業に実質的な困難を課するものであった。
したがって、本発明者は少なくとも一つの意味単位の集合を改善用音声(即ち、改善のために別に発話される音声)を用いて改善して、結果的にさらに優れた品質の意味単位集合が獲得されるようにするための新たな技術をここで提示するところである。
一方、改善用音声による改善の対象になる意味単位集合が必ずしも音声認識技術によって獲得されたものに限定されなければならないのでもない。例えば、改善の対象になる意味単位集合は使用者によって最初からテキストとして入力されたものであり得る(即ち、音声認識技術によって獲得されたものではなくてもよい)。
そして、逆に、改善の対象になる意味単位集合が音声認識技術によって獲得されたものであり、これを改善するために、改善用音声でない改善用テキストが使用される場合までも想定することができる。
本発明者は、前記のような様々な場合において用いることができる新たな技術もここで共に提示するところである。
本発明は、前述した従来技術の問題点を全て解決することをその目的とする。
本発明は、少なくとも一つの意味単位の集合を音声やテキストを用いて改善することを他の目的とする。
本発明は、音声認識の結果を容易に、そして正確に改善することを他の目的とする。
本発明は、テキスト入力の結果を容易に、そして正確に改善することを他の目的とする。
少なくとも一つの意味単位を含む集合は、それが所定の電子装置(図示せず)を通じて人のアナログ的な音声を認識した結果物としてのデジタル音声やテキストなのか、それとも所定の電子装置(図示せず)を通じて入力された後に(例えば、キーボードやキーパッドによって入力された後に)TTS(Text To Speech)技術によって出力されるデジタル音声や同様に入力された後に画面上でディスプレイされるテキストなのかを問わず、以下で説明される本発明により改善用音声によって改善することができる。このような改善の様態として、音声認識結果の修正、入力されてディスプレイされたテキストにおける誤字の修正などが挙げられる。
一方、少なくとも一つの意味単位を含む集合は、それが所定の電子装置(図示せず)を通じて人のアナログ的な音声を認識した結果物としてのデジタル音声やテキストである場合、以下で説明される本発明により改善用テキストによって改善することもできる。このような改善の様態として、音声認識結果の修正が挙げられる。
前記のような観点から前記目的を達成するための本発明の代表的な構成は次の通りである。
本発明の一態様によれば、少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、使用者の発話により改善用音声を受信する段階、前記改善用音声に基づいて改善用意味単位集合を特定する段階、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および前記捕捉された意味単位集合内の前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階を含む方法が提供される。
この他にも、本発明を実現するための他の方法、他の装置および前記方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体がさらに提供される。
本発明によれば、少なくとも一つの意味単位の集合を音声やテキストを用いて改善することができるようになる。
本発明によれば、音声認識の結果を容易に、そして正確に改善することができるようになる。
本発明によれば、テキスト入力の結果を容易に、そして正確に改善することができるようになる。
後述する本発明に関する詳細な説明は、本発明が実施できる特定実施形態を例示として示す添付図面を参照する。このような実施形態は当業者が本発明を実施するのに十分であるように詳しく説明される。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないことが理解されなければならない。例えば、本明細書に記載されている特定形状、構造および特性は本発明の精神および範囲を逸脱せずに一実施形態から他の実施形態に変更して実現することができる。また、それぞれの実施形態内の個別構成要素の位置または配置も本発明の精神と範囲を逸脱せずに変更することができることが理解されなければならない。したがって、後述する詳細な説明は限定的な意味として行われるのではなく、本発明の範囲は特許請求の範囲の請求項が請求する範囲およびそれと均等な全ての範囲を包括するものとして受け入れられなければならない。図面における類似の参照符号は多様な側面にわたって同一または類似の構成要素を示す。
以下、本発明の属する技術分野における通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の様々な好ましい実施形態について添付した図面を参照して詳しく説明する。
[本発明の好ましい実施形態]
装置の構成
図1は本発明の一実施形態による意味単位改善装置の外観を概略的に示す図である。
装置の構成
図1は本発明の一実施形態による意味単位改善装置の外観を概略的に示す図である。
図1に示されているように、意味単位改善装置100は、使用者に各種意味単位集合などに関する視覚的な情報をディスプレイするディスプレイ部110(例えば、ディスプレイパネル)、意味単位改善装置100の種類によって使用者が押すか触れると所定の機能が遂行されるようにすることができるボタン部120(例えば、スマートフォンのホームボタン)、意味単位改善装置100で発生される音声や音響を出力することができる音出力部130(例えば、スピーカ)、音響センサ(多くの場合、ボタン部120の下付近に配置されるマイク)(図示せず)、その他公知の電機電子部品(図示せず)などを含むことができる。図1で意味単位改善装置100がスマートフォンであるように示されたが、意味単位改善装置100がこれに制限されるのではなく、デスクトップコンピュータ、ノートパソコン、ワークステーション、PDA、ウェブパッド、移動電話機(スマートフォンではないもの)、各種スマートウエアラブルデバイス(例えば、スマートウォッチ、スマートバンド、スマートガラス、スマートリングなど)などのようにメモリ手段を備えマイクロプロセッサを搭載して演算能力を備えたデジタル機器であればいくらでも本発明による意味単位改善装置100として採択することができる。
一方、ディスプレイ部110は公知のタッチパネルとして作用して使用者のテキスト入力を受信するための機能をさらに遂行することができる。この時、使用者のテキスト入力はタッチパネルと連動してソフトウェア的に提供されるタッチパネル上のキーボード(図示せず)やキーパッド(図示せず)によって行うことができる。但し、意味単位改善装置100は別途のハードウェアキーボード/キーパッド(図示せず)を含み、使用者のテキスト入力を受信することもできる。
以下では、意味単位改善装置100の内部構成について図2を参照して詳しく説明する。図2は本発明の一実施形態による意味単位改善装置の内部構成を概念的に示すブロック図である。
図2に示されているように、本発明の一実施形態による意味単位改善装置100は、音声感知部210、音声処理部220、意味単位改善部230、データベース250および制御部260を含むことができる。本発明の一実施形態によれば、音声感知部210、音声処理部220、意味単位改善部230、データベース250および制御部260は、そのうちの少なくとも一部が所定の演算を行うか、他のハードウェア構成要素やソフトウェア構成要素を管理するか、このような構成要素と通信するためのプログラムモジュールであってもよい。このようなプログラムモジュールは、運営システム、応用プログラムモジュールまたはその他のプログラムモジュールの形態に意味単位改善装置100に含まれてもよく、物理的には様々な公知の記憶装置に保存されてもよい。また、このようなプログラムモジュールは、意味単位改善装置100と通信可能な遠隔記憶装置(図示せず)や、さらに外部の演算装置(図示せず)に保存されてもよい。したがって、意味単位改善装置100の機能の少なくとも一部は当業者の自由な選択により外部演算装置などによって実行されてもよい。一方、このようなプログラムモジュールは、本発明によって後述する特定業務を遂行するか特定抽象データ類型を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されない。
まず、本発明の一実施形態による音声感知部210は、使用者などによって発話される音声、即ち、改善の対象になる少なくとも一つの意味単位の集合を含むさらに大きい意味単位集合に該当するアナログ音声や、前記のような改善のために使用者によって別にさらに発話される改善用音声を感知する機能を遂行することができる。
このために、音声感知部210は、前述のような音響センサをその一部として含むか、少なくともこのような音響センサと通信することができる。このような音響センサの例には、マイクのような一般的な音響センサはもちろん、振幅の小さい音声信号も感知できる騒音センサと振動センサ、超音波センサなどが含まれる。
音響センサは、意味単位改善装置100の音声感知部210、シャーシ(chassis)、メインボード(図示せず)、PCB(Printed Circuit Board)(図示せず)、エンクロージャ(enclosure)(図示せず)などのうちの少なくともある一部分に配置することができる。
そして、音声感知部210は、感知された音声のアナログ信号を後述のような音声処理部220に伝達することができる。
その次に、本発明の一実施形態による音声処理部220は、音声感知部210から伝達されたアナログ音声信号をデジタル信号に変換する機能を遂行することができる。
音声処理部220は、公知のアナログ−デジタルコンバータを含むことができる。したがって、音声処理部220は、標本化(sampling)、量子化(quantization)および符号化(encoding)のプロセスのうちの少なくとも一つを遂行することによって、改善の対象になる意味単位集合を含むさらに大きい意味単位集合に該当する音声や改善用音声の信号をアナログ信号からデジタル信号に変換することができる。
また、音声処理部220は、必要に応じて、音声信号を増幅させたり、音声信号から騒音を除去したり、特定周波数帯域の音声信号のみを選別的に受信したり、音声信号の波形を変更したりすることができる。このために、音声処理部220は、公知の増幅器、騒音フィルタ、バンドパス/バンドリジェクトフィルタ、カルマン(Kalman)フィルタ、EMAフィルタ、サビツキー−ゴーレイ(Savitzky−Golay)フィルタなどを含むことができる。また、音声処理部220は、時間ドメインの音声信号を周波数ドメインのものに変換する処理やその逆の処理を行うこともできる。
そして、音声処理部220は、処理の結果物であるデジタル音声信号を後述のような意味単位改善部230に伝達することができる。
その次に、本発明の一実施形態による意味単位改善部230は、音声処理部220から伝達されたデジタル音声信号による、改善の対象になる特定意味単位集合を含むさらに大きい意味単位集合を捕捉することができる。これは物理的には該当デジタル音声自体であるか、そのテキストへの変換結果であり得る。後者の場合や後述のような他の音声認識ニーズのために、意味単位改善部230は公知の音声認識モジュールを含むか、これと連動できる。以下では、前記のような意味単位集合を“捕捉された意味単位集合”と称することにする。
一方、意味単位改善部230は、また、音声処理部220から伝達されたデジタル音声信号による改善用音声を特定することができる。以下では、前記のように特定された改善用音声に該当する意味単位集合を“改善用意味単位集合”と称することにする。これも物理的には該当デジタル音声自体であるか、そのテキストへの変換結果であり得る。
また一方、意味単位改善部230で扱われる捕捉された意味単位集合は必ずしもデジタル音声信号に由来する必要もない。即ち、例えば、アナログ的またはデジタル的な音声の発生とは関係なく、使用者のキー入力、光学文字読み取りなどによって獲得されたテキストに該当する意味単位集合も前記のような捕捉された意味単位集合になり得る。
また一方、所定の改善用テキストが改善用意味単位集合を構成してもよい。例えば、使用者がキーボードによって入力したテキストが直ちに改善用意味単位集合になり得る。
そして、意味単位改善部230は、捕捉された意味単位集合と改善用意味単位集合を比較して、捕捉された意味単位集合から改善用意味単位集合と高い関連性を示す、実際的な改善の対象になる意味単位集合を抽出することができる。このような抽出を改善の対象になる意味単位集合と改善用意味単位集合の間の“マッチング”と称することができる。このようなマッチングのために遂行される前記比較はデジタル音声間の比較であってもよく、テキスト間の比較であってもよく、デジタル音声とテキスト間の比較であってもよい(但し、この場合には、デジタル音声とテキストのうちの一つが他の一つと同一形式のものに事前に変換されることが必要であり得る)。マッチングされた改善対象意味単位集合は、便宜上、“マッチングされた意味単位集合”と称することにする。これは一つの捕捉された意味単位集合内に一つのみ存在してもよいが、複数個存在してもよい。
一方、意味単位改善部230は、マッチングのために使用者の入力(即ち、改善用音声の発話や改善用テキストの入力以外の他の入力)による情報をさらに活用することもできる。例えば、比較的に高い関連性の意味単位集合が複数個抽出されると、使用者がこのうちの少なくとも一部を受動的に選択するようにすることによってマッチングされた意味単位集合を決定することもできる。
本発明によるマッチングについては以下でさらに詳述することにする。
本発明によるマッチングについては以下でさらに詳述することにする。
その次に、意味単位改善部230は、捕捉された意味単位集合を改善用意味単位集合によって改善することができる。即ち、マッチングされた意味単位集合は改善用意味単位集合に交替することができる。このような交替は、捕捉された意味単位集合内に存在したマッチングされた意味単位集合を削除し、その代わりにその位置に改善用意味単位集合を挿入することであり得る。その結果物は、捕捉された意味単位集合が物理的形式は維持するが、その品質は改善されたものであり得る。このような結果物は物理的にはデジタル音声であるかテキストであり得る。
本発明による意味単位集合の改善については以下でさらに詳述することにする。
本発明による意味単位集合の改善については以下でさらに詳述することにする。
その次に、本発明の一実施形態によるデータベース250には、捕捉された意味単位集合、改善用意味単位集合、そしてマッチングに関する情報が保存される。例えば、図2でデータベース250が意味単位改善装置100に含まれて構成されるものとして示されているが、本発明を実現する当業者の必要に応じて、データベース250は意味単位改善装置100と別個に構成されてもよい。一方、本発明のデータベース250は、コンピュータ読み取り可能な記録媒体を含む概念であって、狭義のデータベースだけでなくファイルシステムに基盤をおいたデータ記録などを含む広義のデータベースであってもよく、単純なログの集合でもこれを検索してデータを抽出することができれば、本発明のデータベース250になり得る。
最後に、本発明の一実施形態による制御部260は、音声感知部210、音声処理部220、意味単位改善部230およびデータベース250間のデータの流れを制御する機能を遂行することができる。即ち、本発明による制御部260は、意味単位改善装置100の各構成要素間のデータの流れを制御することによって、音声感知部210、音声処理部220、意味単位改善部230およびデータベース250でそれぞれ固有機能を遂行するように制御することができる。
マッチング
以下では、図3を参照して、前記に略述したようなマッチングについて詳しく説明する。図3は本発明の実施形態によるマッチング方法に関する例示的なフローチャートである。
以下では、図3を参照して、前記に略述したようなマッチングについて詳しく説明する。図3は本発明の実施形態によるマッチング方法に関する例示的なフローチャートである。
まず、意味単位改善部230は、改善用意味単位集合を特定する段階(S1)を遂行することができる。
一実施形態によれば、意味単位改善部230は、音声処理部220から伝達されたデジタル音声信号のうちの使用者の所定の指示の前または後に(または、直前または直後に)伝達されたデジタル信号の音声を改善用音声として、即ち、改善用意味単位集合として特定することができる(前記のような指示は使用者の予め約束された単語の発話や予め約束されたキーの入力であり得る。
例えば、使用者が“I can correct typing at all without backspace error”に該当する音声を発話してから所定の指示を出した場合、“error”に該当するデジタル音声やそれが音声認識によって変換されたテキストが改善用意味単位集合として特定される。このような特定は、“error”に該当する音声部分(即ち、改善用音声)とその前の音声部分(即ち、“backspace”に該当する音声部分または“without backspace”に該当する音声部分)の間の時間間隔が所定の臨界値以上であるという点に基づく。一方、この例では、“I can correct typing at all without backspace”に該当するデジタル音声やそれが音声認識によって変換されたテキストが捕捉された意味単位集合になり得る。
他の実施形態によれば、意味単位改善部230は、例えば、使用者が“I can correct typing at all without backspace”のようなテキスト(即ち、捕捉された意味単位集合)が画面にディスプレイされたことに対して改善をすることを意図し所定の指示を出しながらその前または後に(または、直前または直後に)“error”を発話した場合にも、これに該当するデジタル音声に基づいて改善用意味単位集合を特定することができる。
他の実施形態によれば、意味単位改善部230は、例えば、使用者が“I can correct typing at all without backspace”に該当する音声を発話してから、これが画面にディスプレイされたことを見た後、これに関する改善を意図し所定の指示を出しながらその前または後に(または、直前または直後に)“error”のような改善用テキストをキーボードによって入力した場合にも、これに基づいて改善用意味単位集合を特定することができる。
その次に、意味単位改善部230は、特定された改善用意味単位集合に基づいて、捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合を特定する段階(S2)を遂行することができる。
前記段階の遂行前に、前述のように、実際的な改善の対象になる特定意味単位集合を含むさらに大きい意味単位集合が捕捉されていてもよい。このような捕捉された意味単位集合は、前記に例示されたような、“I can correct typing at all without backspace”の意味単位集合であり得る。
意味単位改善部230は、捕捉された意味単位集合内の単位間の時間間隔やスペースそして/または改善用意味単位集合の長さ(例えば、それに該当するデジタル音声信号の持続時間、テキストの長さ、語節の数、単語の数、音節の数、字の数、語素の数など)に基づいて、捕捉された意味単位集合を、例えば、“I can”、“can correct”、“correct typing”、“typing at”、“at all”、“all without”、“without backspace”などの部分のように、分けて拡張した後に、各部分を改善用意味単位集合と比較してみることができる。もちろん、“I”、“can”、“correct”、“typing”、“at”、“all”、“without”、“backspace”などの部分のように分けるか、“correct”でない“cor”、“rect”などのように分けることも可能である。このような場合、各部分はそのうちの一つ以上が共に、改善用意味単位集合と比較されてもよい。以上でそして以下で、捕捉された意味単位集合を改善用意味単位集合との比較のために分けるか拡張することについて説明するが、捕捉された意味単位集合の部分が改善用意味単位集合と比較される以上、捕捉された意味単位集合の部分への分離(分け)や部分の拡張(即ち、部分の配列が重畳的になるようにすること)以外の他の方式もいくらでも採択されてもよい。
このような比較は、デジタル音声間の比較である場合には、時間ドメインや周波数ドメインでのデジタル音声の特徴の比較であり得る。このような音声特徴のうちの典型的に使用されるものはデジタル音声信号の波(wave)における特徴点であり得る。即ち、同一の再生時間区間内で二つのデジタル音声信号間により多くの共通の特徴点が発見されるほど、二つのデジタル音声が互いにより高い関連性を有すると見ることができる。但し、デジタル音声間の比較のためには多様なアルゴリズムを用いることができるので、考慮対象になるデジタル音声の特徴(特性)は下記のもののうちの一つ以上を自由に含むことができる。
(1)時間ドメインでの音声信号の特性
最大振幅、平均振幅、平均周波数、平均値、標準偏差、全体的な(overall)振幅によってノーマライジングされた標準偏差、分散(variance)、スキューネス(skewness)、クルトシス(Kurtosis)、和、絶対和、実効値(Root Mean Square;RMS)、クレストファクタ、分散(dispersion)、エントロピー(entropy)、パワーサム(power sum)、質量中心(center of mass)、変動係数(coefficients of variation)、相互相関性(cross correlation)、ゼロクロッシング(zero−crossings)、反復性(seasonality)、DCバイアス、または前記音声信号の1次、2次、3次またはそれ以上の次数のデリバティブ(derivative)に対して計算された前記のような特性
最大振幅、平均振幅、平均周波数、平均値、標準偏差、全体的な(overall)振幅によってノーマライジングされた標準偏差、分散(variance)、スキューネス(skewness)、クルトシス(Kurtosis)、和、絶対和、実効値(Root Mean Square;RMS)、クレストファクタ、分散(dispersion)、エントロピー(entropy)、パワーサム(power sum)、質量中心(center of mass)、変動係数(coefficients of variation)、相互相関性(cross correlation)、ゼロクロッシング(zero−crossings)、反復性(seasonality)、DCバイアス、または前記音声信号の1次、2次、3次またはそれ以上の次数のデリバティブ(derivative)に対して計算された前記のような特性
(2)周波数ドメインでの音声信号の特性
スペクトルセントロイド(spectral centroid)、スペクトルデンシティ(spectral density)、球面調和関数(spherical harmonics)、総平均スペクトルエネルギー(total average spectral energy)、毎オクターブでの帯域エネルギー比率(band energy ratio for every octave)、ログスペクトル帯域比率(log spectral band ratio)、線形予測基盤のケプストラム係数(Linear Prediction−based Cepstral Coefficients;LPCC)、知覚線形予測(Perceptual Linear Prediction;PLP)ケプストラム係数、メル−周波数ケプストラム係数、周波数位相、または前記音声信号の周波数ドメイン表現の1次、2次、3次またはそれ以上の次数のデリバティブに対して計算された前記のような特性
スペクトルセントロイド(spectral centroid)、スペクトルデンシティ(spectral density)、球面調和関数(spherical harmonics)、総平均スペクトルエネルギー(total average spectral energy)、毎オクターブでの帯域エネルギー比率(band energy ratio for every octave)、ログスペクトル帯域比率(log spectral band ratio)、線形予測基盤のケプストラム係数(Linear Prediction−based Cepstral Coefficients;LPCC)、知覚線形予測(Perceptual Linear Prediction;PLP)ケプストラム係数、メル−周波数ケプストラム係数、周波数位相、または前記音声信号の周波数ドメイン表現の1次、2次、3次またはそれ以上の次数のデリバティブに対して計算された前記のような特性
一方、前記のような比較はテキスト間の比較であり得る。この場合、テキストはその語節、単語、音節、字および語素のうちの少なくとも一つに関して比較することができる。このような比較のために公知のテキスト比較アルゴリズムを一つ以上採用することができる。例えば、音節ごとの順次的な類似度(例えば、音価やスペリングの類似度)の高い二つのテキストは相互間に高い関連性を有するテキストと規定することができる。
比較の結果、意味単位改善部230は、捕捉された意味単位集合内で改善用意味単位集合と高い関連性を示す部分をマッチングされた意味単位集合と決定することができる。前記の例では結局、“at all”部分に該当するデジタル音声またはテキストがマッチングされた意味単位集合と決定することができる。
具体的な比較方法
ここでは意味単位改善部230によって遂行される前記のような比較の方法についてより具体的に説明する。ここで例示される多様な関連性点数演算方法は、捕捉された意味単位集合の部分と改善用意味単位集合の間の最善の比較のために、その少なくとも一つ以上が当業者によって自由に採択され得るのに留意しなければならない。
ここでは意味単位改善部230によって遂行される前記のような比較の方法についてより具体的に説明する。ここで例示される多様な関連性点数演算方法は、捕捉された意味単位集合の部分と改善用意味単位集合の間の最善の比較のために、その少なくとも一つ以上が当業者によって自由に採択され得るのに留意しなければならない。
意味単位改善部230は、前記に説明された場合1乃至8のうちのどの場合においても結局デジタル音声間の比較やテキスト間の比較を遂行するようになる。なぜなら、デジタル音声とテキストの間で比較を遂行するようになる時にも、本格的な比較前に、二つの意味単位集合の形式をデジタル音声とテキストのうちの一つに統一するようになるためである。このために、意味単位改善部230は公知の音声認識モジュールおよび/または公知のTTSモジュールを含むか、少なくともこれと連動できる。
まず、デジタル音声間の比較が遂行される場合について図5を参照して説明する。図5は本発明の一実施形態によるデジタル音声比較方法について示すフローチャートである。
段階501では、意味単位改善部230が改善用意味単位集合に該当するデジタル音声の長さを測定できる。このような長さの単位は通常時間(秒)であり得る。
段階502では、意味単位改善部230が捕捉された意味単位集合を前記長さまたは前記長さに所定の長さが加算されるか減算された長さによって多数の部分に分けて拡張することができる。例えば、捕捉された意味単位集合が再生時間が10秒であるデジタル音声であり、改善用意味単位集合が再生時間が1秒であるデジタル音声であれば、捕捉された意味単位集合は該当再生時間区間が0秒乃至1秒、0.1秒乃至1.1秒、…、8.9秒乃至9.9秒、および9秒乃至10秒である91個の部分に分けられて拡張される。意味単位改善部230や意味単位改善装置100の性能によって、前記のような部分の個数は適切に調節することができる。
段階503では、意味単位改善部230が捕捉された意味単位集合の各部分を改善用意味単位集合と比較することができる。比較の本質はデジタル音声信号の特性の比較であり得る。このような比較は、好ましくは所定の関連性点数演算を含むことができる。例えば、互いに対応する時間区間内で、二つのデジタル音声信号間に同一であるかほとんど類似した特徴点が発見されるたびに、関連性点数が累積的に増加するようにすることができる。これにより決定される関連性点数は捕捉された意味単位集合の該当部分に対して付与されてもよい。もちろん、当業者の選択により、前述のような様々な他の特性(周波数ドメインでの特性を含む)の一致性有無や一致性程度が関連性点数演算の根拠になり得る。
このような段階503は、必要に応じて反復的に遂行されてもよい。即ち、使用者が同一趣旨の改善用音声を2回以上発話するように誘導された後に、意味単位改善部230が捕捉された意味単位集合の部分の全部または既に所定の関連性点数が付与されている一部に関してデジタル音声比較による関連性点数演算を2回以上反復的に遂行することができる。反復的な関連性点数演算後に、最も高い関連性点数(累積点数または平均点数)が付与された捕捉された意味単位集合部分がマッチングされた意味単位集合と決定される。
その次に、テキスト間の比較が遂行される場合について図6を参照して説明する。図6は本発明の一実施形態によるテキスト比較方法について示すフローチャートである。
段階601では、意味単位改善部230が改善用意味単位集合に該当するテキストの長さを測定できる。このようなテキストの長さは通常語節、単語、音節、字、語素などの個数で表現されてもよい。例えば、改善用意味単位集合に該当するテキストは“error”であり、これは二つの音節という長さを有する。
段階602では、意味単位改善部230が捕捉された意味単位集合を前記長さまたは前記長さに所定の長さが加算されるか減算された長さによって複数の部分に分けて拡張することができる。例えば、捕捉された意味単位集合が“I can correct typing at all without backspace”のようなテキストであれば、捕捉された意味単位集合の分けられてから拡張された部分は“I”、“can”、“correct”、“I can”、“can correct”、“I can correct”、“cor”、“rect”などを多様に含むことができる(前記の捕捉された意味単位集合の他の部分に関しても同様である)。但し、最も好ましく分けられて拡張された部分は、“I can”、“can cor”、“correct”、“rect ty”、“typing”、“ping at”、“at all”、“all with”、“without”、“out back”、“backspace”などのように二つの音節を有するものであってもよい。意味単位改善部230や意味単位改善装置100の性能により、前記のような部分の個数は適切に調節することができる。
段階603では、意味単位改善部230が捕捉された意味単位集合の各部分を改善用意味単位集合と比較することができる。比較は、テキスト間の、語節、単語、音節、字および語素のうちの少なくとも一つに関する順次的な比較であってもよい。このような比較は、好ましくは所定の関連性点数演算を含むことができる。例えば、互いに対応する位置で、二つのテキスト間に同一であるかほとんど類似した音節が発見されるたびに、関連性点数が累積的に増加するようにすることができる。これにより決定される関連性点数は捕捉された意味単位集合の該当部分に対して付与されてもよい。ここで、二つのテキストの間でほとんど類似していると判断されるものはスペリングが類似した音節であり得るが、むしろ音価が類似した音節であり得る。例えば、捕捉された意味単位集合の一つの部分に該当するテキストが“at all”であり、改善用意味単位集合に該当するテキストが“error”である場合、同じ流音の“l”と“r”をそれぞれ含む音節である“all”と“or”が互いにほとんど類似していると判断することができる。これは、必然的に捕捉された意味単位集合の部分の中の“at all”部分の関連性点数の増加を招くことができる。
一方、比較は、テキスト間の、意味的な連関関係に基づいた全体的な比較であり得る。このような連関関係は、二つのテキストにそれぞれ該当する二つの単語が同一なカテゴリーに属するか、事実上類似の意味を示すかなどにより発見することができる(このような単語のカテゴリーや意味に関する参照は公知の語学的なライブラリーに対して行うことができる)。例えば、捕捉された意味単位集合が“I can do it this Saturday”のテキストであり、改善用意味単位集合のテキストが“may”であるか“Friday”である場合、改善用意味単位集合“may”は捕捉された意味単位集合の部分である“can”と意味的な連関関係(即ち、英語助動詞)を有すると把握することができ(たとえ、音価やスペリングが全く異なるにも拘らずこのようである)、改善用意味単位集合“Friday”は捕捉された意味単位集合の部分である“Saturday”と意味的な連関関係(即ち、曜日カテゴリー)を有すると把握することができる(たとえ、音価やスペリングが前の部分において全く異なるにも拘らずこのようである)。発見される連関関係はそれに該当する捕捉された意味単位集合の部分の関連性点数を増加させる要因になり得る。
また、一方、比較は、テキスト間の、キー位置連関関係に基づいた比較であり得る。このような比較は、捕捉された意味単位集合に属する一部分のテキストのスペリングと改善用意味単位集合のテキストのスペリングを順次に比較し、比較結果、互いに同じスペリングが発見された場合だけでなく、互いに異なるスペリングがキーボード上で互いに隣接していたと判断された場合にも、関連性点数を前記部分に対して付与する比較であり得る。例えば、QWERTYキーボードが使用された場合、捕捉された意味単位集合内の一部分のテキストであり得る“wyw”はその音価やスペリングが全く異なる改善用意味単位集合のテキスト“eye”に関して高い関連性点数を有すると判断することができる。
このような段階603は、必要に応じて反復的に遂行されてもよい。即ち、使用者が同様の趣旨の改善用音声を2回以上発話するように誘導された後に、意味単位改善部230が捕捉された意味単位集合の部分の全部または既に所定の関連性点数が付与されている一部に関してテキスト比較による関連性点数演算を2回以上反復的に遂行することができる。反復的な関連性点数演算後に最も高い関連性点数(累積点数または平均点数)が付与された捕捉された意味単位集合部分がマッチングされた意味単位集合と決定される。
本発明の一実施形態によれば、関連性点数をより合理的に導出するために、必要に応じて、前述のような関連性点数演算方法が2種類以上共に採択されてもよい。このような場合、一つの方法による関連性点数と該当加重値が掛けられた値が、他の一つの方法による関連性点数と該当加重値が掛けられた値と合算されてもよい。これにより、導出された関連性点数は複合的な関連性点数になり得る。この場合も、複合的な関連性点数が高い、捕捉された意味単位集合の一つの部分またはいくつかの部分がマッチングされた意味単位集合になり得る。
一つの方法による関連性点数に対して掛けられる加重値は、意味単位改善装置100が置かれた環境や使用者の意図によって異なるように決定されてもよい。例えば、使用者が改善用意味単位集合を生成するために改善用音声を反復的に発話した場合、デジタル音声比較による関連性点数に対してより高い加重値を付与することができる。または、使用者が捕捉された意味単位集合に該当するテキストを作成し、誤字が発生しやすい小さいタッチパネルによって作成した場合、テキスト比較による関連性点数の中でもキーボード上のキー隣接関係を考慮した関連性点数により高い加重値を付与することができる。
意味単位集合の改善
以下では、図4を参照して、前記に略述したような意味単位集合の改善について詳しく説明する。図4は本発明の実施形態による意味単位改善方法に関する例示的なフローチャートである。
以下では、図4を参照して、前記に略述したような意味単位集合の改善について詳しく説明する。図4は本発明の実施形態による意味単位改善方法に関する例示的なフローチャートである。
まず、意味単位改善部230は、マッチングされた意味単位集合を改善用意味単位集合に交替する段階(段階T1)を遂行することができる。この場合、交替の結果物は、捕捉された意味単位集合がマッチングされた意味単位集合の代わりに改善用意味単位集合を含むようになったものであり得る。このような交替の結果物は、改善された音声認識結果であり得、改善されたテキストであり得る。前記の例によれば、改善された音声認識結果乃至テキストは、“I can correct typing error without backspace”であり得る。これは、使用者の元の意図に正確に符合する結果であり得る。
その次に、意味単位改善部230は、改善後に代用される捕捉された意味単位集合に該当するデジタル音声を使用者に聞かせるか、それに該当するテキストをディスプレイする段階(段階T2)を遂行することができる。したがって、前記の例によれば、使用者に聞こえるかディスプレイされるものは“I can correct typing error without backspace”の意味単位集合に該当するデジタル音声やテキストであり得る。
しかし、場合によって、改善用音声は十分な改善を担保できないこともある(改善用テキストの場合にはこのような問題が殆どない)。これは、使用者に内在された問題(例えば、発音の不正確、放言の使用など)によって改善用音声の品質が最初から十分に高くなくてそれが他の意味単位集合に該当すると誤認識されたり、環境的な問題(例えば、雑音が介入される環境、意味単位改善装置100の低い仕様など)によって改善用音声の品質がそれほど低くないにもかかわらず、その特定過程でそれが他の意味単位集合に該当すると誤認識されたりするためであり得る。このような場合、使用者に聞こえるかディスプレイされるものは、改善試み後にも、例えば、“I can correct typing error without backspace”の意味単位集合に該当するデジタル音声やテキストではなく、依然として“I can correct typing at all without backspace”の意味単位集合に該当するデジタル音声やテキストであるか、“I can correct typing era without backspace”の意味単位集合に該当するデジタル音声やテキストであり得る。これは、使用者にとって非常に残念な結果であり得る。
したがって、本発明の一実施形態によれば、以下のような付加的な段階がさらに遂行されてもよい。
典型的には段階T2の遂行後に、代案的には段階T1の遂行後段階T2の遂行前または段階T1の遂行前に、改善用音声と共に所定の付加情報がさらに使用されると、意味単位改善部230がこれにも基づいて改善用音声に該当する意味単位集合をさらに精巧に特定できる。以下では、これが可能であるようにする付加情報の様々な例について説明する。
1−1.部分スペリング
例えば、使用者は、前記の例で改善用音声に該当する“error”以外に“e”、“r”および“r”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、所定の個数のアルファベット字が連続で発話されてから該当アルファベット字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定)やその他のマシンラーニング技法に基づいて、“e”、“r”および“r”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。これは明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。
例えば、使用者は、前記の例で改善用音声に該当する“error”以外に“e”、“r”および“r”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、所定の個数のアルファベット字が連続で発話されてから該当アルファベット字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定)やその他のマシンラーニング技法に基づいて、“e”、“r”および“r”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。これは明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。
1−2.フォネティックコード
例えば、使用者は前記の例で改善用音声に該当する“error”以外に“echo”、“romeo”および“romeo”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、所定の個数のフォネティックコードが連続で発話されてから該当アルファベットの字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定)やその他のマシンラーニング技法に基づいて、“echo”、“romeo”および“romeo”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。
例えば、使用者は前記の例で改善用音声に該当する“error”以外に“echo”、“romeo”および“romeo”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、所定の個数のフォネティックコードが連続で発話されてから該当アルファベットの字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定)やその他のマシンラーニング技法に基づいて、“echo”、“romeo”および“romeo”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。
一方、前記のような部分スペリング技法は、韓国語においては、特定が難しい方である複母音字の解体式発話(例えば、
という改善用意味単位集合のための
および
の順次的な発話)によって実行されてもよく、日本語においては、漢字の偏に関する発話(例えば、“嶋田”(しまだ)という改善用意味単位集合がとかく“島田”(しまだ)と誤認されないようにするための“山偏”(やまへん)の追加発話)によって実行されてもよい。
という改善用意味単位集合のための
および
の順次的な発話)によって実行されてもよく、日本語においては、漢字の偏に関する発話(例えば、“嶋田”(しまだ)という改善用意味単位集合がとかく“島田”(しまだ)と誤認されないようにするための“山偏”(やまへん)の追加発話)によって実行されてもよい。
2.ヒント単語
例えば、使用者は前記の例で改善用音声に該当する“error”以外に“of”および“erroneous”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、改善用音声が発話される部分で“of”が発話されると、その後の音声に該当する単語をヒント単語と見なす設定)やその他のマシンラーニング技法に基づいて、“erroneous”が実は改善用意味単位集合をさらに精巧に特定するためのヒント単語(即ち、少なくともその一部において正しい改善用意味単位集合の単語と同一または類似のスペリングを有する単語)に該当するのを把握することができる。これは、明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。ここで、予約語に該当すると見ることができる“of”は“like”などのように使用者が理解しやすく誤認識率の低い他の単語に代替されてもよい。
例えば、使用者は前記の例で改善用音声に該当する“error”以外に“of”および“erroneous”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、改善用音声が発話される部分で“of”が発話されると、その後の音声に該当する単語をヒント単語と見なす設定)やその他のマシンラーニング技法に基づいて、“erroneous”が実は改善用意味単位集合をさらに精巧に特定するためのヒント単語(即ち、少なくともその一部において正しい改善用意味単位集合の単語と同一または類似のスペリングを有する単語)に該当するのを把握することができる。これは、明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。ここで、予約語に該当すると見ることができる“of”は“like”などのように使用者が理解しやすく誤認識率の低い他の単語に代替されてもよい。
一方、前記の例以外にも、使用者が改善用音声として“Zoe”を発話したが、それが“Joe”と認識され誤った改善が行われた場合、使用者は“Zoe”をもう一度発話しながら、“Z of Zebra”のように、正しい改善用意味単位集合に含まれなければならないアルファベットを強調するためのヒント単語を該当アルファベットおよび予約語と共にさらに発話することができる。これにより、意味単位改善部230は、改善用意味単位集合を前記ヒント単語の前記アルファベットを含むように、即ち、“Zoe”になるように訂正することができる。
韓国語の場合にも、
が
と誤認識された場合、使用者がもう一度
を発話しながら
をさらに発話すると、意味単位改善部230がこれにより改善用意味単位集合をヒント単語
の字
を含むように、即ち、
になるように訂正することができる。
が
と誤認識された場合、使用者がもう一度
を発話しながら
をさらに発話すると、意味単位改善部230がこれにより改善用意味単位集合をヒント単語
の字
を含むように、即ち、
になるように訂正することができる。
日本語の場合にも、“感じ”(かんじ)が“漢字”(かんじ)と誤認識されたのを訂正するために、“感動の感”(かんどうのかん)が追加発話されるようにしたり、“買いに”(かいに)が“海に”(かいに)と誤認識されたのを訂正するために、“買い物の買い”(かいもののかい)が追加発話されるようにしたりすることができる。
一方、言語と関係なく、正しい改善用意味単位集合と意味が類似した単語が追加発話されるようにしたり(例えば、“error”が改善用意味単位集合になるようにするために予約語の“like”と共に類義語の“mistake”が追加発話されるようにしたり)、上下位関係にある単語が追加発話されるようにしたり(例えば、“Kia”が改善用意味単位集合になるようにするために、予約語の“like”と共に関係語の“car company”が追加発話されるようにしたり)、連想語が追加発話されるようにすることもできる(例えば、
が改善用意味単位集合になるようにするために予約語の“like”と共に連想語の
が追加発話されるようにしたり、“queries”が改善用意味単位集合になるようにするために予約語の“for”と共に連想語の“database”が追加発話されるようにしたりすることができる)。
が改善用意味単位集合になるようにするために予約語の“like”と共に連想語の
が追加発話されるようにしたり、“queries”が改善用意味単位集合になるようにするために予約語の“for”と共に連想語の“database”が追加発話されるようにしたりすることができる)。
即ち、意味単位改善部230は、使用者が改善用音声の付近で予約語と共にヒント単語(または、ヒント字)をさらに発話すると、これを解釈して改善用音声に該当する改善用意味単位集合がより一層精巧に特定されるようにすることができる。
以上に説明された本発明による実施形態は、多様なコンピュータ構成要素を通じて実行されるプログラム命令語の形態に実現されコンピュータ読み取り可能な記録媒体に記録される。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク(登録商標)および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical medium)、およびROM、RAM、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使用してコンピュータによって実行される高級言語コードも含まれる。ハードウェア装置は、本発明による処理を遂行するために一つ以上のソフトウェアモジュールに変更されてもよく、その逆も同様である。
以上で本発明が、具体的な構成要素などのような特定事項と限定された実施形態および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明が前記実施形態に限定されるのではなく、本発明の属する技術分野における通常の知識を有する者であればこのような記載から多様な修正と変更を図ることができる。
したがって、本発明の思想は前述の実施形態に限定されて決められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なまたはこれから等価的に変更された全ての範囲は本発明の思想の範疇に属するというべきである。
したがって、本発明の思想は前述の実施形態に限定されて決められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なまたはこれから等価的に変更された全ての範囲は本発明の思想の範疇に属するというべきである。
Claims (13)
- 少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、
使用者の発話により改善用音声を受信する段階、
前記改善用音声に基づいて改善用意味単位集合を特定する段階、
前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および
前記捕捉された意味単位集合内の前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階
を含む方法。 - 前記改善用意味単位集合特定段階は、前記改善用意味単位集合の長さを測定する段階を含む、請求項1に記載の方法。
- 前記マッチングされた意味単位集合特定段階は、前記捕捉された意味単位集合を単位間の間隔や前記改善用意味単位集合の前記長さに基づいて多数の部分に分けて拡張する段階を含む、請求項2に記載の方法。
- 前記マッチングされた意味単位集合特定段階は、前記捕捉された意味単位集合の前記多数の部分のそれぞれと前記改善用意味単位集合を比較する段階をさらに含む、請求項3に記載の方法。
- 前記比較段階は、前記捕捉された意味単位集合の前記多数の部分のそれぞれに該当するデジタル音声信号の特徴と前記改善用意味単位集合に該当するデジタル音声信号の特徴を比較する段階を含む、請求項4に記載の方法。
- 前記比較段階は、前記捕捉された意味単位集合の前記多数の部分のそれぞれに該当するテキストと前記改善用意味単位集合に該当するテキストを比較する段階を含む、請求項4に記載の方法。
- 前記テキスト比較段階は、前記二つのテキストを音価やスペリングについて順次に比較する段階を含む、請求項6に記載の方法。
- 前記テキスト比較段階は、前記二つのテキストが同一のカテゴリーに属するかまたは類似の意味を示すかを比較する段階を含む、請求項6に記載の方法。
- 前記テキスト比較段階は、前記二つのテキストをキー位置連関関係に基づいて比較する段階を含む、請求項6に記載の方法。
- 少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は使用者の発話による音声から捕捉された意味単位集合であり、
使用者の改善用テキストの入力を受信する段階、
前記改善用テキストに基づいて改善用意味単位集合を特定する段階、
前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および
前記捕捉された意味単位集合内の前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階
を含む方法。 - 請求項1乃至10のうちのいずれか一項による方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体。
- 少なくとも一つの意味単位を含む集合を改善するための装置であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、
使用者の発話により改善用音声を受信する音声感知部、および
前記改善用音声に基づいて改善用意味単位集合を特定し、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定し、前記捕捉された意味単位集合内の前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する意味単位改善部
を含む装置。 - 少なくとも一つの意味単位を含む集合を改善するための装置であって、前記少なくとも一つの意味単位を含む前記集合は使用者の発話による音声から捕捉された意味単位集合であり、
使用者の改善用テキストの入力を受信する手段、および
前記改善用テキストに基づいて改善用意味単位集合を特定し、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定し、前記捕捉された意味単位集合内の前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する意味単位改善部
を含む装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140048315A KR101651909B1 (ko) | 2014-04-22 | 2014-04-22 | 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치 |
KR10-2014-0048315 | 2014-04-22 | ||
KR10-2014-0077056 | 2014-06-24 | ||
KR1020140077056 | 2014-06-24 | ||
PCT/KR2015/004010 WO2015163684A1 (ko) | 2014-04-22 | 2015-04-22 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016521383A true JP2016521383A (ja) | 2016-07-21 |
Family
ID=54332775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016515299A Pending JP2016521383A (ja) | 2014-04-22 | 2015-04-22 | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10395645B2 (ja) |
JP (1) | JP2016521383A (ja) |
CN (2) | CN110675866B (ja) |
WO (1) | WO2015163684A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102217292B1 (ko) * | 2015-02-26 | 2021-02-18 | 네이버 주식회사 | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
KR101704501B1 (ko) * | 2015-10-30 | 2017-02-09 | 주식회사 큐키 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
KR101830210B1 (ko) * | 2016-04-28 | 2018-02-21 | 네이버 주식회사 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
KR102691889B1 (ko) * | 2016-07-27 | 2024-08-06 | 삼성전자주식회사 | 전자 장치 및 그의 음성 인식 방법 |
US10503467B2 (en) | 2017-07-13 | 2019-12-10 | International Business Machines Corporation | User interface sound emanation activity classification |
CN108962228B (zh) * | 2018-07-16 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
US12112742B2 (en) | 2021-03-03 | 2024-10-08 | Samsung Electronics Co., Ltd. | Electronic device for correcting speech input of user and operating method thereof |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01237597A (ja) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | 音声認識訂正装置 |
JP2000010586A (ja) * | 1998-06-22 | 2000-01-14 | Nec Corp | 音声認識応答装置及び認識結果確認方法 |
JP2001215987A (ja) * | 1999-10-28 | 2001-08-10 | Canon Inc | パターンマッチング方法及び装置 |
JP2005503590A (ja) * | 2001-09-17 | 2005-02-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 |
JP2006267319A (ja) * | 2005-03-23 | 2006-10-05 | Nec Corp | 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3663758A (en) * | 1970-03-24 | 1972-05-16 | Teaching Complements Inc | Speech pattern recognition system |
JP2950823B1 (ja) | 1998-09-29 | 1999-09-20 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識誤り訂正装置 |
US6302698B1 (en) * | 1999-02-16 | 2001-10-16 | Discourse Technologies, Inc. | Method and apparatus for on-line teaching and learning |
CN1329861C (zh) * | 1999-10-28 | 2007-08-01 | 佳能株式会社 | 模式匹配方法和装置 |
US6868383B1 (en) * | 2001-07-12 | 2005-03-15 | At&T Corp. | Systems and methods for extracting meaning from multimodal inputs using finite-state devices |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
US8959019B2 (en) * | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
TWI226600B (en) * | 2003-03-12 | 2005-01-11 | Leadtek Research Inc | Nasal detection method and device thereof |
US20060229878A1 (en) * | 2003-05-27 | 2006-10-12 | Eric Scheirer | Waveform recognition method and apparatus |
US20050071170A1 (en) | 2003-09-30 | 2005-03-31 | Comerford Liam D. | Dissection of utterances into commands and voice data |
US20060004570A1 (en) | 2004-06-30 | 2006-01-05 | Microsoft Corporation | Transcribing speech data with dialog context and/or recognition alternative information |
JP4301102B2 (ja) * | 2004-07-22 | 2009-07-22 | ソニー株式会社 | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 |
US20060057545A1 (en) * | 2004-09-14 | 2006-03-16 | Sensory, Incorporated | Pronunciation training method and apparatus |
US20060292531A1 (en) * | 2005-06-22 | 2006-12-28 | Gibson Kenneth H | Method for developing cognitive skills |
US20070016421A1 (en) * | 2005-07-12 | 2007-01-18 | Nokia Corporation | Correcting a pronunciation of a synthetically generated speech object |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
WO2008021512A2 (en) | 2006-08-17 | 2008-02-21 | Neustar, Inc. | System and method for handling jargon in communication systems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7904298B2 (en) * | 2006-11-17 | 2011-03-08 | Rao Ashwin P | Predictive speech-to-text input |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
WO2009040790A2 (en) * | 2007-09-24 | 2009-04-02 | Robert Iakobashvili | Method and system for spell checking |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
WO2009158581A2 (en) * | 2008-06-27 | 2009-12-30 | Adpassage, Inc. | System and method for spoken topic or criterion recognition in digital media and contextual advertising |
US8782556B2 (en) * | 2010-02-12 | 2014-07-15 | Microsoft Corporation | User-centric soft keyboard predictive technologies |
KR101197010B1 (ko) * | 2011-03-30 | 2012-11-05 | 포항공과대학교 산학협력단 | 음성 처리 장치 및 방법 |
US10522133B2 (en) | 2011-05-23 | 2019-12-31 | Nuance Communications, Inc. | Methods and apparatus for correcting recognition errors |
KR20130008663A (ko) | 2011-06-28 | 2013-01-23 | 엘지전자 주식회사 | 사용자 인터페이스 방법 및 장치 |
US8645825B1 (en) | 2011-08-31 | 2014-02-04 | Google Inc. | Providing autocomplete suggestions |
US8515751B2 (en) * | 2011-09-28 | 2013-08-20 | Google Inc. | Selective feedback for text recognition systems |
US9715489B2 (en) | 2011-11-10 | 2017-07-25 | Blackberry Limited | Displaying a prediction candidate after a typing mistake |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
KR20130135410A (ko) * | 2012-05-31 | 2013-12-11 | 삼성전자주식회사 | 음성 인식 기능을 제공하는 방법 및 그 전자 장치 |
US8606577B1 (en) | 2012-06-25 | 2013-12-10 | Google Inc. | Visual confirmation of voice recognized text input |
US8909526B2 (en) * | 2012-07-09 | 2014-12-09 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US20160117940A1 (en) * | 2012-09-12 | 2016-04-28 | Lingraphicare America Incorporated | Method, system, and apparatus for treating a communication disorder |
US9292621B1 (en) | 2012-09-12 | 2016-03-22 | Amazon Technologies, Inc. | Managing autocorrect actions |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9489372B2 (en) | 2013-03-15 | 2016-11-08 | Apple Inc. | Web-based spell checker |
JP5893588B2 (ja) * | 2013-07-09 | 2016-03-23 | 京セラ株式会社 | 携帯端末、編集誘導プログラムおよび編集誘導方法 |
KR101381101B1 (ko) | 2013-11-13 | 2014-04-02 | 주식회사 큐키 | 문자열 사이의 연관성 판단을 통한 오타 수정 방법 |
US9653073B2 (en) * | 2013-11-26 | 2017-05-16 | Lenovo (Singapore) Pte. Ltd. | Voice input correction |
CN103645876B (zh) * | 2013-12-06 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
-
2015
- 2015-04-22 CN CN201911020246.4A patent/CN110675866B/zh active Active
- 2015-04-22 JP JP2016515299A patent/JP2016521383A/ja active Pending
- 2015-04-22 CN CN201580000567.1A patent/CN105210147B/zh active Active
- 2015-04-22 WO PCT/KR2015/004010 patent/WO2015163684A1/ko active Application Filing
- 2015-04-22 US US14/779,037 patent/US10395645B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01237597A (ja) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | 音声認識訂正装置 |
JP2000010586A (ja) * | 1998-06-22 | 2000-01-14 | Nec Corp | 音声認識応答装置及び認識結果確認方法 |
JP2001215987A (ja) * | 1999-10-28 | 2001-08-10 | Canon Inc | パターンマッチング方法及び装置 |
JP2005503590A (ja) * | 2001-09-17 | 2005-02-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 |
JP2006267319A (ja) * | 2005-03-23 | 2006-10-05 | Nec Corp | 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110675866A (zh) | 2020-01-10 |
WO2015163684A1 (ko) | 2015-10-29 |
US10395645B2 (en) | 2019-08-27 |
CN105210147B (zh) | 2020-02-07 |
CN105210147A (zh) | 2015-12-30 |
US20170032778A1 (en) | 2017-02-02 |
CN110675866B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210104238A1 (en) | Voice enablement and disablement of speech processing functionality | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
US8510103B2 (en) | System and method for voice recognition | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
TW201517017A (zh) | 語言模型的建立方法、語音辨識方法及電子裝置 | |
JP2021529337A (ja) | 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置 | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP2012003090A (ja) | 音声認識装置および音声認識方法 | |
JP2003163951A (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
Venkatagiri | Speech recognition technology applications in communication disorders | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
JP2002268680A (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
JP5596869B2 (ja) | 音声認識装置 | |
JP2012255867A (ja) | 音声認識装置 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
KR100777569B1 (ko) | 멀티모달을 이용한 음성 인식 방법 및 그 장치 | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR101704501B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP6221267B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
Akintola et al. | Speech Processing Algorithm for Automatic Speaker Recognition-Based Telephone Voice Dialing in Yorùbá |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170623 |