Nothing Special   »   [go: up one dir, main page]

JP2015052745A - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP2015052745A
JP2015052745A JP2013186469A JP2013186469A JP2015052745A JP 2015052745 A JP2015052745 A JP 2015052745A JP 2013186469 A JP2013186469 A JP 2013186469A JP 2013186469 A JP2013186469 A JP 2013186469A JP 2015052745 A JP2015052745 A JP 2015052745A
Authority
JP
Japan
Prior art keywords
keyword
search
attribute
information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013186469A
Other languages
English (en)
Inventor
玲二 藤川
Reiji Fujikawa
玲二 藤川
雅彦 原田
Masahiko Harada
雅彦 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2013186469A priority Critical patent/JP2015052745A/ja
Publication of JP2015052745A publication Critical patent/JP2015052745A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声認識による検索を行うに際し、ユーザが話している中で自然な会話の連想として今までと異なるジャンルの話題に飛んだ場合であっても、飛んだ先のジャンルの話題に追随した検索結果を出力する。
【解決手段】キーワードに基づいて検索を行う検索手段と、過去の検索に用いられたキーワードの属性を特定し、キーワードとキーワードの属性とを対応付けてキーワード毎に記憶する記憶手段と、新たに入力された第1のキーワードの属性と、記憶手段に記憶されたキーワード履歴の属性とが共通しないキーワードを記憶手段から抽出する抽出手段と、第1のキーワードに、抽出手段により抽出されたキーワードを加えた第2のキーワードに基づいて、検索手段による検索を行うキーワード管理手段と、を含む。
【選択図】図9

Description

本発明は、情報処理装置、制御方法、及びプログラムに関する。
近年、文字、音声、図形、映像等のマルチメディアを入力、出力、及び加工処理することで、人間とコンピュータとの対話を様々な形態で行うことが可能となっている。特に、最近になって、メモリ容量やパーソナルコンピュータ(以下、PCともいう。)の処理能力が飛躍的に向上したことで、マルチメディアを取り扱うことができるPCが開発され、種々のアプリケーションが開発されてきている。これらは何れも単に種々のマルチメディアを出し入れするだけのもので各種マルチメディアを有機的に融合するまでには至っていない。
一方、従来からの数値データに代わり、文字を含む言語データが一般的になり、白黒のイメージデータはカラー化や図形、アニメーション、三次元グラフィックス、さらには動画が扱えるように拡張されてきている。また、音声やオーディオ信号についても、単なる音声信号レベルの入出力の他に、音声認識や音声合成の機能が研究開発されつつある。しかし、マンマシンインタフェースとして使用するには性能が不安定で、実用化は限定された分野に限られているのが現状である。
このように、上述した文字、テキスト、音声、グラフィックデータ等については、従来の入出力処理(記録、再生)から各種メディアへの展開や生成機能へと発展が続いている。換言すれば、各メディアの表面的な処理からメディアの内容や構造、意味的内容を取り扱い、人間とPCとの間の対話をより自然に快適に行うことを目的として、音声やグラフィックス等のメディアの融合や生成を利用する対話システムの構築が検討されつつある。
ここで、対話システムに用いられる音声検索とは、文字列ではなく、発話する声により話しかけることで検索できる技術やサービスのことを指す。近年では、Apple(登録商標)iOSに搭載されるSiri(登録商標)や、Google(登録商標)音声検索が知られている。また、最近では、音声操作できるカーナビ、一部のメーカーが発売する音声による操作や番組検索が可能なテレビ、話しかけるとそのまま指定した言語に翻訳してくれる携帯電話やスマートフォン等も出てきている。このように近年、音声解析技術を使ったサービスが登場してきている。
ところで、音声検索は、キーボードやタッチパネルで文字列を打つ必要がないので、両手が塞がっている時でも情報にアクセスでき、発声という直感的なアプローチが可能である。そして、検索結果に該当するものをPCによる音声を用いた回答で得ることができれば、対話によりインターネットから欲しい情報を容易に取り出せるようになる、等の理由から、将来性が期待されている。
しかしながら、現状、インターネットを用いた音声検索は、それ程普及が進んでいるとはいえない。音声検索の普及が進まない原因として考えられるのが、検索サービスにおける音声認識の難しさ、その汎用性にある。すなわち、テレビに搭載されている音声認識は、基本的にテレビ番組名や出演者名等、番組と人物に関連する物事や、テレビ操作に関連する物事が認識できれば足りるのである。同様にカーナビであれば、基本的に住所・施設名等、地図情報に関連する物事を認識できれば良いのである。
例えば、カーナビで入力する住所は、東京都○○区△△町等のように定型化されているので、連続的な音声を認識した時に、○○、△△に入る文言を特定できれば良いので、結果的に精度は良くなる。このように、特定用途の機器であれば、認識すべき範囲や文脈はある程度絞り込むことができる、つまり候補を限定することができる。しかしながら、汎用的な検索サービスではそうはいかないのが現状である。
このように、音声認識については、単一単語認識から連続単語認識、連続音声認識へと発展しており、実用化のために応用を限定した方向でも開発が進められている。このような応用場面では、音声対話システムとして、音声の文字面の認識よりも音声の発話内容の理解が重要であり、例えば、キーワードスポッティングをベースに応用分野の知識を利用した音声理解システムも研究されてきている。
他方、音声等のメディアの理解と生成は、単なるデータの入出力とは異なり、メディアの変換の際に発生する情報の欠落やエラーが不可避である。すなわち、音声理解は情報量の多い音声パターンデータから音声の発話の内容や発話者の意図を抽出する処理であり、情報の圧縮を行う過程で音声認識エラーや曖昧性が生じる。したがって、音声対話システムとしては上述した認識エラーや曖昧性等の音声認識の不完全さに対処するため、PC側からユーザに対して適切な質問や確認を行い、対話制御によりスムーズに対話を進行する必要がある。
このような状況下、特許文献1には、対話内容により入力コマンドを特定し、録画・再生・メール等の各種コマンドを実行する操作支援システムにおいて、一般的な会話形式のインストラクションでユーザからの質問に対する検索結果を音声出力することが記載されている。
特開2002−041276号公報
上述したように、従来の音声認識、音声合成技術を利用した音声対話システムは、それぞれ別個に開発された音声認識、音声合成、画面表示の各技術を単に組み合わせただけのものであり、音声の対話という観点からの十分な考慮がなされていないという問題がある。すなわち、音声認識機能には、認識誤りや曖昧性があり、音声合成機能は人間の発声よりも明りょう度が悪く、イントネーションの制御も不十分であるため、意図や感情の伝達能力が不足しており、自然性に欠けるという根本的な問題がある。
ところで、PC側からユーザに対して何等かの対話をする場合、音声認識の不完全さをカバーし、PCの状況を適確に伝えることが、使い勝手のよいマンマシンインタフェースとして重要である。ところが、一般的な音声認識による検索では、1つの質問に対する検索結果が出力された後、当該質問とは異なるジャンルの新たな質問を行うためには、当該新たな質問のジャンルに関する質問内容をすべて音声入力し直す必要があった。
そして、特許文献1に記載された技術は、一般的な会話インストラクションでユーザからの一つの質問に対してアシスタントが一つの回答を行うといった、いわゆる一問一答で完結するコミュニケーションサービスが展開されている。しかしながら、一つのコミュニケーションサービスの中で、ユーザから、今までなされてきた質問と全く異なるジャンルに関する新たな質問を行う場面については想定されておらず、改めてそのジャンルに関する新たな質問を、最初から音声入力する必要があるという課題は解決されていない。
そこで本発明は、上記従来の問題点に鑑みてなされたもので、音声認識による検索を行うに際し、ユーザが話している中で自然な会話の連想として今までと異なるジャンルの話題に飛んだ場合であっても、飛んだ先のジャンルの話題に追随した検索結果を出力することが可能な情報処理装置、制御方法、及びプログラムを提供することを目的とする。
上記課題を解決するため、請求項1に記載の本発明における情報処理装置は、キーワードに基づいて検索を行う検索手段と、過去の検索に用いられたキーワードの属性を特定し、前記キーワードと前記キーワードの属性とを対応付けて前記キーワード毎に記憶する記憶手段と、新たに入力された第1のキーワードの属性と、前記記憶手段に記憶されたキーワード履歴の属性とが共通しないキーワードを前記記憶手段から抽出する抽出手段と、前記第1のキーワードに、前記抽出手段により抽出されたキーワードを加えた第2のキーワードに基づいて、前記検索手段による検索を行うキーワード管理手段と、を含むことを特徴とする。
また、本発明における情報処理装置は、請求項1に記載の情報処理装置において、前記抽出手段は、前記記憶手段に記憶されたキーワード履歴のうち、直近に記憶されたキーワードの属性に対応するキーワードを抽出することを特徴とする。
さらに、本発明における情報処理装置は、請求項1又は2に記載の情報処理装置において、前記検索手段は、入力された音声情報から所定のキーワードを認識する音声認識手段と、前記音声認識手段により認識された所定のキーワードに基づいて特定される所定のコマンドを実行するコマンド実行手段と、をさらに含むことを特徴とする。
また、本発明における情報処理装置は、請求項3に記載の情報処理装置において、前記音声認識手段は、前記音声情報を分解して得られた音素と、予め記憶されたテキスト辞書とを比較し、前記テキスト辞書の中から、前記分解して得られた音素に最も相応しい候補であるテキスト情報を特定することにより、前記所定のキーワードを認識することを特徴とする。
そして、上記課題を解決するため、請求項5に記載の本発明における情報処理装置の制御方法は、情報処理装置の制御方法であって、キーワードに基づいて検索を行う工程と、過去の検索に用いられたキーワードの属性を特定し、前記キーワードと前記キーワードの属性とを対応付けて前記キーワード毎に記憶する工程と、新たに入力された第1のキーワードの属性と、前記記憶する工程により記憶されたキーワード履歴の属性とが共通しないキーワードを抽出する工程と、前記第1のキーワードに、前記抽出する工程により抽出されたキーワードを加えた第2のキーワードに基づいて、前記検索を行う工程による検索を行う工程と、を含むことを特徴とする。
また、上記課題を解決するために、請求項6に記載の本発明におけるプログラムは、情報処理装置のコンピュータに、キーワードに基づいて検索を行う処理と、過去の検索に用いられたキーワードの属性を特定し、前記キーワードと前記キーワードの属性とを対応付けて前記キーワード毎に記憶する処理と、新たに入力された第1のキーワードの属性と、前記記憶する処理により記憶されたキーワード履歴の属性とが共通しないキーワードを抽出する処理と、前記第1のキーワードに、前記抽出する処理により抽出されたキーワードを加えた第2のキーワードに基づいて、前記検索を行う処理による検索を行う処理と、を実現させることを特徴とする。
本発明によれば、音声認識による検索を行うに際し、ユーザが話している中で自然な会話の連想として今までと異なるジャンルの話題に飛んだ場合であっても、飛んだ先のジャンルの話題に追随した検索結果を出力することが可能な情報処理装置、制御方法、及びプログラムが得られる。
本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。 本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。 本発明の実施形態における情報処理装置の起動時の画面表示(その1)について説明する図である。 本発明の実施形態における情報処理装置の起動時の画面表示(その2)について説明する図である。 本発明の実施形態における情報処理装置の起動時の画面表示(その3)について説明する図である。 本発明の実施形態における情報処理装置の具体的な動作(その1)について説明する図である。 本発明の実施形態における情報処理装置の具体的な動作(その2)について説明する図である。 本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。 本発明の実施形態における情報処理装置の動作について説明するフローチャート(その1)である。 本発明の実施形態における情報処理装置の動作について説明するフローチャート(その2)である。
次に、本発明を実施するための形態について図面を参照して詳細に説明する。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。本発明の内容を簡潔に説明すると、キーワードに基づいて検索を行う検索手段と、過去の検索に用いられたキーワードの属性を特定し、キーワードとキーワードの属性とを対応付けてキーワード毎に記憶する記憶手段と、新たに入力された第1のキーワードの属性と、記憶手段に記憶されたキーワード履歴の属性とが共通しないキーワードを記憶手段から抽出する抽出手段と、第1のキーワードに、抽出手段により抽出されたキーワードを加えた第2のキーワードに基づいて、検索手段による検索を行うキーワード管理手段と、を含むことにより、音声認識による検索を行うに際し、ユーザが話している中で自然な会話の連想として今までと異なるジャンルの話題に飛んだ場合であっても、飛んだ先のジャンルの話題に追随した検索結果を出力することができるのである。
まず、図1を用いて本発明の実施形態における情報処理装置の構成について説明する。図1は、本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。図1を参照すると、本発明の実施形態における情報処理装置100は、電子情報端末、PDA、ノート型PC、タブレット型PC等を具体例とする情報処理装置である。
図1において、本発明の実施形態における情報処理装置(以下、パーソナルコンピュータ(PC)ともいう。)100は、マイク101と、音声認識部102と、ROM(Read Only Memory)103と、RAM(Random Access Memory)104と、スピーカ105、音声合成部106と、CPU(Central Processing Unit)107と、表示部108と、入力部109と、電源部110と、ネットワーク接続部111と、HDD(Hard Disk Drive)112と、から構成される。
マイク101は、ユーザの音声を音声データ(電気信号)に変換するものである。音声認識部102は、マイク101によって音声データに変換されたユーザの音声を認識するものである。ROM103は、PC100全体の動作を制御するプログラムを格納するものである。RAM104は、ROM103に格納されたプログラムが展開される記憶領域である。スピーカ105は、後述するPC100のコンシェルジュが出力する音声データを音声に変換するものである。音声合成部106は、PC100のコンシェルジュが出力する音声データを、所望の音声に変換されるよう合成するものである。CPU107は、PC100全体の動作を制御するものであり、ROM103に格納された制御プログラムをロードし、PC100の動作によって得られた様々なデータをRAM104に展開するものである。
表示部108は、LCD(Liquid Crystal Display)等で構成される表示画面であり、PC100によって実行されたアプリケーションの結果や図示しないTVチューナによって受信されたテレビ番組を表示するものであり、PC100の出力装置を構成している。入力部109は、キーボード、マウス、タッチパネル等、ユーザがPC100に対して指示を与えるものであり、PC100の入力装置である。電源部110は、PC100に対してAC(Alternative Current:交流)又はDC(Direct Current:直流)電源を与えるものである。ネットワーク接続部111は、インターネットに代表される図示しないネットワーク網に接続され、ネットワーク網とのインタフェースを図るものである。HDD112は、PC100のアプリケーションソフトウェアを格納したり、図示しないTVチューナによって受信されたテレビ番組等のコンテンツを録画したりするものである。なお、表示部108と入力部109は、LCDとタッチパネルとが一体となったタッチパネルディスプレイであっても良い。この場合、キーボードやマウスといった入力装置に代えて、指や図示しないスタイラスペンをタッチパネルディスプレイに接触させて直接文字を書く動作等を行ってデータ入力やコマンド入力といった操作を行うことができる。
次に、図2を参照して、本発明に実施形態における情報処理装置の主要部の構成について説明する。図2は、本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。
図2において、本発明の実施形態におけるPC100は、マイク201から入力されたユーザの音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
クライアントアプリケーション部204は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
ユーザからの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク網207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ211に渡す。スピーカ211は、音声データ(電気信号)を音声に変換する。また、スピーカ211から音声を発するのに合わせて、ディスプレイ部に当該音声に関連する詳細な情報を表示する。
次に、本発明の実施形態における情報処理装置の起動時の画面表示について説明する。図3から図5は、本発明の実施形態における情報処理装置の起動時の画面表示について説明する図である。
本発明の実施形態に係るPC100のコンシェルジュ300、400、500は、起動時の時間帯や曜日に応じて、様々な挨拶を行うことができる。例えば、起動時が朝の時間帯であるときには、図3に示すように、コンシェルジュ300が、「おはようございます!」と発声するのに合わせてディスプレイ部205(図2)に関連情報を表示する。同様に、起動時が昼間の時間帯であれば、図4に示すように、コンシェルジュ400は、「こんにちは!」と発声し、夜の時間帯であれば図5に示すように、コンシェルジュ500は、「こんばんは!」と発声する。また、時間帯以外にも、平日と休日といった曜日に応じた発声も行うことができる。
次に、本発明の実施形態における情報処理装置の具体的な動作について説明する。図6、図7は、本発明の実施形態における情報処理装置の具体的な動作について説明する図である。
PC100が、図3から図5に示したように起動している状態で、ユーザが、知りたい情報、検索したい情報をPC100に対して質問すると、PC100は、その質問に対して回答する。例えば、図6に示すように、ユーザ600が、「チャーリィ、今日の天気を教えて。」とPC100に対して質問すると、PC100は、「調べてみます。有楽町駅周辺のお天気はこんな感じですよ。」と音声を発して回答すると共に、ディスプレイ部205(図2)に結果を表示する。
この質問と回答とのやり取りで重要なことは、PC100は、ユーザ600から発せられる音声情報である、「チャーリィ、今日の天気を教えて。」のうち、「チャーリィ」という音声情報に反応し、この音声情報に続けて発せられる音声をテキスト情報として認識し、ユーザ600との音声対話により所定のコマンドを実行しているのである。すなわち、PC100は、ユーザ600から発せられる音声情報に、予め定められた所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)が含まれているか否かを判断し、この予め定められたキーワードが含まれていると判断すると、このキーワード以降、ユーザから発せられる音声情報(質問)を所定のテキスト情報に変換し、この変換された所定のテキスト情報に基づいて特定される、ユーザから要求されるコマンド(例えばユーザから発話される質問に対する回答等)を実行するのである。なお、このキーワードを何にするかは、ユーザが予め定めておくものとする。
また、上記の例では、PC100は、ユーザ600から発せられるある特定の音声情報に反応し、この音声情報に続けて発せられる音声をキーワードとして認識し、所定のコマンドを実行しているが、PC100が、音声認識部102(図1)により認識されたキーワードに基づいてコマンドを実行する契機としては、ユーザ600から発せられる特定の音声情報に限定されることなく、音声認識部102により認識することができる音声情報であれば、如何なる音源を用いても良いことは勿論である。
そして、ユーザは、PC100を起動状態にさえしておけば、後は、今やっている普通の作業を何ら中断することなく、すなわち、PC100とは無関係の作業を行っていたり、PC100を使って何か別の作業を行っていたりしても、PC100に対して質問すれば、PC100は回答してくれるのである。よって、朝の身支度等で忙しく、手が塞がっているような場面であっても、声だけで簡単に情報を入手することができるのである。
また、ユーザ600からなされる、「チャーリィ、今日の天気を教えて。」という質問は、それよりも前に天気のことを話題にしていない場面、すなわち、全く別の会話から、突然話題を天気の話に変えても、PC100は追随することができる。さらに、ユーザ600が、「チャーリィ、今日の天気を教えて。」とだけ質問し、どこの天気かについては何ら質問をしていないにも係わらず、PC100が有楽町駅周辺の天気について回答しているのは、PC100は、ユーザ600がこの質問をする前に話題にしていた場所が有楽町であること、すなわち、場所に関しては、それまでなされていた会話の文脈上から記憶しているのである。
そして、図7に示すように、ユーザ600が、「京都の明日は?」とだけ質問し、京都の如何なる情報について知りたいのかを何ら質問をしていないにもかかわらず、PC100が、「明日の京都周辺のお天気はこんな感じですよ。」と回答しているのは、PC100とユーザ600との間で、この質問をする前に共有されていた「有楽町駅周辺の天気」に関する話題のうち、「天気」という検索対象を記憶した状態で、「有楽町駅周辺」という場所に関するキーワードを「京都」に変えて検索を行っているからである。すなわち、新たに音声入力されたキーワード(「京都」)に、それ以前から引き継いでいるキーワード(「天気」)を加えて検索を行っているのである。
換言すれば、PC100は、過去の検索に用いられたキーワードの属性、本実施形態の場合は、「有楽町」というキーワードとその属性である「場所」、及び「天気」というキーワードとその属性である「気候」とをキーワード履歴として記憶している。そして、新たに入力された「京都」というキーワードとその属性である「場所」、及び「明日」というキーワードとその属性である「日時」の中から、直近に記憶されているキーワード履歴の属性と、新たに入力されたキーワードの属性との間で共通する属性である「場所」ではない、すなわち両者に共通しないキーワードである「天気」というキーワードを抽出する。そして、新たに入力された「京都」というキーワードに、抽出された「天気」というキーワードを加えた「京都、天気」というキーワードに基づいて検索を行っているのである。
本実施形態におけるPC100には、音声対話システムのソフトウェアアプリケーションプログラムがインストールされているが、このソフトウェアアプリケーションプログラムを常駐モードにするか、非常駐モードにするかを予め選択することができる。そして、常駐モードを選択すると、次回起動時からはスタートアップ時から起動する。さらに、常駐モードでは、常時、音をモニタリングし、ノイズなのか音声なのかを即座に判断している。
常駐モードにされていると、音声認識されたテキスト情報の中から「チャーリィ」といった所定のキーワードの有無だけを認識し、当該所定のキーワードが認識されると、音声認識されたテキストを、記憶して文脈解析するルーチンに引き渡す動作に移行する。
そして、PC100は、上述したように、オフライン状態にあるローカルコンテンツ部208(図2)を有しており、ユーザ600からなされた質問に対する回答が、このローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、ネットワーク接続部206(図2)を介してネットワーク網207に接続することなく、ユーザに対してスピーカ211(図2)から回答を行う。要するに、ユーザ600から発せられる質問に対しローカルコンテンツ部208に格納されている情報で回答が済む場合は、ネットワーク網207に接続することなく回答を行い、ネットワーク網207に対するアクセスが必要な質問であれば、セッションを接続し、新たな状態、すなわち、後述する履歴情報がない状態で質問に対する回答を検索する。
次に、上記した、ユーザ600からなされる、「京都の明日は?」という質問に対して、それ以前に話題にしていた「天気」という検索対象を記憶した状態、すなわち、会話文脈を活用した状態で、PC100が京都周辺の天気について対話検索を行っている点に関し、過去の検索に用いられたキーワード履歴から、その後も引き継いで用いるキーワードを判別する中身について述べる。
本実施形態におけるPC100は、実際に入力されたキーワード(値)を、キーワードの種類(カテゴリ)毎に分類し、保持している。例えば、場所に関しては、GPS(Global Positioning System)座標と共に、検索において指定された地名、駅名が保持される。名前に関しては、検索において最近指定した店の名前が保持される。それ以外については、各分野において特有の情報、すなわち、各カテゴリに対応する情報が保持される。そして、これらのキーワードのうち、最も共通に使用される情報は「場所」に関するものである。
具体的には、ユーザ600が、「チャーリィ、渋谷駅でレストランを探して。」という質問に対して、PC100は、場所情報として渋谷駅とGPS座標とを記憶する。続いて、ユーザ600が、「天気を教えて。」という質問を行うと、PC100は、場所情報として記憶している履歴の中から直近に記憶された場所情報である渋谷駅を使用し、この場所情報のうち「駅」を除外した情報を位置情報として、当該地、すなわち「渋谷」の天気情報を表示する。
続いて、ユーザ600が、「イベントを教えて。」という質問を行うと、PC100は、イベント、すなわちチケット紹介については、駅名では検索ができないが、都道府県単位で検索が可能である。そして、ユーザからの質問がなされた時点で、記憶しているGPS座標から都道府県を割り出し、場所情報として記憶している履歴の中から直近の場所情報である「渋谷」を示すGPS座標に基づいて東京都に変換した後にイベントに関する検索を実行する。なお、このとき、「渋谷駅」の位置情報も保持している。
このように、過去の検索に用いられたキーワードとその属性をキーワード履歴として記憶しており、新たに入力されたキーワードの属性と、直近に記憶されているキーワード履歴の属性とが共通しないキーワードを抽出する。そして、新たに入力されたキーワードに、抽出されたキーワードを加えた新たなキーワードに基づいて検索を行っているのである。
次に、本発明の実施形態における情報処理装置の動作について説明する。図9、図10は、本発明の実施形態における情報処理装置の動作について説明するフローチャートである。
図9において、ステップ(以下、「S」という。)901の処理では、まず、PC100が起動しているか否かが判断される。PC100が起動していないとき(S901:NO)は、処理を終了する。PC100が起動しているとき(S901:YES)は、S902の処理へ移行する。なお、上記したように、音声対話システムのソフトウェアアプリケーションプログラムが常駐であるときは、起動時から動作し、非常駐であるときは、音声対話システムのソフトウェアアプリケーションの立ち上げが必要となる。
S902の処理では、PC100が、音声入力のレディ状態にあるか否かが判断される。音声入力のレディ状態でないとき(S902:NO)は、処理を終了する。音声入力のレディ状態であるとき(S902:YES)は、S903の処理へ移行する。S903の処理では、入力された音声情報に所定のキーワード(ウェークアップワード、本実施形態では、「チャーリィ」)が含まれているか否かが判断される。所定のキーワードが含まれていないとき(S903:NO)は、処理を終了する。所定のキーワードが含まれているとき(S903:YES)は、S904の処理へ移行する。
なお、ユーザから発せられた音声情報に所定のキーワード(ウェークアップワード、本実施形態では、「チャーリィ」)が含まれているか否かを判断する方法としては、例えば、PCM(パルス符号変調:Pulse Code Modulation)等の音声のストリームデータを一定間隔で取得し、これを音の要素(音素)に分解した後、この音素と予め登録された音素(ウェークアップワード、本実施形態では、「チャーリィ」)とを比較し、スコア化する方法等が挙げられるが、如何なる方法を用いても良い。
S904の処理では、ユーザ600との対話を開始する。S905の処理では、ユーザから発せられた音声に基づいて認識されたテキスト情報に質問が含まれているか否かが判断される。質問が含まれていないとき(S905:NO)は、処理を終了する。質問が含まれているとき(S905:YES)は、S906の処理へ移行する。
S906の処理では、記憶されているキーワード履歴から、新たに入力された質問の属性と共通しないキーワードが抽出される。そして、S907の処理では、新たに入力された質問に、S906で抽出されたキーワードを加え、新たな検索キーワードを作成する。そして、S908の処理では、音声入力後であるか否かが判断される。音声入力後でないとき(S908:NO)は、音声入力後となるまで待機する。音声入力後であるとき(S908:YES)は、S909の処理へ移行する。S909の処理では、一定間隔で取得された音声のストリームデータ(PCM(パルス符号変調:Pulse Code Modulation)等)を音の要素(音素)に分解し、分解して得られた音素とテキスト辞書とを比較し、分解して得られた音素に最も相応しい候補であるテキスト情報を特定し、この特定されたテキスト情報を候補として提案する。S910の処理では、提案されたテキスト情報を、文脈解析ルーチンに引き渡す、といった動作が行われる。図10において、S910の処理では、待機時間が経過したか否かが判断される。
ここで、待機時間について簡単に説明する。本実施形態におけるPC100には、一通りの応答、及び結果が存続する時間、具体的には、現在の話題が天気に関するものである場合、その天気に対する一通りの応答、及び天気に関する検索結果が存続する時間として、所定の時間からなる待機時間という概念を用いている。この待機時間は、ユーザ600が、何らかのアクションを起こした場合、例えば、ユーザ600が、話題を天気に関するものから他の話題に変える質問を行った場合、又は、ユーザ600の求めに応じて返事を行った場合、例えば、ユーザ600から、天気に関する話題とは異なる質問がなされ、その質問に応じてPC100が返事を行った場合、の何れかのタイミングにおいてリセットされる。そして、この待機時間は、ユーザ600に対して何らかの検索結果を回答した直後から直ちにカウントされる。
そして、この待機時間の間は、すべての情報、すなわち、ユーザ600との間で取り交わされたすべての情報、具体的には、待機時間が経過する前のキーワード、キーワードに基づいて行った検索、及び検索結果を履歴情報として保持し、活用している。そして、待機時間内に、ユーザ600から新たな質問、及び/又は命令が発せられた場合、この保持している履歴情報を活用することとしている。すなわち、保持している履歴情報に共通する事項を抽出し、当該新たな質問、及び/又は命令を特定する事項と共にキーワードとして検索を行うのである。そして、待機時間が経過すると、待機時間が経過する前に保持されていたキーワード、キーワードに基づいて行った検索、及び検索結果等の履歴を削除する。
また、この待機時間が経過すると、PC100は、ネットワーク接続部206(図2)を介して接続されるネットワーク網207上のサーバとのセッション(接続)を開放する。この時点で、PC100にそれまで保持されていたサーバから得た情報が破棄される。そして、ユーザ600によるPC100を用いた他の作業の邪魔にならないよう、さらに、待機時間が経過したこと(PC100のモードが変わったこと)を示すため、PC100の表示部108(図1)のウィンドウモード(ユーザインタフェース)を、図8に示すようなコンパクトなウィンドウモードに移行する。図8は、本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。
そして、PC100は、ユーザ600から発せられる次のコマンドを待つ。この状態では、キーワード、キーワードに基づいて行った検索、及び検索結果の履歴情報を保持している待機時間を既に経過しているので、ユーザ600から発せられる音声情報に、所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ600から入力される音声情報から認識されたテキスト情報に含まれる質問をキーワードとして検索を行い、検索結果を出力しているのである。
なお、待機時間経過後、PC100を、ウェークアップさせる契機として、上記所定のキーワード(上述したウェークアップワード、本実施形態では、「チャーリィ」)の認識以外に、例えば、ディスプレイ部205(図2)に表示された所定のボタンをマウスポインタでクリックする、PC100のハードウェアボタンを押下する、又は、ユーザ600が発する声により声紋を認識する等、如何なる方法を用いても良いことは勿論である。
そして、ユーザ600から発せられる質問に対しローカルコンテンツ部208に格納されている情報で回答が済む場合は、ネットワーク網207に接続することなく回答を行い、ネットワーク網207に対するアクセスが必要な質問であれば、セッションを接続し、新たな状態、すなわち、履歴情報がない状態で質問に対する回答を検索する。
図10に戻り、S911の処理において、待機時間が経過していないとき(S911:NO)は、S904の処理へ戻り、PC100は、ユーザ600との対話を継続する。待機時間が経過したとき(S911:YES)は、S902の処理へ戻り、上述したように、PC100の表示部108(図1)のウィンドウモード(ユーザインタフェース)を、図8に示すようなコンパクトなウィンドウモードに移行すると共に、ユーザ600から発せられる所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)を認識するまで待機する。
なお、図9に示した本発明の実施形態における情報処理装置100を構成する各機能ブロックの各動作は、コンピュータ上のプログラムに実行させることもできる。すなわち、情報処理装置100のCPU107が、ROM103、RAM104等から構成される記憶部に格納されたプログラムをロードし、プログラムの各処理ステップが順次実行されることによって行われる。
以上説明してきたように、本発明によれば、キーワードに基づいて検索を行う検索手段と、過去の検索に用いられたキーワードの属性を特定し、キーワードとキーワードの属性とを対応付けてキーワード毎に記憶する記憶手段と、新たに入力された第1のキーワードの属性と、記憶手段に記憶されたキーワード履歴の属性とが共通しないキーワードを記憶手段から抽出する抽出手段と、第1のキーワードに、抽出手段により抽出されたキーワードを加えた第2のキーワードに基づいて、検索手段による検索を行うキーワード管理手段と、を含むことにより、音声認識による検索を行うに際し、ユーザが話している中で自然な会話の連想として今までと異なるジャンルの話題に飛んだ場合であっても、飛んだ先のジャンルの話題に追随した検索結果を出力することができるのである。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨及び範囲から逸脱することなく、これら具体例に様々な修正及び変更が可能である。
100 情報処理装置(PC)
101、201 マイク
102 音声認識部
103 ROM
104 RAM
105、211 スピーカ
106 音声合成部
107 CPU
108 表示部
109 入力部
110 電源部
111 ネットワーク接続部
112 HDD
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
205 ディスプレイ部
206 ネットワーク接続部
207 ネットワーク
208 ローカルコンテンツ部
209 テキスト読上部
210 クライアント型音声合成部
300、400、500、700 コンシェルジュ
600 ユーザ

Claims (6)

  1. キーワードに基づいて検索を行う検索手段と、
    過去の検索に用いられたキーワードの属性を特定し、前記キーワードと前記キーワードの属性とを対応付けて前記キーワード毎に記憶する記憶手段と、
    新たに入力された第1のキーワードの属性と、前記記憶手段に記憶されたキーワード履歴の属性とが共通しないキーワードを前記記憶手段から抽出する抽出手段と、
    前記第1のキーワードに、前記抽出手段により抽出されたキーワードを加えた第2のキーワードに基づいて、前記検索手段による検索を行うキーワード管理手段と、
    を含むことを特徴とする情報処理装置。
  2. 前記抽出手段は、前記記憶手段に記憶されたキーワード履歴のうち、直近に記憶されたキーワードの属性に対応するキーワードを抽出することを特徴とする請求項1に記載の情報処理装置。
  3. 前記検索手段は、入力された音声情報から所定のキーワードを認識する音声認識手段と、前記音声認識手段により認識された所定のキーワードに基づいて特定される所定のコマンドを実行するコマンド実行手段と、をさらに含むことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記音声認識手段は、前記音声情報を分解して得られた音素と、予め記憶されたテキスト辞書とを比較し、前記テキスト辞書の中から、前記分解して得られた音素に最も相応しい候補であるテキスト情報を特定することにより、前記所定のキーワードを認識することを特徴とする請求項3に記載の情報処理装置。
  5. 情報処理装置の制御方法であって、
    キーワードに基づいて検索を行う工程と、
    過去の検索に用いられたキーワードの属性を特定し、前記キーワードと前記キーワードの属性とを対応付けて前記キーワード毎に記憶する工程と、
    新たに入力された第1のキーワードの属性と、前記記憶する工程により記憶されたキーワード履歴の属性とが共通しないキーワードを抽出する工程と、
    前記第1のキーワードに、前記抽出する工程により抽出されたキーワードを加えた第2のキーワードに基づいて、前記検索を行う工程による検索を行う工程と、
    を含むことを特徴とする制御方法。
  6. 情報処理装置のコンピュータに、
    キーワードに基づいて検索を行う処理と、
    過去の検索に用いられたキーワードの属性を特定し、前記キーワードと前記キーワードの属性とを対応付けて前記キーワード毎に記憶する処理と、
    新たに入力された第1のキーワードの属性と、前記記憶する処理により記憶されたキーワード履歴の属性とが共通しないキーワードを抽出する処理と、
    前記第1のキーワードに、前記抽出する処理により抽出されたキーワードを加えた第2のキーワードに基づいて、前記検索を行う処理による検索を行う処理と、
    を実現させるためのプログラム。
JP2013186469A 2013-09-09 2013-09-09 情報処理装置、制御方法、及びプログラム Pending JP2015052745A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013186469A JP2015052745A (ja) 2013-09-09 2013-09-09 情報処理装置、制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013186469A JP2015052745A (ja) 2013-09-09 2013-09-09 情報処理装置、制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015052745A true JP2015052745A (ja) 2015-03-19

Family

ID=52701790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013186469A Pending JP2015052745A (ja) 2013-09-09 2013-09-09 情報処理装置、制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015052745A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009240A (zh) * 2019-12-06 2020-04-14 广州易来特自动驾驶科技有限公司 一种语音关键词筛选方法、装置、出行终端、设备及介质
WO2020136733A1 (ja) * 2018-12-25 2020-07-02 富士通株式会社 対話装置、対話方法及び対話プログラム
WO2020240958A1 (ja) * 2019-05-30 2020-12-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021505046A (ja) * 2017-11-28 2021-02-15 ロヴィ ガイズ, インコーポレイテッド 会話との関連でコンテンツを推奨する方法およびシステム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619965A (ja) * 1992-07-01 1994-01-28 Canon Inc 自然言語処理装置
JPH07239694A (ja) * 1994-03-02 1995-09-12 Oki Electric Ind Co Ltd 音声対話装置
WO1998013771A1 (fr) * 1996-09-26 1998-04-02 Mitsubishi Denki Kabushiki Kaisha Processeur interactif
JPH11231896A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声起動システム
JP2002236699A (ja) * 2001-02-09 2002-08-23 Asahi Kasei Corp 情報検索システム及び管理用サーバ並びに制御用プログラム
JP2002328802A (ja) * 2001-05-07 2002-11-15 Ricoh Co Ltd ウィンドウ表示制御方法
JP2005122312A (ja) * 2003-10-14 2005-05-12 Canon Inc 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2010191768A (ja) * 2009-02-19 2010-09-02 Oki Data Corp アプリケーションプログラム及び画像処理装置
JP2012073369A (ja) * 2010-09-28 2012-04-12 National Institute Of Information & Communication Technology 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619965A (ja) * 1992-07-01 1994-01-28 Canon Inc 自然言語処理装置
JPH07239694A (ja) * 1994-03-02 1995-09-12 Oki Electric Ind Co Ltd 音声対話装置
WO1998013771A1 (fr) * 1996-09-26 1998-04-02 Mitsubishi Denki Kabushiki Kaisha Processeur interactif
JPH11231896A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声起動システム
JP2002236699A (ja) * 2001-02-09 2002-08-23 Asahi Kasei Corp 情報検索システム及び管理用サーバ並びに制御用プログラム
JP2002328802A (ja) * 2001-05-07 2002-11-15 Ricoh Co Ltd ウィンドウ表示制御方法
JP2005122312A (ja) * 2003-10-14 2005-05-12 Canon Inc 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2010191768A (ja) * 2009-02-19 2010-09-02 Oki Data Corp アプリケーションプログラム及び画像処理装置
JP2012073369A (ja) * 2010-09-28 2012-04-12 National Institute Of Information & Communication Technology 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021505046A (ja) * 2017-11-28 2021-02-15 ロヴィ ガイズ, インコーポレイテッド 会話との関連でコンテンツを推奨する方法およびシステム
JP7295110B2 (ja) 2017-11-28 2023-06-20 ロヴィ ガイズ, インコーポレイテッド 会話との関連でコンテンツを推奨する方法およびシステム
US11716514B2 (en) 2017-11-28 2023-08-01 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
WO2020136733A1 (ja) * 2018-12-25 2020-07-02 富士通株式会社 対話装置、対話方法及び対話プログラム
WO2020240958A1 (ja) * 2019-05-30 2020-12-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US12033630B2 (en) 2019-05-30 2024-07-09 Sony Group Corporation Information processing device, information processing method, and program
CN111009240A (zh) * 2019-12-06 2020-04-14 广州易来特自动驾驶科技有限公司 一种语音关键词筛选方法、装置、出行终端、设备及介质

Similar Documents

Publication Publication Date Title
US12008325B2 (en) Context-based natural language processing
US11727219B2 (en) System and method for inferring user intent from speech inputs
US20220221959A1 (en) Annotations in software applications for invoking dialog system functions
US20210407318A1 (en) User training by intelligent digital assistant
US10573309B2 (en) Generating dialog recommendations for chat information systems based on user interaction and environmental data
JP6357458B2 (ja) 音声合成における同綴異音異義語の曖昧さの解消
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US11423885B2 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
CN106471570B (zh) 多命令单一话语输入方法
CN106796788B (zh) 基于用户反馈来改善自动语音识别
KR101772032B1 (ko) 음성 작동형 문서 탐색 및 브라우징을 위한 디바이스, 방법 및 사용자 인터페이스
Schalkwyk et al. “Your word is my command”: Google search by voice: A case study
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
CN111710333B (zh) 用于生成语音转录的方法和系统
CN108648750B (zh) 混合模型语音识别
US20180190288A1 (en) System and method of performing automatic speech recognition using local private data
JP6069157B2 (ja) 情報処理装置、制御方法、及びプログラム
KR20140047633A (ko) 컨텍스트 정보를 이용한 음성 인식 복구
KR20130035983A (ko) 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
CN113506567A (zh) 基于场境的语音识别语法选择方法和系统
JP2015069103A (ja) 情報処理装置、制御方法、及びプログラム
CN112334979A (zh) 通过计算设备检测持续对话
JP2015052745A (ja) 情報処理装置、制御方法、及びプログラム
JP2015052743A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
CN116368459A (zh) 用于智能听写的自动化助理的话音命令

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160830