Nothing Special   »   [go: up one dir, main page]

JP6392578B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法、及び音声処理プログラム Download PDF

Info

Publication number
JP6392578B2
JP6392578B2 JP2014163742A JP2014163742A JP6392578B2 JP 6392578 B2 JP6392578 B2 JP 6392578B2 JP 2014163742 A JP2014163742 A JP 2014163742A JP 2014163742 A JP2014163742 A JP 2014163742A JP 6392578 B2 JP6392578 B2 JP 6392578B2
Authority
JP
Japan
Prior art keywords
speaker
voice
unit
reference information
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014163742A
Other languages
English (en)
Other versions
JP2016038546A (ja
JP2016038546A5 (ja
Inventor
浩次 酒井
浩次 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2014163742A priority Critical patent/JP6392578B2/ja
Publication of JP2016038546A publication Critical patent/JP2016038546A/ja
Publication of JP2016038546A5 publication Critical patent/JP2016038546A5/ja
Application granted granted Critical
Publication of JP6392578B2 publication Critical patent/JP6392578B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。
近年、打合せ時等の音声を記録(録音)及び再生可能とするICレコーダが実用化されている(例えば、特許文献1参照)。
具体的に、特許文献1に記載のICレコーダは、マイクを介して入力した音声を音声データ(デジタルデータ)に変換した後、当該音声データをメモリに記録する。また、当該ICレコーダは、メモリに記録された音声データを音声信号(アナログ信号)に変換した後、スピーカを介して当該音声信号に基づく音声を出力(再生)する。
そして、このようなICレコーダでは、一般的に、音声の再生時に以下に示すような再生画面を表示する。
具体的に、再生画面は、音声の録音を開始してから終了するまでの時間に対応する時間スケールと、当該時間スケール上に配置され、再生位置を指し示すスライダとを有するタイムバーが配置された画面である。
すなわち、当該ICレコーダのユーザは、音声の再生時に当該再生画面(タイムバー)を確認することで、既に録音した音声データの再生位置を把握することができる。
特開2012−205086号公報
しかしながら、従来の再生画面は、タイムバーが配置されただけである。このため、ユーザは、実際に再生された音声を確認しなければ、例えば、話者が誰であったか、当該話者のテンションはどのような状態であったか等の録音時の状況を把握することができない、という問題がある。
したがって、再生画面から録音時の状況を把握することができ、利便性の向上が図れる技術が要望されている。
本発明は、上記に鑑みてなされたものであって、利便性の向上が図れる音声処理装置、音声処理方法、及び音声処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声処理装置は、音声データを取得する音声データ取得部と、前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え、前記音声データ解析部は、前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定することを特徴とする。
また、本発明に係る音声処理方法は、音声処理装置が行う音声処理方法において、音声データを取得する音声データ取得ステップと、前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、前記音声データ解析ステップでは、前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定することを特徴とする。
また、本発明に係る音声処理プログラムは、上述した音声処理方法を音声処理装置に実行させることを特徴とする。
本発明に係る音声処理装置によれば、実際に再生された音声を確認しなくても、話者のテンションの高さに基づいた画像を再生画面に表示することにより、当該再生画面から話者の録音時の状況を把握することができる。
図1は、本発明の実施の形態1に係る電子機器の構成を示すブロック図である。 図2は、図1に示した電子機器の動作を示すフローチャートである。 図3は、図2に示した話者表示処理(ステップS111)を示すフローチャートである。 図4は、図2及び図3に示した話者表示処理(ステップS111)の対象となる第1,第2音声データが生成(録音)される状況の一例を示す図である。 図5は、図4の状況で生成された第1,第2音声データを対象として話者表示処理(ステップS111)を実行した場合に生成される参照情報の一例を示す図である。 図6は、図5に示した参照情報に基づいて生成される話者表示再生画面の一例を示す図である。 図7は、本発明の実施の形態1の変形例を示す図である。 図8は、本発明の実施の形態2に係る音声処理システムの構成を示すブロック図である。 図9は、本発明の実施の形態2に係る話者表示処理(ステップS111)を示すフローチャートである。 図10は、図8に示したサーバの動作を示すフローチャートである。 図11Aは、本発明の実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。 図11Bは、本発明の実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。 図11Cは、本発明の実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。 図12は、本発明の実施の形態1,2で説明した参照情報の変形例を示す図である。 図13は、図12に示した参照情報に基づいて生成される話者表示再生画面の一例を示す図である。
以下に、図面を参照して、本発明を実施するための形態(以下、実施の形態と記載)について説明する。なお、以下に説明する実施の形態によって本発明が限定されるものではない。さらに、図面の記載において、同一の部分には同一の符号を付している。
(実施の形態1)
〔電子機器の構成〕
図1は、本発明の実施の形態1に係る電子機器1の構成を示すブロック図である。
電子機器1は、ICレコーダ、デジタルカメラ、デジタルビデオカメラ、携帯電話、あるいはタブレット型携帯機器等として構成される。そして、電子機器1は、話者が発した音声を含む音声データを解析することで当該音声の特徴成分(話者のテンション)を判別し、タイムバーとともに当該特徴成分が生じた時間を明示した再生画面を表示する。
以下、電子機器1の構成として、本発明の要部を主に説明する。 この電子機器1は、図1に示すように、第1音声データ生成部11と、第2音声データ生成部12と、操作部13と、表示部14と、時計部15と、メモリ部16と、記録部17と、音声出力部18と、機器側制御部19とを備える。
第1音声データ生成部11は、機器側制御部19による制御の下、入力した音声に基づく第1音声データを生成する。この第1音声データ生成部11は、図1に示すように、第1マイク111と、第1増幅器112と、第1A/D変換部113とを備える。
第1マイク111は、音声を入力して電気信号に変換する。ここで、第1マイク111は、電子機器1を正面から見て、左上側に配置されている(図4参照)。
第1増幅器112は、第1マイク111からの電気信号を入力し、当該電気信号に対して所定のアナログ処理(ノイズ成分を低減するノイズ低減処理、ゲインを増大させて一定の出力レベルを維持するゲイン処理等)を施し、第1A/D変換部113に出力する。
第1A/D変換部113は、第1増幅器112からの電気信号を入力し、当該電気信号に対して、A/D変換を行うことにより、デジタル信号(第1音声データ)に変換し、機器側制御部19に出力する。
第2音声データ生成部12は、第1音声データ生成部11と同様に、機器側制御部19による制御の下、入力した音声に基づく第2音声データを生成する。この第2音声データ生成部12は、図1に示すように、第1音声データ生成部11を構成する第1マイク111、第1増幅器112、及び第1A/D変換部113とそれぞれ同様の第2マイク121、第2増幅器121、及び第2A/D変換部123を備える。
ここで、第2マイク121は、電子機器1を正面から見て、右上側(第1マイク111に対向する側)に配置されている(図4参照)。
操作部13は、ユーザ操作を受け付けるボタン、スイッチ、タッチパネル等を用いて構成され、当該ユーザ操作に応じた指示信号を機器側制御部19に出力する。
そして、操作部13は、本発明に係る操作受付部としての機能を有する。
表示部14は、液晶または有機EL(Electro Luminescence)等からなる表示パネルを用いて構成されている。そして、表示部14は、機器側制御部19による制御の下、話者表示再生画面等の画像を表示する。
時計部15は、計時機能の他、第1,第2音声データ生成部11,12にて音声データが生成された日時に関する日時情報(以下、タイムスタンプと記載)を生成する機能を有する。そして、時計部15にて生成されたタイムスタンプは、機器側制御部19に出力される。
メモリ部16は、第1,第2音声データ生成部11,12にてそれぞれ生成された第1,第2音声データ、及び機器側制御部19による処理中の情報を一時的に記憶する。
記録部17は、機器側制御部19が実行する各種プログラム(音声処理プログラムを含む)や、第1,第2音声データ生成部11,12にてそれぞれ生成された第1,第2音声データを記録する。また、記録部17は、機器側制御部19による制御の下、機器側制御部19にて生成された参照情報を対応する第1,第2音声データに関連付けて記録する。
音声出力部18は、機器側制御部19による制御の下、記録部17に記録された第1,第2音声データに基づく音声を出力する。この音声出力部18は、図1に示すように、D/A変換部181と、増幅器182と、スピーカ183とを備える。
D/A変換部181は、記録部17に記録された第1,第2音声データに対して、D/A変換をそれぞれ行うことにより、アナログ信号にそれぞれ変換するとともに、各アナログ信号の和信号を増幅器182に出力する。
増幅器182は、D/A変換部181からの音声信号(和信号)を入力し、当該音声信号に対して所定のアナログ処理を施して音声信号の増幅等を行い、スピーカ183に出力する。
スピーカ183は、増幅器182からの音声信号を入力し、当該音声信号に基づく音声を出力する。
機器側制御部19は、CPU(Central Processin Unit)等を用いて構成され、操作部13からの指示信号等に応じて電子機器1を構成する各部に対応する指示やデータの転送等を行って電子機器1の動作を統括的に制御する。この機器側制御部19は、図1に示すように、音声データ取得部191と、音声データ解析部192と、参照情報生成部193と、再生画面生成部194と、表示制御部195と、音声制御部196とを備える。
音声データ取得部191は、ユーザによる操作部13へのユーザ操作(モード切替スイッチの操作等)に応じて電子機器1が録音モードに設定されている場合に、以下の機能を実行する。
音声データ取得部191は、ユーザによる操作部13への録音開始操作(録音スイッチの押下等)に応じて、第1,第2音声データ生成部11,12に第1,第2音声データを生成させ、当該第1,第2音声データを取得する。そして、音声データ取得部191は、時計部15にて生成されたタイムスタンプ(第1,第2音声データの生成日時に関する日時情報)を第1,第2音声データに関連付けて、メモリ部16に順次、記憶する。また、音声データ取得部191は、ユーザによる操作部13への録音終了操作(停止スイッチの押下等)に応じて、第1,第2音声データ生成部11,12に第1,第2音声データの生成を終了させ、メモリ部16に記憶した第1,第2音声データ(タイムスタンプを含む)を記録部17に記録する。
音声データ解析部192は、ユーザによる操作部13へのユーザ操作(モード切替スイッチの操作等)に応じて電子機器1が再生モード(第1,第2音声データを再生するモード)に設定されている場合に、記録部17に記録された第1,第2音声データを解析する。この音声データ解析部192は、図1に示すように、対象物特定部1921と、特徴成分判別部1922とを備える。
対象物特定部1921は、第1,第2音声データを解析することで、当該第1,第2音声データに含まれる音声を発した話者を特定する。
特徴成分判別部1922は、第1,第2音声データを解析することで、当該第1,第2音声データに含まれる音声の特徴成分(話者のテンション)を判別する。
参照情報生成部193は、電子機器1が再生モードに設定されている場合に、以下の機能を実行する。
参照情報生成部193は、対象物特定部1921にて特定された話者、特徴成分判別部1922にて判別された話者のテンション、並びに当該話者の声が含まれる日時を示すタイムスタンプ(時計部15にて生成)等を関連付け、第1,第2音声データの再生画面を生成する際に用いられる参照情報を生成する。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
そして、上述した音声データ取得部191、音声データ解析部192、及び参照情報生成部193は、本発明に係る音声処理装置としての機能を有する。
再生画面生成部194は、ユーザによる操作部13へのユーザ操作に応じて話者表示の表示フラグがオン状態になっている場合に、話者表示再生画面を生成する。なお、当該話者表示の表示フラグは、メモリ部16に記憶されている。
具体的に、再生画面生成部194は、再生位置を指し示すタイムバーを配置するとともに、参照情報生成部193にて生成された参照情報に基づいて、タイムバーに対応する各時間に、当該時間(タイムスタンプ)に関連付けられた話者及び当該話者のテンションを識別するための識別画像を配置した話者表示再生画面を生成する。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
また、再生画面生成部194は、ユーザによる操作部13へのユーザ操作に応じて話者表示の表示フラグがオフ状態になっている場合に、再生位置を指し示すタイムバーのみを配置した(上述した識別画像のない)通常再生画面を生成する。
表示制御部195は、再生する第1,第2音声データをユーザに選択させるための選択画面、再生画面生成部194にて生成された話者表示再生画面や通常再生画面等を表示部14に表示させる。
音声制御部196は、電子機器1が再生モードに設定されている場合に、以下の機能を実行する。
音声制御部196は、ユーザによる操作部13への再生開始操作(再生スイッチの押下等)に応じて、音声出力部18の動作を制御し、記録部17に記録された第1,第2音声データに基づく音声の出力を開始させる。また、音声制御部196は、ユーザによる操作部13への再生終了操作(停止スイッチの押下等)に応じて、音声出力部18に音声の出力を終了させる。
〔電子機器の動作〕
次に、上述した電子機器1の動作について説明する。
図2は、電子機器1の動作を示すフローチャートである。
ユーザによる操作部13への操作によって電子機器1の電源がオンになる(ステップS101:Yes)と、機器側制御部19は、電子機器1が録音モードに設定されているか否かを判断する(ステップS102)。
録音モードに設定されていないと判断された場合(ステップS102:No)には、電子機器1は、ステップS107に移行する。
一方、録音モードに設定されていると判断した場合(ステップS102:Yes)には、機器側制御部19は、ユーザによる操作部13への録音開始操作があったか否かを判断する(ステップS103)。
録音開始操作がないと判断された場合(ステップS103:No)には、電子機器1は、ステップS101に戻る。
一方、録音開始操作があったと判断された場合(ステップS103:Yes)には、音声データ取得部191は、第1,第2音声データ生成部11,12に第1,第2音声データの生成(録音)を開始させる。また、時計部15は、タイムスタンプの生成(計時)を開始する。そして、音声データ取得部191は、当該タイムスタンプを当該第1,第2音声データに関連付けて、メモリ部16に順次、記憶する(ステップS104)。
続いて、機器側制御部19は、ユーザによる操作部13への録音終了操作があったか否かを判断する(ステップS105)。
録音終了操作がないと判断された場合(ステップS105:No)には、電子機器1は、録音及び計時を継続する。
一方、録音終了操作があったと判断された場合(ステップS105:Yes)には、音声データ取得部191は、第1,第2音声データ生成部11,12に第1,第2音声データの生成を終了させる。また、時計部15は、タイムスタンプの生成を終了する。そして、音声データ取得部191は、メモリ部16に記憶した第1,第2音声データ(タイムスタンプを含む)を記録部17に記録する(ステップS106)。この後、電子機器1は、ステップS101に戻る。
以上説明したステップS103〜S106は、本発明に係る音声データ取得ステップに相当する。
ステップS102で録音モードに設定されていないと判断した場合(ステップS102:No)には、機器側制御部19は、電子機器1が再生モードに設定されているか否かを判断する(ステップS107)。
再生モードに設定されていないと判断された場合(ステップS107:No)には、電子機器1は、ステップS118に移行する。
一方、再生モードに設定されていると判断された場合(ステップS107:Yes)には、表示制御部195は、選択画面を表示部14に表示させる(ステップS108)。
ここで、当該選択画面は、記録部17に記録された複数の第1,第2音声データをユーザに選択させる画面であって、例えば、複数の第1,第2音声データに関連付けられた各タイムスタンプに基づく各日時が一覧表示された画面である。
続いて、機器側制御部19は、ユーザによる操作部13への選択操作(選択画面中のいずれかの第1,第2音声データを選択する操作)があったか否かを判断する(ステップS109)。
選択操作がないと判断された場合(ステップS109:No)には、電子機器1は、選択画面の表示を継続する。
一方、選択操作があったと判断した場合(ステップS109:Yes)には、機器側制御部19は、話者表示の表示フラグがオン状態であるか否かを判断する(ステップS110)。
話者表示の表示フラグがオン状態であると判断された場合(ステップS110:Yes)には、電子機器1は、話者表示再生画面を生成し表示する話者表示処理を実行する(ステップS111)。
なお、話者表示処理の詳細については、後述する。
一方、話者表示の表示フラグがオフ状態であると判断された場合(ステップS110:No)には、再生画面生成部194は、通常再生画面を生成する。そして、表示制御部195は、当該通常再生画面を表示部14に表示させる(ステップS112)。
ステップS111またはステップS112の後、機器側制御部19は、ユーザによる操作部13への再生開始操作があったか否かを判断する(ステップS113)。
再生開始操作がないと判断された場合(ステップS113:No)には、電子機器1は、ステップS117に移行する。
一方、再生開始操作があったと判断された場合(ステップS113:Yes)には、音声制御部196は、ユーザによる選択操作(ステップS109)により選択された第1,第2音声データを記録部17から読み出す。そして、音声制御部196は、音声出力部18に当該第1,第2音声データに基づく音声の出力(再生)を開始させる(ステップS114)。
続いて、機器側制御部19は、ユーザによる操作部13への再生終了操作があったか否かを判断する(ステップS115)。
再生終了操作がないと判断された場合(ステップS115:No)には、電子機器1は、再生を継続する。
一方、再生終了操作があったと判断された場合(ステップS115:Yes)には、音声制御部196は、音声出力部18に音声の出力(再生)を終了させる(ステップS116)。なお、ステップS115で再生を継続した結果、第1,第2音声データを全て再生し終えた場合にも、ステップS116に移行するものである。
ステップS116の後、または、ステップS113で再生開始操作がないと判断された場合(ステップS113:No)には、機器側制御部19は、ユーザによる操作部13への再生対象(第1,第2音声データ)の変更操作があったか否かを判断する(ステップS117)。
再生対象の変更操作がないと判断された場合(ステップS117:No)には、電子機器1は、ステップS113に戻る。
一方、再生対象の変更操作があったと判断された場合(ステップS117:Yes)には、電子機器1は、ステップS101に戻り、ステップS101,S102,S107を経た後、ステップS108において、再度、選択画面を表示する。
ステップS107で再生モードに設定されていないと判断された場合(ステップS107:No)には、電子機器1は、上述した処理とは異なる他の処理を実行する(ステップS118)。この後、電子機器1は、ステップS101に戻る。
〔話者表示処理〕
次に、上述した話者表示処理(ステップS111)について説明する。
図3は、話者表示処理(ステップS111)を示すフローチャートである。
機器側制御部19は、話者表示処理の対象となる第1,第2音声データ(ステップS109で選択された第1,第2音声データ)の参照情報を既に生成しているか否かを判断する(ステップS111A)。すなわち、機器側制御部19は、ステップS111Aにおいて、記録部17に記録された当該第1,第2音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合(ステップS111A:Yes)には、電子機器1は、ステップS111Pに移行する。
一方、参照情報を未だ生成していないと判断された場合(ステップS111A:No)には、対象物特定部1921は、話者表示処理の対象となる第1,第2音声データにおける一期間(例えば、5秒間)に相当するデータをそれぞれ読み出す(ステップS111B)。
以下、第1音声データにおける一期間に相当するデータを第1データ要素と記載し、第2音声データにおける一期間に相当するデータを第2データ要素と記載する。
続いて、対象物特定部1921は、ステップS111Bで読み出した一期間(以下、該当期間)に相当する第1,第2データ要素を解析することで、当該第1,第2データ要素に含まれる音声を発した話者を特定する(ステップS111C)。
具体的に、対象物特定部1921は、該当期間に相当する第1,第2データ要素に含まれる各音声の音量を比較することで、電子機器1に対する話者の方向を特定する。また、対象物特定部1921は、当該第1,第2データ要素に含まれる音声の周波数に基づいて、話者の性別を特定する。母音などの発音の周波数は、女性が男性より高めであるため性別の判定に用いることができる。また、使われる言葉や内容、イントネーション等でも性別を判定することができる。男女別の話者がいる場合はこれらの音声を比較して性別を判定してもよく、特定周波数より高いか低いかで性別を判定してもよい。さらに、使われる単語やセンテンスや語尾の特徴でも性別判定が可能である。また、男女それぞれのモデル音声との類似度に基づいて性別判定してもよい。また、同様の考え方で年齢の高低も判定が可能であることは言うまでもない。登場する頻度が高い話者であれば、あらかじめ登録したデータベースとの音声照合で特定する方法もある。
なお、ステップS111Cにおいて、話者の特定については、上述したような話者の方向や性別を特定する方法に限られず、以下のように話者を特定しても構わない。
複数のユーザを識別するための識別データ(ユーザ名等)と当該ユーザの声紋に関する声紋データとを関連付け、当該関連付けた情報を記録部17に予め記録しておく。そして、対象物特定部1921は、記録部17に記録された情報を参照し、第1,第2データ要素に含まれる音声の声紋に一致する声紋データを特定することで、話者(当該声紋データに関連付けられた識別データ(ユーザ名等))を特定する。
ステップS111Cの後、対象物特定部1921は、ステップS111Cで話者を特定することができた(話者の方向及び性別の双方を特定することができた)か否かを判断する(ステップS111D)。
話者を特定することができなかった(話者の方向及び性別の少なくともいずれか一方を特定することができなかった)と判断された場合(ステップS111D:No)には、電子機器1は、ステップS111Gに移行する。
一方、話者を特定することができた(話者の方向及び性別の双方を特定することができた)と判断された場合(ステップS111D:Yes)には、特徴成分判別部1922は、該当期間に相当する第1,第2データ要素を解析することで、当該第1,第2データ要素に含まれる音声を発した話者のテンションを話者毎に判別する(ステップS111E:音声データ解析ステップ)。
具体的に、特徴成分判別部1922は、該当期間に相当する第1,第2データ要素に含まれる各音声の音量に基づいて、話者のテンションを判別する。すなわち、特徴成分判別部1922は、話者の音声の音量が直前の期間の音量と比較して所定の第1閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。感情によって音声の韻律的特徴が変化するが、これは声の高・低、強・弱、リズム・テンポや、基本周波数、パワー、持続時間などで分析が可能である。感情を表す音声に含まれる感情の程度と基本周波数パターンには関係があると言われており、ピッチ周波数・振幅の変化パターンなどでも分析が可能である。また、アクセントや含まれる単語、感嘆詞などを検出してもよく、これらの検出結果を合わせて、またはそのいずれかを活用して、「ハイテンション」を判定することが可能である。後述するように、笑い声やうなり声などを分析してもよい。これは声(声紋データ)のパターンマッチングなどでも判定可能である。話者のテンション(音声の特徴部分)は、喜怒哀楽のような激しい感情的な高ぶりに限る必要はなく、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
なお、ステップS111Eにおいて、話者のテンションの判別については、上述した音量に基づいて判別する方法に限られず、以下のようにテンションを判別しても構わない。
例えば、特徴成分判別部1922は、第1,第2データ要素に含まれる音声の周波数に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部1922は、話者の音声の周波数が直前の期間の音声の周波数と比較して所定の第2閾値以上に高くなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。「ハイテンション」は、喜怒哀楽等の話者の感情の高ぶりのみならず、話の集中具合を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出してテンションが上がっているという判定をしてもよい。つまり、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出して所定の特徴的な結果が得られた場合、「ハイテンション」と判定してもよい。
また、例えば、特徴成分判別部1922は、第1,第2データ要素に含まれる音声の音素成分の時間密度に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部1922は、話者の音声の音素成分の時間密度が直前の期間の音声の音素成分の時間密度と比較して所定の第3閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
さらに、例えば、笑い声や怒った声等の声紋に関する声紋データを記録部17に予め記録しておく。そして、特徴成分判別部1922は、記録部17に記録された当該声紋データを参照し、第1,第2データ要素に含まれる音声に当該声紋データに基づく笑い声や怒った声等の声紋に一致する声紋があった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
ステップS111Eの後、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定された話者(方向及び性別)と、ステップS111Eで判別された話者のテンションと、該当期間に相当するタイムスタンプ(時計部15にて生成)等を関連付けた参照情報(後述する「複数話者期間」フラグ及び「ざわざわ期間」フラグはオフ状態)を生成する(ステップS111F:参照情報生成ステップ)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。
ステップS111Dで話者を特定することができなかった(話者の方向及び性別の少なくともいずれか一方を特定することができなかった)と判断した場合(ステップS111D:No)には、対象物特定部1921は、特定することができた話者の方向または性別に基づいて、話者が複数であるか否かを判断する(ステップS111G)。
話者が複数であると判断された場合(ステップS111G:Yes)には、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「複数話者期間」フラグをオン状態とした参照情報を生成する(ステップS111H)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。
ここで、「複数話者期間」フラグ(オン状態)は、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数であることを示すフラグである。
一方、話者が複数ではないと判断された場合(ステップS111G:No)には、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「ざわざわ期間」フラグをオン状態とした参照情報を生成する(ステップS111I)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。
ここで、「ざわざわ期間」フラグは、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数でないことを示すフラグである。
なお、ステップS111Gで話者が複数ではないと判断された場合(ステップS111G:No)とは、話者が一人であると判断された場合の他、ステップS111Cで話者の方向及び性別の双方を特定することができず、話者が複数であるか、または、一人であるかの判断が全くできない場合も含むものである。
ステップS111F、ステップS111H、またはステップS111Iの後、機器側制御部19は、話者表示処理の対象となる第1,第2音声データにおける全ての期間で参照情報を生成したか否かを判断する(ステップS111J)。
全ての期間で参照情報を生成していないと判断された場合(ステップS111J:No)には、電子機器1は、ステップS111Bに戻り、第1,第2音声データにおける他の期間に相当する第1,第2データ要素を読み出し、当該他の期間の参照情報を生成する。
一方、全ての期間で参照情報を生成したと判断された場合(ステップS111J:Yes)には、対象物特定部1921は、以下の処理を実行する(ステップS111K)。
対象物特定部1921は、ステップS111Kにおいて、メモリ部16に記憶された各期間の参照情報のうち、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報(ステップS111HまたはステップS111Iで生成された参照情報)があるか否かを判断する。
「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合(ステップS111K:No)には、電子機器1は、ステップS111Oに移行する。
一方、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報があると判断した場合(ステップS111K:Yes)には、対象物特定部1921は、以下の処理を実行する(ステップS111L)。
対象物特定部1921は、ステップS111Lにおいて、メモリ部16に記憶された各期間の参照情報のうち、当該参照情報の直前の期間の参照情報の「複数話者期間」フラグ及び「ざわざわ期間」フラグがオフ状態となっているか否かを判断する。すなわち、対象物特定部1921は、当該参照情報の直前の期間で話者が特定されている(話者の方向及び性別の双方を特定することができている)か否かを判断している。
直前の期間で話者が特定されていないと判断された場合(ステップS111L:No)には、電子機器1は、ステップS111Oに移行する。
一方、直前の期間で話者が特定されていると判断した場合(ステップS111L:Yes)には、対象物特定部1921は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者を、当該直前の期間で特定された話者(話者の方向及び性別)と推定する(ステップS111M)。
続いて、参照情報生成部193は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者をステップS111Mで推定された話者とし、当該参照情報を更新する(ステップS111N)。
ステップS111Nの後、ステップS111Kで「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合(ステップS111K:No)、または、ステップS111Lで直前の期間で話者が特定されていないと判断された場合(ステップS111L:No)には、参照情報生成部193は、以下の処理を実行する(ステップS111O)。
参照情報生成部193は、ステップS111Oにおいて、メモリ部16に記憶され、ステップS111F,S111H,S111Iで生成された各期間の参照情報(ステップS111Nで更新された場合には更新後の参照情報)を、話者表示処理の対象とした第1,第2音声データに関連付けて、記録部17に記録する。
ステップS111Oの後、または、ステップS111Aで参照情報を生成済みであると判断された場合(ステップS111A:Yes)には、再生画面生成部194は、以下の処理を実行する(ステップS111P)。
再生画面生成部194は、ステップS111Pにおいて、記録部17に記録された第1,第2音声データのうち、話者表示処理の対象となる第1,第2音声データに関連付けられた参照情報に基づいて、話者表示再生画面を生成する。
続いて、表示制御部195は、ステップS111Pで生成された話者表示再生画面を表示部14に表示させる(ステップS111Q)。この後、電子機器1は、図2に示したメインルーチンに戻る。
〔参照情報の具体例〕
次に、上述した話者表示処理(ステップS111)で生成される参照情報の具体例について説明する。
図4は、話者表示処理(ステップS111)の対象となる第1,第2音声データが生成(録音)される状況の一例を示す図である。図5は、図4の状況で生成された第1,第2音声データを対象として話者表示処理(ステップS111)を実行した場合に生成される参照情報の一例を示す図である。
具体的に、図4では、男性Mと女性L1,L2の3人がテーブルを囲んで打合せをし、当該打合せをテーブルの上に置いた電子機器1にて録音している状況を示している。ここで、電子機器1の上端から当該電子機器1の中心線を延長させた軸Axを基準とした場合に、男性Mは、軸Axに対して「右(電子機器1を正面から見て(図4中、上側から見て)右に120°」の方向に座っているものとする。また、女性L1は、軸Axに対して「右に90°」の方向に座っているものとする。さらに、女性L2は、軸Axに対して「左に10°」の方向に座っているものとする。
また、図5では、ステップS111Bで第1,第2データ要素を読み出す一期間を5秒間としている。このため、以下では、「0〜5秒」、「5〜10秒」、「10〜15秒」、「15〜20秒」、「20〜25秒」の各期間について順に説明する。
〔0〜5秒の期間〕
この期間では、男性Mのみが声を発したものである。すなわち、当該期間では、第2データ要素に含まれる音声(軸Axに対して右側からの音声)の音量は、第1データ要素に含まれる音声(軸Axに対して左側からの音声)の音量よりも大きくなっている。また、男性Mの声であるため、当該音声は、比較的に低い周波数となっている。このため、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランスにより、話者が「右に120°」の方向であると特定される。また、当該第1,第2データ要素に含まれる音声が比較的に低い周波数であるため、話者が「男性」であると特定される。
また、当該期間は、最初の期間であり、直前の期間がない。このため、ステップS111Eでは、話者のテンションが「通常」と判別される。
そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された話者(「右に120°」の方向の「男性」)と、判別された話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:10」)と、声の数(「1」)とが関連付けられた参照情報が生成される。
〔5〜10秒の期間〕
この期間では、男性M及び女性L1がそれぞれ声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(男性の声は周波数が比較的に低く、女性の声は周波数が比較的に高い)により、一人目の話者が「右に120°」の方向の「男性」であり、二人目の話者が「右に90°」の方向の「女性」であると特定される。
また、当該期間では、男性Mが当該期間の直前の「0〜5秒」の期間よりも大きな声を発している。このため、ステップS111Eでは、一人目の話者(「右に120°」の方向の「男性」)の音声の音量が直前の期間での当該話者の音声の音量と比較して第1閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。また、二人目の話者(「右に90°」の方向の「女性」)については、直前の「0〜5秒」の期間では当該話者が特定されていないため、ステップS111Eでは、当該話者のテンションが「通常」と判別される。
そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された一人目の話者(「右に120°」の方向の「男性」)及び判別された当該話者のテンション(「ハイテンション」)と、特定された二人目の話者(「右に90°」の方向の「女性」)及び判別された当該話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:15」)と、声の数(「2」)とが関連付けられた参照情報が生成される。
〔10〜15秒の期間〕
この期間では、男性M及び女性L1がそれぞれ声を発したものである。なお、図5に示す例では、ステップS111Cにおいて、一人目の話者が「男性」であり二人目の話者が「女性」であることを特定することはできたが、当該一人目の話者及び二人目の話者の各方向を特定することができなかったことを例示している。すなわち、話者の特定(話者の方向及び性別の双方の特定)はできていないが、話者が複数(二人)であることは特定されている(ステップS111G:Yes)。このため、ステップS111Hでは、当該期間の参照情報として、特定された一人目の話者(「男性」)及び二人目の話者(「女性」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:20」)と、声の数(「2」)とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報が生成される。
ここで、当該期間の直前の「5〜10秒」の期間では、話者が特定されている。このため、ステップS111Mでは、特定された一人目の話者(「男性」)は、直前の期間で特定された同性の話者(「右に120°」の方向の「男性」)と推定される。同様に、特定された二人目の話者(「女性」)は、直前の期間で特定された同性の話者(「右に90°」の方向の「女性」)と推定される。
そして、ステップS111Nでは、ステップS111Hで生成された参照情報は、図5に示すように、一人目の話者(「右に120°」の方向の「男性」)及び当該話者のテンション(「通常」)と、二人目の話者(「右に90°」の方向の「女性」)及び当該話者のテンション(「通常」)と、タイムスタンプ(「9/15 11:21:20」)と、声の数(「2」)とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報に更新される。なお、「複数話者期間」フラグがオン状態である場合には、当該参照情報の更新時に、話者のテンションは「通常」とされる。「ざわざわ期間」フラグがオン状態である場合でも同様である。
〔15〜20秒の期間〕
この期間では、女性L1及び女性L2がそれぞれ声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(女性L1,L2の声の周波数の違い)により、一人目の話者が「右に90°」の方向の「女性」であり、二人目の話者が「左に10°」の方向の「女性」であると特定される。
また、当該期間では、直前の「10〜15秒」の期間で話者が特定されていないため、ステップS111Eでは、一人目の話者(「右に90°」の方向の「女性」)及び二人目の話者(「左に10°」の方向の「女性」)の各テンションが「通常」とそれぞれ判別される。
そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された一人目の話者(「右に90°」の方向の「女性」)及び判別された当該話者のテンション(「通常」)と、特定された二人目の話者(「左に10°」の方向の「女性」)及び判別された当該話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:25」)と、声の数(「2」)とが関連付けられた参照情報が生成される。
〔20〜25秒の期間〕
この期間では、女性L2のみが声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(女性の声は周波数が比較的に高い)により、話者が「左に10°」の方向の「女性」であると特定される。
また、当該期間では、女性L2が当該期間の直前の「15〜20秒」の期間よりも大きな声を発している。このため、ステップS111Eでは、話者(「左に10°」の方向の「女性」)の音声の音量が直前の期間での当該話者の音声の音量と比較して第1閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。
そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された話者(「左に10°」の方向の「女性」)と、判別された当該話者のテンション(「ハイテンション」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:30」)と、声の数(「1」)とが関連付けられた参照情報が生成される。
〔話者表示再生画面の具体例〕
次に、上述した話者表示処理(ステップS111)で生成される話者表示再生画面の具体例について説明する。
図6は、図5に示した参照情報に基づいて生成される話者表示再生画面W100の一例を示す図である。
ステップS111Oで記録部17に記録された参照情報が図5に示す参照情報であった場合、ステップS111Pでは、図6に示す話者表示再生画面W100が生成される。
この話者表示再生画面W100は、図5に示すように、タイムバーTBと、第1〜第3識別画像I1〜I3とが配置された画面である。
タイムバーTBは、図6に示すように、音声の録音を開始してから終了するまでの時間に対応する時間スケールSCと、時間スケールSC上に設けられ、音声の再生時(ステップS113〜S116)の音声データのタイムスタンプと時間的に対応する再生位置を指し示すスライダSLとを備える。
第1〜第3識別画像I1〜I3は、話者及び当該話者のテンションを識別するための識別画像である。図5に示した参照情報では、話者が三人(「右に120°」の方向の「男性」、「右に90°」の方向の「女性」、及び「左に10°」の方向の「女性」の三人)であるため、話者表示再生画面W100では、3つの第1〜第3識別画像I1〜I3が配置されている。
第1識別画像I1は、一人目の話者である「右に120°」の方向の「男性」に対応する識別画像である。図5に示した参照情報では、当該話者は、「0〜5秒」、「5〜10秒」、及び「10〜15秒」の期間に連続して特定されている。このため、第1識別画像I1は、タイムバーTBに対応する当該「0〜15秒」の期間、タイムバーTBに沿って延びるように配置されている。
ここで、図5に示した参照情報では、当該話者は、「男性」であると特定されている。このため、第1識別画像I1には、図6に示すように、当該「男性」であることを識別するための男性画像MFが付加されている。
また、図5に示した参照情報では、当該話者のテンションは、「5〜10秒」の期間で「ハイテンション」であると判別されている。このため、第1識別画像I1は、図6に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。すなわち、第1識別画像I1の幅は、話者のテンションの高さを示している。なお、他の識別画像についても同様である。話者のテンションの高さに応じて第1識別画像I1の幅をアナログ的に変更してもよいし、段階的に変更してもよい。また、当該幅が隣接のタイムバーTBと重ならないように制限をかけてもよい。なお、美観が損なわれなければ、当該幅が隣接のタイムバーTBと重なるような表現でもよい。この場合には、臨場感が出ることは言うまでもない。また、第1識別画像I1の幅は一定とし、付加する男性画像MFの大きさによってテンションの高さを表してもよい。
第2識別画像I2は、二人目の話者である「右に90°」の方向の「女性」に対応する識別画像である。図5に示した参照情報では、当該話者は、「5〜10秒」、「10〜15秒」、及び「15〜20秒」の期間に連続して特定されている。このため、第2識別画像I2は、タイムバーTBに対応する当該「5〜20秒」の期間、タイムバーTBに沿って延びるように配置されている。
ここで、図5に示した参照情報では、当該話者は、「女性」であると特定されている。このため、第2識別画像I2には、図6に示すように、当該「女性」であることを識別するための女性画像LF1が付加されている。
また、図5に示した参照情報では、当該話者のテンションは、全て「通常」であると判別されている。このため、第2識別画像I2は、図6に示すように、全ての期間で同一の幅寸法となっている。
第3識別画像I3は、三人目の話者である「左に10°」の方向の「女性」に対応する識別画像である。図5に示した参照情報では、当該話者は、「15〜20秒」及び「20〜25秒」の期間に連続して特定されている。このため、第3識別画像I3は、タイムバーTBに対応する当該「15〜25秒」の期間、タイムバーTBに沿って延びるように配置されている。
ここで、図5に示した参照情報は、当該話者は、二人目の話者(「右に90°」の方向の「女性」)とは異なる「女性」であると特定されている。このため、第3識別画像I3には、図6に示すように、当該「女性」であることを識別するための画像であって、女性画像LF1とは異なる女性画像LF2が付加されている。
また、図5に示した参照情報では、当該話者のテンションは、「20〜25秒」の期間で「ハイテンション」であると判別されている。このため、第3識別画像I3は、図6に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。
以上説明した本実施の形態1に係る電子機器1は、第1,第2音声データを解析することで当該音声データに含まれる音声の特徴成分(話者のテンション)を判別し、当該特徴成分と当該特徴成分が含まれる時間(タイムスタンプ)とを関連付けて参照情報を生成する。そして、電子機器1は、当該参照情報に基づいて、タイムバーとともに、当該タイムバーに対応する各時間に、当該時間に関連付けられた特徴成分を識別するための識別画像を配置した話者表示再生画面を表示する。
特に、電子機器1は、話者のテンションに応じて当該識別画像を異なるもの(図6に示した例では、話者のテンションを識別画像I1〜I3の幅の太さで表現)としている。
このため、ユーザは、当該話者表示再生画面から録音時の状況(話者のテンションがどのような状態であったか)を一目で把握することができる。したがって、本実施の形態1に係る電子機器1によれば、利便性の向上が図れるという効果を奏する。
また、本実施の形態1に係る電子機器1は、第1,第2音声データを解析して、当該第1,第2音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、特徴情報(話者のテンション)を判別する。
このため、ユーザは、話者表示再生画面から、録音時の状況として、話者が誰であったか、当該話者のテンションがどのような状態であったかの双方を一目で把握することができ、利便性の向上がさらに図れる。
特に、電子機器1は、一対の第1,第2マイク111,121が設けられ、当該第1,第2マイク111,121を介して入力した各音声に基づく第1,第2音声データに基づいて、話者の方向を特定する。また、電子機器1は、当該各音声の周波数に基づいて、話者の性別を特定する。さらに、電子機器1は、当該各音声の音量に基づいて、話者のテンションを判別する。このため、簡単な解析処理により、話者の特定(話者の方向及び性別の特定)及び話者のテンションの判別を実行することができる。
また、本実施の形態1に係る電子機器1は、話者を特定することができなかった場合には、当該話者を特定することができなかった期間の音声を当該期間の直前の期間で特定した話者が発したものと推定する。
このため、話者を特定することができなかった場合であっても、各期間で継続して声を発しているものと推測し、当該話者を尤もらしい話者と推定することができる。
(実施の形態1の変形例)
上述した実施の形態1では、電子機器1が再生モードに設定されている場合(ステップS111)に、第1,第2音声データの解析及び参照情報の生成を行っていたが、これに限られない。
例えば、第1,第2音声データの解析及び参照情報の生成(ステップS111B〜S111N)の少なくとも一部を、第1,第2音声データの生成時(ステップS103〜S105)に並行して行っても構わない。
上述した実施の形態1において、第1,第2データ要素を解析し、笑い声や怒った声を認識することができた場合には、話者表示再生画面において、当該認識することができた期間に対応する位置に笑い顔や怒った顔の画像を付加しても構わない。
上述した実施の形態1では、話者のテンションを「ハイテンション」及び「通常」の2段階で判別していたが、これに限られず、3段階以上で判別しても構わない。
上述した実施の形態1では、話者のテンションを判別する際、話者の音声の音量を該当期間と直前の期間とで比較していたが、これに限られず、該当期間における話者の音声の音量を所定の閾値と比較することで話者のテンションを判別しても構わない。また、該当期間内での話者の音声の音量の変化で話者のテンションを判別しても構わない。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化(集中し始めたなど)を検出したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
上述した実施の形態1では、話者を特定することができなかった場合には、当該話者を特定することができなかった期間の音声を当該期間の「直前」の期間で特定した話者が発したものと推定していた(ステップS111M)が、これに限られず、当該期間の「直後」の期間で特定した話者が発したものと推定しても構わない。
図7は、本発明の実施の形態1の変形例を示す図である。
上述した実施の形態1で説明した電子機器1の代わりに、撮像機能を付加した電子機器1Aを採用しても構わない。
具体的に、電子機器1Aは、図7に示すように、上述した実施の形態1で説明した電子機器1に対して、撮像部10が追加されているとともに、機器側制御部19の代わりに当該機器側制御部19に対して撮像制御部197を追加した機器側制御部19Aが採用されている。
撮像部10は、撮像制御部197による制御の下、被写体を撮像して画像データを生成する。この撮像部10は、被写体像を結像する光学系(図示略)、当該光学系が結像した被写体像を受光して電気信号に変換するCCD(Charge Coupled Device)等の撮像素子、当該撮像素子からの電気信号(アナログ信号)に対して信号処理(A/D変換等)を行うことによりデジタルの画像データを生成する信号処理部等を用いて構成される。そして、撮像部10にて生成された画像データは、撮像制御部197による制御の下、時計部15にて生成されたタイムスタンプ(当該画像データが生成された日時に関するタイムスタンプ)が付加されて、記録部17に記録される。
撮像制御部197は、ユーザによる操作部13への撮影操作に応じて、撮像部10に被写体を撮像させ、当該撮像部10にて生成された画像データ(タイムスタンプを含む)を記録部17に記録する。
以上のように、電子機器1Aに撮像機能を持たせ、例えば、図4に示す打合せの状況や、男性M、女性L1,L2をそれぞれ撮像しておけば、例えば、図6に示した話者表示再生画面W100において、図4に示す打合せの状況を撮像した画像や、男性画像MF及び女性画像LF1,LF2の代わりに男性M、女性L1,L2を撮像した画像を配置することが可能となる。
(実施の形態2)
次に、本発明の実施の形態2について説明する。
以下の説明では、上述した実施の形態1と同様の構成及びステップには同一符号を付し、その詳細な説明は省略または簡略化する。
図8は、本発明の実施の形態2に係る音声処理システム100の構成を示すブロック図である。
本実施の形態2に係る音声処理システム100は、図8に示すように、上述した実施の形態1で説明した電子機器1の「音声データを解析し参照情報を生成する」機能をサーバ2に持たせ、音声データの生成及び再生を行う電子機器1Bと当該サーバ2との間でインターネット網Nを介して通信を行うシステムである。
〔音声処理システムの構成〕
以下、本実施の形態2に係る音声処理システム100を構成する電子機器1B及びサーバ2の構成について順に説明する。
〔電子機器の構成〕
本実施の形態2に係る電子機器1Bは、図8に示すように、上述した実施の形態1で説明した電子機器1(図1)に対して、機器側通信部20が追加されているとともに、機器側制御部19の一部の機能が変更されている。
機器側通信部20は、機器側制御部19Bによる制御の下、サーバ2との間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。
本実施の形態2に係る機器側制御部19Bは、図8に示すように、音声データ解析部192及び参照情報生成部193が省略されているとともに、機器側通信制御部198が追加されている。
機器側通信制御部198は、話者表示処理の実行時に、以下の処理を実行する。
具体的に、機器側通信制御部198は、記録部17に記録されたサーバ2の所在位置情報(URL(Uniform Resource Locator))に基づいて、機器側通信部20を介して、インターネット網Nに接続されたサーバ2にアクセス信号(参照画像の送信要求(自身の電子機器1Bを識別する識別情報を含む))を送信し、サーバ2との間で通信接続を確立する。そして、機器側通信制御部198は、話者表示処理の対象となる第1,第2音声データ(タイムスタンプを含む)をサーバ2に送信するとともに、参照情報をサーバ2から受信する。
〔サーバの構成〕
サーバ2は、電子機器1Bからの参照画像の送信要求とともに送信された第1,第2音声データを解析して参照情報を生成し、当該参照情報を電子機器1Bに送信する。
以下では、サーバ2の構成として、本発明の要部を主に説明する。
サーバ2は、図8に示すように、サーバ側通信部21と、音声データベース22と、サーバ側制御部23とを備える。
サーバ側通信部21は、サーバ側制御部23による制御の下、電子機器1Bとの間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。
音声データベース22は、サーバ側制御部23による制御の下、サーバ側通信部21を介して電子機器1Bから受信した第1,第2音声データ(タイムスタンプを含む)を記録する。また、音声データベース22は、サーバ側制御部23による制御の下、参照情報を当該参照情報の生成に用いられた第1,第2音声データに関連付けて記録する。
サーバ側制御部23は、CPU等を用いて構成され、サーバ2の動作を統括的に制御する。このサーバ側制御部23は、図8に示すように、サーバ側通信制御部231と、端末判定部232と、音声データ記録制御部233と、音声データ解析部234と、参照情報生成部235とを備える。
サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して電子機器1Bから送信されるアクセス信号(参照情報の送信要求(当該電子機器1Bの識別情報を含む))に応じて、サーバ側通信部21の動作を制御し、電子機器1Bとの間で通信接続を確立する。そして、サーバ側通信制御部231は、電子機器1Bから、音声データベース233に記録させる第1,第2音声データ(タイムスタンプを含む)を受信するとともに、参照情報生成部235にて生成された参照情報を当該電子機器1Bに送信する。
そして、サーバ側通信制御部231は、本発明に係る音声データ取得部としての機能を有する。
端末判定部232は、インターネット網Nを介して電子機器1Bから送信されるアクセス信号に基づいて、アクセスしてきた送信元の電子機器1Bを判定(特定)する。
音声データ記録制御部233は、サーバ側通信部21を介して電子機器1Bから受信した第1,第2音声データ(タイムスタンプを含む)を音声データベース22に記録する。
音声データ解析部234(対象物特定部2341及び特徴成分判別部2342)は、上述した実施の形態1で説明した音声データ解析部192(対象物特定部1921及び特徴成分判別部1922)と同様の機能を有し、サーバ側通信部21を介して電子機器1Bから受信し音声データベース22に記録された第1,第2音声データを解析する。
参照情報生成部235は、上述した実施の形態1で説明した参照情報生成部193と同様の機能を有し、音声データ解析部234の解析結果に基づいて、参照情報を生成する。そして、参照情報生成部235は、当該参照情報を当該参照情報の生成に用いた第1,第2音声データに関連付けて音声データベース22に記録する。
そして、サーバ側通信制御部231、音声データ解析部234、及び参照情報生成部235は、本発明に係る音声処理装置としての機能を有する。
〔音声処理システムの動作〕
次に、上述した音声処理システム100の動作について説明する。
以下、音声処理システム100の動作として、電子機器1Bの動作、及びサーバ2の動作を順に説明する。
〔電子機器の動作〕
なお、電子機器1Bの動作については、上述した実施の形態1で説明した電子機器1Bの動作(図2,図3)に対して、話者表示処理(ステップS111)が異なるのみである。このため、以下では、本実施の形態2に係る話者表示処理(ステップS111)のみを説明する。
図9は、本発明の実施の形態2に係る話者表示処理(ステップS111)を示すフローチャートである。
本実施の形態2に係る話者表示処理は、図9に示すように、上述した実施の形態1で説明した話者表示処理(図3)に対して、ステップS111A〜S111Oを省略し、ステップS111R,S111Sを追加した点が異なるのみである。このため、以下では、ステップS111R,S111Sのみを説明する。
ステップS111Rは、話者表示処理(ステップS111)の最初に実行されるステップである。
具体的に、機器側通信制御部198は、機器側通信部20を介して、インターネット網Nに接続されたサーバ2にアクセス信号(参照画像の送信要求(自身の電子機器1Bの識別情報を含む))を送信し、サーバ2との間で通信接続を確立する。そして、機器側通信制御部198は、話者表示処理の対象となる第1,第2音声データ(ステップS109で選択された第1,第2音声データ(タイムスタンプを含む))をサーバ2に送信する。
続いて、機器側通信制御部198は、機器側通信部20を介して、サーバ2から参照情報を受信し、メモリ部16に記憶する(ステップS111S)。
そして、電子機器1Bは、メモリ部16に記憶した参照情報に基づいて、話者表示再生画面を生成し(ステップS111P)、当該話者表示再生画面を表示部14に表示する(ステップS111Q)。
〔サーバの動作〕
図10は、サーバ2の動作を示すフローチャートである。
サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、電子機器1Bからアクセス信号(参照画像の送信要求(当該電子機器1Bの識別情報を含む))を受信したか否かを判断する(ステップS201)。
参照画像の送信要求を受信していないと判断された場合(ステップS201:No)には、サーバ3は、ステップS210に移行する。
一方、参照画像の送信要求を受信したと判断された場合(ステップS201:Yes)には、端末判定部232は、当該送信要求に基づいて、アクセスしてきた送信元の電子機器1Bを特定する(ステップS202)。
続いて、サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、電子機器1Bから第1,第2音声データ(タイムスタンプを含む)を受信する(ステップS203:音声データ取得ステップ)。そして、音声データ記録制御部233は、音声データベース22に記録された第1,第2音声データを参照し、ステップS203で受信した第1,第2音声データと同一の第1,第2音声データが未だ記録されていない場合には、当該受信した第1,第2音声データを音声データベース22に記録する。
続いて、サーバ側制御部23は、ステップS203で受信した第1,第2音声データの参照情報を既に生成しているか否かを判断する(ステップS204)。すなわち、サーバ側制御部23は、ステップS204において、音声データベース22に記録された当該第1,第2音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合(ステップS204:No)には、サーバ2は、ステップS219に移行する。
一方、参照情報を未だ生成していないと判断された場合(ステップS204:Yes)には、サーバ2は、上述した実施の形態1で説明したステップS111B〜S111Nと同様に、ステップS203で受信した第1,第2音声データの解析、及び参照情報の生成を実行する(ステップS205〜S217)。
すなわち、ステップS208は、本発明に係る音声データ解析ステップに相当する。また、ステップS209は、本発明に係る参照情報生成ステップに相当する。
ステップS217の後、または、ステップS215で直前の期間で話者が特定されていないと判断された場合(ステップS215:No)には、サーバ2は、ステップS209,S211,S212で生成された各期間の参照情報(ステップS217で更新された場合には更新後の参照情報)を、当該参照情報の生成に用いられた第1,第2音声データに関連付けて音声データベース22に記録する(ステップS218)。
ステップS218の後、または、ステップS204で参照情報を生成済みであると判断された場合(ステップS204:No)には、サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、ステップS203で受信した第1,第2音声データに対しステップS218で関連付けて記録された参照情報を、ステップS202で特定された電子機器1Bに送信する(ステップS219)。この後、サーバ2は、ステップS201に戻る。
ステップS201で参照画像の送信要求を受信していないと判断された場合(ステップS201:No)には、サーバ2は、上述した処理とは異なる他の処理を実行する(ステップS210)。この後、サーバ2は、ステップS201に戻る。
以上説明した本実施の形態2によれば、上述した実施の形態1と同様の効果を奏することができるとともに、電子機器1Bの構成の簡素化が図れる、という効果を奏する。
(その他の実施の形態)
ここまで、本発明を実施するための形態を説明してきたが、本発明は上述した実施の形態1,2によってのみ限定されるべきものではない。
図11A〜図11Cは、上述した実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。
上述した実施の形態1,2で例示した話者表示再生画面W100では、第1〜第3識別画像I1〜I3は、話者のテンションを幅の太さで表現していたが、これに限られず、例えば、図11A〜図11Cに示す話者表示再生画面W101〜W103のように表現しても構わない。
具体的に、図11Aに示す話者表示再生画面W101では、第1〜第3識別画像I1〜I3は、話者のテンションの変化を波形で表現している。すなわち、図11Aに示す話者表示再生画面W101において、縦方向はテンションの高さを示している。
また、図11Bに示す話者表示再生画面W102は、図11Aに示した話者表示再生画面W101を3D表示したものである。
さらに、図11Cに示す話者表示再生画面W103では、第1〜第3識別画像I1〜I3は、話者のテンションを画素値で表現している。すなわち、図11Cに示す話者表示再生画面W101において、画素値の高い部分(明るい部分)は、テンションが高い時間を示している。ここで、話者のテンションは感情的な高ぶりを示すものであるが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。このような声の特徴(の変化)によって、例えば、状況を判定するための検索を行うことも可能である。
図12は、上述した実施の形態1,2で説明した参照情報の変形例を示す図である。
上述した実施の形態1,2において、参照情報は、上述した実施の形態1,2で説明した参照情報(例えば、図5)に限られず、例えば、図12に示す参照情報を採用しても構わない。
例えば、上述した実施の形態1において、記録部17に特定のキーワードを予め記録しておく。なお、図12では、説明の便宜上、当該特定のキーワードを1つのみとしているが、複数としても構わない。また、音声データ解析部192は、第1,第2データ要素を解析し、当該第1,第2データ要素に記録部17に記録された特定のキーワードが含まれているか否かを判定する。そして、参照情報生成部193は、音声データ解析部192にて特定のキーワードが含まれていると判定された場合に、該当期間(図12の例では、「5〜10秒」の期間)の参照情報として、「キーワード」フラグをオン状態とした参照情報を生成する。なお、上述した実施の形態2では、サーバ2に上述した処理を実行させ、図12に示す参照情報を生成させればよい。
図13は、図12に示した参照情報に基づいて生成される話者表示再生画面W104の一例を示す図である。
例えば、上述した実施の形態1,2において、電子機器1やサーバ2が図12に示した参照情報を生成した場合には、電子機器1,1Bは、例えば、図13に示す話者表示再生画面W104を生成する。
具体的に、図13に示す話者表示再生画面W104は、図6に示した話者表示再生画面W100に対して、キーワード入力部KWが追加されている。
キーワード入力部KWは、ユーザによる操作部13への操作によって、キーワードが入力される部分である。
そして、再生画面生成部194は、記録部17に記録された特定のキーワードと同一のキーワードがユーザによる操作部13への操作によって入力された場合には、当該入力の前(図13(a))と当該入力の後(図13(b))とで、話者表示再生画面W104を以下に示すように変化させる。
すなわち、再生画面生成部194は、図12に示した参照情報を参照し、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像(図12及び図13(b)の例では、第2識別画像I2)の輝度を向上させた話者表示再生画面W104(図13(b))を生成する。
なお、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像の表示態様を従前の当該識別画像の表示態様と異なるものとすれば、上述した輝度の向上に限られず、その他の方法を採用しても構わない。
また、処理フローは、上述した実施の形態1,2で説明したフローチャートにおける処理の順序に限られず、矛盾のない範囲で変更しても構わない。
さらに、本明細書においてフローチャートを用いて説明した処理のアルゴリズムは、プログラムとして記述することが可能である。このようなプログラムは、コンピュータ内部の記録部に記録してもよいし、コンピュータ読み取り可能な記録媒体に記録してもよい。プログラムの記録部または記録媒体への記録は、コンピュータまたは記録媒体を製品として出荷する際に行ってもよいし、通信ネットワークを介したダウンロードにより行ってもよい。
上述した実施の形態では、分かり易く、ICレコーダ、録音機等の検索技術を例にとって説明したが、ビデオカメラ等で連携する動画撮影システムであれば、音声と画像が関連付けられているので、音声記録機能付きカメラ等にも応用が可能である。撮影画像を話者のテンションに基づいて記録、検索、タグ付けすることが可能である。
また、一般のカメラのみならず、車載カメラでは、車内の会話によって撮影したり画像を検索するような用途もあり、ドライバーを判定したり、ドライブしながらのハンズフリー撮影を行うことが可能である。また、監視カメラや検査用カメラ、医療用のカメラでは、特定の人物の会話に関係する画像を検索することができる。検査装置に応用した場合でも、検査対象の画像のみならず、検査している風景などについても、会話に基づいて重要シーンをチェックでき、本発明ならではの効果を期待することができる。
1,1A,1B・・・電子機器;2・・・サーバ;10・・・撮像部;11・・・第1音声データ生成部;12・・・第2音声データ生成部;13・・・操作部;14・・・表示部;15・・・時計部;16・・・メモリ部;17・・・記録部;18・・・音声出力部;19,19A,19B・・・機器側制御部;20・・・機器側通信部;21・・・サーバ側通信部;22・・・音声データベース;23・・・サーバ側通信制御部;100・・・音声処理システム;111・・・第1マイク;112・・・第1増幅部;113・・・第1A/D変換部;121・・・第2マイク;122・・・第2増幅部;123・・・第2A/D変換部;181・・・D/A変換部;182・・・増幅器;183・・・スピーカ;191・・・音声データ取得部;192・・・音声データ解析部;193・・・参照情報生成部;194・・・再生画面生成部;195・・・表示制御部;196・・・音声制御部;197・・・撮像制御部;198・・・機器側通信制御部;231・・・サーバ側通信制御部;232・・・端末判定部;233・・・音声データ記録制御部;234・・・音声データ解析部;235・・・参照情報生成部;1921・・・対象物特定部;1922・・・特徴成分判別部;2341・・・対象物特定部;2342・・・特徴成分判別部;Ax・・・軸;I1〜I3・・・第1〜第3識別画像;KW・・・キーワード入力部;L1,L2・・・女性;LF1,LF2・・・女性画像;M・・・男性;MF・・・男性画像;N・・・インターネット網;SC・・・時間スケール;SL・・・スライダ;TB・・・タイムバー;W100〜W104・・・話者表示再生画面

Claims (10)

  1. 音声データを取得する音声データ取得部と、
    前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、
    前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え
    前記音声データ解析部は、
    前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定す
    ことを特徴とする音声処理装置。
  2. 前記音声データ解析部は、
    前記音声データを解析して、前記音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、前記テンションの高い成分の有無を判別する
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記音声データ解析部は、
    話者の感情的な高ぶり、複数の人物の声の相対的な大きさの関係、話者が語る言葉のペースの一定度、話者のスピード、音声の音量、音声の周波数、音声の音素成分の時間密度、または特定の音声成分、に基づいて、前記テンションの高い成分を検出して、話者のテンションを判定する
    ことを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記参照情報生成部によって生成された参照情報に基づいて、前記時間に関連付けられたテンションを識別するための識別画像を配置した話者表示再生画面を生成する再生画面生成部を更に有する
    ことを特徴とする請求項1〜3のいずれか一つに記載の音声処理装置。
  5. 前記再生画面生成部は、
    前記テンションを識別するための識別画像に、話者を識別するために表示するアイコンを生成する
    ことを特徴とする請求項4に記載の音声処理装置。
  6. 前記識別画像は、
    前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間が他の期間よりも幅が大きく表示されるデータとして生成される
    ことを特徴とする請求項5に記載の音声処理装置。
  7. 前記識別画像は、
    前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間がアナログ的に段階的に他の期間よりも幅が大きく表示されるデータとして生成される
    ことを特徴とする請求項5に記載の音声処理装置。
  8. キーワードの入力操作を受け付ける操作受付部を備え、
    前記再生画面生成部は、
    前記テンションの高い成分に基づく特定の音声が前記操作受付部にて受け付けた前記キーワードに一致した場合に、当該テンションの高い成分を識別するための前記識別画像を従前の識別画像とは異なる表示態様とする
    ことを特徴とする請求項4または5に記載の音声処理装置。
  9. 音声処理装置が行う音声処理方法において、
    音声データを取得する音声データ取得ステップと、
    前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、
    前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、
    前記音声データ解析ステップでは、
    前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定する
    ことを特徴とする音声処理方法。
  10. 請求項に記載の音声処理方法を音声処理装置に実行させる
    ことを特徴とする音声処理プログラム。
JP2014163742A 2014-08-11 2014-08-11 音声処理装置、音声処理方法、及び音声処理プログラム Active JP6392578B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014163742A JP6392578B2 (ja) 2014-08-11 2014-08-11 音声処理装置、音声処理方法、及び音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014163742A JP6392578B2 (ja) 2014-08-11 2014-08-11 音声処理装置、音声処理方法、及び音声処理プログラム

Publications (3)

Publication Number Publication Date
JP2016038546A JP2016038546A (ja) 2016-03-22
JP2016038546A5 JP2016038546A5 (ja) 2017-07-06
JP6392578B2 true JP6392578B2 (ja) 2018-09-19

Family

ID=55529639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014163742A Active JP6392578B2 (ja) 2014-08-11 2014-08-11 音声処理装置、音声処理方法、及び音声処理プログラム

Country Status (1)

Country Link
JP (1) JP6392578B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266632A (ja) * 1993-03-12 1994-09-22 Toshiba Corp 電子会議システムの情報処理方法及び同装置
JP3676969B2 (ja) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
JP4610543B2 (ja) * 2006-11-02 2011-01-12 日本電信電話株式会社 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
JP4812733B2 (ja) * 2007-11-01 2011-11-09 日本電信電話株式会社 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
JP2010054991A (ja) * 2008-08-29 2010-03-11 Yamaha Corp 録音装置
EP2343668B1 (en) * 2010-01-08 2017-10-04 Deutsche Telekom AG A method and system of processing annotated multimedia documents using granular and hierarchical permissions
JP2011221627A (ja) * 2010-04-06 2011-11-04 Seiko Epson Corp 接客支援装置、接客支援方法およびプログラム
JP2013222347A (ja) * 2012-04-17 2013-10-28 Canon Inc 議事録生成装置及び議事録生成方法

Also Published As

Publication number Publication date
JP2016038546A (ja) 2016-03-22

Similar Documents

Publication Publication Date Title
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10409547B2 (en) Apparatus for recording audio information and method for controlling same
CN106464939A (zh) 播放音效的方法及装置
KR20160127165A (ko) 디지털 어시스턴트를 위한 음성 트리거
JP6585733B2 (ja) 情報処理装置
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
EP2503545A1 (en) Arrangement and method relating to audio recognition
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP2014149571A (ja) コンテンツ検索装置
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
JP6392578B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端
CN111696566B (zh) 语音处理方法、装置和介质
JP2019071515A (ja) 通信装置、通信システムおよびプログラム
US20210082427A1 (en) Information processing apparatus and information processing method
CN111179943A (zh) 一种对话辅助设备及获取信息的方法
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
CN113066513B (zh) 语音数据处理方法、装置、电子设备及存储介质
JP7271821B2 (ja) クラウド音声変換システム
CN111696565B (zh) 语音处理方法、装置和介质
CN111696564B (zh) 语音处理方法、装置和介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180823

R151 Written notification of patent or utility model registration

Ref document number: 6392578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250