JP6392578B2

JP6392578B2 - 音声処理装置、音声処理方法、及び音声処理プログラム

Info

Publication number: JP6392578B2
Application number: JP2014163742A
Authority: JP
Inventors: 浩次酒井
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2014-08-11
Filing date: 2014-08-11
Publication date: 2018-09-19
Anticipated expiration: 2034-08-11
Also published as: JP2016038546A

Description

本発明は、本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。

近年、打合せ時等の音声を記録（録音）及び再生可能とするＩＣレコーダが実用化されている（例えば、特許文献１参照）。
具体的に、特許文献１に記載のＩＣレコーダは、マイクを介して入力した音声を音声データ（デジタルデータ）に変換した後、当該音声データをメモリに記録する。また、当該ＩＣレコーダは、メモリに記録された音声データを音声信号（アナログ信号）に変換した後、スピーカを介して当該音声信号に基づく音声を出力（再生）する。

そして、このようなＩＣレコーダでは、一般的に、音声の再生時に以下に示すような再生画面を表示する。
具体的に、再生画面は、音声の録音を開始してから終了するまでの時間に対応する時間スケールと、当該時間スケール上に配置され、再生位置を指し示すスライダとを有するタイムバーが配置された画面である。
すなわち、当該ＩＣレコーダのユーザは、音声の再生時に当該再生画面（タイムバー）を確認することで、既に録音した音声データの再生位置を把握することができる。

特開２０１２−２０５０８６号公報

しかしながら、従来の再生画面は、タイムバーが配置されただけである。このため、ユーザは、実際に再生された音声を確認しなければ、例えば、話者が誰であったか、当該話者のテンションはどのような状態であったか等の録音時の状況を把握することができない、という問題がある。
したがって、再生画面から録音時の状況を把握することができ、利便性の向上が図れる技術が要望されている。

本発明は、上記に鑑みてなされたものであって、利便性の向上が図れる音声処理装置、音声処理方法、及び音声処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声処理装置は、音声データを取得する音声データ取得部と、前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え、前記音声データ解析部は、前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定することを特徴とする。

また、本発明に係る音声処理方法は、音声処理装置が行う音声処理方法において、音声データを取得する音声データ取得ステップと、前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、前記音声データ解析ステップでは、前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定することを特徴とする。

また、本発明に係る音声処理プログラムは、上述した音声処理方法を音声処理装置に実行させることを特徴とする。

本発明に係る音声処理装置によれば、実際に再生された音声を確認しなくても、話者のテンションの高さに基づいた画像を再生画面に表示することにより、当該再生画面から話者の録音時の状況を把握することができる。

図１は、本発明の実施の形態１に係る電子機器の構成を示すブロック図である。図２は、図１に示した電子機器の動作を示すフローチャートである。図３は、図２に示した話者表示処理（ステップＳ１１１）を示すフローチャートである。図４は、図２及び図３に示した話者表示処理（ステップＳ１１１）の対象となる第１，第２音声データが生成（録音）される状況の一例を示す図である。図５は、図４の状況で生成された第１，第２音声データを対象として話者表示処理（ステップＳ１１１）を実行した場合に生成される参照情報の一例を示す図である。図６は、図５に示した参照情報に基づいて生成される話者表示再生画面の一例を示す図である。図７は、本発明の実施の形態１の変形例を示す図である。図８は、本発明の実施の形態２に係る音声処理システムの構成を示すブロック図である。図９は、本発明の実施の形態２に係る話者表示処理（ステップＳ１１１）を示すフローチャートである。図１０は、図８に示したサーバの動作を示すフローチャートである。図１１Ａは、本発明の実施の形態１，２で説明した話者表示再生画面の変形例を示す図である。図１１Ｂは、本発明の実施の形態１，２で説明した話者表示再生画面の変形例を示す図である。図１１Ｃは、本発明の実施の形態１，２で説明した話者表示再生画面の変形例を示す図である。図１２は、本発明の実施の形態１，２で説明した参照情報の変形例を示す図である。図１３は、図１２に示した参照情報に基づいて生成される話者表示再生画面の一例を示す図である。

以下に、図面を参照して、本発明を実施するための形態（以下、実施の形態と記載）について説明する。なお、以下に説明する実施の形態によって本発明が限定されるものではない。さらに、図面の記載において、同一の部分には同一の符号を付している。

（実施の形態１）
〔電子機器の構成〕
図１は、本発明の実施の形態１に係る電子機器１の構成を示すブロック図である。
電子機器１は、ＩＣレコーダ、デジタルカメラ、デジタルビデオカメラ、携帯電話、あるいはタブレット型携帯機器等として構成される。そして、電子機器１は、話者が発した音声を含む音声データを解析することで当該音声の特徴成分（話者のテンション）を判別し、タイムバーとともに当該特徴成分が生じた時間を明示した再生画面を表示する。
以下、電子機器１の構成として、本発明の要部を主に説明する。この電子機器１は、図１に示すように、第１音声データ生成部１１と、第２音声データ生成部１２と、操作部１３と、表示部１４と、時計部１５と、メモリ部１６と、記録部１７と、音声出力部１８と、機器側制御部１９とを備える。

第１音声データ生成部１１は、機器側制御部１９による制御の下、入力した音声に基づく第１音声データを生成する。この第１音声データ生成部１１は、図１に示すように、第１マイク１１１と、第１増幅器１１２と、第１Ａ／Ｄ変換部１１３とを備える。
第１マイク１１１は、音声を入力して電気信号に変換する。ここで、第１マイク１１１は、電子機器１を正面から見て、左上側に配置されている（図４参照）。
第１増幅器１１２は、第１マイク１１１からの電気信号を入力し、当該電気信号に対して所定のアナログ処理（ノイズ成分を低減するノイズ低減処理、ゲインを増大させて一定の出力レベルを維持するゲイン処理等）を施し、第１Ａ／Ｄ変換部１１３に出力する。
第１Ａ／Ｄ変換部１１３は、第１増幅器１１２からの電気信号を入力し、当該電気信号に対して、Ａ／Ｄ変換を行うことにより、デジタル信号（第１音声データ）に変換し、機器側制御部１９に出力する。

第２音声データ生成部１２は、第１音声データ生成部１１と同様に、機器側制御部１９による制御の下、入力した音声に基づく第２音声データを生成する。この第２音声データ生成部１２は、図１に示すように、第１音声データ生成部１１を構成する第１マイク１１１、第１増幅器１１２、及び第１Ａ／Ｄ変換部１１３とそれぞれ同様の第２マイク１２１、第２増幅器１２１、及び第２Ａ／Ｄ変換部１２３を備える。
ここで、第２マイク１２１は、電子機器１を正面から見て、右上側（第１マイク１１１に対向する側）に配置されている（図４参照）。

操作部１３は、ユーザ操作を受け付けるボタン、スイッチ、タッチパネル等を用いて構成され、当該ユーザ操作に応じた指示信号を機器側制御部１９に出力する。
そして、操作部１３は、本発明に係る操作受付部としての機能を有する。
表示部１４は、液晶または有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）等からなる表示パネルを用いて構成されている。そして、表示部１４は、機器側制御部１９による制御の下、話者表示再生画面等の画像を表示する。
時計部１５は、計時機能の他、第１，第２音声データ生成部１１，１２にて音声データが生成された日時に関する日時情報（以下、タイムスタンプと記載）を生成する機能を有する。そして、時計部１５にて生成されたタイムスタンプは、機器側制御部１９に出力される。

メモリ部１６は、第１，第２音声データ生成部１１，１２にてそれぞれ生成された第１，第２音声データ、及び機器側制御部１９による処理中の情報を一時的に記憶する。
記録部１７は、機器側制御部１９が実行する各種プログラム（音声処理プログラムを含む）や、第１，第２音声データ生成部１１，１２にてそれぞれ生成された第１，第２音声データを記録する。また、記録部１７は、機器側制御部１９による制御の下、機器側制御部１９にて生成された参照情報を対応する第１，第２音声データに関連付けて記録する。

音声出力部１８は、機器側制御部１９による制御の下、記録部１７に記録された第１，第２音声データに基づく音声を出力する。この音声出力部１８は、図１に示すように、Ｄ／Ａ変換部１８１と、増幅器１８２と、スピーカ１８３とを備える。
Ｄ／Ａ変換部１８１は、記録部１７に記録された第１，第２音声データに対して、Ｄ／Ａ変換をそれぞれ行うことにより、アナログ信号にそれぞれ変換するとともに、各アナログ信号の和信号を増幅器１８２に出力する。
増幅器１８２は、Ｄ／Ａ変換部１８１からの音声信号（和信号）を入力し、当該音声信号に対して所定のアナログ処理を施して音声信号の増幅等を行い、スピーカ１８３に出力する。
スピーカ１８３は、増幅器１８２からの音声信号を入力し、当該音声信号に基づく音声を出力する。

機器側制御部１９は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎＵｎｉｔ）等を用いて構成され、操作部１３からの指示信号等に応じて電子機器１を構成する各部に対応する指示やデータの転送等を行って電子機器１の動作を統括的に制御する。この機器側制御部１９は、図１に示すように、音声データ取得部１９１と、音声データ解析部１９２と、参照情報生成部１９３と、再生画面生成部１９４と、表示制御部１９５と、音声制御部１９６とを備える。

音声データ取得部１９１は、ユーザによる操作部１３へのユーザ操作（モード切替スイッチの操作等）に応じて電子機器１が録音モードに設定されている場合に、以下の機能を実行する。
音声データ取得部１９１は、ユーザによる操作部１３への録音開始操作（録音スイッチの押下等）に応じて、第１，第２音声データ生成部１１，１２に第１，第２音声データを生成させ、当該第１，第２音声データを取得する。そして、音声データ取得部１９１は、時計部１５にて生成されたタイムスタンプ（第１，第２音声データの生成日時に関する日時情報）を第１，第２音声データに関連付けて、メモリ部１６に順次、記憶する。また、音声データ取得部１９１は、ユーザによる操作部１３への録音終了操作（停止スイッチの押下等）に応じて、第１，第２音声データ生成部１１，１２に第１，第２音声データの生成を終了させ、メモリ部１６に記憶した第１，第２音声データ（タイムスタンプを含む）を記録部１７に記録する。

音声データ解析部１９２は、ユーザによる操作部１３へのユーザ操作（モード切替スイッチの操作等）に応じて電子機器１が再生モード（第１，第２音声データを再生するモード）に設定されている場合に、記録部１７に記録された第１，第２音声データを解析する。この音声データ解析部１９２は、図１に示すように、対象物特定部１９２１と、特徴成分判別部１９２２とを備える。
対象物特定部１９２１は、第１，第２音声データを解析することで、当該第１，第２音声データに含まれる音声を発した話者を特定する。
特徴成分判別部１９２２は、第１，第２音声データを解析することで、当該第１，第２音声データに含まれる音声の特徴成分（話者のテンション）を判別する。

参照情報生成部１９３は、電子機器１が再生モードに設定されている場合に、以下の機能を実行する。
参照情報生成部１９３は、対象物特定部１９２１にて特定された話者、特徴成分判別部１９２２にて判別された話者のテンション、並びに当該話者の声が含まれる日時を示すタイムスタンプ（時計部１５にて生成）等を関連付け、第１，第２音声データの再生画面を生成する際に用いられる参照情報を生成する。ここで、話者のテンション（音声の特徴部分）は感情的な高ぶりを示すものを想定したが、話の集中具合（例えば、一人の話者が説明し、それを他の人物が静かに聴くなど）を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度（説き聞かせるように語る）やスピード（まくしたてる）などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
そして、上述した音声データ取得部１９１、音声データ解析部１９２、及び参照情報生成部１９３は、本発明に係る音声処理装置としての機能を有する。

再生画面生成部１９４は、ユーザによる操作部１３へのユーザ操作に応じて話者表示の表示フラグがオン状態になっている場合に、話者表示再生画面を生成する。なお、当該話者表示の表示フラグは、メモリ部１６に記憶されている。
具体的に、再生画面生成部１９４は、再生位置を指し示すタイムバーを配置するとともに、参照情報生成部１９３にて生成された参照情報に基づいて、タイムバーに対応する各時間に、当該時間（タイムスタンプ）に関連付けられた話者及び当該話者のテンションを識別するための識別画像を配置した話者表示再生画面を生成する。ここで、話者のテンション（音声の特徴部分）は感情的な高ぶりを示すものを想定したが、話の集中具合（例えば、一人の話者が説明し、それを他の人物が静かに聴くなど）を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度（説き聞かせるように語る）やスピード（まくしたてる）などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
また、再生画面生成部１９４は、ユーザによる操作部１３へのユーザ操作に応じて話者表示の表示フラグがオフ状態になっている場合に、再生位置を指し示すタイムバーのみを配置した（上述した識別画像のない）通常再生画面を生成する。

表示制御部１９５は、再生する第１，第２音声データをユーザに選択させるための選択画面、再生画面生成部１９４にて生成された話者表示再生画面や通常再生画面等を表示部１４に表示させる。
音声制御部１９６は、電子機器１が再生モードに設定されている場合に、以下の機能を実行する。
音声制御部１９６は、ユーザによる操作部１３への再生開始操作（再生スイッチの押下等）に応じて、音声出力部１８の動作を制御し、記録部１７に記録された第１，第２音声データに基づく音声の出力を開始させる。また、音声制御部１９６は、ユーザによる操作部１３への再生終了操作（停止スイッチの押下等）に応じて、音声出力部１８に音声の出力を終了させる。

〔電子機器の動作〕
次に、上述した電子機器１の動作について説明する。
図２は、電子機器１の動作を示すフローチャートである。
ユーザによる操作部１３への操作によって電子機器１の電源がオンになる（ステップＳ１０１：Ｙｅｓ）と、機器側制御部１９は、電子機器１が録音モードに設定されているか否かを判断する（ステップＳ１０２）。

録音モードに設定されていないと判断された場合（ステップＳ１０２：Ｎｏ）には、電子機器１は、ステップＳ１０７に移行する。
一方、録音モードに設定されていると判断した場合（ステップＳ１０２：Ｙｅｓ）には、機器側制御部１９は、ユーザによる操作部１３への録音開始操作があったか否かを判断する（ステップＳ１０３）。

録音開始操作がないと判断された場合（ステップＳ１０３：Ｎｏ）には、電子機器１は、ステップＳ１０１に戻る。
一方、録音開始操作があったと判断された場合（ステップＳ１０３：Ｙｅｓ）には、音声データ取得部１９１は、第１，第２音声データ生成部１１，１２に第１，第２音声データの生成（録音）を開始させる。また、時計部１５は、タイムスタンプの生成（計時）を開始する。そして、音声データ取得部１９１は、当該タイムスタンプを当該第１，第２音声データに関連付けて、メモリ部１６に順次、記憶する（ステップＳ１０４）。

続いて、機器側制御部１９は、ユーザによる操作部１３への録音終了操作があったか否かを判断する（ステップＳ１０５）。
録音終了操作がないと判断された場合（ステップＳ１０５：Ｎｏ）には、電子機器１は、録音及び計時を継続する。
一方、録音終了操作があったと判断された場合（ステップＳ１０５：Ｙｅｓ）には、音声データ取得部１９１は、第１，第２音声データ生成部１１，１２に第１，第２音声データの生成を終了させる。また、時計部１５は、タイムスタンプの生成を終了する。そして、音声データ取得部１９１は、メモリ部１６に記憶した第１，第２音声データ（タイムスタンプを含む）を記録部１７に記録する（ステップＳ１０６）。この後、電子機器１は、ステップＳ１０１に戻る。
以上説明したステップＳ１０３〜Ｓ１０６は、本発明に係る音声データ取得ステップに相当する。

ステップＳ１０２で録音モードに設定されていないと判断した場合（ステップＳ１０２：Ｎｏ）には、機器側制御部１９は、電子機器１が再生モードに設定されているか否かを判断する（ステップＳ１０７）。
再生モードに設定されていないと判断された場合（ステップＳ１０７：Ｎｏ）には、電子機器１は、ステップＳ１１８に移行する。
一方、再生モードに設定されていると判断された場合（ステップＳ１０７：Ｙｅｓ）には、表示制御部１９５は、選択画面を表示部１４に表示させる（ステップＳ１０８）。
ここで、当該選択画面は、記録部１７に記録された複数の第１，第２音声データをユーザに選択させる画面であって、例えば、複数の第１，第２音声データに関連付けられた各タイムスタンプに基づく各日時が一覧表示された画面である。

続いて、機器側制御部１９は、ユーザによる操作部１３への選択操作（選択画面中のいずれかの第１，第２音声データを選択する操作）があったか否かを判断する（ステップＳ１０９）。
選択操作がないと判断された場合（ステップＳ１０９：Ｎｏ）には、電子機器１は、選択画面の表示を継続する。
一方、選択操作があったと判断した場合（ステップＳ１０９：Ｙｅｓ）には、機器側制御部１９は、話者表示の表示フラグがオン状態であるか否かを判断する（ステップＳ１１０）。

話者表示の表示フラグがオン状態であると判断された場合（ステップＳ１１０：Ｙｅｓ）には、電子機器１は、話者表示再生画面を生成し表示する話者表示処理を実行する（ステップＳ１１１）。
なお、話者表示処理の詳細については、後述する。
一方、話者表示の表示フラグがオフ状態であると判断された場合（ステップＳ１１０：Ｎｏ）には、再生画面生成部１９４は、通常再生画面を生成する。そして、表示制御部１９５は、当該通常再生画面を表示部１４に表示させる（ステップＳ１１２）。

ステップＳ１１１またはステップＳ１１２の後、機器側制御部１９は、ユーザによる操作部１３への再生開始操作があったか否かを判断する（ステップＳ１１３）。
再生開始操作がないと判断された場合（ステップＳ１１３：Ｎｏ）には、電子機器１は、ステップＳ１１７に移行する。
一方、再生開始操作があったと判断された場合（ステップＳ１１３：Ｙｅｓ）には、音声制御部１９６は、ユーザによる選択操作（ステップＳ１０９）により選択された第１，第２音声データを記録部１７から読み出す。そして、音声制御部１９６は、音声出力部１８に当該第１，第２音声データに基づく音声の出力（再生）を開始させる（ステップＳ１１４）。

続いて、機器側制御部１９は、ユーザによる操作部１３への再生終了操作があったか否かを判断する（ステップＳ１１５）。
再生終了操作がないと判断された場合（ステップＳ１１５：Ｎｏ）には、電子機器１は、再生を継続する。
一方、再生終了操作があったと判断された場合（ステップＳ１１５：Ｙｅｓ）には、音声制御部１９６は、音声出力部１８に音声の出力（再生）を終了させる（ステップＳ１１６）。なお、ステップＳ１１５で再生を継続した結果、第１，第２音声データを全て再生し終えた場合にも、ステップＳ１１６に移行するものである。

ステップＳ１１６の後、または、ステップＳ１１３で再生開始操作がないと判断された場合（ステップＳ１１３：Ｎｏ）には、機器側制御部１９は、ユーザによる操作部１３への再生対象（第１，第２音声データ）の変更操作があったか否かを判断する（ステップＳ１１７）。
再生対象の変更操作がないと判断された場合（ステップＳ１１７：Ｎｏ）には、電子機器１は、ステップＳ１１３に戻る。
一方、再生対象の変更操作があったと判断された場合（ステップＳ１１７：Ｙｅｓ）には、電子機器１は、ステップＳ１０１に戻り、ステップＳ１０１，Ｓ１０２，Ｓ１０７を経た後、ステップＳ１０８において、再度、選択画面を表示する。

ステップＳ１０７で再生モードに設定されていないと判断された場合（ステップＳ１０７：Ｎｏ）には、電子機器１は、上述した処理とは異なる他の処理を実行する（ステップＳ１１８）。この後、電子機器１は、ステップＳ１０１に戻る。

〔話者表示処理〕
次に、上述した話者表示処理（ステップＳ１１１）について説明する。
図３は、話者表示処理（ステップＳ１１１）を示すフローチャートである。
機器側制御部１９は、話者表示処理の対象となる第１，第２音声データ（ステップＳ１０９で選択された第１，第２音声データ）の参照情報を既に生成しているか否かを判断する（ステップＳ１１１Ａ）。すなわち、機器側制御部１９は、ステップＳ１１１Ａにおいて、記録部１７に記録された当該第１，第２音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合（ステップＳ１１１Ａ：Ｙｅｓ）には、電子機器１は、ステップＳ１１１Ｐに移行する。
一方、参照情報を未だ生成していないと判断された場合（ステップＳ１１１Ａ：Ｎｏ）には、対象物特定部１９２１は、話者表示処理の対象となる第１，第２音声データにおける一期間（例えば、５秒間）に相当するデータをそれぞれ読み出す（ステップＳ１１１Ｂ）。
以下、第１音声データにおける一期間に相当するデータを第１データ要素と記載し、第２音声データにおける一期間に相当するデータを第２データ要素と記載する。

続いて、対象物特定部１９２１は、ステップＳ１１１Ｂで読み出した一期間（以下、該当期間）に相当する第１，第２データ要素を解析することで、当該第１，第２データ要素に含まれる音声を発した話者を特定する（ステップＳ１１１Ｃ）。
具体的に、対象物特定部１９２１は、該当期間に相当する第１，第２データ要素に含まれる各音声の音量を比較することで、電子機器１に対する話者の方向を特定する。また、対象物特定部１９２１は、当該第１，第２データ要素に含まれる音声の周波数に基づいて、話者の性別を特定する。母音などの発音の周波数は、女性が男性より高めであるため性別の判定に用いることができる。また、使われる言葉や内容、イントネーション等でも性別を判定することができる。男女別の話者がいる場合はこれらの音声を比較して性別を判定してもよく、特定周波数より高いか低いかで性別を判定してもよい。さらに、使われる単語やセンテンスや語尾の特徴でも性別判定が可能である。また、男女それぞれのモデル音声との類似度に基づいて性別判定してもよい。また、同様の考え方で年齢の高低も判定が可能であることは言うまでもない。登場する頻度が高い話者であれば、あらかじめ登録したデータベースとの音声照合で特定する方法もある。

なお、ステップＳ１１１Ｃにおいて、話者の特定については、上述したような話者の方向や性別を特定する方法に限られず、以下のように話者を特定しても構わない。
複数のユーザを識別するための識別データ（ユーザ名等）と当該ユーザの声紋に関する声紋データとを関連付け、当該関連付けた情報を記録部１７に予め記録しておく。そして、対象物特定部１９２１は、記録部１７に記録された情報を参照し、第１，第２データ要素に含まれる音声の声紋に一致する声紋データを特定することで、話者（当該声紋データに関連付けられた識別データ（ユーザ名等））を特定する。

ステップＳ１１１Ｃの後、対象物特定部１９２１は、ステップＳ１１１Ｃで話者を特定することができた（話者の方向及び性別の双方を特定することができた）か否かを判断する（ステップＳ１１１Ｄ）。
話者を特定することができなかった（話者の方向及び性別の少なくともいずれか一方を特定することができなかった）と判断された場合（ステップＳ１１１Ｄ：Ｎｏ）には、電子機器１は、ステップＳ１１１Ｇに移行する。

一方、話者を特定することができた（話者の方向及び性別の双方を特定することができた）と判断された場合（ステップＳ１１１Ｄ：Ｙｅｓ）には、特徴成分判別部１９２２は、該当期間に相当する第１，第２データ要素を解析することで、当該第１，第２データ要素に含まれる音声を発した話者のテンションを話者毎に判別する（ステップＳ１１１Ｅ：音声データ解析ステップ）。
具体的に、特徴成分判別部１９２２は、該当期間に相当する第１，第２データ要素に含まれる各音声の音量に基づいて、話者のテンションを判別する。すなわち、特徴成分判別部１９２２は、話者の音声の音量が直前の期間の音量と比較して所定の第１閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。感情によって音声の韻律的特徴が変化するが、これは声の高・低、強・弱、リズム・テンポや、基本周波数、パワー、持続時間などで分析が可能である。感情を表す音声に含まれる感情の程度と基本周波数パターンには関係があると言われており、ピッチ周波数・振幅の変化パターンなどでも分析が可能である。また、アクセントや含まれる単語、感嘆詞などを検出してもよく、これらの検出結果を合わせて、またはそのいずれかを活用して、「ハイテンション」を判定することが可能である。後述するように、笑い声やうなり声などを分析してもよい。これは声（声紋データ）のパターンマッチングなどでも判定可能である。話者のテンション（音声の特徴部分）は、喜怒哀楽のような激しい感情的な高ぶりに限る必要はなく、話の集中具合（例えば、一人の話者が説明し、それを他の人物が静かに聴くなど）を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度（説き聞かせるように語る）やスピード（まくしたてる）などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。

なお、ステップＳ１１１Ｅにおいて、話者のテンションの判別については、上述した音量に基づいて判別する方法に限られず、以下のようにテンションを判別しても構わない。
例えば、特徴成分判別部１９２２は、第１，第２データ要素に含まれる音声の周波数に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部１９２２は、話者の音声の周波数が直前の期間の音声の周波数と比較して所定の第２閾値以上に高くなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。「ハイテンション」は、喜怒哀楽等の話者の感情の高ぶりのみならず、話の集中具合を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度（説き聞かせるように語る）やスピード（まくしたてる）などを検出してテンションが上がっているという判定をしてもよい。つまり、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出して所定の特徴的な結果が得られた場合、「ハイテンション」と判定してもよい。
また、例えば、特徴成分判別部１９２２は、第１，第２データ要素に含まれる音声の音素成分の時間密度に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部１９２２は、話者の音声の音素成分の時間密度が直前の期間の音声の音素成分の時間密度と比較して所定の第３閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
さらに、例えば、笑い声や怒った声等の声紋に関する声紋データを記録部１７に予め記録しておく。そして、特徴成分判別部１９２２は、記録部１７に記録された当該声紋データを参照し、第１，第２データ要素に含まれる音声に当該声紋データに基づく笑い声や怒った声等の声紋に一致する声紋があった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。

ステップＳ１１１Ｅの後、参照情報生成部１９３は、該当期間の参照情報として、ステップＳ１１１Ｃで特定された話者（方向及び性別）と、ステップＳ１１１Ｅで判別された話者のテンションと、該当期間に相当するタイムスタンプ（時計部１５にて生成）等を関連付けた参照情報（後述する「複数話者期間」フラグ及び「ざわざわ期間」フラグはオフ状態）を生成する（ステップＳ１１１Ｆ：参照情報生成ステップ）。そして、参照情報生成部１９３は、生成した参照情報をメモリ部１６に記憶する。この後、電子機器１は、ステップＳ１１１Ｊに移行する。

ステップＳ１１１Ｄで話者を特定することができなかった（話者の方向及び性別の少なくともいずれか一方を特定することができなかった）と判断した場合（ステップＳ１１１Ｄ：Ｎｏ）には、対象物特定部１９２１は、特定することができた話者の方向または性別に基づいて、話者が複数であるか否かを判断する（ステップＳ１１１Ｇ）。
話者が複数であると判断された場合（ステップＳ１１１Ｇ：Ｙｅｓ）には、参照情報生成部１９３は、該当期間の参照情報として、ステップＳ１１１Ｃで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「複数話者期間」フラグをオン状態とした参照情報を生成する（ステップＳ１１１Ｈ）。そして、参照情報生成部１９３は、生成した参照情報をメモリ部１６に記憶する。この後、電子機器１は、ステップＳ１１１Ｊに移行する。
ここで、「複数話者期間」フラグ（オン状態）は、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数であることを示すフラグである。

一方、話者が複数ではないと判断された場合（ステップＳ１１１Ｇ：Ｎｏ）には、参照情報生成部１９３は、該当期間の参照情報として、ステップＳ１１１Ｃで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「ざわざわ期間」フラグをオン状態とした参照情報を生成する（ステップＳ１１１Ｉ）。そして、参照情報生成部１９３は、生成した参照情報をメモリ部１６に記憶する。この後、電子機器１は、ステップＳ１１１Ｊに移行する。
ここで、「ざわざわ期間」フラグは、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数でないことを示すフラグである。
なお、ステップＳ１１１Ｇで話者が複数ではないと判断された場合（ステップＳ１１１Ｇ：Ｎｏ）とは、話者が一人であると判断された場合の他、ステップＳ１１１Ｃで話者の方向及び性別の双方を特定することができず、話者が複数であるか、または、一人であるかの判断が全くできない場合も含むものである。

ステップＳ１１１Ｆ、ステップＳ１１１Ｈ、またはステップＳ１１１Ｉの後、機器側制御部１９は、話者表示処理の対象となる第１，第２音声データにおける全ての期間で参照情報を生成したか否かを判断する（ステップＳ１１１Ｊ）。
全ての期間で参照情報を生成していないと判断された場合（ステップＳ１１１Ｊ：Ｎｏ）には、電子機器１は、ステップＳ１１１Ｂに戻り、第１，第２音声データにおける他の期間に相当する第１，第２データ要素を読み出し、当該他の期間の参照情報を生成する。

一方、全ての期間で参照情報を生成したと判断された場合（ステップＳ１１１Ｊ：Ｙｅｓ）には、対象物特定部１９２１は、以下の処理を実行する（ステップＳ１１１Ｋ）。
対象物特定部１９２１は、ステップＳ１１１Ｋにおいて、メモリ部１６に記憶された各期間の参照情報のうち、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報（ステップＳ１１１ＨまたはステップＳ１１１Ｉで生成された参照情報）があるか否かを判断する。
「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合（ステップＳ１１１Ｋ：Ｎｏ）には、電子機器１は、ステップＳ１１１Ｏに移行する。

一方、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報があると判断した場合（ステップＳ１１１Ｋ：Ｙｅｓ）には、対象物特定部１９２１は、以下の処理を実行する（ステップＳ１１１Ｌ）。
対象物特定部１９２１は、ステップＳ１１１Ｌにおいて、メモリ部１６に記憶された各期間の参照情報のうち、当該参照情報の直前の期間の参照情報の「複数話者期間」フラグ及び「ざわざわ期間」フラグがオフ状態となっているか否かを判断する。すなわち、対象物特定部１９２１は、当該参照情報の直前の期間で話者が特定されている（話者の方向及び性別の双方を特定することができている）か否かを判断している。
直前の期間で話者が特定されていないと判断された場合（ステップＳ１１１Ｌ：Ｎｏ）には、電子機器１は、ステップＳ１１１Ｏに移行する。

一方、直前の期間で話者が特定されていると判断した場合（ステップＳ１１１Ｌ：Ｙｅｓ）には、対象物特定部１９２１は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者を、当該直前の期間で特定された話者（話者の方向及び性別）と推定する（ステップＳ１１１Ｍ）。
続いて、参照情報生成部１９３は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者をステップＳ１１１Ｍで推定された話者とし、当該参照情報を更新する（ステップＳ１１１Ｎ）。

ステップＳ１１１Ｎの後、ステップＳ１１１Ｋで「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合（ステップＳ１１１Ｋ：Ｎｏ）、または、ステップＳ１１１Ｌで直前の期間で話者が特定されていないと判断された場合（ステップＳ１１１Ｌ：Ｎｏ）には、参照情報生成部１９３は、以下の処理を実行する（ステップＳ１１１Ｏ）。
参照情報生成部１９３は、ステップＳ１１１Ｏにおいて、メモリ部１６に記憶され、ステップＳ１１１Ｆ，Ｓ１１１Ｈ，Ｓ１１１Ｉで生成された各期間の参照情報（ステップＳ１１１Ｎで更新された場合には更新後の参照情報）を、話者表示処理の対象とした第１，第２音声データに関連付けて、記録部１７に記録する。

ステップＳ１１１Ｏの後、または、ステップＳ１１１Ａで参照情報を生成済みであると判断された場合（ステップＳ１１１Ａ：Ｙｅｓ）には、再生画面生成部１９４は、以下の処理を実行する（ステップＳ１１１Ｐ）。
再生画面生成部１９４は、ステップＳ１１１Ｐにおいて、記録部１７に記録された第１，第２音声データのうち、話者表示処理の対象となる第１，第２音声データに関連付けられた参照情報に基づいて、話者表示再生画面を生成する。
続いて、表示制御部１９５は、ステップＳ１１１Ｐで生成された話者表示再生画面を表示部１４に表示させる（ステップＳ１１１Ｑ）。この後、電子機器１は、図２に示したメインルーチンに戻る。

〔参照情報の具体例〕
次に、上述した話者表示処理（ステップＳ１１１）で生成される参照情報の具体例について説明する。
図４は、話者表示処理（ステップＳ１１１）の対象となる第１，第２音声データが生成（録音）される状況の一例を示す図である。図５は、図４の状況で生成された第１，第２音声データを対象として話者表示処理（ステップＳ１１１）を実行した場合に生成される参照情報の一例を示す図である。
具体的に、図４では、男性Ｍと女性Ｌ１，Ｌ２の３人がテーブルを囲んで打合せをし、当該打合せをテーブルの上に置いた電子機器１にて録音している状況を示している。ここで、電子機器１の上端から当該電子機器１の中心線を延長させた軸Ａｘを基準とした場合に、男性Ｍは、軸Ａｘに対して「右（電子機器１を正面から見て（図４中、上側から見て）右に１２０°」の方向に座っているものとする。また、女性Ｌ１は、軸Ａｘに対して「右に９０°」の方向に座っているものとする。さらに、女性Ｌ２は、軸Ａｘに対して「左に１０°」の方向に座っているものとする。
また、図５では、ステップＳ１１１Ｂで第１，第２データ要素を読み出す一期間を５秒間としている。このため、以下では、「０〜５秒」、「５〜１０秒」、「１０〜１５秒」、「１５〜２０秒」、「２０〜２５秒」の各期間について順に説明する。

〔０〜５秒の期間〕
この期間では、男性Ｍのみが声を発したものである。すなわち、当該期間では、第２データ要素に含まれる音声（軸Ａｘに対して右側からの音声）の音量は、第１データ要素に含まれる音声（軸Ａｘに対して左側からの音声）の音量よりも大きくなっている。また、男性Ｍの声であるため、当該音声は、比較的に低い周波数となっている。このため、ステップＳ１１１Ｃでは、当該期間の第１，第２データ要素に含まれる各音声の音量のバランスにより、話者が「右に１２０°」の方向であると特定される。また、当該第１，第２データ要素に含まれる音声が比較的に低い周波数であるため、話者が「男性」であると特定される。

また、当該期間は、最初の期間であり、直前の期間がない。このため、ステップＳ１１１Ｅでは、話者のテンションが「通常」と判別される。
そして、ステップＳ１１１Ｆでは、当該期間の参照情報として、図５に示すように、特定された話者（「右に１２０°」の方向の「男性」）と、判別された話者のテンション（「通常」）と、当該期間に相当するタイムスタンプ（「9/15 11:21:10」）と、声の数（「１」）とが関連付けられた参照情報が生成される。

〔５〜１０秒の期間〕
この期間では、男性Ｍ及び女性Ｌ１がそれぞれ声を発したものである。そして、ステップＳ１１１Ｃでは、当該期間の第１，第２データ要素に含まれる各音声の音量のバランス及び音声の周波数（男性の声は周波数が比較的に低く、女性の声は周波数が比較的に高い）により、一人目の話者が「右に１２０°」の方向の「男性」であり、二人目の話者が「右に９０°」の方向の「女性」であると特定される。
また、当該期間では、男性Ｍが当該期間の直前の「０〜５秒」の期間よりも大きな声を発している。このため、ステップＳ１１１Ｅでは、一人目の話者（「右に１２０°」の方向の「男性」）の音声の音量が直前の期間での当該話者の音声の音量と比較して第１閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。また、二人目の話者（「右に９０°」の方向の「女性」）については、直前の「０〜５秒」の期間では当該話者が特定されていないため、ステップＳ１１１Ｅでは、当該話者のテンションが「通常」と判別される。

そして、ステップＳ１１１Ｆでは、当該期間の参照情報として、図５に示すように、特定された一人目の話者（「右に１２０°」の方向の「男性」）及び判別された当該話者のテンション（「ハイテンション」）と、特定された二人目の話者（「右に９０°」の方向の「女性」）及び判別された当該話者のテンション（「通常」）と、当該期間に相当するタイムスタンプ（「9/15 11:21:15」）と、声の数（「２」）とが関連付けられた参照情報が生成される。

〔１０〜１５秒の期間〕
この期間では、男性Ｍ及び女性Ｌ１がそれぞれ声を発したものである。なお、図５に示す例では、ステップＳ１１１Ｃにおいて、一人目の話者が「男性」であり二人目の話者が「女性」であることを特定することはできたが、当該一人目の話者及び二人目の話者の各方向を特定することができなかったことを例示している。すなわち、話者の特定（話者の方向及び性別の双方の特定）はできていないが、話者が複数（二人）であることは特定されている（ステップＳ１１１Ｇ：Ｙｅｓ）。このため、ステップＳ１１１Ｈでは、当該期間の参照情報として、特定された一人目の話者（「男性」）及び二人目の話者（「女性」）と、当該期間に相当するタイムスタンプ（「9/15 11:21:20」）と、声の数（「２」）とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報が生成される。

ここで、当該期間の直前の「５〜１０秒」の期間では、話者が特定されている。このため、ステップＳ１１１Ｍでは、特定された一人目の話者（「男性」）は、直前の期間で特定された同性の話者（「右に１２０°」の方向の「男性」）と推定される。同様に、特定された二人目の話者（「女性」）は、直前の期間で特定された同性の話者（「右に９０°」の方向の「女性」）と推定される。
そして、ステップＳ１１１Ｎでは、ステップＳ１１１Ｈで生成された参照情報は、図５に示すように、一人目の話者（「右に１２０°」の方向の「男性」）及び当該話者のテンション（「通常」）と、二人目の話者（「右に９０°」の方向の「女性」）及び当該話者のテンション（「通常」）と、タイムスタンプ（「9/15 11:21:20」）と、声の数（「２」）とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報に更新される。なお、「複数話者期間」フラグがオン状態である場合には、当該参照情報の更新時に、話者のテンションは「通常」とされる。「ざわざわ期間」フラグがオン状態である場合でも同様である。

〔１５〜２０秒の期間〕
この期間では、女性Ｌ１及び女性Ｌ２がそれぞれ声を発したものである。そして、ステップＳ１１１Ｃでは、当該期間の第１，第２データ要素に含まれる各音声の音量のバランス及び音声の周波数（女性Ｌ１，Ｌ２の声の周波数の違い）により、一人目の話者が「右に９０°」の方向の「女性」であり、二人目の話者が「左に１０°」の方向の「女性」であると特定される。
また、当該期間では、直前の「１０〜１５秒」の期間で話者が特定されていないため、ステップＳ１１１Ｅでは、一人目の話者（「右に９０°」の方向の「女性」）及び二人目の話者（「左に１０°」の方向の「女性」）の各テンションが「通常」とそれぞれ判別される。

そして、ステップＳ１１１Ｆでは、当該期間の参照情報として、図５に示すように、特定された一人目の話者（「右に９０°」の方向の「女性」）及び判別された当該話者のテンション（「通常」）と、特定された二人目の話者（「左に１０°」の方向の「女性」）及び判別された当該話者のテンション（「通常」）と、当該期間に相当するタイムスタンプ（「9/15 11:21:25」）と、声の数（「２」）とが関連付けられた参照情報が生成される。

〔２０〜２５秒の期間〕
この期間では、女性Ｌ２のみが声を発したものである。そして、ステップＳ１１１Ｃでは、当該期間の第１，第２データ要素に含まれる各音声の音量のバランス及び音声の周波数（女性の声は周波数が比較的に高い）により、話者が「左に１０°」の方向の「女性」であると特定される。
また、当該期間では、女性Ｌ２が当該期間の直前の「１５〜２０秒」の期間よりも大きな声を発している。このため、ステップＳ１１１Ｅでは、話者（「左に１０°」の方向の「女性」）の音声の音量が直前の期間での当該話者の音声の音量と比較して第１閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。

そして、ステップＳ１１１Ｆでは、当該期間の参照情報として、図５に示すように、特定された話者（「左に１０°」の方向の「女性」）と、判別された当該話者のテンション（「ハイテンション」）と、当該期間に相当するタイムスタンプ（「9/15 11:21:30」）と、声の数（「１」）とが関連付けられた参照情報が生成される。

〔話者表示再生画面の具体例〕
次に、上述した話者表示処理（ステップＳ１１１）で生成される話者表示再生画面の具体例について説明する。
図６は、図５に示した参照情報に基づいて生成される話者表示再生画面Ｗ１００の一例を示す図である。
ステップＳ１１１Ｏで記録部１７に記録された参照情報が図５に示す参照情報であった場合、ステップＳ１１１Ｐでは、図６に示す話者表示再生画面Ｗ１００が生成される。
この話者表示再生画面Ｗ１００は、図５に示すように、タイムバーＴＢと、第１〜第３識別画像Ｉ１〜Ｉ３とが配置された画面である。

タイムバーＴＢは、図６に示すように、音声の録音を開始してから終了するまでの時間に対応する時間スケールＳＣと、時間スケールＳＣ上に設けられ、音声の再生時（ステップＳ１１３〜Ｓ１１６）の音声データのタイムスタンプと時間的に対応する再生位置を指し示すスライダＳＬとを備える。
第１〜第３識別画像Ｉ１〜Ｉ３は、話者及び当該話者のテンションを識別するための識別画像である。図５に示した参照情報では、話者が三人（「右に１２０°」の方向の「男性」、「右に９０°」の方向の「女性」、及び「左に１０°」の方向の「女性」の三人）であるため、話者表示再生画面Ｗ１００では、３つの第１〜第３識別画像Ｉ１〜Ｉ３が配置されている。

第１識別画像Ｉ１は、一人目の話者である「右に１２０°」の方向の「男性」に対応する識別画像である。図５に示した参照情報では、当該話者は、「０〜５秒」、「５〜１０秒」、及び「１０〜１５秒」の期間に連続して特定されている。このため、第１識別画像Ｉ１は、タイムバーＴＢに対応する当該「０〜１５秒」の期間、タイムバーＴＢに沿って延びるように配置されている。
ここで、図５に示した参照情報では、当該話者は、「男性」であると特定されている。このため、第１識別画像Ｉ１には、図６に示すように、当該「男性」であることを識別するための男性画像ＭＦが付加されている。
また、図５に示した参照情報では、当該話者のテンションは、「５〜１０秒」の期間で「ハイテンション」であると判別されている。このため、第１識別画像Ｉ１は、図６に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。すなわち、第１識別画像Ｉ１の幅は、話者のテンションの高さを示している。なお、他の識別画像についても同様である。話者のテンションの高さに応じて第１識別画像Ｉ１の幅をアナログ的に変更してもよいし、段階的に変更してもよい。また、当該幅が隣接のタイムバーＴＢと重ならないように制限をかけてもよい。なお、美観が損なわれなければ、当該幅が隣接のタイムバーＴＢと重なるような表現でもよい。この場合には、臨場感が出ることは言うまでもない。また、第１識別画像Ｉ１の幅は一定とし、付加する男性画像ＭＦの大きさによってテンションの高さを表してもよい。

第２識別画像Ｉ２は、二人目の話者である「右に９０°」の方向の「女性」に対応する識別画像である。図５に示した参照情報では、当該話者は、「５〜１０秒」、「１０〜１５秒」、及び「１５〜２０秒」の期間に連続して特定されている。このため、第２識別画像Ｉ２は、タイムバーＴＢに対応する当該「５〜２０秒」の期間、タイムバーＴＢに沿って延びるように配置されている。
ここで、図５に示した参照情報では、当該話者は、「女性」であると特定されている。このため、第２識別画像Ｉ２には、図６に示すように、当該「女性」であることを識別するための女性画像ＬＦ１が付加されている。
また、図５に示した参照情報では、当該話者のテンションは、全て「通常」であると判別されている。このため、第２識別画像Ｉ２は、図６に示すように、全ての期間で同一の幅寸法となっている。

第３識別画像Ｉ３は、三人目の話者である「左に１０°」の方向の「女性」に対応する識別画像である。図５に示した参照情報では、当該話者は、「１５〜２０秒」及び「２０〜２５秒」の期間に連続して特定されている。このため、第３識別画像Ｉ３は、タイムバーＴＢに対応する当該「１５〜２５秒」の期間、タイムバーＴＢに沿って延びるように配置されている。
ここで、図５に示した参照情報は、当該話者は、二人目の話者（「右に９０°」の方向の「女性」）とは異なる「女性」であると特定されている。このため、第３識別画像Ｉ３には、図６に示すように、当該「女性」であることを識別するための画像であって、女性画像ＬＦ１とは異なる女性画像ＬＦ２が付加されている。
また、図５に示した参照情報では、当該話者のテンションは、「２０〜２５秒」の期間で「ハイテンション」であると判別されている。このため、第３識別画像Ｉ３は、図６に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。

以上説明した本実施の形態１に係る電子機器１は、第１，第２音声データを解析することで当該音声データに含まれる音声の特徴成分（話者のテンション）を判別し、当該特徴成分と当該特徴成分が含まれる時間（タイムスタンプ）とを関連付けて参照情報を生成する。そして、電子機器１は、当該参照情報に基づいて、タイムバーとともに、当該タイムバーに対応する各時間に、当該時間に関連付けられた特徴成分を識別するための識別画像を配置した話者表示再生画面を表示する。
特に、電子機器１は、話者のテンションに応じて当該識別画像を異なるもの（図６に示した例では、話者のテンションを識別画像Ｉ１〜Ｉ３の幅の太さで表現）としている。
このため、ユーザは、当該話者表示再生画面から録音時の状況（話者のテンションがどのような状態であったか）を一目で把握することができる。したがって、本実施の形態１に係る電子機器１によれば、利便性の向上が図れるという効果を奏する。

また、本実施の形態１に係る電子機器１は、第１，第２音声データを解析して、当該第１，第２音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、特徴情報（話者のテンション）を判別する。
このため、ユーザは、話者表示再生画面から、録音時の状況として、話者が誰であったか、当該話者のテンションがどのような状態であったかの双方を一目で把握することができ、利便性の向上がさらに図れる。
特に、電子機器１は、一対の第１，第２マイク１１１，１２１が設けられ、当該第１，第２マイク１１１，１２１を介して入力した各音声に基づく第１，第２音声データに基づいて、話者の方向を特定する。また、電子機器１は、当該各音声の周波数に基づいて、話者の性別を特定する。さらに、電子機器１は、当該各音声の音量に基づいて、話者のテンションを判別する。このため、簡単な解析処理により、話者の特定（話者の方向及び性別の特定）及び話者のテンションの判別を実行することができる。

また、本実施の形態１に係る電子機器１は、話者を特定することができなかった場合には、当該話者を特定することができなかった期間の音声を当該期間の直前の期間で特定した話者が発したものと推定する。
このため、話者を特定することができなかった場合であっても、各期間で継続して声を発しているものと推測し、当該話者を尤もらしい話者と推定することができる。

（実施の形態１の変形例）
上述した実施の形態１では、電子機器１が再生モードに設定されている場合（ステップＳ１１１）に、第１，第２音声データの解析及び参照情報の生成を行っていたが、これに限られない。
例えば、第１，第２音声データの解析及び参照情報の生成（ステップＳ１１１Ｂ〜Ｓ１１１Ｎ）の少なくとも一部を、第１，第２音声データの生成時（ステップＳ１０３〜Ｓ１０５）に並行して行っても構わない。

上述した実施の形態１において、第１，第２データ要素を解析し、笑い声や怒った声を認識することができた場合には、話者表示再生画面において、当該認識することができた期間に対応する位置に笑い顔や怒った顔の画像を付加しても構わない。

上述した実施の形態１では、話者のテンションを「ハイテンション」及び「通常」の２段階で判別していたが、これに限られず、３段階以上で判別しても構わない。

上述した実施の形態１では、話者のテンションを判別する際、話者の音声の音量を該当期間と直前の期間とで比較していたが、これに限られず、該当期間における話者の音声の音量を所定の閾値と比較することで話者のテンションを判別しても構わない。また、該当期間内での話者の音声の音量の変化で話者のテンションを判別しても構わない。ここで、話者のテンション（音声の特徴部分）は感情的な高ぶりを示すものを想定したが、話の集中具合（例えば、一人の話者が説明し、それを他の人物が静かに聴くなど）を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度（説き聞かせるように語る）やスピード（まくしたてる）などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化（集中し始めたなど）を検出したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。

上述した実施の形態１では、話者を特定することができなかった場合には、当該話者を特定することができなかった期間の音声を当該期間の「直前」の期間で特定した話者が発したものと推定していた（ステップＳ１１１Ｍ）が、これに限られず、当該期間の「直後」の期間で特定した話者が発したものと推定しても構わない。

図７は、本発明の実施の形態１の変形例を示す図である。
上述した実施の形態１で説明した電子機器１の代わりに、撮像機能を付加した電子機器１Ａを採用しても構わない。
具体的に、電子機器１Ａは、図７に示すように、上述した実施の形態１で説明した電子機器１に対して、撮像部１０が追加されているとともに、機器側制御部１９の代わりに当該機器側制御部１９に対して撮像制御部１９７を追加した機器側制御部１９Ａが採用されている。
撮像部１０は、撮像制御部１９７による制御の下、被写体を撮像して画像データを生成する。この撮像部１０は、被写体像を結像する光学系（図示略）、当該光学系が結像した被写体像を受光して電気信号に変換するＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等の撮像素子、当該撮像素子からの電気信号（アナログ信号）に対して信号処理（Ａ／Ｄ変換等）を行うことによりデジタルの画像データを生成する信号処理部等を用いて構成される。そして、撮像部１０にて生成された画像データは、撮像制御部１９７による制御の下、時計部１５にて生成されたタイムスタンプ（当該画像データが生成された日時に関するタイムスタンプ）が付加されて、記録部１７に記録される。
撮像制御部１９７は、ユーザによる操作部１３への撮影操作に応じて、撮像部１０に被写体を撮像させ、当該撮像部１０にて生成された画像データ（タイムスタンプを含む）を記録部１７に記録する。
以上のように、電子機器１Ａに撮像機能を持たせ、例えば、図４に示す打合せの状況や、男性Ｍ、女性Ｌ１，Ｌ２をそれぞれ撮像しておけば、例えば、図６に示した話者表示再生画面Ｗ１００において、図４に示す打合せの状況を撮像した画像や、男性画像ＭＦ及び女性画像ＬＦ１，ＬＦ２の代わりに男性Ｍ、女性Ｌ１，Ｌ２を撮像した画像を配置することが可能となる。

（実施の形態２）
次に、本発明の実施の形態２について説明する。
以下の説明では、上述した実施の形態１と同様の構成及びステップには同一符号を付し、その詳細な説明は省略または簡略化する。
図８は、本発明の実施の形態２に係る音声処理システム１００の構成を示すブロック図である。
本実施の形態２に係る音声処理システム１００は、図８に示すように、上述した実施の形態１で説明した電子機器１の「音声データを解析し参照情報を生成する」機能をサーバ２に持たせ、音声データの生成及び再生を行う電子機器１Ｂと当該サーバ２との間でインターネット網Ｎを介して通信を行うシステムである。

〔音声処理システムの構成〕
以下、本実施の形態２に係る音声処理システム１００を構成する電子機器１Ｂ及びサーバ２の構成について順に説明する。

〔電子機器の構成〕
本実施の形態２に係る電子機器１Ｂは、図８に示すように、上述した実施の形態１で説明した電子機器１（図１）に対して、機器側通信部２０が追加されているとともに、機器側制御部１９の一部の機能が変更されている。
機器側通信部２０は、機器側制御部１９Ｂによる制御の下、サーバ２との間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。

本実施の形態２に係る機器側制御部１９Ｂは、図８に示すように、音声データ解析部１９２及び参照情報生成部１９３が省略されているとともに、機器側通信制御部１９８が追加されている。
機器側通信制御部１９８は、話者表示処理の実行時に、以下の処理を実行する。
具体的に、機器側通信制御部１９８は、記録部１７に記録されたサーバ２の所在位置情報（ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ））に基づいて、機器側通信部２０を介して、インターネット網Ｎに接続されたサーバ２にアクセス信号（参照画像の送信要求（自身の電子機器１Ｂを識別する識別情報を含む））を送信し、サーバ２との間で通信接続を確立する。そして、機器側通信制御部１９８は、話者表示処理の対象となる第１，第２音声データ（タイムスタンプを含む）をサーバ２に送信するとともに、参照情報をサーバ２から受信する。

〔サーバの構成〕
サーバ２は、電子機器１Ｂからの参照画像の送信要求とともに送信された第１，第２音声データを解析して参照情報を生成し、当該参照情報を電子機器１Ｂに送信する。
以下では、サーバ２の構成として、本発明の要部を主に説明する。
サーバ２は、図８に示すように、サーバ側通信部２１と、音声データベース２２と、サーバ側制御部２３とを備える。

サーバ側通信部２１は、サーバ側制御部２３による制御の下、電子機器１Ｂとの間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。
音声データベース２２は、サーバ側制御部２３による制御の下、サーバ側通信部２１を介して電子機器１Ｂから受信した第１，第２音声データ（タイムスタンプを含む）を記録する。また、音声データベース２２は、サーバ側制御部２３による制御の下、参照情報を当該参照情報の生成に用いられた第１，第２音声データに関連付けて記録する。

サーバ側制御部２３は、ＣＰＵ等を用いて構成され、サーバ２の動作を統括的に制御する。このサーバ側制御部２３は、図８に示すように、サーバ側通信制御部２３１と、端末判定部２３２と、音声データ記録制御部２３３と、音声データ解析部２３４と、参照情報生成部２３５とを備える。
サーバ側通信制御部２３１は、サーバ側通信部２１及びインターネット網Ｎを介して電子機器１Ｂから送信されるアクセス信号（参照情報の送信要求（当該電子機器１Ｂの識別情報を含む））に応じて、サーバ側通信部２１の動作を制御し、電子機器１Ｂとの間で通信接続を確立する。そして、サーバ側通信制御部２３１は、電子機器１Ｂから、音声データベース２３３に記録させる第１，第２音声データ（タイムスタンプを含む）を受信するとともに、参照情報生成部２３５にて生成された参照情報を当該電子機器１Ｂに送信する。
そして、サーバ側通信制御部２３１は、本発明に係る音声データ取得部としての機能を有する。

端末判定部２３２は、インターネット網Ｎを介して電子機器１Ｂから送信されるアクセス信号に基づいて、アクセスしてきた送信元の電子機器１Ｂを判定（特定）する。
音声データ記録制御部２３３は、サーバ側通信部２１を介して電子機器１Ｂから受信した第１，第２音声データ（タイムスタンプを含む）を音声データベース２２に記録する。

音声データ解析部２３４（対象物特定部２３４１及び特徴成分判別部２３４２）は、上述した実施の形態１で説明した音声データ解析部１９２（対象物特定部１９２１及び特徴成分判別部１９２２）と同様の機能を有し、サーバ側通信部２１を介して電子機器１Ｂから受信し音声データベース２２に記録された第１，第２音声データを解析する。
参照情報生成部２３５は、上述した実施の形態１で説明した参照情報生成部１９３と同様の機能を有し、音声データ解析部２３４の解析結果に基づいて、参照情報を生成する。そして、参照情報生成部２３５は、当該参照情報を当該参照情報の生成に用いた第１，第２音声データに関連付けて音声データベース２２に記録する。
そして、サーバ側通信制御部２３１、音声データ解析部２３４、及び参照情報生成部２３５は、本発明に係る音声処理装置としての機能を有する。

〔音声処理システムの動作〕
次に、上述した音声処理システム１００の動作について説明する。
以下、音声処理システム１００の動作として、電子機器１Ｂの動作、及びサーバ２の動作を順に説明する。

〔電子機器の動作〕
なお、電子機器１Ｂの動作については、上述した実施の形態１で説明した電子機器１Ｂの動作（図２，図３）に対して、話者表示処理（ステップＳ１１１）が異なるのみである。このため、以下では、本実施の形態２に係る話者表示処理（ステップＳ１１１）のみを説明する。
図９は、本発明の実施の形態２に係る話者表示処理（ステップＳ１１１）を示すフローチャートである。
本実施の形態２に係る話者表示処理は、図９に示すように、上述した実施の形態１で説明した話者表示処理（図３）に対して、ステップＳ１１１Ａ〜Ｓ１１１Ｏを省略し、ステップＳ１１１Ｒ，Ｓ１１１Ｓを追加した点が異なるのみである。このため、以下では、ステップＳ１１１Ｒ，Ｓ１１１Ｓのみを説明する。

ステップＳ１１１Ｒは、話者表示処理（ステップＳ１１１）の最初に実行されるステップである。
具体的に、機器側通信制御部１９８は、機器側通信部２０を介して、インターネット網Ｎに接続されたサーバ２にアクセス信号（参照画像の送信要求（自身の電子機器１Ｂの識別情報を含む））を送信し、サーバ２との間で通信接続を確立する。そして、機器側通信制御部１９８は、話者表示処理の対象となる第１，第２音声データ（ステップＳ１０９で選択された第１，第２音声データ（タイムスタンプを含む））をサーバ２に送信する。

続いて、機器側通信制御部１９８は、機器側通信部２０を介して、サーバ２から参照情報を受信し、メモリ部１６に記憶する（ステップＳ１１１Ｓ）。
そして、電子機器１Ｂは、メモリ部１６に記憶した参照情報に基づいて、話者表示再生画面を生成し（ステップＳ１１１Ｐ）、当該話者表示再生画面を表示部１４に表示する（ステップＳ１１１Ｑ）。

〔サーバの動作〕
図１０は、サーバ２の動作を示すフローチャートである。
サーバ側通信制御部２３１は、サーバ側通信部２１及びインターネット網Ｎを介して、電子機器１Ｂからアクセス信号（参照画像の送信要求（当該電子機器１Ｂの識別情報を含む））を受信したか否かを判断する（ステップＳ２０１）。
参照画像の送信要求を受信していないと判断された場合（ステップＳ２０１：Ｎｏ）には、サーバ３は、ステップＳ２１０に移行する。
一方、参照画像の送信要求を受信したと判断された場合（ステップＳ２０１：Ｙｅｓ）には、端末判定部２３２は、当該送信要求に基づいて、アクセスしてきた送信元の電子機器１Ｂを特定する（ステップＳ２０２）。

続いて、サーバ側通信制御部２３１は、サーバ側通信部２１及びインターネット網Ｎを介して、電子機器１Ｂから第１，第２音声データ（タイムスタンプを含む）を受信する（ステップＳ２０３：音声データ取得ステップ）。そして、音声データ記録制御部２３３は、音声データベース２２に記録された第１，第２音声データを参照し、ステップＳ２０３で受信した第１，第２音声データと同一の第１，第２音声データが未だ記録されていない場合には、当該受信した第１，第２音声データを音声データベース２２に記録する。

続いて、サーバ側制御部２３は、ステップＳ２０３で受信した第１，第２音声データの参照情報を既に生成しているか否かを判断する（ステップＳ２０４）。すなわち、サーバ側制御部２３は、ステップＳ２０４において、音声データベース２２に記録された当該第１，第２音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合（ステップＳ２０４：Ｎｏ）には、サーバ２は、ステップＳ２１９に移行する。
一方、参照情報を未だ生成していないと判断された場合（ステップＳ２０４：Ｙｅｓ）には、サーバ２は、上述した実施の形態１で説明したステップＳ１１１Ｂ〜Ｓ１１１Ｎと同様に、ステップＳ２０３で受信した第１，第２音声データの解析、及び参照情報の生成を実行する（ステップＳ２０５〜Ｓ２１７）。
すなわち、ステップＳ２０８は、本発明に係る音声データ解析ステップに相当する。また、ステップＳ２０９は、本発明に係る参照情報生成ステップに相当する。

ステップＳ２１７の後、または、ステップＳ２１５で直前の期間で話者が特定されていないと判断された場合（ステップＳ２１５：Ｎｏ）には、サーバ２は、ステップＳ２０９，Ｓ２１１，Ｓ２１２で生成された各期間の参照情報（ステップＳ２１７で更新された場合には更新後の参照情報）を、当該参照情報の生成に用いられた第１，第２音声データに関連付けて音声データベース２２に記録する（ステップＳ２１８）。
ステップＳ２１８の後、または、ステップＳ２０４で参照情報を生成済みであると判断された場合（ステップＳ２０４：Ｎｏ）には、サーバ側通信制御部２３１は、サーバ側通信部２１及びインターネット網Ｎを介して、ステップＳ２０３で受信した第１，第２音声データに対しステップＳ２１８で関連付けて記録された参照情報を、ステップＳ２０２で特定された電子機器１Ｂに送信する（ステップＳ２１９）。この後、サーバ２は、ステップＳ２０１に戻る。

ステップＳ２０１で参照画像の送信要求を受信していないと判断された場合（ステップＳ２０１：Ｎｏ）には、サーバ２は、上述した処理とは異なる他の処理を実行する（ステップＳ２１０）。この後、サーバ２は、ステップＳ２０１に戻る。

以上説明した本実施の形態２によれば、上述した実施の形態１と同様の効果を奏することができるとともに、電子機器１Ｂの構成の簡素化が図れる、という効果を奏する。

（その他の実施の形態）
ここまで、本発明を実施するための形態を説明してきたが、本発明は上述した実施の形態１，２によってのみ限定されるべきものではない。
図１１Ａ〜図１１Ｃは、上述した実施の形態１，２で説明した話者表示再生画面の変形例を示す図である。
上述した実施の形態１，２で例示した話者表示再生画面Ｗ１００では、第１〜第３識別画像Ｉ１〜Ｉ３は、話者のテンションを幅の太さで表現していたが、これに限られず、例えば、図１１Ａ〜図１１Ｃに示す話者表示再生画面Ｗ１０１〜Ｗ１０３のように表現しても構わない。
具体的に、図１１Ａに示す話者表示再生画面Ｗ１０１では、第１〜第３識別画像Ｉ１〜Ｉ３は、話者のテンションの変化を波形で表現している。すなわち、図１１Ａに示す話者表示再生画面Ｗ１０１において、縦方向はテンションの高さを示している。
また、図１１Ｂに示す話者表示再生画面Ｗ１０２は、図１１Ａに示した話者表示再生画面Ｗ１０１を３Ｄ表示したものである。
さらに、図１１Ｃに示す話者表示再生画面Ｗ１０３では、第１〜第３識別画像Ｉ１〜Ｉ３は、話者のテンションを画素値で表現している。すなわち、図１１Ｃに示す話者表示再生画面Ｗ１０１において、画素値の高い部分（明るい部分）は、テンションが高い時間を示している。ここで、話者のテンションは感情的な高ぶりを示すものであるが、話の集中具合（例えば、一人の話者が説明し、それを他の人物が静かに聴くなど）を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度（説き聞かせるように語る）やスピード（まくしたてる）などを検出して、話者のテンションを判定してもよい。このような声の特徴（の変化）によって、例えば、状況を判定するための検索を行うことも可能である。

図１２は、上述した実施の形態１，２で説明した参照情報の変形例を示す図である。
上述した実施の形態１，２において、参照情報は、上述した実施の形態１，２で説明した参照情報（例えば、図５）に限られず、例えば、図１２に示す参照情報を採用しても構わない。
例えば、上述した実施の形態１において、記録部１７に特定のキーワードを予め記録しておく。なお、図１２では、説明の便宜上、当該特定のキーワードを１つのみとしているが、複数としても構わない。また、音声データ解析部１９２は、第１，第２データ要素を解析し、当該第１，第２データ要素に記録部１７に記録された特定のキーワードが含まれているか否かを判定する。そして、参照情報生成部１９３は、音声データ解析部１９２にて特定のキーワードが含まれていると判定された場合に、該当期間（図１２の例では、「５〜１０秒」の期間）の参照情報として、「キーワード」フラグをオン状態とした参照情報を生成する。なお、上述した実施の形態２では、サーバ２に上述した処理を実行させ、図１２に示す参照情報を生成させればよい。

図１３は、図１２に示した参照情報に基づいて生成される話者表示再生画面Ｗ１０４の一例を示す図である。
例えば、上述した実施の形態１，２において、電子機器１やサーバ２が図１２に示した参照情報を生成した場合には、電子機器１，１Ｂは、例えば、図１３に示す話者表示再生画面Ｗ１０４を生成する。
具体的に、図１３に示す話者表示再生画面Ｗ１０４は、図６に示した話者表示再生画面Ｗ１００に対して、キーワード入力部ＫＷが追加されている。
キーワード入力部ＫＷは、ユーザによる操作部１３への操作によって、キーワードが入力される部分である。
そして、再生画面生成部１９４は、記録部１７に記録された特定のキーワードと同一のキーワードがユーザによる操作部１３への操作によって入力された場合には、当該入力の前（図１３（ａ））と当該入力の後（図１３（ｂ））とで、話者表示再生画面Ｗ１０４を以下に示すように変化させる。
すなわち、再生画面生成部１９４は、図１２に示した参照情報を参照し、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像（図１２及び図１３（ｂ）の例では、第２識別画像Ｉ２）の輝度を向上させた話者表示再生画面Ｗ１０４（図１３（ｂ））を生成する。
なお、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像の表示態様を従前の当該識別画像の表示態様と異なるものとすれば、上述した輝度の向上に限られず、その他の方法を採用しても構わない。

また、処理フローは、上述した実施の形態１，２で説明したフローチャートにおける処理の順序に限られず、矛盾のない範囲で変更しても構わない。
さらに、本明細書においてフローチャートを用いて説明した処理のアルゴリズムは、プログラムとして記述することが可能である。このようなプログラムは、コンピュータ内部の記録部に記録してもよいし、コンピュータ読み取り可能な記録媒体に記録してもよい。プログラムの記録部または記録媒体への記録は、コンピュータまたは記録媒体を製品として出荷する際に行ってもよいし、通信ネットワークを介したダウンロードにより行ってもよい。

上述した実施の形態では、分かり易く、ＩＣレコーダ、録音機等の検索技術を例にとって説明したが、ビデオカメラ等で連携する動画撮影システムであれば、音声と画像が関連付けられているので、音声記録機能付きカメラ等にも応用が可能である。撮影画像を話者のテンションに基づいて記録、検索、タグ付けすることが可能である。

また、一般のカメラのみならず、車載カメラでは、車内の会話によって撮影したり画像を検索するような用途もあり、ドライバーを判定したり、ドライブしながらのハンズフリー撮影を行うことが可能である。また、監視カメラや検査用カメラ、医療用のカメラでは、特定の人物の会話に関係する画像を検索することができる。検査装置に応用した場合でも、検査対象の画像のみならず、検査している風景などについても、会話に基づいて重要シーンをチェックでき、本発明ならではの効果を期待することができる。

１，１Ａ，１Ｂ・・・電子機器；２・・・サーバ；１０・・・撮像部；１１・・・第１音声データ生成部；１２・・・第２音声データ生成部；１３・・・操作部；１４・・・表示部；１５・・・時計部；１６・・・メモリ部；１７・・・記録部；１８・・・音声出力部；１９，１９Ａ，１９Ｂ・・・機器側制御部；２０・・・機器側通信部；２１・・・サーバ側通信部；２２・・・音声データベース；２３・・・サーバ側通信制御部；１００・・・音声処理システム；１１１・・・第１マイク；１１２・・・第１増幅部；１１３・・・第１Ａ／Ｄ変換部；１２１・・・第２マイク；１２２・・・第２増幅部；１２３・・・第２Ａ／Ｄ変換部；１８１・・・Ｄ／Ａ変換部；１８２・・・増幅器；１８３・・・スピーカ；１９１・・・音声データ取得部；１９２・・・音声データ解析部；１９３・・・参照情報生成部；１９４・・・再生画面生成部；１９５・・・表示制御部；１９６・・・音声制御部；１９７・・・撮像制御部；１９８・・・機器側通信制御部；２３１・・・サーバ側通信制御部；２３２・・・端末判定部；２３３・・・音声データ記録制御部；２３４・・・音声データ解析部；２３５・・・参照情報生成部；１９２１・・・対象物特定部；１９２２・・・特徴成分判別部；２３４１・・・対象物特定部；２３４２・・・特徴成分判別部；Ａｘ・・・軸；Ｉ１〜Ｉ３・・・第１〜第３識別画像；ＫＷ・・・キーワード入力部；Ｌ１，Ｌ２・・・女性；ＬＦ１，ＬＦ２・・・女性画像；Ｍ・・・男性；ＭＦ・・・男性画像；Ｎ・・・インターネット網；ＳＣ・・・時間スケール；ＳＬ・・・スライダ；ＴＢ・・・タイムバー；Ｗ１００〜Ｗ１０４・・・話者表示再生画面

Claims

音声データを取得する音声データ取得部と、
前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、
前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え、
前記音声データ解析部は、
前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定する
ことを特徴とする音声処理装置。
前記音声データ解析部は、
前記音声データを解析して、前記音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、前記テンションの高い成分の有無を判別する
ことを特徴とする請求項１に記載の音声処理装置。
前記音声データ解析部は、
話者の感情的な高ぶり、複数の人物の声の相対的な大きさの関係、話者が語る言葉のペースの一定度、話者のスピード、音声の音量、音声の周波数、音声の音素成分の時間密度、または特定の音声成分、に基づいて、前記テンションの高い成分を検出して、話者のテンションを判定する
ことを特徴とする請求項１または２に記載の音声処理装置。
前記参照情報生成部によって生成された参照情報に基づいて、前記時間に関連付けられたテンションを識別するための識別画像を配置した話者表示再生画面を生成する再生画面生成部を更に有する
ことを特徴とする請求項１〜３のいずれか一つに記載の音声処理装置。
前記再生画面生成部は、
前記テンションを識別するための識別画像に、話者を識別するために表示するアイコンを生成する
ことを特徴とする請求項４に記載の音声処理装置。
前記識別画像は、
前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間が他の期間よりも幅が大きく表示されるデータとして生成される
ことを特徴とする請求項５に記載の音声処理装置。
前記識別画像は、
前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間がアナログ的に段階的に他の期間よりも幅が大きく表示されるデータとして生成される
ことを特徴とする請求項５に記載の音声処理装置。
キーワードの入力操作を受け付ける操作受付部を備え、
前記再生画面生成部は、
前記テンションの高い成分に基づく特定の音声が前記操作受付部にて受け付けた前記キーワードに一致した場合に、当該テンションの高い成分を識別するための前記識別画像を従前の識別画像とは異なる表示態様とする
ことを特徴とする請求項４または５に記載の音声処理装置。
音声処理装置が行う音声処理方法において、
音声データを取得する音声データ取得ステップと、
前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、
前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、
前記音声データ解析ステップでは、
前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定する
ことを特徴とする音声処理方法。
請求項９に記載の音声処理方法を音声処理装置に実行させる
ことを特徴とする音声処理プログラム。