JP6392578B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法、及び音声処理プログラム Download PDFInfo
- Publication number
- JP6392578B2 JP6392578B2 JP2014163742A JP2014163742A JP6392578B2 JP 6392578 B2 JP6392578 B2 JP 6392578B2 JP 2014163742 A JP2014163742 A JP 2014163742A JP 2014163742 A JP2014163742 A JP 2014163742A JP 6392578 B2 JP6392578 B2 JP 6392578B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- unit
- reference information
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 51
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000007405 data analysis Methods 0.000 claims description 23
- 230000002996 emotional effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 46
- 238000000034 method Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 20
- 238000003384 imaging method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000008451 emotion Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000003825 pressing Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000020509 sex determination Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Description
具体的に、特許文献1に記載のICレコーダは、マイクを介して入力した音声を音声データ(デジタルデータ)に変換した後、当該音声データをメモリに記録する。また、当該ICレコーダは、メモリに記録された音声データを音声信号(アナログ信号)に変換した後、スピーカを介して当該音声信号に基づく音声を出力(再生)する。
具体的に、再生画面は、音声の録音を開始してから終了するまでの時間に対応する時間スケールと、当該時間スケール上に配置され、再生位置を指し示すスライダとを有するタイムバーが配置された画面である。
すなわち、当該ICレコーダのユーザは、音声の再生時に当該再生画面(タイムバー)を確認することで、既に録音した音声データの再生位置を把握することができる。
したがって、再生画面から録音時の状況を把握することができ、利便性の向上が図れる技術が要望されている。
〔電子機器の構成〕
図1は、本発明の実施の形態1に係る電子機器1の構成を示すブロック図である。
電子機器1は、ICレコーダ、デジタルカメラ、デジタルビデオカメラ、携帯電話、あるいはタブレット型携帯機器等として構成される。そして、電子機器1は、話者が発した音声を含む音声データを解析することで当該音声の特徴成分(話者のテンション)を判別し、タイムバーとともに当該特徴成分が生じた時間を明示した再生画面を表示する。
以下、電子機器1の構成として、本発明の要部を主に説明する。 この電子機器1は、図1に示すように、第1音声データ生成部11と、第2音声データ生成部12と、操作部13と、表示部14と、時計部15と、メモリ部16と、記録部17と、音声出力部18と、機器側制御部19とを備える。
第1マイク111は、音声を入力して電気信号に変換する。ここで、第1マイク111は、電子機器1を正面から見て、左上側に配置されている(図4参照)。
第1増幅器112は、第1マイク111からの電気信号を入力し、当該電気信号に対して所定のアナログ処理(ノイズ成分を低減するノイズ低減処理、ゲインを増大させて一定の出力レベルを維持するゲイン処理等)を施し、第1A/D変換部113に出力する。
第1A/D変換部113は、第1増幅器112からの電気信号を入力し、当該電気信号に対して、A/D変換を行うことにより、デジタル信号(第1音声データ)に変換し、機器側制御部19に出力する。
ここで、第2マイク121は、電子機器1を正面から見て、右上側(第1マイク111に対向する側)に配置されている(図4参照)。
そして、操作部13は、本発明に係る操作受付部としての機能を有する。
表示部14は、液晶または有機EL(Electro Luminescence)等からなる表示パネルを用いて構成されている。そして、表示部14は、機器側制御部19による制御の下、話者表示再生画面等の画像を表示する。
時計部15は、計時機能の他、第1,第2音声データ生成部11,12にて音声データが生成された日時に関する日時情報(以下、タイムスタンプと記載)を生成する機能を有する。そして、時計部15にて生成されたタイムスタンプは、機器側制御部19に出力される。
記録部17は、機器側制御部19が実行する各種プログラム(音声処理プログラムを含む)や、第1,第2音声データ生成部11,12にてそれぞれ生成された第1,第2音声データを記録する。また、記録部17は、機器側制御部19による制御の下、機器側制御部19にて生成された参照情報を対応する第1,第2音声データに関連付けて記録する。
D/A変換部181は、記録部17に記録された第1,第2音声データに対して、D/A変換をそれぞれ行うことにより、アナログ信号にそれぞれ変換するとともに、各アナログ信号の和信号を増幅器182に出力する。
増幅器182は、D/A変換部181からの音声信号(和信号)を入力し、当該音声信号に対して所定のアナログ処理を施して音声信号の増幅等を行い、スピーカ183に出力する。
スピーカ183は、増幅器182からの音声信号を入力し、当該音声信号に基づく音声を出力する。
音声データ取得部191は、ユーザによる操作部13への録音開始操作(録音スイッチの押下等)に応じて、第1,第2音声データ生成部11,12に第1,第2音声データを生成させ、当該第1,第2音声データを取得する。そして、音声データ取得部191は、時計部15にて生成されたタイムスタンプ(第1,第2音声データの生成日時に関する日時情報)を第1,第2音声データに関連付けて、メモリ部16に順次、記憶する。また、音声データ取得部191は、ユーザによる操作部13への録音終了操作(停止スイッチの押下等)に応じて、第1,第2音声データ生成部11,12に第1,第2音声データの生成を終了させ、メモリ部16に記憶した第1,第2音声データ(タイムスタンプを含む)を記録部17に記録する。
対象物特定部1921は、第1,第2音声データを解析することで、当該第1,第2音声データに含まれる音声を発した話者を特定する。
特徴成分判別部1922は、第1,第2音声データを解析することで、当該第1,第2音声データに含まれる音声の特徴成分(話者のテンション)を判別する。
参照情報生成部193は、対象物特定部1921にて特定された話者、特徴成分判別部1922にて判別された話者のテンション、並びに当該話者の声が含まれる日時を示すタイムスタンプ(時計部15にて生成)等を関連付け、第1,第2音声データの再生画面を生成する際に用いられる参照情報を生成する。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
そして、上述した音声データ取得部191、音声データ解析部192、及び参照情報生成部193は、本発明に係る音声処理装置としての機能を有する。
具体的に、再生画面生成部194は、再生位置を指し示すタイムバーを配置するとともに、参照情報生成部193にて生成された参照情報に基づいて、タイムバーに対応する各時間に、当該時間(タイムスタンプ)に関連付けられた話者及び当該話者のテンションを識別するための識別画像を配置した話者表示再生画面を生成する。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
また、再生画面生成部194は、ユーザによる操作部13へのユーザ操作に応じて話者表示の表示フラグがオフ状態になっている場合に、再生位置を指し示すタイムバーのみを配置した(上述した識別画像のない)通常再生画面を生成する。
音声制御部196は、電子機器1が再生モードに設定されている場合に、以下の機能を実行する。
音声制御部196は、ユーザによる操作部13への再生開始操作(再生スイッチの押下等)に応じて、音声出力部18の動作を制御し、記録部17に記録された第1,第2音声データに基づく音声の出力を開始させる。また、音声制御部196は、ユーザによる操作部13への再生終了操作(停止スイッチの押下等)に応じて、音声出力部18に音声の出力を終了させる。
次に、上述した電子機器1の動作について説明する。
図2は、電子機器1の動作を示すフローチャートである。
ユーザによる操作部13への操作によって電子機器1の電源がオンになる(ステップS101:Yes)と、機器側制御部19は、電子機器1が録音モードに設定されているか否かを判断する(ステップS102)。
一方、録音モードに設定されていると判断した場合(ステップS102:Yes)には、機器側制御部19は、ユーザによる操作部13への録音開始操作があったか否かを判断する(ステップS103)。
一方、録音開始操作があったと判断された場合(ステップS103:Yes)には、音声データ取得部191は、第1,第2音声データ生成部11,12に第1,第2音声データの生成(録音)を開始させる。また、時計部15は、タイムスタンプの生成(計時)を開始する。そして、音声データ取得部191は、当該タイムスタンプを当該第1,第2音声データに関連付けて、メモリ部16に順次、記憶する(ステップS104)。
録音終了操作がないと判断された場合(ステップS105:No)には、電子機器1は、録音及び計時を継続する。
一方、録音終了操作があったと判断された場合(ステップS105:Yes)には、音声データ取得部191は、第1,第2音声データ生成部11,12に第1,第2音声データの生成を終了させる。また、時計部15は、タイムスタンプの生成を終了する。そして、音声データ取得部191は、メモリ部16に記憶した第1,第2音声データ(タイムスタンプを含む)を記録部17に記録する(ステップS106)。この後、電子機器1は、ステップS101に戻る。
以上説明したステップS103〜S106は、本発明に係る音声データ取得ステップに相当する。
再生モードに設定されていないと判断された場合(ステップS107:No)には、電子機器1は、ステップS118に移行する。
一方、再生モードに設定されていると判断された場合(ステップS107:Yes)には、表示制御部195は、選択画面を表示部14に表示させる(ステップS108)。
ここで、当該選択画面は、記録部17に記録された複数の第1,第2音声データをユーザに選択させる画面であって、例えば、複数の第1,第2音声データに関連付けられた各タイムスタンプに基づく各日時が一覧表示された画面である。
選択操作がないと判断された場合(ステップS109:No)には、電子機器1は、選択画面の表示を継続する。
一方、選択操作があったと判断した場合(ステップS109:Yes)には、機器側制御部19は、話者表示の表示フラグがオン状態であるか否かを判断する(ステップS110)。
なお、話者表示処理の詳細については、後述する。
一方、話者表示の表示フラグがオフ状態であると判断された場合(ステップS110:No)には、再生画面生成部194は、通常再生画面を生成する。そして、表示制御部195は、当該通常再生画面を表示部14に表示させる(ステップS112)。
再生開始操作がないと判断された場合(ステップS113:No)には、電子機器1は、ステップS117に移行する。
一方、再生開始操作があったと判断された場合(ステップS113:Yes)には、音声制御部196は、ユーザによる選択操作(ステップS109)により選択された第1,第2音声データを記録部17から読み出す。そして、音声制御部196は、音声出力部18に当該第1,第2音声データに基づく音声の出力(再生)を開始させる(ステップS114)。
再生終了操作がないと判断された場合(ステップS115:No)には、電子機器1は、再生を継続する。
一方、再生終了操作があったと判断された場合(ステップS115:Yes)には、音声制御部196は、音声出力部18に音声の出力(再生)を終了させる(ステップS116)。なお、ステップS115で再生を継続した結果、第1,第2音声データを全て再生し終えた場合にも、ステップS116に移行するものである。
再生対象の変更操作がないと判断された場合(ステップS117:No)には、電子機器1は、ステップS113に戻る。
一方、再生対象の変更操作があったと判断された場合(ステップS117:Yes)には、電子機器1は、ステップS101に戻り、ステップS101,S102,S107を経た後、ステップS108において、再度、選択画面を表示する。
次に、上述した話者表示処理(ステップS111)について説明する。
図3は、話者表示処理(ステップS111)を示すフローチャートである。
機器側制御部19は、話者表示処理の対象となる第1,第2音声データ(ステップS109で選択された第1,第2音声データ)の参照情報を既に生成しているか否かを判断する(ステップS111A)。すなわち、機器側制御部19は、ステップS111Aにおいて、記録部17に記録された当該第1,第2音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合(ステップS111A:Yes)には、電子機器1は、ステップS111Pに移行する。
一方、参照情報を未だ生成していないと判断された場合(ステップS111A:No)には、対象物特定部1921は、話者表示処理の対象となる第1,第2音声データにおける一期間(例えば、5秒間)に相当するデータをそれぞれ読み出す(ステップS111B)。
以下、第1音声データにおける一期間に相当するデータを第1データ要素と記載し、第2音声データにおける一期間に相当するデータを第2データ要素と記載する。
具体的に、対象物特定部1921は、該当期間に相当する第1,第2データ要素に含まれる各音声の音量を比較することで、電子機器1に対する話者の方向を特定する。また、対象物特定部1921は、当該第1,第2データ要素に含まれる音声の周波数に基づいて、話者の性別を特定する。母音などの発音の周波数は、女性が男性より高めであるため性別の判定に用いることができる。また、使われる言葉や内容、イントネーション等でも性別を判定することができる。男女別の話者がいる場合はこれらの音声を比較して性別を判定してもよく、特定周波数より高いか低いかで性別を判定してもよい。さらに、使われる単語やセンテンスや語尾の特徴でも性別判定が可能である。また、男女それぞれのモデル音声との類似度に基づいて性別判定してもよい。また、同様の考え方で年齢の高低も判定が可能であることは言うまでもない。登場する頻度が高い話者であれば、あらかじめ登録したデータベースとの音声照合で特定する方法もある。
複数のユーザを識別するための識別データ(ユーザ名等)と当該ユーザの声紋に関する声紋データとを関連付け、当該関連付けた情報を記録部17に予め記録しておく。そして、対象物特定部1921は、記録部17に記録された情報を参照し、第1,第2データ要素に含まれる音声の声紋に一致する声紋データを特定することで、話者(当該声紋データに関連付けられた識別データ(ユーザ名等))を特定する。
話者を特定することができなかった(話者の方向及び性別の少なくともいずれか一方を特定することができなかった)と判断された場合(ステップS111D:No)には、電子機器1は、ステップS111Gに移行する。
具体的に、特徴成分判別部1922は、該当期間に相当する第1,第2データ要素に含まれる各音声の音量に基づいて、話者のテンションを判別する。すなわち、特徴成分判別部1922は、話者の音声の音量が直前の期間の音量と比較して所定の第1閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。感情によって音声の韻律的特徴が変化するが、これは声の高・低、強・弱、リズム・テンポや、基本周波数、パワー、持続時間などで分析が可能である。感情を表す音声に含まれる感情の程度と基本周波数パターンには関係があると言われており、ピッチ周波数・振幅の変化パターンなどでも分析が可能である。また、アクセントや含まれる単語、感嘆詞などを検出してもよく、これらの検出結果を合わせて、またはそのいずれかを活用して、「ハイテンション」を判定することが可能である。後述するように、笑い声やうなり声などを分析してもよい。これは声(声紋データ)のパターンマッチングなどでも判定可能である。話者のテンション(音声の特徴部分)は、喜怒哀楽のような激しい感情的な高ぶりに限る必要はなく、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
例えば、特徴成分判別部1922は、第1,第2データ要素に含まれる音声の周波数に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部1922は、話者の音声の周波数が直前の期間の音声の周波数と比較して所定の第2閾値以上に高くなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。「ハイテンション」は、喜怒哀楽等の話者の感情の高ぶりのみならず、話の集中具合を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出してテンションが上がっているという判定をしてもよい。つまり、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出して所定の特徴的な結果が得られた場合、「ハイテンション」と判定してもよい。
また、例えば、特徴成分判別部1922は、第1,第2データ要素に含まれる音声の音素成分の時間密度に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部1922は、話者の音声の音素成分の時間密度が直前の期間の音声の音素成分の時間密度と比較して所定の第3閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
さらに、例えば、笑い声や怒った声等の声紋に関する声紋データを記録部17に予め記録しておく。そして、特徴成分判別部1922は、記録部17に記録された当該声紋データを参照し、第1,第2データ要素に含まれる音声に当該声紋データに基づく笑い声や怒った声等の声紋に一致する声紋があった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
話者が複数であると判断された場合(ステップS111G:Yes)には、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「複数話者期間」フラグをオン状態とした参照情報を生成する(ステップS111H)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。
ここで、「複数話者期間」フラグ(オン状態)は、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数であることを示すフラグである。
ここで、「ざわざわ期間」フラグは、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数でないことを示すフラグである。
なお、ステップS111Gで話者が複数ではないと判断された場合(ステップS111G:No)とは、話者が一人であると判断された場合の他、ステップS111Cで話者の方向及び性別の双方を特定することができず、話者が複数であるか、または、一人であるかの判断が全くできない場合も含むものである。
全ての期間で参照情報を生成していないと判断された場合(ステップS111J:No)には、電子機器1は、ステップS111Bに戻り、第1,第2音声データにおける他の期間に相当する第1,第2データ要素を読み出し、当該他の期間の参照情報を生成する。
対象物特定部1921は、ステップS111Kにおいて、メモリ部16に記憶された各期間の参照情報のうち、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報(ステップS111HまたはステップS111Iで生成された参照情報)があるか否かを判断する。
「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合(ステップS111K:No)には、電子機器1は、ステップS111Oに移行する。
対象物特定部1921は、ステップS111Lにおいて、メモリ部16に記憶された各期間の参照情報のうち、当該参照情報の直前の期間の参照情報の「複数話者期間」フラグ及び「ざわざわ期間」フラグがオフ状態となっているか否かを判断する。すなわち、対象物特定部1921は、当該参照情報の直前の期間で話者が特定されている(話者の方向及び性別の双方を特定することができている)か否かを判断している。
直前の期間で話者が特定されていないと判断された場合(ステップS111L:No)には、電子機器1は、ステップS111Oに移行する。
続いて、参照情報生成部193は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者をステップS111Mで推定された話者とし、当該参照情報を更新する(ステップS111N)。
参照情報生成部193は、ステップS111Oにおいて、メモリ部16に記憶され、ステップS111F,S111H,S111Iで生成された各期間の参照情報(ステップS111Nで更新された場合には更新後の参照情報)を、話者表示処理の対象とした第1,第2音声データに関連付けて、記録部17に記録する。
再生画面生成部194は、ステップS111Pにおいて、記録部17に記録された第1,第2音声データのうち、話者表示処理の対象となる第1,第2音声データに関連付けられた参照情報に基づいて、話者表示再生画面を生成する。
続いて、表示制御部195は、ステップS111Pで生成された話者表示再生画面を表示部14に表示させる(ステップS111Q)。この後、電子機器1は、図2に示したメインルーチンに戻る。
次に、上述した話者表示処理(ステップS111)で生成される参照情報の具体例について説明する。
図4は、話者表示処理(ステップS111)の対象となる第1,第2音声データが生成(録音)される状況の一例を示す図である。図5は、図4の状況で生成された第1,第2音声データを対象として話者表示処理(ステップS111)を実行した場合に生成される参照情報の一例を示す図である。
具体的に、図4では、男性Mと女性L1,L2の3人がテーブルを囲んで打合せをし、当該打合せをテーブルの上に置いた電子機器1にて録音している状況を示している。ここで、電子機器1の上端から当該電子機器1の中心線を延長させた軸Axを基準とした場合に、男性Mは、軸Axに対して「右(電子機器1を正面から見て(図4中、上側から見て)右に120°」の方向に座っているものとする。また、女性L1は、軸Axに対して「右に90°」の方向に座っているものとする。さらに、女性L2は、軸Axに対して「左に10°」の方向に座っているものとする。
また、図5では、ステップS111Bで第1,第2データ要素を読み出す一期間を5秒間としている。このため、以下では、「0〜5秒」、「5〜10秒」、「10〜15秒」、「15〜20秒」、「20〜25秒」の各期間について順に説明する。
この期間では、男性Mのみが声を発したものである。すなわち、当該期間では、第2データ要素に含まれる音声(軸Axに対して右側からの音声)の音量は、第1データ要素に含まれる音声(軸Axに対して左側からの音声)の音量よりも大きくなっている。また、男性Mの声であるため、当該音声は、比較的に低い周波数となっている。このため、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランスにより、話者が「右に120°」の方向であると特定される。また、当該第1,第2データ要素に含まれる音声が比較的に低い周波数であるため、話者が「男性」であると特定される。
そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された話者(「右に120°」の方向の「男性」)と、判別された話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:10」)と、声の数(「1」)とが関連付けられた参照情報が生成される。
この期間では、男性M及び女性L1がそれぞれ声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(男性の声は周波数が比較的に低く、女性の声は周波数が比較的に高い)により、一人目の話者が「右に120°」の方向の「男性」であり、二人目の話者が「右に90°」の方向の「女性」であると特定される。
また、当該期間では、男性Mが当該期間の直前の「0〜5秒」の期間よりも大きな声を発している。このため、ステップS111Eでは、一人目の話者(「右に120°」の方向の「男性」)の音声の音量が直前の期間での当該話者の音声の音量と比較して第1閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。また、二人目の話者(「右に90°」の方向の「女性」)については、直前の「0〜5秒」の期間では当該話者が特定されていないため、ステップS111Eでは、当該話者のテンションが「通常」と判別される。
この期間では、男性M及び女性L1がそれぞれ声を発したものである。なお、図5に示す例では、ステップS111Cにおいて、一人目の話者が「男性」であり二人目の話者が「女性」であることを特定することはできたが、当該一人目の話者及び二人目の話者の各方向を特定することができなかったことを例示している。すなわち、話者の特定(話者の方向及び性別の双方の特定)はできていないが、話者が複数(二人)であることは特定されている(ステップS111G:Yes)。このため、ステップS111Hでは、当該期間の参照情報として、特定された一人目の話者(「男性」)及び二人目の話者(「女性」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:20」)と、声の数(「2」)とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報が生成される。
そして、ステップS111Nでは、ステップS111Hで生成された参照情報は、図5に示すように、一人目の話者(「右に120°」の方向の「男性」)及び当該話者のテンション(「通常」)と、二人目の話者(「右に90°」の方向の「女性」)及び当該話者のテンション(「通常」)と、タイムスタンプ(「9/15 11:21:20」)と、声の数(「2」)とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報に更新される。なお、「複数話者期間」フラグがオン状態である場合には、当該参照情報の更新時に、話者のテンションは「通常」とされる。「ざわざわ期間」フラグがオン状態である場合でも同様である。
この期間では、女性L1及び女性L2がそれぞれ声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(女性L1,L2の声の周波数の違い)により、一人目の話者が「右に90°」の方向の「女性」であり、二人目の話者が「左に10°」の方向の「女性」であると特定される。
また、当該期間では、直前の「10〜15秒」の期間で話者が特定されていないため、ステップS111Eでは、一人目の話者(「右に90°」の方向の「女性」)及び二人目の話者(「左に10°」の方向の「女性」)の各テンションが「通常」とそれぞれ判別される。
この期間では、女性L2のみが声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(女性の声は周波数が比較的に高い)により、話者が「左に10°」の方向の「女性」であると特定される。
また、当該期間では、女性L2が当該期間の直前の「15〜20秒」の期間よりも大きな声を発している。このため、ステップS111Eでは、話者(「左に10°」の方向の「女性」)の音声の音量が直前の期間での当該話者の音声の音量と比較して第1閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。
次に、上述した話者表示処理(ステップS111)で生成される話者表示再生画面の具体例について説明する。
図6は、図5に示した参照情報に基づいて生成される話者表示再生画面W100の一例を示す図である。
ステップS111Oで記録部17に記録された参照情報が図5に示す参照情報であった場合、ステップS111Pでは、図6に示す話者表示再生画面W100が生成される。
この話者表示再生画面W100は、図5に示すように、タイムバーTBと、第1〜第3識別画像I1〜I3とが配置された画面である。
第1〜第3識別画像I1〜I3は、話者及び当該話者のテンションを識別するための識別画像である。図5に示した参照情報では、話者が三人(「右に120°」の方向の「男性」、「右に90°」の方向の「女性」、及び「左に10°」の方向の「女性」の三人)であるため、話者表示再生画面W100では、3つの第1〜第3識別画像I1〜I3が配置されている。
ここで、図5に示した参照情報では、当該話者は、「男性」であると特定されている。このため、第1識別画像I1には、図6に示すように、当該「男性」であることを識別するための男性画像MFが付加されている。
また、図5に示した参照情報では、当該話者のテンションは、「5〜10秒」の期間で「ハイテンション」であると判別されている。このため、第1識別画像I1は、図6に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。すなわち、第1識別画像I1の幅は、話者のテンションの高さを示している。なお、他の識別画像についても同様である。話者のテンションの高さに応じて第1識別画像I1の幅をアナログ的に変更してもよいし、段階的に変更してもよい。また、当該幅が隣接のタイムバーTBと重ならないように制限をかけてもよい。なお、美観が損なわれなければ、当該幅が隣接のタイムバーTBと重なるような表現でもよい。この場合には、臨場感が出ることは言うまでもない。また、第1識別画像I1の幅は一定とし、付加する男性画像MFの大きさによってテンションの高さを表してもよい。
ここで、図5に示した参照情報では、当該話者は、「女性」であると特定されている。このため、第2識別画像I2には、図6に示すように、当該「女性」であることを識別するための女性画像LF1が付加されている。
また、図5に示した参照情報では、当該話者のテンションは、全て「通常」であると判別されている。このため、第2識別画像I2は、図6に示すように、全ての期間で同一の幅寸法となっている。
ここで、図5に示した参照情報は、当該話者は、二人目の話者(「右に90°」の方向の「女性」)とは異なる「女性」であると特定されている。このため、第3識別画像I3には、図6に示すように、当該「女性」であることを識別するための画像であって、女性画像LF1とは異なる女性画像LF2が付加されている。
また、図5に示した参照情報では、当該話者のテンションは、「20〜25秒」の期間で「ハイテンション」であると判別されている。このため、第3識別画像I3は、図6に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。
特に、電子機器1は、話者のテンションに応じて当該識別画像を異なるもの(図6に示した例では、話者のテンションを識別画像I1〜I3の幅の太さで表現)としている。
このため、ユーザは、当該話者表示再生画面から録音時の状況(話者のテンションがどのような状態であったか)を一目で把握することができる。したがって、本実施の形態1に係る電子機器1によれば、利便性の向上が図れるという効果を奏する。
このため、ユーザは、話者表示再生画面から、録音時の状況として、話者が誰であったか、当該話者のテンションがどのような状態であったかの双方を一目で把握することができ、利便性の向上がさらに図れる。
特に、電子機器1は、一対の第1,第2マイク111,121が設けられ、当該第1,第2マイク111,121を介して入力した各音声に基づく第1,第2音声データに基づいて、話者の方向を特定する。また、電子機器1は、当該各音声の周波数に基づいて、話者の性別を特定する。さらに、電子機器1は、当該各音声の音量に基づいて、話者のテンションを判別する。このため、簡単な解析処理により、話者の特定(話者の方向及び性別の特定)及び話者のテンションの判別を実行することができる。
このため、話者を特定することができなかった場合であっても、各期間で継続して声を発しているものと推測し、当該話者を尤もらしい話者と推定することができる。
上述した実施の形態1では、電子機器1が再生モードに設定されている場合(ステップS111)に、第1,第2音声データの解析及び参照情報の生成を行っていたが、これに限られない。
例えば、第1,第2音声データの解析及び参照情報の生成(ステップS111B〜S111N)の少なくとも一部を、第1,第2音声データの生成時(ステップS103〜S105)に並行して行っても構わない。
上述した実施の形態1で説明した電子機器1の代わりに、撮像機能を付加した電子機器1Aを採用しても構わない。
具体的に、電子機器1Aは、図7に示すように、上述した実施の形態1で説明した電子機器1に対して、撮像部10が追加されているとともに、機器側制御部19の代わりに当該機器側制御部19に対して撮像制御部197を追加した機器側制御部19Aが採用されている。
撮像部10は、撮像制御部197による制御の下、被写体を撮像して画像データを生成する。この撮像部10は、被写体像を結像する光学系(図示略)、当該光学系が結像した被写体像を受光して電気信号に変換するCCD(Charge Coupled Device)等の撮像素子、当該撮像素子からの電気信号(アナログ信号)に対して信号処理(A/D変換等)を行うことによりデジタルの画像データを生成する信号処理部等を用いて構成される。そして、撮像部10にて生成された画像データは、撮像制御部197による制御の下、時計部15にて生成されたタイムスタンプ(当該画像データが生成された日時に関するタイムスタンプ)が付加されて、記録部17に記録される。
撮像制御部197は、ユーザによる操作部13への撮影操作に応じて、撮像部10に被写体を撮像させ、当該撮像部10にて生成された画像データ(タイムスタンプを含む)を記録部17に記録する。
以上のように、電子機器1Aに撮像機能を持たせ、例えば、図4に示す打合せの状況や、男性M、女性L1,L2をそれぞれ撮像しておけば、例えば、図6に示した話者表示再生画面W100において、図4に示す打合せの状況を撮像した画像や、男性画像MF及び女性画像LF1,LF2の代わりに男性M、女性L1,L2を撮像した画像を配置することが可能となる。
次に、本発明の実施の形態2について説明する。
以下の説明では、上述した実施の形態1と同様の構成及びステップには同一符号を付し、その詳細な説明は省略または簡略化する。
図8は、本発明の実施の形態2に係る音声処理システム100の構成を示すブロック図である。
本実施の形態2に係る音声処理システム100は、図8に示すように、上述した実施の形態1で説明した電子機器1の「音声データを解析し参照情報を生成する」機能をサーバ2に持たせ、音声データの生成及び再生を行う電子機器1Bと当該サーバ2との間でインターネット網Nを介して通信を行うシステムである。
以下、本実施の形態2に係る音声処理システム100を構成する電子機器1B及びサーバ2の構成について順に説明する。
本実施の形態2に係る電子機器1Bは、図8に示すように、上述した実施の形態1で説明した電子機器1(図1)に対して、機器側通信部20が追加されているとともに、機器側制御部19の一部の機能が変更されている。
機器側通信部20は、機器側制御部19Bによる制御の下、サーバ2との間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。
機器側通信制御部198は、話者表示処理の実行時に、以下の処理を実行する。
具体的に、機器側通信制御部198は、記録部17に記録されたサーバ2の所在位置情報(URL(Uniform Resource Locator))に基づいて、機器側通信部20を介して、インターネット網Nに接続されたサーバ2にアクセス信号(参照画像の送信要求(自身の電子機器1Bを識別する識別情報を含む))を送信し、サーバ2との間で通信接続を確立する。そして、機器側通信制御部198は、話者表示処理の対象となる第1,第2音声データ(タイムスタンプを含む)をサーバ2に送信するとともに、参照情報をサーバ2から受信する。
サーバ2は、電子機器1Bからの参照画像の送信要求とともに送信された第1,第2音声データを解析して参照情報を生成し、当該参照情報を電子機器1Bに送信する。
以下では、サーバ2の構成として、本発明の要部を主に説明する。
サーバ2は、図8に示すように、サーバ側通信部21と、音声データベース22と、サーバ側制御部23とを備える。
音声データベース22は、サーバ側制御部23による制御の下、サーバ側通信部21を介して電子機器1Bから受信した第1,第2音声データ(タイムスタンプを含む)を記録する。また、音声データベース22は、サーバ側制御部23による制御の下、参照情報を当該参照情報の生成に用いられた第1,第2音声データに関連付けて記録する。
サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して電子機器1Bから送信されるアクセス信号(参照情報の送信要求(当該電子機器1Bの識別情報を含む))に応じて、サーバ側通信部21の動作を制御し、電子機器1Bとの間で通信接続を確立する。そして、サーバ側通信制御部231は、電子機器1Bから、音声データベース233に記録させる第1,第2音声データ(タイムスタンプを含む)を受信するとともに、参照情報生成部235にて生成された参照情報を当該電子機器1Bに送信する。
そして、サーバ側通信制御部231は、本発明に係る音声データ取得部としての機能を有する。
音声データ記録制御部233は、サーバ側通信部21を介して電子機器1Bから受信した第1,第2音声データ(タイムスタンプを含む)を音声データベース22に記録する。
参照情報生成部235は、上述した実施の形態1で説明した参照情報生成部193と同様の機能を有し、音声データ解析部234の解析結果に基づいて、参照情報を生成する。そして、参照情報生成部235は、当該参照情報を当該参照情報の生成に用いた第1,第2音声データに関連付けて音声データベース22に記録する。
そして、サーバ側通信制御部231、音声データ解析部234、及び参照情報生成部235は、本発明に係る音声処理装置としての機能を有する。
次に、上述した音声処理システム100の動作について説明する。
以下、音声処理システム100の動作として、電子機器1Bの動作、及びサーバ2の動作を順に説明する。
なお、電子機器1Bの動作については、上述した実施の形態1で説明した電子機器1Bの動作(図2,図3)に対して、話者表示処理(ステップS111)が異なるのみである。このため、以下では、本実施の形態2に係る話者表示処理(ステップS111)のみを説明する。
図9は、本発明の実施の形態2に係る話者表示処理(ステップS111)を示すフローチャートである。
本実施の形態2に係る話者表示処理は、図9に示すように、上述した実施の形態1で説明した話者表示処理(図3)に対して、ステップS111A〜S111Oを省略し、ステップS111R,S111Sを追加した点が異なるのみである。このため、以下では、ステップS111R,S111Sのみを説明する。
具体的に、機器側通信制御部198は、機器側通信部20を介して、インターネット網Nに接続されたサーバ2にアクセス信号(参照画像の送信要求(自身の電子機器1Bの識別情報を含む))を送信し、サーバ2との間で通信接続を確立する。そして、機器側通信制御部198は、話者表示処理の対象となる第1,第2音声データ(ステップS109で選択された第1,第2音声データ(タイムスタンプを含む))をサーバ2に送信する。
そして、電子機器1Bは、メモリ部16に記憶した参照情報に基づいて、話者表示再生画面を生成し(ステップS111P)、当該話者表示再生画面を表示部14に表示する(ステップS111Q)。
図10は、サーバ2の動作を示すフローチャートである。
サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、電子機器1Bからアクセス信号(参照画像の送信要求(当該電子機器1Bの識別情報を含む))を受信したか否かを判断する(ステップS201)。
参照画像の送信要求を受信していないと判断された場合(ステップS201:No)には、サーバ3は、ステップS210に移行する。
一方、参照画像の送信要求を受信したと判断された場合(ステップS201:Yes)には、端末判定部232は、当該送信要求に基づいて、アクセスしてきた送信元の電子機器1Bを特定する(ステップS202)。
参照情報を生成済みであると判断された場合(ステップS204:No)には、サーバ2は、ステップS219に移行する。
一方、参照情報を未だ生成していないと判断された場合(ステップS204:Yes)には、サーバ2は、上述した実施の形態1で説明したステップS111B〜S111Nと同様に、ステップS203で受信した第1,第2音声データの解析、及び参照情報の生成を実行する(ステップS205〜S217)。
すなわち、ステップS208は、本発明に係る音声データ解析ステップに相当する。また、ステップS209は、本発明に係る参照情報生成ステップに相当する。
ステップS218の後、または、ステップS204で参照情報を生成済みであると判断された場合(ステップS204:No)には、サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、ステップS203で受信した第1,第2音声データに対しステップS218で関連付けて記録された参照情報を、ステップS202で特定された電子機器1Bに送信する(ステップS219)。この後、サーバ2は、ステップS201に戻る。
ここまで、本発明を実施するための形態を説明してきたが、本発明は上述した実施の形態1,2によってのみ限定されるべきものではない。
図11A〜図11Cは、上述した実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。
上述した実施の形態1,2で例示した話者表示再生画面W100では、第1〜第3識別画像I1〜I3は、話者のテンションを幅の太さで表現していたが、これに限られず、例えば、図11A〜図11Cに示す話者表示再生画面W101〜W103のように表現しても構わない。
具体的に、図11Aに示す話者表示再生画面W101では、第1〜第3識別画像I1〜I3は、話者のテンションの変化を波形で表現している。すなわち、図11Aに示す話者表示再生画面W101において、縦方向はテンションの高さを示している。
また、図11Bに示す話者表示再生画面W102は、図11Aに示した話者表示再生画面W101を3D表示したものである。
さらに、図11Cに示す話者表示再生画面W103では、第1〜第3識別画像I1〜I3は、話者のテンションを画素値で表現している。すなわち、図11Cに示す話者表示再生画面W101において、画素値の高い部分(明るい部分)は、テンションが高い時間を示している。ここで、話者のテンションは感情的な高ぶりを示すものであるが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。このような声の特徴(の変化)によって、例えば、状況を判定するための検索を行うことも可能である。
上述した実施の形態1,2において、参照情報は、上述した実施の形態1,2で説明した参照情報(例えば、図5)に限られず、例えば、図12に示す参照情報を採用しても構わない。
例えば、上述した実施の形態1において、記録部17に特定のキーワードを予め記録しておく。なお、図12では、説明の便宜上、当該特定のキーワードを1つのみとしているが、複数としても構わない。また、音声データ解析部192は、第1,第2データ要素を解析し、当該第1,第2データ要素に記録部17に記録された特定のキーワードが含まれているか否かを判定する。そして、参照情報生成部193は、音声データ解析部192にて特定のキーワードが含まれていると判定された場合に、該当期間(図12の例では、「5〜10秒」の期間)の参照情報として、「キーワード」フラグをオン状態とした参照情報を生成する。なお、上述した実施の形態2では、サーバ2に上述した処理を実行させ、図12に示す参照情報を生成させればよい。
例えば、上述した実施の形態1,2において、電子機器1やサーバ2が図12に示した参照情報を生成した場合には、電子機器1,1Bは、例えば、図13に示す話者表示再生画面W104を生成する。
具体的に、図13に示す話者表示再生画面W104は、図6に示した話者表示再生画面W100に対して、キーワード入力部KWが追加されている。
キーワード入力部KWは、ユーザによる操作部13への操作によって、キーワードが入力される部分である。
そして、再生画面生成部194は、記録部17に記録された特定のキーワードと同一のキーワードがユーザによる操作部13への操作によって入力された場合には、当該入力の前(図13(a))と当該入力の後(図13(b))とで、話者表示再生画面W104を以下に示すように変化させる。
すなわち、再生画面生成部194は、図12に示した参照情報を参照し、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像(図12及び図13(b)の例では、第2識別画像I2)の輝度を向上させた話者表示再生画面W104(図13(b))を生成する。
なお、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像の表示態様を従前の当該識別画像の表示態様と異なるものとすれば、上述した輝度の向上に限られず、その他の方法を採用しても構わない。
さらに、本明細書においてフローチャートを用いて説明した処理のアルゴリズムは、プログラムとして記述することが可能である。このようなプログラムは、コンピュータ内部の記録部に記録してもよいし、コンピュータ読み取り可能な記録媒体に記録してもよい。プログラムの記録部または記録媒体への記録は、コンピュータまたは記録媒体を製品として出荷する際に行ってもよいし、通信ネットワークを介したダウンロードにより行ってもよい。
Claims (10)
- 音声データを取得する音声データ取得部と、
前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、
前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え、
前記音声データ解析部は、
前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定する
ことを特徴とする音声処理装置。 - 前記音声データ解析部は、
前記音声データを解析して、前記音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、前記テンションの高い成分の有無を判別する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記音声データ解析部は、
話者の感情的な高ぶり、複数の人物の声の相対的な大きさの関係、話者が語る言葉のペースの一定度、話者のスピード、音声の音量、音声の周波数、音声の音素成分の時間密度、または特定の音声成分、に基づいて、前記テンションの高い成分を検出して、話者のテンションを判定する
ことを特徴とする請求項1または2に記載の音声処理装置。 - 前記参照情報生成部によって生成された参照情報に基づいて、前記時間に関連付けられたテンションを識別するための識別画像を配置した話者表示再生画面を生成する再生画面生成部を更に有する
ことを特徴とする請求項1〜3のいずれか一つに記載の音声処理装置。 - 前記再生画面生成部は、
前記テンションを識別するための識別画像に、話者を識別するために表示するアイコンを生成する
ことを特徴とする請求項4に記載の音声処理装置。 - 前記識別画像は、
前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間が他の期間よりも幅が大きく表示されるデータとして生成される
ことを特徴とする請求項5に記載の音声処理装置。 - 前記識別画像は、
前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間がアナログ的に段階的に他の期間よりも幅が大きく表示されるデータとして生成される
ことを特徴とする請求項5に記載の音声処理装置。 - キーワードの入力操作を受け付ける操作受付部を備え、
前記再生画面生成部は、
前記テンションの高い成分に基づく特定の音声が前記操作受付部にて受け付けた前記キーワードに一致した場合に、当該テンションの高い成分を識別するための前記識別画像を従前の識別画像とは異なる表示態様とする
ことを特徴とする請求項4または5に記載の音声処理装置。 - 音声処理装置が行う音声処理方法において、
音声データを取得する音声データ取得ステップと、
前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、
前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、
前記音声データ解析ステップでは、
前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定する
ことを特徴とする音声処理方法。 - 請求項9に記載の音声処理方法を音声処理装置に実行させる
ことを特徴とする音声処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014163742A JP6392578B2 (ja) | 2014-08-11 | 2014-08-11 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014163742A JP6392578B2 (ja) | 2014-08-11 | 2014-08-11 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016038546A JP2016038546A (ja) | 2016-03-22 |
JP2016038546A5 JP2016038546A5 (ja) | 2017-07-06 |
JP6392578B2 true JP6392578B2 (ja) | 2018-09-19 |
Family
ID=55529639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014163742A Active JP6392578B2 (ja) | 2014-08-11 | 2014-08-11 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6392578B2 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266632A (ja) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | 電子会議システムの情報処理方法及び同装置 |
JP3676969B2 (ja) * | 2000-09-13 | 2005-07-27 | 株式会社エイ・ジー・アイ | 感情検出方法及び感情検出装置ならびに記録媒体 |
JP4610543B2 (ja) * | 2006-11-02 | 2011-01-12 | 日本電信電話株式会社 | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 |
JP4812733B2 (ja) * | 2007-11-01 | 2011-11-09 | 日本電信電話株式会社 | 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 |
JP2010054991A (ja) * | 2008-08-29 | 2010-03-11 | Yamaha Corp | 録音装置 |
EP2343668B1 (en) * | 2010-01-08 | 2017-10-04 | Deutsche Telekom AG | A method and system of processing annotated multimedia documents using granular and hierarchical permissions |
JP2011221627A (ja) * | 2010-04-06 | 2011-11-04 | Seiko Epson Corp | 接客支援装置、接客支援方法およびプログラム |
JP2013222347A (ja) * | 2012-04-17 | 2013-10-28 | Canon Inc | 議事録生成装置及び議事録生成方法 |
-
2014
- 2014-08-11 JP JP2014163742A patent/JP6392578B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016038546A (ja) | 2016-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634483B (zh) | 人机交互方法、装置、电子设备及存储介质 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US10409547B2 (en) | Apparatus for recording audio information and method for controlling same | |
CN106464939A (zh) | 播放音效的方法及装置 | |
KR20160127165A (ko) | 디지털 어시스턴트를 위한 음성 트리거 | |
JP6585733B2 (ja) | 情報処理装置 | |
US10089980B2 (en) | Sound reproduction method, speech dialogue device, and recording medium | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2017141530A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP2503545A1 (en) | Arrangement and method relating to audio recognition | |
JP6678315B2 (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
JP2014149571A (ja) | コンテンツ検索装置 | |
WO2021153101A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP4772315B2 (ja) | 情報変換装置及び情報変換方法、並びに通信装置及び通信方法 | |
JP6392578B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
CN112235183B (zh) | 通信消息处理方法、设备及即时通信客户端 | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
JP2019071515A (ja) | 通信装置、通信システムおよびプログラム | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
CN111179943A (zh) | 一种对话辅助设备及获取信息的方法 | |
KR101562901B1 (ko) | 대화 지원 서비스 제공 시스템 및 방법 | |
CN113066513B (zh) | 语音数据处理方法、装置、电子设备及存储介质 | |
JP7271821B2 (ja) | クラウド音声変換システム | |
CN111696565B (zh) | 语音处理方法、装置和介质 | |
CN111696564B (zh) | 语音处理方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170522 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170522 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180731 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180823 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6392578 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |