JP6751536B2 - 装置、ロボット、方法、及びプログラム - Google Patents
装置、ロボット、方法、及びプログラム Download PDFInfo
- Publication number
- JP6751536B2 JP6751536B2 JP2017044325A JP2017044325A JP6751536B2 JP 6751536 B2 JP6751536 B2 JP 6751536B2 JP 2017044325 A JP2017044325 A JP 2017044325A JP 2017044325 A JP2017044325 A JP 2017044325A JP 6751536 B2 JP6751536 B2 JP 6751536B2
- Authority
- JP
- Japan
- Prior art keywords
- adult
- child
- display
- voice
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 257
- 230000008569 process Effects 0.000 claims description 222
- 238000012545 processing Methods 0.000 claims description 77
- 230000008921 facial expression Effects 0.000 claims description 54
- 239000000284 extract Substances 0.000 claims description 21
- 230000008909 emotion recognition Effects 0.000 description 43
- 230000008859 change Effects 0.000 description 40
- 230000006399 behavior Effects 0.000 description 27
- 230000004044 response Effects 0.000 description 24
- 230000005484 gravity Effects 0.000 description 21
- 230000033001 locomotion Effects 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 15
- 230000001815 facial effect Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 12
- 230000009471 action Effects 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 10
- 230000008451 emotion Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 241001446467 Mama Species 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000254158 Lampyridae Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001914 calming effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010415 tidying Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
- B25J11/0015—Face robots, animated artificial faces for imitating human expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
- B25J11/001—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Robotics (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mechanical Engineering (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Toys (AREA)
- Manipulator (AREA)
Description
音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含むものである。
ロボット技術の進化と共に、近年のロボットの普及は目覚しく、商業施設をはじめ家庭へもロボットの普及が進みつつある。家庭へ導入するロボットの場合、家庭には親子をはじめとする複数のユーザが共存しており、さまざまな生活シーンが存在する。このような生活シーンにあわないロボットの振る舞いは、時には育児の邪魔になり、利用し難いものとなる。
音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含むものである。
前記第2判断部は、前記大人が怒っていると一旦判断された後の第1期間における前記映像データに基づいて、前記大人が怒り及び悲しみ以外の表情をしていると判断する場合は、前記大人は叱っていると判断してもよい。
前記第2判断部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれていると判断された場合は、前記子供を、前記大人が叱っているまたは怒っている対象者であると更に判断し、
前記装置が前記カメラを備えている場合、
前記映像データに含まれる人物が前記子供であるか否かを、前記メモリに記憶された前記子供に対応する映像データに基づいて判断する第3判断部と、
前記大人が前記子供に対して叱っていると判断された場合、且つ、前記映像データに含まれる人物が前記子供であると判断された場合は、前記映像データに基づいて、前記大人の発話が認識された後の第2期間において前記子供の体勢が変化したか判断し、前記子供の体勢が変化していないと判断された場合は、前記映像データに基づいて、前記第2期間において前記子供が手にオブジェクトを持ち続けているか判断する第4判断部と、を更に備え、
前記第2期間において、前記子供の体勢が変化していないと判断された場合、または、前記子供が手に前記オブジェクトを持ち続けていると判断された場合は、前記制御部は、前記装置に対して第2処理をさせ、
前記装置が前記スピーカーを備えている場合は、
前記第2処理は、(i)前記スピーカーに第2音を出力させる処理、(ii)前記装置に第2動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
(i)前記装置に第2動作をさせる処理、(ii)前記ディスプレイに第2表示をさせる処理、のいずれかを含んでもよい。
前記表示は前記装置の所定の表情に対応してもよい。
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断ステップと、
前記装置が前記スピーカーを備えている場合は、
前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含んでもよい。
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が所定回数以上前記大人の発話に含まれるか判断する音声認識部と、前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれると判断された場合、前記大人が怒っていると判断し、前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれないと判断され場合、前記大人が叱っていると判断する、第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含んでもよい。
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が所定回数以上前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれると判断された場合、前記大人が怒っていると判断し、前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれないと判断され場合、前記大人が叱っていると判断する、第2判断ステップと、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御ステップとを備え、
前記装置が前記スピーカーを備えている場合は、
前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含むものである。
以下、本発明の各実施の形態について、図面を参照しながら説明する。なお、各図面において、同じ構成要素については同じ符号が用いられている。
図1は、実施の形態1における装置1の全体構成の一例を示す図である。装置1は、ロボットで構成されてもよいし、ボタン式の携帯端末、スマートフォン、又はタブレット端末等の端末を含むシステムで構成されてもよい。図1における装置1は、音声入力部11(マイクの一例)、状況判断装置12、音声合成部13(制御部の一例)、音制御部14(制御部の一例)、音出力部15(スピーカーの一例)、駆動制御部16(制御部の一例)、表示制御部17(制御部の一例)、映像入力部18(カメラの一例)、及び表示部19(ディスプレイの一例)を備える。
処理(a)は、音出力部15から応答文の音声や設定音を出力させる処理である。処理(a)では、処理決定部134は、怒っている大人が子供の母親であれば、母親に怒っていることを通知する「ママ、怒っているの?」という応答文や、母親に怒りを解放するように促す「ママ、にっこりー」というような応答文を生成し、音声合成部13に出力する。出力された応答文は、音声合成部13により音声データへ変換され、音出力部15から装置1の外部に出力される。ここで、処理決定部134は、メモリ121に事前に記憶された各ユーザの声紋と、大人が発話した音声の声紋とを比較することで、怒っている人物が母親や父親等のいずれの人物に該当するかを判断すればよい。なお、怒っている大人が父親であれば、上記の応答文の「ママ」は「パパ」や「お父さん」に変更されればよい。また、上記の応答文の「ママ」は、発話した大人の名前に変更されてもよい。
処理(b)は、怒っていることを大人に知らせるための動作を装置1にさせる処理である。処理(b)では、処理決定部134は、表示部19を発話者である大人へ向かうように装置1を旋回させる制御コマンドを駆動制御部16へ出力すればよい。この場合、制御コマンドを受信した駆動制御部16は、例えば、制御コマンドが規定する旋回量だけ装置1を旋回させることで、表示部19が発話者である大人に向かうように装置1を駆動させればよい。
処理(c)は、怒っていることを大人に気づかせるための表示を表示部19に行う処理である。ここで、表示としては、目と口とを含む装置1の表情をシンボリックに表す表示において、装置1の表情を所定の表情にする表示が採用できる。
実施の形態2は、映像入力部18が取得した画像データを用いて、保育者である大人が子供を注意している際の状況をより詳細に判断するものである。図5は、実施の形態2における装置1Aの全体構成の一例を示す図である。なお、以下の説明では、実施の形態1と同一の構成については同一の符号を付けて説明を省略する。
処理(d)は、音出力部15から、叱られた行為を子供に中止させるための応答文の音声や設定音を出力させる処理である。処理(d)では、処理決定部134Aは、子供に叱られた行動を中止させるための応答文を生成し、音声合成部13に出力する。応答文としては、子供に現在何をしているかを尋ねる「何をしているの?」という応答文が採用できる。或いは、応答文としては、現在行っている行為をやめるように子供に促す「あと一回で終わりにしようか」という応答文や「続きはまた今度」という応答文が採用できる。出力された応答文は、音声合成部13により音声データへ変換され、音出力部15から装置1Aの外部に出力される。
処理(e)は、叱られた行為を子供に中止させるための動作を装置1Aにさせる処理である。処理(e)では、処理決定部134Aは、表示部19を注意対象者である子供へ向けるように装置1Aを旋回させる制御コマンドを駆動制御部16へ出力すればよい。この場合、制御コマンドを受信した駆動制御部16は、例えば、制御コマンドが規定する旋回量だけ装置1Aを旋回させることで、表示部19が注意対象者である子供に向かうように装置1Aを駆動させればよい。
処理(f)は、叱られている行為を子供に中止させるための表示を表示部19に行う処理である。ここで、表示としては、目と口とを含む装置1Aの表情をシンボリックに表す表示において、装置1Aの表情を所定の表情にする表示が採用できる。
図10は、実施の形態3におけるロボット1001の一例を示す外観図である。実施の形態3は、実施の形態2に係る装置1Aをロボット1001に適用したものである。なお、本実施の形態において、実施の形態1,2と同一の構成要素には同一の符号を付し説明を省略する。
本開示では、子供に注意するユーザ又は注意されるユーザを事前に設定する態様が採用されてもよい。この態様では、事前に設定されたユーザが注意をしていることを検出した場合、そのユーザが叱っているのか怒っているのかを判断し、怒っているのであれば、第1処理を実行すればよい。また、この態様では、事前に設定されたユーザが叱られていることが検出された場合、第2処理が実行されればよい。
前述の実施の形態においては、大人が怒っていると判断された場合、大人へ第1処理を行う態様が採用されたが、本開示はこれに限定されない。例えば、怒っている大人の顔を撮影してメモリに保存しておき(以下、処理(g)と呼ぶ。)、後で怒った大人が、スマートフォンなどの外部端末を用いて、怒ったときの表情を閲覧できるようにしてもよい。この態様によれば、大人は、普段自分ではみることができない、自身が子供を怒っているときの表情を客観的に確認することができる。
前述の実施の形態において、大人が怒っていると判断された場合、または、叱っていると判断された場合、それぞれの判断時の日時と注意した人物と、注意された人物と、怒り或いは叱りの判断結果等をメモリに記録する態様が採用されてもよい。この場合、メモリに記録された情報は、子供の成長記録として活用できる。
図1、図5において、装置1は、音出力部15、表示部19、及び映像入力部18を備えているが、これらのうちの少なくとも1つを備えていればよい。
1,1A 装置
11 音声入力部
12,12A 状況判断装置
13 音声合成部
14 音制御部
15 音出力部
16 駆動制御部
17 表示制御部
18 映像入力部
19 表示部
121 メモリ
122,122A,122B 主制御部
131 話者判断部
132,132A 音声認識部
133,133A 感情認識部
134,134A 処理決定部
141 注意語辞書
501 人物推定部
502 位置情報記録部
503 状態変化判断部
1001 ロボット
1002 メイン筐体
1003 球冠部
1004 カメラ
1005 マイク
1006 スピーカー
1007 表示部
1008 駆動部
1009 センサ
1101 筐体状態判断部
1102 UX制御部
1103 状況判断部
Claims (23)
- 音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含む、
装置。 - 前記第1音は、所定のアラーム音を含む、
請求項1記載の装置。 - 前記第1音は、前記大人が怒っていることを前記大人に通知する音声を含む、
請求項1記載の装置。 - 前記第1音は、前記大人に怒りを解放するよう促す音声を含む、
請求項1記載の装置。 - 前記第1動作は、前記ディスプレイを前記大人に対向させる動作を含む、
請求項1記載の装置。 - 前記第1動作は、前記装置が前記大人に向かう動作を含む、
請求項1記載の装置。 - 前記第1動作は、前記装置が左右に揺れる動作を含む、
請求項1記載の装置。 - 前記第1表示は、前記装置の目と口とをシンボリックに表す表示を含み、
前記表示は前記装置の所定の表情に対応する、
請求項1記載の装置。 - 前記所定の表情は、悲しみの表情、驚きの表情、困惑の表情、怒りの表情のいずれかを含む、
請求項8記載の装置。 - 前記第2判断部は、前記大人の発話の物理的特徴量が複数回閾値を超える場合に、前記大人が怒っていると判断する、
請求項1記載の装置。 - 前記物理的特徴量は、前記音声の周波数、前記音声のパワー、前記発話の速度、前記発話の時間、のいずれかを含む、
請求項10記載の装置。 - 前記装置が前記カメラを備えている場合、
前記第2判断部は、前記大人が怒っていると一旦判断された後の第1期間における前記映像データに基づいて、前記大人が怒り及び悲しみ以外の表情をしていると判断する場合は、前記大人は叱っていると判断する、
請求項1記載の装置。 - 前記音声認識部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれているか否かを、前記メモリに記憶された前記子供の名前を示すデータに基づいて判断し、
前記第2判断部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれていると判断された場合は、前記子供を、前記大人が叱っているまたは怒っている対象者であると更に判断し、
前記装置が前記カメラを備えている場合、
前記映像データに含まれる人物が前記子供であるか否かを、前記メモリに記憶された前記子供に対応する映像データに基づいて判断する第3判断部と、
前記大人が前記子供に対して叱っていると判断された場合、且つ、前記映像データに含まれる人物が前記子供であると判断された場合は、前記映像データに基づいて、前記大人の発話が認識された後の第2期間において前記子供の体勢が変化したか判断し、前記子供の体勢が変化していないと判断された場合は、前記映像データに基づいて、前記第2期間において前記子供が手にオブジェクトを持ち続けているか判断する第4判断部と、を更に備え、
前記第2期間において、前記子供の体勢が変化していないと判断された場合、または、前記子供が手に前記オブジェクトを持ち続けていると判断された場合は、前記制御部は、前記装置に対して第2処理をさせ、
前記装置が前記スピーカーを備えている場合は、
前記第2処理は、(i)前記スピーカーに第2音を出力させる処理、(ii)前記装置に第2動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第2処理は、(i)前記装置に第2動作をさせる処理、(ii)前記ディスプレイに第2表示をさせる処理、のいずれかを含む、
請求項1記載の装置。 - 前記第2音は、所定のアラーム音を含む、
請求項13記載の装置。 - 前記第2音は、所定の音楽を含む、
請求項13記載の装置。 - 前記第2音は、前記子供に対して、前記子供が現在行っている行為をやめるように促す音声を含む、
請求項13記載の装置。 - 前記第2音は、前記子供に対して、現在何をしているのか尋ねる音声を含む、
請求項13記載の装置。 - 前記第2動作は、前記ディスプレイを前記子供に対向させる動作を含む、
請求項13記載の装置。 - 前記第2動作は、前記装置が前記子供に向かう動作である、
請求項13記載の装置。 - 前記第2表示は、前記装置の目と口とをシンボリックに表す表示を含み、
前記表示は前記装置の所定の表情に対応する、
請求項13記載の装置。 - 請求項1記載の装置を備えるロボット。
- メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断ステップと、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御ステップとを備え、
前記装置が前記スピーカーを備えている場合は、
前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含む、
方法。 - 請求項22に記載の方法をコンピュータに実行させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017044325A JP6751536B2 (ja) | 2017-03-08 | 2017-03-08 | 装置、ロボット、方法、及びプログラム |
US15/899,372 US10702991B2 (en) | 2017-03-08 | 2018-02-20 | Apparatus, robot, method and recording medium having program recorded thereon |
EP18158731.2A EP3373301A1 (en) | 2017-03-08 | 2018-02-27 | Apparatus, robot, method and recording medium having program recorded thereon |
CN201810170121.9A CN108573695B (zh) | 2017-03-08 | 2018-03-01 | 语音处理装置及其方法、机器人及计算机可读取记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017044325A JP6751536B2 (ja) | 2017-03-08 | 2017-03-08 | 装置、ロボット、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146898A JP2018146898A (ja) | 2018-09-20 |
JP6751536B2 true JP6751536B2 (ja) | 2020-09-09 |
Family
ID=61526555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017044325A Active JP6751536B2 (ja) | 2017-03-08 | 2017-03-08 | 装置、ロボット、方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10702991B2 (ja) |
EP (1) | EP3373301A1 (ja) |
JP (1) | JP6751536B2 (ja) |
CN (1) | CN108573695B (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6751536B2 (ja) * | 2017-03-08 | 2020-09-09 | パナソニック株式会社 | 装置、ロボット、方法、及びプログラム |
CN107015781B (zh) * | 2017-03-28 | 2021-02-19 | 联想(北京)有限公司 | 语音识别方法和系统 |
CN109421044A (zh) * | 2017-08-28 | 2019-03-05 | 富泰华工业(深圳)有限公司 | 智能机器人 |
US10621983B2 (en) | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
EP3832019B1 (en) | 2018-08-03 | 2023-08-30 | Sumitomo (S.H.I.) Construction Machinery Co., Ltd. | Asphalt finisher and asphalt finisher monitoring system |
JP6992725B2 (ja) * | 2018-10-22 | 2022-01-13 | 日本電信電話株式会社 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
CN111199732B (zh) * | 2018-11-16 | 2022-11-15 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
JP7370531B2 (ja) * | 2019-02-26 | 2023-10-30 | 株式会社日立製作所 | 応答装置および応答方法 |
KR20210020312A (ko) * | 2019-08-14 | 2021-02-24 | 엘지전자 주식회사 | 로봇 및 그의 제어 방법 |
JP2021097765A (ja) * | 2019-12-20 | 2021-07-01 | 株式会社東海理化電機製作所 | 制御装置およびプログラム |
JP7287301B2 (ja) * | 2020-02-06 | 2023-06-06 | トヨタ自動車株式会社 | 死角情報取得装置、死角情報取得方法、車両及びプログラム |
US11170800B2 (en) * | 2020-02-27 | 2021-11-09 | Microsoft Technology Licensing, Llc | Adjusting user experience for multiuser sessions based on vocal-characteristic models |
US20240127796A1 (en) * | 2021-02-18 | 2024-04-18 | Nippon Telegraph And Telephone Corporation | Learning apparatus, estimation apparatus, methods and programs for the same |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4914295B1 (ja) | 1969-01-27 | 1974-04-06 | ||
US6480826B2 (en) * | 1999-08-31 | 2002-11-12 | Accenture Llp | System and method for a telephonic emotion detection that provides operator feedback |
JP2001188555A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
US6721704B1 (en) * | 2001-08-28 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Telephone conversation quality enhancer using emotional conversational analysis |
JP4015424B2 (ja) | 2002-01-09 | 2007-11-28 | アルゼ株式会社 | 音声ロボットシステム |
JP4169712B2 (ja) * | 2004-03-03 | 2008-10-22 | 久徳 伊藤 | 会話支援システム |
JP2005283647A (ja) | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 感情認識装置 |
JP2005352154A (ja) * | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | 感情状態反応動作装置 |
JP2006123136A (ja) | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | コミュニケーションロボット |
WO2009031486A1 (ja) * | 2007-09-06 | 2009-03-12 | Olympus Corporation | ロボット制御システム、ロボット、プログラム及び情報記憶媒体 |
JP2009131928A (ja) | 2007-11-30 | 2009-06-18 | Olympus Corp | ロボット制御システム、ロボット、プログラム及び情報記憶媒体 |
JP2009104020A (ja) * | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
WO2012120959A1 (ja) * | 2011-03-04 | 2012-09-13 | 株式会社ニコン | 電子機器、処理システム及び処理プログラム |
US8837687B2 (en) * | 2011-07-14 | 2014-09-16 | Intellisist, Inc. | Computer-implemented system and method for matching agents with callers in an automated call center environment based on user traits |
US8903176B2 (en) * | 2011-11-14 | 2014-12-02 | Sensory Logic, Inc. | Systems and methods using observed emotional data |
JP5727980B2 (ja) * | 2012-09-28 | 2015-06-03 | 株式会社東芝 | 表現変換装置、方法およびプログラム |
US8972313B2 (en) * | 2012-10-01 | 2015-03-03 | Korea Institute Of Industrial Technology | Apparatus and method for learning emotion of robot |
US9846843B2 (en) * | 2013-10-30 | 2017-12-19 | Georgia Tech Research Corporation | Methods and systems for facilitating interactions between a robot and user |
US20150298315A1 (en) * | 2013-11-21 | 2015-10-22 | Origami Robotics, Inc. | Methods and systems to facilitate child development through therapeutic robotics |
CN103679203B (zh) * | 2013-12-18 | 2015-06-17 | 江苏久祥汽车电器集团有限公司 | 机器人的人脸检测与情感识别系统及方法 |
KR20150123579A (ko) * | 2014-04-25 | 2015-11-04 | 삼성전자주식회사 | 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치 |
US10068588B2 (en) * | 2014-07-21 | 2018-09-04 | Microsoft Technology Licensing, Llc | Real-time emotion recognition from audio signals |
CN105615902A (zh) * | 2014-11-06 | 2016-06-01 | 北京三星通信技术研究有限公司 | 情绪监控方法和装置 |
CN104538043A (zh) * | 2015-01-16 | 2015-04-22 | 北京邮电大学 | 一种通话中实时情感提示装置 |
CN104616666B (zh) * | 2015-03-03 | 2018-05-25 | 广东小天才科技有限公司 | 一种基于语音分析改善对话沟通效果的方法及装置 |
WO2016169594A1 (en) * | 2015-04-22 | 2016-10-27 | Longsand Limited | Web technology responsive to mixtures of emotions |
US10811005B2 (en) * | 2015-06-19 | 2020-10-20 | Lenovo (Singapore) Pte. Ltd. | Adapting voice input processing based on voice input characteristics |
CN104951077A (zh) * | 2015-06-24 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法、装置和终端设备 |
CN105244023A (zh) * | 2015-11-09 | 2016-01-13 | 上海语知义信息技术有限公司 | 课堂教学中教师情绪的提醒系统及方法 |
CN106910513A (zh) * | 2015-12-22 | 2017-06-30 | 微软技术许可有限责任公司 | 情绪智能聊天引擎 |
US10129510B2 (en) * | 2016-02-18 | 2018-11-13 | Samsung Electronics Co., Ltd. | Initiating human-machine interaction based on visual attention |
US10244113B2 (en) * | 2016-04-26 | 2019-03-26 | Fmr Llc | Determining customer service quality through digitized voice characteristic measurement and filtering |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN106361356A (zh) * | 2016-08-24 | 2017-02-01 | 北京光年无限科技有限公司 | 情绪监控和预警方法及系统 |
CN106372604A (zh) * | 2016-08-31 | 2017-02-01 | 北京光年无限科技有限公司 | 智能机器人检测负面情绪的方法及系统 |
JP6795387B2 (ja) * | 2016-12-14 | 2020-12-02 | パナソニック株式会社 | 音声対話装置、音声対話方法、音声対話プログラム及びロボット |
US10497360B2 (en) * | 2017-02-21 | 2019-12-03 | Sony Corporation | Personalized assistance system based on emotion |
JP6751536B2 (ja) * | 2017-03-08 | 2020-09-09 | パナソニック株式会社 | 装置、ロボット、方法、及びプログラム |
US11069444B2 (en) * | 2017-10-11 | 2021-07-20 | International Business Machines Corporation | Personal assistant computing system monitoring |
-
2017
- 2017-03-08 JP JP2017044325A patent/JP6751536B2/ja active Active
-
2018
- 2018-02-20 US US15/899,372 patent/US10702991B2/en active Active
- 2018-02-27 EP EP18158731.2A patent/EP3373301A1/en not_active Withdrawn
- 2018-03-01 CN CN201810170121.9A patent/CN108573695B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20180257236A1 (en) | 2018-09-13 |
JP2018146898A (ja) | 2018-09-20 |
CN108573695B (zh) | 2023-04-07 |
EP3373301A1 (en) | 2018-09-12 |
CN108573695A (zh) | 2018-09-25 |
US10702991B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6751536B2 (ja) | 装置、ロボット、方法、及びプログラム | |
US11858118B2 (en) | Robot, server, and human-machine interaction method | |
US10733992B2 (en) | Communication device, communication robot and computer-readable storage medium | |
US20190172448A1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
JP5982840B2 (ja) | 対話装置、対話プログラムおよび対話方法 | |
KR20200130231A (ko) | 신경 상태의 검출을 위해 생체 센서 데이터를 사용하여 라이브 엔터테인먼트를 디렉팅 | |
CN113454708A (zh) | 语言学风格匹配代理 | |
US20200027455A1 (en) | Dialog system, dialog method, dialog apparatus and program | |
JP2005237561A (ja) | 情報処理装置及び方法 | |
JP2004310034A (ja) | 対話エージェントシステム | |
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
JP2008139762A (ja) | プレゼンテーション支援装置および方法並びにプログラム | |
JP2018091954A (ja) | 音声認識装置、及び音声認識方法 | |
JP5294315B2 (ja) | 対話活性化ロボット | |
JP2018062042A (ja) | コミュニケーション装置 | |
US12105876B2 (en) | System and method for using gestures and expressions for controlling speech applications | |
WO2024054714A1 (en) | Avatar representation and audio generation | |
TW200929108A (en) | Limb interactively learning method and apparatus | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
WO2020116356A1 (ja) | ロボット、音声合成プログラム、及び音声出力方法 | |
WO2019198299A1 (ja) | 情報処理装置及び情報処理方法 | |
JP6977463B2 (ja) | 通信装置、通信システムおよびプログラム | |
US20240078732A1 (en) | Avatar facial expressions based on semantical context | |
JP2023036050A (ja) | 支援装置、支援方法、支援システムおよびプログラム | |
JP2024159728A (ja) | 電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191003 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20200605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200804 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6751536 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |