Nothing Special   »   [go: up one dir, main page]

JP6751536B2 - 装置、ロボット、方法、及びプログラム - Google Patents

装置、ロボット、方法、及びプログラム Download PDF

Info

Publication number
JP6751536B2
JP6751536B2 JP2017044325A JP2017044325A JP6751536B2 JP 6751536 B2 JP6751536 B2 JP 6751536B2 JP 2017044325 A JP2017044325 A JP 2017044325A JP 2017044325 A JP2017044325 A JP 2017044325A JP 6751536 B2 JP6751536 B2 JP 6751536B2
Authority
JP
Japan
Prior art keywords
adult
child
display
voice
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017044325A
Other languages
English (en)
Other versions
JP2018146898A (ja
Inventor
路子 笹川
路子 笹川
亮太 宮崎
亮太 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2017044325A priority Critical patent/JP6751536B2/ja
Priority to US15/899,372 priority patent/US10702991B2/en
Priority to EP18158731.2A priority patent/EP3373301A1/en
Priority to CN201810170121.9A priority patent/CN108573695B/zh
Publication of JP2018146898A publication Critical patent/JP2018146898A/ja
Application granted granted Critical
Publication of JP6751536B2 publication Critical patent/JP6751536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/0015Face robots, animated artificial faces for imitating human expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/001Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Robotics (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Toys (AREA)
  • Manipulator (AREA)

Description

本開示は、音声を処理する装置、ロボット、方法、及びプログラムに関する。
近年、ユーザが発した音声を処理することでユーザの感情認識を行う技術研究が盛んに行われている。従来の感情認識の方法として、話者の発生した音声の言語情報を用いる方法や、音声の音の韻律的特性を用いる方法や、顔画像からの表情分析を行う方法等がある。
ユーザが発した音声の言語情報をもとに感情認識を行う技術の一例が、特許文献1に開示される。具体的には、特許文献1は、「サッカーで遊ぶのは楽しい?」との質問に対して、利用者が「サッカーで遊ぶのはすごくつまらないね」と返事をした場合、”サッカー”をキーワードとして抽出し、キーワードを含むフレーズに”すごくつまらない”というマイナスの感情を示す言葉が含まれているため、利用者はサッカーに興味がないと推論し、サッカー以外についての質問を行う技術を開示する。
また、入力されたユーザの音声及び顔画像からその感情を判定し、判定した感情に応じた応答を出力する技術の一例が特許文献2に開示される。具体的には、特許文献2は、Paul Ekmanらによって開発されたFACS(Facial Action Coding System)を用いた表情からの感情認識(怒り、嫌悪、恐れ、喜び、悲しみ、驚き、普通)と、音声による感情認識(緊張、喜び、困惑)とを行い、それぞれの感情認識結果を重み付けして、緊張の評価値を算出し、算出した緊張の評価値に基づいて、緊張の感情の有無を判定し、緊張の感情が有る場合は、緊張を緩和する行動をロボットに行わせる技術を開示する。
また、このような感情認識に基づくロボット制御では、一人のユーザを想定していることが多く、二人以上のユーザを想定したロボットの制御を想定しているものは少ない。複数のユーザを想定した先行技術の一例として特許文献3がある。特許文献3は、第二のユーザ(例:子供)の行動、状態、及び環境を計測し、計測結果に基づき、第一のユーザ(例:父親)への提示情報を決定し、決定した提示情報を第一のユーザ(例:父親)の帰宅時に提示する技術を開示する。具体的には、特許文献3では、ロボットが子供との会話を通じて取得した子供の要望を帰宅時に父親に知らせることで、子供と父親とのコミュニケーション不足を補填する技術が開示されている。
特許第4015424号公報 特開2006−123136号公報 特開2009−131928号公報
大人が子供を注意する場合、怒るのではなく叱るのが、子供の教育上、好ましいとされている。しかしながら、特許文献1〜3のいずれも、大人が子供を注意するシーンにおいて、「叱る」と「怒る」とを区別することは全く考慮されていない。そのため、特許文献1〜3は、大人が子供を注意するシーンにおいて、怒ったことを大人に気づかせることができないという課題がある。
本開示の目的は、大人が子供を注意するシーンにおいて、大人が子供を怒った場合、怒ったことを大人に気づかせる装置等を提供することである。
本開示の一態様に係る装置は、
音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含むものである。
本開示によれば、大人が子供を怒った場合、怒ったことを大人に気づかせることができる。その結果、子供の教育上、好ましい処理を行う装置等を提供することができる。
実施の形態1における装置の全体構成の一例を示す図である。 実施の形態1における注意語辞書の一例を示す図である。 実施の形態1に係る装置の処理の一例を示すフローチャートである。 図3のS304の大人認識処理の詳細を示すフローチャートである。 実施の形態2における装置の全体構成の一例を示す図である。 注意対象者の重心位置が変化した様子を示す図である。 注意対象者が把持するオブジェクトを離した様子を示す図である。 実施の形態2における装置の処理の一例を示すフローチャートである。 図8のS801に示す子供状態認識処理の詳細を示すフローチャートである。 実施の形態3におけるロボットの一例を示す外観図である。 ロボットの電気的な構成の一例を示す図である。 実施の形態3におけるロボットの処理の一例を示すフローチャートである。 怒っていることを大人に気づかせるための表示例を示す図である。 子供に叱られている行動の中止を促すための表示例を示す図である。 怒りの表情と喜びの表情との一例を示す図である。
(本開示の基礎となった知見)
ロボット技術の進化と共に、近年のロボットの普及は目覚しく、商業施設をはじめ家庭へもロボットの普及が進みつつある。家庭へ導入するロボットの場合、家庭には親子をはじめとする複数のユーザが共存しており、さまざまな生活シーンが存在する。このような生活シーンにあわないロボットの振る舞いは、時には育児の邪魔になり、利用し難いものとなる。
特に、幼児のいる家庭でよく観察される、保育者である大人が幼児を注意する状況では、保育者である親も真剣に子供を注意しており、ロボットが身勝手な振る舞いをするべきではない。したがって、子供のいる家庭では、子供を注意する時は、ロボットを停止させたいという意見があった。
一方で、育児に対する保育者の悩みとして、叱りすぎてしまったり、大声を出してしまうことが最も多い悩みであることがわかった。
幼児教育では、「叱る」ことが推奨され、「怒る」ことは子供の人格形成へも悪影響を与える行為とされている。「叱る」とは、相手のことを思って注意する行為であり、穏やかで冷静に注意する行為である。「怒る」とは、自分の感情の怒りや苛立ちを沈めるために注意する行為であり、そこには発話者の感情が表れる。
しかし、上記の特許文献1、2は、喜怒哀楽が判断されているにすぎず、「叱る」と「怒る」とを区別することは行われていないので、大人が子供を注意するシーンにおいて、大人が怒った場合、怒ったことを大人に気づかせることができないという課題がある。上記の特許文献3は、複数ユーザ間の間接的なコミュニケーションを図るものであり、大人が子供を怒るシーンは想定されていない。
本開示は、大人が子供を注意するシーンにおいて、大人が子供を怒った場合、怒ったことを大人に気づかせることができる装置等を提供することを目的とする。
(1)本開示の一態様に係る装置は、
音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含むものである。
本態様によれば、マイクにより取得された音に大人の発話が含まれているか否かが判断され、大人の発話が含まれていれば、大人が子供を注意する際に使用される語句がその発話に含まれているか否かが判断される。そして、その語句が発話に含まれていれば、大人の発話の物理的特徴量から大人が子供を叱っているのか、怒っているのかが判断され、大人が怒っていると判断された場合は、装置に対して、第1音を出力させたり、第1動作させたり、ディスプレイに第1表示をさせたり、カメラに大人を撮影させたりする第1処理が実行される。これにより、大人に怒っていることを気づかせることができる。
(2)上記態様において、前記第1音は、所定のアラーム音を含んでもよい。
本態様によれば、アラーム音を通じて大人に怒っていることを気づかせることができる。
(3)上記態様において、前記第1音は、前記大人が怒っていることを前記大人に通知する音声を含んでもよい。
本態様によれば、音声を通じて怒っていることを大人に気づかせることができる。
(4)上記態様において、前記第1音は、前記大人に怒りを解放するよう促す音声を含んでもよい。
本態様によれば、大人に怒りを解放するよう促す音声が出力されるので、大人の怒りを緩和させることができる。
(5)上記態様において、前記第1動作は、前記ディスプレイを前記大人に対向させる動作を含んでもよい。
本態様によれば、ディスプレイが大人に対向するように装置が動作するので、大人の意識を装置に向かわせ、大人に怒っていることを気づかせることができる。
(6)上記態様において、前記第1動作は、前記装置が前記大人に向かう動作を含んでもよい。
本態様によれば、装置が大人に向かって移動するので、大人の意識を装置に向かわせ、大人に怒っていることを気づかせることができる。
(7)上記態様において、前記第1動作は、前記装置が左右に揺れる動作を含んでもよい。
本態様によれば、装置が左右に揺れる動作が行われるので、大人の意識を装置に向かわせ、大人に怒っていることを気づかせることができる。
(8)上記態様において、前記第1表示は、前記装置の目と口とをシンボリックに表す表示を含んでもよい。
本態様によれば、装置のディスプレイに目と口とを用いた所定の表情が表示されるので、大人の意識をその表情に向かわせ、大人に怒っていることを気づかせたり、大人の怒りを緩和させたりすることができる。
(9)上記態様において、前記所定の表情は、悲しみの表情、驚きの表情、困惑の表情、怒りの表情のいずれかを含んでもよい。
本態様によれば、上記の表情を通じて、大人に怒っていることを気づかせたり、大人の怒りを緩和させることができる。
(10)上記態様において、前記第2判断部は、前記大人の発話の物理的特徴量が複数回閾値を超える場合に、前記大人が怒っていると判断してもよい。
本態様によれば、発話の物理的特徴量が複数回閾値を超えた場合に大人が怒っていると判断されているので、大人が怒っていることを正確に検出できる。
(11)上記態様において、前記物理的特徴量は、前記音声の周波数、前記音声のパワー、前記発話の速度、前記発話の時間、のいずれかを含んでもよい。
本態様によれば、音声の周波数、音声のパワー、発話の速度、及び発話の時間のいずれかを用いて怒っているか否かが判断されているので、大人が怒っていることを正確に検出できる。
(12)上記態様において、前記装置が前記カメラを備えている場合、
前記第2判断部は、前記大人が怒っていると一旦判断された後の第1期間における前記映像データに基づいて、前記大人が怒り及び悲しみ以外の表情をしていると判断する場合は、前記大人は叱っていると判断してもよい。
本態様によれば、大人が怒っていると一旦判断された場合であっても、その後の第1期間においてカメラが取得した映像データに大人の怒り及び悲しみ以外の表情が含まれている場合は大人は叱っていると判断される。そのため、大人があえてきつい口調で子供を叱った場合に怒ったと判断されることを防止できる。
(13)上記態様において、前記音声認識部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれているか否かを、前記メモリに記憶された前記子供の名前を示すデータに基づいて判断し、
前記第2判断部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれていると判断された場合は、前記子供を、前記大人が叱っているまたは怒っている対象者であると更に判断し、
前記装置が前記カメラを備えている場合、
前記映像データに含まれる人物が前記子供であるか否かを、前記メモリに記憶された前記子供に対応する映像データに基づいて判断する第3判断部と、
前記大人が前記子供に対して叱っていると判断された場合、且つ、前記映像データに含まれる人物が前記子供であると判断された場合は、前記映像データに基づいて、前記大人の発話が認識された後の第2期間において前記子供の体勢が変化したか判断し、前記子供の体勢が変化していないと判断された場合は、前記映像データに基づいて、前記第2期間において前記子供が手にオブジェクトを持ち続けているか判断する第4判断部と、を更に備え、
前記第2期間において、前記子供の体勢が変化していないと判断された場合、または、前記子供が手に前記オブジェクトを持ち続けていると判断された場合は、前記制御部は、前記装置に対して第2処理をさせ、
前記装置が前記スピーカーを備えている場合は、
前記第2処理は、(i)前記スピーカーに第2音を出力させる処理、(ii)前記装置に第2動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
(i)前記装置に第2動作をさせる処理、(ii)前記ディスプレイに第2表示をさせる処理、のいずれかを含んでもよい。
本態様によれば、大人が叱っていると判断された場合、その後の第2期間において、子供の体勢が変化しているか否か、及び、子供の体勢は変化していないが子供が手にオブジェクトを持ち続けているか否かが判断される。これにより、子供が叱られた場合において、子供が叱られている行為を継続しているか否かを判断できる。そして、子供が叱られている行為を継続していれば、第2音を出力させたり、装置に第2動作をさせたり、ディスプレイに第2表示をさせる第2処理が行われる。これにより、叱られた行為を継続している子供に対して、その行為の中止を促すことができる。
(14)上記態様において、前記第2音は、所定のアラーム音を含んでもよい。
本態様によれば、アラーム音を通じて子供に叱られた行為の中止を促すことができる。
(15)上記態様において、前記第2音は、所定の音楽を含んでもよい。
本態様によれば、音楽を通じて子供に叱られた行為の中止を促すことができる。
(16)上記態様において、前記第2音は、前記子供に対して、前記子供が現在行っている行為をやめるように促す音声を含んでもよい。
本態様によれば、子供に対して、子供が現在行っている行為をやめるように促す音声が出力されるので、子供に叱られた行為の中止を促すことができる。
(17)上記態様において、前記第2音は、前記子供に対して、現在何をしているのか尋ねる音声を含んでもよい。
本態様によれば、子供に対して現在何をしているかを尋ねる音声が出力されるので、子供に対して現在行っている行為が良くない行為であることを気づかせることができる。
(18)上記態様において、前記第2動作は、前記ディスプレイを前記子供に対向させる動作を含んでもよい。
本態様によれば、装置のディスプレイが子供に対向することを通じて、子供に叱られた行為の中止を促すことができる。
(19)上記態様において、前記第2動作は、前記装置が前記子供に向かう動作であってもよい。
本態様によれば、装置が子供に向かうように移動することを通じて、子供に叱られた行為の中止を促すことができる。
(20)上記態様において、前記第2表示は、前記装置の目と口とをシンボリックに表す表示を含み、
前記表示は前記装置の所定の表情に対応してもよい。
本態様によれば、目と口とを用いた所定の表情が装置のディスプレイに表示されるので、その表示を通じて、子供に叱られた行為の中止を促すことができる。
(21)本開示の別の一態様に係るロボットは、上記の(1)〜(20)のいずれかの装置を備えるものである。
本態様によれば、大人が子供を注意するシーンにおいて、大人が怒っている場合、大人に怒っていることを気づかせるロボットを提供することができる。その結果、子供の教育にとって有用なロボットを提供できる。
(22)本開示の更に別の一態様に係る方法は、メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断ステップと、
前記装置が前記スピーカーを備えている場合は、
前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含んでもよい。
(23)上記開示の更に別の一態様に係るプログラムは上記の(22)の方法をコンピュータに実行させるものである。
(24)本開示の更に別の一態様に係る装置は、音声を処理する装置であって、
前記装置周辺の音を取得するマイクと、
メモリと、
前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が所定回数以上前記大人の発話に含まれるか判断する音声認識部と、前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれると判断された場合、前記大人が怒っていると判断し、前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれないと判断され場合、前記大人が叱っていると判断する、第2判断部と、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
スピーカーと、
ディスプレイと、
前記装置周辺の映像データを取得するカメラと
のいずれか、を更に備え、
前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含んでもよい。
本態様によれば、大人が子供を注意した場合、大人が子供を注意する際に使用される語句が大人の発話に所定回数以上含まれていれば、大人が怒っていると判断されるので、大人が怒っていることを正確に判断することができる。そのため、大人が叱っている場合において第1処理が行われることを防止し、装置が教育を邪魔するような処理を行うことを防止できる。更に、大人が怒っている場合は、第1処理が実行されるので、第1処理を通じて、大人に怒っていることを気づかせることができる。
(25)本開示の更に別の一態様に係るロボットは、上記の(24)の装置を備えるものである。
(26)本開示の更に別の一態様に係る方法は、メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断ステップと、
前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が所定回数以上前記大人の発話に含まれるか判断する音声認識ステップと、
前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれると判断された場合、前記大人が怒っていると判断し、前記大人の発話に前記辞書に含まれる語句が所定回数以上含まれないと判断され場合、前記大人が叱っていると判断する、第2判断ステップと、
前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御ステップとを備え、
前記装置が前記スピーカーを備えている場合は、
前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記ディスプレイを備えている場合は、
前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
前記装置が前記カメラを備えている場合は、
前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含むものである。
(27)本開示の更に別の一態様に係るプログラムは、上記の(26)の方法をコンピュータに実行させるものである。
なお、本開示に係るプログラムはコンピュータ読取可能な記録媒体に格納されていてもよい。
(実施の形態)
以下、本発明の各実施の形態について、図面を参照しながら説明する。なお、各図面において、同じ構成要素については同じ符号が用いられている。
(実施の形態1)
図1は、実施の形態1における装置1の全体構成の一例を示す図である。装置1は、ロボットで構成されてもよいし、ボタン式の携帯端末、スマートフォン、又はタブレット端末等の端末を含むシステムで構成されてもよい。図1における装置1は、音声入力部11(マイクの一例)、状況判断装置12、音声合成部13(制御部の一例)、音制御部14(制御部の一例)、音出力部15(スピーカーの一例)、駆動制御部16(制御部の一例)、表示制御部17(制御部の一例)、映像入力部18(カメラの一例)、及び表示部19(ディスプレイの一例)を備える。
装置1がロボットで構成されているのであれば、音声入力部11、状況判断装置12、音声合成部13、音制御部14、音出力部15、駆動制御部16、表示制御部17、映像入力部18、及び表示部19は、例えば、ロボットに組み込まれる。
装置1がスマートフォン等の端末を含むシステムで構成されているのであれば、例えば、音声入力部11、状況判断装置12、音声合成部13、音制御部14、音出力部15、駆動制御部16、表示制御部17、映像入力部18、及び表示部19は、端末に組み込まれても良い。
音声入力部11は、例えば、特定の方向からの音を他の方向からの音よりも高い感度で取得する指向性マイクで構成され、装置1の周辺の音を取得し、状況判断装置12に出力する。なお、音声入力部11は、指向性マイクに代えて、無指向性マイクで構成されてもよい。音声入力部11は、例えば、状況判断装置12が実装された装置1の本体部に組み込まれている。或いは、音声入力部11は、例えば、ハンドマイク、ピンマイク、又は卓上マイクなどの独立した集音デバイスで構成されてもよい。この場合、音声入力部11は、例えば、有線又は無線で装置1の本体部と接続されればよい。或いは、音声入力部11は、端末のマイクで構成されてもよい。
音声合成部13は、後述する処理決定部134により生成された応答発話のテキストデータを、音声合成処理により音声データへ変換する。
音出力部15は、例えば、スピーカーで構成され、音声合成部13によって変換された音声データを装置1の外部空間に出力する。音出力部15は、装置1に組み込まれてもよいし、有線又は無線によって状況判断装置12に接続されてもよい。また、音出力部15は、スマートフォン等の端末のスピーカで構成されてもよい。
音制御部14は、音や音楽のデータを保持及び管理する。また、音制御部14は、後述する処理決定部134が決定した音を音出力部15へ出力する。
駆動制御部16は、状況判断装置12が実装された装置1の本体部又はロボットの駆動制御を行う。具体的には、駆動制御部16は、装置1の正面部分をユーザの方へ向ける制御や、装置1の駆動輪などを制御し、装置1の本体部をユーザへ近づける制御を行う。
表示制御部17は、状況判断装置12が実装された装置又はロボットの表示部に画像を表示させる。具体的には、表示制御部17は、表示部を構成するLEDパネルの色の設定やON/OFF制御を行う。
映像入力部18は、例えば、ステレオカメラや測距センサ等の距離画像センサにより構成され、装置1の周辺の画像データを所定のフレームレートで取得し、主制御部122に出力する。この場合、画像データは、各画素がRGBの色成分と深度とで表された距離画像データで構成される。なお、映像入力部18は、距離画像センサに代えて、深度を計測しない通常の画像センサで構成されてもよい。
表示部19は、例えば、LEDパネルや液晶パネルや有機ELパネルで構成され、表示制御部17の制御の下、大人に怒っていることを気づかせるための画像を表示する。なお、表示部19は、有線又は無線によって装置1の本体部に接続されてもよい。
状況判断装置12は、CPU等のプロセッサで構成される主制御部122と、不揮発性の記憶装置で構成されるメモリ121とを備える。主制御部122は、話者判断部131(第1判断部の一例)、音声認識部132、感情認識部133(第2判断部の一例)、及び処理決定部134(制御部の一例)を備える。メモリ121は、注意語辞書141を記憶する。話者判断部131、音声認識部132、感情認識部133、及び処理決定部134は、例えば、主制御部122が状況判断処理を行うコンピュータ読取可能なプログラムを実行することで実現される。このプログラムはメモリ121に格納されている。
また、状況判断装置12を構成する全ての要素は、装置1の本体部に実装されてもよいし、光ファイバ、無線、又は公衆電話回線などの任意のネットワークを介して装置1の本体部と接続された別の装置(例えばサーバ)に実装されてもよい。状況判断装置12は、一部の構成要素が装置1の本体部に実装され、残りの構成要素が別の装置に実装され、装置1の本体部と別の装置とが互いに通信することによって実現されてもよい。
話者判断部131は、音声入力部11によって取得された音から音声を抽出し、抽出された音声に大人の発話が含まれているか、子供の発話が含まれているかを判断する。詳細には、話者判断部131は、音声入力部11によって取得された音から抽出した音声から声紋を抽出し、抽出した声紋とメモリ121に予め記憶された大人の声紋と比較することによって、大人の発話が含まれているか、子供の発話が含まれているかを判断すればよい。この場合、メモリ121は、装置1を所持する大人のユーザの声紋と子供のユーザの声紋とをメモリ121に事前に記憶する。そして、話者判断部131は、抽出した声紋とメモリ121に記憶された大人のユーザの声紋との類似度を算出し、算出した類似度が閾値以上であれば、大人の発話が含まれていると判断すればよい。一方、話者判断部131は、抽出した声紋とメモリ121に記憶された子供のユーザの声紋との類似度を算出し、算出した類似度が閾値以上であれば、子供の発話が含まれていると判断すればよい。
なお、話者判断部131は、別の方法を用いて大人の発話が含まれているか、子供の発話が含まれているかを判断してもよい。例えば、メモリ121は、大人用の音響モデルと子供用の音響モデルとを事前に記憶する。そして、話者判断部131は、抽出した音声に対して、大人用の音響モデルを用いた音声認識処理を行うと共に子供用の音響モデルを用いた音声認識処理を行い、それぞれの認識結果の確からしさを示す信頼度を算出する。そして、話者判断部131は、大人用の音響モデルを用いた場合の信頼度が子供用の音響モデルを用いた場合の信頼度よりも高ければ、大人の発話が含まれていると判断すればよい。なお、話者判断部131は、音響モデルに代えて言語モデルを用いてこの判断を行ってもよい。この場合、メモリ121は、大人用の言語モデルと子供用の言語モデルとを事前に記憶しておく。そして、話者判断部131は、抽出した音声に対する大人用の言語モデルの信頼度が子供用の言語モデルの信頼度よりも高ければ、大人の発話が含まれていると判断すればよい。
なお、音響モデルは、音素の波形サンプルを保持しており、言語モデルは、所定の言語の単語の並び方といった言葉の情報を保持している。
注意語辞書141は、大人が子供に注意をする際に使用される注意語(語句)が事前に登録されたデータベースである。図2は、実施の形態1における注意語辞書141の一例を示す図である。注意語辞書141は注意語欄201を含む。注意語欄201は、大人が子供に注意する際に使用される1以上の注意語が登録されている。図2の例では、「やめなさい」、「歯磨きしなさい」など子供を注意する際によく使われる「なさい」と、呼びかけの語句である「こら!」とが登録されている。更に、図2の例では、「駄目」と、「終わり」と、「いい加減にしなさい」とが登録されている。但し、これらの注意語は一例であり、注意語辞書141は、大人が子供を注意する際に使用される注意語であれば、図2で例示した以外の注意語を登録していてもよい。
図1の例では、注意語辞書141は、メモリ121に予め記憶されている態様が示されているが、本開示はこれに限定されず、ネットワークを介して装置1に接続される別の装置(例えばサーバ)に記憶される態様が採用されてもよい。この場合、注意語辞書141は、別の装置の管理者(例えば、装置1の製造メーカやサービスプロバイダ)によって一括管理されており、随時更新される。
音声認識部132は、話者判断部131により大人の発話が含まれていると判断された場合、例えば、音響モデル及び言語モデルを用いて大人の発話を認識し、認識した内容を示すテキストデータを生成する。そして、音声認識部132は、生成したテキストデータの中に注意語辞書141に登録された注意語が含まれるか否かを判断する。
但し、これは一例であり、音声認識部132は、話者判断部131により大人の発話が含まれていると判断された場合、言語モデルを用いずに音響モデルを用いて認識した音素列中に注意語辞書141に登録された注意語が含まれているか否かを判断してもよい。或いは、音声認識部132は、話者判断部131により大人の発話が含まれていると判断された場合、音響モデル及び言語モデルを用いて生成したテキストデータに対して形態素解析を適用することで生成したテキストデータを複数の単語に区切ると共に区切った単語の品詞を特定し、特定した品詞を考慮して、生成したテキストデータに含まれる単語と注意語辞書141とを比較すればよい。例えば、注意語辞書141に注意語欄201に加えて品詞欄を更に含め、音声認識部132は、生成したテキストデータに含まれる単語及び品詞が、注意語辞書に登録された注意語及び品詞と一致すれば、生成したテキストデータに注意語辞書141に登録された注意語が含まれていると判断すればよい。
また、音声認識部132は、生成したテキストデータに注意対象者である子供の名前が含まれているか否かを確認してもよい。なお、装置1を利用するユーザの名前や愛称は、例えば、装置1を初めて利用する際に設定され、ユーザ情報としてメモリ121に保存しておけばよい。この場合、ユーザの名前や愛称は、ユーザが大人又は子供であるかを区別する情報と対応付けてメモリ121に保存されてもよい。名前や愛称の設定は、個々のユーザに名前や愛称を発話させることで行われてもよい。この場合、ユーザが大人であるか子供であるかを区別する情報は、ユーザが発話した名前や愛称を音声認識することで取得されてもよいし、大人又は子供であるかを区別する情報を発話させることで取得されてもよい。或いは、装置1又は装置1にネットワークを通じて接続された端末がテキストデータを入力する入力部を備えているのであれば、ユーザの名前、愛称、大人又は子供を区別する情報は、この入力部を通じて入力されてもよい。
感情認識部133は、音声認識部132により、大人の発話に注意語が含まれていると判断された場合、大人の発話の物理的特徴量に基づいて、大人が怒っているか叱っているかを判断する。
ここで、感情認識部133は、大人の発話の物理的特徴量が、大人が怒っていることを示す閾値以上であれば、大人が怒っていると判断し、閾値未満であれば、大人は叱っていると判断する。
例えば、特開2005−283647号公報には、話者が発話した音声の単語別の韻律特徴量(基本周波数及び音圧(音声のパワー))の時間パターンと、話者が過去に発話した音声の韻律的特徴量の時間パターンの統計量から生成された単語別の韻律モデルとの尤度が所定の閾値を超えた場合、話者が怒っていると判断する技術が開示されている。
そこで、感情認識部133は、この技術を利用して話者が怒っているか否かを判断すればよい。この場合、感情認識部133は、装置1を利用する各ユーザの単語別の韻律特徴量の時間パターンを統計処理することで、各ユーザの単語別の韻律モデルを事前に生成してメモリ121に記憶させておく。そして、感情認識部133は、注意語を含む音声に含まれるある単語(例えば、注意語)の韻律特徴量の時間パターンを物理的特徴量として算出し、算出した韻律特徴量の時間パターンと、この韻律特徴量の時間パターンに対応する韻律モデルとの尤度が閾値より大きければ、大人が怒っていると判断すればよい。一方、感情認識部133は、前記尤度が閾値以下であれば、大人は叱っていると判断すればよい。なお、本実施の形態では、韻律特徴量として基本周波数及び音圧に加え、更に発話の速度、発話の時間を含めてもよい。
また、特許第4914295号公報には、入力音声信号の有声区間のうち1区間についての振幅包絡の周期的変動の周波数が10Hz〜170Hz未満である場合に、当該1区間は話者が力んだ状態で発生した音声であると判断し、力んだ状態で発生した音声の信号であると判定された入力音声信号について、発話時の力みやすさを示す力み発生指標から怒りの強度を決定する技術が開示されている。
そこで、感情認識部133は、この技術を利用して話者が怒っているか否かを判断してもよい。この場合、感情認識部133は、注意語を含む音声についての力み発生指標を物理的特徴量として算出し、力み発生指標が閾値より大きければ、大人が怒っていると判断すればよい。
なお、上記の手法は一例であり、注意語が含まれる音声から怒りの感情を推定する手法であれば、どのような手法が採用されてもよい。
更に、感情認識部133は、下記の手法を用いて大人が怒っているか否かを判断してもよい。例えば、感情認識部133は、注意語を含む音声の物理的特徴量が閾値より大きい期間が一定期間以上継続した場合に、大人が怒っていると判断してもよい。或いは、感情認識部133は、注意語が含まれている音声の物理的特徴量が閾値を超えた回数が、一定期間内に一定回数以上観測された場合に大人が怒っていると判断してもよい。
なお、ここでは注意語が含まれる音声の物理的特徴量に基づいて大人が怒りの感情を抱いているか否が検出されているが、時に保育者である大人はわざと怒った顔をして子供を叱る場合もある。この場合、注意語が含まれる音声を発話した後、大人の表情が怒った顔から笑顔に変化することが想定される。そこで、感情認識部133は、大人が怒っていると判定した後、一定期間(第1期間の一例)内に大人の表情が怒った顔から笑顔に変化したことを検出したのであれば、大人は怒っているのではなく、叱っていると判断してもよい。詳細には、感情認識部133は、大人が怒っていると判断した場合、判断した前後一定期間において、映像入力部18が取得した画像データを解析する。そして、感情認識部133は、解析した画像データに含まれる大人の顔の表情が怒った顔から笑顔に変化したのであれば、大人は叱っていると判断すればよい。なお、感情認識部133は、装置1を使用する各ユーザの顔の特徴量を事前にメモリ121に記憶させておき、この顔の特徴量を用いて画像データに含まれる大人の顔の画像データを抽出すればよい。そして、感情認識部133は、抽出した大人の顔の画像データから顔の表情を解析することで、大人の顔が怒った顔から笑顔に変化したか否かを判断すればよい。或いは、感情認識部133は、各ユーザの顔の特徴から顔の画像データを抽出し、ネットワークを介して接続されたサーバに顔の表情分析を行わせることで、大人の顔が怒った顔から笑顔に変化したか否かを判断する方法を採用してもよい。
また、感情認識部133は、物理的特徴量を用いずに、大人の発話に注意語辞書141に登録された注意語が所定個数以上含まれている場合、大人が怒っていると判断し、所定個数以上含まれていない場合、大人が叱っていると判断してもよい。ここで、所定個数としては、1個、2個、3個等の適当な値が採用できる。
処理決定部134は、感情認識部133により大人が怒っていると判断された場合、大人に怒っていることを気づかせるための第1処理を実行する。第1処理としては、以下に示す処理(a)、(b)、(c)の少なくとも1又は複数が採用できる。
・処理(a)
処理(a)は、音出力部15から応答文の音声や設定音を出力させる処理である。処理(a)では、処理決定部134は、怒っている大人が子供の母親であれば、母親に怒っていることを通知する「ママ、怒っているの?」という応答文や、母親に怒りを解放するように促す「ママ、にっこりー」というような応答文を生成し、音声合成部13に出力する。出力された応答文は、音声合成部13により音声データへ変換され、音出力部15から装置1の外部に出力される。ここで、処理決定部134は、メモリ121に事前に記憶された各ユーザの声紋と、大人が発話した音声の声紋とを比較することで、怒っている人物が母親や父親等のいずれの人物に該当するかを判断すればよい。なお、怒っている大人が父親であれば、上記の応答文の「ママ」は「パパ」や「お父さん」に変更されればよい。また、上記の応答文の「ママ」は、発話した大人の名前に変更されてもよい。
或いは、処理(a)では、処理決定部134は、大人が怒っている際に再生する音として事前に設定された設定音を出力させる制御コマンドを音制御部14に出力してもよい。この場合、制御コマンドを受信した音制御部14は、事前に記憶している設定音の音声データを音出力部15を介して装置1の外部に出力させる。設定音としては、例えば、怒っていることを知らせるためのアラーム音や怒りを静めるようなメロディー音が採用できる。
・処理(b)
処理(b)は、怒っていることを大人に知らせるための動作を装置1にさせる処理である。処理(b)では、処理決定部134は、表示部19を発話者である大人へ向かうように装置1を旋回させる制御コマンドを駆動制御部16へ出力すればよい。この場合、制御コマンドを受信した駆動制御部16は、例えば、制御コマンドが規定する旋回量だけ装置1を旋回させることで、表示部19が発話者である大人に向かうように装置1を駆動させればよい。
詳細には、処理決定部134は、まず、装置1に対する大人の向きを検出する。装置1に対する大人の向きは、例えば、装置1の中心と実空間での大人の位置とを繋ぐ直線と、装置1の正面方向とのなす角度によって規定される。装置1の正面方向としては、例えば、表示部19の表示面の法線方向が採用できる。
音声入力部11が、例えば、指向性マイクで構成されているのであれば、処理決定部134は、装置1の中心から指向性マイクが音声を取得した方向に大人が存在すると判断すればよい。或いは、音声入力部11が複数のマイク(指向性マイク又は無指向性マイクを含む)で構成されているのであれば、処理決定部134は、複数のマイクのうち、取得した音声の音圧が最も高いマイクの方向に大人が存在すると判断すればよい。
或いは、処理決定部134は、映像入力部18が取得した画像データから装置1に対する大人の向きを検出してもよい。この場合、処理決定部134は、画像データから大人の実空間での位置を検出し、検出した位置に基づいて、装置1に対する大人の向きを判断してもよい。例えば、映像入力部18が距離画像センサで構成されており、画像データに深度成分が含まれているのであれば、処理決定部134は、画像データから大人の領域を抽出し、抽出した大人の領域を構成する複数の画素の座標及び深度から実空間での大人の位置を検出すればよい。また、映像入力部18が深度を含まない画像データを取得する画像センサで構成されているのであれば、処理決定部134は、画像データから大人の領域を抽出し、抽出した大人の領域を構成する複数の画素の座標及び大人の領域の大きさから実空間での大人の位置を検出すればよい。
そして、処理決定部134は、上記の手法により検出した、装置1に対する大人の向きを規定する角度を装置1の旋回量として決定する制御コマンドを駆動制御部16に出力すればよい。そして、この制御コマンドを受信した駆動制御部16は、制御コマンドが示す旋回量にしたがって装置1の駆動輪を駆動させ、表示部19を大人に向かわせればよい。
或いは、処理(b)において、処理決定部134は、装置1を発話者である大人へ近づけるための制御コマンドを駆動制御部16へ出力することで、装置1を大人へ近づけさせてもよい。この場合、処理決定部134は、上述した方法で大人の実空間での位置を検出し、その位置の方向に表示部19の正面が向くように装置1を旋回させ、且つ、その位置の近傍まで装置1を移動させる制御コマンドを駆動制御部16に出力すればよい。
或いは、処理決定部134は、映像入力部18が取得した画像データに含まれる大人の領域の座標及び深度をモニタしながら、表示部19の正面前方が大人の実空間での位置に向かい、且つ、大人と装置1との距離が所定距離以下になるまで、駆動制御部16に制御コマンドを出力してもよい。
或いは、処理(b)において、処理決定部134は、装置1を左右に揺らす制御コマンドを駆動制御部16に出力してもよい。実施の形態3で後述するロボット1001は、内部にロボット1001の重心位置を左右に揺らすことが可能な重り付きの振り子を備えている。そこで、駆動制御部16は、この振り子を左右に揺らす制御を行うことで、ロボット1001を左右に揺らすことができる。
・処理(c)
処理(c)は、怒っていることを大人に気づかせるための表示を表示部19に行う処理である。ここで、表示としては、目と口とを含む装置1の表情をシンボリックに表す表示において、装置1の表情を所定の表情にする表示が採用できる。
処理(c)において、処理決定部134は、大人に怒っていることを気づかせるために予め定められた画像を表示部19に表示させるための制御コマンドを表示制御部17へ出力する。この制御コマンドを受信した表示制御部17は、予め定められた画像データをメモリから読み出して表示部19に表示させる。
図13は、怒っていることを大人に気づかせるための表示例を示す図である。図13の例では、驚きの表情、悲しみの表情、困惑の表情、怒りの表情というように目と口とを用いて人間の感情を表す4つの顔の表情が模式的に示されている。表示制御部17は、これらの表情を示した画像のうち少なくとも1つの画像の画像データを事前にメモリに記憶させておく。そして、表示制御部17は、処理決定部134から制御コマンドを受信すると、これらの顔の表情のうち、事前に定められたいずれか1つの顔の表情の画像データをメモリから読み出し、表示部19に表示させればよい。
或いは、表示制御部17は、これら4つの表情を示す画像を、例えば驚き→悲しみ→困惑→怒りの表情を示す画像というように所定の順序で順番に表示部19に表示させてもよい。図13に示す顔の表情の画像を大人に見せることで、大人に対して自分が怒っていることを気づかせることができる。
なお、処理決定部134は、上述した処理(a)〜(c)のうち2つ以上を組み合わせて使用してもよい。
図3は、実施の形態1に係る装置1の処理の一例を示すフローチャートである。図4は、図3のS304の大人認識処理の詳細を示すフローチャートである。以下、図3及び図4を用いて、保育者である大人が子供を叱っているのか、怒っているのかを判断する処理について説明する。
まず、音声入力部11は装置1の周辺に音が発生していれば(S301でYES)、その音の信号(音声信号)を取得する。一方、装置1の周辺に音が発生していなければ(S301でNO)、処理をS301に戻す。
次に、話者判断部131は、取得された音声信号に発話が含まれているか否かを判断し、発話が含まれている場合は(S302でYES)、発話の区間の音声信号を抽出する。一方、話者判断部131は、発話が含まれていないと判断した場合(S302でNO)、処理をS301に戻し、再び音声信号の入力を待つ。ここで、話者判断部131は、一定レベル以上の音声信号が入力された場合、発話があると判断すればよい。
次に、話者判断部131は、抽出された発話の音声信号から発話者が大人であるか子供であるかを判断する(S303)。発話者が大人であれば(S303でYES)、処理はS304に進められ、発話者が子供であれば(S303でNO)、処理はS301に戻される。なお、話者判断部131は、上述した、声紋を用いる処理、大人及び子供の音響モデルを用いる処理等を実行することで発話者が大人であるか否かを判定すればよい。
次に、音声認識部132及び感情認識部133は、発話者である大人が怒っているか叱っているかを判断する大人認識処理を実行する。大人認識処理の詳細は図4を用いて後ほど説明する。大人認識処理により大人が叱っていると判断された場合(S305でYES)、処理はS301に戻され、再度、装置1は音声信号の入力の待機状態となる。一方、大人認識処理により大人が怒っていると判断された場合(S305でNO)、処理決定部134は、発話者である大人へ怒っていることを気づかせるための第1処理(上述した処理(a)〜(c)のうちの1又複数の処理)を実行する(S306)。S306の処理が終了すると処理はS301に戻される。
具体的には、前述したように「ママ、怒ってるの?」や「ママ、にっこりー」のような応答文の発話処理、大人が怒っている際に再生される設定音の再生、表示部19を大人へ向ける駆動制御、装置1を大人へ近づける駆動制御、及び表示部19に図13に示す顔の表情の画像を表示させる処理のいずれか1又は複数を実行する。なお、ここでは、大人状態認識処理により、一度、大人が怒っていると判断されると、処理決定部134は、処理(a)〜(c)のいずれか1又は複数の処理を実行した。これは一例であり、怒りが複数回検出された場合、或いは一定期間内に連続して複数回検出された場合に、処理決定部134は、処理(a)〜(c)のいずれか1又は複数の処理を実行してもよい。或いは、処理決定部134は、一定期間内に怒りが複数回検出された場合、回数が増大するにつれて、処理内容を変更してもよい。例えば、処理決定部134は、1回目の怒りでは、処理(a)〜(c)のうち、いずれか1の処理を実行し、2回目の怒りでは処理(a)〜(c)のうち、1回目で実行した処理とは別の処理を追加して実行し、3回目の怒りでは2回目で実行した処理とは別の処理を追加して実行するようにしてもよい。
次に、図4を用いて大人状態認識処理の詳細を説明する。音声認識部132は、話者判断部131から大人が発話した音声信号を取得し、取得した音声信号に対して大人の音響モデル及び言語モデルを用いた音声認識処理を実行し、発話内容を推定し(S401)、推定した発話内容を示すテキストデータを生成する。
次に、音声認識部132は、推定した発話内容から、注意対象者を判断する(S402)。ここで、音声認識部132は、推定した発話内容とメモリ121に事前に保存された子供の名前や愛称とを比較することで、注意対象者を判断すればよい。例えば、発話内容が「あいちゃん、やめなさい」であり、メモリ121に子供の愛称として「あいちゃん」が事前に保存されていたとすると、発話内容に「あいちゃん」が含まれているため、音声認識部132は、「あいちゃん」を注意対象者として判断する(S402)。
なお、発話内容に子供の名前や愛称が含まれていなければ、対象者なしてとして処理を進めてもよい。また、現在の発話内容に対象者がない場合であっても、一定回数あるいは一定時間前までの発話において、発話内容に注意語と子供の愛称とが含まれている場合、その人物を対象者とする方法が採用されてもよい。
次に、音声認識部132は、推定した発話内容に、注意語辞書141に登録された注意語が含まれているか否かを判断する(S403)。推定した発話内容に注意語辞書141に登録された注意語が含まれていない場合(S403でNO)、処理は図3のS301に戻り、再び、装置1は、音声信号の入力の待機状態になる。一方、推定した発話内容に注意語辞書に登録された注意語が含まれている場合(S403でYES)、感情認識部133は、推定した発話内容の音声信号からその発話の物理的特徴量を算出する(S404)。ここで、物理的特徴量としては、例えば、上述した韻律的特徴量の時間パターンや、力み発生指標が採用される。
次に、感情認識部133は、算出した物理的特徴量が閾値以上であるか否かを判断する(S405)。算出した物理的特徴量が閾値以上であれば(S405でYES)、感情認識部133は、発話者である大人は怒っていると判断する(S406)。一方、算出した物理的特徴量が閾値未満であれば(S405でNO)、感情認識部133は、発話者である大人は叱っていると判断する(S407)。
このように、実施の形態1に係る装置1によれば、音声入力部11により取得された音に大人の発話が含まれていれば、大人が子供を注意する際に使用される注意語がその発話に含まれているか否かが判断される。そして、その注意語が発話に含まれていれば、大人の発話の物理的特徴量から大人が子供を叱っているのか、怒っているのかが判断され、大人が怒っていると判断された場合は、処理(a)〜処理(c)のいずれか1つ又は複数が実行される。これにより、大人に怒っていることを気づかせることができる。
(実施の形態2)
実施の形態2は、映像入力部18が取得した画像データを用いて、保育者である大人が子供を注意している際の状況をより詳細に判断するものである。図5は、実施の形態2における装置1Aの全体構成の一例を示す図である。なお、以下の説明では、実施の形態1と同一の構成については同一の符号を付けて説明を省略する。
装置1Aにおいて、装置1と名称が同じであるが機能が新たに追加された構成には、末尾にAの符号を付して表す。状況判断装置12Aは、主制御部122Aを備える。主制御部122Aは、人物推定部501(第3判断部の一例)、位置情報記録部502(第4判断部の一例)、及び状態変化判断部503(第4判断部の一例)を更に備える。
音声認識部132Aは、発話者である大人と注意対象者とを認識する。ここで、音声認識部132Aは、話者判断部131により大人の発話が含まれていると判断された場合、その発話の音声信号から声紋を抽出し、抽出した声紋と、事前にメモリ121に登録された大人の声紋とを照合することで、発話者である大人を認識し、その発話者を識別する発話者情報を生成する。また、音声認識部132Aは、話者判断部131により大人の発話が含まれていると判断された場合、その発話内容にメモリ121に事前に登録された子供の名前又は愛称が含まれていれば、その子供を注意対象者として認識し、認識した注意対象者を識別する注意対象者情報を生成する。
人物推定部501は、映像入力部18が取得した画像データに含まれるユーザを推定する。ここで、人物推定部501は、画像データに含まれるユーザの顔の特徴量を抽出し、抽出した顔の特徴量と、メモリ121に事前に記憶されたユーザ毎の顔の特徴量とを例えばパターンマッチング等の公知の手法を用いて比較することで、画像データに含まれるユーザを推定する。
人物推定部501は、音声認識部132Aにより生成された注意対象者情報及び発話者情報のいずれか一方又は両方を取得し、画像データから推定したユーザが、取得した注意対象者情報が示す注意対象者と、取得した発話者情報が示す発話者とのいずれのユーザと一致するかを判断する。なお、映像入力部18が取得した画像データに複数のユーザが含まれている場合、人物推定部501は、画像データから推定した複数のユーザのそれぞれに対して、注意対象者情報が示す注意対象者と発話者情報が示す発話者と一致するか否かを判断すればよい。
また、人物推定部501は、画像データから注意対象者を推定すると、以後、映像入力部18により所定のフレームレートで取得された画像データと深さ情報から注意対象者を示す領域を抽出することで注意対象者の画像データ内での座標を示す座標情報を生成し、生成した座標情報を対応する画像データと合わせて位置情報記録部502に出力する。
また、人物推定部501は、発話者を推定すると、映像入力部18で取得された画像データから発話者の顔の領域を抽出することで発話者の顔の画像データ内での座標を示す座標情報を生成し、生成した座標情報を対応する画像データと合わせて感情認識部133Aへ出力する。
位置情報記録部502は、人物推定部501から出力された注意対象者の座標情報を用いて、その座標情報に対応する画像データから注意対象者の領域を抽出し、抽出した領域から注意対象者の実空間での重心位置を検出してメモリ121に記録する。
また、位置情報記録部502は、映像入力部18により取得された画像データから注意対象者の手の実空間での位置を検出し、メモリ121に記録する。また、位置情報記録部502は、映像入力部18により取得された画像データにおいて、検出した手の位置に対して例えば最短距離に位置するオブジェクト、あるいは、手と一緒に動くオブジェクトを注意対象者が把持する可能性があるオブジェクトとして検出し、検出したオブジェクトの実空間での位置及び特徴量(例えば、輪郭データ)をメモリ121に記録する。
なお、位置情報記録部502は、事前に設定された手のテンプレート画像や手の色情報を用いて注意対象者の手の位置を検出してもよいし、他の公知の画像認識技術を用いて注意対象者の手の位置を検出してもよい。
状態変化判断部503は、メモリ121に記録された注意対象者の重心位置から、注意対象者の体勢が変化したか否かを判断する。
図6は、注意対象者の重心位置が変化した様子を示す図である。図6において、状態S1は、注意対象者が座っている状態を示し、図6の状態S2は、注意対象者が立っている状態を示す。
図6の状態S1、状態S2のそれぞれにおける人物の重心位置をG1,G2で示す。状態変化判断部503は、例えば、メモリ121に記録された状態S1での重心位置G1と、メモリ121に記録された状態S2での重心位置G2との距離が事前に設定された基準距離以上離れていれば、注意対象者の体勢が変化したと判断すればよい。
また、状態変化判断部503は、メモリ121に記録されたオブジェクトの位置と注意対象者の手の位置とを比較し、手の位置に対して一定範囲内にオブジェクトが存在し続けている間は、注意対象者がオブジェクトを保持している判断する。以後、注意対象者の重心位置と、注意対象者の手の位置と、オブジェクトの位置と、オブジェクトの特徴量とを総称して行動データと呼ぶ。
図7は、注意対象者が把持するオブジェクトOB1を離した様子を示す図である。図7において状態S1は、注意対象者が座った状態で、オブジェクトOB1としてのハサミを手に持っている状態を示す。図7の状態S3は、注意対象者が座った状態のままハサミを床に置いた状態を示す。状態S1では、オブジェクトOB1は、手に対して一定範囲内に位置するので、状態変化判断部503は、注意対象者はオブジェクトOB1を把持していると判断する。一方、状態S2では、オブジェクトOB1は、手に対して一定範囲内に位置していないので、状態変化判断部503は、注意対象者はオブジェクトOB1を把持していないと判断する。
なお、本実施の形態では、注意対象者が注意を受けたタイミングを基準に、注意対象者の体勢が変化したか或いは注意対象者がオブジェクトを離したかによって、注意対象者の行動が変化したか否かが判断できればよい。そのため、本実施の形態は、注意対象者が注意を受けたタイミングから行動データをトラッキングする態様を採用してもよいし、注意対象者が注意を受けたタイミングにおける行動データと、一定時間経過後の行動データとを比較する態様を採用してもよい。
なお、トラッキングする態様を採用した場合、注意対象者が注意を受けたタイミングから一定期間までの注意対象者の重心位置の軌跡から注意対象者の動き(例えば、走り回っている行動や床を飛び跳ねる行動)が分かる。そこで、トラッキングする態様を採用した場合、状態変化判断部503は、一定期間に取得された複数の画像データから注意対象者の動きを検出し、最初の一定期間で検出した動きに対して最新の一定期間で検出した動きが変化した場合、注意対象者の行動が変化したと判断することができる。これにより、走り回っている行動や床を飛び跳ねる行動を行うことで子供が叱られた場合、その叱られた行動を子供が中止したか否かを判断できる。但し、このトラッキングする態様は、計算量が増えるので、計算量を削減するという観点からは、後者の態様を採用することが好ましい。
感情認識部133Aは、人物推定部501から発話者の座標情報と発話者の顔を含む画像データを受信すると、受信した画像データから座標情報を用いて顔画像を抽出し、抽出した顔画像から発話者の怒りの感情を推定する。ここで、感情認識部133Aは、例えば、特許文献2に記載された技術を利用して怒りの感情を推定すればよい。詳細には、感情認識部133Aは、画像データから怒りの感情の確率を示す感情認識結果データを算出する。そして、感情認識部133Aは、実施の形態1で説明した大人の発話の物理的特徴量に重み付け係数αを乗算し、感情認識結果データに重み付け係数βを乗算し、両乗算結果を加算することで両者の重み付け平均値を算出し、算出した重み付け平均値が閾値以上であれば、発話者が怒っていると判断すればよい。
図15は、怒りの表情と喜びの表情との一例を示す図である。図15において、上図は怒りの表情を示し、下図は喜びの表情を示している。怒りの表情では、(i)眉は鼻側の端部が中心に寄って下がり、(ii)目はにらみつける状態になり、(iii)唇はかみしめる状態になるといった特徴が現れる。一方、喜びの表情では、(i)目尻に皺が発生し、(ii)頬が押し上がり、(iii)目の回りの筋肉が動くといった特徴が現れる。そのため、顔の表情から怒りの感情を推定できる。
処理決定部134Aは、感情認識部133Aにより発話者である大人が叱っていると判断された場合において、状態変化判断部503により注意対象者の体勢が変化していない或いは注意対象者がオブジェクトを手に持ち続けていると判断された場合、注意対象者に叱られた行動を中止させるための第2処理を実行する。第2処理としては、以下に示す処理(d)、(e)、(f)の少なくとも1又は複数が採用できる。
・処理(d)
処理(d)は、音出力部15から、叱られた行為を子供に中止させるための応答文の音声や設定音を出力させる処理である。処理(d)では、処理決定部134Aは、子供に叱られた行動を中止させるための応答文を生成し、音声合成部13に出力する。応答文としては、子供に現在何をしているかを尋ねる「何をしているの?」という応答文が採用できる。或いは、応答文としては、現在行っている行為をやめるように子供に促す「あと一回で終わりにしようか」という応答文や「続きはまた今度」という応答文が採用できる。出力された応答文は、音声合成部13により音声データへ変換され、音出力部15から装置1Aの外部に出力される。
或いは、処理(d)では、処理決定部134Aは、終了を促す音(アラーム音)や音楽(例:蛍の光、お片づけの音楽等)等の事前に設定された設定音を出力させる制御コマンドを音制御部14に出力してもよい。この場合、制御コマンドを受信した音制御部14は、事前に記憶している設定音の音声データを音出力部15を介して装置1Aの外部に出力させる。
・処理(e)
処理(e)は、叱られた行為を子供に中止させるための動作を装置1Aにさせる処理である。処理(e)では、処理決定部134Aは、表示部19を注意対象者である子供へ向けるように装置1Aを旋回させる制御コマンドを駆動制御部16へ出力すればよい。この場合、制御コマンドを受信した駆動制御部16は、例えば、制御コマンドが規定する旋回量だけ装置1Aを旋回させることで、表示部19が注意対象者である子供に向かうように装置1Aを駆動させればよい。
詳細には、処理決定部134Aは、まず、装置1Aに対する子供の向きを検出する。装置1に対する子供の向きは、例えば、装置1Aの中心と実空間での子供の位置とを繋ぐ直線と、装置1Aの正面方向とのなす角度によって規定される。装置1Aの正面方向としては、例えば、表示部19の表示面の法線方向が採用できる。
この場合、処理決定部134Aは、画像データから子供の実空間での位置を検出し、検出した位置に基づいて、装置1Aに対する子供の向きを判断すればよい。例えば、処理決定部134Aは、画像データから子供の領域を抽出し、抽出した子供の領域を構成する複数の画素の座標及び深度から実空間での子供の位置を検出すればよい。
そして、処理決定部134Aは、上記の手法により検出した、装置1Aに対する子供の向きを規定する角度を装置1Aの旋回量として決定する制御コマンドを駆動制御部16に出力すればよい。そして、この制御コマンドを受信した駆動制御部16は、制御コマンドが示す旋回量にしたがって装置1Aの駆動輪を駆動させ、表示部19を子供に向かわせればよい。
或いは、処理(e)において、処理決定部134Aは、装置1Aを注意対象者である子供へ近づけるための制御コマンドを駆動制御部16へ出力することで、装置1Aを子供へ近づけさせてもよい。この場合、処理決定部134Aは、上述した方法で子供の実空間での位置を検出し、その位置の方向に表示部19の正面が向くように装置1Aを旋回させ、且つ、その位置の近傍まで装置1Aを移動させる制御コマンドを駆動制御部16に出力すればよい。
或いは、処理決定部134Aは、映像入力部18が取得した画像データに含まれる子供の領域の座標及び深度成分をモニタしながら、表示部19の正面前方が子供の実空間での位置に向かい、且つ、子供と装置1Aとの距離が所定距離以下になるまで、駆動制御部16に制御コマンドを出力してもよい。
・処理(f)
処理(f)は、叱られている行為を子供に中止させるための表示を表示部19に行う処理である。ここで、表示としては、目と口とを含む装置1Aの表情をシンボリックに表す表示において、装置1Aの表情を所定の表情にする表示が採用できる。
処理(f)において、処理決定部134Aは、叱られている行為を子供に中止させるために予め定められた画像を表示部19に表示させるための制御コマンドを表示制御部17へ出力する。この制御コマンドを受信した表示制御部17は、予め定められた画像データをメモリから読み出して表示部19に表示させる。
図14は、子供に叱られている行動の中止を促すための表示例を示す図である。図14の例では、左から順に笑顔及び困惑の表情というように目と口とを用いて人間の感情を表す2つの顔の表情が模式的に示されている。この場合、表示制御部17は、これらの表情を示した画像のうち少なくとも1つの画像の画像データを事前に記憶する。そして、表示制御部17は、処理決定部134Aから制御コマンドを受信すると、これらの顔の表情のうち、事前に定められたいずれか1つの顔の表情の画像データを表示部19に表示させればよい。例えば、笑顔の表情は、子供に現在行っている行動を尋ねることを意図し、困惑の表情は、子供に現在行っている行動の中止を促すことを意図している。ここで、処理決定部134Aは、笑顔の表情を示す画像を表示部19に表示させると同時に、何をしているのかを尋ねる音声を音出力部15から出力させてもよい。或いは、処理決定部134Aは、困惑の表情を示す画像を表示部19に表示させると同時に、現在の行動の中止を促す発話を音出力部15から出力させてもよい。
なお、処理決定部134Aは、上述した処理(d)〜(f)のうち2つ以上を組み合わせて使用してもよい。
図8は、実施の形態2における装置1Aの処理の一例を示すフローチャートである。図9は、図8のS801に示す子供状態認識処理の詳細を示すフローチャートである。以下、図8及び図9を用いて、実施の形態2の装置1Aの処理について説明する。
なお、以下のフローチャートでは、図3に示す実施の形態1のフローチャートと同一の処理については同一の符号を付して説明を省く。
図8において、S305において、大人が叱っていると判断された場合(S305でYES)、実施の形態2では子供状態認識の処理が実行される(S801)。子供状態認識処理の詳細は図9を用いて後ほど説明する。
子供状態認識処理の結果、子供の状態に変化があると判断された場合(S802でYES)、処理がS301に戻され、装置1Aは、再び、音声信号の入力の待機状態になる。一方、子供の状態に変化がないと判断された場合(S802でNO)、処理決定部134Aは、子供に叱られた行為の中止を促す第2処理を実行する(S803)。具体的には、上述した処理(d)〜(f)のうちのいずれか1又は複数が実行される。S803の処理が終了すると処理はS301に戻される。
なお、ここでは、大人の状態認識処理により、一度、大人が叱っていると判断されると、処理決定部134Aは、処理(d)〜(f)のいずれか1又は複数の処理を実行した。これは一例であり、叱りが複数回検出された場合、或いは、叱りが一定期間内に連続して複数回検出された場合に、処理決定部134Aは、処理(d)〜(f)のいずれか1又は複数の処理を実行してもよい。或いは、処理決定部134Aは、一定期間内に叱りが複数回検出された場合、回数が増大するにつれて、処理内容を変更してもよい。例えば、処理決定部134は、1回目の叱りでは、処理(d)〜(f)のうち、いずれか1の処理を実行し、2回目の叱りでは処理(d)〜(f)のうち、1回目で実行した処理とは別の処理を追加して実行し、3回目の叱りでは2回目で実行した処理とは別の処理を追加して実行するようにしてもよい。
次に、図9を用いて子供状態認識処理の一例を説明する。まず、人物推定部501は、映像入力部18が取得した画像データから注意対象者である子供を発見する(S901)。ここで、人物推定部501は、映像入力部18が取得した画像データから、画像データに含まれる人物の顔の特徴量を抽出し、抽出した顔の特徴量と、メモリ121に事前に記憶されている子供の顔の特徴量とを、パターンマッチング等の公知の手法を用いて比較し、画像データに子供が含まれていれば、画像データから注意対象者である子供が発見できたと判断すればよい。
人物推定部501は、注意対象者である子供が発見できなかった場合(S901でNO)、処理決定部134Aは、装置1Aを旋回させて映像入力部18に別のアングルでの画像データを取得させるための制御コマンドを駆動制御部16に出力し(S902)、処理をS901に戻す。この場合、処理決定部134Aは、装置1Aの旋回量を所定量だけ増加させる制御コマンドを駆動制御部16に出力することで、装置1Aを旋回させればよい。S901、S902の処理が繰り返されることで、画像データから注意対象者である子供が発見される。
注意対象者である子供が発見された場合(S901でYES)、位置情報記録部502は、メモリ121を参照し、X分以内に記録が開始された注意対象者の行動データの記録があるか否かを判断する(S903)。ここで、X分は、注意対象者がある問題行動に対して叱られた場合、その問題行動をやめて別の行動をとるまでの期間を想定したもので、例えば、1分、2分、3分、4分、5分等である。
X分以内に記録が開始された注意対象者の行動データがメモリ121に記録されていなければ(S903でNO)、位置情報記録部502は、処理をS904に進める。S904では、位置情報記録部502は、注意対象者の行動データの記録を開始する。例えば、注意対象者が初めて叱られたような場合や、注意対象者の行動データの記録が開始されてから今回叱られるまでの時間がX分を超えているような場合、S903でNOと判断される。
具体的には、S904では、位置情報記録部502は、注意対象者の重心位置と、注意対象者の手の位置と、その時点で手に持っていたオブジェクトの位置と、このオブジェクトの特徴量とを行動データとしてメモリ121に記録する。S904の処理が終了すると処理は図8のS301に戻される。
一方、S903において、X分以内に記録が開始された注意対象者の行動データがメモリ121記録されていれば(S903でYES)、状態変化判断部503は、注意対象者の重心位置をメモリ121から取得する(S905)。
次に、状態変化判断部503は、メモリ121から取得した重心位置と、現在の注意対象者の重心位置とを比較することで、注意対象者の体勢が変化したか否かを判断する(S906)。
ここで、状態変化判断部503は、例えば、X分の計時を開始した時点の重心位置と、現在の注意対象者の重心位置との距離が基準距離以上であれば、注意対象者の体勢が変化したと判断すればよい。
或いは、状態変化判断部503は、X分の計時を開始してから現在までの期間においてメモリ121に記録された重心位置の変化から注意対象者の動きのパターンを検出し、検出した動きのパターンを解析することで注意対象者の体勢が変化したと判断してもよい。
なお、本フローチャートは、注意対象者が1度叱られてからX分の期間が経過するまでに問題行動をやめて別の行動をとることを想定している。したがって、本フローチャートは、1回目に叱られてからX分経過するまでに再度叱られた場合、S903でYESと判定し、S905以降の注意対象者の体勢の変化を検出する処理に進む。一方、本フローチャートは、X分経過後に再度叱られた場合、再度叱られた場合の行動は1回目の叱りとは別の叱りに関連する問題行動を注意対象者は行っているとみなし、別の叱りに関連する行動データの記録を開始するべくS903でNOと判定し、処理をS904に進めている。
状態変化判断部503は、重心位置の変化から注意対象者の体勢に変化があると判断した場合(S906でYES)、注意対象者の状態に変化がある、すなわち、注意対象者が叱られている行動を中止したと判断する(S910)。この判断結果は、大人が叱ることにより、子供が叱られた行動を中止したことを意味する。
一方、状態変化判断部503は、重心位置の変化から注意対象者の体勢に変化がないと判断した場合(S906でNO)、処理をS907に進める。
状態変化判断部503は、注意対象者の手の位置とオブジェクトの位置とオブジェクトの特徴量とをメモリ121から取得する(S907)。
次に、状態変化判断部503は、X分の計時の開始時において把持していたオブジェクトと特徴量が同じオブジェクトを注意対象者が現在も把持しているか否かを判定する(S908)。X分の計時の開始時において把持していたオブジェクトと特徴量が同じオブジェクトを現在も注意対象者が把持していれば(S908でNO)、状態変化判断部503は、注意対象者の子供の状態に変化がないと判断する(S911)。この判断結果は、大人が叱ったにもかかわらず、子供が叱られた行動を継続していることを意味する。
一方、状態変化判断部503は、X分の計時の開始時において把持していたオブジェクトと特徴量が同じオブジェクトを注意対象者が、現在把持していないと判断した場合(S908でYES)、処理をS909に進める。
次に、状態変化判断部503は、注意対象者の手の動きが叱られたときと現在とで異なる、或いは、オブジェクトの動きが叱られたときと現在とで異なるか否かを判断する(S909)。ここで、状態変化判断部503は、例えば、X分の計時を開始してから現在までの期間内において、メモリ121に記録された手の位置及びオブジェクトの位置から手の動きのパターン及びオブジェクトの動きのパターンを解析し、両動きのパターンのうち一方の動きのパターンに変化が見られれば、S909でYESと判定すればよい。これにより、例えば、ボールをついてるような遊びを子供が叱られても継続しているか否かを判断できる。
注意対象者の手の動き及びオブジェクトの動きの少なくとも一方が、叱られたときと現在とで異なっていれば(S909でYES)、状態変化判断部503は、注意対象者の状態が変化したと判断する(S910)。一方、注意対象者の手の動き及びオブジェクトの動きの両方が叱られたときと現在とで同じであれば(S909でNO)、状態変化判断部503は、注意対象者の状態は変化していないと判断する(S911)。
このように、実施の形態2では、状態変化判断部503は、大人が子供に対して叱っていると判断された場合、且つ、画像データに含まれるユーザが子供であると判断された場合は、画像データに基づいて、大人の発話が認識された後のX分の期間(第2期間の一例)内において子供の体勢が変化したか否かを判断する。そして、状態変化判断部503は、子供の体勢が変化していないと判断した場合は、画像データに基づいて、X分の期間内において、子供が手にオブジェクトを持ち続けているか判断する。
これにより、子供が叱られた場合において、子供が叱られている行為を継続しているか否かを判断できる。
そして、処理決定部134Aは、子供の体勢が変化していないと判断された場合、または子供が手にオブジェクトを持ち続けていると判断された場合は、上記の処理(d)〜(f)のいずれか1又は複数を実行する。そのため、子供が叱られた行動を継続している場合、その行動の中止を子供に促すことができる。
なお、図8、図9のフローチャートでは、1度叱られてからX分の期間内に再度叱られた場合に実行される図9のフローチャートにおいて、子供の状態が変化したか否かが判断されている。言い換えれば、図8、図9のフローチャートは、X分の期間内に再度叱られなければ、子供は叱られた行動を中止したとみなしている。
但し、これは一例であり、1度叱られてからX分の期間内に再度叱られなくても、子供の体勢が変化しない、或いは、子供がオブジェクトを手から離さなければ、第2処理が実行されてもよい。この場合、図9のS904の処理が終了すると処理をS901に戻せばよい。
また、図9のフローチャートでは、S903において、X分以内前に記録が開始されていれば、YESと判定されてるが、X分の記録の終了後にYESと判定する態様が採用されてもよい。この場合、X分の行動データの記録中に注意対象者が叱られたとしても、S903でNOと判定され記録が継続される(S904)。一方、X分の経過後に注意対象者が叱られた場合、S903でYESと判定され、S906以降の注意対象者の体勢が変化したか否かの処理が実行されることになる。この態様を採用した場合、X分が経過する前に注意対象者が再度叱られたとしても、S906以降の処理が実行されないので、処理ステップを削減できる。
(実施の形態3)
図10は、実施の形態3におけるロボット1001の一例を示す外観図である。実施の形態3は、実施の形態2に係る装置1Aをロボット1001に適用したものである。なお、本実施の形態において、実施の形態1,2と同一の構成要素には同一の符号を付し説明を省略する。
ロボット1001は、図10に示すように球体状のメイン筐体1002と、メイン筐体1002の左右両側に設けられた一対の球冠部1003とを備えている。メイン筐体1002と一対の球冠部1003とは全体として球体を構成する。即ち、ロボット1001は球体形状を有する。右方の球冠部1003は、カメラ1004とマイク1005とスピーカー1006とを備える。左方の球冠部1003はカメラ1004を備える。メイン筐体1002は、内部(図示せず)に備えつけられた表示部1007から照射される光を透過することで、ロボット1001の表情を表出することができる。また、ロボット1001は、図10には図示しないが、制御回路を備える。カメラ1004は、2つのカメラを用いたステレオカメラであり、周辺環境の映像と距離分布とを示す距離画像データを取得する。制御回路は、ロボット1001の各種動作を制御する。なお、本態様において、ロボット1001は、全体として球体を構成しているが、これに限られるものではなく、少なくとも移動機構を有した構成を備えれば良い。
図11は、ロボット1001の電気的な構成の一例を示す図である。ロボット1001は、マイク1005、カメラ1004、センサ1009、主制御部122B、メモリ121、音声合成部13、音制御部14、スピーカー1006、駆動制御部16、駆動部1008、表示制御部17、及び表示部1007を備える。
マイク1005は、実施の形態1の音声入力部11にあたり、状況判断部1103の話者判断部131(図1、図5)へ音声データを出力する。
カメラ1004は、実施の形態1,2の映像入力部18にあたり、状況判断部1103の人物推定部501(図5)へ画像データと距離データを出力する。
センサ1009は、ロボット1001が備える各種センサを含み、ここでは一例として、加速度センサを含む。加速度センサは、例えば、ロボット1001の左右方向に対応するX軸と、ロボット1001の前後方向に対応するY軸と、ロボット1001の上下方向に対応するZ軸との3軸の加速度を計測できる加速度センサで構成され、ロボット1001の内部に設置される。
音声合成部13は、前述の実施の形態同様、テキストデータを音声データに変換する。音制御部14は、前述の実施の形態同様、音や音楽のデータを保持及び管理し、主制御部122Bから送信される制御コマンドに応じて音や音楽のデータをスピーカー1006へ出力する。
スピーカー1006は、前述の実施の形態の音出力部15にあたり、音声データを出力する。
駆動制御部16は、主制御部122Bから送信される制御コマンドに応じて、駆動部1008を駆動させる。送信される制御コマンドは、例えばユーザの探索のコマンドであれば、ロボット1001は、周辺を見わたすように旋回する。
駆動部1008は、球体状のメイン筐体1002を回転させることで、前進と後進ができる。また、メイン筐体1002の内部の重心位置を、内蔵した振り子により変更することで旋回運動ができる。詳細には、駆動部1008は、ロボット1001の正面から見て、重心位置を左又は右にずらした状態でメイン筐体1002を回転させることで、ロボット1001を旋回させることができる。なお、このような駆動機構は一例であり、他の駆動処理であってもよい。例えば、駆動部1008が、ロボット1001を前進又は後進させるための一対の車輪で構成されているのであれば、駆動部1008は一方の車輪の回転速度と他方の車輪の回転速度とを変えることで、ロボット1001を旋回させることができる。或いは、駆動部1008が一対の車輪を操舵できる機構を備えているのであれば、駆動部1008は一対の車輪の操舵角を変えることでロボット1001を旋回させることができる。
表示制御部17は、主制御部122Bから送信される制御コマンドに応じて、ロボット1001の表示部1007に表示する。送信される制御コマンドは、例えば笑顔の制御コマンドであれば、目の位置の表示部1007及び口の位置の表示部1007のそれぞれに、笑顔の目及び口の画像を表示するよう指示する。
表示部1007は、ロボット1001の内部(図示せず)に備えつけられたLEDパネルや液晶パネルのような表示デバイスである。図10の例では、ロボット1001は、2つの目に対応する2つの表示部1007と、1つの口に対応する1つの表示部1007とを備える。
主制御部122Bは、筐体状態判断部1101、UX制御部1102、及び状況判断部1103を備える。
筐体状態判断部1101は、センサ1009の加速度センサが計測した加速度から、筐体がユーザにより抱えられているか否かを判断する。筐体状態判断部1101は、駆動制御部16から、現在、筐体が駆動状態にあるか否かを示す情報を取得する。また、筐体状態判断部1101は、駆動部1008が駆動していない状態において、加速度センサから出力されたZ軸方向の加速度を示す第1値が所定の閾値を越えた後、第1値と、Y軸方向の加速度を示す第2値と、X軸方向の加速度を示す第3値とのいずれかが一定期間、所定幅を超えて変動していると判断した場合、ロボット1001がユーザに抱えられている(抱っこされている)と判断する。
なお、筐体状態判断部1101は、ロボット1001が抱えられているか否かを判断する際に、駆動制御部16へ駆動を停止する制御コマンドを送り、駆動を停止させてから、上記のロボット1001が抱えられているか否かを判断する処理を実行してもよい。また、筐体状態判断部1101は誰に抱えられているかを判断するため、カメラ1004での顔認識処理や、ユーザに「ねぇねぇ」などと問いかけ、そのときのユーザが応答した声からユーザが誰であるかを判断してもよい。この場合、筐体状態判断部1101は、カメラ1004が取得した画像データからユーザの顔の特徴量を抽出し、抽出した特徴量と、メモリ121に事前に記録されたユーザの顔の特徴量とを比較することで、ロボット1001を抱えたユーザを判断すればよい。或いは、筐体状態判断部1101は、マイク1005が取得した音声信号からユーザの声紋を抽出し、抽出した声紋とがメモリ121に事前に記録された声紋と比較することで、ロボット1001を抱えたユーザを判断すればよい。
UX制御部1102は、ロボット1001が提供する複数のコンテンツを管理する。コンテンツは、ロボット1001の駆動パターンや、表示部1007への表示パターンや、ロボットの応答文の出力パターン等を規定する。コンテンツの一例としては、ロボット1001を歌わせながら踊らせるようなコンテンツ等が含まれる。UX制御部1102は、例えば、音楽を再生しながら、再生した音楽のリズムに合わせてロボット1001を踊らせるような駆動制御を行う。また、UX制御部1102は、再生した音楽の歌詞やリズムにあわせて表示部1007に表示する表情を変更させると共に、一緒に歌うようにユーザを促す発話をロボット1001に行わせる。
UX制御部1102は、ロボットが提供しているコンテンツを管理すると共に、そのコンテンツで一緒に遊ぶユーザの情報を保持する。
状況判断部1103は、前述の実施の形態における12Aにあたる。本実施の形態では、状況判断部1103は、筐体状態判断部1101及びUX制御部1102より取得したロボット1001の状態を考慮した状況判断を行う。
図12は、実施の形態3におけるロボット1001の処理の一例を示すフローチャートである。以下、図12を用いて、保育者である大人が子供を叱っているのか、怒っているのかを判断し、その際にロボット1001の状態や、注意対象者がロボット1001と遊んでいて注意をうけているか否かを判断する方法について説明する。
なお、以下の説明では、説明の簡略化のため上記実施の形態と同一の処理については同一の符号を付けて説明を簡略化する。
大人状態認識処理によって、保育者である大人が叱っていると判断された場合(S305でYES)、筐体状態判断部1101は、センサ1009が取得した加速度を用いて、現在、ロボット1001が抱えられているか否かを判断する(S1210)。
筐体状態判断部1101は、現在、ロボット1001が抱えられていると判断した場合(S1210でNO)、抱えているユーザが注意を受けている注意対象者であるか否かを判断する(S1211)。この場合、筐体状態判断部1101は、映像入力部18が取得した画像データからロボット1001を抱えているユーザの顔の特徴量を抽出し、抽出した顔の特徴量が注意対象者の顔の特徴量と一致すれば、ロボット1001を抱えているユーザが注意対象者であると判断すればよい。或いは、筐体状態判断部1101は、ロボット1001を抱えたユーザからの声をマイク1005に取得させ、その声の声紋が注意対象者の声紋と一致すれば、ロボット1001を抱えているユーザが注意対象者であると判断すればよい。なお、注意対象者の顔の特徴量及び声紋は、メモリ121に事前に記録されたものが用いられればよい。
一方、筐体状態判断部1101がロボット1001を抱えているユーザが注意対象者であると判断した場合(S1211でNO)、状況判断部1103の処理決定部134Aは、注意対象者へ通知する応答文のテキストデータを生成する(S1212)。生成された応答文のテキストデータは、音声合成部13によって音声に変換されスピーカー1006から出力される。なお、ここでは、注意対象者への応答文として、ロボット1001を抱えている注意対象者にロボット1001を離すことを促す応答文が採用できる。一例としては「僕のことをおろしてくれない?」というような応答文が採用できる。これにより、ロボット1001を抱えて遊ぶことで叱られた注意対象者が遊びを中止しない場合に、注意対象者に遊びの中止を促すことができる。なお、S1211でYESと判断された場合、処理はS1213へ進む。
一方、筐体状態判断部1101がロボット1001が抱えられていないと判断した場合(S1210でYES)、状況判断部1103の処理決定部134Aは、UX制御部1102から、現在実行されているコンテンツで遊んでいるユーザの情報を取得し、取得したユーザの情報から、現在実行されているコンテンツで遊んでいるユーザが注意対象者であるか否かを判断する(S1213)。
現在実行されているコンテンツで遊んでいるユーザが注意対象者であれば(S1213でYES)、状況判断部1103の処理決定部134Aは、コンテンツの終了処理をUX制御部1102に実行させる(S1214)。これにより、ロボット1001を抱えてはいないが、ロボット1001との遊びが叱られた注意対象者にロボット1001との遊びを中止させるように促すことができる。
一方、コンテンツで遊んでいるユーザが注意対象者でなければ(S1213でNO)、子供状態認識処理を実施する(S801)。なお、図12の例では、現在実行されているコンテンツを遊んでいるユーザが注意対象者である場合(S1213でYES)、コンテンツの終了処理が実行されているが(S1214)、これは一例である。処理決定部134Aは、現在実行しているコンテンツとは別のコンテンツを実行するように、UX制御部1102に指示してもよい。このとき、UX制御部1102は、叱った大人に別のコンテンツを実施していいか確認し、大人から了承が得られた場合、別のコンテンツを実行すればよい。
(変形例1)
本開示では、子供に注意するユーザ又は注意されるユーザを事前に設定する態様が採用されてもよい。この態様では、事前に設定されたユーザが注意をしていることを検出した場合、そのユーザが叱っているのか怒っているのかを判断し、怒っているのであれば、第1処理を実行すればよい。また、この態様では、事前に設定されたユーザが叱られていることが検出された場合、第2処理が実行されればよい。
この態様によれば、例えば、来客中において、事前に設定されたユーザである大人が子供を注意した場合、注意した大人を特定する処理が容易になる。また、例えば、複数の子供がいる場合に、注意された子供を判断する処理が容易になる。
(変形例2)
前述の実施の形態においては、大人が怒っていると判断された場合、大人へ第1処理を行う態様が採用されたが、本開示はこれに限定されない。例えば、怒っている大人の顔を撮影してメモリに保存しておき(以下、処理(g)と呼ぶ。)、後で怒った大人が、スマートフォンなどの外部端末を用いて、怒ったときの表情を閲覧できるようにしてもよい。この態様によれば、大人は、普段自分ではみることができない、自身が子供を怒っているときの表情を客観的に確認することができる。
(変形例3)
前述の実施の形態において、大人が怒っていると判断された場合、または、叱っていると判断された場合、それぞれの判断時の日時と注意した人物と、注意された人物と、怒り或いは叱りの判断結果等をメモリに記録する態様が採用されてもよい。この場合、メモリに記録された情報は、子供の成長記録として活用できる。
(変形例4)
図1、図5において、装置1は、音出力部15、表示部19、及び映像入力部18を備えているが、これらのうちの少なくとも1つを備えていればよい。
実施の形態1、2において、装置1は、音出力部15を備える場合、処理(b)、(a)の少なくとも一方を実行し、表示部19を備える場合、処理(b)、(c)の少なくとも一方を実行し、映像入力部18を備える場合、処理(b)、(g)の少なくとも一方を実行すればよい。
また、実施の形態2において、装置1は、音出力部15を備える場合、処理(e)、(d)の少なくとも一方を実行し、表示部19を備える場合、処理(e)、(f)の少なくとも一方を実行すればよい。
本開示によれば、大人が子供を怒った場合、そのことを大人に気づかせることができるので、教育用のロボットに関する技術分野で利用できる。
OB1 オブジェクト
1,1A 装置
11 音声入力部
12,12A 状況判断装置
13 音声合成部
14 音制御部
15 音出力部
16 駆動制御部
17 表示制御部
18 映像入力部
19 表示部
121 メモリ
122,122A,122B 主制御部
131 話者判断部
132,132A 音声認識部
133,133A 感情認識部
134,134A 処理決定部
141 注意語辞書
501 人物推定部
502 位置情報記録部
503 状態変化判断部
1001 ロボット
1002 メイン筐体
1003 球冠部
1004 カメラ
1005 マイク
1006 スピーカー
1007 表示部
1008 駆動部
1009 センサ
1101 筐体状態判断部
1102 UX制御部
1103 状況判断部

Claims (23)

  1. 音声を処理する装置であって、
    前記装置周辺の音を取得するマイクと、
    メモリと、
    前記取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断部と、
    前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識部と、
    前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
    前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断部と、
    前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御部とを備えるとともに、
    スピーカーと、
    ディスプレイと、
    前記装置周辺の映像データを取得するカメラと
    のいずれか、を更に備え、
    前記装置が前記スピーカーを備えている場合は、前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
    前記装置が前記ディスプレイを備えている場合は、前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
    前記装置が前記カメラを備えている場合は、前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含む、
    装置。
  2. 前記第1音は、所定のアラーム音を含む、
    請求項1記載の装置。
  3. 前記第1音は、前記大人が怒っていることを前記大人に通知する音声を含む、
    請求項1記載の装置。
  4. 前記第1音は、前記大人に怒りを解放するよう促す音声を含む、
    請求項1記載の装置。
  5. 前記第1動作は、前記ディスプレイを前記大人に対向させる動作を含む、
    請求項1記載の装置。
  6. 前記第1動作は、前記装置が前記大人に向かう動作を含む、
    請求項1記載の装置。
  7. 前記第1動作は、前記装置が左右に揺れる動作を含む、
    請求項1記載の装置。
  8. 前記第1表示は、前記装置の目と口とをシンボリックに表す表示を含み、
    前記表示は前記装置の所定の表情に対応する、
    請求項1記載の装置。
  9. 前記所定の表情は、悲しみの表情、驚きの表情、困惑の表情、怒りの表情のいずれかを含む、
    請求項8記載の装置。
  10. 前記第2判断部は、前記大人の発話の物理的特徴量が複数回閾値を超える場合に、前記大人が怒っていると判断する、
    請求項1記載の装置。
  11. 前記物理的特徴量は、前記音声の周波数、前記音声のパワー、前記発話の速度、前記発話の時間、のいずれかを含む、
    請求項10記載の装置。
  12. 前記装置が前記カメラを備えている場合、
    前記第2判断部は、前記大人が怒っていると一旦判断された後の第1期間における前記映像データに基づいて、前記大人が怒り及び悲しみ以外の表情をしていると判断する場合は、前記大人は叱っていると判断する、
    請求項1記載の装置。
  13. 前記音声認識部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれているか否かを、前記メモリに記憶された前記子供の名前を示すデータに基づいて判断し、
    前記第2判断部は、更に、前記大人の発話に前記子供の名前に対応する語句が含まれていると判断された場合は、前記子供を、前記大人が叱っているまたは怒っている対象者であると更に判断し、
    前記装置が前記カメラを備えている場合、
    前記映像データに含まれる人物が前記子供であるか否かを、前記メモリに記憶された前記子供に対応する映像データに基づいて判断する第3判断部と、
    前記大人が前記子供に対して叱っていると判断された場合、且つ、前記映像データに含まれる人物が前記子供であると判断された場合は、前記映像データに基づいて、前記大人の発話が認識された後の第2期間において前記子供の体勢が変化したか判断し、前記子供の体勢が変化していないと判断された場合は、前記映像データに基づいて、前記第2期間において前記子供が手にオブジェクトを持ち続けているか判断する第4判断部と、を更に備え、
    前記第2期間において、前記子供の体勢が変化していないと判断された場合、または、前記子供が手に前記オブジェクトを持ち続けていると判断された場合は、前記制御部は、前記装置に対して第2処理をさせ、
    前記装置が前記スピーカーを備えている場合は、
    前記第2処理は、(i)前記スピーカーに第2音を出力させる処理、(ii)前記装置に第2動作をさせる処理、のいずれかを含み、
    前記装置が前記ディスプレイを備えている場合は、
    前記第2処理は、(i)前記装置に第2動作をさせる処理、(ii)前記ディスプレイに第2表示をさせる処理、のいずれかを含む、
    請求項1記載の装置。
  14. 前記第2音は、所定のアラーム音を含む、
    請求項13記載の装置。
  15. 前記第2音は、所定の音楽を含む、
    請求項13記載の装置。
  16. 前記第2音は、前記子供に対して、前記子供が現在行っている行為をやめるように促す音声を含む、
    請求項13記載の装置。
  17. 前記第2音は、前記子供に対して、現在何をしているのか尋ねる音声を含む、
    請求項13記載の装置。
  18. 前記第2動作は、前記ディスプレイを前記子供に対向させる動作を含む、
    請求項13記載の装置。
  19. 前記第2動作は、前記装置が前記子供に向かう動作である、
    請求項13記載の装置。
  20. 前記第2表示は、前記装置の目と口とをシンボリックに表す表示を含み、
    前記表示は前記装置の所定の表情に対応する、
    請求項13記載の装置。
  21. 請求項1記載の装置を備えるロボット。
  22. メモリと、マイクと、ディスプレイ、スピーカー、及びカメラのいずれかとを備える装置における音声を処理する方法であって、
    前記マイクにより取得された音から音声を抽出し、前記音声に大人の発話が含まれるか判断する第1判断ステップと、
    前記音声に大人の発話が含まれていると判断された場合、前記大人の発話を認識し、前記メモリに記憶された辞書に含まれる語句が前記大人の発話に含まれるか判断する音声認識ステップと、
    前記辞書は、前記大人が子供を注意する際に使用されうる語句を含み、
    前記大人の発話に前記辞書に含まれる語句が含まれると判断された場合、前記大人の発話の物理的特徴量に基づいて、前記大人が怒っているか、叱っているかを判断する第2判断ステップと、
    前記大人が怒っていると判断された場合は、前記装置に対して第1処理をさせる制御ステップとを備え、
    前記装置が前記スピーカーを備えている場合は、
    前記第1処理は、(i)前記スピーカーに第1音を出力させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
    前記装置が前記ディスプレイを備えている場合は、
    前記第1処理は、(i)前記ディスプレイに第1表示をさせる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含み、
    前記装置が前記カメラを備えている場合は、
    前記第1処理は、(i)前記カメラに前記大人を撮影させる処理、(ii)前記装置に第1動作をさせる処理、のいずれかを含む、
    方法。
  23. 請求項22に記載の方法をコンピュータに実行させるためのプログラム。
JP2017044325A 2017-03-08 2017-03-08 装置、ロボット、方法、及びプログラム Active JP6751536B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017044325A JP6751536B2 (ja) 2017-03-08 2017-03-08 装置、ロボット、方法、及びプログラム
US15/899,372 US10702991B2 (en) 2017-03-08 2018-02-20 Apparatus, robot, method and recording medium having program recorded thereon
EP18158731.2A EP3373301A1 (en) 2017-03-08 2018-02-27 Apparatus, robot, method and recording medium having program recorded thereon
CN201810170121.9A CN108573695B (zh) 2017-03-08 2018-03-01 语音处理装置及其方法、机器人及计算机可读取记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017044325A JP6751536B2 (ja) 2017-03-08 2017-03-08 装置、ロボット、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018146898A JP2018146898A (ja) 2018-09-20
JP6751536B2 true JP6751536B2 (ja) 2020-09-09

Family

ID=61526555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017044325A Active JP6751536B2 (ja) 2017-03-08 2017-03-08 装置、ロボット、方法、及びプログラム

Country Status (4)

Country Link
US (1) US10702991B2 (ja)
EP (1) EP3373301A1 (ja)
JP (1) JP6751536B2 (ja)
CN (1) CN108573695B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6751536B2 (ja) * 2017-03-08 2020-09-09 パナソニック株式会社 装置、ロボット、方法、及びプログラム
CN107015781B (zh) * 2017-03-28 2021-02-19 联想(北京)有限公司 语音识别方法和系统
CN109421044A (zh) * 2017-08-28 2019-03-05 富泰华工业(深圳)有限公司 智能机器人
US10621983B2 (en) 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
EP3832019B1 (en) 2018-08-03 2023-08-30 Sumitomo (S.H.I.) Construction Machinery Co., Ltd. Asphalt finisher and asphalt finisher monitoring system
JP6992725B2 (ja) * 2018-10-22 2022-01-13 日本電信電話株式会社 パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
CN111199732B (zh) * 2018-11-16 2022-11-15 深圳Tcl新技术有限公司 一种基于情感的语音交互方法、存储介质及终端设备
JP7370531B2 (ja) * 2019-02-26 2023-10-30 株式会社日立製作所 応答装置および応答方法
KR20210020312A (ko) * 2019-08-14 2021-02-24 엘지전자 주식회사 로봇 및 그의 제어 방법
JP2021097765A (ja) * 2019-12-20 2021-07-01 株式会社東海理化電機製作所 制御装置およびプログラム
JP7287301B2 (ja) * 2020-02-06 2023-06-06 トヨタ自動車株式会社 死角情報取得装置、死角情報取得方法、車両及びプログラム
US11170800B2 (en) * 2020-02-27 2021-11-09 Microsoft Technology Licensing, Llc Adjusting user experience for multiuser sessions based on vocal-characteristic models
US20240127796A1 (en) * 2021-02-18 2024-04-18 Nippon Telegraph And Telephone Corporation Learning apparatus, estimation apparatus, methods and programs for the same

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4914295B1 (ja) 1969-01-27 1974-04-06
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6721704B1 (en) * 2001-08-28 2004-04-13 Koninklijke Philips Electronics N.V. Telephone conversation quality enhancer using emotional conversational analysis
JP4015424B2 (ja) 2002-01-09 2007-11-28 アルゼ株式会社 音声ロボットシステム
JP4169712B2 (ja) * 2004-03-03 2008-10-22 久徳 伊藤 会話支援システム
JP2005283647A (ja) 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 感情認識装置
JP2005352154A (ja) * 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
JP2006123136A (ja) 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International コミュニケーションロボット
WO2009031486A1 (ja) * 2007-09-06 2009-03-12 Olympus Corporation ロボット制御システム、ロボット、プログラム及び情報記憶媒体
JP2009131928A (ja) 2007-11-30 2009-06-18 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
JP2009104020A (ja) * 2007-10-25 2009-05-14 Panasonic Electric Works Co Ltd 音声認識装置
WO2012120959A1 (ja) * 2011-03-04 2012-09-13 株式会社ニコン 電子機器、処理システム及び処理プログラム
US8837687B2 (en) * 2011-07-14 2014-09-16 Intellisist, Inc. Computer-implemented system and method for matching agents with callers in an automated call center environment based on user traits
US8903176B2 (en) * 2011-11-14 2014-12-02 Sensory Logic, Inc. Systems and methods using observed emotional data
JP5727980B2 (ja) * 2012-09-28 2015-06-03 株式会社東芝 表現変換装置、方法およびプログラム
US8972313B2 (en) * 2012-10-01 2015-03-03 Korea Institute Of Industrial Technology Apparatus and method for learning emotion of robot
US9846843B2 (en) * 2013-10-30 2017-12-19 Georgia Tech Research Corporation Methods and systems for facilitating interactions between a robot and user
US20150298315A1 (en) * 2013-11-21 2015-10-22 Origami Robotics, Inc. Methods and systems to facilitate child development through therapeutic robotics
CN103679203B (zh) * 2013-12-18 2015-06-17 江苏久祥汽车电器集团有限公司 机器人的人脸检测与情感识别系统及方法
KR20150123579A (ko) * 2014-04-25 2015-11-04 삼성전자주식회사 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치
US10068588B2 (en) * 2014-07-21 2018-09-04 Microsoft Technology Licensing, Llc Real-time emotion recognition from audio signals
CN105615902A (zh) * 2014-11-06 2016-06-01 北京三星通信技术研究有限公司 情绪监控方法和装置
CN104538043A (zh) * 2015-01-16 2015-04-22 北京邮电大学 一种通话中实时情感提示装置
CN104616666B (zh) * 2015-03-03 2018-05-25 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
WO2016169594A1 (en) * 2015-04-22 2016-10-27 Longsand Limited Web technology responsive to mixtures of emotions
US10811005B2 (en) * 2015-06-19 2020-10-20 Lenovo (Singapore) Pte. Ltd. Adapting voice input processing based on voice input characteristics
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN105244023A (zh) * 2015-11-09 2016-01-13 上海语知义信息技术有限公司 课堂教学中教师情绪的提醒系统及方法
CN106910513A (zh) * 2015-12-22 2017-06-30 微软技术许可有限责任公司 情绪智能聊天引擎
US10129510B2 (en) * 2016-02-18 2018-11-13 Samsung Electronics Co., Ltd. Initiating human-machine interaction based on visual attention
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
CN106361356A (zh) * 2016-08-24 2017-02-01 北京光年无限科技有限公司 情绪监控和预警方法及系统
CN106372604A (zh) * 2016-08-31 2017-02-01 北京光年无限科技有限公司 智能机器人检测负面情绪的方法及系统
JP6795387B2 (ja) * 2016-12-14 2020-12-02 パナソニック株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
US10497360B2 (en) * 2017-02-21 2019-12-03 Sony Corporation Personalized assistance system based on emotion
JP6751536B2 (ja) * 2017-03-08 2020-09-09 パナソニック株式会社 装置、ロボット、方法、及びプログラム
US11069444B2 (en) * 2017-10-11 2021-07-20 International Business Machines Corporation Personal assistant computing system monitoring

Also Published As

Publication number Publication date
US20180257236A1 (en) 2018-09-13
JP2018146898A (ja) 2018-09-20
CN108573695B (zh) 2023-04-07
EP3373301A1 (en) 2018-09-12
CN108573695A (zh) 2018-09-25
US10702991B2 (en) 2020-07-07

Similar Documents

Publication Publication Date Title
JP6751536B2 (ja) 装置、ロボット、方法、及びプログラム
US11858118B2 (en) Robot, server, and human-machine interaction method
US10733992B2 (en) Communication device, communication robot and computer-readable storage medium
US20190172448A1 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
JP5982840B2 (ja) 対話装置、対話プログラムおよび対話方法
KR20200130231A (ko) 신경 상태의 검출을 위해 생체 센서 데이터를 사용하여 라이브 엔터테인먼트를 디렉팅
CN113454708A (zh) 语言学风格匹配代理
US20200027455A1 (en) Dialog system, dialog method, dialog apparatus and program
JP2005237561A (ja) 情報処理装置及び方法
JP2004310034A (ja) 対話エージェントシステム
CN111475206B (zh) 用于唤醒可穿戴设备的方法及装置
JP2008139762A (ja) プレゼンテーション支援装置および方法並びにプログラム
JP2018091954A (ja) 音声認識装置、及び音声認識方法
JP5294315B2 (ja) 対話活性化ロボット
JP2018062042A (ja) コミュニケーション装置
US12105876B2 (en) System and method for using gestures and expressions for controlling speech applications
WO2024054714A1 (en) Avatar representation and audio generation
TW200929108A (en) Limb interactively learning method and apparatus
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
WO2020116356A1 (ja) ロボット、音声合成プログラム、及び音声出力方法
WO2019198299A1 (ja) 情報処理装置及び情報処理方法
JP6977463B2 (ja) 通信装置、通信システムおよびプログラム
US20240078732A1 (en) Avatar facial expressions based on semantical context
JP2023036050A (ja) 支援装置、支援方法、支援システムおよびプログラム
JP2024159728A (ja) 電子機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191003

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200804

R151 Written notification of patent or utility model registration

Ref document number: 6751536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151