Nothing Special   »   [go: up one dir, main page]

JP5526134B2 - 周辺電話技術システムにおける会話検出 - Google Patents

周辺電話技術システムにおける会話検出 Download PDF

Info

Publication number
JP5526134B2
JP5526134B2 JP2011527434A JP2011527434A JP5526134B2 JP 5526134 B2 JP5526134 B2 JP 5526134B2 JP 2011527434 A JP2011527434 A JP 2011527434A JP 2011527434 A JP2011527434 A JP 2011527434A JP 5526134 B2 JP5526134 B2 JP 5526134B2
Authority
JP
Japan
Prior art keywords
local
user
remote
terminal
telecommunications
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011527434A
Other languages
English (en)
Other versions
JP2012503400A (ja
Inventor
エス ハルマ,アキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2012503400A publication Critical patent/JP2012503400A/ja
Application granted granted Critical
Publication of JP5526134B2 publication Critical patent/JP5526134B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1096Supplementary features, e.g. call forwarding or call holding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0297Telephone sets adapted to be mounted on a desk or on a wall
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、電気通信システムにより少なくとも1つのデバイスを制御する方法に関する。また、本発明は、電気通信システム及びコンピュータプログラムに関する。
Aoki,P.M等、“The Mad Hatter’s Cocktail Party: A Social Mobile Audio Space Supporting Multiple Simultaneous Conversations”、Chi 2003、Conf. Proc. Conference on human factors in computing systems、2003年4月5〜10日、pp.425-432(非特許文献1)は、どの参加者がどのフロアにいるのかを示しながら、彼らが現れる会話フロアを識別するよう、参加者のターンテイキング行動を分析する機械学習コンポーネントにより拡張されたオーディオ空間システムに関する。システムは、動的に、各参加者に配信されるオーディオを変更して、参加者が現在会話している参加者の重要点を強調するとともに、参加者が現在会話していない参加者の重要点を減じる。
Harma,A.、“Ambient telephony: scenarios and research challenges”、Proc. INTERSPEECH 2007、2007年8月(非特許文献)は、ホーム環境のための本格的な周辺電話(ambient telephone)の開発における技術的な課題の概説を与える。周辺電話は、ラウドスピーカ及びマイクロフォンのアレイに基づくスピーカフォンシステムであり、ホーム環境において分布し、ホームネットワークを介して互いに接続される。システムは、インターネット、携帯電話ネットワーク、及び、場合により、旧来の固定電話に接続された中央デバイスを介して、いずれかのソースからの呼出を受けることができる。オーディオ表現が空間選択的に行われてよい。例えば、ユーザは、他者が部屋から部屋に話者とともにスムーズに移動しているように思えるように、又は複数の同時の接続がオープンであり、接触がホーム環境において空間的に別の場所で提供されるように、他者と会話を行うことができる。1つのデバイス及び1つ空間的位置から他のデバイス及び他の空間的位置へ呼出を動かす実現性は、周辺電話の主眼点の1つである。
遠隔の発呼側への複数の同時の接続がどの時点においてもオープンである筋書きにおいて、幾つかの遠隔の発呼側は、その時々で実際には存在しないことがある。周辺電話は、実質上その使用を複雑にすることなく、変化する使用要件の変更に適合するならば有用である。
米国特許出願公開第2005/0251386号明細書 米国特許第6766019号明細書
Aoki,P.M等、"The Mad Hatter’s Cocktail Party: A Social Mobile Audio Space Supporting Multiple Simultaneous Conversations"、Chi 2003、Conf. Proc. Conference on human factors in computing systems、2003年4月5〜10日、pp.425-432 Harma,A.、"Ambient telephony: scenarios and research challenges"、Proc. INTERSPEECH 2007、2007年8月
遠隔端末への接続がオープンである筋書きにおいて、ユーザからの少なからぬ明示的な入力を必要とすることなく、変化する要件に対する電話システムの適応を可能にする、上記タイプの方法、システム及びコンピュータプログラムを提供することが望ましい。
本発明の態様に従って、請求項1で定義される方法が提供される。
少なくとも2つの電気通信端末から伝えられた情報を、それぞれの電気通信端末のユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準を用いて、相互の関連で時間にわたって分析することによって、オープン接続が使用中であるかどうかが検出可能である。ユーザは、会話が継続中であるかどうかを検出するようシステムに何らの追加コマンドも与える必要がない。局所環境は、外部の発呼側との会話が継続中であるかどうかに依存して、適切な出力信号を少なくとも1つのデバイスへ与えることによって適応され得る。例えば、可聴な出力を提供するデバイスは、外部の発呼側との会話が継続中であるかどうかに依存して、ミュートされてよい。方法は、多くのタイプの電気通信ネットワークが、ほとんど又は全く限界費用をユーザに与えることなく、接続が永続的にオープンであることを可能にするという事実を考慮する。このようなネットワークにより、オープン接続は、長期間、実際には使用されていないことがある。実際、方法は、このようネットワークのための一種の存在管理を提供する。
本発明の方法は、複数の局所入力デバイスの全てよりも少ない数の局所入力デバイスから情報を伝える局所ユーザといずれかの遠隔の電気通信端末のユーザとの間の会話に対応するタイプの相互作用を検出すると、前記全てよりも少ない数の局所入力デバイスの既知の位置に基づいて前記局所ユーザの位置を推測するステップを有する。
特に、情報がオーディオ情報である場合、このようなオーディオに基づく位置決め方法は、ここで提案される会話検出方法と組み合わせて、より一層強力になる。具体的に、それは、位置決め方法が、例えば背景ノイズを含まず、会話形式の相互作用に対するユーザの寄与を搬送すると決定される信号のみを用いて実行されることを意味する。
米国特許出願公開第2005/0251386号明細書(特許文献1)は、対象からのソースオーディオ信号に応答してプリエンファシス信号を生成する信号プリコンディショナと、前記プリエンファシス信号を受信するよう結合され、分解能及びサンプルレートが低減された、前記プリエンファシス信号の少なくとも1つの特徴を示すパルスを生成する比較器と、該生成されたパルスに応答し、適応規則及び前記プリエンファシス信号の示される特徴を用いて、それらから対象による会話の存在を決定する分析ユニットとを有する会話検出器を開示している、と認められる。
この従来のシステムは、口頭プレゼンテーションを捕捉する1つのマイクロフォン又は他のソースからのソースオーディオ信号しか用いない。オープン接続された少なくとも2つの電気通信端末から情報を伝える信号を得ることは、開示されていない。また、当然、少なくとも2つの電気通信端末から伝えられた情報を、それぞれの電気通信端末のユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準を用いて、相互の関連で時間にわたって分析することも、開示されていないということになる。実際に、従来のシステムは、スピーチと背景ノイズとの間を区別することしかできない。
さらに、米国特許第6766019号明細書(特許文献2)は、入来するスピーチを含むファーエンド信号を受信して、好ましからざるエコーを含んだリターン信号を生成する受信部屋で生成される前記好ましからざるエコーを低減する音響エコーキャンセラにおいて使用されるダブルトーク検出を開示している、と認められる。この方法は、ファーエンド信号と、ファーエンド信号の共分散によって正規化され、さらにリターン信号の分散によって正規化されたリターン信号との間の相互相関を表す正規化された相互相関推定を計算するステップを有する。
この従来の方法は、時間にわたる少なくとも2つの電気通信端末から伝えられた情報の分析を行わず、また、分析は、それぞれの通信端末のユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準を使用しない。むしろ、入来する信号及び局所入力信号が同じである(エコーを示す)かどうかの瞬間的な分析が行われる。
本発明に従う方法の実施形態は、相互の関連で時間にわたって前記電気通信端末のうちの少なくとも2つから伝えられたオーディオ情報を分析するステップを有する。
例えばビデオ情報とは対照的に、ある閾ボリュームを上回るオーディオ情報は、会話に対するソースの寄与に対応するバーストとして供給される。これは、2又はそれ以上のオーディオ信号のソース間の会話形式の相互作用の存在を決定することを、比較的に容易にする。音声認識は必要とされず、他方、ビデオ情報に基づく会話形式の相互作用の決定は、一般的に、会話形式の相互作用を検出するために画像分析を必要とする。この分析には、例えば、顔検出及び分析に基づく唇の動きの検出、発話中の手の動きや、傾聴及び発言中の(実質的な)アイコンタクタ等のジェスチャの自動認識が含まれてよい。オーディオビジュアル信号の分析は、本実施形態において除外されないことが知られている。テキストメッセージと比較して、オーディオ情報は、会話ターンテイキングに対応するタイプの相互作用を検出する分析に、より適している。テキストメッセージは、また、一般的に、件名品目が特定の議論(例えば、電子フォーラムで主催されるもの)に関連するかどうかどうかを決定するよう、それらの件名品目の分析を少なくとも必要とする。このようなフォーラムへのポスティングの時間フローのみに基づいて会話を検出することは、一般的に、困難である。
本実施形態の変形例は、電気通信端末間のビデオリンクを、それらのそれぞれのユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出すると、確立するステップを有する。
これに関連して、確立は、単に、遠隔の端末から受信されるビデオ信号が、この場合に、ビデオ情報が利用可能であることにかかわらず、以前にこのような出力が与えられていない局所出力デバイスでレンダリングされることを意味する。当該変形例で予め達成される効果は、画面スペースが、他の使用、例えば、テレビジョン放送やフォト画像等のビデオコンテンツをレンダリングすることのために、他の時点で利用可能にされることである。しかし、望ましくは、ビデオデータ通信は、ビデオリンクが確立される場合に開始し、それにより、追加の効果として、利用可能なバンド幅経済的使用が可能となる。
実施例で、出力信号は、可聴出力を生成する少なくとも1つのデバイスへ供給されて、前記可聴出力のボリューム調整をもたらす。
その効果は、例えば局所の電気通信端末へ伝えられるスピーチ情報の明りょう度を高めることである。かかる端末のユーザは、会話が開始されたことが自動で決定されるまで、音楽の完全な享受に適したボリュームで音楽を聴くことができる。
本発明に従う方法の実施形態は、前記少なくとも1つの基準が前記局所の電気通信端末の少なくとも1人のユーザ及び前記遠隔の電気通信端末の特定の1つのユーザについては満足されないと決定すると、前記特定の遠隔の電気通信端末からの情報が少なくとも1つの局所出力デバイスによって再生されないようにするステップを有する。
その効果は、遠隔の電気通信端末のユーザが、当該端末と局所端末との間の接続が中断されるよう所定のコマンドを通じて呼出を能動的に終了する必要がないことである。特に、接続が、ほとんど又は全く費用がかからずに、オープンのままであることを可能にするシステムにおいて、これは、遠隔の電気通信端末からの信号が、局所の電気通信端末の環境において持続的に再生されないことを確かにする。音声通信システムの場合に、局所ユーザは、遠隔の電気通信端末からの背景ノイズの恒久的な不協和音にさらされない。
本発明に従う方法の実施形態は、前記少なくとも1つの基準が複数の前記局所入力デバイス及び複数の前記局所出力デバイス並びに特定の遠隔の電気通信端末のユーザに関して特定の場所にいるユーザについては満足されないと決定すると、前記特定の遠隔の電気通信端末から伝えられた情報を、選択された組の前記局所出力デバイスで再生させるステップを有する。
その効果は、接続が建物内の1つの場所から他の場所へとユーザを追跡する周辺電話システムの適応を可能にすることである。この変形例で、会話形式の相互作用においてユーザが関わる遠隔の発呼側への接続のみが、ユーザとともに移動する。一方で、これは、ユーザが移動する場合に動かされるべき接続はより少ないことを意味する。他方で、局所の電気通信端末の2人以上のユーザは、それぞれ、彼らが会話において関わる外部の発呼側からのみ情報を提供され得る。特に、2人以上のユーザが別々の部屋にいる場合、これは、通信パートナーの混乱又は不可聴を防ぎながら、会話をより明りょうにする。
本発明に従う方法の実施形態は、前記少なくとも1つの基準が前記少なくとも1つの局所の電気通信端末の少なくとも1人の特定ユーザについては満足されないと決定すると、少なくとも1つの局所入力デバイスによって受け取られる入力に依存して、デバイスを制御する少なくとも1つの出力信号を調整するステップを有する。
その効果は、局所の電気通信端末での環境設定が複数の異なる使用筋書きに適応されることを可能にすることである。具体的に、入力を発したユーザが会話において関わると決定されない場合でさえ少なくとも1つの局所入力デバイスによって受信される入力の存在は、例えば、音声起動のユーザインターフェースのために音声分析を開始するための、又は2つの局所ユーザ間の会話に環境を適応させるためのキューとして使用される。入力が完全にないことにより、他の組の調整、例えば、局所の電気通信端末を形成する全てのデバイスをスタンバイモードとすること等が生ずる。
本発明に従う方法の実施形態は、前記少なくとも1つの基準が前記電気通信端末のユーザについては満足されると決定すると、該ユーザに関連付けられている識別を通信ネットワークを介してステータス・インジケータとともに伝達するステップを有する。識別は、ユーザが登録されている関連付けにおける端末に係るものであってよい。メッセージは、ブロードキャストであっても、あるいは、別なふうにオーバーレイネットワークへ送信されてもよく、会話ターンテイキングに対応する相互作用を検出するために分析される情報を伝達するために使用されるものとは異なるものであってよい。効果は、存在管理のシステムを自動で実施することであり、具体的には、明示的なユーザ入力に依存しない。
本発明に従う方法の実施形態は、複数の局所入力デバイスの全てよりも少ない数の局所入力デバイスから情報を伝える局所ユーザと特定の遠隔の電気通信端末のユーザとの間の会話に対応するタイプの相互作用を検出すると、前記特定の遠隔の電気通信端末へ情報を伝える局所入力デバイスの選択を適応させるステップを有する。
その効果は、遠隔のユーザがほとんど背景ノイズを受信しないことである。局所ユーザからの情報は、遠隔のユーザにとってより明りょうである。
本発明に従う方法の実施形態は、
前記少なくとも1つの基準が遠隔の電気通信端末のみの組のユーザについては満足されることを検出するステップと、
前記組を形成する前記遠隔の電気通信端末の間の直接接続を確立するシステムへ前記組を識別する少なくとも1つの信号を供給するステップと
を有する。
効果は、特に、局所の電気通信端末が周辺電話システムに含まれる場合に、不必要な呼出中継及び大量の背景ノイズを除くことである。
本発明の他の態様に従って、請求項11に定義される電気通信システムが提供される
当該電気通信システムは、ユーザからの明示コマンドを必要とすることなく状況の変化に応答する。
該電気通信システムは、本発明に従う方法を実行するよう配置される。
本発明の他の態様に従って、機械読取可能な媒体で実行される場合に、情報処理機能を備えたシステムに、本発明に従う方法を実行させることができる命令の組を有するコンピュータプログラムが提供される。
2つの遠隔端末を含む通信ネットワークにおける周辺電話システムを概略的に表す。 周辺電話システムにおける個別の電話デバイスの機能コンポーネントを概略的に表す。 周辺電話システムにおけるマスタ又はプロキシ電話の機能コンポーネントを概略的に表す。 会話中である2人のユーザからのスピーチ信号を表す2つのチャネルにおけるスピーチアクティビティを概略的に表す。 会話検出が周辺電話システムにおけるセッション管理、開始及び終了を制御するために使用される何通りかの方法を表すフローチャートである。
本発明について、添付の図面を参照して記載する。
一例として、電気通信ネットワーク3に接続されている2つの遠隔端末1、2が、図1に示されている。3つの空間5〜7を有する建物4は、ネットワーク3への少なくとも1つの接続ととともに局所環境を形成している。
ネットワーク3は、ワイドエリアネットワークであり、例えば、携帯電話機、POTSネットワーク又はブロードバンド・インターネット・ネットワークを有してよい。通信は、ダイレクト接続を介してよいが、望ましくは、データパケットに基づく。以下で、通信は、テレビ会議用途のための場合のように、任意のビデオ画像とともに音声に基づく。同じ原理は、テキスト・メッセージング、掲示板上の投稿メッセージ等を含む、個人間の情報通信に係る他の方法でも用途を見出す。それらの他の例において、本例に見られるように、遠隔端末1、2から、及び建物4内の実際の又は仮想の局所端末から伝達される情報は、それぞれの端末のユーザ間の会話ターンテイキング(conversational turn-taking)に対応するタイプの相互作用を検出する少なくとも1つの基準を用いて、相互の関連で時間にわたって分析される。検出された会話は、周辺電話システム、及び、任意に、建物4内のデバイスにおいて、セッション開始、終了及び管理を制御するために用いられる。検出された会話に関する情報は、また、周辺電話システムによるオーディオ表現及び捕捉を制御するためにも使用される。
ネットワーク接続性は、ますます、通話時間が考慮されない定額加入モデルに基づく。従って、非常に長い通話や、もはやオープンもクローズもされないが、多種多様な方法で部分的にオープンである通話を有することが、一般的である。結果として、接続が情報を伝達するためにユーザによって使用されることなく、複数の遠隔端末1、2へのオープン接続が存在する多くの状況がある。例えば、ユーザは、自身のコンピュータが近くになくとも、ピア・ツー・ピアのオーバーレイネットワークにサインインされてよい。
表される実施形態において、周辺電話システムは、望ましくは無線ネットワークにより接続される個々のネットワーク電話ユニットから構成される。しかし、ここで説明される原理は、複数のマイクロフォン及びラウドスピーカが同じ電話システム(例えば、ホーム・インターコム・システム又は有線電話システム)に接続されているシステムにも適用される。ここで説明される方法は、本例では周辺電話システムによって実行され、それにより、発呼側とユーザとが区別される。なお、「発呼側」は、遠隔端末1、2のユーザをいい、「ユーザ」は、建物4内にいる個人をいう。
マスタ電話ユニット8は、電気通信ネットワーク3へのインターフェースを有し、図3において個別に表されている。表される例において、インターネット、基本電話システム(Plain Old Telephone System)及び携帯電話ネットワークへのインターフェース9〜11が存在する(図3)。少数の他のタイプのインターフェースが代替の実施形態において使用されてよい。マスタ電話ユニット8は、他の個別の電話ユニット12、13がマスタ電話ユニット8を介して遠隔端末1、2と通信するという意味で、プロキシ電話ユニットと考えられてもよい。第1の個別電話ユニット12は、図2で詳細に表されており、他の個別電話ユニット13は、これと同じである。マスタ電話ユニット8は、図1に表される周辺電話システムにおいて個別の電話ユニットを有する。
それぞれの個別電話ユニット12、13及びマスタ電話ユニット8は、少なくとも1つのマイクロフォン14〜16及び少なくとも1つのスピーカ17〜19と連動する。表される実施形態において、第2の個別電話ユニット13、及びマスタ電話ユニット8に含まれる個別電話ユニットは、さらに、それぞれのカメラ20、21及び表示デバイス22、23と連動する。出力信号は、第2の個別電話ユニット13から外付けの照明デバイス24及びエンターテイメントデバイス25(例えば、ラジオ又はテレビ受像機等)へ供給されてよい。これらの接続の1又はそれ以上は、さらに、無線ネットワーク、又はホーム・オートメーションのための何らかのネットワークを介してよい。
図2を参照すると、別個の発呼ユニット26が、個別電話ユニット12によって扱われる遠隔の発呼側への接続ごとに設けられている。インターフェース27は、デコーダ及び入力バッファを有する。表される例において、インターフェース27は、G.722デコーダ及び入力バッファを有するRTP(Real-time Packet protocol)ソケットインターフェースを有する。それは、IP(Internet Protocol)ソケット(図示せず。)からRTPデータを受け取る。
レンダリングユニット28は、デコードされたオーディオデータが、スピーカ17によって表現されることを可能にする。それは、少なくとも部分的に、制御ユニット29の制御下で動作する。制御ユニット29は、また、幾何モデルを実施し、例えば、SIP(Session Initiation Protocol)に従い且つTCP(Transmission Control Protocol)としてIPパケットとして伝えられるメッセージの形で、制御信号をマスタ電話ユニット8から受信する。遅延ライン30は、基準信号を入力信号処理ユニット31へ供給するよう設けられている。基準信号は、入力信号処理ユニット31が、音響エコーキャンセルを実行することを可能にする。入力信号処理ユニット31は、さらに、自動ゲイン制御を実行し、かつ、ユーザからのオーディオ情報を伝達する信号を供給するよう他の信号処理機能を実行してよい。入力信号処理ユニット31は、さらに、制御ユニット29から制御信号を受信する。入力信号処理ユニット31は、オーディオ情報を伝達する信号をG.722デコーダ及び出力RTPソケット32へ、及び発話検出(SAD(speech activity detection))システム33へ供給する。
典型的なSADシステム33は、短いオーディオセグメントから多数の特性を計算して、これらを、音声セグメントが有声、無声又は無音であるかどうかを決定するために使用するアルゴリズムを用いる。如何なるタイプのSAD(VAD(voice activity detection)としても知られる。)アルゴリズムが実施されてもよい。その例は、
・Bhou-Gazale,S.及びAssaleh,K.、“A robust endpoint detection of speech for noisy environments with application to automatic speech recognition”、Proc. ICASSP 2002、フロリダ州オーランド、2002年5月;
・Davis,A.等、“Statistical voice activity detection using low/variance spectrum estimation and an adaptive threshold”、IEEE Trans. on audio, speech and language processing、14(2)、2006年、pp.412-424;及び
・Huang,L.及びYang,C.、“A novel approach to robust speech detection in car environments”、IEEE Int. Conf. on Acoustics, Speech and Signal Processing、3(5-9)、2000年、pp.1751-1754
に挙げられている。
SADシステム33の機能性は、また、G.722デコーダ及び出力RTPソケット32を介して供給される信号を受信するマスタ電話ユニット8でのみ実施されてもよいことが認められる。この機能性は、入力信号処理ユニット31で実施されるエコーキャンセル及び音声強調アルゴリズムの部分として実施されてもよい。SADの出力は、しばしば、2進値である。それはまた、例えば、信頼値であってもよい。所定の存続期間のインターバルの間のSADの結果は、建物4内でネットワークを介してマスタ電話ユニット8へ送信される。
図3を参照すると、マスタ電話ユニット8は、オープン接続されている外部の発呼側(この場合に、遠隔端末1、2に対応)ごとに呼出インスタンス34を生成する。呼出インスタンス34は、個別電話ユニット12、13の1又はそれ以上へ送信されるオーディオ情報を伝達する信号を供給するよう、音声強調機能35を使用する。この信号は、また、SAD36も受ける。音声強調機能35の出力と、オーディオ情報を伝達し且つ呼出インスタンス34に関連する他の信号とは、具体的にスピーカ17〜19へ出力される前に、残余AEC37に与えられる。
従来の作動検出ユニット38は、第1の個別電話ユニット12におけるSADシステム33及び他の個別電話ユニットおける同様のシステムから、並びに、呼出インスタンス34が関連付けられている遠隔端末1、2から送られる情報に適用されるSAD機能36から、出力を受け取る。従来の作動検出ユニット38の出力は、個別電話ユニット12、13の1又はそれ以上を含む環境における局所ユーザと、関連する遠隔端末1、2を用いる発呼側との間の会話形式の相互作用の時間的な存在可能性を表す値である。これらの出力は、説明されるように、周辺電話システム自体、又はその外部にある、例えば、エンターテイメントデバイス25若しくは外付けの照明デバイス24等のデバイスを制御するために、マスタ制御ユニット39へ供給される。
会話ターンテイキングは、多種多様な方法で検出可能である。図4を参照すると、オーディオ情報の2つのフロー40、41が示されている。一方のフローは遠隔端末1、2のうちの1つから発せられ、他方のフローは個別電話ユニット12、13のうちの1つ又はマスタ電話ユニット8のユーザから発せられる。後者のフロー41は、実際には、オーディオ情報を、例えば国際公開第2007/086042号パンフレットで記載されるようなセグメンテーション技術により、電話ユニット8、12、13のうちの1つに供給する複数のユーザの中の1人と関連付けられたセグメントに分割することによって、取得されてよい。フロー40、41は、SADシステム33及びSAD機能36によって決定される無音の期間42、43及び有声の期間44、45を有する。
会話ターンテイキングに対応する相互作用のタイプの検出は、多数の原理に基づく:
1.会話において、ただ1人の話者のみが、大部分の会話に関してどの時点においても話している;
2.話している/黙っている話者のチャネルが交互に入れ替わるように、話者が交代する;
3.両方のチャネルにおける連続した無音は、参加者の間にアクティブな会話ターンテイキングがないことを意味する;
4.1つのチャネルにおける非交互の発話は、同じ遠隔端末1又は2によって収集される2人の発信者間の会話はあるが、チャネル間で会話がないことを意味する;
5.発話の期間44、45と無音の期間42、43との間のターンテイキングがチャネル間で同期していない場合に、問題になっているチャネル間には会話ターンテイキングは存在しない。そのため、フロー40、41は、相互の関連で時間にわたって分析される。
会話ターンテイキングを検出する可能なアルゴリズムは、下記の通りである:nはオーディオフレームインデックスであり、pl(n)は、SADシステム33又はSAD機能36によって決定されるような、チャネルlにおけるフレームnが音声を含む可能性である、とする。簡単な例において、pl(n)の値は0(無声)又は1(有声)をとることができる。ゼロに初期化される4つの状態変数Presence1、Presence2、Confilict、Silenceが存在する。次のように初期化される3つの更なる状態変数が存在する:
gl=0.9;
g2=0.99;及び
g3=0.995。
擬似コードにおいて、アルゴリズムは、次のように実行される:
Figure 0005526134
会話は、Conversation(n)の現在の値が特定の閾値を超える場合に検出される。このように、アルゴリズムは、回顧的であるから、時間にわたって情報を評価し、状態変数は、Conversationの現在の値が先行するオーディオフレームの評価に基づくことを確かにする。同時に、それは、会話が存在するかどうかの連続的に展開する決定であるから、デバイスを制御する出力信号の基準として適する。上記の基本的な方法は、とりわけ、適用可能な計算リソースに依存して、様々な方法で改良されてよい。例えば、状態変数Presence1、Presence2、Conflict、Silenceに加えて、又はそれらの代替として、より長い観測期間にわたって計算される状態変数が使用されてよい。これらは、2又はそれ以上の信号における数分の発話検出値にわたって計算される相関又は相互情報メトリクスを含む。
自然の会話において、聴取者は、しばしば、短い発声(“Yes(はい)”、“O.K.(了解)”、“Really?(本当に?)”、“Hmm(うーん)”等)の形で話者にフィードバックを与える。これは、しばしば、バックチャネル発話(相づち)と呼ばれる。それは、これらの発声が短く(1秒未満)且つ比較的長い無音によって分離されるという事実に基づいて、遠隔端末1、2の1つからの、及び個別電話ユニット12、13の1つ又はマスタ電話ユニット8のユーザからのオーディオ情報のフロー40、41内で別々に検出され得る。バックチャネル発話は、付加的な状態変数として使用されてよく、あるいは、それは、重複する発話の時間セグメントが他の話者からのバックチャネル発話を表さない場合にのみコンフリクトが検出される点で、例えば状態変数Conflictを変更するために使用されてよい。
更なる特徴は、ターンテイキングの時間微細構造から得られる。例えば、オーディオ情報の第2のフロー41における発話期間45の終了と、オーディオ情報の第1のフロー40における続く発話期間44の開始との間(又はその逆)の時点間の時間差は、会話ターンテイキングの品質の指標として使用されてよい。会話形式の相互作用の場合に、話者の複数回の変更にわたって測定されるこのような時間差は、非会話の相互作用と比較して、わずかに正の平均値及び低い分散を有する。非会話の相互作用の場合に、時間差は平均値ゼロ及び大きな分散を有する。
話者の変更が検出される精度を改善するよう、発話検出は、オーディオ情報の内容の分析を有して拡張されてよい。具体的に、オーディオ情報のフロー40、41に関し、ピッチが分析されてよい。多くの言語において、発せられた言語の終了前の立ち上がりピッチは、他の話者への問いを示す。この後に、場合により短い中断の後に、他の者の発話が続く場合、このような変更は、質問応答(Question-Answer)構造と呼ばれ、会話形式の相互作用を検出するために使用される会話モデルにおける特徴(状態変数)として特徴付けられてよい。
先に詳細に記載されたアルゴリズムは、一次積分器を用いて決定される多数の状態変数の動的な時間的発達に基づく、と認められる。様々な異なった線形及び非線形のフィルタリング並びに積分アルゴリズムは、代替として使用されてよい。
会話活動の可能性を表す特徴Conversationを形成するよう特徴の一次結合を用いる代わりに、会話の検出は、判別分析、サポートベクタマシン及びニューラルネットワークに基づく様々なタイプのデータ分類方法を含め、線形検出(又は回帰)モデル以外の他の方法に基づいてよい。
特徴Conversationは、また、2進変数である代わりに、0から1の間のスケールで値を有する連続的な尤度値であってもよい。
最後に、時間的発達(g1、g2、g3)及び検出ロジック(ステップ2)のために固定パラメータを用いることに代えて、別個の技術が、異なるユーザ若しくは発呼側、又は異なるコンテクストのためのパラメータを最適化するために使用されてよい。例えば、会話検出器は、システムの会話相手の各組又は各局所ユーザについて別々に同調されて、通常の遠隔発呼側を識別されてよい。同様に、パラメータ及び/又は検出ロジックは、分析されるオーディオ情報を伝達する信号が第1若しくは第2の個別電話ユニット12、13から、又はマスタ電話ユニット8からであるのかどうかに依存して、異なってよい。
会話検出の方法は、一般に、リアルタイムで実施するのが極めて困難である。しかし、例えば電気通信システム等の媒介環境では、オーディオ情報の各フローがどこから来ているのかが予め明らかであるから、かかる実施は、より低い計算費用で実行可能になる。これは、マイクロフォンを取り付けられている部屋にいる人達の間の会話検出のシステムと対照的である。なぜなら、このようなシステムでは、室内で全ての音声は捕捉され、最初に、室内にいる様々な人達に帰属させなければならないからである。
一般に、建物4における周辺電話システムは、ユーザが空間5〜7の1つから他の空間に移動する場合に発呼側がユーザに追従するように制御される空間オーディオ入出力システムを提供する。また、環境内の様々なユーザとの複数の同時通話、さらに、オープンなままにされている又は特定の空間に常駐しているがアクティブでない通話を有することも可能である。周辺電話システムからの接続がいつでもオープンである何者かとの複数の通話が存在する場合に、ユーザは、発呼側が動かされようとしているシステムへ信号を送ることができるべきである。例えば、第1のユーザが第1の空間5にいる発呼側Aとの会話を有しており、第2のユーザが同じ空間にいる発呼側Bと会話中である場合に、第1のユーザが第2の空間6に移動するとき、システムは、発呼側Aへの接続のみが第2の空間6に移動することを確かにする。これは、ユーザのトラッキング、さらには、第1のユーザが関与しているアクティブな会話の決定を必要とする。この決定は、図5を参照して後述されるように、自動的に実行される。また、発呼側A及びBが互いとのみ会話している可能性もある。そのシナリオでは、システムは、周辺電話システムと発呼側A及びBの遠隔端末1、2との間の接続を中止することができる。システムは、また、局所的にしか会話が存在しないこと、すなわち、外部の如何なる発呼側も関与することのない第1及び第2のユーザの間の会話を検出してよい。
図5を参照すると、特に、電話/テレビ会議システムにおけるセッション管理に関連して、様々な例となる制御アプリケーションを有して周辺電話システムによって実行される方法の概要が与えられている。
第1のステップ46で、既に先で詳述されたように、遠隔端末1、2のうちの少なくとも1つから建物4内の周辺電話システムのマスタ電話ユニット8へ情報を伝達する信号が取得される。さらに、個別電話ユニット12、13及びマスタ電話ユニット8は、ユーザのオーディオ情報を伝える信号を得る。任意に(ステップ47)、これらの局所信号は、説明されるように、異なるユーザからの寄与に分けられる。
次いで、例えば上記のアルゴリズムを用いて、会話は、遠隔端末1、2及び局所端末から伝えられた情報を、発呼側とユーザとの間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準により、相互の関連で時間にわたって分析することによって、検出される(ステップ48)。
同時に、建物4内のユーザは、空間5〜7のどこに彼らが現在居るのかを決定するよう、追跡される(ステップ49)。1つの変形例で、ユーザは、タグ(例えば、RFID(Radio Frequency Identification)タグ及び建物4内に配置された読取器)を用いて追跡される。本発明に従う方法において、ユーザは、オーディオに基づく位置決め方法を用いて、すなわち、マイクロフォン14〜16からの信号の相対信号強さを決定することによって、追跡される。この場合に、ユーザは、それ自体は識別及び追跡されないが、並行なステップ48で検出される会話におけるそれぞれの局所参加者がどこにいるのかが、決定される。他の追跡方法は、このステップ49において代替として又は組み合わせて使用されてよい。
特定の局所ユーザが検出される会話に参加していないと決定されるが、オーディオ情報はそれでもなお明らかにそのユーザから伝達されている場合に、少なくとも1つの局所入力デバイスによって受け取られる入力に依存してデバイスを制御する少なくとも1つの出力信号が、マスタ電話ユニット8又は個別電話ユニット12、13の1つによって供給されてよい。具体的に、会話が存在することによらずに入力される音声は、ユーザが、例えば、新たな接続をセットアップすること、エンターテイメントデバイス25のスピーカ17〜19のボリュームを制御すること等を可能にするよう音声作動のユーザインターフェースを有効にするためのキューとして使用されてよい。
他方で、ユーザが検出された会話に参加していると決定される場合に、ユーザに関連する識別が電気通信ネットワーク3を介して伝達される(ステップ50)。このメッセージは、他の活動に係るユーザの利用可能性又は更なる会話形式の相互作用を示すよう、適切に、ピア・ツー・ピアネットワーク上のメッセージである。メッセージは、並行なステップ49で決定されるユーザの位置に係る更なる表示を含んでよい。当然、ステータスの通信も伴ってよく、ユーザが建物内にいるが、検出された会話のいずれにも参加していないと決定される場合に、ユーザが会話形式の相互作用に適用可能であるとの表示とともにユーザに関連する識別を伝達するメッセージを送信する。例えば、オーディオに基づく位置決め方法しか使用されないために、ユーザが個別的に識別されない場合に、ユーザに関連する識別は、ただ単に、周辺電話システムの識別、又は、場合により、個別電話ユニット12、13及びマスタ電話ユニット8に相当する局所端末のうちの1つの識別を有してよい、と認められる。
特に、新しい会話が検出される場合に、これまで会話に使用されていない個別電話ユニット12、13(例えば、第2の電話ユニット13)を用いて、遠隔の発呼側へのビデオリンクは、制御信号を第2の電話ユニット13へ、ひいては、それに取り付けられているカメラ20及び表示デバイス22へ供給することによって、オープンにされてよい(ステップ51)。このように、例えば、表示デバイス22の内容は、エンターテイメントから他の通話参加者の画像に変化することができる。1又はそれ以上の発呼側と第2の電話ユニット13の近くのユーザとの間の会話を検出したときにのみカメラ20を切り換えることは、建物4内からの画像が永続的には送信されず、必要とされるときのみ遠隔端末へ送信されることを確かにする。ユーザは、このような効果を提供するよう如何なるコマンドも与える必要はなく、ただ単に会話に参加しさえすればよい。
また、新しい会話が検出される場合に、継続中の通信とは無関係の可聴出力を生成するよう配置されているエンターテイメントデバイス25を制御する適切な出力信号を供給することによって、エンターテイメントデバイス25はミュートされてよく(ステップ52)、すなわち、少なくとも可聴出力のボリュームは自動的に低減されてよい。この接続において、エンターテイメントデバイス25を完全にオフすることも考えられ、ボリュームにおける調整である。
表される実施形態において、遠隔端末1、2のうちの1つを使用する発呼側と、電話ユニット12、13のうちの1つの環境内にいると決定される局所ユーザとの間の会話の検出は、遠隔端末1、2のうちの特定の1つからのオーディオ信号が生成されるべき電話ユニットを選択し(ステップ53)、且つ、他の電話ユニット8、12、13によってオーディオ情報が再生されるのを中止させるために、使用される。このように、予め接続が全ての電話ユニット8、12、13に対してオープンであった場合に、それらのうちの1つに隣接するユーザと遠隔の発呼側との間の会話の検出は、遠隔の発呼側によって使用されている特定の遠隔端末1、2から伝達されるオーディオ情報が、選択された組の局所出力デバイス(すなわち、スピーカ17〜19)で再生されるのを中止する。なお、選択された組の局所出力デバイスは、ただ1つのそのような出力デバイスであってよい。同様に、局所ユーザが全てではない入力デバイス(すなわち、マイクロフォン14〜16)から情報を伝達していると、ユーザの位置を決定することによって、あるいは、これらのデバイスからのオーディオ信号の相対強さ及び/又は内容をモニタすることによって、検出すると、発呼側によって使用される遠隔端末1、2へ情報を伝達するマイクロフォン14〜16の選択が適応される。このように、遠隔の発呼側は、より明らかに理解できるオーディオ情報を供給される。
周辺電話システムは、また、2つの遠隔端末1、2から伝達される情報を、遠隔端末のユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準を用いて、相互の関連で分析する、と認められる。この分析は、建物4内の如何なるユーザも関わることなく遠隔端末1、2のユーザ間にアクティブな会話が存在するとの結論を得ることがある。その場合に、マスタ電話ユニット8は、遠隔端末1、2へメッセージを送信して(ステップ54)、それらに、発呼側及び/又はそれらの電気通信端末の身元を知らせ、直接の会話が可能であることを示す。このメッセージは、例えば、SIP(Session Initiation Protocol)プロトコルに従ってよい。遠隔端末1、2を使用するユーザがメッセージを受け取ると、遠隔端末1、2のユーザ間の新たな通話が確立され、もはや建物4内のマスタ電話ユニット8を介して中継されない。このように、会話形式の相互作用を検出する少なくとも1つの基準が、遠隔端末1、2のみを含む電気通信端末の組のユーザについて満足されると検出すると、マスタ電話ユニット8は、その組を形成する遠隔端末1、2のみの間の直接接続を確立するために、遠隔端末1、2の組を識別する少なくとも1つの信号を供給する。本例で、信号はそれらの端末に送信されるが、他の実施形態では、信号は、ネットワーク3上の接続を管理する何らかの交換局へ送信されてよい。
ユーザが建物4内で移動する場合に、このことは検出される(ステップ49)。その特定のユーザがどの会話形式の相互作用に参加しているのかは知られている(ステップ48)。ユーザが、特に、どの遠隔端末1、2のユーザとの、どの会話形式の相互作用に参加しているのかが検出されると、どの電話ユニット8、12、13が外部の発呼側を動かすべきかを選択するステップ55が、実行される。このステップ55は、新しい会話を検出すると実行される対応するステップ53に類似する。具体的に、関連する遠隔端末1、2へ情報を伝達する局所入力デバイス(すなわち、マイクロフォン14〜16)の選択が適応される。
ユーザが自身の位置の変更に続いて使用すべき電話ユニット8、12、13のうちの最も適切な1つを決定すると、外部の発呼側は動かされる(ステップ56)。すなわち、局所ユーザと遠隔端末1、2のうちの特定の1つのユーザとの間に、もはや、電話ユニット8、12、13のうちの最初のものにおける会話が存在すると検出すると、その特定の遠隔端末からの情報は、電話ユニット8、12、13のうちの最初のものでは再生されなくなる。情報は、ユーザの位置決め後、電話ユニット8、12、13のうちの別の1つで再生を開始される。
さらに、新しい電話ユニット8、12、13の近くにおける外部デバイスは、会話形式の相互作用がユーザとともに新しい電話ユニットに移動したと検出される場合に、制御される(ステップ57)。具体的に、エンターテイメントデバイス25はミュートされてよく、ビデオリンクはオープンにされてよく、照明デバイス24は、ビデオリンクを介して提供されるピクチャ品質を改善するために、又は、どんな場合でも、話者が誰であるのかを目立たせるために、第2の電話ユニット13の周囲を照らし出すよう制御されてよい。
遠隔端末1、2のうちの1つのユーザと局所ユーザとの間の会話形式の相互作用を検出することによって、上記の全ての適応が行われ、実際には可能にされる。制御パネル又は遠隔制御ユニットを用いた更なるユーザ入力は、原理上、必要とされない。
上記の実施形態は、本発明を限定するのではなく、例示しているのであり、且つ、当業者は、添付の特許請求の範囲の適用範囲から外れることなく、多くの代替の実施形態を設計することができることに、留意すべきである。特許請求の範囲において、括弧内の如何なる参照符号も、請求項を限定すると解されるべきではない。語「有する(comprising)」は、請求項に挙げられた以外の要素又はステップの存在を除かない。要素の前にある語「1つの(a又はan)」は、このような要素の複数個の存在を除かない。特定の手段が相互に異なった従属請求項で挙げられているという単なる事実は、これらの手段の組合せが有利に使用され得ないことを示すわけではない。
例えば、個別電話ユニット12、13を用いることに代えて、周辺電話システムは、建物4に関して分散されているマイクロフォン及びスピーカとインターフェース接続するただ1つの端末を有して実施されてよい。
会話検出方法について、発話が検出される例を用いて説明してきたが、内容に基づく分析が、さらに、又は代替として、発声の存在を検出するために使用されてよい。さらに、ビデオリンクが提供される場合には、会話形式の相互作用が行われているかどうかを決定するために、オーディオ及び/又はビデオ信号に関連して、ビデオ分析が使用されてよい。例えば、動きがないこと、又は、オーディオ情報が局所ユーザから伝達されている間の遠隔のユーザのビデオ画像における聴取姿勢の検出は、会話形式の相互作用の良好なインジケータでありうる。同様に、動きがない期間、又は、身体の活動動作の期間に組み入れられている聴取姿勢の期間は、また、会話形式の相互作用の良好なインジケータであってよい。“ホワイトボード(whiteboard)”環境への投稿のフローが分析されている場合に、同様の方法が、異なる会話形式の相互作用を区別するために使用されてよい。

Claims (12)

  1. 少なくとも1つの遠隔の電気通信端末と、少なくとも1つの局所入力デバイス及び少なくとも1つの局所出力デバイスを夫々有する複数の局所の電気通信端末とを有する電気通信システムにおいて、前記局所の電気通信端末の夫々の局所出力デバイスを制御する方法であって、
    前記複数の局所の電気通信端末の1つであるマスタユニットによって実行される
    前記遠隔の電気通信端末と前記局所の電気通信端末との間の接続はオープンであり、前記少なくとも1つの遠隔の電気通信端末から、及び前記局所の電気通信端末の夫々の局所入力デバイスから、情報を伝える信号を得るステップと、
    前記少なくとも1つの遠隔の電気通信端末及び前記局所の電気通信端末のうちの少なくとも2つから伝えられた情報を、それぞれの電気通信端末のユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準を用いて、相互の関連で時間にわたって分析するステップと、
    前記局所の電気通信端末の夫々の局所入力デバイスのいずれかを介して情報を伝える局所ユーザと前記少なくとも1つの遠隔の電気通信端末のいずれかのユーザとの間の会話に対応するタイプの相互作用を検出すると、前記局所入力デバイスの既知の位置に基づいて前記局所ユーザの位置を推測するステップと、
    前記少なくとも1つの基準が満足されるかどうかを決定すると、前記局所ユーザの位置に従って、前記局所の電気通信端末の夫々の局所出力デバイスを制御する少なくとも1つの出力信号を調整するステップと
    を有することを特徴とする方法。
  2. 前記分析するステップは、相互の関連で時間にわたって前記少なくとも1つの遠隔の電気通信端末及び前記局所の電気通信端末の夫々の局所入力デバイスのうちの少なくとも2つから伝えられたオーディオ情報を分析するステップを有する、請求項1に記載の方法。
  3. 前記局所の電気通信端末の夫々の局所入力デバイスのいずれかを介して情報を伝える局所ユーザと前記少なくとも1つの遠隔の電気通信端末のいずれかのユーザとの間の会話に対応するタイプの相互作用を検出すると、該会話に関連する遠隔の電気通信端末と局所の電気通信端末との間のビデオリンクを前記マスタユニットによって確立するステップを有する、請求項2に記載の方法。
  4. 前記局所の電気通信端末の夫々の局所出力デバイスは、可聴出力を生成する少なくとも1つのデバイスを有し、前記出力信号は、可聴出力を生成する前記少なくとも1つのデバイスへ供給されて、前記可聴出力のボリューム調整をもたらす、請求項1に記載の方法。
  5. 前記少なくとも1つの基準が前記局所の電気通信端末のいずれかと関連する少なくとも1人の局所ユーザ及び前記遠隔の電気通信端末の特定の1人のユーザについては満足されないと決定すると、前記少なくとも1人の局所ユーザに関連する局所の電気通信端末の少なくとも1つの局所出力デバイスを前記マスタユニットによって制御して、前記特定の遠隔の電気通信端末からの情報が当該少なくとも1つの局所出力デバイスによって再生されないようにするステップを有する、請求項1に記載の方法。
  6. 前記少なくとも1つの基準が前記局所の電気通信端末のいずれかと関連する特定の場所にいるユーザ及び前記遠隔の電気通信端末の特定の1つの遠隔の電気通信端末のユーザに関して満足されると決定すると、前記特定の場所に関連する少なくとも1つの局所出力デバイスを前記マスタユニットによって制御して、前記特定の1つの遠隔の電気通信端末から伝えられた情報を当該少なくとも1つの局所出力デバイスで再生させるステップを有する、請求項1に記載の方法。
  7. 前記少なくとも1つの基準が前記局所の電気通信端末の少なくとも1つの少なくとも1人の特定ユーザについては満足されないと決定すると、前記少なくとも1人の特定ユーザに関連する局所の電気通信端末の少なくとも1つの局所入力デバイスによって受け取られる入力に依存して、前記少なくとも1人の特定ユーザに関連する局所の電気通信端末の少なくとも1つの局所出力デバイスを制御する少なくとも1つの出力信号を前記マスタユニットによって調整するステップを有する、請求項1に記載の方法。
  8. 前記少なくとも1つの基準が前記局所の電気通信端末のいずれかと関連するユーザについては満足されると決定すると、前記マスタユニットによって、当該ユーザに関連付けられている識別を通信ネットワークを介してステータス・インジケータとともに伝達するステップを有する、請求項1に記載の方法。
  9. 前記局所の電気通信端末の夫々の局所入力デバイスのいずれかを介して情報を伝える局所ユーザと特定の遠隔の電気通信端末のユーザとの間の会話に対応するタイプの相互作用を検出すると、前記マスタユニットによって、前記特定の遠隔の電気通信端末へ情報を伝える局所入力デバイスの選択を適応させるステップを有する、請求項1に記載の方法。
  10. 前記マスタユニットによって実行される
    前記少なくとも1つの基準が前記遠隔の電気通信端末の2又はそれ以上を有する組のユーザについては満足されることを検出するステップと、
    前記組の中の遠隔の電気通信端末のみの間の直接接続を確立するシステムへ前記組を識別する少なくとも1つの信号を供給するステップと
    を有する、請求項1に記載の方法。
  11. 少なくとも1つの遠隔の電気通信端末と、少なくとも1つの局所入力デバイス及び少なくとも1つの局所出力デバイスを有する複数の局所の電気通信端末との間に電気通信ネットワークを介した接続を確立するデバイスと、
    オープン接続される前記少なくとも1つの遠隔の電気通信端末及び前記局所の電気通信端末のうちの少なくとも2つからの情報を伝える信号を処理する信号処理システムであって、前記少なくとも2つの電気通信端末から伝えられた情報を、それぞれの電気通信端末のユーザ間の会話ターンテイキングに対応するタイプの相互作用を検出する少なくとも1つの基準を用いて、相互の関連で時間にわたって分析するよう配置される前記信号処理システムと、
    前記局所の電気通信端末の夫々の局所出力デバイスを制御する出力信号を供給するインターフェースと
    を有し、
    前記局所の電気通信端末の夫々の局所入力デバイスのいずれかを介して情報を伝える局所ユーザと前記少なくとも1つの遠隔の電気通信端末のいずれかのユーザとの間の会話に対応するタイプの相互作用を検出すると、前記局所入力デバイスの既知の位置に基づいて前記局所ユーザの位置を推測し、
    前記少なくとも1つの基準が満足されるかどうかを決定すると、前記局所ユーザの位置に従って、前記出力信号を調整するよう配置される電気通信システム。
  12. 機械読取可能な媒体で実行される場合に、情報処理機能を備えたシステムに、請求項1乃至10のうちいずれか一項に記載の方法を実行させることができる命令の組を有するコンピュータプログラム。
JP2011527434A 2008-09-18 2009-09-09 周辺電話技術システムにおける会話検出 Expired - Fee Related JP5526134B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08164553.3 2008-09-18
EP08164553 2008-09-18
PCT/IB2009/053937 WO2010032164A1 (en) 2008-09-18 2009-09-09 Conversation detection in an ambient telephony system

Publications (2)

Publication Number Publication Date
JP2012503400A JP2012503400A (ja) 2012-02-02
JP5526134B2 true JP5526134B2 (ja) 2014-06-18

Family

ID=41394936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011527434A Expired - Fee Related JP5526134B2 (ja) 2008-09-18 2009-09-09 周辺電話技術システムにおける会話検出

Country Status (6)

Country Link
US (1) US9661139B2 (ja)
EP (1) EP2342867A1 (ja)
JP (1) JP5526134B2 (ja)
CN (1) CN102160335B (ja)
BR (1) BRPI0913549A2 (ja)
WO (1) WO2010032164A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379351A1 (en) * 2013-06-24 2014-12-25 Sundeep Raniwala Speech detection based upon facial movements
US10141011B2 (en) * 2014-04-21 2018-11-27 Avaya Inc. Conversation quality analysis
US9722965B2 (en) 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
EP3301896B1 (en) * 2016-09-28 2019-07-24 British Telecommunications public limited company Streamed communication
CN108271202B (zh) * 2016-12-30 2022-05-10 亿阳信通股份有限公司 一种基于短频话单数据定位网络故障的方法和装置
US10522147B2 (en) * 2017-12-21 2019-12-31 Motorola Solutions, Inc. Device and method for generating text representative of lip movement
KR102168802B1 (ko) * 2018-09-20 2020-10-22 한국전자통신연구원 상호 작용 장치 및 방법
JP7240596B2 (ja) * 2019-02-26 2023-03-16 京セラドキュメントソリューションズ株式会社 会話分析装置および会話分析システム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6427003B1 (en) * 2000-05-05 2002-07-30 Joseph C. Corbett Video caller identification systems and methods
JP2828086B2 (ja) * 1997-01-14 1998-11-25 日本電気株式会社 多地点テレビ会議システム
US6327567B1 (en) * 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
AU2080901A (en) 1999-12-30 2001-07-16 Sony Electronics Inc. A resource manager for providing user-dependent access control
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6329908B1 (en) 2000-06-23 2001-12-11 Armstrong World Industries, Inc. Addressable speaker system
US6766019B1 (en) 2000-07-21 2004-07-20 Agere Systems Inc. Method and apparatus for performing double-talk detection in acoustic echo cancellation
ES2656351T3 (es) * 2000-12-14 2018-02-26 Counterpath Corporation Método de re-selección de teléfono móvil entre una red celular de conmutación de circuitos y una red de conmutación de paquetes
US7231208B2 (en) * 2001-10-17 2007-06-12 Palm, Inc. User interface-technique for managing an active call
US20030210770A1 (en) 2002-05-10 2003-11-13 Brian Krejcarek Method and apparatus for peer-to-peer voice communication using voice recognition and proper noun identification
US7162256B2 (en) * 2003-09-30 2007-01-09 Avaya Technology Corp. Presence-based telecommunications system
US20050091693A1 (en) * 2003-10-22 2005-04-28 Rochelle Communications, Inc. Dual mode set-top box that optimizes the delivery and user selection of audio or video programming over data networks
US7933226B2 (en) 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
US8315865B2 (en) 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
US20070121606A1 (en) * 2005-11-03 2007-05-31 Fun Racquets, Inc. VOIP Hub Using Existing Audio or Video Systems
WO2007086042A2 (en) 2006-01-25 2007-08-02 Nice Systems Ltd. Method and apparatus for segmentation of audio interactions
CN101043759B (zh) * 2006-03-24 2010-12-08 华为技术有限公司 一种通过话带数据vbd方式实现数据业务的方法及其系统
US20070287474A1 (en) * 2006-03-28 2007-12-13 Clarity Communication Systems, Inc. Method and system for location based communication service
US7899437B2 (en) * 2006-06-13 2011-03-01 Telemergency Systems Llc Speakerphone control techniques and emergency call systems
US8042961B2 (en) * 2007-12-02 2011-10-25 Andrew Massara Audio lamp

Also Published As

Publication number Publication date
BRPI0913549A2 (pt) 2020-05-26
WO2010032164A1 (en) 2010-03-25
CN102160335A (zh) 2011-08-17
CN102160335B (zh) 2015-01-28
US20110164742A1 (en) 2011-07-07
EP2342867A1 (en) 2011-07-13
JP2012503400A (ja) 2012-02-02
US9661139B2 (en) 2017-05-23

Similar Documents

Publication Publication Date Title
JP5526134B2 (ja) 周辺電話技術システムにおける会話検出
US8731940B2 (en) Method of controlling a system and signal processing system
US9924112B2 (en) Automatic video stream selection
US20190066710A1 (en) Transparent near-end user control over far-end speech enhancement processing
US7933226B2 (en) System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
CN114616606A (zh) 具有改进的目的地回放的多设备会议
US9135928B2 (en) Audio transmission channel quality assessment
WO2013093172A1 (en) Audio conferencing
US20020197967A1 (en) Communication system with system components for ascertaining the authorship of a communication contribution
JP2012524445A (ja) アンビエント通信システム、当該システム用の動作デバイス、作動方法、及び計算機で読み取り可能な媒体
JP5616429B2 (ja) アンビエント通信システム、当該システムを作動する方法、及び計算機で読み取り可能な媒体
US20080059161A1 (en) Adaptive Comfort Noise Generation
US10182207B2 (en) Handling nuisance in teleconference system
JP2019176386A (ja) 通信端末及び会議システム
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP2008227693A (ja) 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム
JP2023118335A (ja) 通信端末、通信システム、及び通信サーバ
WO2024160496A1 (en) Proximity-based audio conferencing
CN114530159A (zh) 一种基于WebRTC技术的多媒体资源整合调度方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

R150 Certificate of patent or registration of utility model

Ref document number: 5526134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees