JP2003503925A

JP2003503925A - 情報ストリームのポスト同期

Info

Publication number: JP2003503925A
Application number: JP2001506502A
Authority: JP
Inventors: ハイスマ，ニコリン; ヘーシンケ，ヨハネス; アーイェーベルヘフート，バス; ヘステル，ヘンリクスアーウェーファン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-06-24
Filing date: 2000-06-21
Publication date: 2003-01-28
Also published as: CN1321287A; CN1271573C; US20040141093A1; WO2001001353A1; KR20010072936A; US6697120B1; US7145606B2; EP1108246A1

Abstract

(57)【要約】本発明は、情報ストリームをポスト同期するための方法を提供する。元のリップ−オブジェクト（ｌｏ）はビデオ信号（Ｖ）から得られる（２）。これらの元のリップ−オブジェクト（ｌｏ）は、翻訳されたオーディオ信号（Ａ^＊）に対応する新たなリップ−オブジェクト（ｌｏ^＊）で置換される（３，４）。リップ−オブジェクト（ｌｏ）は、例えば、ＭＰＥＧ−４のオブジェクト指向符号化技術を使用してビデオ信号（Ｖ）から得られる。符号化規格ＭＰＥＧ−４はリップ−オブジェクト（ｌｏ）を操作する便宜を提供する。幾つかの構成が提示される。更なるビデオ信号を追跡することにより、又は、視覚素又はリップ−パラメータを伴なうデータベースを使用することにより、新たなリップ−オブジェクト（ｌｏ^＊）を得ることができる。本発明は、例えば、ビデオ会議のような通信ネットワークに適する。多言語情報ストリームは、複数のオーディオ信号（Ａ，Ａ^＊）と、各々がオーディオ信号（Ａ，Ａ^＊）の１つにリンクされた複数のリップ−オブジェクト（ｌｏ，ｌｏ^＊）を有する。これは、受信器で、所望の言語を選択する可能性を与える。本発明の優位点は唇の動きが翻訳されたオーディオにより良く対応することである。

Description

【発明の詳細な説明】

【０００１】本発明は、オーディオ信号とビデオ信号を含む情報ストリームをポスト同期す
る方法に関し、その方法は、少なくとも1つの翻訳されたオーディオ信号を得る
ための翻訳処理を行うステップを有する。

【０００２】本発明は、さらに、少なくとも１つの翻訳されたオーディオ信号とビデオ信号
を含む情報信号を送信する送信器にも関する。

【０００３】本発明は、さらに、情報信号を受信する受信器にも関する。

【０００４】本発明は、更に、オーディオ及びビデオ信号を含む情報ストリームを送信する
手段と受信する手段とを有する複数の局と、前記局をリンクする通信ネットワー
クとを有する通信システムに関する。

【０００５】本発明は、さらに、ビデオ信号と異なる言語に関連する複数のオーディオ信号
及び、蓄積媒体を含む情報ストリームに関する。

【０００６】情報ストリームをポスト同期することは、特に映画とテレビジョン番組で知ら
れている。ポスト同期は、元のオーディオ信号が、通常は元のオーディオ信号の
翻訳である他のオーディオ信号により置換されることを意味する。これは、元の
言語を理解できない視聴者が、字幕を読むことなく映画を理解できるという優位
点を有する。しかし、これは、視聴者にとっては、もはや、唇の動きがオーディ
オ信号に対応しないというじれったさを与える。

【０００７】とりわけ、本発明の目的は、上述の問題を解決することである。このために、
本発明の第１の特徴は、元のリップ−オブジェクトを得るために、前記ビデオ信
号を追跡するステップと、前記元のリップ−オブジェクトを、前記翻訳されたオ
ーディオ信号に対応する新たなリップ−オブジェクトで置き換えるステップとを
有することを特徴とする方法を提供する。

【０００８】リップ−オブジェクトを追跡し且つ走査するための便宜は、例えば、ＭＰＥＧ
−４のようなオブジェクト指向符号化技術により提供される。そのような符号化
技術のオブジェクト指向の性質のために、リップ−オブジェクトは、別々に取扱
われ且つ操作され得る別のオブジェクトと見なされる。ＭＰＲＧ−４規格の全体
像は、ＩＳＯ／ＩＥＣ文書ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ２４５９、１９９
８年１０月、アトランティックシティ、で与えられており、”ＭＰＥＧ−４規格
”と更に呼ばれる。更なる情報は、ＩＳＯ／ＩＥＣ文書ＪＴＣ１／ＳＣ２９／Ｗ
Ｇ１１／Ｎ２１９５、１９９８年３月、東京、に記載されており、それは、ＭＰ
ＥＧ−４アプリケーションを記述する。ＭＰＥＧ−４は、ＭＰＥＧ（動画専門化
グループ）により開発された、ＩＳＯ／ＩＥＣ規格である。この規格は、ディジ
タルテレビジョン、インターラクティブグラフィックアプリケーション（合成コ
ンテンツ）及びインターラクティブマルチメディアの３つの分野の、製作、配布
及び、コンテンツアクセス規範の統合を可能とする標準的な技術的要素を提供す
る。ＭＰＥＧ−４は、”メディアオブジェクト”と呼ばれる、聴覚の、視覚の、
又は、オーディオビジュアルコンテンツの単位を表す方法を提供する。メディア
オブジェクトは、自然又は合成の起源でよく、これは、カメラ又はマイクロフォ
ン又は、コンピュータで記録されうることを意味する。オーディオビジュアルシ
ーンは、例えば、オーディオとビデオオブジェクトのような、幾つかのメディア
オブジェクトよりなる。ＭＰＥＧ−４は、合成の顔のオブジェクトと合成の音の
ような、オブジェクトのコード表現を定義する。ＭＰＥＧ−４は、シーンの異な
るオブジェクトを区別することを容易にする。特に、いわゆるリップ−オブジェ
クトのような別のオブジェクトとして、人の唇を記録することが、リップ−追跡
により可能である。このリップ−オブジェクトは、操作可能である。リップ−オ
ブジェクトから、リップ−モデルを元に唇を記述するリップ−パラメータを抽出
することが可能である。そのようなリップ−モデルは、局部的に蓄積され、一致
するリップ−パラメータを送ることのみで唇を構成することが可能である。

【０００９】本発明に従って、元のリップ−オブジェクトは、翻訳されたオーディオ信号に
対応する新たなリップ−オブジェクトで置換される。このように、唇の動きが翻
訳された信号により対応するビデオ信号が得られる。翻訳は更に自然になり、そ
して、理想的な場合には、視聴者は情報ストリームは実は元の情報ストリームの
翻訳であることに気づかないであろう。リップ−オブジェクトは顔の関連する部
分と共に唇も含む。

【００１０】ＭＰＥＧ−４規格によれば、メディアオブジェクトは、所定の座標システムの
どこにでも置くことができる。メディアオブジェクトの幾何学的又は聴覚的概観
を変更するために変換が与えられ得る。ストリーム化されたデータは、その属性
を変更するために、メディアオブジェクトに与えられ得る。エレメンタリースト
リームの同期は、エレメンタリーストリーム内の個々のアクセスユニットのタイ
ムスタンプを通して達成される。通常は、新たなリップ−オブジェクトは翻訳さ
れたオーディオ信号と同期される。

【００１１】ＭＰＥＧ−４ビジュアル規格内の自然ビデオを表現するためのツールは、マル
チメディア環境での、効率的な蓄積、伝送及び、テクスチャ、画像及びビデオデ
ータの操作を可能とする標準化された核となる技術を提供することを目的とする
。これらのツールは、ビデオオブジェクトと呼ばれる画像及びビデオコンテンツ
の原子的な単位の復号と表現を可能とする。ビデオオブジェクトの例は、話して
いる人間又は、単にその人の唇でもよい。

【００１２】顔は、レンダリング又はアニメーションのために準備された顔の幾何学的形状
のオブジェクトである。顔の形状、テクスチャ及び、表現は、一般的に、顔の定
義パラメータ（ＦＤＰ）セット又は、顔のアニメーションパラメータ（ＦＡＰ）
セットのインスタンスを含むビットストリームにより制御される。ＦＡＰの大き
な集合の、フレームに基づく且つ一時的なＤＣＴ符号化が、正確な音声の発音の
ために使用できる。

【００１３】視覚素と表現パラメータは、話者の唇とムードの特定の音声構成を符号化する
のに使用される。視覚素は、音素に対応する、１つ又はそれ以上の顔の特徴位置
のシーケンスである。音素は、最も短い典型的な音声を表す別個の音声要素であ
る。視覚素は、視覚的な発音の口の形状の基本単位を担う。視覚素は、口の開き
、高さ、幅及び、突き出しを規定する口パラメータを有する。規格の顔のアニメ
ーション部分は、合成の顔を構成しかつアニメーションにするパラメータを送る
ことを可能とする。これらのモデル自身は、ＭＰＥＧ−４では標準化されておら
ず、パラメータのみが標準化されている。新たなリップ−オブジェクトを、常に
ビデオ信号に最も合うように操作することができる。

【００１４】本発明の優位な実施例は、従属請求項に定義されている。本発明の実施例は、
前記変換されたオーディオ信号に対応するリップの動きを含む、少なくとも１つ
の更なるビデオ信号を追跡することにより、前記新たなリップ−オブジェクトを
得るステップを更に有することを特徴とする方法を提供する。この実施例は、新
たなリップ−オブジェクトを得るための方法を記述する。更なるビデオ信号は翻
訳されたオーディオ信号に対応する唇の動きを含むので、更なるビデオ信号から
得られたリップ−オブジェクトは、翻訳されたオーディオ信号に対応する。更な
るビデオ信号は、通訳者又は元の俳優の唇を記録することにより得られるのが好
ましい。リップ−オブジェクトを追跡することは、新たなリップ−オブジェクト
を得るためにこの更なるビデオ信号に行われる。唇の動きとオーディオ信号の翻
訳を記録することを結合することが効率的であろう。通訳者又は、元の俳優は、
例えば、翻訳されたオーディオ信号とリップ−オブジェクトとを同時に提供する
ことができる。元の俳優の優位点は、新たなリップ−オブジェクトは元のリップ
−オブジェクトと同じ唇から由来するので、唇の対応がより良いことである。

【００１５】本発明の更なる実施例は、元のオーディオ信号を、翻訳されたテキストに変換
するステップと、前記翻訳されたテキストから前記翻訳されたオーディオ信号と
前記新たなリップ−オブジェクトを得るステップを含む翻訳処理を含む方法を提
供する。この実施例では、翻訳処理の結果は翻訳されたテキストである。翻訳さ
れたテキストは、翻訳者からのキーボード入力又は、オーディオ信号を分析する
ことにより得ることができる。例えば、コンピュータは、最初にオーディオ信号
をテキストに変換し、そして、その後に、テキストを、翻訳されたテキストに翻
訳してもよい。翻訳されたテキストは、この場合には、例えば、テキストから音
声への符号化器の使用により、翻訳されたオーディオ信号を得るの使用される。
翻訳されたテキスト信号は、新たなリップ−オブジェクトを得るのにも使用され
る。翻訳されたテキスト内の１つの文字又は文字の組合せは、視覚素と音素を定
義する。音素と視覚素の定義は、例えば、データベースに蓄積される。そのよう
なＴＴＳ符号化器は、ＭＰＥＧ−４規格から知られている。ＴＴＳ符号化器は、
分かりやすい合成音声を発生するために、その入力として、テキスト又は、韻律
的なパラメータ（ピッチ輪郭、音素継続期間等）を伴なうテキストが可能である
。ＴＴＳ符号化器は、関連する顔のアニメーション、テキストの国際言語及び、
音素に関する国際記号に同期することを可能とするために使用されうるパラメー
タの発生をサポートする。更なる追記がテキスト内で制御情報を担うために使用
され、合成されたテキスト同期して他の構成要素へ転送される。ＭＰＥＧ−４は
、標準的なＴＴＳ符号化器自身よりも、ＴＴＳ符号化器の動作に関する標準的な
インターフェースを提供する。一般的には、符号化器は構造化された入力に基づ
き、音を発生するために利用できる。

【００１６】本発明の更なる実施例は、前記翻訳されたオーディオ信号を音素に分割するス
テップと、データベースから、前記音素に対応する視覚素を取り出すステップと
、前記視覚素から前記新たなリップ−オブジェクトを構成するステップとを有す
ることを特徴とする方法を提供する。翻訳処理は、前記音素をテキストに変換す
るステップと、前記テキストを翻訳されたテキストに翻訳するステップと、前記
翻訳されたテキストから前記翻訳されたオーディオ信号を得るステップとを有す
ることが、好ましい。音素と視覚素を得るために、オーディオ信号を分析するこ
とは、従来技術から知られている。ＵＳ−Ａ５，６０８，８３９は、音に同期し
たビデオシステムが開示されており、そこでは、音声を表す同期されていないオ
ーディオ信号のストリームと、話者のビデオ信号とが、信号を復号することによ
り処理される。複数の視覚素は、オーディオ信号中の音素に対応して記憶される
。視覚素は、オーディオ信号中の音素に対応して取り出され、ストリームのオー
ディオ信号中の対応する音素に同期して、取り出された視覚素を、ストリームの
同期されていないビデオ信号に与えることにより、同期はビデオとオーディオに
与えられる。実施例に従って、取り出しステップは唇の動きの視覚素を取り出す
ことを含む。このシステムはビデオ電話で使用するのに適している。このように
、ビデオ会議システムの両方向で発生する遅延が短縮される。

【００１７】リップ−オブジェクトのモデル化は既知の技術であり、それは特に圧縮の分野
で有利である。リップ−オブジェクトは、リップ−モデル、リップ−パラメータ
を使用して定義できる。リップ−オブジェクトを定義するパラメータを伝送する
のに十分であるので、これは、圧縮に関して非常に有益である。本発明に従って
、リップ−パラメータを使用することも有益である。パラメータの選択が変更さ
れねばならないということのみであるためである。受信端でリップ−モデルが利
用できるときには、変更されたリップ−パラメータを伝送することで十分である
。望まれる場合には、元のリップ−パラメータも伝送してもよい。新たなリップ
−オブジェクトはリップ−パラメータを変更することにより元のリップ−オブジ
ェクトから構成されることが好ましい。これは、新たなリップ−オブジェクトに
最も適することを導く。ある場合には、例えば、元と新たなリップ−オブジェク
トの間の差が小さい場合には、基準としても使用される元のリップ−パラメータ
に加えて受信器へ差信号として新たなリップ−パラメータを送信することは利益
がある。

【００１８】本発明に従った送信器は、元のリップ−オブジェクトを得るために、前記ビデ
オ信号を追跡するための追跡手段と、前記元のリップ−オブジェクトを、前記翻
訳されたオーディオ信号に対応する新たなリップ−オブジェクトで置き換えるた
めに、情報ストリームに新たなリップ−オブジェクトを追加する手段とを有する
ことを特徴とする。伝送前にビデオ信号内の元のリップ−オブジェクトが新たな
リップ−オブジェクトにより置換された場合には、情報ストリームは通常の受信
器により受信され且つ扱われることができる。更なる実施例では、送信器は、異
なる言語に関連する複数のオーディオ信号と、各々が前記複数のオーディオ信号
の少なくとも１つリンクされた複数のリップオブジェクトを送信する手段を有す
ることを特徴とする。この情報ストリームは、ビデオとオーディオに対して所望
の言語を選択する可能性を、受信器に与える。複数の言語に対してリップ−オブ
ジェクトのみ又はリップ−パラメータを伝送することにより、複数の言語の映画
と他のオーディオビジュアル番組の効果的な伝送が達成できる。

【００１９】本発明に従った第１の受信器は、翻訳されたオーディオ信号を得るために翻訳
処理を行う翻訳手段と、前記翻訳されたオーディオ信号を情報ストリームに追加
する手段と、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡す
るための追跡手段と、情報ストリームに、前記翻訳されたオーディオ信号に対応
する新たなリップ−オブジェクトを追加する手段と、前記翻訳されたオーディオ
信号と、前記元のリップ−オブジェクトが前記新たなリップ−オブジェクトで置
き換えられた前記ビデオ信号を出力するための出力手段とを有することを特徴と
する。この第１の受信器は、受信器中に翻訳手段を有する。この受信された情報
ストリームは元の言語のオーディオ及びビデオ信号を有する。この実施例は、所
望の（ユーザ選択の）言語の翻訳が局部的に即ち、送信器又は放送機構に独立に
行われるという優位点を有する。

【００２０】本発明に従った第２の受信器は、元のリップ−オブジェクトを得るために、前
記ビデオ信号を追跡するための追跡手段と、情報ストリームに、前記翻訳された
オーディオ信号に対応する新たなリップ−オブジェクトを追加する手段と、前記
翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新たなリッ
プ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力手段と
を有することを特徴とする。ＵＳ−Ａ５，６０８，８３９の既知の受信器との差
は、本発明に従った新たなリップ−オブジェクトは翻訳されたオーディオ信号に
対応することである。元のオーディオ信号はビデオ信号と同期していないが、し
かし、元のオブジェクトの唇の動きは翻訳されたオーディオ信号に対応しない。
元のリップ−オブジェクトは元のオーディオ信号に対応しているためである。本
発明に従った受信器内のデータベースは、所望の言語の音素と視覚素を含むべき
である。

【００２１】本発明に従った第３の受信器は、ビデオ信号と異なる言語に関連する複数のオ
ーディオ信号及び、各々が少なくとも１つの前記複数のオーディオ信号にリンク
された複数のリップ−オブジェクトを含む情報ストリームを受信し、その受信器
は前記複数のオーディオ信号から選択されたオーディオ信号得るための選択器
と、前記選択されたオーディオ信号と、前記選択されたオーディオ信号にリンク
された選択されたリップ−オブジェクトを有する前記ビデオ信号を出力するため
の出力手段とを有する。

【００２２】本発明に従った通信ネットワークは、元のリップ−オブジェクトを得るために
前記ビデオ信号を追跡する手段と、前記元のリップ−オブジェクトを前記翻訳さ
れたオーディオ信号に同期する新たなリップ−オブジェクトに置き換える手段と
を有する。そのような通信ネットワークは、例えば、上述の受信器と送信器を含
む。

【００２３】Ｃｈｅｕｎｇ他による”２−Ｄの頭部と肩のシーンに関するＭＰＥＧ−４の合
成／自然ハイブリッド符号化を使用するテキストに基づく自動フレーム発生（Ｔ
ｅｘｔ−ｄｒｉｖｅｎＡｕｔｏｍａｔｉｃＦｒａｍｅＧｅｎｅｒａｔｉｏ
ｎｕｓｉｎｇＭＰＥＧ−４Ｓｙｎｔｈｅｔｉｃ／ＮａｔｕｒａｌＨｙｂ
ｒｉｄＣｏｄｉｎｇｆｏｒ２−ＤＨｅａｄ−ａｎｄＳｈｏｕｌｄｅｒ
Ｓｃｅｎｅ）”１９９７年のサンタバーバラ、画像処理に関する国際会議分冊
ｖｏｌ．２、６９頁から７２頁は、話者の頭部の自動的なフレームシーケンスの
発生に関するＭＰＥＧ−４に基づく顔のモデル化技術を開示する。一般的な顔オ
ブジェクトに関する定義及びアニメーションパラメータで、形状、テクスチャ及
び、適用された正面の顔の表現は、一般的には、プレーンテキストから変換され
た音素により制御されそして合成される。分割形式は、音節的、イントネーショ
ン的フレーズ又は音素でもよい。どの言語の人間の音声もそれらの最短の代表的
な音素の組みに分解できるので、唇／顔同期を達成できる。プレーンテキストは
、つづりの正しい音素シンボル、コンピュータ読出し可能な音素アルファベット
に変換される。音声を生成するための高品質音素−音声合成器により、テキスト
に基づく同期アプリケーションを簡単に開発できる。各フレームの唇の開きと口
の形状の量は、音素の発音に関する対応する顔の動きを表す。

【００２４】上述の文書は、元のリップ−オブジェクトを、翻訳された信号に対応する新た
なリップ−オブジェクトで置換することに関しては何も開示し又は明らかにして
いない。しかし、それらの文書は、リップ−オブジェクトの使用やテキストから
オーディオを合成する技術のようなツールを開示する。音声シーケンスから音素
を抽出する方法、音素に対応する視覚素を記憶する方法、正確な顔の特徴を抽出
し且つそれらをビデオ信号に適用することは、それらの技術から知られている。

【００２５】本発明の前述のそして他の特徴は、以下に説明する実施例を参照して明らかと
なろう。図は、本発明を理解するために必要である構成要素のみを示す。

【００２６】図１に示すように、ポスト同期のためのシステムは、（ビデオ源１から得られ
る）ビデオ信号Ｖと（オーディオ源６から得られる）オーディオ信号Ａを含む情
報ストリームを得るためのビデオ源１とオーディオ源６を含む。ビデオ源１は、
画像センサ、コンピュータ等である。オーディオ源６は、マイクロフォン又は、
コンピュータ等である。オーディオ信号Ａは、翻訳器７で、翻訳されたオーディ
オ信号Ａ^＊に翻訳される。翻訳されたオーディオ信号Ａ^＊は、スピーカ８に出力
される。ビデオ信号Ｖは、元のリップ−オブジェクトｌｏを得るために、唇追跡
器２で追跡される。例として、この追跡はＭＰＥＧ−４符号化器内で行われる。
上述のように、ＭＰＥＧ−４規格はリップ−オブジェクトを追跡するツールを提
供し、且つ、ビデオ信号内でそれらを定義する。唇追跡処理の結果は、元のリッ
プ−オブジェクトｌｏと残りの信号Ｖ’を含むビデオ信号である。ポスト同期シ
ステムの実施例では、ビデオ源１と唇追跡器２は、ＭＰＥＧ−４カメラ内で結合
される。リップ−オブジェクトは、その場合には、ＭＰＥＧ−４規格に従って定
義される。本発明の効率的な実施例では、リップ−オブジェクトはリップ−モデ
ルに基づいて、リップ−パラメータにより定義される。元のリップ−オブジェク
トｌｏは、リップ−オブジェクト変更器３の中で変更される。元のリップ−オブ
ジェクトｌｏの特性に基づいて、翻訳されたオーディオ信号Ａ^＊に対応する新た
なリップ−オブジェクトｌｏ^＊が発生される。リップ−オブジェクト変更器３は
、他の信号、例えば、新たなリップ−オブジェクトｌｏ^＊に関する情報を得るた
めの入力を有する。変更の量は、リップ−オブジェクト変更器３が受信する情報
に依存して変わりうる。極端な場合には、元のリップ−オブジェクトｌｏの位置
のみが維持される。翻訳されたオーディオ信号Ａ^＊は、リップ−オブジェクト変
更器３に入力されそして、新たなリップ−オブジェクトｌｏ^＊を翻訳されたオー
ディオ信号Ａ^＊へ同期するのに使用する。翻訳されたオーディオ信号Ａ^＊は、新
たなリップ−オブジェクトｌｏ^＊を構成するのにも使用することができる。新た
なリップ−オブジェクトｌｏ^＊は、リップ−オブジェクト加算器４へ送られる。
リップ−オブジェクト加算器４内では、新たなリップ−オブジェクトｌｏ^＊が残
りの信号Ｖ’に加算される。元のリップ−オブジェクトの代わりに新たなリップ
−オブジェクトｌｏ^＊を含む新たなビデオ信号Ｖ^＊は、その後ディスプレイ５に
表示される。これより、唇の動きが翻訳されたオーディオ信号Ａ^＊により良く対
応する番組が表示される。理想的な状況では、新たなリップ−オブジェクトｌｏ ^＊は、非常に良くビデオ信号Ｖ^＊に適合するので、視聴者はポスト同期が行われ
たことに気づかないであろう。

【００２７】図１のシステムの他の実施例では、ビデオ信号Ｖ’は、まだもとのリップ−オ
ブジェクトｌｏを含む。その場合には、リップ−オブジェクト加算器４は、元の
リップ−オブジェクトｌｏを新たなリップ−オブジェクトｌｏ^＊で置き換えるよ
うになされる。

【００２８】図１は、本発明に従った全体的な表示を示す。ポスト同期システムは１つの場
所に存在する必要はなく、翻訳チャネル、通信ネットワーク等を含むことができ
る。示された構成要素を、異なる位置に渡って分散することができる。実際の実
施例では、チャネル符号化等の他のアルゴリズムだけでなく、ＭＰＥＧ−４符号
化と復号化も使用されるであろう。

【００２９】図２は、更なるビデオ信号Ｖ２を追跡することにより、新たなリップ−オブジ
ェクトｌｏ^＊を得るための実施例を示す。示された実施例では、第２のビデオ源
１１が、リップ−オブジェクト変更器３に接続された第２の唇追跡器１２と接続
される。第２のビデオ源１１と第２の唇追跡器１２は、ビデオ源１と唇追跡器２
と同様である。第２のビデオ源１１は、第２のビデオ信号Ｖ２を発生する。この
ビデオ信号Ｖ２は、翻訳されたオーディオ信号Ａ^＊に対応する唇の動きを含むこ
とが重要である。第２の唇追跡器１２内の第２のビデオ信号Ｖ２の追跡は、元の
リップ−オブジェクトｌｏを置き換えるための新たなリップ−オブジェクトｌｏ ^＊を構成するのに使用され得る、第２のリップ−オブジェクトｌｏ２を与える。
元のリップ−オブジェクトｌｏと第２のリップ−オブジェクトｌｏ２は、リップ
−オブジェクト変更器３に送られる。リップ−オブジェクト変更器３では、第２
のリップ−オブジェクトｌｏ２が、元のリップ−オブジェクトｌｏの位置に適合
するように変更される。これを達成するために、基準フレーム座標を変更し且つ
第２のリップ−オブジェクトｌｏ２に変換を加えることが必要である。ビデオ源
１１は、元の俳優の唇の動きを記録するカメラを含むことが好ましい。その場合
には、良い結果を得るために、最小の変更が必要である。いずれかの者例えば、
翻訳者の他の唇を記録することも可能である。その場合には、唇の形状と色に関
する更なる変更が必要である。翻訳されたオーディオ信号Ａ^＊は、新たなリップ
−オブジェクトｌｏ^＊と同期するのに使用される。リップ−オブジェクトｌｏ２
が既に十分に同期しているなら、このステップは省略されてもよい。更なるビデ
オ信号Ｖ２は、合成、コンピュータの発生した信号でも良い。

【００３０】図３は、本発明に従ったリップ−オブジェクト変更器３と組合せる翻訳器７の
実施例を示す。翻訳器７は、オーディオ分析器７０、オーディオ−テキスト変換
器７１、テキスト翻訳器７２及び、テキスト−オーディオ変換器７３を含む。翻
訳器７とリップ−オブジェクト変更器３は、両者ともに、データベース９に接続
されている。データベース９は、翻訳器７とリップ−オブジェクト変更器３に亘
って分散もされ得る。入力オーディオ信号Ａは、オーディオ分析器７０で分析さ
れる。オーディオ信号Ａの成分は、従来技術から知られるように、認識可能な音
素に分割される。個々の音素のレベルでの音声認識は本発明の一実施例で使用さ
れ、そして、他の実施例では、音素のグループレベルでの音声認識が使用される
。音素はコンピュータ読出し可能な音のアルファベットの一部であり、オーディ
オ−テキスト変換器７１内でテキストに変換される。この装置の出力は、テキス
ト信号Ｔである。テキスト信号Ｔは、テキスト翻訳器７２内で翻訳されたテキス
ト信号Ｔ^＊に翻訳される。テキスト翻訳器７２は、このために、データベース９
からも入手できるある辞書と文法ツールを有する。テキスト−オーディオ変換器
７３は、翻訳されたテキスト信号Ｔ^＊を翻訳されたオーディオ信号Ａ^＊へ、変換
する。翻訳されたオーディオ信号Ａ^＊は、本実施例では合成された信号である。
テキスト−オーディオ変換器７３は、上述のＴＴＳ符号化器を含むことができる
。新たなリップ−オブジェクトｌｏ^＊の構成のためのこの実施例には、幾つかの
可能性がある。第１の可能性は、翻訳されたテキスト信号Ｔ^＊から新たなリップ
−オブジェクトｌｏ^＊を得ることである。特定の言語の文字の特定の結合は、オ
ーディオ信号を構成するための音素を定義してもよく、そして、同時に、リップ
−オブジェクトｌｏ^＊を構成する視覚素を構成しても良い。音素と視覚素及びそ
れらの相互の関係は、例えば、データベース９に定義される。視覚素は、翻訳さ
れたオーディオ信号Ａ^＊を分析し且つ音素−視覚素の関係を使用することにより
得ることもできる。翻訳されたオーディオ信号Ａ^＊が既に音素に分割されている
ならば、実行は簡単である。音素と視覚素の関係を使用することは、例えば、テ
キストへの変換が省略される場合には、有益であり、そして、翻訳されたオーデ
ィオ信号Ａ^＊は、例えば、マイクロフォンで翻訳者の声を記録することにより、
異なる方法で得られる。テキスト信号Ｔと翻訳されたテキスト信号Ｔ^＊を、更に
、字幕情報としても使用することができそして、それゆえに、伝送される情報ス
トリーム内に含めることができる。他の実施例では、既に利用できる字幕が翻訳
されたオーディオ信号Ａ^＊と新たなリップ−オブジェクトｌｏ^＊を発生するのに
使用される。

【００３１】図４は、本発明に従った第１の送信器を示す。この送信器は、図１に示された
システムと同じ構成要素の拡大を示すが、ディスプレイとスピーカは含んでいな
い。伝送された情報ストリームは、翻訳されたオーディオ信号Ａ^＊と新たなリッ
プ−オブジェクトｌｏ^＊を有するビデオ信号Ｖ^＊を有する。オーディオ信号Ａ^＊とビデオ信号Ｖ^＊は、通常の方法でチャネル符号化されている。送信された情報
ストリームは、通常の受信器で処理できる。通常の受信器は、オーディオ信号の
翻訳手段とリップ−オブジェクトの変更手段を有しない受信器である。通常は、
これは、標準的なＭＰＥＧ−４受信器である。情報ストリームは、他の受信器へ
の伝送を可能とするために、他の符号化技術で符号化もされ得る。唇の追跡を、
任意の唇追跡回路で実行することができる。ＭＰＥＧ−４符号化器を使用する必
要はないが、そのような符号化器は好ましい。スタジオ環境では、元のリップ−
オブジェクトｌｏを新たなリップ−オブジェクトｌｏ^＊で置き換えるＭＰＥＧ−
４符号化技術を使用し、そして、例えば、ＭＰＥＧ−１／２、ＮＴＳＣ，ＰＡＬ
等の他のフォーマットで情報ストリームを伝送することが可能である。この場合
、翻訳されたオーディオ信号Ａ^＊に対応する唇の動きを有する従来の情報ストリ
ームが得られる。上述のように、翻訳されたテキスト信号Ｔ^＊は、字幕情報とし
て伝送されることが可能である。翻訳されたテキスト信号Ｔ^＊は、翻訳器７又は
他の方法により生成される。

【００３２】図５は、多言語情報を伝送する第２の送信器を示す図である。多言語情報スト
リームは、従来技術から知られるように、複数のオーディオ信号Ａ，Ａ^＊を含む
。多言語情報ストリームは、更に、複数のオーディオ信号Ａ，Ａ^＊の少なくとも
１つにリンクされた複数のリップオブジェクトｌｏ，ｌｏ^＊を有する。各々が対
応するリップ−オブジェクトのそれら自身のストリームを伴なう、幾つかのオー
ディオ信号は、このように、利用できる。随意に、情報ストリームは、上述のよ
うなテキスト信号Ｔ，Ｔ^＊を有する。

【００３３】実施例では、送信器は、元のリップ−オブジェクトｌｏを伴なうビデオ信号Ｖ
’と、更なる１つ又はそれ以上の翻訳されたオーディオ信号Ａ^＊に加えてもとの
オーディオ信号と、対応する新たなリップ−オブジェクトｌｏ^＊のストリームを
送信する。リップ−オブジェクトｌｏ，ｌｏ^＊のストリームは、ある種の識別子
によって、対応するオーディオ信号Ａ，Ａ^＊にリンクされている。リップ−オブ
ジェクトが、１つ以上のオーディオストリームにリンクされるのも可能である。
これは、例えば、リップ−オブジェクトが１つ以上のオーディオストリームで使
用されるときに有益である。前述のように、リップ−オブジェクトを定義するの
にリップ−パラメータを使用するのが非常に便利である。送信器の有利な実施例
は、少なくとも１つのオーディオ信号に各々がリンクされたリップ−パラメータ
を送信する。あるリップ−パラメータは、他の言語と同じであろう。その場合に
は、それらのパラメータを全ての言語にリンクすること又は、一般的にそれらを
送信することが有益である。他のパラメータは、おそらく１つの言語にリンクさ
れることを要する。リップ−パラメータを送信するときには、異なる言語に対し
てリップ−パラメータ間の差のみを送ることが可能である。そのような場合には
、効率的で低いビットレートの伝送が得られる。ビデオだけでなくオーディオ内
の多言語の存在は、プログラム特定情報ストリーム内で示されても良い。プログ
ラム特定情報ストリームは、どのくらいの数の及びどのプログラムが利用可能で
あるかと、どのエレメンタリーストリームを各プログラムが有するを規定する。

【００３４】図６は、本発明に従った第１の受信器を示す図である。この受信器は、アンテ
ナ、ネットワーク等のような幾つかの伝送チャネルから情報ストリームを受信す
る。ビデオ信号Ｖは、ビデオ源１により発生されたように、又は、ある種の符号
化後として受信され得る。この信号には唇追跡は行われなかったので、元のリッ
プ−オブジェクトはまだ得られない。その場合には、唇追跡器２が必要である。
例えば、情報ストリームがＭＰＥＧ−４で符号化されたときには、リップ−オブ
ジェクト又はリップ−パラメータは、既に得られていることが可能である。その
場合には、唇追跡器２は、受信器内で省略できる。これは、ビデオの残りの信号
Ｖ’は、元のリップオブジェクトｌｏとともに、受信器で受信されることを意味
する。オーディオは、翻訳されたオーディオ信号Ａ^＊又は、翻訳されてないオー
ディオ信号（Ａ）である。オーディオ信号が翻訳されてない場合には、翻訳器７
は、翻訳されたオーディオＡ^＊を得ることが必要である。入力情報ストリームに
依存して、翻訳器７と唇追跡器２はオプションである。翻訳されたオーディオ信
号Ａ^＊は、スピーカ８に出力される。ビデオ信号Ｖ’内のリップ−オブジェクト
ｌｏは、前述したように、新たなリップ−オブジェクトｌｏ^＊で置き換えられる
。テキスト信号Ｔ，Ｔ^＊は、ディスプレイ５上に随意に表示されることができる
。

【００３５】図７は、本発明に従った受信器の第２の実施例を示す図である。この実施例は
特に、図５に示す送信器と共に適用可能である。ビデオの残りの信号Ｖ’と複数
のリップ−オブジェクトｌｏ，ｌｏ^＊及び、複数のオーディオ信号Ａ，Ａ^＊を伴
なう情報ストリームが受信される。いくつかのテキスト信号Ｔと受信器は字幕と
して使用される翻訳されたテキスト信号Ｔ^＊も受信し得る。選択器１０は、スピ
ーカに出力されるオーディオ信号Ａ，Ａ^＊の１つを選択する。選択器はユーザ選
択が好ましい。選択器はさらに、対応するリップ−オブジェクトｌｏ，ｌｏ^＊を
選択する。これらのリップ−オブジェクトｌｏ，ｌｏ^＊は、パラメータ化される
。その場合には、リップ−パラメータのみ受信される。選択されたリップ−オブ
ジェクトｌｏ，ｌｏ^＊は、ディスプレイ５に表示するためのビデオ信号Ｖ，Ｖ^＊を構成するために、ビデオの残りの信号Ｖ’に加算される。図１に関連する説明
のように、ビデオ信号Ｖ’は、さらに、リップ−オブジェクトｌｏをも有するこ
とができる。元の言語が選択される場合には、元のリップ−オブジェクトｌｏが
他のリップ−オブジェクトによって置換されず、そして、ビデオ信号Ｖ’は、元
のリップ−オブジェクトｌｏと共に表示される。他の言語が選択された場合には
、加算器４は、選択されたリップ−オブジェクトｌｏ^＊によりリップ−オブジェ
クトを置換する。

【００３６】ユーザは、更なる特徴として、所望のテキスト信号Ｔ，Ｔ^＊を選択できる。

【００３７】図８は、本発明に従った通信システムを示す。通信ネットワークは、局ＳＴ１
，ＳＴ２、．．．，ＳＴＮと通信ネットワークＣＮを有する。通信ネットワーク
の例はインターネット、イントラネット、ＩＳＤＮ，ＤＶＢ等である。局ＳＴ１
は、受信器Ｒ１と送信器Ｔ１を有する。局ＳＴ２は、受信器Ｒ２と送信器Ｔ２を
有し、そして、局ＳＴＮは、受信器ＲＮと送信器ＴＮを有する。受信器又は送信
器のみを有する局も可能である。本発明に従って、通信システムは、翻訳処理を
行う手段、ビデオ信号を追跡する手段及び、元のリップ−オブジェクトを新たな
リップ−オブジェクトで置換する手段を有する。これらの手段は、どの位置で、
信システム内に存在しても良い。局の送信器と受信器は、例えば、図２−７に関
連して前述した送信器と受信器と同様のものであることが可能である。局部的に
本発明に従った受信器のみを有することが可能であるが、通常は、本発明に従っ
た送信器も存在する。この結果、多くの場合には、通信ネットワークＣＮを亘っ
て伝送される情報ストリームは、翻訳されたオーディオ信号Ａ^＊と対応するリッ
プ−オブジェクトｌｏ^＊を、通常のオーディオＡとビデオ信号Ｖ，Ｖ’に加えて
有するであろう。多くの場合に、テキスト信号Ｔと翻訳されたテキスト信号Ｔ^＊も、情報ストリーム内に存在する。図２に示す送信器が局ＳＴ１，ＳＴ２、．．
．，ＳＴＮの１つに存在する実施例では、信号Ｖ^＊も情報ストリームに含まれる
。局ＳＴ１，ＳＴ２、．．．，ＳＴＮは、実質的に同一か又は、異なってもよい
。通信システムの実際のアプリケーションは、ビデオ会議である。オーディオの
翻訳とリップ−オブジェクトの置換は実時間で行われるのが好ましい。これは、
十分な計算パワーが利用できるときに可能である。小さな遅延は許容可能である
。ビデオ会議の場合には遅延は２つの方向で発生するので、できる限り低いこと
が好ましい。

【００３８】最後にどのような可能な情報ストリームをも蓄積媒体に蓄積することができる
。これは、図８に示す蓄積媒体Ｓであり、ネットワークからの情報ストリームを
蓄積し、そして、蓄積された情報ストリームをネットワーク又は、他の蓄積媒体
に供給する。他の適する蓄積媒体の例は、テープ、ＤＶＤディスク、ＣＤ−ＲＯ
Ｍ等である。

【００３９】他の適する符号化基準の例は、Ｈ．３２３である。

【００４０】上述の実施例は、本発明を制限するものではなく、当業者は、請求項の範囲か
ら離れることなく多くの代替の実施例を設計することができることは注意すべき
である。請求項においては、括弧間の参照記号は請求項を制限しない。用語゛含
む”、”有する”は、請求項に記載した以外の他の要素又は、ステップの存在を
除外しない。本発明の幾つかの特徴ある構成要素を含むハードウェアにより又は
、好適にプログラムされたコンピュータにより本発明を実行することができる。
幾つかの手段を列挙する装置の請求項では、これらの手段の幾つかは１つの同じ
ハードウェアにより実現できる。

【００４１】要約すると、本発明は、情報ストリームをポスト同期するための方法を提供す
る。本発明に従って、元のリップ−オブジェクトはビデオ信号から得られる。こ
れらの元のリップ−オブジェクトは、翻訳されたオーディオ信号に対応する新た
なリップ−オブジェクトで置換される。リップ−オブジェクトは、例えば、ＭＰ
ＥＧ−４のオブジェクト指向符号化技術を使用してビデオ信号から得られる。符
号化規格ＭＰＥＧ−４はリップ−オブジェクトを操作する便宜を提供する。幾つ
かの構成が提示される。更なるビデオ信号を追跡することにより、又は、視覚素
又はリップ−パラメータを伴なうデータベースを使用することにより、新たなリ
ップ−オブジェクトを得ることができる。本発明は、例えば、ビデオ会議のよう
な通信ネットワークに適する。多言語情報ストリームは、複数のオーディオ信号
と、各々がオーディオ信号の１つにリンクされた複数のリップ−オブジェクトを
有する。これは、受信器で、所望の言語を選択する可能性を与える。本発明の優
位点は唇の動きが翻訳されたオーディオにより良く対応することである。

【図面の簡単な説明】

【図１】本発明に従ったポスト同期を示す図である。

【図２】更なるビデオオブジェクトを追跡して新たなリップ−オブジェクトを得るため
の実施例を示す図である。

【図３】本発明に従ったリップ−オブジェクト変更きと組合せた翻訳器の実施例を示す
図である。

【図４】本発明に従った第１の送信器を示す図である。

【図５】本発明に従った第２の送信器を示す図である。

【図６】本発明に従った第１の受信器を示す図である。

【図７】本発明に従った第２の受信器を示す図である。

【図８】本発明に従った通信システムを示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者シンケ，ヨハネスヘーオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６ (72)発明者ベルヘフート，バスアーイェーオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６ (72)発明者ファンヘステル，ヘンリクスアーウェーオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６Ｆターム(参考） 5C052 CC01 DD06 EE03 5C053 FA14 GB37 LA06 【要約の続き】与える。本発明の優位点は唇の動きが翻訳されたオーディオにより良く対応することである。

Claims

【特許請求の範囲】

【請求項１】少なくとも１つの翻訳されたオーディオ信号を得るために翻
訳処理を行うステップを有する、オーディオ信号とビデオ信号を含む情報ストリ
ームをポスト同期する方法であって、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するステップ
と、前記元のリップ−オブジェクトを、前記翻訳されたオーディオ信号に対応する
新たなリップ−オブジェクトで置き換えるステップとを有することを特徴とする
方法。
【請求項２】前記変換されたオーディオ信号に対応する唇の動きを含む、
少なくとも１つの更なるビデオ信号を追跡することにより、前記新たなリップ−
オブジェクトを得るステップを更に有することを特徴とする請求項１記載の方法
。
【請求項３】前記翻訳処理は、元のオーディオ信号を、翻訳されたテキストに変換するステップと、前記翻訳されたテキストから前記翻訳されたオーディオ信号と前記新たなリッ
プ−オブジェクトを得るステップを含む請求項１記載の方法。
【請求項４】前記翻訳されたオーディオ信号を音素に分割するステップと
、データベースから、前記音素に対応する視覚素を取り出すステップと、前記視覚素から前記新たなリップ−オブジェクトを構成するステップとを有す
ることを特徴とする請求項１記載の方法。
【請求項５】翻訳処理は、前記音素をテキストに変換するステップと、前記テキストを翻訳されたテキストに翻訳するステップと、前記翻訳されたテキストから前記翻訳されたオーディオ信号を得るステップと
を有する請求項４記載の方法。
【請求項６】前記元のリップ−オブジェクトからリップ−パラメータを得
るステップと、前記新たなリップ−オブジェクトを構成するために、新たなリップパラメータ
を得るために前記リップ−パラメータを変更するステップとを有することを特徴
とする請求項１記載の方法。
【請求項７】少なくとも１つの翻訳されたオーディオ信号とビデオ信号を
含む情報ストリームを送信するための送信器であって、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するための追
跡手段と、前記元のリップ−オブジェクトを、前記翻訳されたオーディオ信号に対応する
新たなリップ−オブジェクトで置き換えるために、情報ストリームに新たなリッ
プ−オブジェクトを追加する手段とを有することを特徴とする送信器。
【請求項８】異なる言語に関連する複数のオーディオ信号と、各々が前記
複数のオーディオ信号の少なくとも１つリンクされた複数のリップオブジェクト
を送信する手段を有することを特徴とする請求項７に記載の送信器。
【請求項９】オーディオ信号とビデオ信号を含む情報ストリームを受信す
る受信器であって、翻訳されたオーディオ信号を得るために翻訳処理を行う翻訳手段と、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するための追
跡手段と、情報ストリームに、前記翻訳されたオーディオ信号に対応する新たなリップ−
オブジェクトを追加する手段と、前記翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新た
なリップ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力
手段とを有することを特徴とする受信器。
【請求項１０】翻訳されたオーディオ信号とビデオ信号を含む情報ストリ
ームを受信する受信器であって、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するための追
跡手段と、情報ストリームに、前記翻訳されたオーディオ信号に対応する新たなリップ−
オブジェクトを追加する手段と、前記翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新た
なリップ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力
手段とを有することを特徴とする受信器。
【請求項１１】ビデオ信号、異なる言語に関連する複数のオーディオ信号
及び、各々が少なくとも１つの前記複数のオーディオ信号にリンクされた複数の
リンクオブジェクトを有する、情報ストリームを受信する受信器であって、前記複数のオーディオ信号から選択されたオーディオ信号得るための選択器と
、前記選択されたオーディオ信号と、前記選択されたオーディオ信号にリンクさ
れた選択されたリップ−オブジェクトを有する前記ビデオ信号を出力するための
出力手段とを有する受信器。
【請求項１２】オーディオ及びビデオ信号を含む情報ストリームを送信す
る手段と受信する手段とを有する複数の局と、前記局をリンクする通信ネットワ
ークとを有する通信システムであって、少なくとも１つの翻訳されたオーディオ信号を得るために翻訳処理を行う手段
と、元のリップ−オブジェクトを得るために前記ビデオ信号を追跡する手段と、前記元のリップ−オブジェクトを前記翻訳されたオーディオ信号に対応する新
たなリップ−オブジェクトに置き換える手段とを有する通信システム。
【請求項１３】ビデオ信号と異なる言語に関連する複数のオーディオ信号
を含む情報ストリームであって、各々が少なくとも１つの前記複数のオーディオ信号にリンクされた複数のリッ
プ−オブジェクトを更に有することを特徴とする情報ストリーム。
【請求項１４】請求項１３記載の情報ストリームが記録されることを特徴
とする蓄積媒体。