JP2003503925A - 情報ストリームのポスト同期 - Google Patents
情報ストリームのポスト同期Info
- Publication number
- JP2003503925A JP2003503925A JP2001506502A JP2001506502A JP2003503925A JP 2003503925 A JP2003503925 A JP 2003503925A JP 2001506502 A JP2001506502 A JP 2001506502A JP 2001506502 A JP2001506502 A JP 2001506502A JP 2003503925 A JP2003503925 A JP 2003503925A
- Authority
- JP
- Japan
- Prior art keywords
- lip
- audio signal
- translated
- video signal
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000004891 communication Methods 0.000 claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 230000033001 locomotion Effects 0.000 claims abstract description 16
- 238000013519 translation Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 7
- 101100141306 Xenopus laevis rpain-a gene Proteins 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000003607 modifier Substances 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000375392 Tana Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/24—Systems for the transmission of television signals using pulse code modulation
- H04N7/52—Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
- Television Systems (AREA)
Abstract
(57)【要約】
本発明は、情報ストリームをポスト同期するための方法を提供する。元のリップ−オブジェクト(lo)はビデオ信号(V)から得られる(2)。これらの元のリップ−オブジェクト(lo)は、翻訳されたオーディオ信号(A*)に対応する新たなリップ−オブジェクト(lo*)で置換される(3,4)。リップ−オブジェクト(lo)は、例えば、MPEG−4のオブジェクト指向符号化技術を使用してビデオ信号(V)から得られる。符号化規格MPEG−4はリップ−オブジェクト(lo)を操作する便宜を提供する。幾つかの構成が提示される。更なるビデオ信号を追跡することにより、又は、視覚素又はリップ−パラメータを伴なうデータベースを使用することにより、新たなリップ−オブジェクト(lo*)を得ることができる。本発明は、例えば、ビデオ会議のような通信ネットワークに適する。多言語情報ストリームは、複数のオーディオ信号(A,A*)と、各々がオーディオ信号(A,A*)の1つにリンクされた複数のリップ−オブジェクト(lo,lo*)を有する。これは、受信器で、所望の言語を選択する可能性を与える。本発明の優位点は唇の動きが翻訳されたオーディオにより良く対応することである。
Description
【0001】
本発明は、オーディオ信号とビデオ信号を含む情報ストリームをポスト同期す
る方法に関し、その方法は、少なくとも1つの翻訳されたオーディオ信号を得る
ための翻訳処理を行うステップを有する。
る方法に関し、その方法は、少なくとも1つの翻訳されたオーディオ信号を得る
ための翻訳処理を行うステップを有する。
【0002】
本発明は、さらに、少なくとも1つの翻訳されたオーディオ信号とビデオ信号
を含む情報信号を送信する送信器にも関する。
を含む情報信号を送信する送信器にも関する。
【0003】
本発明は、さらに、情報信号を受信する受信器にも関する。
【0004】
本発明は、更に、オーディオ及びビデオ信号を含む情報ストリームを送信する
手段と受信する手段とを有する複数の局と、前記局をリンクする通信ネットワー
クとを有する通信システムに関する。
手段と受信する手段とを有する複数の局と、前記局をリンクする通信ネットワー
クとを有する通信システムに関する。
【0005】
本発明は、さらに、ビデオ信号と異なる言語に関連する複数のオーディオ信号
及び、蓄積媒体を含む情報ストリームに関する。
及び、蓄積媒体を含む情報ストリームに関する。
【0006】
情報ストリームをポスト同期することは、特に映画とテレビジョン番組で知ら
れている。ポスト同期は、元のオーディオ信号が、通常は元のオーディオ信号の
翻訳である他のオーディオ信号により置換されることを意味する。これは、元の
言語を理解できない視聴者が、字幕を読むことなく映画を理解できるという優位
点を有する。しかし、これは、視聴者にとっては、もはや、唇の動きがオーディ
オ信号に対応しないというじれったさを与える。
れている。ポスト同期は、元のオーディオ信号が、通常は元のオーディオ信号の
翻訳である他のオーディオ信号により置換されることを意味する。これは、元の
言語を理解できない視聴者が、字幕を読むことなく映画を理解できるという優位
点を有する。しかし、これは、視聴者にとっては、もはや、唇の動きがオーディ
オ信号に対応しないというじれったさを与える。
【0007】
とりわけ、本発明の目的は、上述の問題を解決することである。このために、
本発明の第1の特徴は、元のリップ−オブジェクトを得るために、前記ビデオ信
号を追跡するステップと、前記元のリップ−オブジェクトを、前記翻訳されたオ
ーディオ信号に対応する新たなリップ−オブジェクトで置き換えるステップとを
有することを特徴とする方法を提供する。
本発明の第1の特徴は、元のリップ−オブジェクトを得るために、前記ビデオ信
号を追跡するステップと、前記元のリップ−オブジェクトを、前記翻訳されたオ
ーディオ信号に対応する新たなリップ−オブジェクトで置き換えるステップとを
有することを特徴とする方法を提供する。
【0008】
リップ−オブジェクトを追跡し且つ走査するための便宜は、例えば、MPEG
−4のようなオブジェクト指向符号化技術により提供される。そのような符号化
技術のオブジェクト指向の性質のために、リップ−オブジェクトは、別々に取扱
われ且つ操作され得る別のオブジェクトと見なされる。MPRG−4規格の全体
像は、ISO/IEC文書JTC1/SC29/WG11/N2459、199
8年10月、アトランティックシティ、で与えられており、”MPEG−4規格
”と更に呼ばれる。更なる情報は、ISO/IEC文書JTC1/SC29/W
G11/N2195、1998年3月、東京、に記載されており、それは、MP
EG−4アプリケーションを記述する。MPEG−4は、MPEG(動画専門化
グループ)により開発された、ISO/IEC規格である。この規格は、ディジ
タルテレビジョン、インターラクティブグラフィックアプリケーション(合成コ
ンテンツ)及びインターラクティブマルチメディアの3つの分野の、製作、配布
及び、コンテンツアクセス規範の統合を可能とする標準的な技術的要素を提供す
る。MPEG−4は、”メディアオブジェクト”と呼ばれる、聴覚の、視覚の、
又は、オーディオビジュアルコンテンツの単位を表す方法を提供する。メディア
オブジェクトは、自然又は合成の起源でよく、これは、カメラ又はマイクロフォ
ン又は、コンピュータで記録されうることを意味する。オーディオビジュアルシ
ーンは、例えば、オーディオとビデオオブジェクトのような、幾つかのメディア
オブジェクトよりなる。MPEG−4は、合成の顔のオブジェクトと合成の音の
ような、オブジェクトのコード表現を定義する。MPEG−4は、シーンの異な
るオブジェクトを区別することを容易にする。特に、いわゆるリップ−オブジェ
クトのような別のオブジェクトとして、人の唇を記録することが、リップ−追跡
により可能である。このリップ−オブジェクトは、操作可能である。リップ−オ
ブジェクトから、リップ−モデルを元に唇を記述するリップ−パラメータを抽出
することが可能である。そのようなリップ−モデルは、局部的に蓄積され、一致
するリップ−パラメータを送ることのみで唇を構成することが可能である。
−4のようなオブジェクト指向符号化技術により提供される。そのような符号化
技術のオブジェクト指向の性質のために、リップ−オブジェクトは、別々に取扱
われ且つ操作され得る別のオブジェクトと見なされる。MPRG−4規格の全体
像は、ISO/IEC文書JTC1/SC29/WG11/N2459、199
8年10月、アトランティックシティ、で与えられており、”MPEG−4規格
”と更に呼ばれる。更なる情報は、ISO/IEC文書JTC1/SC29/W
G11/N2195、1998年3月、東京、に記載されており、それは、MP
EG−4アプリケーションを記述する。MPEG−4は、MPEG(動画専門化
グループ)により開発された、ISO/IEC規格である。この規格は、ディジ
タルテレビジョン、インターラクティブグラフィックアプリケーション(合成コ
ンテンツ)及びインターラクティブマルチメディアの3つの分野の、製作、配布
及び、コンテンツアクセス規範の統合を可能とする標準的な技術的要素を提供す
る。MPEG−4は、”メディアオブジェクト”と呼ばれる、聴覚の、視覚の、
又は、オーディオビジュアルコンテンツの単位を表す方法を提供する。メディア
オブジェクトは、自然又は合成の起源でよく、これは、カメラ又はマイクロフォ
ン又は、コンピュータで記録されうることを意味する。オーディオビジュアルシ
ーンは、例えば、オーディオとビデオオブジェクトのような、幾つかのメディア
オブジェクトよりなる。MPEG−4は、合成の顔のオブジェクトと合成の音の
ような、オブジェクトのコード表現を定義する。MPEG−4は、シーンの異な
るオブジェクトを区別することを容易にする。特に、いわゆるリップ−オブジェ
クトのような別のオブジェクトとして、人の唇を記録することが、リップ−追跡
により可能である。このリップ−オブジェクトは、操作可能である。リップ−オ
ブジェクトから、リップ−モデルを元に唇を記述するリップ−パラメータを抽出
することが可能である。そのようなリップ−モデルは、局部的に蓄積され、一致
するリップ−パラメータを送ることのみで唇を構成することが可能である。
【0009】
本発明に従って、元のリップ−オブジェクトは、翻訳されたオーディオ信号に
対応する新たなリップ−オブジェクトで置換される。このように、唇の動きが翻
訳された信号により対応するビデオ信号が得られる。翻訳は更に自然になり、そ
して、理想的な場合には、視聴者は情報ストリームは実は元の情報ストリームの
翻訳であることに気づかないであろう。リップ−オブジェクトは顔の関連する部
分と共に唇も含む。
対応する新たなリップ−オブジェクトで置換される。このように、唇の動きが翻
訳された信号により対応するビデオ信号が得られる。翻訳は更に自然になり、そ
して、理想的な場合には、視聴者は情報ストリームは実は元の情報ストリームの
翻訳であることに気づかないであろう。リップ−オブジェクトは顔の関連する部
分と共に唇も含む。
【0010】
MPEG−4規格によれば、メディアオブジェクトは、所定の座標システムの
どこにでも置くことができる。メディアオブジェクトの幾何学的又は聴覚的概観
を変更するために変換が与えられ得る。ストリーム化されたデータは、その属性
を変更するために、メディアオブジェクトに与えられ得る。エレメンタリースト
リームの同期は、エレメンタリーストリーム内の個々のアクセスユニットのタイ
ムスタンプを通して達成される。通常は、新たなリップ−オブジェクトは翻訳さ
れたオーディオ信号と同期される。
どこにでも置くことができる。メディアオブジェクトの幾何学的又は聴覚的概観
を変更するために変換が与えられ得る。ストリーム化されたデータは、その属性
を変更するために、メディアオブジェクトに与えられ得る。エレメンタリースト
リームの同期は、エレメンタリーストリーム内の個々のアクセスユニットのタイ
ムスタンプを通して達成される。通常は、新たなリップ−オブジェクトは翻訳さ
れたオーディオ信号と同期される。
【0011】
MPEG−4ビジュアル規格内の自然ビデオを表現するためのツールは、マル
チメディア環境での、効率的な蓄積、伝送及び、テクスチャ、画像及びビデオデ
ータの操作を可能とする標準化された核となる技術を提供することを目的とする
。これらのツールは、ビデオオブジェクトと呼ばれる画像及びビデオコンテンツ
の原子的な単位の復号と表現を可能とする。ビデオオブジェクトの例は、話して
いる人間又は、単にその人の唇でもよい。
チメディア環境での、効率的な蓄積、伝送及び、テクスチャ、画像及びビデオデ
ータの操作を可能とする標準化された核となる技術を提供することを目的とする
。これらのツールは、ビデオオブジェクトと呼ばれる画像及びビデオコンテンツ
の原子的な単位の復号と表現を可能とする。ビデオオブジェクトの例は、話して
いる人間又は、単にその人の唇でもよい。
【0012】
顔は、レンダリング又はアニメーションのために準備された顔の幾何学的形状
のオブジェクトである。顔の形状、テクスチャ及び、表現は、一般的に、顔の定
義パラメータ(FDP)セット又は、顔のアニメーションパラメータ(FAP)
セットのインスタンスを含むビットストリームにより制御される。FAPの大き
な集合の、フレームに基づく且つ一時的なDCT符号化が、正確な音声の発音の
ために使用できる。
のオブジェクトである。顔の形状、テクスチャ及び、表現は、一般的に、顔の定
義パラメータ(FDP)セット又は、顔のアニメーションパラメータ(FAP)
セットのインスタンスを含むビットストリームにより制御される。FAPの大き
な集合の、フレームに基づく且つ一時的なDCT符号化が、正確な音声の発音の
ために使用できる。
【0013】
視覚素と表現パラメータは、話者の唇とムードの特定の音声構成を符号化する
のに使用される。視覚素は、音素に対応する、1つ又はそれ以上の顔の特徴位置
のシーケンスである。音素は、最も短い典型的な音声を表す別個の音声要素であ
る。視覚素は、視覚的な発音の口の形状の基本単位を担う。視覚素は、口の開き
、高さ、幅及び、突き出しを規定する口パラメータを有する。規格の顔のアニメ
ーション部分は、合成の顔を構成しかつアニメーションにするパラメータを送る
ことを可能とする。これらのモデル自身は、MPEG−4では標準化されておら
ず、パラメータのみが標準化されている。新たなリップ−オブジェクトを、常に
ビデオ信号に最も合うように操作することができる。
のに使用される。視覚素は、音素に対応する、1つ又はそれ以上の顔の特徴位置
のシーケンスである。音素は、最も短い典型的な音声を表す別個の音声要素であ
る。視覚素は、視覚的な発音の口の形状の基本単位を担う。視覚素は、口の開き
、高さ、幅及び、突き出しを規定する口パラメータを有する。規格の顔のアニメ
ーション部分は、合成の顔を構成しかつアニメーションにするパラメータを送る
ことを可能とする。これらのモデル自身は、MPEG−4では標準化されておら
ず、パラメータのみが標準化されている。新たなリップ−オブジェクトを、常に
ビデオ信号に最も合うように操作することができる。
【0014】
本発明の優位な実施例は、従属請求項に定義されている。本発明の実施例は、
前記変換されたオーディオ信号に対応するリップの動きを含む、少なくとも1つ
の更なるビデオ信号を追跡することにより、前記新たなリップ−オブジェクトを
得るステップを更に有することを特徴とする方法を提供する。この実施例は、新
たなリップ−オブジェクトを得るための方法を記述する。更なるビデオ信号は翻
訳されたオーディオ信号に対応する唇の動きを含むので、更なるビデオ信号から
得られたリップ−オブジェクトは、翻訳されたオーディオ信号に対応する。更な
るビデオ信号は、通訳者又は元の俳優の唇を記録することにより得られるのが好
ましい。リップ−オブジェクトを追跡することは、新たなリップ−オブジェクト
を得るためにこの更なるビデオ信号に行われる。唇の動きとオーディオ信号の翻
訳を記録することを結合することが効率的であろう。通訳者又は、元の俳優は、
例えば、翻訳されたオーディオ信号とリップ−オブジェクトとを同時に提供する
ことができる。元の俳優の優位点は、新たなリップ−オブジェクトは元のリップ
−オブジェクトと同じ唇から由来するので、唇の対応がより良いことである。
前記変換されたオーディオ信号に対応するリップの動きを含む、少なくとも1つ
の更なるビデオ信号を追跡することにより、前記新たなリップ−オブジェクトを
得るステップを更に有することを特徴とする方法を提供する。この実施例は、新
たなリップ−オブジェクトを得るための方法を記述する。更なるビデオ信号は翻
訳されたオーディオ信号に対応する唇の動きを含むので、更なるビデオ信号から
得られたリップ−オブジェクトは、翻訳されたオーディオ信号に対応する。更な
るビデオ信号は、通訳者又は元の俳優の唇を記録することにより得られるのが好
ましい。リップ−オブジェクトを追跡することは、新たなリップ−オブジェクト
を得るためにこの更なるビデオ信号に行われる。唇の動きとオーディオ信号の翻
訳を記録することを結合することが効率的であろう。通訳者又は、元の俳優は、
例えば、翻訳されたオーディオ信号とリップ−オブジェクトとを同時に提供する
ことができる。元の俳優の優位点は、新たなリップ−オブジェクトは元のリップ
−オブジェクトと同じ唇から由来するので、唇の対応がより良いことである。
【0015】
本発明の更なる実施例は、元のオーディオ信号を、翻訳されたテキストに変換
するステップと、前記翻訳されたテキストから前記翻訳されたオーディオ信号と
前記新たなリップ−オブジェクトを得るステップを含む翻訳処理を含む方法を提
供する。この実施例では、翻訳処理の結果は翻訳されたテキストである。翻訳さ
れたテキストは、翻訳者からのキーボード入力又は、オーディオ信号を分析する
ことにより得ることができる。例えば、コンピュータは、最初にオーディオ信号
をテキストに変換し、そして、その後に、テキストを、翻訳されたテキストに翻
訳してもよい。翻訳されたテキストは、この場合には、例えば、テキストから音
声への符号化器の使用により、翻訳されたオーディオ信号を得るの使用される。
翻訳されたテキスト信号は、新たなリップ−オブジェクトを得るのにも使用され
る。翻訳されたテキスト内の1つの文字又は文字の組合せは、視覚素と音素を定
義する。音素と視覚素の定義は、例えば、データベースに蓄積される。そのよう
なTTS符号化器は、MPEG−4規格から知られている。TTS符号化器は、
分かりやすい合成音声を発生するために、その入力として、テキスト又は、韻律
的なパラメータ(ピッチ輪郭、音素継続期間等)を伴なうテキストが可能である
。TTS符号化器は、関連する顔のアニメーション、テキストの国際言語及び、
音素に関する国際記号に同期することを可能とするために使用されうるパラメー
タの発生をサポートする。更なる追記がテキスト内で制御情報を担うために使用
され、合成されたテキスト同期して他の構成要素へ転送される。MPEG−4は
、標準的なTTS符号化器自身よりも、TTS符号化器の動作に関する標準的な
インターフェースを提供する。一般的には、符号化器は構造化された入力に基づ
き、音を発生するために利用できる。
するステップと、前記翻訳されたテキストから前記翻訳されたオーディオ信号と
前記新たなリップ−オブジェクトを得るステップを含む翻訳処理を含む方法を提
供する。この実施例では、翻訳処理の結果は翻訳されたテキストである。翻訳さ
れたテキストは、翻訳者からのキーボード入力又は、オーディオ信号を分析する
ことにより得ることができる。例えば、コンピュータは、最初にオーディオ信号
をテキストに変換し、そして、その後に、テキストを、翻訳されたテキストに翻
訳してもよい。翻訳されたテキストは、この場合には、例えば、テキストから音
声への符号化器の使用により、翻訳されたオーディオ信号を得るの使用される。
翻訳されたテキスト信号は、新たなリップ−オブジェクトを得るのにも使用され
る。翻訳されたテキスト内の1つの文字又は文字の組合せは、視覚素と音素を定
義する。音素と視覚素の定義は、例えば、データベースに蓄積される。そのよう
なTTS符号化器は、MPEG−4規格から知られている。TTS符号化器は、
分かりやすい合成音声を発生するために、その入力として、テキスト又は、韻律
的なパラメータ(ピッチ輪郭、音素継続期間等)を伴なうテキストが可能である
。TTS符号化器は、関連する顔のアニメーション、テキストの国際言語及び、
音素に関する国際記号に同期することを可能とするために使用されうるパラメー
タの発生をサポートする。更なる追記がテキスト内で制御情報を担うために使用
され、合成されたテキスト同期して他の構成要素へ転送される。MPEG−4は
、標準的なTTS符号化器自身よりも、TTS符号化器の動作に関する標準的な
インターフェースを提供する。一般的には、符号化器は構造化された入力に基づ
き、音を発生するために利用できる。
【0016】
本発明の更なる実施例は、前記翻訳されたオーディオ信号を音素に分割するス
テップと、データベースから、前記音素に対応する視覚素を取り出すステップと
、前記視覚素から前記新たなリップ−オブジェクトを構成するステップとを有す
ることを特徴とする方法を提供する。翻訳処理は、前記音素をテキストに変換す
るステップと、前記テキストを翻訳されたテキストに翻訳するステップと、前記
翻訳されたテキストから前記翻訳されたオーディオ信号を得るステップとを有す
ることが、好ましい。音素と視覚素を得るために、オーディオ信号を分析するこ
とは、従来技術から知られている。US−A5,608,839は、音に同期し
たビデオシステムが開示されており、そこでは、音声を表す同期されていないオ
ーディオ信号のストリームと、話者のビデオ信号とが、信号を復号することによ
り処理される。複数の視覚素は、オーディオ信号中の音素に対応して記憶される
。視覚素は、オーディオ信号中の音素に対応して取り出され、ストリームのオー
ディオ信号中の対応する音素に同期して、取り出された視覚素を、ストリームの
同期されていないビデオ信号に与えることにより、同期はビデオとオーディオに
与えられる。実施例に従って、取り出しステップは唇の動きの視覚素を取り出す
ことを含む。このシステムはビデオ電話で使用するのに適している。このように
、ビデオ会議システムの両方向で発生する遅延が短縮される。
テップと、データベースから、前記音素に対応する視覚素を取り出すステップと
、前記視覚素から前記新たなリップ−オブジェクトを構成するステップとを有す
ることを特徴とする方法を提供する。翻訳処理は、前記音素をテキストに変換す
るステップと、前記テキストを翻訳されたテキストに翻訳するステップと、前記
翻訳されたテキストから前記翻訳されたオーディオ信号を得るステップとを有す
ることが、好ましい。音素と視覚素を得るために、オーディオ信号を分析するこ
とは、従来技術から知られている。US−A5,608,839は、音に同期し
たビデオシステムが開示されており、そこでは、音声を表す同期されていないオ
ーディオ信号のストリームと、話者のビデオ信号とが、信号を復号することによ
り処理される。複数の視覚素は、オーディオ信号中の音素に対応して記憶される
。視覚素は、オーディオ信号中の音素に対応して取り出され、ストリームのオー
ディオ信号中の対応する音素に同期して、取り出された視覚素を、ストリームの
同期されていないビデオ信号に与えることにより、同期はビデオとオーディオに
与えられる。実施例に従って、取り出しステップは唇の動きの視覚素を取り出す
ことを含む。このシステムはビデオ電話で使用するのに適している。このように
、ビデオ会議システムの両方向で発生する遅延が短縮される。
【0017】
リップ−オブジェクトのモデル化は既知の技術であり、それは特に圧縮の分野
で有利である。リップ−オブジェクトは、リップ−モデル、リップ−パラメータ
を使用して定義できる。リップ−オブジェクトを定義するパラメータを伝送する
のに十分であるので、これは、圧縮に関して非常に有益である。本発明に従って
、リップ−パラメータを使用することも有益である。パラメータの選択が変更さ
れねばならないということのみであるためである。受信端でリップ−モデルが利
用できるときには、変更されたリップ−パラメータを伝送することで十分である
。望まれる場合には、元のリップ−パラメータも伝送してもよい。新たなリップ
−オブジェクトはリップ−パラメータを変更することにより元のリップ−オブジ
ェクトから構成されることが好ましい。これは、新たなリップ−オブジェクトに
最も適することを導く。ある場合には、例えば、元と新たなリップ−オブジェク
トの間の差が小さい場合には、基準としても使用される元のリップ−パラメータ
に加えて受信器へ差信号として新たなリップ−パラメータを送信することは利益
がある。
で有利である。リップ−オブジェクトは、リップ−モデル、リップ−パラメータ
を使用して定義できる。リップ−オブジェクトを定義するパラメータを伝送する
のに十分であるので、これは、圧縮に関して非常に有益である。本発明に従って
、リップ−パラメータを使用することも有益である。パラメータの選択が変更さ
れねばならないということのみであるためである。受信端でリップ−モデルが利
用できるときには、変更されたリップ−パラメータを伝送することで十分である
。望まれる場合には、元のリップ−パラメータも伝送してもよい。新たなリップ
−オブジェクトはリップ−パラメータを変更することにより元のリップ−オブジ
ェクトから構成されることが好ましい。これは、新たなリップ−オブジェクトに
最も適することを導く。ある場合には、例えば、元と新たなリップ−オブジェク
トの間の差が小さい場合には、基準としても使用される元のリップ−パラメータ
に加えて受信器へ差信号として新たなリップ−パラメータを送信することは利益
がある。
【0018】
本発明に従った送信器は、元のリップ−オブジェクトを得るために、前記ビデ
オ信号を追跡するための追跡手段と、前記元のリップ−オブジェクトを、前記翻
訳されたオーディオ信号に対応する新たなリップ−オブジェクトで置き換えるた
めに、情報ストリームに新たなリップ−オブジェクトを追加する手段とを有する
ことを特徴とする。伝送前にビデオ信号内の元のリップ−オブジェクトが新たな
リップ−オブジェクトにより置換された場合には、情報ストリームは通常の受信
器により受信され且つ扱われることができる。更なる実施例では、送信器は、異
なる言語に関連する複数のオーディオ信号と、各々が前記複数のオーディオ信号
の少なくとも1つリンクされた複数のリップオブジェクトを送信する手段を有す
ることを特徴とする。この情報ストリームは、ビデオとオーディオに対して所望
の言語を選択する可能性を、受信器に与える。複数の言語に対してリップ−オブ
ジェクトのみ又はリップ−パラメータを伝送することにより、複数の言語の映画
と他のオーディオビジュアル番組の効果的な伝送が達成できる。
オ信号を追跡するための追跡手段と、前記元のリップ−オブジェクトを、前記翻
訳されたオーディオ信号に対応する新たなリップ−オブジェクトで置き換えるた
めに、情報ストリームに新たなリップ−オブジェクトを追加する手段とを有する
ことを特徴とする。伝送前にビデオ信号内の元のリップ−オブジェクトが新たな
リップ−オブジェクトにより置換された場合には、情報ストリームは通常の受信
器により受信され且つ扱われることができる。更なる実施例では、送信器は、異
なる言語に関連する複数のオーディオ信号と、各々が前記複数のオーディオ信号
の少なくとも1つリンクされた複数のリップオブジェクトを送信する手段を有す
ることを特徴とする。この情報ストリームは、ビデオとオーディオに対して所望
の言語を選択する可能性を、受信器に与える。複数の言語に対してリップ−オブ
ジェクトのみ又はリップ−パラメータを伝送することにより、複数の言語の映画
と他のオーディオビジュアル番組の効果的な伝送が達成できる。
【0019】
本発明に従った第1の受信器は、翻訳されたオーディオ信号を得るために翻訳
処理を行う翻訳手段と、前記翻訳されたオーディオ信号を情報ストリームに追加
する手段と、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡す
るための追跡手段と、情報ストリームに、前記翻訳されたオーディオ信号に対応
する新たなリップ−オブジェクトを追加する手段と、前記翻訳されたオーディオ
信号と、前記元のリップ−オブジェクトが前記新たなリップ−オブジェクトで置
き換えられた前記ビデオ信号を出力するための出力手段とを有することを特徴と
する。この第1の受信器は、受信器中に翻訳手段を有する。この受信された情報
ストリームは元の言語のオーディオ及びビデオ信号を有する。この実施例は、所
望の(ユーザ選択の)言語の翻訳が局部的に即ち、送信器又は放送機構に独立に
行われるという優位点を有する。
処理を行う翻訳手段と、前記翻訳されたオーディオ信号を情報ストリームに追加
する手段と、元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡す
るための追跡手段と、情報ストリームに、前記翻訳されたオーディオ信号に対応
する新たなリップ−オブジェクトを追加する手段と、前記翻訳されたオーディオ
信号と、前記元のリップ−オブジェクトが前記新たなリップ−オブジェクトで置
き換えられた前記ビデオ信号を出力するための出力手段とを有することを特徴と
する。この第1の受信器は、受信器中に翻訳手段を有する。この受信された情報
ストリームは元の言語のオーディオ及びビデオ信号を有する。この実施例は、所
望の(ユーザ選択の)言語の翻訳が局部的に即ち、送信器又は放送機構に独立に
行われるという優位点を有する。
【0020】
本発明に従った第2の受信器は、元のリップ−オブジェクトを得るために、前
記ビデオ信号を追跡するための追跡手段と、情報ストリームに、前記翻訳された
オーディオ信号に対応する新たなリップ−オブジェクトを追加する手段と、前記
翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新たなリッ
プ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力手段と
を有することを特徴とする。US−A5,608,839の既知の受信器との差
は、本発明に従った新たなリップ−オブジェクトは翻訳されたオーディオ信号に
対応することである。元のオーディオ信号はビデオ信号と同期していないが、し
かし、元のオブジェクトの唇の動きは翻訳されたオーディオ信号に対応しない。
元のリップ−オブジェクトは元のオーディオ信号に対応しているためである。本
発明に従った受信器内のデータベースは、所望の言語の音素と視覚素を含むべき
である。
記ビデオ信号を追跡するための追跡手段と、情報ストリームに、前記翻訳された
オーディオ信号に対応する新たなリップ−オブジェクトを追加する手段と、前記
翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新たなリッ
プ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力手段と
を有することを特徴とする。US−A5,608,839の既知の受信器との差
は、本発明に従った新たなリップ−オブジェクトは翻訳されたオーディオ信号に
対応することである。元のオーディオ信号はビデオ信号と同期していないが、し
かし、元のオブジェクトの唇の動きは翻訳されたオーディオ信号に対応しない。
元のリップ−オブジェクトは元のオーディオ信号に対応しているためである。本
発明に従った受信器内のデータベースは、所望の言語の音素と視覚素を含むべき
である。
【0021】
本発明に従った第3の受信器は、ビデオ信号と異なる言語に関連する複数のオ
ーディオ信号及び、各々が少なくとも1つの前記複数のオーディオ信号にリンク
された複数のリップ−オブジェクトを含む情報ストリームを受信し、その受信器
は 前記複数のオーディオ信号から選択されたオーディオ信号得るための選択器
と、前記選択されたオーディオ信号と、前記選択されたオーディオ信号にリンク
された選択されたリップ−オブジェクトを有する前記ビデオ信号を出力するため
の出力手段とを有する。
ーディオ信号及び、各々が少なくとも1つの前記複数のオーディオ信号にリンク
された複数のリップ−オブジェクトを含む情報ストリームを受信し、その受信器
は 前記複数のオーディオ信号から選択されたオーディオ信号得るための選択器
と、前記選択されたオーディオ信号と、前記選択されたオーディオ信号にリンク
された選択されたリップ−オブジェクトを有する前記ビデオ信号を出力するため
の出力手段とを有する。
【0022】
本発明に従った通信ネットワークは、元のリップ−オブジェクトを得るために
前記ビデオ信号を追跡する手段と、前記元のリップ−オブジェクトを前記翻訳さ
れたオーディオ信号に同期する新たなリップ−オブジェクトに置き換える手段と
を有する。そのような通信ネットワークは、例えば、上述の受信器と送信器を含
む。
前記ビデオ信号を追跡する手段と、前記元のリップ−オブジェクトを前記翻訳さ
れたオーディオ信号に同期する新たなリップ−オブジェクトに置き換える手段と
を有する。そのような通信ネットワークは、例えば、上述の受信器と送信器を含
む。
【0023】
Cheung他による”2−Dの頭部と肩のシーンに関するMPEG−4の合
成/自然ハイブリッド符号化を使用するテキストに基づく自動フレーム発生(T
ext−driven Automatic Frame Generatio
n using MPEG−4 Synthetic/Natural Hyb
rid Coding for 2−D Head−and Shoulder
Scene)”1997年のサンタバーバラ、画像処理に関する国際会議分冊
vol.2、69頁から72頁は、話者の頭部の自動的なフレームシーケンスの
発生に関するMPEG−4に基づく顔のモデル化技術を開示する。一般的な顔オ
ブジェクトに関する定義及びアニメーションパラメータで、形状、テクスチャ及
び、適用された正面の顔の表現は、一般的には、プレーンテキストから変換され
た音素により制御されそして合成される。分割形式は、音節的、イントネーショ
ン的フレーズ又は音素でもよい。どの言語の人間の音声もそれらの最短の代表的
な音素の組みに分解できるので、唇/顔同期を達成できる。プレーンテキストは
、つづりの正しい音素シンボル、コンピュータ読出し可能な音素アルファベット
に変換される。音声を生成するための高品質音素−音声合成器により、テキスト
に基づく同期アプリケーションを簡単に開発できる。各フレームの唇の開きと口
の形状の量は、音素の発音に関する対応する顔の動きを表す。
成/自然ハイブリッド符号化を使用するテキストに基づく自動フレーム発生(T
ext−driven Automatic Frame Generatio
n using MPEG−4 Synthetic/Natural Hyb
rid Coding for 2−D Head−and Shoulder
Scene)”1997年のサンタバーバラ、画像処理に関する国際会議分冊
vol.2、69頁から72頁は、話者の頭部の自動的なフレームシーケンスの
発生に関するMPEG−4に基づく顔のモデル化技術を開示する。一般的な顔オ
ブジェクトに関する定義及びアニメーションパラメータで、形状、テクスチャ及
び、適用された正面の顔の表現は、一般的には、プレーンテキストから変換され
た音素により制御されそして合成される。分割形式は、音節的、イントネーショ
ン的フレーズ又は音素でもよい。どの言語の人間の音声もそれらの最短の代表的
な音素の組みに分解できるので、唇/顔同期を達成できる。プレーンテキストは
、つづりの正しい音素シンボル、コンピュータ読出し可能な音素アルファベット
に変換される。音声を生成するための高品質音素−音声合成器により、テキスト
に基づく同期アプリケーションを簡単に開発できる。各フレームの唇の開きと口
の形状の量は、音素の発音に関する対応する顔の動きを表す。
【0024】
上述の文書は、元のリップ−オブジェクトを、翻訳された信号に対応する新た
なリップ−オブジェクトで置換することに関しては何も開示し又は明らかにして
いない。しかし、それらの文書は、リップ−オブジェクトの使用やテキストから
オーディオを合成する技術のようなツールを開示する。音声シーケンスから音素
を抽出する方法、音素に対応する視覚素を記憶する方法、正確な顔の特徴を抽出
し且つそれらをビデオ信号に適用することは、それらの技術から知られている。
なリップ−オブジェクトで置換することに関しては何も開示し又は明らかにして
いない。しかし、それらの文書は、リップ−オブジェクトの使用やテキストから
オーディオを合成する技術のようなツールを開示する。音声シーケンスから音素
を抽出する方法、音素に対応する視覚素を記憶する方法、正確な顔の特徴を抽出
し且つそれらをビデオ信号に適用することは、それらの技術から知られている。
【0025】
本発明の前述のそして他の特徴は、以下に説明する実施例を参照して明らかと
なろう。図は、本発明を理解するために必要である構成要素のみを示す。
なろう。図は、本発明を理解するために必要である構成要素のみを示す。
【0026】
図1に示すように、ポスト同期のためのシステムは、(ビデオ源1から得られ
る)ビデオ信号Vと(オーディオ源6から得られる)オーディオ信号Aを含む情
報ストリームを得るためのビデオ源1とオーディオ源6を含む。ビデオ源1は、
画像センサ、コンピュータ等である。オーディオ源6は、マイクロフォン又は、
コンピュータ等である。オーディオ信号Aは、翻訳器7で、翻訳されたオーディ
オ信号A*に翻訳される。翻訳されたオーディオ信号A*は、スピーカ8に出力
される。ビデオ信号Vは、元のリップ−オブジェクトloを得るために、唇追跡
器2で追跡される。例として、この追跡はMPEG−4符号化器内で行われる。
上述のように、MPEG−4規格はリップ−オブジェクトを追跡するツールを提
供し、且つ、ビデオ信号内でそれらを定義する。唇追跡処理の結果は、元のリッ
プ−オブジェクトloと残りの信号V’を含むビデオ信号である。ポスト同期シ
ステムの実施例では、ビデオ源1と唇追跡器2は、MPEG−4カメラ内で結合
される。リップ−オブジェクトは、その場合には、MPEG−4規格に従って定
義される。本発明の効率的な実施例では、リップ−オブジェクトはリップ−モデ
ルに基づいて、リップ−パラメータにより定義される。元のリップ−オブジェク
トloは、リップ−オブジェクト変更器3の中で変更される。元のリップ−オブ
ジェクトloの特性に基づいて、翻訳されたオーディオ信号A*に対応する新た
なリップ−オブジェクトlo*が発生される。リップ−オブジェクト変更器3は
、他の信号、例えば、新たなリップ−オブジェクトlo*に関する情報を得るた
めの入力を有する。変更の量は、リップ−オブジェクト変更器3が受信する情報
に依存して変わりうる。極端な場合には、元のリップ−オブジェクトloの位置
のみが維持される。翻訳されたオーディオ信号A*は、リップ−オブジェクト変
更器3に入力されそして、新たなリップ−オブジェクトlo*を翻訳されたオー
ディオ信号A*へ同期するのに使用する。翻訳されたオーディオ信号A*は、新
たなリップ−オブジェクトlo*を構成するのにも使用することができる。新た
なリップ−オブジェクトlo*は、リップ−オブジェクト加算器4へ送られる。
リップ−オブジェクト加算器4内では、新たなリップ−オブジェクトlo*が残
りの信号V’に加算される。元のリップ−オブジェクトの代わりに新たなリップ
−オブジェクトlo*を含む新たなビデオ信号V*は、その後ディスプレイ5に
表示される。これより、唇の動きが翻訳されたオーディオ信号A*により良く対
応する番組が表示される。理想的な状況では、新たなリップ−オブジェクトlo * は、非常に良くビデオ信号V*に適合するので、視聴者はポスト同期が行われ
たことに気づかないであろう。
る)ビデオ信号Vと(オーディオ源6から得られる)オーディオ信号Aを含む情
報ストリームを得るためのビデオ源1とオーディオ源6を含む。ビデオ源1は、
画像センサ、コンピュータ等である。オーディオ源6は、マイクロフォン又は、
コンピュータ等である。オーディオ信号Aは、翻訳器7で、翻訳されたオーディ
オ信号A*に翻訳される。翻訳されたオーディオ信号A*は、スピーカ8に出力
される。ビデオ信号Vは、元のリップ−オブジェクトloを得るために、唇追跡
器2で追跡される。例として、この追跡はMPEG−4符号化器内で行われる。
上述のように、MPEG−4規格はリップ−オブジェクトを追跡するツールを提
供し、且つ、ビデオ信号内でそれらを定義する。唇追跡処理の結果は、元のリッ
プ−オブジェクトloと残りの信号V’を含むビデオ信号である。ポスト同期シ
ステムの実施例では、ビデオ源1と唇追跡器2は、MPEG−4カメラ内で結合
される。リップ−オブジェクトは、その場合には、MPEG−4規格に従って定
義される。本発明の効率的な実施例では、リップ−オブジェクトはリップ−モデ
ルに基づいて、リップ−パラメータにより定義される。元のリップ−オブジェク
トloは、リップ−オブジェクト変更器3の中で変更される。元のリップ−オブ
ジェクトloの特性に基づいて、翻訳されたオーディオ信号A*に対応する新た
なリップ−オブジェクトlo*が発生される。リップ−オブジェクト変更器3は
、他の信号、例えば、新たなリップ−オブジェクトlo*に関する情報を得るた
めの入力を有する。変更の量は、リップ−オブジェクト変更器3が受信する情報
に依存して変わりうる。極端な場合には、元のリップ−オブジェクトloの位置
のみが維持される。翻訳されたオーディオ信号A*は、リップ−オブジェクト変
更器3に入力されそして、新たなリップ−オブジェクトlo*を翻訳されたオー
ディオ信号A*へ同期するのに使用する。翻訳されたオーディオ信号A*は、新
たなリップ−オブジェクトlo*を構成するのにも使用することができる。新た
なリップ−オブジェクトlo*は、リップ−オブジェクト加算器4へ送られる。
リップ−オブジェクト加算器4内では、新たなリップ−オブジェクトlo*が残
りの信号V’に加算される。元のリップ−オブジェクトの代わりに新たなリップ
−オブジェクトlo*を含む新たなビデオ信号V*は、その後ディスプレイ5に
表示される。これより、唇の動きが翻訳されたオーディオ信号A*により良く対
応する番組が表示される。理想的な状況では、新たなリップ−オブジェクトlo * は、非常に良くビデオ信号V*に適合するので、視聴者はポスト同期が行われ
たことに気づかないであろう。
【0027】
図1のシステムの他の実施例では、ビデオ信号V’は、まだもとのリップ−オ
ブジェクトloを含む。その場合には、リップ−オブジェクト加算器4は、元の
リップ−オブジェクトloを新たなリップ−オブジェクトlo*で置き換えるよ
うになされる。
ブジェクトloを含む。その場合には、リップ−オブジェクト加算器4は、元の
リップ−オブジェクトloを新たなリップ−オブジェクトlo*で置き換えるよ
うになされる。
【0028】
図1は、本発明に従った全体的な表示を示す。ポスト同期システムは1つの場
所に存在する必要はなく、翻訳チャネル、通信ネットワーク等を含むことができ
る。示された構成要素を、異なる位置に渡って分散することができる。実際の実
施例では、チャネル符号化等の他のアルゴリズムだけでなく、MPEG−4符号
化と復号化も使用されるであろう。
所に存在する必要はなく、翻訳チャネル、通信ネットワーク等を含むことができ
る。示された構成要素を、異なる位置に渡って分散することができる。実際の実
施例では、チャネル符号化等の他のアルゴリズムだけでなく、MPEG−4符号
化と復号化も使用されるであろう。
【0029】
図2は、更なるビデオ信号V2を追跡することにより、新たなリップ−オブジ
ェクトlo*を得るための実施例を示す。示された実施例では、第2のビデオ源
11が、リップ−オブジェクト変更器3に接続された第2の唇追跡器12と接続
される。第2のビデオ源11と第2の唇追跡器12は、ビデオ源1と唇追跡器2
と同様である。第2のビデオ源11は、第2のビデオ信号V2を発生する。この
ビデオ信号V2は、翻訳されたオーディオ信号A*に対応する唇の動きを含むこ
とが重要である。第2の唇追跡器12内の第2のビデオ信号V2の追跡は、元の
リップ−オブジェクトloを置き換えるための新たなリップ−オブジェクトlo * を構成するのに使用され得る、第2のリップ−オブジェクトlo2を与える。
元のリップ−オブジェクトloと第2のリップ−オブジェクトlo2は、リップ
−オブジェクト変更器3に送られる。リップ−オブジェクト変更器3では、第2
のリップ−オブジェクトlo2が、元のリップ−オブジェクトloの位置に適合
するように変更される。これを達成するために、基準フレーム座標を変更し且つ
第2のリップ−オブジェクトlo2に変換を加えることが必要である。ビデオ源
11は、元の俳優の唇の動きを記録するカメラを含むことが好ましい。その場合
には、良い結果を得るために、最小の変更が必要である。いずれかの者例えば、
翻訳者の他の唇を記録することも可能である。その場合には、唇の形状と色に関
する更なる変更が必要である。翻訳されたオーディオ信号A*は、新たなリップ
−オブジェクトlo*と同期するのに使用される。リップ−オブジェクトlo2
が既に十分に同期しているなら、このステップは省略されてもよい。更なるビデ
オ信号V2は、合成、コンピュータの発生した信号でも良い。
ェクトlo*を得るための実施例を示す。示された実施例では、第2のビデオ源
11が、リップ−オブジェクト変更器3に接続された第2の唇追跡器12と接続
される。第2のビデオ源11と第2の唇追跡器12は、ビデオ源1と唇追跡器2
と同様である。第2のビデオ源11は、第2のビデオ信号V2を発生する。この
ビデオ信号V2は、翻訳されたオーディオ信号A*に対応する唇の動きを含むこ
とが重要である。第2の唇追跡器12内の第2のビデオ信号V2の追跡は、元の
リップ−オブジェクトloを置き換えるための新たなリップ−オブジェクトlo * を構成するのに使用され得る、第2のリップ−オブジェクトlo2を与える。
元のリップ−オブジェクトloと第2のリップ−オブジェクトlo2は、リップ
−オブジェクト変更器3に送られる。リップ−オブジェクト変更器3では、第2
のリップ−オブジェクトlo2が、元のリップ−オブジェクトloの位置に適合
するように変更される。これを達成するために、基準フレーム座標を変更し且つ
第2のリップ−オブジェクトlo2に変換を加えることが必要である。ビデオ源
11は、元の俳優の唇の動きを記録するカメラを含むことが好ましい。その場合
には、良い結果を得るために、最小の変更が必要である。いずれかの者例えば、
翻訳者の他の唇を記録することも可能である。その場合には、唇の形状と色に関
する更なる変更が必要である。翻訳されたオーディオ信号A*は、新たなリップ
−オブジェクトlo*と同期するのに使用される。リップ−オブジェクトlo2
が既に十分に同期しているなら、このステップは省略されてもよい。更なるビデ
オ信号V2は、合成、コンピュータの発生した信号でも良い。
【0030】
図3は、本発明に従ったリップ−オブジェクト変更器3と組合せる翻訳器7の
実施例を示す。翻訳器7は、オーディオ分析器70、オーディオ−テキスト変換
器71、テキスト翻訳器72及び、テキスト−オーディオ変換器73を含む。翻
訳器7とリップ−オブジェクト変更器3は、両者ともに、データベース9に接続
されている。データベース9は、翻訳器7とリップ−オブジェクト変更器3に亘
って分散もされ得る。入力オーディオ信号Aは、オーディオ分析器70で分析さ
れる。オーディオ信号Aの成分は、従来技術から知られるように、認識可能な音
素に分割される。個々の音素のレベルでの音声認識は本発明の一実施例で使用さ
れ、そして、他の実施例では、音素のグループレベルでの音声認識が使用される
。音素はコンピュータ読出し可能な音のアルファベットの一部であり、オーディ
オ−テキスト変換器71内でテキストに変換される。この装置の出力は、テキス
ト信号Tである。テキスト信号Tは、テキスト翻訳器72内で翻訳されたテキス
ト信号T*に翻訳される。テキスト翻訳器72は、このために、データベース9
からも入手できるある辞書と文法ツールを有する。テキスト−オーディオ変換器
73は、翻訳されたテキスト信号T*を翻訳されたオーディオ信号A*へ、変換
する。翻訳されたオーディオ信号A*は、本実施例では合成された信号である。
テキスト−オーディオ変換器73は、上述のTTS符号化器を含むことができる
。新たなリップ−オブジェクトlo*の構成のためのこの実施例には、幾つかの
可能性がある。第1の可能性は、翻訳されたテキスト信号T*から新たなリップ
−オブジェクトlo*を得ることである。特定の言語の文字の特定の結合は、オ
ーディオ信号を構成するための音素を定義してもよく、そして、同時に、リップ
−オブジェクトlo*を構成する視覚素を構成しても良い。音素と視覚素及びそ
れらの相互の関係は、例えば、データベース9に定義される。視覚素は、翻訳さ
れたオーディオ信号A*を分析し且つ音素−視覚素の関係を使用することにより
得ることもできる。翻訳されたオーディオ信号A*が既に音素に分割されている
ならば、実行は簡単である。音素と視覚素の関係を使用することは、例えば、テ
キストへの変換が省略される場合には、有益であり、そして、翻訳されたオーデ
ィオ信号A*は、例えば、マイクロフォンで翻訳者の声を記録することにより、
異なる方法で得られる。テキスト信号Tと翻訳されたテキスト信号T*を、更に
、字幕情報としても使用することができそして、それゆえに、伝送される情報ス
トリーム内に含めることができる。他の実施例では、既に利用できる字幕が翻訳
されたオーディオ信号A*と新たなリップ−オブジェクトlo*を発生するのに
使用される。
実施例を示す。翻訳器7は、オーディオ分析器70、オーディオ−テキスト変換
器71、テキスト翻訳器72及び、テキスト−オーディオ変換器73を含む。翻
訳器7とリップ−オブジェクト変更器3は、両者ともに、データベース9に接続
されている。データベース9は、翻訳器7とリップ−オブジェクト変更器3に亘
って分散もされ得る。入力オーディオ信号Aは、オーディオ分析器70で分析さ
れる。オーディオ信号Aの成分は、従来技術から知られるように、認識可能な音
素に分割される。個々の音素のレベルでの音声認識は本発明の一実施例で使用さ
れ、そして、他の実施例では、音素のグループレベルでの音声認識が使用される
。音素はコンピュータ読出し可能な音のアルファベットの一部であり、オーディ
オ−テキスト変換器71内でテキストに変換される。この装置の出力は、テキス
ト信号Tである。テキスト信号Tは、テキスト翻訳器72内で翻訳されたテキス
ト信号T*に翻訳される。テキスト翻訳器72は、このために、データベース9
からも入手できるある辞書と文法ツールを有する。テキスト−オーディオ変換器
73は、翻訳されたテキスト信号T*を翻訳されたオーディオ信号A*へ、変換
する。翻訳されたオーディオ信号A*は、本実施例では合成された信号である。
テキスト−オーディオ変換器73は、上述のTTS符号化器を含むことができる
。新たなリップ−オブジェクトlo*の構成のためのこの実施例には、幾つかの
可能性がある。第1の可能性は、翻訳されたテキスト信号T*から新たなリップ
−オブジェクトlo*を得ることである。特定の言語の文字の特定の結合は、オ
ーディオ信号を構成するための音素を定義してもよく、そして、同時に、リップ
−オブジェクトlo*を構成する視覚素を構成しても良い。音素と視覚素及びそ
れらの相互の関係は、例えば、データベース9に定義される。視覚素は、翻訳さ
れたオーディオ信号A*を分析し且つ音素−視覚素の関係を使用することにより
得ることもできる。翻訳されたオーディオ信号A*が既に音素に分割されている
ならば、実行は簡単である。音素と視覚素の関係を使用することは、例えば、テ
キストへの変換が省略される場合には、有益であり、そして、翻訳されたオーデ
ィオ信号A*は、例えば、マイクロフォンで翻訳者の声を記録することにより、
異なる方法で得られる。テキスト信号Tと翻訳されたテキスト信号T*を、更に
、字幕情報としても使用することができそして、それゆえに、伝送される情報ス
トリーム内に含めることができる。他の実施例では、既に利用できる字幕が翻訳
されたオーディオ信号A*と新たなリップ−オブジェクトlo*を発生するのに
使用される。
【0031】
図4は、本発明に従った第1の送信器を示す。この送信器は、図1に示された
システムと同じ構成要素の拡大を示すが、ディスプレイとスピーカは含んでいな
い。伝送された情報ストリームは、翻訳されたオーディオ信号A*と新たなリッ
プ−オブジェクトlo*を有するビデオ信号V*を有する。オーディオ信号A* とビデオ信号V*は、通常の方法でチャネル符号化されている。送信された情報
ストリームは、通常の受信器で処理できる。通常の受信器は、オーディオ信号の
翻訳手段とリップ−オブジェクトの変更手段を有しない受信器である。通常は、
これは、標準的なMPEG−4受信器である。情報ストリームは、他の受信器へ
の伝送を可能とするために、他の符号化技術で符号化もされ得る。唇の追跡を、
任意の唇追跡回路で実行することができる。MPEG−4符号化器を使用する必
要はないが、そのような符号化器は好ましい。スタジオ環境では、元のリップ−
オブジェクトloを新たなリップ−オブジェクトlo*で置き換えるMPEG−
4符号化技術を使用し、そして、例えば、MPEG−1/2、NTSC,PAL
等の他のフォーマットで情報ストリームを伝送することが可能である。この場合
、翻訳されたオーディオ信号A*に対応する唇の動きを有する従来の情報ストリ
ームが得られる。上述のように、翻訳されたテキスト信号T*は、字幕情報とし
て伝送されることが可能である。翻訳されたテキスト信号T*は、翻訳器7又は
他の方法により生成される。
システムと同じ構成要素の拡大を示すが、ディスプレイとスピーカは含んでいな
い。伝送された情報ストリームは、翻訳されたオーディオ信号A*と新たなリッ
プ−オブジェクトlo*を有するビデオ信号V*を有する。オーディオ信号A* とビデオ信号V*は、通常の方法でチャネル符号化されている。送信された情報
ストリームは、通常の受信器で処理できる。通常の受信器は、オーディオ信号の
翻訳手段とリップ−オブジェクトの変更手段を有しない受信器である。通常は、
これは、標準的なMPEG−4受信器である。情報ストリームは、他の受信器へ
の伝送を可能とするために、他の符号化技術で符号化もされ得る。唇の追跡を、
任意の唇追跡回路で実行することができる。MPEG−4符号化器を使用する必
要はないが、そのような符号化器は好ましい。スタジオ環境では、元のリップ−
オブジェクトloを新たなリップ−オブジェクトlo*で置き換えるMPEG−
4符号化技術を使用し、そして、例えば、MPEG−1/2、NTSC,PAL
等の他のフォーマットで情報ストリームを伝送することが可能である。この場合
、翻訳されたオーディオ信号A*に対応する唇の動きを有する従来の情報ストリ
ームが得られる。上述のように、翻訳されたテキスト信号T*は、字幕情報とし
て伝送されることが可能である。翻訳されたテキスト信号T*は、翻訳器7又は
他の方法により生成される。
【0032】
図5は、多言語情報を伝送する第2の送信器を示す図である。多言語情報スト
リームは、従来技術から知られるように、複数のオーディオ信号A,A*を含む
。多言語情報ストリームは、更に、複数のオーディオ信号A,A*の少なくとも
1つにリンクされた複数のリップオブジェクトlo,lo*を有する。各々が対
応するリップ−オブジェクトのそれら自身のストリームを伴なう、幾つかのオー
ディオ信号は、このように、利用できる。随意に、情報ストリームは、上述のよ
うなテキスト信号T,T*を有する。
リームは、従来技術から知られるように、複数のオーディオ信号A,A*を含む
。多言語情報ストリームは、更に、複数のオーディオ信号A,A*の少なくとも
1つにリンクされた複数のリップオブジェクトlo,lo*を有する。各々が対
応するリップ−オブジェクトのそれら自身のストリームを伴なう、幾つかのオー
ディオ信号は、このように、利用できる。随意に、情報ストリームは、上述のよ
うなテキスト信号T,T*を有する。
【0033】
実施例では、送信器は、元のリップ−オブジェクトloを伴なうビデオ信号V
’と、更なる1つ又はそれ以上の翻訳されたオーディオ信号A*に加えてもとの
オーディオ信号と、対応する新たなリップ−オブジェクトlo*のストリームを
送信する。リップ−オブジェクトlo,lo*のストリームは、ある種の識別子
によって、対応するオーディオ信号A,A*にリンクされている。リップ−オブ
ジェクトが、1つ以上のオーディオストリームにリンクされるのも可能である。
これは、例えば、リップ−オブジェクトが1つ以上のオーディオストリームで使
用されるときに有益である。前述のように、リップ−オブジェクトを定義するの
にリップ−パラメータを使用するのが非常に便利である。送信器の有利な実施例
は、少なくとも1つのオーディオ信号に各々がリンクされたリップ−パラメータ
を送信する。あるリップ−パラメータは、他の言語と同じであろう。その場合に
は、それらのパラメータを全ての言語にリンクすること又は、一般的にそれらを
送信することが有益である。他のパラメータは、おそらく1つの言語にリンクさ
れることを要する。リップ−パラメータを送信するときには、異なる言語に対し
てリップ−パラメータ間の差のみを送ることが可能である。そのような場合には
、効率的で低いビットレートの伝送が得られる。ビデオだけでなくオーディオ内
の多言語の存在は、プログラム特定情報ストリーム内で示されても良い。プログ
ラム特定情報ストリームは、どのくらいの数の及びどのプログラムが利用可能で
あるかと、どのエレメンタリーストリームを各プログラムが有するを規定する。
’と、更なる1つ又はそれ以上の翻訳されたオーディオ信号A*に加えてもとの
オーディオ信号と、対応する新たなリップ−オブジェクトlo*のストリームを
送信する。リップ−オブジェクトlo,lo*のストリームは、ある種の識別子
によって、対応するオーディオ信号A,A*にリンクされている。リップ−オブ
ジェクトが、1つ以上のオーディオストリームにリンクされるのも可能である。
これは、例えば、リップ−オブジェクトが1つ以上のオーディオストリームで使
用されるときに有益である。前述のように、リップ−オブジェクトを定義するの
にリップ−パラメータを使用するのが非常に便利である。送信器の有利な実施例
は、少なくとも1つのオーディオ信号に各々がリンクされたリップ−パラメータ
を送信する。あるリップ−パラメータは、他の言語と同じであろう。その場合に
は、それらのパラメータを全ての言語にリンクすること又は、一般的にそれらを
送信することが有益である。他のパラメータは、おそらく1つの言語にリンクさ
れることを要する。リップ−パラメータを送信するときには、異なる言語に対し
てリップ−パラメータ間の差のみを送ることが可能である。そのような場合には
、効率的で低いビットレートの伝送が得られる。ビデオだけでなくオーディオ内
の多言語の存在は、プログラム特定情報ストリーム内で示されても良い。プログ
ラム特定情報ストリームは、どのくらいの数の及びどのプログラムが利用可能で
あるかと、どのエレメンタリーストリームを各プログラムが有するを規定する。
【0034】
図6は、本発明に従った第1の受信器を示す図である。この受信器は、アンテ
ナ、ネットワーク等のような幾つかの伝送チャネルから情報ストリームを受信す
る。ビデオ信号Vは、ビデオ源1により発生されたように、又は、ある種の符号
化後として受信され得る。この信号には唇追跡は行われなかったので、元のリッ
プ−オブジェクトはまだ得られない。その場合には、唇追跡器2が必要である。
例えば、情報ストリームがMPEG−4で符号化されたときには、リップ−オブ
ジェクト又はリップ−パラメータは、既に得られていることが可能である。その
場合には、唇追跡器2は、受信器内で省略できる。これは、ビデオの残りの信号
V’は、元のリップオブジェクトloとともに、受信器で受信されることを意味
する。オーディオは、翻訳されたオーディオ信号A*又は、翻訳されてないオー
ディオ信号(A)である。オーディオ信号が翻訳されてない場合には、翻訳器7
は、翻訳されたオーディオA*を得ることが必要である。入力情報ストリームに
依存して、翻訳器7と唇追跡器2はオプションである。翻訳されたオーディオ信
号A*は、スピーカ8に出力される。ビデオ信号V’内のリップ−オブジェクト
loは、前述したように、新たなリップ−オブジェクトlo*で置き換えられる
。テキスト信号T,T*は、ディスプレイ5上に随意に表示されることができる
。
ナ、ネットワーク等のような幾つかの伝送チャネルから情報ストリームを受信す
る。ビデオ信号Vは、ビデオ源1により発生されたように、又は、ある種の符号
化後として受信され得る。この信号には唇追跡は行われなかったので、元のリッ
プ−オブジェクトはまだ得られない。その場合には、唇追跡器2が必要である。
例えば、情報ストリームがMPEG−4で符号化されたときには、リップ−オブ
ジェクト又はリップ−パラメータは、既に得られていることが可能である。その
場合には、唇追跡器2は、受信器内で省略できる。これは、ビデオの残りの信号
V’は、元のリップオブジェクトloとともに、受信器で受信されることを意味
する。オーディオは、翻訳されたオーディオ信号A*又は、翻訳されてないオー
ディオ信号(A)である。オーディオ信号が翻訳されてない場合には、翻訳器7
は、翻訳されたオーディオA*を得ることが必要である。入力情報ストリームに
依存して、翻訳器7と唇追跡器2はオプションである。翻訳されたオーディオ信
号A*は、スピーカ8に出力される。ビデオ信号V’内のリップ−オブジェクト
loは、前述したように、新たなリップ−オブジェクトlo*で置き換えられる
。テキスト信号T,T*は、ディスプレイ5上に随意に表示されることができる
。
【0035】
図7は、本発明に従った受信器の第2の実施例を示す図である。この実施例は
特に、図5に示す送信器と共に適用可能である。ビデオの残りの信号V’と複数
のリップ−オブジェクトlo,lo*及び、複数のオーディオ信号A,A*を伴
なう情報ストリームが受信される。いくつかのテキスト信号Tと受信器は字幕と
して使用される翻訳されたテキスト信号T*も受信し得る。選択器10は、スピ
ーカに出力されるオーディオ信号A,A*の1つを選択する。選択器はユーザ選
択が好ましい。選択器はさらに、対応するリップ−オブジェクトlo,lo*を
選択する。これらのリップ−オブジェクトlo,lo*は、パラメータ化される
。その場合には、リップ−パラメータのみ受信される。選択されたリップ−オブ
ジェクトlo,lo*は、ディスプレイ5に表示するためのビデオ信号V,V* を構成するために、ビデオの残りの信号V’に加算される。図1に関連する説明
のように、ビデオ信号V’は、さらに、リップ−オブジェクトloをも有するこ
とができる。元の言語が選択される場合には、元のリップ−オブジェクトloが
他のリップ−オブジェクトによって置換されず、そして、ビデオ信号V’は、元
のリップ−オブジェクトloと共に表示される。他の言語が選択された場合には
、加算器4は、選択されたリップ−オブジェクトlo*によりリップ−オブジェ
クトを置換する。
特に、図5に示す送信器と共に適用可能である。ビデオの残りの信号V’と複数
のリップ−オブジェクトlo,lo*及び、複数のオーディオ信号A,A*を伴
なう情報ストリームが受信される。いくつかのテキスト信号Tと受信器は字幕と
して使用される翻訳されたテキスト信号T*も受信し得る。選択器10は、スピ
ーカに出力されるオーディオ信号A,A*の1つを選択する。選択器はユーザ選
択が好ましい。選択器はさらに、対応するリップ−オブジェクトlo,lo*を
選択する。これらのリップ−オブジェクトlo,lo*は、パラメータ化される
。その場合には、リップ−パラメータのみ受信される。選択されたリップ−オブ
ジェクトlo,lo*は、ディスプレイ5に表示するためのビデオ信号V,V* を構成するために、ビデオの残りの信号V’に加算される。図1に関連する説明
のように、ビデオ信号V’は、さらに、リップ−オブジェクトloをも有するこ
とができる。元の言語が選択される場合には、元のリップ−オブジェクトloが
他のリップ−オブジェクトによって置換されず、そして、ビデオ信号V’は、元
のリップ−オブジェクトloと共に表示される。他の言語が選択された場合には
、加算器4は、選択されたリップ−オブジェクトlo*によりリップ−オブジェ
クトを置換する。
【0036】
ユーザは、更なる特徴として、所望のテキスト信号T,T*を選択できる。
【0037】
図8は、本発明に従った通信システムを示す。通信ネットワークは、局ST1
,ST2、...,STNと通信ネットワークCNを有する。通信ネットワーク
の例はインターネット、イントラネット、ISDN,DVB等である。局ST1
は、受信器R1と送信器T1を有する。局ST2は、受信器R2と送信器T2を
有し、そして、局STNは、受信器RNと送信器TNを有する。受信器又は送信
器のみを有する局も可能である。本発明に従って、通信システムは、翻訳処理を
行う手段、ビデオ信号を追跡する手段及び、元のリップ−オブジェクトを新たな
リップ−オブジェクトで置換する手段を有する。これらの手段は、どの位置で、
信システム内に存在しても良い。局の送信器と受信器は、例えば、図2−7に関
連して前述した送信器と受信器と同様のものであることが可能である。局部的に
本発明に従った受信器のみを有することが可能であるが、通常は、本発明に従っ
た送信器も存在する。この結果、多くの場合には、通信ネットワークCNを亘っ
て伝送される情報ストリームは、翻訳されたオーディオ信号A*と対応するリッ
プ−オブジェクトlo*を、通常のオーディオAとビデオ信号V,V’に加えて
有するであろう。多くの場合に、テキスト信号Tと翻訳されたテキスト信号T* も、情報ストリーム内に存在する。図2に示す送信器が局ST1,ST2、..
.,STNの1つに存在する実施例では、信号V*も情報ストリームに含まれる
。局ST1,ST2、...,STNは、実質的に同一か又は、異なってもよい
。通信システムの実際のアプリケーションは、ビデオ会議である。オーディオの
翻訳とリップ−オブジェクトの置換は実時間で行われるのが好ましい。これは、
十分な計算パワーが利用できるときに可能である。小さな遅延は許容可能である
。ビデオ会議の場合には遅延は2つの方向で発生するので、できる限り低いこと
が好ましい。
,ST2、...,STNと通信ネットワークCNを有する。通信ネットワーク
の例はインターネット、イントラネット、ISDN,DVB等である。局ST1
は、受信器R1と送信器T1を有する。局ST2は、受信器R2と送信器T2を
有し、そして、局STNは、受信器RNと送信器TNを有する。受信器又は送信
器のみを有する局も可能である。本発明に従って、通信システムは、翻訳処理を
行う手段、ビデオ信号を追跡する手段及び、元のリップ−オブジェクトを新たな
リップ−オブジェクトで置換する手段を有する。これらの手段は、どの位置で、
信システム内に存在しても良い。局の送信器と受信器は、例えば、図2−7に関
連して前述した送信器と受信器と同様のものであることが可能である。局部的に
本発明に従った受信器のみを有することが可能であるが、通常は、本発明に従っ
た送信器も存在する。この結果、多くの場合には、通信ネットワークCNを亘っ
て伝送される情報ストリームは、翻訳されたオーディオ信号A*と対応するリッ
プ−オブジェクトlo*を、通常のオーディオAとビデオ信号V,V’に加えて
有するであろう。多くの場合に、テキスト信号Tと翻訳されたテキスト信号T* も、情報ストリーム内に存在する。図2に示す送信器が局ST1,ST2、..
.,STNの1つに存在する実施例では、信号V*も情報ストリームに含まれる
。局ST1,ST2、...,STNは、実質的に同一か又は、異なってもよい
。通信システムの実際のアプリケーションは、ビデオ会議である。オーディオの
翻訳とリップ−オブジェクトの置換は実時間で行われるのが好ましい。これは、
十分な計算パワーが利用できるときに可能である。小さな遅延は許容可能である
。ビデオ会議の場合には遅延は2つの方向で発生するので、できる限り低いこと
が好ましい。
【0038】
最後にどのような可能な情報ストリームをも蓄積媒体に蓄積することができる
。これは、図8に示す蓄積媒体Sであり、ネットワークからの情報ストリームを
蓄積し、そして、蓄積された情報ストリームをネットワーク又は、他の蓄積媒体
に供給する。他の適する蓄積媒体の例は、テープ、DVDディスク、CD−RO
M等である。
。これは、図8に示す蓄積媒体Sであり、ネットワークからの情報ストリームを
蓄積し、そして、蓄積された情報ストリームをネットワーク又は、他の蓄積媒体
に供給する。他の適する蓄積媒体の例は、テープ、DVDディスク、CD−RO
M等である。
【0039】
他の適する符号化基準の例は、H.323である。
【0040】
上述の実施例は、本発明を制限するものではなく、当業者は、請求項の範囲か
ら離れることなく多くの代替の実施例を設計することができることは注意すべき
である。請求項においては、括弧間の参照記号は請求項を制限しない。用語゛含
む”、”有する”は、請求項に記載した以外の他の要素又は、ステップの存在を
除外しない。本発明の幾つかの特徴ある構成要素を含むハードウェアにより又は
、好適にプログラムされたコンピュータにより本発明を実行することができる。
幾つかの手段を列挙する装置の請求項では、これらの手段の幾つかは1つの同じ
ハードウェアにより実現できる。
ら離れることなく多くの代替の実施例を設計することができることは注意すべき
である。請求項においては、括弧間の参照記号は請求項を制限しない。用語゛含
む”、”有する”は、請求項に記載した以外の他の要素又は、ステップの存在を
除外しない。本発明の幾つかの特徴ある構成要素を含むハードウェアにより又は
、好適にプログラムされたコンピュータにより本発明を実行することができる。
幾つかの手段を列挙する装置の請求項では、これらの手段の幾つかは1つの同じ
ハードウェアにより実現できる。
【0041】
要約すると、本発明は、情報ストリームをポスト同期するための方法を提供す
る。本発明に従って、元のリップ−オブジェクトはビデオ信号から得られる。こ
れらの元のリップ−オブジェクトは、翻訳されたオーディオ信号に対応する新た
なリップ−オブジェクトで置換される。リップ−オブジェクトは、例えば、MP
EG−4のオブジェクト指向符号化技術を使用してビデオ信号から得られる。符
号化規格MPEG−4はリップ−オブジェクトを操作する便宜を提供する。幾つ
かの構成が提示される。更なるビデオ信号を追跡することにより、又は、視覚素
又はリップ−パラメータを伴なうデータベースを使用することにより、新たなリ
ップ−オブジェクトを得ることができる。本発明は、例えば、ビデオ会議のよう
な通信ネットワークに適する。多言語情報ストリームは、複数のオーディオ信号
と、各々がオーディオ信号の1つにリンクされた複数のリップ−オブジェクトを
有する。これは、受信器で、所望の言語を選択する可能性を与える。本発明の優
位点は唇の動きが翻訳されたオーディオにより良く対応することである。
る。本発明に従って、元のリップ−オブジェクトはビデオ信号から得られる。こ
れらの元のリップ−オブジェクトは、翻訳されたオーディオ信号に対応する新た
なリップ−オブジェクトで置換される。リップ−オブジェクトは、例えば、MP
EG−4のオブジェクト指向符号化技術を使用してビデオ信号から得られる。符
号化規格MPEG−4はリップ−オブジェクトを操作する便宜を提供する。幾つ
かの構成が提示される。更なるビデオ信号を追跡することにより、又は、視覚素
又はリップ−パラメータを伴なうデータベースを使用することにより、新たなリ
ップ−オブジェクトを得ることができる。本発明は、例えば、ビデオ会議のよう
な通信ネットワークに適する。多言語情報ストリームは、複数のオーディオ信号
と、各々がオーディオ信号の1つにリンクされた複数のリップ−オブジェクトを
有する。これは、受信器で、所望の言語を選択する可能性を与える。本発明の優
位点は唇の動きが翻訳されたオーディオにより良く対応することである。
【図1】
本発明に従ったポスト同期を示す図である。
【図2】
更なるビデオオブジェクトを追跡して新たなリップ−オブジェクトを得るため
の実施例を示す図である。
の実施例を示す図である。
【図3】
本発明に従ったリップ−オブジェクト変更きと組合せた翻訳器の実施例を示す
図である。
図である。
【図4】
本発明に従った第1の送信器を示す図である。
【図5】
本発明に従った第2の送信器を示す図である。
【図6】
本発明に従った第1の受信器を示す図である。
【図7】
本発明に従った第2の受信器を示す図である。
【図8】
本発明に従った通信システムを示す図である。
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 シンケ,ヨハネス ヘー
オランダ国,5656 アーアー アインドー
フェン,プロフ・ホルストラーン 6
(72)発明者 ベルヘフート,バス アー イェー
オランダ国,5656 アーアー アインドー
フェン,プロフ・ホルストラーン 6
(72)発明者 ファン ヘステル,ヘンリクス アー ウ
ェー
オランダ国,5656 アーアー アインドー
フェン,プロフ・ホルストラーン 6
Fターム(参考) 5C052 CC01 DD06 EE03
5C053 FA14 GB37 LA06
【要約の続き】
与える。本発明の優位点は唇の動きが翻訳されたオーデ
ィオにより良く対応することである。
Claims (14)
- 【請求項1】 少なくとも1つの翻訳されたオーディオ信号を得るために翻
訳処理を行うステップを有する、オーディオ信号とビデオ信号を含む情報ストリ
ームをポスト同期する方法であって、 元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するステップ
と、 前記元のリップ−オブジェクトを、前記翻訳されたオーディオ信号に対応する
新たなリップ−オブジェクトで置き換えるステップとを有することを特徴とする
方法。 - 【請求項2】 前記変換されたオーディオ信号に対応する唇の動きを含む、
少なくとも1つの更なるビデオ信号を追跡することにより、前記新たなリップ−
オブジェクトを得るステップを更に有することを特徴とする請求項1記載の方法
。 - 【請求項3】 前記翻訳処理は、 元のオーディオ信号を、翻訳されたテキストに変換するステップと、 前記翻訳されたテキストから前記翻訳されたオーディオ信号と前記新たなリッ
プ−オブジェクトを得るステップを含む請求項1記載の方法。 - 【請求項4】 前記翻訳されたオーディオ信号を音素に分割するステップと
、 データベースから、前記音素に対応する視覚素を取り出すステップと、 前記視覚素から前記新たなリップ−オブジェクトを構成するステップとを有す
ることを特徴とする請求項1記載の方法。 - 【請求項5】 翻訳処理は、 前記音素をテキストに変換するステップと、 前記テキストを翻訳されたテキストに翻訳するステップと、 前記翻訳されたテキストから前記翻訳されたオーディオ信号を得るステップと
を有する請求項4記載の方法。 - 【請求項6】 前記元のリップ−オブジェクトからリップ−パラメータを得
るステップと、 前記新たなリップ−オブジェクトを構成するために、新たなリップパラメータ
を得るために前記リップ−パラメータを変更するステップとを有することを特徴
とする請求項1記載の方法。 - 【請求項7】 少なくとも1つの翻訳されたオーディオ信号とビデオ信号を
含む情報ストリームを送信するための送信器であって、 元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するための追
跡手段と、 前記元のリップ−オブジェクトを、前記翻訳されたオーディオ信号に対応する
新たなリップ−オブジェクトで置き換えるために、情報ストリームに新たなリッ
プ−オブジェクトを追加する手段とを有することを特徴とする送信器。 - 【請求項8】 異なる言語に関連する複数のオーディオ信号と、各々が前記
複数のオーディオ信号の少なくとも1つリンクされた複数のリップオブジェクト
を送信する手段を有することを特徴とする請求項7に記載の送信器。 - 【請求項9】 オーディオ信号とビデオ信号を含む情報ストリームを受信す
る受信器であって、 翻訳されたオーディオ信号を得るために翻訳処理を行う翻訳手段と、 元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するための追
跡手段と、 情報ストリームに、前記翻訳されたオーディオ信号に対応する新たなリップ−
オブジェクトを追加する手段と、 前記翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新た
なリップ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力
手段とを有することを特徴とする受信器。 - 【請求項10】 翻訳されたオーディオ信号とビデオ信号を含む情報ストリ
ームを受信する受信器であって、 元のリップ−オブジェクトを得るために、前記ビデオ信号を追跡するための追
跡手段と、 情報ストリームに、前記翻訳されたオーディオ信号に対応する新たなリップ−
オブジェクトを追加する手段と、 前記翻訳されたオーディオ信号と、前記元のリップ−オブジェクトが前記新た
なリップ−オブジェクトで置き換えられた前記ビデオ信号を出力するための出力
手段とを有することを特徴とする受信器。 - 【請求項11】 ビデオ信号、異なる言語に関連する複数のオーディオ信号
及び、各々が少なくとも1つの前記複数のオーディオ信号にリンクされた複数の
リンクオブジェクトを有する、情報ストリームを受信する受信器であって、 前記複数のオーディオ信号から選択されたオーディオ信号得るための選択器と
、 前記選択されたオーディオ信号と、前記選択されたオーディオ信号にリンクさ
れた選択されたリップ−オブジェクトを有する前記ビデオ信号を出力するための
出力手段とを有する受信器。 - 【請求項12】 オーディオ及びビデオ信号を含む情報ストリームを送信す
る手段と受信する手段とを有する複数の局と、前記局をリンクする通信ネットワ
ークとを有する通信システムであって、 少なくとも1つの翻訳されたオーディオ信号を得るために翻訳処理を行う手段
と、 元のリップ−オブジェクトを得るために前記ビデオ信号を追跡する手段と、 前記元のリップ−オブジェクトを前記翻訳されたオーディオ信号に対応する新
たなリップ−オブジェクトに置き換える手段とを有する通信システム。 - 【請求項13】 ビデオ信号と異なる言語に関連する複数のオーディオ信号
を含む情報ストリームであって、 各々が少なくとも1つの前記複数のオーディオ信号にリンクされた複数のリッ
プ−オブジェクトを更に有することを特徴とする情報ストリーム。 - 【請求項14】 請求項13記載の情報ストリームが記録されることを特徴
とする蓄積媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99202034 | 1999-06-24 | ||
EP99202034.7 | 1999-06-24 | ||
PCT/EP2000/005712 WO2001001353A1 (en) | 1999-06-24 | 2000-06-21 | Post-synchronizing an information stream |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003503925A true JP2003503925A (ja) | 2003-01-28 |
Family
ID=8240353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001506502A Pending JP2003503925A (ja) | 1999-06-24 | 2000-06-21 | 情報ストリームのポスト同期 |
Country Status (6)
Country | Link |
---|---|
US (2) | US6697120B1 (ja) |
EP (1) | EP1108246A1 (ja) |
JP (1) | JP2003503925A (ja) |
KR (1) | KR20010072936A (ja) |
CN (1) | CN1271573C (ja) |
WO (1) | WO2001001353A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016502157A (ja) * | 2012-09-18 | 2016-01-21 | チョル キム,サン | 単語自動翻訳に基づく唇形状変更装置および方法 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070165022A1 (en) * | 1998-07-15 | 2007-07-19 | Shmuel Peleg | Method and system for the automatic computerized audio visual dubbing of movies |
US7149686B1 (en) * | 2000-06-23 | 2006-12-12 | International Business Machines Corporation | System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations |
US6975988B1 (en) * | 2000-11-10 | 2005-12-13 | Adam Roth | Electronic mail method and system using associated audio and visual techniques |
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
US20030058932A1 (en) * | 2001-09-24 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Viseme based video coding |
US7315820B1 (en) * | 2001-11-30 | 2008-01-01 | Total Synch, Llc | Text-derived speech animation tool |
US20030122964A1 (en) * | 2002-01-02 | 2003-07-03 | Sony Electronics Inc. | Synchronization network, system and method for synchronizing audio |
US7212248B2 (en) * | 2002-09-09 | 2007-05-01 | The Directv Group, Inc. | Method and apparatus for lipsync measurement and correction |
US7257538B2 (en) * | 2002-10-07 | 2007-08-14 | Intel Corporation | Generating animation from visual and audio input |
US7154510B2 (en) * | 2002-11-14 | 2006-12-26 | Eastman Kodak Company | System and method for modifying a portrait image in response to a stimulus |
US7827034B1 (en) | 2002-11-27 | 2010-11-02 | Totalsynch, Llc | Text-derived speech animation tool |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
JP4865324B2 (ja) * | 2005-12-26 | 2012-02-01 | キヤノン株式会社 | 情報処理装置及び情報処理装置の制御方法 |
US7948558B2 (en) * | 2006-09-29 | 2011-05-24 | The Directv Group, Inc. | Audio video timing measurement and synchronization |
US20080201369A1 (en) * | 2007-02-16 | 2008-08-21 | At&T Knowledge Ventures, Lp | System and method of modifying media content |
US8300667B2 (en) * | 2010-03-02 | 2012-10-30 | Cisco Technology, Inc. | Buffer expansion and contraction over successive intervals for network devices |
US8655156B2 (en) * | 2010-03-02 | 2014-02-18 | Cisco Technology, Inc. | Auxiliary audio transmission for preserving synchronized playout with paced-down video |
US20110246172A1 (en) * | 2010-03-30 | 2011-10-06 | Polycom, Inc. | Method and System for Adding Translation in a Videoconference |
US20110311144A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Rgb/depth camera for improving speech recognition |
US8600732B2 (en) * | 2010-11-08 | 2013-12-03 | Sling Media Pvt Ltd | Translating programming content to match received voice command language |
TW201301148A (zh) * | 2011-06-21 | 2013-01-01 | Hon Hai Prec Ind Co Ltd | 網頁瀏覽控制系統及方法 |
US8655152B2 (en) | 2012-01-31 | 2014-02-18 | Golden Monkey Entertainment | Method and system of presenting foreign films in a native language |
US8874429B1 (en) * | 2012-05-18 | 2014-10-28 | Amazon Technologies, Inc. | Delay in video for language translation |
CN103873808B (zh) * | 2012-12-13 | 2017-11-07 | 联想(北京)有限公司 | 数据处理的方法和装置 |
GB201301981D0 (en) * | 2013-02-04 | 2013-03-20 | Headcast Ltd | Presenting audio/visual animations |
KR20140146965A (ko) * | 2013-06-18 | 2014-12-29 | 삼성전자주식회사 | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 |
KR102127351B1 (ko) * | 2013-07-23 | 2020-06-26 | 삼성전자주식회사 | 사용자 단말 장치 및 그 제어 방법 |
US20160042766A1 (en) * | 2014-08-06 | 2016-02-11 | Echostar Technologies L.L.C. | Custom video content |
US10657972B2 (en) * | 2018-02-02 | 2020-05-19 | Max T. Hall | Method of translating and synthesizing a foreign language |
KR20210048441A (ko) * | 2018-05-24 | 2021-05-03 | 워너 브로스. 엔터테인먼트 인크. | 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭 |
US11954561B2 (en) | 2020-11-16 | 2024-04-09 | Joseph Robert Escamilla | System and method of exchanging information through a wireless brain-computer interface |
CN115174825A (zh) * | 2022-06-30 | 2022-10-11 | 北京有竹居网络技术有限公司 | 一种配音方法、装置、电子设备以及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4600281A (en) * | 1985-03-29 | 1986-07-15 | Bloomstein Richard W | Altering facial displays in cinematic works |
JP2795084B2 (ja) * | 1992-07-27 | 1998-09-10 | 国際電信電話株式会社 | 口形状画像合成方法及び装置 |
SE9301596L (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
FR2713800B1 (fr) * | 1993-12-15 | 1996-03-15 | Jean Gachot | Procédé et dispositif pour transformer un premier message vocal dans une première langue, en un second message vocal prononcé dans une seconde langue prédéterminée. |
US6330023B1 (en) * | 1994-03-18 | 2001-12-11 | American Telephone And Telegraph Corporation | Video signal processing systems and methods utilizing automated speech analysis |
CA2144795A1 (en) * | 1994-03-18 | 1995-09-19 | Homer H. Chen | Audio visual dubbing system and method |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
MX9504648A (es) * | 1994-11-07 | 1997-02-28 | At & T Corp | Metodo y aparato para el procesamiento de imagenes, asistido por acustica. |
WO1997015926A1 (en) * | 1995-10-08 | 1997-05-01 | Face Imaging Ltd. | A method for the automatic computerized audio visual dubbing of movies |
US5880788A (en) * | 1996-03-25 | 1999-03-09 | Interval Research Corporation | Automated synchronization of video image sequences to new soundtracks |
JP4037455B2 (ja) * | 1996-03-26 | 2008-01-23 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 画像合成 |
US5818463A (en) * | 1997-02-13 | 1998-10-06 | Rockwell Science Center, Inc. | Data compression for animated three dimensional objects |
US5870454A (en) * | 1997-04-01 | 1999-02-09 | Telefonaktiebolaget L M Ericsson | Telecommunications speech/text conversion and message delivery system |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
US6317716B1 (en) * | 1997-09-19 | 2001-11-13 | Massachusetts Institute Of Technology | Automatic cueing of speech |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
WO1999046734A1 (en) * | 1998-03-11 | 1999-09-16 | Entropic, Inc. | Face synthesis system and methodology |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
US6476802B1 (en) * | 1998-12-24 | 2002-11-05 | B3D, Inc. | Dynamic replacement of 3D objects in a 3D object library |
-
2000
- 2000-06-21 CN CNB008017840A patent/CN1271573C/zh not_active Expired - Fee Related
- 2000-06-21 WO PCT/EP2000/005712 patent/WO2001001353A1/en not_active Application Discontinuation
- 2000-06-21 JP JP2001506502A patent/JP2003503925A/ja active Pending
- 2000-06-21 EP EP00942110A patent/EP1108246A1/en not_active Withdrawn
- 2000-06-21 KR KR1020017002363A patent/KR20010072936A/ko not_active Application Discontinuation
- 2000-06-22 US US09/599,782 patent/US6697120B1/en not_active Expired - Fee Related
-
2004
- 2004-01-06 US US10/752,366 patent/US7145606B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016502157A (ja) * | 2012-09-18 | 2016-01-21 | チョル キム,サン | 単語自動翻訳に基づく唇形状変更装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1321287A (zh) | 2001-11-07 |
CN1271573C (zh) | 2006-08-23 |
US20040141093A1 (en) | 2004-07-22 |
WO2001001353A1 (en) | 2001-01-04 |
KR20010072936A (ko) | 2001-07-31 |
US6697120B1 (en) | 2004-02-24 |
US7145606B2 (en) | 2006-12-05 |
EP1108246A1 (en) | 2001-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7145606B2 (en) | Post-synchronizing an information stream including lip objects replacement | |
CN112562720B (zh) | 一种唇形同步的视频生成方法、装置、设备及存储介质 | |
US5677739A (en) | System and method for providing described television services | |
US6088484A (en) | Downloading of personalization layers for symbolically compressed objects | |
Abrantes et al. | MPEG-4 facial animation technology: Survey, implementation, and results | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
JP3215823B2 (ja) | 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 | |
US6088673A (en) | Text-to-speech conversion system for interlocking with multimedia and a method for organizing input data of the same | |
KR101899588B1 (ko) | 수어 애니메이션 데이터를 자동으로 생성하는 시스템과 이를 이용한 방송시스템 및 방송방법 | |
US6014625A (en) | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model | |
US20030163315A1 (en) | Method and system for generating caricaturized talking heads | |
JP2011175598A (ja) | 手話アニメーション生成装置及び手話アニメーション生成プログラム | |
US6839672B1 (en) | Integration of talking heads and text-to-speech synthesizers for visual TTS | |
CN115761075A (zh) | 脸部图像生成方法及其装置、设备、介质、产品 | |
CN117171392A (zh) | 一种基于神经辐射场和隐属性的虚拟主播生成方法与系统 | |
CN114793300A (zh) | 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统 | |
KR100669269B1 (ko) | 텔레비젼 방송 송신/수신 시스템, 텔레비젼 방송 송신/수신 방법 | |
Capin et al. | Very low bit rate coding of virtual human animation in MPEG-4 | |
JP3634687B2 (ja) | 情報通信システム | |
JP2002300434A (ja) | 番組送出システム及びこれに用いる番組送出装置 | |
Bojkovic et al. | Audiovisual integration in multimedia communications based on MPEG-4 facial animation | |
KR102599540B1 (ko) | 인공지능 기반의 라이브 콘텐츠 실시간 번역 송출 방법 및 시스템 | |
de Brito et al. | A model to support sign language content development for digital television | |
Arsov et al. | On-line animation system for learning and practice Cued Speech | |
KR20230084965A (ko) | 딥러닝 기술을 활용한 얼굴 이미지 기반 음성 생성 시스템 및 방법 |