JP3215823B2 - 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 - Google Patents
人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置Info
- Publication number
- JP3215823B2 JP3215823B2 JP28550899A JP28550899A JP3215823B2 JP 3215823 B2 JP3215823 B2 JP 3215823B2 JP 28550899 A JP28550899 A JP 28550899A JP 28550899 A JP28550899 A JP 28550899A JP 3215823 B2 JP3215823 B2 JP 3215823B2
- Authority
- JP
- Japan
- Prior art keywords
- parameters
- bism
- model
- macro
- animation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 22
- 230000005236 sound signal Effects 0.000 title claims description 10
- 230000001815 facial effect Effects 0.000 claims description 18
- 230000033001 locomotion Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000007935 neutral effect Effects 0.000 claims description 8
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims 2
- 230000002349 favourable effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 4
- 229910052797 bismuth Inorganic materials 0.000 description 3
- JCXGWMGPZLAOME-UHFFFAOYSA-N bismuth atom Chemical compound [Bi] JCXGWMGPZLAOME-UHFFFAOYSA-N 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- BWSIKGOGLDNQBZ-LURJTMIESA-N (2s)-2-(methoxymethyl)pyrrolidin-1-amine Chemical compound COC[C@@H]1CCCN1N BWSIKGOGLDNQBZ-LURJTMIESA-N 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Description
チメディア通信システムに関し、特に、音声源から引き
出されたパラメータにより駆動される人間の顔の合成モ
デルのアニメーションの方法及び装置に関する。
は、ユーザー−アプリケーションの相互作用を容易にし
改善すべく、合成された自然な音声映像対象をかなり完
成させ、ますます興味あるものとなっている。このよう
な分野では、擬人化モデルを採用してマン−マシン相互
作用を容易にすることが予想される。このような関心
は、国際標準化団体によっても認識されており、ISO
/IEC規格14496、「音声映像対象の一般符号
化」は、現在その定義段階に入っている。該規格は、一
般に「MPEG−4規格」として知られており、以下こ
の用語により参照する。該規格は、とりわけマルチメデ
ィア応用に対して基準体系を与えることを目的とする。
MPEG−4規格により与えられる特定の解決策に関わ
らず、擬人化モデルは、他の情報ストリームへの補助手
段として考えられ、アニメーションが可能な対象として
見られる。このアニメーションは、例として声のような
音声信号により駆動される。この場合には、合成顔が音
声に関係する典型的な顔つきをするようにモデルのジオ
メトリと外見を音声自身と同期させて変形できるアニメ
ーションシステムを開発する必要がある。必要とされる
のは、できるだけ現実に近い外見を有する話す頭又は顔
である。
フィルムやTV産業における製作後効果付けのようなプ
ロ仕様の応用やビデオゲームなどだけでなく、ウエルカ
ム・メッセージ又はオンライン・補助メッセージのよう
なインターネット用途から共同作業用途までを範囲とす
る。人間の顔のモデルは、一般に3Dメッシュ構造又は
「ワイヤーフレーム」により形成されるジオメトリ表現
を用いて実現される。アニメーションは、多角形(又は
これらの多角形の部分集合)の適当な変形を中断するこ
となく順に適用することに基づく。これらの多角形は、
表示段階中に要求される効果を達成するように、すなわ
ち特定の場合には顎や唇の領域の動きを与えるように、
メッシュ構造を形成する。MPEG−4規格により定め
られた解決策は、このような目的のためにモデルとは独
立に定められた顔アニメーションのパラメータ集合を使
用し、システムの相互作用を保証する。このパラメータ
集合は、2つの層上で編成される。すなわち、上方層
は、音素(すなわち基本音単位)に対応して話者の口の
位置を表す所謂「ビズム(visemes) 」により形成され、
下方層は、異なるビズムに対応して適用される基本変形
を表す。規格は、下方層パラメータが如何にして使用さ
れねばならないかを精密に定義しているが、上方層のパ
ラメータの使用に関しての拘束を設けていない。規格
は、声駆動アニメーションに対して音素とビズム間の可
能な関係を定義する。以下において、関連パラメータ
が、採用されるモデルに適用さる。
文献から公知である。例として、次の論文が参照でき
る。F.Lavagetto による「音声を唇の動きに変換する:
難聴者のためのマルチメディア電話」(IEEE Transacti
ons on Rehabilitation Engineering 、Vol.3 、No.1、
1995年3月);DIST, University of Genoa 「音声
−顔の動き変換のためのアルゴリズムの説明」(ACTS "
SPLIT" Project、1995年11月);TUB,Technical
University of Berlin「映像音声の動きの分析と合成」
(ACTS "SPLIT" Project、1995年11月)。最初の
文献は、関連ビズムを同定し且つビズムをモデルに適用
される調音パラメータに変換することにより、音素を用
いてアニメーションを実現する可能性を記載する。該文
献は、別法として、適当に訓練されたニューラルネット
ワークを介してスペクトル情報を調音パラメータに直接
変換することを示唆する。しかしながら、採用された調
音パラメータは、MPEG−4規格により予想される顔
アニメーションのパラメータではなく、よって、示唆さ
れた方法はフレキシブルでない。また、ACTS "SPLIT" P
rojectにて提出された2つの論文は、MPEG−4規格
により予測された顔アニメーションパラメータの使用を
記載していない。さらに、得られたパラメータは、異な
る位置(種々のビズムに対応する)での唇のイメージを
含んだデータベースから1つのイメージを選ぶことのみ
を目的とする。
るアニメーションのための方法及び装置は、ビズムを受
け取ってMPEG−4規格に従ったどんな顔モデルにも
適当なジオメトリ変形を行うことができる。さらに、十
分高い品質を保証することにより、ユーザーは正面位置
とは異なる位置にいる合成話者を見ること、正面位置に
近接すべく動かすこと、正面位置から離れるべく動かす
ことなどが可能となる。
声信号が、機械により読み取り可能な音声データに変換
され、これらのデータは、このようなモデルに適用され
る基本変形を表すパラメータに変換され、音声データの
変換は、以下の工程を含む。 (1)個別の音声情報項目又は音声情報項目群を、話者
の口の対応位置を表す夫々の情報項目(ビズム)に関連
付ける工程。該ビズムは、駆動音声信号の言語とは独立
したビズムと、このような言語に特有のビズムから成る
集合から選ばれる。 (2)各ビズムを、口の形状及び唇と顎の位置を特徴付
けるマクロパラメータ群に分割し、所与のビズムのマク
ロパラメータの各々を、中立位置からの変位を表す強度
値に関連付ける工程。該強度値は、アニメ化されたモデ
ルの良好な自然さを保証すべく初期化段階にて決められ
た区間内で選択される。 (3)マクロパラメータを、顔モデルに適用される変形
を表し且つ口の動きに関係する標準顔アニメーションパ
ラメータ群内で選択されたパラメータに分割し、該パラ
メータをマクロパラメータの強度値に依存した強度値に
関連付ける工程。該強度値も、アニメ化されたモデルの
自然さを保証するべく設定された区間内で選択される。
も関係し、下記(1)〜(3)を含む。 (1)機械により読み取り可能な駆動音声信号を表す音
声情報を発生するための手段。 (2)音声情報を、このようなモデルに適用される基本
変形を表すパラメータに変換するための手段。該変換手
段は、以下の事項(ア)〜(オ)が可能である。 (ア)個別の音声情報項目又は音声情報項目群を、合成
モデルにおいて対応する口の位置を表す夫々の情報項目
(以下「ビズム」という。)に関連付けること。該ビズ
ムは、駆動音声信号の言語とは独立なビズム、及びこの
ような言語に特有のビズムを含んだメモリから読み出さ
れる。 (イ)各ビズムを、モデルにおける口の形状と唇と顎の
位置を特徴付けるマクロパラメータ群に分割すること。 (ウ)所与のビズムのマクロパラメータの各々を、中立
位置からの変位を表す強度値に関連付けること。該強度
値は、アニメ化されたモデルの良好な自然さを保証する
ように初期段階において所与の区間内で選択される。 (エ)マクロパラメータを、このようなモデルに適用さ
れる変形を表すパラメータに分割すること。該パラメー
タは、口の動きに関係する標準顔アニメーションパラメ
ータ群内で選択される。 (オ)前記パラメータを、マクロパラメータの強度値に
依存する強度値に関連付けること。該強度値も、アニメ
化されたモデルの自然さを保証するように設定された区
間内で選択される。 (3)音声情報の発生手段による制御下においてパラメ
ータをモデルに適用するための手段。
「母音と子音における唇と顎の動き:一時空間特性と二
モード認識応用」(NATO-ASI Workshop on Speech Read
ingにて提出、Bonas 、仏国、1995年8月28日〜
9月10日)、これは、D.G.Stork 、M.E.Henneke によ
り編集された「人間機械による音声読み取り」(NATO-A
SI Series 150 、Berlin、Springer-Verlag 、1996
年、第291〜314頁)に公表されており、この中
で、以下の4つのマクロパラメータによりビズムを特徴
付ける可能性が述べられている。 (1)口の幅(以下、LOW(Lip Opening Width) とい
う。) (2)唇間の垂直距離(以下、LOH(Lip Opening Hei
ght)という。) (3)顎の開口(以下、JYで示す。) (4)唇の突出(以下、LPで示す。) 上記論文では、一般にそれらのマクロパラメータの各々
が、強度値に関連付けられているとある。それにも関わ
らず、上記引用文献は、本質的には声と顔の動きの間の
相互作用の研究に関係するものであり、顔のアニメーシ
ョンに結果を応用することは予想していない。できるだ
け自然なアニメ化モデルを実現するためには、強度値の
実際的な知識が本質的な条件となる。
照される。図1は、MPEG−4復号器に挿入された顔
アニメーションシステムを示す。一般に、MPEG−4
復号器は、デマルチプレクサーDMを含む。該デマルチ
プレクサーDMは、幾つかの基本ストリームを含んだ複
合ストリームを受け取り、該複合ストリームを個々のス
トリームに分割し、それらを夫々の復号器DE1,DE
2,DE3...に与える。上記基本ストリームの各々
は、所与のシーン(scene) の符号化を表すマルチメディ
ア信号成分に関係する。本発明の場合、与えられるシー
ンは、所与のテキストに基づいてアニメ化されなければ
ならない人間の顔の合成イメージを含み、これらの基本
ストリームは、以下の情報の少なくとも幾つかに関係す
る。すなわち、テキスト;アニメーションパラメータ
(FAP(Facial Animation Parameters) );アニメー
ションが適用される特定の顔モデルを校正するのに使用
されるパラメータ(顔定義パラメータ又はFDPとして
知られる)。
一般的な解決策を用いることができる。 (1)第1の解決策は、符号化段階中、音声とアニメー
ション間の同期のために要求される時間情報(時間スタ
ンプ)と共に、音声チャンネルと関連アニメーションパ
ラメータの両方を含む複合ストリームを復号器に伝送す
るように、特定シーンを処理する。従って、アニメーシ
ョンのために要求される全ての情報は、符号化されたス
トリーム内に既に含まれており、復号器は、異なる対象
(すなわち、音声、アニメ化されたイメージ、背景な
ど)を導入することにより、シーンの再構成のみを行
う。 (2)第2の解決策は、例えば符号化ストリームに含ま
れたテキストから抽出された音声データ、又はファイル
から抽出された音声データ若しくは音声認識器により与
えられた音声データ等を用いたアニメーションの全体表
現を復号器に任せる。両方の解決策において、モデルに
関する情報(FDP)は、適宜符号化ストリーム内に存
在する。
る使用に関し特に興味深い。というのは、テキスト伝送
に対する帯域幅の要求は、ビデオチャンネルやそれに関
連する音声チャンネルの直接伝送に対する要求よりも十
分に低いからである(数十文字は、テキスト長にも依存
するが、数kbit/sから数Mbit/sの帯域幅に匹敵する)。
従って、本発明はこの種の解決策に関係し、図1は、ア
ニメーションのためのテキストが符号化ストリームに含
まれている場合を示す。例えば復号器DE1により与え
られる復号化されたテキストは、任意の公知タイプの音
声合成器SYに与えられる。音声合成器SYは、音素
(すなわち、基本音単位)と対応する合成音声の両方を
出力に与えることができる。例として、使用される合成
器が、本出願人の合成システムELOQUENS(商標)である
と仮定する。その特性は、広く文献に記載されている。
この合成器についての更なる詳細は、例えば欧州特許出
願EP0706170が参照できる。
顔アニメーションパラメータ、すなわち基本顔変形を定
義するパラメータにこれらの音素を変換する。次に、こ
れらのパラメータは、顔アニメーションモジュールAF
に与えられる。該モジュールAFは、例えば復号器DE
3から受け取った顔定義パラメータに関係する情報を考
慮することにより、合成モジュールSYの制御下にて必
要な情報をモデルに適用する。合成された音声信号とア
ニメ化されたモデルは、シーン構成モジュールCSに送
られる。シーン構成モジュールCSは、アニメ化された
モデルと音声との結合、背景の挿入などを行う。モジュ
ールAFと復号器DE2をつなぐ点線は、復号器により
送られたアニメーションパラメータを直接使用する上記
可能性を略示する。
ーン構成モジュールが、モデルアニメーションと合成音
声間の良好な同期を保証しなければならないことに留意
すべきである。経験と研究により分かっているのは、モ
デルの唇の動きと音声間の時間差が−40ms〜+12
0msの範囲にある場合には、ユーザーはずれを感知し
ないこと、及び時間差が−90ms〜+180msの範
囲にある場合、品質は依然として許容し得ることであ
る。この点に関する限り、合成モジュールSYは、連続
的には音素を発生せず、入力テキストから読み出された
センテンス又はセンテンスの一部に対応する音素群を供
給するものであることにも留意すべきである。従って、
顔アニメーションモジュールAFは、音素が所与の時間
に使用されるトラックを確保しなければならない。この
ことは、合成モジュールSYにより与えられる適当な時
間情報を用いて実現される。
SYにより与えられる代わりに、音声認識器により与え
られたり、ファイルから読み出されたり、連続ストリー
ムから受け取られる等され得る。しかしながら、音素が
発生される方法は、本発明の一部ではない。本発明は、
変換モジュールCFPにより行われる操作に関するので
ある。明らかに、このような音素が電子処理できる形式
にて表されていることは必須である。例として、SAM
PAアルファベット(Speech Assessment Methods Phone
tic Alphabet) に基づいた表現を仮定し得る。SAMP
Aアルファベットにより、機械読み取り可能なフォーマ
ットにて幾つかの言語の音素を表現することが可能であ
る。実質的には、SAMPAは、国際音声アルファベッ
ト(IPA)のシンボルを7ビットのASCII文字に
より符号化する。SAMPAについての更なる詳細は、
本発明を理解するのには不要であるが、インターネット
サイトhttp://www.phon.ucl.ac.uk/home/sampa/home.ht
m にて参照できる。
示されている。以下の説明では、例としてイタリア語が
参照されているが、上述のように、SAMPAのような
アルファベットは、幾つかの言語の音素を記載するの
で、異なる言語によるものを適応するのは技術者にとっ
て容易である。図2から分かるように、音素の抽出に続
く最初の操作は、それらをビズムに変換することであ
る。既に述べたように、MPEG−4規格は、音素群と
ビズム群間の関連を定義し、特に、多くの欧州言語に共
通の音素群に関連する14個のビズムを定義する。この
ような規格により定義されたビズムが、第1表に挙げら
れており、この表において、最初の欄は、規格に従った
ビズムインデックスを示し、二番目の欄は、ビズムに関
連する音素を含み、三番目の欄は、このような音素を含
むイタリア語(又は幾つかの音素に対しては英語)の単
語の幾つかの例を与える。
しては(イタリア語もその一つ)、強調母音に関係する
別群により補足される。特に、イタリア語に対しては、
次のビズムが導入される。
且つ対応音素によりアドレス指定される適当なメモリに
記憶される。次の工程は、このようなビズムをマクロパ
ラメータにより特徴付けることである。本発明は、上記
4つのマクロパラメータLOW,LOH,JY,LPを
利用し、各ビズムに対し、値又は強度を各マクロパラメ
ータに関連付ける。このような強度は、予備動作段階に
おいて概略値から開始して同定されたものである。この
概略値は、発見的な方法にて求められ、且つ、顔モデル
アニメーションの類似性を向上させるべく主観評価に基
づいて徐々に精密化されたものである。特に、強度値の
最適区間は、下記第3表に示されるように、定められて
いる。
による上記引用文献 (4)に記載の方法とは異なる方法に
てマクロパラメータを使用する。というのは、マクロパ
ラメータの値は、絶対的な尺度を表すのではなく、MP
EG−4規格において定義された中立位置に対する差を
表すからである(従って、マクロパラメータの強度は、
正及び負の値を取り得る)。換言すれば、この規格は、
顔モデルに対する中立位置を定義し、このような位置に
おいては、マクロパラメータの全ての強度は零である。
ビズムを特徴付けるマクロパラメータの強度は、このよ
うな中立位置に対する差を示し、正又は負の符号は、関
連する要素が中立位置から遠ざかっているか又は近づい
ているかを示す。後に説明するマクロパラメータの値と
顔アニメーションパラメータの値は、所謂「顔アニメー
ションパラメータ単位」(FAPU)(Facial Animatio
n Parameter Units) にて表される。顔アニメーション
パラメータ単位は、規格化された測定単位であり、この
ことは、該規格において記載された個々のパラメータの
特色である。区間内で強度が選べることにより、システ
ムのフレキシビリティが改善される。
の顔アニメーションパラメータ(FAP)に分割され
る。マクロパラメータから顔アニメーションパラメータ
への変換は、どのパラメータが所与のマクロパラメータ
とそれぞれの強度とを形成するかを同定することにより
実行される。例えば、マクロパラメータLP(唇の突
出)は、顔アニメーションパラメータ「push_b _lip
」と「push_t _lip 」により作られる。これらのパ
ラメータは、それぞれ下唇及び上唇の突出を定める。定
義により、顔アニメーションパラメータは、MPEG−
4端末により使用される顔モデルとは独立である。従っ
て、このようなシステムにより、MPEG−4に従うど
んな顔モデルのアニメーションも可能となる。第4表
は、前のマクロパラメータをMPEG−4のFAPに分
割するのを示す。"x" 変数は、第3表から与えられるパ
ラメータ値を表す。第4表における欄「強度区間」は、
各MPEG−4 FAPの強度が選択され得る値の区間
を示す。値区間の採用は、マクロパラメータの値区間の
使用に関して述べたのと同じ考察による。
ラメータの名称は、規格において使用されているものと
同じであるので、それらの定義を参照されたい。略字"
l" 、"r" 、"t" 、"b" 、"m" 、"o" は、それぞれ"lef
t"、"right" 、"top" 、"bottom"、"middle"、"outer"
を示す。従って、第3〜7表(これらもCFPの適当な
メモリ領域に記憶されている)を使用し関連強度を各F
APに関連付けることにより、FAP集合を用いてビズ
ムを再生することが可能である。顔モデルの対応するア
ニメーションを実現するため、前記FAPが、MPEG
−4規格に従う任意の顔アニメーションシステムに転送
し得る。
程から成る。 1)テキスト・ストリングを取る工程、 2)第1表と第2表に示された記法を用いて、又はビズ
ムとの同じ関連性を有する等価記法を用いて、前記テキ
ストを音素に分割する工程、 3)i番目の音素を考慮し、第1表と第2表により対応
するj番目のビズムを見つけ出す工程、 4)第3表においてj番目のビズムに関連したマクロパ
ラメータの値を同定する工程、及び 5)マクロパラメータの値を第4表に示されたFAPに
適用する工程。 工程3〜5は、テキスト・ストリングにおける全ての音
素に対して繰り返される。前記アルゴリズムは、以下に
示すように、疑似コードによっても記載し得る。
ングを読み出すための一般的な入力/出力関数である。 (2)text_to_phonemes (text[]) :文字ストリング
text()を、第1表及び第2表において選択された音素の
対応ストリングに関連付ける。 (3)length(V[]) :パラメータとして送られるベクト
ルv() の長さを戻す。 (4)search_viseme(fon) :第1表及び第2表におけ
る探索に際し、パラメータとして送られる音素fon に対
応するビズムを戻す。 (5)produce _FAP(FAPindex,FAPintensity):インデ
ックスFAPindexと強度FAPintensityを用いてFAPを発
生する。生成されたFAPは、アニメーションサブシス
テムに転送される。該サブシステムは、それらを外に運
ぶ、すなわち、それらを顔モデルに適用する。 (6)intensity(FAPindex) :インデックスFAPindexを
用いてFAPの強度を戻し、第4〜7表のうちの一つか
らそれを読み出す。
ば、イタリア語のテキスト・センテンス"Martedi andia
mo a sciare"(火曜日に我々はスキーに行く)を音素に
分割する場合を考える。第1表及び第2表に挙げられた
音素を用い、明確にするために"-" により単語を分離す
ることにより、次の表現が可能となる。すなわち、"mA:
rtedi-A:ndlamQ-A:-Slare"となる。さて、音素の最初の
ストリングである"mA:rtedi"を考える。最初の音素"m"
から開始すると、第1表と第2表を参照して関連付けら
れたビズム、この場合にはビズム1が見出せる。次に、
第3表を使用してこのようなビズムを4つのマクロパラ
メータLOH,JY,LP,LOWに分割する。ビズム
1に関連する列は、 ビズム LOH JY LOW LP 1 -88〜-64 -12〜-4 14〜30 10〜22 である。次に、4つの区間から値が選択される。例え
ば、中心値−76,−8,22,16である。これらの
パラメータは、第4〜7表を用いることにより、基本的
なFAPに分割される。所与のマクロパラメータに関連
したFAPの強度は、このようなマクロパラメータの強
度により乗算される。簡単のため、FAP値の可変性区
間の中心値が考えられた。計算から得られる値は、下記
のように最も近い整数に丸められる。
な顔モデルにも直接適用できるFAPのベクトルが得ら
れる。次の音素"A:"を考える。第1表と第2表は、関連
するビズムがビズム10であることを示す。次に、第3
表を用いて、このようなビズムをマクロパラメータLO
H,LJ,LP,LOWに分割する。ビズム10に関連
する列は、次の通り。 ビズム LOH JY LOW LP 10 304〜516 274〜464 28〜52 -79〜-43 このようなビズムに対しても、これらの区間内の値、例
えば中心値410,369,40,−61が選択され
る。区間の中心値を用いて基本FAPに分割し、それら
を最も近い整数に丸めることで、以下の結果が得られ
る。
Pを得るためには、ストリングの最後までこのプロセス
を繰り返すことで十分である。これまで記載してきたこ
とは、非制限的な例として与えられていること、及び変
更や修正が本発明の範囲を逸脱することなく導入し得る
ことは明らかである。
ロック図である。
ローチャートである。
Claims (7)
- 【請求項1】 人間の顔の合成モデルの音声信号駆動ア
ニメーションの方法であって、 駆動信号が、機械により読み取り可能な音声情報に変換
され、この音声情報が、以下の操作シーケンス、すなわ
ち(1)個々の音声情報項目又は音声情報項目群を、モ
デルの口の対応位置を表す夫々の情報項目(以下「ビズ
ム」という。)に関連付ける操作であって、該ビズム
は、駆動音声信号の言語に独立なビズムとこのような言
語に特有のビズムを含んだ集合内で選択される上記操
作、(2)各ビズムを、モデルにおける唇領域と顎の形
状及び/又は位置を特徴付けるマクロパラメータ群に分
割し、且つ、所与のビズムのマクロパラメータの各々
を、中立位置からの変位を表す強度値に関連付ける操作
であって、該強度値は、アニメ化されたモデルの良好な
自然さを保証すべく初期化段階にて決められた所与の区
間内で選択される上記操作、(3)マクロパラメータ
を、モデルに適用される変形を表すパラメータであっ
て、口の動きに関係する標準顔アニメーションパラメー
タ群内で選択された該パラメータに分割し、且つ、これ
らのパラメータをマクロパラメータの強度値に依存した
強度値に関連付ける操作であって、該強度値も、アニメ
化モデルの自然さを保証すべく設定された区間内で選択
され、言語に独立な前記ビズム群と前記標準顔アニメー
ションパラメータ群は、それぞれISO−IEC規格1
4496により定義されたビズムと顔アニメーションパ
ラメータである上記操作、により、このようなモデルに
適用される基本変形を表すパラメータに変換される上記
方法。 - 【請求項2】 前記マクロパラメータが、 (1)唇間の垂直距離、LOH (2)顎の開口、JY (3)口の幅、LOW (4)唇の突出、LPを表し、標準ビズムのマクロパラ
メータの強度が、次の区間内、すなわち 【表1】 から選択され、強度値は、ISO−IEC規格1449
6により定義されるような顔アニメーションパラメータ
単位により表される請求項1記載の方法。 - 【請求項3】 言語に特有な前記ビズムは、強調母音に
関係する音声情報に関連付けられれたビズムであり、言
語に特有な特定ビズムのマクロパラメータの強度は、次
の区間内、すなわち 【表2】 から選択されることを特徴とする請求項2に記載の方
法。 - 【請求項4】 マクロパラメータを分割するために、以
下の顔アニメーションパラメータ(FAP)、すなわち 【表3】 が使用されることを特徴とする請求項2又は3に記載の
方法。 - 【請求項5】 顔アニメーションパラメータが、以下の
強度値、すなわち 【表4】 [ここでxは特定ビズムのマクロパラメータ強度値であ
る]に関連付けられることを特徴とする請求項2、3又
は4に記載の方法。 - 【請求項6】 人間の顔の合成モデルの音声信号駆動ア
ニメーションの装置であって、(1)機械により読み取
り可能な駆動音声信号を表す音声情報を発生するための
手段(SY)、(2)音声情報を、前記モデルに適用さ
れる基本変形を表すパラメータに変換するための手段
(CFP)であって、 (ア)個々の音声情報項目又は音声情報項目群を、合成
モデルにおける対応する口の位置を表す夫々の情報項目
(以下「ビズム」という。)に関連付ける操作であっ
て、該ビズムは、駆動音声信号の言語に独立なビズムと
このような言語に特有なビズムとを含んだメモリから読
み出される上記操作、 (イ)各ビズムを、モデルにおける口の形状及び唇と顎
の位置を特徴付けるマクロパラメータ群に分割する操
作、 (ウ)所与のビズムのマクロパラメータの各々を、中立
位置からの変位を表す強度値に関連付ける操作であっ
て、該強度値は、アニメ化モデルの良好な自然さを保証
すべく初期化段階にて所与の区間内で選択される上記操
作、 (エ)マクロパラメータを、このようなモデルに適用さ
れる変形を表すパラメータに分割する操作であって、該
パラメータは、口の動きに関係する標準顔アニメーショ
ンパラメータ群内で選択される上記操作、 (オ)これらのパラメータを、マクロパラメータの強度
値に依存した強度値に関連付ける操作であって、該強度
値も、アニメ化モデルの自然さを保証するべく設定され
た区間内で選択される上記操作、を行う前記手段(CF
P)、(3)音声情報を発生するための手段の制御下に
おいて、パラメータをモデルに適用するための手段(A
F)であって、言語に独立な前記ビズム群と前記標準顔
アニメーションパラメータ群が、それぞれISO/IE
C規格14496により定義されたビズムと顔アニメー
ションパラメータである上記手段(AF)、を含む上記
装置。 - 【請求項7】 このような変換手段(CFP)が、IS
O/IEC規格14496により符号化されたマルチメ
ディア信号ストリームを復号化するユニットの一部であ
ることを特徴とする請求項6記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT98A000842 | 1998-10-07 | ||
IT1998TO000842A IT1314671B1 (it) | 1998-10-07 | 1998-10-07 | Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio. |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000113216A JP2000113216A (ja) | 2000-04-21 |
JP3215823B2 true JP3215823B2 (ja) | 2001-10-09 |
Family
ID=11417087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28550899A Expired - Fee Related JP3215823B2 (ja) | 1998-10-07 | 1999-10-06 | 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6665643B1 (ja) |
EP (1) | EP0993197B1 (ja) |
JP (1) | JP3215823B2 (ja) |
CA (1) | CA2285158C (ja) |
DE (1) | DE69941942D1 (ja) |
IT (1) | IT1314671B1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6826540B1 (en) * | 1999-12-29 | 2004-11-30 | Virtual Personalities, Inc. | Virtual human interface for conducting surveys |
US7080473B2 (en) * | 2000-05-24 | 2006-07-25 | Virtual Video Uk Ltd. | Novelty animated device with synchronized audio output, and method for achieving synchronized audio output therein |
US6661418B1 (en) | 2001-01-22 | 2003-12-09 | Digital Animations Limited | Character animation system |
US20020120643A1 (en) * | 2001-02-28 | 2002-08-29 | Ibm Corporation | Audio-visual data collection system |
US20020140718A1 (en) * | 2001-03-29 | 2002-10-03 | Philips Electronics North America Corporation | Method of providing sign language animation to a monitor and process therefor |
US7343082B2 (en) * | 2001-09-12 | 2008-03-11 | Ryshco Media Inc. | Universal guide track |
US20030058932A1 (en) * | 2001-09-24 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Viseme based video coding |
US7076430B1 (en) * | 2002-05-16 | 2006-07-11 | At&T Corp. | System and method of providing conversational visual prosody for talking heads |
ITTO20020724A1 (it) * | 2002-08-14 | 2004-02-15 | Telecom Italia Lab Spa | Procedimento e sistema per la trasmissione di messaggi su |
US20050049005A1 (en) * | 2003-08-29 | 2005-03-03 | Ken Young | Mobile telephone with enhanced display visualization |
WO2005031701A2 (de) * | 2003-09-29 | 2005-04-07 | Siemens Aktiengesellschaft | Automatisierte generierung gebärdensprachelemente repräsentierender mehrdimensionaler graphischer darstellungen |
US8965771B2 (en) * | 2003-12-08 | 2015-02-24 | Kurzweil Ainetworks, Inc. | Use of avatar with event processing |
JP2009500679A (ja) * | 2005-07-11 | 2009-01-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コミュニケーション方法及びコミュニケーション装置 |
US7567251B2 (en) * | 2006-01-10 | 2009-07-28 | Sony Corporation | Techniques for creating facial animation using a face mesh |
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
KR101541907B1 (ko) * | 2008-10-14 | 2015-08-03 | 삼성전자 주식회사 | 음성 기반 얼굴 캐릭터 형성 장치 및 방법 |
CN101436312B (zh) * | 2008-12-03 | 2011-04-06 | 腾讯科技(深圳)有限公司 | 一种生成视频动画的方法及装置 |
JP5178607B2 (ja) * | 2009-03-31 | 2013-04-10 | 株式会社バンダイナムコゲームス | プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置 |
BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
US8594993B2 (en) | 2011-04-04 | 2013-11-26 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
US20120276504A1 (en) * | 2011-04-29 | 2012-11-01 | Microsoft Corporation | Talking Teacher Visualization for Language Learning |
TW201301148A (zh) * | 2011-06-21 | 2013-01-01 | Hon Hai Prec Ind Co Ltd | 網頁瀏覽控制系統及方法 |
US8655152B2 (en) | 2012-01-31 | 2014-02-18 | Golden Monkey Entertainment | Method and system of presenting foreign films in a native language |
CN102609969B (zh) * | 2012-02-17 | 2013-08-07 | 上海交通大学 | 基于汉语文本驱动的人脸语音同步动画的处理方法 |
US20150279364A1 (en) * | 2014-03-29 | 2015-10-01 | Ajay Krishnan | Mouth-Phoneme Model for Computerized Lip Reading |
US10839825B2 (en) * | 2017-03-03 | 2020-11-17 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
GB201804807D0 (en) * | 2018-03-26 | 2018-05-09 | Orbital Media And Advertising Ltd | Interaactive systems and methods |
US10699705B2 (en) * | 2018-06-22 | 2020-06-30 | Adobe Inc. | Using machine-learning models to determine movements of a mouth corresponding to live speech |
CN111970540B (zh) * | 2020-08-19 | 2021-05-04 | 王磊 | 基于远程互动和云计算的媒体数据处理方法及大数据平台 |
CN117877509B (zh) * | 2024-03-13 | 2024-06-04 | 亚信科技(中国)有限公司 | 一种数字人实时交互方法及装置、电子设备、存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8528143D0 (en) * | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
US6122616A (en) * | 1993-01-21 | 2000-09-19 | Apple Computer, Inc. | Method and apparatus for diphone aliasing |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
US6330023B1 (en) * | 1994-03-18 | 2001-12-11 | American Telephone And Telegraph Corporation | Video signal processing systems and methods utilizing automated speech analysis |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
MX9504648A (es) * | 1994-11-07 | 1997-02-28 | At & T Corp | Metodo y aparato para el procesamiento de imagenes, asistido por acustica. |
JP4037455B2 (ja) * | 1996-03-26 | 2008-01-23 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 画像合成 |
US5818463A (en) * | 1997-02-13 | 1998-10-06 | Rockwell Science Center, Inc. | Data compression for animated three dimensional objects |
US6208356B1 (en) * | 1997-03-24 | 2001-03-27 | British Telecommunications Public Limited Company | Image synthesis |
US6154222A (en) * | 1997-03-27 | 2000-11-28 | At&T Corp | Method for defining animation parameters for an animation definition interface |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
US6177928B1 (en) * | 1997-08-22 | 2001-01-23 | At&T Corp. | Flexible synchronization framework for multimedia streams having inserted time stamp |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
-
1998
- 1998-10-07 IT IT1998TO000842A patent/IT1314671B1/it active
-
1999
- 1999-09-28 US US09/407,027 patent/US6665643B1/en not_active Expired - Lifetime
- 1999-10-06 CA CA002285158A patent/CA2285158C/en not_active Expired - Fee Related
- 1999-10-06 JP JP28550899A patent/JP3215823B2/ja not_active Expired - Fee Related
- 1999-10-07 DE DE69941942T patent/DE69941942D1/de not_active Expired - Lifetime
- 1999-10-07 EP EP99119180A patent/EP0993197B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
IT1314671B1 (it) | 2002-12-31 |
EP0993197A2 (en) | 2000-04-12 |
DE69941942D1 (de) | 2010-03-11 |
US6665643B1 (en) | 2003-12-16 |
JP2000113216A (ja) | 2000-04-21 |
CA2285158C (en) | 2006-04-11 |
EP0993197B1 (en) | 2010-01-20 |
ITTO980842A1 (it) | 2000-04-07 |
EP0993197A3 (en) | 2002-03-27 |
CA2285158A1 (en) | 2000-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3215823B2 (ja) | 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 | |
CN108492817B (zh) | 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统 | |
JP4344658B2 (ja) | 音声合成機 | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
US20040141093A1 (en) | Post-synchronizing an information stream | |
CN112466313B (zh) | 一种多歌者歌声合成方法及装置 | |
CN112802446B (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
KR101089184B1 (ko) | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 | |
Rojc et al. | The TTS-driven affective embodied conversational agent EVA, based on a novel conversational-behavior generation algorithm | |
Wang et al. | Computer-assisted audiovisual language learning | |
US20150073772A1 (en) | Multilingual speech system and method of character | |
CN114793300A (zh) | 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统 | |
KR100897149B1 (ko) | 텍스트 분석 기반의 입 모양 동기화 장치 및 방법 | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
Bear et al. | Some observations on computer lip-reading: moving from the dream to the reality | |
KR100710600B1 (ko) | 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치 | |
CN113763924B (zh) | 声学深度学习模型训练方法、语音生成方法及设备 | |
JP2003132363A (ja) | アニメーション制作システム | |
JP3368739B2 (ja) | アニメーション制作システム | |
EP0982684A1 (en) | Moving picture generating device and image control network learning device | |
Wolfe et al. | Exploring localization for mouthings in sign language avatars | |
Malage et al. | Low Resource Speech-to-Speech Translation of English videos to Kannada with Lip-Synchronization | |
CN117750060A (zh) | 一种基于多模态ai手语生成系统、方法 | |
CN118864672A (zh) | 一种表情可控的人脸视频风格编辑方法 | |
CN117690409A (zh) | 一种提升语音合成情感表达的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080727 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090727 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100727 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110727 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110727 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120727 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120727 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130727 Year of fee payment: 12 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130727 Year of fee payment: 12 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |