JP3215823B2

JP3215823B2 - 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置

Info

Publication number: JP3215823B2
Application number: JP28550899A
Authority: JP
Inventors: クラウデイオ・ランデ; マウロ・クアグリア
Original assignee: クセルト−セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオーニ・エツセ・ピー・アー
Priority date: 1998-10-07
Filing date: 1999-10-06
Publication date: 2001-10-09
Anticipated expiration: 2019-10-06
Also published as: IT1314671B1; EP0993197A2; DE69941942D1; US6665643B1; JP2000113216A; CA2285158C; EP0993197B1; ITTO980842A1; EP0993197A3; CA2285158A1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声映像又はマル
チメディア通信システムに関し、特に、音声源から引き
出されたパラメータにより駆動される人間の顔の合成モ
デルのアニメーションの方法及び装置に関する。

【０００２】

【従来の技術】現在、マルチメディア応用に関する開発
は、ユーザー−アプリケーションの相互作用を容易にし
改善すべく、合成された自然な音声映像対象をかなり完
成させ、ますます興味あるものとなっている。このよう
な分野では、擬人化モデルを採用してマン−マシン相互
作用を容易にすることが予想される。このような関心
は、国際標準化団体によっても認識されており、ＩＳＯ
／ＩＥＣ規格１４４９６、「音声映像対象の一般符号
化」は、現在その定義段階に入っている。該規格は、一
般に「ＭＰＥＧ−４規格」として知られており、以下こ
の用語により参照する。該規格は、とりわけマルチメデ
ィア応用に対して基準体系を与えることを目的とする。
ＭＰＥＧ−４規格により与えられる特定の解決策に関わ
らず、擬人化モデルは、他の情報ストリームへの補助手
段として考えられ、アニメーションが可能な対象として
見られる。このアニメーションは、例として声のような
音声信号により駆動される。この場合には、合成顔が音
声に関係する典型的な顔つきをするようにモデルのジオ
メトリと外見を音声自身と同期させて変形できるアニメ
ーションシステムを開発する必要がある。必要とされる
のは、できるだけ現実に近い外見を有する話す頭又は顔
である。

【０００３】この種のアニメーションモデルの応用は、
フィルムやＴＶ産業における製作後効果付けのようなプ
ロ仕様の応用やビデオゲームなどだけでなく、ウエルカ
ム・メッセージ又はオンライン・補助メッセージのよう
なインターネット用途から共同作業用途までを範囲とす
る。人間の顔のモデルは、一般に３Ｄメッシュ構造又は
「ワイヤーフレーム」により形成されるジオメトリ表現
を用いて実現される。アニメーションは、多角形（又は
これらの多角形の部分集合）の適当な変形を中断するこ
となく順に適用することに基づく。これらの多角形は、
表示段階中に要求される効果を達成するように、すなわ
ち特定の場合には顎や唇の領域の動きを与えるように、
メッシュ構造を形成する。ＭＰＥＧ−４規格により定め
られた解決策は、このような目的のためにモデルとは独
立に定められた顔アニメーションのパラメータ集合を使
用し、システムの相互作用を保証する。このパラメータ
集合は、２つの層上で編成される。すなわち、上方層
は、音素（すなわち基本音単位）に対応して話者の口の
位置を表す所謂「ビズム(visemes) 」により形成され、
下方層は、異なるビズムに対応して適用される基本変形
を表す。規格は、下方層パラメータが如何にして使用さ
れねばならないかを精密に定義しているが、上方層のパ
ラメータの使用に関しての拘束を設けていない。規格
は、声駆動アニメーションに対して音素とビズム間の可
能な関係を定義する。以下において、関連パラメータ
が、採用されるモデルに適用さる。

【０００４】アニメーションを実現する異なる方法は、
文献から公知である。例として、次の論文が参照でき
る。F.Lavagetto による「音声を唇の動きに変換する：
難聴者のためのマルチメディア電話」（IEEE Transacti
ons on Rehabilitation Engineering 、Vol.3 、No.1、
１９９５年３月）；DIST, University of Genoa 「音声
−顔の動き変換のためのアルゴリズムの説明」（ACTS "
SPLIT" Project、１９９５年１１月）；TUB,Technical
University of Berlin「映像音声の動きの分析と合成」
（ACTS "SPLIT" Project、１９９５年１１月）。最初の
文献は、関連ビズムを同定し且つビズムをモデルに適用
される調音パラメータに変換することにより、音素を用
いてアニメーションを実現する可能性を記載する。該文
献は、別法として、適当に訓練されたニューラルネット
ワークを介してスペクトル情報を調音パラメータに直接
変換することを示唆する。しかしながら、採用された調
音パラメータは、ＭＰＥＧ−４規格により予想される顔
アニメーションのパラメータではなく、よって、示唆さ
れた方法はフレキシブルでない。また、ACTS "SPLIT" P
rojectにて提出された２つの論文は、ＭＰＥＧ−４規格
により予測された顔アニメーションパラメータの使用を
記載していない。さらに、得られたパラメータは、異な
る位置（種々のビズムに対応する）での唇のイメージを
含んだデータベースから１つのイメージを選ぶことのみ
を目的とする。

【０００５】

【発明が解決しようとする課題】本発明により提供され
るアニメーションのための方法及び装置は、ビズムを受
け取ってＭＰＥＧ−４規格に従ったどんな顔モデルにも
適当なジオメトリ変形を行うことができる。さらに、十
分高い品質を保証することにより、ユーザーは正面位置
とは異なる位置にいる合成話者を見ること、正面位置に
近接すべく動かすこと、正面位置から離れるべく動かす
ことなどが可能となる。

【０００６】

【課題を解決するための手段】特に、本発明は、駆動音
声信号が、機械により読み取り可能な音声データに変換
され、これらのデータは、このようなモデルに適用され
る基本変形を表すパラメータに変換され、音声データの
変換は、以下の工程を含む。（１）個別の音声情報項目又は音声情報項目群を、話者
の口の対応位置を表す夫々の情報項目（ビズム）に関連
付ける工程。該ビズムは、駆動音声信号の言語とは独立
したビズムと、このような言語に特有のビズムから成る
集合から選ばれる。（２）各ビズムを、口の形状及び唇と顎の位置を特徴付
けるマクロパラメータ群に分割し、所与のビズムのマク
ロパラメータの各々を、中立位置からの変位を表す強度
値に関連付ける工程。該強度値は、アニメ化されたモデ
ルの良好な自然さを保証すべく初期化段階にて決められ
た区間内で選択される。（３）マクロパラメータを、顔モデルに適用される変形
を表し且つ口の動きに関係する標準顔アニメーションパ
ラメータ群内で選択されたパラメータに分割し、該パラ
メータをマクロパラメータの強度値に依存した強度値に
関連付ける工程。該強度値も、アニメ化されたモデルの
自然さを保証するべく設定された区間内で選択される。

【０００７】本発明は、本方法を実施するための装置に
も関係し、下記（１）〜（３）を含む。（１）機械により読み取り可能な駆動音声信号を表す音
声情報を発生するための手段。（２）音声情報を、このようなモデルに適用される基本
変形を表すパラメータに変換するための手段。該変換手
段は、以下の事項（ア）〜（オ）が可能である。（ア）個別の音声情報項目又は音声情報項目群を、合成
モデルにおいて対応する口の位置を表す夫々の情報項目
（以下「ビズム」という。）に関連付けること。該ビズ
ムは、駆動音声信号の言語とは独立なビズム、及びこの
ような言語に特有のビズムを含んだメモリから読み出さ
れる。（イ）各ビズムを、モデルにおける口の形状と唇と顎の
位置を特徴付けるマクロパラメータ群に分割すること。（ウ）所与のビズムのマクロパラメータの各々を、中立
位置からの変位を表す強度値に関連付けること。該強度
値は、アニメ化されたモデルの良好な自然さを保証する
ように初期段階において所与の区間内で選択される。（エ）マクロパラメータを、このようなモデルに適用さ
れる変形を表すパラメータに分割すること。該パラメー
タは、口の動きに関係する標準顔アニメーションパラメ
ータ群内で選択される。（オ）前記パラメータを、マクロパラメータの強度値に
依存する強度値に関連付けること。該強度値も、アニメ
化されたモデルの自然さを保証するように設定された区
間内で選択される。（３）音声情報の発生手段による制御下においてパラメ
ータをモデルに適用するための手段。

【０００８】P.CosiとE.Magno Caldognetto による論文
「母音と子音における唇と顎の動き：一時空間特性と二
モード認識応用」（NATO-ASI Workshop on Speech Read
ingにて提出、Bonas 、仏国、１９９５年８月２８日〜
９月１０日）、これは、D.G.Stork 、M.E.Henneke によ
り編集された「人間機械による音声読み取り」（NATO-A
SI Series 150 、Berlin、Springer-Verlag 、１９９６
年、第２９１〜３１４頁）に公表されており、この中
で、以下の４つのマクロパラメータによりビズムを特徴
付ける可能性が述べられている。（１）口の幅（以下、ＬＯＷ(Lip Opening Width) とい
う。）（２）唇間の垂直距離（以下、ＬＯＨ(Lip Opening Hei
ght)という。）（３）顎の開口（以下、ＪＹで示す。）（４）唇の突出（以下、ＬＰで示す。）上記論文では、一般にそれらのマクロパラメータの各々
が、強度値に関連付けられているとある。それにも関わ
らず、上記引用文献は、本質的には声と顔の動きの間の
相互作用の研究に関係するものであり、顔のアニメーシ
ョンに結果を応用することは予想していない。できるだ
け自然なアニメ化モデルを実現するためには、強度値の
実際的な知識が本質的な条件となる。

【０００９】

【実施例】本発明をさらに明瞭にすべく、添付図面が参
照される。図１は、ＭＰＥＧ−４復号器に挿入された顔
アニメーションシステムを示す。一般に、ＭＰＥＧ−４
復号器は、デマルチプレクサーＤＭを含む。該デマルチ
プレクサーＤＭは、幾つかの基本ストリームを含んだ複
合ストリームを受け取り、該複合ストリームを個々のス
トリームに分割し、それらを夫々の復号器ＤＥ１，ＤＥ
２，ＤＥ３．．．に与える。上記基本ストリームの各々
は、所与のシーン(scene) の符号化を表すマルチメディ
ア信号成分に関係する。本発明の場合、与えられるシー
ンは、所与のテキストに基づいてアニメ化されなければ
ならない人間の顔の合成イメージを含み、これらの基本
ストリームは、以下の情報の少なくとも幾つかに関係す
る。すなわち、テキスト；アニメーションパラメータ
（ＦＡＰ(Facial Animation Parameters) ）；アニメー
ションが適用される特定の顔モデルを校正するのに使用
されるパラメータ（顔定義パラメータ又はＦＤＰとして
知られる）。

【００１０】アニメーションを行うために、次の２つの
一般的な解決策を用いることができる。（１）第１の解決策は、符号化段階中、音声とアニメー
ション間の同期のために要求される時間情報（時間スタ
ンプ）と共に、音声チャンネルと関連アニメーションパ
ラメータの両方を含む複合ストリームを復号器に伝送す
るように、特定シーンを処理する。従って、アニメーシ
ョンのために要求される全ての情報は、符号化されたス
トリーム内に既に含まれており、復号器は、異なる対象
（すなわち、音声、アニメ化されたイメージ、背景な
ど）を導入することにより、シーンの再構成のみを行
う。（２）第２の解決策は、例えば符号化ストリームに含ま
れたテキストから抽出された音声データ、又はファイル
から抽出された音声データ若しくは音声認識器により与
えられた音声データ等を用いたアニメーションの全体表
現を復号器に任せる。両方の解決策において、モデルに
関する情報（ＦＤＰ）は、適宜符号化ストリーム内に存
在する。

【００１１】第２の解決策は、通信ネットワークにおけ
る使用に関し特に興味深い。というのは、テキスト伝送
に対する帯域幅の要求は、ビデオチャンネルやそれに関
連する音声チャンネルの直接伝送に対する要求よりも十
分に低いからである（数十文字は、テキスト長にも依存
するが、数kbit/sから数Mbit/sの帯域幅に匹敵する）。
従って、本発明はこの種の解決策に関係し、図１は、ア
ニメーションのためのテキストが符号化ストリームに含
まれている場合を示す。例えば復号器ＤＥ１により与え
られる復号化されたテキストは、任意の公知タイプの音
声合成器ＳＹに与えられる。音声合成器ＳＹは、音素
（すなわち、基本音単位）と対応する合成音声の両方を
出力に与えることができる。例として、使用される合成
器が、本出願人の合成システムELOQUENS（商標）である
と仮定する。その特性は、広く文献に記載されている。
この合成器についての更なる詳細は、例えば欧州特許出
願ＥＰ０７０６１７０が参照できる。

【００１２】音素は、ユニットＣＦＰに与えられ、所謂
顔アニメーションパラメータ、すなわち基本顔変形を定
義するパラメータにこれらの音素を変換する。次に、こ
れらのパラメータは、顔アニメーションモジュールＡＦ
に与えられる。該モジュールＡＦは、例えば復号器ＤＥ
３から受け取った顔定義パラメータに関係する情報を考
慮することにより、合成モジュールＳＹの制御下にて必
要な情報をモデルに適用する。合成された音声信号とア
ニメ化されたモデルは、シーン構成モジュールＣＳに送
られる。シーン構成モジュールＣＳは、アニメ化された
モデルと音声との結合、背景の挿入などを行う。モジュ
ールＡＦと復号器ＤＥ２をつなぐ点線は、復号器により
送られたアニメーションパラメータを直接使用する上記
可能性を略示する。

【００１３】自然なアニメーションを得るためには、シ
ーン構成モジュールが、モデルアニメーションと合成音
声間の良好な同期を保証しなければならないことに留意
すべきである。経験と研究により分かっているのは、モ
デルの唇の動きと音声間の時間差が−４０ｍｓ〜＋１２
０ｍｓの範囲にある場合には、ユーザーはずれを感知し
ないこと、及び時間差が−９０ｍｓ〜＋１８０ｍｓの範
囲にある場合、品質は依然として許容し得ることであ
る。この点に関する限り、合成モジュールＳＹは、連続
的には音素を発生せず、入力テキストから読み出された
センテンス又はセンテンスの一部に対応する音素群を供
給するものであることにも留意すべきである。従って、
顔アニメーションモジュールＡＦは、音素が所与の時間
に使用されるトラックを確保しなければならない。この
ことは、合成モジュールＳＹにより与えられる適当な時
間情報を用いて実現される。

【００１４】既に述べたように、音素は、合成ユニット
ＳＹにより与えられる代わりに、音声認識器により与え
られたり、ファイルから読み出されたり、連続ストリー
ムから受け取られる等され得る。しかしながら、音素が
発生される方法は、本発明の一部ではない。本発明は、
変換モジュールＣＦＰにより行われる操作に関するので
ある。明らかに、このような音素が電子処理できる形式
にて表されていることは必須である。例として、ＳＡＭ
ＰＡアルファベット(Speech Assessment Methods Phone
tic Alphabet) に基づいた表現を仮定し得る。ＳＡＭＰ
Ａアルファベットにより、機械読み取り可能なフォーマ
ットにて幾つかの言語の音素を表現することが可能であ
る。実質的には、ＳＡＭＰＡは、国際音声アルファベッ
ト（ＩＰＡ）のシンボルを７ビットのＡＳＣＩＩ文字に
より符号化する。ＳＡＭＰＡについての更なる詳細は、
本発明を理解するのには不要であるが、インターネット
サイトhttp://www.phon.ucl.ac.uk/home/sampa/home.ht
m にて参照できる。

【００１５】処理の一般図が、図２のフローチャートに
示されている。以下の説明では、例としてイタリア語が
参照されているが、上述のように、ＳＡＭＰＡのような
アルファベットは、幾つかの言語の音素を記載するの
で、異なる言語によるものを適応するのは技術者にとっ
て容易である。図２から分かるように、音素の抽出に続
く最初の操作は、それらをビズムに変換することであ
る。既に述べたように、ＭＰＥＧ−４規格は、音素群と
ビズム群間の関連を定義し、特に、多くの欧州言語に共
通の音素群に関連する１４個のビズムを定義する。この
ような規格により定義されたビズムが、第１表に挙げら
れており、この表において、最初の欄は、規格に従った
ビズムインデックスを示し、二番目の欄は、ビズムに関
連する音素を含み、三番目の欄は、このような音素を含
むイタリア語（又は幾つかの音素に対しては英語）の単
語の幾つかの例を与える。

【００１６】

【表５】

【００１７】このビズム群は、補足を要求する言語に対
しては（イタリア語もその一つ）、強調母音に関係する
別群により補足される。特に、イタリア語に対しては、
次のビズムが導入される。

【００１８】

【表６】

【００１９】使用するビズム集合は、ＣＦＰに接続され
且つ対応音素によりアドレス指定される適当なメモリに
記憶される。次の工程は、このようなビズムをマクロパ
ラメータにより特徴付けることである。本発明は、上記
４つのマクロパラメータＬＯＷ，ＬＯＨ，ＪＹ，ＬＰを
利用し、各ビズムに対し、値又は強度を各マクロパラメ
ータに関連付ける。このような強度は、予備動作段階に
おいて概略値から開始して同定されたものである。この
概略値は、発見的な方法にて求められ、且つ、顔モデル
アニメーションの類似性を向上させるべく主観評価に基
づいて徐々に精密化されたものである。特に、強度値の
最適区間は、下記第３表に示されるように、定められて
いる。

【００２０】

【表７】［表中、〜は範囲を示す記号である。］

【００２１】本発明は、P.CosiとE.Magno Caldognetto
による上記引用文献 (4)に記載の方法とは異なる方法に
てマクロパラメータを使用する。というのは、マクロパ
ラメータの値は、絶対的な尺度を表すのではなく、ＭＰ
ＥＧ−４規格において定義された中立位置に対する差を
表すからである（従って、マクロパラメータの強度は、
正及び負の値を取り得る）。換言すれば、この規格は、
顔モデルに対する中立位置を定義し、このような位置に
おいては、マクロパラメータの全ての強度は零である。
ビズムを特徴付けるマクロパラメータの強度は、このよ
うな中立位置に対する差を示し、正又は負の符号は、関
連する要素が中立位置から遠ざかっているか又は近づい
ているかを示す。後に説明するマクロパラメータの値と
顔アニメーションパラメータの値は、所謂「顔アニメー
ションパラメータ単位」（ＦＡＰＵ）(Facial Animatio
n Parameter Units) にて表される。顔アニメーション
パラメータ単位は、規格化された測定単位であり、この
ことは、該規格において記載された個々のパラメータの
特色である。区間内で強度が選べることにより、システ
ムのフレキシビリティが改善される。

【００２２】次に、マクロパラメータは、ＭＰＥＧ−４
の顔アニメーションパラメータ（ＦＡＰ）に分割され
る。マクロパラメータから顔アニメーションパラメータ
への変換は、どのパラメータが所与のマクロパラメータ
とそれぞれの強度とを形成するかを同定することにより
実行される。例えば、マクロパラメータＬＰ（唇の突
出）は、顔アニメーションパラメータ「push＿b ＿lip
」と「push＿t ＿lip 」により作られる。これらのパ
ラメータは、それぞれ下唇及び上唇の突出を定める。定
義により、顔アニメーションパラメータは、ＭＰＥＧ−
４端末により使用される顔モデルとは独立である。従っ
て、このようなシステムにより、ＭＰＥＧ−４に従うど
んな顔モデルのアニメーションも可能となる。第４表
は、前のマクロパラメータをＭＰＥＧ−４のＦＡＰに分
割するのを示す。"x" 変数は、第３表から与えられるパ
ラメータ値を表す。第４表における欄「強度区間」は、
各ＭＰＥＧ−４ＦＡＰの強度が選択され得る値の区間
を示す。値区間の採用は、マクロパラメータの値区間の
使用に関して述べたのと同じ考察による。

【００２３】

【表８】

【００２４】

【表９】

【００２５】

【表１０】

【００２６】

【表１１】

【００２７】これらの表において、顔アニメーションパ
ラメータの名称は、規格において使用されているものと
同じであるので、それらの定義を参照されたい。略字"
l" 、"r" 、"t" 、"b" 、"m" 、"o" は、それぞれ"lef
t"、"right" 、"top" 、"bottom"、"middle"、"outer"
を示す。従って、第３〜７表（これらもＣＦＰの適当な
メモリ領域に記憶されている）を使用し関連強度を各Ｆ
ＡＰに関連付けることにより、ＦＡＰ集合を用いてビズ
ムを再生することが可能である。顔モデルの対応するア
ニメーションを実現するため、前記ＦＡＰが、ＭＰＥＧ
−４規格に従う任意の顔アニメーションシステムに転送
し得る。

【００２８】要するに、変換アルゴリズムは、以下の工
程から成る。１）テキスト・ストリングを取る工程、２）第１表と第２表に示された記法を用いて、又はビズ
ムとの同じ関連性を有する等価記法を用いて、前記テキ
ストを音素に分割する工程、３）ｉ番目の音素を考慮し、第１表と第２表により対応
するｊ番目のビズムを見つけ出す工程、４）第３表においてｊ番目のビズムに関連したマクロパ
ラメータの値を同定する工程、及び５）マクロパラメータの値を第４表に示されたＦＡＰに
適用する工程。工程３〜５は、テキスト・ストリングにおける全ての音
素に対して繰り返される。前記アルゴリズムは、以下に
示すように、疑似コードによっても記載し得る。

【００２９】

【表１２】ここで、変数はイタリック体にて表記した。

【００３０】以下の関数が使用されている。（１）read＿character ＿string()：テキストのストリ
ングを読み出すための一般的な入力／出力関数である。（２）text＿to＿phonemes (text[]) ：文字ストリング
text()を、第１表及び第２表において選択された音素の
対応ストリングに関連付ける。（３）length(V[]) ：パラメータとして送られるベクト
ルv() の長さを戻す。（４）search＿viseme(fon) ：第１表及び第２表におけ
る探索に際し、パラメータとして送られる音素fon に対
応するビズムを戻す。（５）produce ＿FAP(FAPindex,FAPintensity)：インデ
ックスFAPindexと強度FAPintensityを用いてＦＡＰを発
生する。生成されたＦＡＰは、アニメーションサブシス
テムに転送される。該サブシステムは、それらを外に運
ぶ、すなわち、それらを顔モデルに適用する。（６）intensity(FAPindex) ：インデックスFAPindexを
用いてＦＡＰの強度を戻し、第４〜７表のうちの一つか
らそれを読み出す。

【００３１】次の例は、アルゴリズム操作を示す。例え
ば、イタリア語のテキスト・センテンス"Martedi andia
mo a sciare"（火曜日に我々はスキーに行く）を音素に
分割する場合を考える。第１表及び第２表に挙げられた
音素を用い、明確にするために"-" により単語を分離す
ることにより、次の表現が可能となる。すなわち、"mA:
rtedi-A:ndlamQ-A:-Slare"となる。さて、音素の最初の
ストリングである"mA:rtedi"を考える。最初の音素"m"
から開始すると、第１表と第２表を参照して関連付けら
れたビズム、この場合にはビズム１が見出せる。次に、
第３表を使用してこのようなビズムを４つのマクロパラ
メータＬＯＨ，ＪＹ，ＬＰ，ＬＯＷに分割する。ビズム
１に関連する列は、ビズムＬＯＨＪＹＬＯＷＬＰ１ -88〜-64 -12〜-4 14〜30 10〜22 である。次に、４つの区間から値が選択される。例え
ば、中心値−７６，−８，２２，１６である。これらの
パラメータは、第４〜７表を用いることにより、基本的
なＦＡＰに分割される。所与のマクロパラメータに関連
したＦＡＰの強度は、このようなマクロパラメータの強
度により乗算される。簡単のため、ＦＡＰ値の可変性区
間の中心値が考えられた。計算から得られる値は、下記
のように最も近い整数に丸められる。

【００３２】

【表１３】

【００３３】このようにして、ＭＰＥＧ−４規格のどん
な顔モデルにも直接適用できるＦＡＰのベクトルが得ら
れる。次の音素"A:"を考える。第１表と第２表は、関連
するビズムがビズム１０であることを示す。次に、第３
表を用いて、このようなビズムをマクロパラメータＬＯ
Ｈ，ＬＪ，ＬＰ，ＬＯＷに分割する。ビズム１０に関連
する列は、次の通り。ビズムＬＯＨＪＹＬＯＷＬＰ 10 304〜516 274〜464 28〜52 -79〜-43 このようなビズムに対しても、これらの区間内の値、例
えば中心値４１０，３６９，４０，−６１が選択され
る。区間の中心値を用いて基本ＦＡＰに分割し、それら
を最も近い整数に丸めることで、以下の結果が得られ
る。

【００３４】

【表１４】

【００３５】テキスト・センテンスを用いて全てのＦＡ
Ｐを得るためには、ストリングの最後までこのプロセス
を繰り返すことで十分である。これまで記載してきたこ
とは、非制限的な例として与えられていること、及び変
更や修正が本発明の範囲を逸脱することなく導入し得る
ことは明らかである。

【図面の簡単な説明】

【図１】本発明を利用するアニメーションシステムのブ
ロック図である。

【図２】本発明によるアニメーション方法の一般的なフ
ローチャートである。

【符号の説明】

ＤＭデマルチプレクサーＤＥ１，ＤＥ２，ＤＥ３復号器ＳＹ音声合成器ＣＦＰ変換モジュールＡＦ顔アニメーションモジュールＣＳシーン構成モジュール

───────────────────────────────────────────────────── フロントページの続き (72)発明者マウロ・クアグリアイタリー国 10900 モンタレンジエ（トリノ）、ヴイア・モンテヴエツロ 30 (56)参考文献国際公開97／36288（ＷＯ，Ａ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06T 13/00 G06T 15/70 G10L 15/00

Claims

(57)【特許請求の範囲】

【請求項１】人間の顔の合成モデルの音声信号駆動ア
ニメーションの方法であって、駆動信号が、機械により読み取り可能な音声情報に変換
され、この音声情報が、以下の操作シーケンス、すなわ
ち（１）個々の音声情報項目又は音声情報項目群を、モ
デルの口の対応位置を表す夫々の情報項目（以下「ビズ
ム」という。）に関連付ける操作であって、該ビズム
は、駆動音声信号の言語に独立なビズムとこのような言
語に特有のビズムを含んだ集合内で選択される上記操
作、（２）各ビズムを、モデルにおける唇領域と顎の形
状及び／又は位置を特徴付けるマクロパラメータ群に分
割し、且つ、所与のビズムのマクロパラメータの各々
を、中立位置からの変位を表す強度値に関連付ける操作
であって、該強度値は、アニメ化されたモデルの良好な
自然さを保証すべく初期化段階にて決められた所与の区
間内で選択される上記操作、（３）マクロパラメータ
を、モデルに適用される変形を表すパラメータであっ
て、口の動きに関係する標準顔アニメーションパラメー
タ群内で選択された該パラメータに分割し、且つ、これ
らのパラメータをマクロパラメータの強度値に依存した
強度値に関連付ける操作であって、該強度値も、アニメ
化モデルの自然さを保証すべく設定された区間内で選択
され、言語に独立な前記ビズム群と前記標準顔アニメー
ションパラメータ群は、それぞれＩＳＯ−ＩＥＣ規格１
４４９６により定義されたビズムと顔アニメーションパ
ラメータである上記操作、により、このようなモデルに
適用される基本変形を表すパラメータに変換される上記
方法。
【請求項２】前記マクロパラメータが、（１）唇間の垂直距離、ＬＯＨ（２）顎の開口、ＪＹ（３）口の幅、ＬＯＷ（４）唇の突出、ＬＰを表し、標準ビズムのマクロパラ
メータの強度が、次の区間内、すなわち【表１】から選択され、強度値は、ＩＳＯ−ＩＥＣ規格１４４９
６により定義されるような顔アニメーションパラメータ
単位により表される請求項１記載の方法。
【請求項３】言語に特有な前記ビズムは、強調母音に
関係する音声情報に関連付けられれたビズムであり、言
語に特有な特定ビズムのマクロパラメータの強度は、次
の区間内、すなわち【表２】から選択されることを特徴とする請求項２に記載の方
法。
【請求項４】マクロパラメータを分割するために、以
下の顔アニメーションパラメータ（ＦＡＰ）、すなわち【表３】が使用されることを特徴とする請求項２又は３に記載の
方法。
【請求項５】顔アニメーションパラメータが、以下の
強度値、すなわち【表４】［ここでｘは特定ビズムのマクロパラメータ強度値であ
る］に関連付けられることを特徴とする請求項２、３又
は４に記載の方法。
【請求項６】人間の顔の合成モデルの音声信号駆動ア
ニメーションの装置であって、（１）機械により読み取
り可能な駆動音声信号を表す音声情報を発生するための
手段（ＳＹ）、（２）音声情報を、前記モデルに適用さ
れる基本変形を表すパラメータに変換するための手段
（ＣＦＰ）であって、（ア）個々の音声情報項目又は音声情報項目群を、合成
モデルにおける対応する口の位置を表す夫々の情報項目
（以下「ビズム」という。）に関連付ける操作であっ
て、該ビズムは、駆動音声信号の言語に独立なビズムと
このような言語に特有なビズムとを含んだメモリから読
み出される上記操作、（イ）各ビズムを、モデルにおける口の形状及び唇と顎
の位置を特徴付けるマクロパラメータ群に分割する操
作、（ウ）所与のビズムのマクロパラメータの各々を、中立
位置からの変位を表す強度値に関連付ける操作であっ
て、該強度値は、アニメ化モデルの良好な自然さを保証
すべく初期化段階にて所与の区間内で選択される上記操
作、（エ）マクロパラメータを、このようなモデルに適用さ
れる変形を表すパラメータに分割する操作であって、該
パラメータは、口の動きに関係する標準顔アニメーショ
ンパラメータ群内で選択される上記操作、（オ）これらのパラメータを、マクロパラメータの強度
値に依存した強度値に関連付ける操作であって、該強度
値も、アニメ化モデルの自然さを保証するべく設定され
た区間内で選択される上記操作、を行う前記手段（ＣＦ
Ｐ）、（３）音声情報を発生するための手段の制御下に
おいて、パラメータをモデルに適用するための手段（Ａ
Ｆ）であって、言語に独立な前記ビズム群と前記標準顔
アニメーションパラメータ群が、それぞれＩＳＯ／ＩＥ
Ｃ規格１４４９６により定義されたビズムと顔アニメー
ションパラメータである上記手段（ＡＦ）、を含む上記
装置。
【請求項７】このような変換手段（ＣＦＰ）が、ＩＳ
Ｏ／ＩＥＣ規格１４４９６により符号化されたマルチメ
ディア信号ストリームを復号化するユニットの一部であ
ることを特徴とする請求項６記載の装置。