Nothing Special   »   [go: up one dir, main page]

JP3215823B2 - 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 - Google Patents

人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置

Info

Publication number
JP3215823B2
JP3215823B2 JP28550899A JP28550899A JP3215823B2 JP 3215823 B2 JP3215823 B2 JP 3215823B2 JP 28550899 A JP28550899 A JP 28550899A JP 28550899 A JP28550899 A JP 28550899A JP 3215823 B2 JP3215823 B2 JP 3215823B2
Authority
JP
Japan
Prior art keywords
parameters
bism
model
macro
animation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28550899A
Other languages
English (en)
Other versions
JP2000113216A (ja
Inventor
クラウデイオ・ランデ
マウロ・クアグリア
Original Assignee
クセルト−セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオーニ・エツセ・ピー・アー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クセルト−セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオーニ・エツセ・ピー・アー filed Critical クセルト−セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオーニ・エツセ・ピー・アー
Publication of JP2000113216A publication Critical patent/JP2000113216A/ja
Application granted granted Critical
Publication of JP3215823B2 publication Critical patent/JP3215823B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声映像又はマル
チメディア通信システムに関し、特に、音声源から引き
出されたパラメータにより駆動される人間の顔の合成モ
デルのアニメーションの方法及び装置に関する。
【0002】
【従来の技術】現在、マルチメディア応用に関する開発
は、ユーザー−アプリケーションの相互作用を容易にし
改善すべく、合成された自然な音声映像対象をかなり完
成させ、ますます興味あるものとなっている。このよう
な分野では、擬人化モデルを採用してマン−マシン相互
作用を容易にすることが予想される。このような関心
は、国際標準化団体によっても認識されており、ISO
/IEC規格14496、「音声映像対象の一般符号
化」は、現在その定義段階に入っている。該規格は、一
般に「MPEG−4規格」として知られており、以下こ
の用語により参照する。該規格は、とりわけマルチメデ
ィア応用に対して基準体系を与えることを目的とする。
MPEG−4規格により与えられる特定の解決策に関わ
らず、擬人化モデルは、他の情報ストリームへの補助手
段として考えられ、アニメーションが可能な対象として
見られる。このアニメーションは、例として声のような
音声信号により駆動される。この場合には、合成顔が音
声に関係する典型的な顔つきをするようにモデルのジオ
メトリと外見を音声自身と同期させて変形できるアニメ
ーションシステムを開発する必要がある。必要とされる
のは、できるだけ現実に近い外見を有する話す頭又は顔
である。
【0003】この種のアニメーションモデルの応用は、
フィルムやTV産業における製作後効果付けのようなプ
ロ仕様の応用やビデオゲームなどだけでなく、ウエルカ
ム・メッセージ又はオンライン・補助メッセージのよう
なインターネット用途から共同作業用途までを範囲とす
る。人間の顔のモデルは、一般に3Dメッシュ構造又は
「ワイヤーフレーム」により形成されるジオメトリ表現
を用いて実現される。アニメーションは、多角形(又は
これらの多角形の部分集合)の適当な変形を中断するこ
となく順に適用することに基づく。これらの多角形は、
表示段階中に要求される効果を達成するように、すなわ
ち特定の場合には顎や唇の領域の動きを与えるように、
メッシュ構造を形成する。MPEG−4規格により定め
られた解決策は、このような目的のためにモデルとは独
立に定められた顔アニメーションのパラメータ集合を使
用し、システムの相互作用を保証する。このパラメータ
集合は、2つの層上で編成される。すなわち、上方層
は、音素(すなわち基本音単位)に対応して話者の口の
位置を表す所謂「ビズム(visemes) 」により形成され、
下方層は、異なるビズムに対応して適用される基本変形
を表す。規格は、下方層パラメータが如何にして使用さ
れねばならないかを精密に定義しているが、上方層のパ
ラメータの使用に関しての拘束を設けていない。規格
は、声駆動アニメーションに対して音素とビズム間の可
能な関係を定義する。以下において、関連パラメータ
が、採用されるモデルに適用さる。
【0004】アニメーションを実現する異なる方法は、
文献から公知である。例として、次の論文が参照でき
る。F.Lavagetto による「音声を唇の動きに変換する:
難聴者のためのマルチメディア電話」(IEEE Transacti
ons on Rehabilitation Engineering 、Vol.3 、No.1、
1995年3月);DIST, University of Genoa 「音声
−顔の動き変換のためのアルゴリズムの説明」(ACTS "
SPLIT" Project、1995年11月);TUB,Technical
University of Berlin「映像音声の動きの分析と合成」
(ACTS "SPLIT" Project、1995年11月)。最初の
文献は、関連ビズムを同定し且つビズムをモデルに適用
される調音パラメータに変換することにより、音素を用
いてアニメーションを実現する可能性を記載する。該文
献は、別法として、適当に訓練されたニューラルネット
ワークを介してスペクトル情報を調音パラメータに直接
変換することを示唆する。しかしながら、採用された調
音パラメータは、MPEG−4規格により予想される顔
アニメーションのパラメータではなく、よって、示唆さ
れた方法はフレキシブルでない。また、ACTS "SPLIT" P
rojectにて提出された2つの論文は、MPEG−4規格
により予測された顔アニメーションパラメータの使用を
記載していない。さらに、得られたパラメータは、異な
る位置(種々のビズムに対応する)での唇のイメージを
含んだデータベースから1つのイメージを選ぶことのみ
を目的とする。
【0005】
【発明が解決しようとする課題】本発明により提供され
るアニメーションのための方法及び装置は、ビズムを受
け取ってMPEG−4規格に従ったどんな顔モデルにも
適当なジオメトリ変形を行うことができる。さらに、十
分高い品質を保証することにより、ユーザーは正面位置
とは異なる位置にいる合成話者を見ること、正面位置に
近接すべく動かすこと、正面位置から離れるべく動かす
ことなどが可能となる。
【0006】
【課題を解決するための手段】特に、本発明は、駆動音
声信号が、機械により読み取り可能な音声データに変換
され、これらのデータは、このようなモデルに適用され
る基本変形を表すパラメータに変換され、音声データの
変換は、以下の工程を含む。 (1)個別の音声情報項目又は音声情報項目群を、話者
の口の対応位置を表す夫々の情報項目(ビズム)に関連
付ける工程。該ビズムは、駆動音声信号の言語とは独立
したビズムと、このような言語に特有のビズムから成る
集合から選ばれる。 (2)各ビズムを、口の形状及び唇と顎の位置を特徴付
けるマクロパラメータ群に分割し、所与のビズムのマク
ロパラメータの各々を、中立位置からの変位を表す強度
値に関連付ける工程。該強度値は、アニメ化されたモデ
ルの良好な自然さを保証すべく初期化段階にて決められ
た区間内で選択される。 (3)マクロパラメータを、顔モデルに適用される変形
を表し且つ口の動きに関係する標準顔アニメーションパ
ラメータ群内で選択されたパラメータに分割し、該パラ
メータをマクロパラメータの強度値に依存した強度値に
関連付ける工程。該強度値も、アニメ化されたモデルの
自然さを保証するべく設定された区間内で選択される。
【0007】本発明は、本方法を実施するための装置に
も関係し、下記(1)〜(3)を含む。 (1)機械により読み取り可能な駆動音声信号を表す音
声情報を発生するための手段。 (2)音声情報を、このようなモデルに適用される基本
変形を表すパラメータに変換するための手段。該変換手
段は、以下の事項(ア)〜(オ)が可能である。 (ア)個別の音声情報項目又は音声情報項目群を、合成
モデルにおいて対応する口の位置を表す夫々の情報項目
(以下「ビズム」という。)に関連付けること。該ビズ
ムは、駆動音声信号の言語とは独立なビズム、及びこの
ような言語に特有のビズムを含んだメモリから読み出さ
れる。 (イ)各ビズムを、モデルにおける口の形状と唇と顎の
位置を特徴付けるマクロパラメータ群に分割すること。 (ウ)所与のビズムのマクロパラメータの各々を、中立
位置からの変位を表す強度値に関連付けること。該強度
値は、アニメ化されたモデルの良好な自然さを保証する
ように初期段階において所与の区間内で選択される。 (エ)マクロパラメータを、このようなモデルに適用さ
れる変形を表すパラメータに分割すること。該パラメー
タは、口の動きに関係する標準顔アニメーションパラメ
ータ群内で選択される。 (オ)前記パラメータを、マクロパラメータの強度値に
依存する強度値に関連付けること。該強度値も、アニメ
化されたモデルの自然さを保証するように設定された区
間内で選択される。 (3)音声情報の発生手段による制御下においてパラメ
ータをモデルに適用するための手段。
【0008】P.CosiとE.Magno Caldognetto による論文
「母音と子音における唇と顎の動き:一時空間特性と二
モード認識応用」(NATO-ASI Workshop on Speech Read
ingにて提出、Bonas 、仏国、1995年8月28日〜
9月10日)、これは、D.G.Stork 、M.E.Henneke によ
り編集された「人間機械による音声読み取り」(NATO-A
SI Series 150 、Berlin、Springer-Verlag 、1996
年、第291〜314頁)に公表されており、この中
で、以下の4つのマクロパラメータによりビズムを特徴
付ける可能性が述べられている。 (1)口の幅(以下、LOW(Lip Opening Width) とい
う。) (2)唇間の垂直距離(以下、LOH(Lip Opening Hei
ght)という。) (3)顎の開口(以下、JYで示す。) (4)唇の突出(以下、LPで示す。) 上記論文では、一般にそれらのマクロパラメータの各々
が、強度値に関連付けられているとある。それにも関わ
らず、上記引用文献は、本質的には声と顔の動きの間の
相互作用の研究に関係するものであり、顔のアニメーシ
ョンに結果を応用することは予想していない。できるだ
け自然なアニメ化モデルを実現するためには、強度値の
実際的な知識が本質的な条件となる。
【0009】
【実施例】本発明をさらに明瞭にすべく、添付図面が参
照される。図1は、MPEG−4復号器に挿入された顔
アニメーションシステムを示す。一般に、MPEG−4
復号器は、デマルチプレクサーDMを含む。該デマルチ
プレクサーDMは、幾つかの基本ストリームを含んだ複
合ストリームを受け取り、該複合ストリームを個々のス
トリームに分割し、それらを夫々の復号器DE1,DE
2,DE3...に与える。上記基本ストリームの各々
は、所与のシーン(scene) の符号化を表すマルチメディ
ア信号成分に関係する。本発明の場合、与えられるシー
ンは、所与のテキストに基づいてアニメ化されなければ
ならない人間の顔の合成イメージを含み、これらの基本
ストリームは、以下の情報の少なくとも幾つかに関係す
る。すなわち、テキスト;アニメーションパラメータ
(FAP(Facial Animation Parameters) );アニメー
ションが適用される特定の顔モデルを校正するのに使用
されるパラメータ(顔定義パラメータ又はFDPとして
知られる)。
【0010】アニメーションを行うために、次の2つの
一般的な解決策を用いることができる。 (1)第1の解決策は、符号化段階中、音声とアニメー
ション間の同期のために要求される時間情報(時間スタ
ンプ)と共に、音声チャンネルと関連アニメーションパ
ラメータの両方を含む複合ストリームを復号器に伝送す
るように、特定シーンを処理する。従って、アニメーシ
ョンのために要求される全ての情報は、符号化されたス
トリーム内に既に含まれており、復号器は、異なる対象
(すなわち、音声、アニメ化されたイメージ、背景な
ど)を導入することにより、シーンの再構成のみを行
う。 (2)第2の解決策は、例えば符号化ストリームに含ま
れたテキストから抽出された音声データ、又はファイル
から抽出された音声データ若しくは音声認識器により与
えられた音声データ等を用いたアニメーションの全体表
現を復号器に任せる。両方の解決策において、モデルに
関する情報(FDP)は、適宜符号化ストリーム内に存
在する。
【0011】第2の解決策は、通信ネットワークにおけ
る使用に関し特に興味深い。というのは、テキスト伝送
に対する帯域幅の要求は、ビデオチャンネルやそれに関
連する音声チャンネルの直接伝送に対する要求よりも十
分に低いからである(数十文字は、テキスト長にも依存
するが、数kbit/sから数Mbit/sの帯域幅に匹敵する)。
従って、本発明はこの種の解決策に関係し、図1は、ア
ニメーションのためのテキストが符号化ストリームに含
まれている場合を示す。例えば復号器DE1により与え
られる復号化されたテキストは、任意の公知タイプの音
声合成器SYに与えられる。音声合成器SYは、音素
(すなわち、基本音単位)と対応する合成音声の両方を
出力に与えることができる。例として、使用される合成
器が、本出願人の合成システムELOQUENS(商標)である
と仮定する。その特性は、広く文献に記載されている。
この合成器についての更なる詳細は、例えば欧州特許出
願EP0706170が参照できる。
【0012】音素は、ユニットCFPに与えられ、所謂
顔アニメーションパラメータ、すなわち基本顔変形を定
義するパラメータにこれらの音素を変換する。次に、こ
れらのパラメータは、顔アニメーションモジュールAF
に与えられる。該モジュールAFは、例えば復号器DE
3から受け取った顔定義パラメータに関係する情報を考
慮することにより、合成モジュールSYの制御下にて必
要な情報をモデルに適用する。合成された音声信号とア
ニメ化されたモデルは、シーン構成モジュールCSに送
られる。シーン構成モジュールCSは、アニメ化された
モデルと音声との結合、背景の挿入などを行う。モジュ
ールAFと復号器DE2をつなぐ点線は、復号器により
送られたアニメーションパラメータを直接使用する上記
可能性を略示する。
【0013】自然なアニメーションを得るためには、シ
ーン構成モジュールが、モデルアニメーションと合成音
声間の良好な同期を保証しなければならないことに留意
すべきである。経験と研究により分かっているのは、モ
デルの唇の動きと音声間の時間差が−40ms〜+12
0msの範囲にある場合には、ユーザーはずれを感知し
ないこと、及び時間差が−90ms〜+180msの範
囲にある場合、品質は依然として許容し得ることであ
る。この点に関する限り、合成モジュールSYは、連続
的には音素を発生せず、入力テキストから読み出された
センテンス又はセンテンスの一部に対応する音素群を供
給するものであることにも留意すべきである。従って、
顔アニメーションモジュールAFは、音素が所与の時間
に使用されるトラックを確保しなければならない。この
ことは、合成モジュールSYにより与えられる適当な時
間情報を用いて実現される。
【0014】既に述べたように、音素は、合成ユニット
SYにより与えられる代わりに、音声認識器により与え
られたり、ファイルから読み出されたり、連続ストリー
ムから受け取られる等され得る。しかしながら、音素が
発生される方法は、本発明の一部ではない。本発明は、
変換モジュールCFPにより行われる操作に関するので
ある。明らかに、このような音素が電子処理できる形式
にて表されていることは必須である。例として、SAM
PAアルファベット(Speech Assessment Methods Phone
tic Alphabet) に基づいた表現を仮定し得る。SAMP
Aアルファベットにより、機械読み取り可能なフォーマ
ットにて幾つかの言語の音素を表現することが可能であ
る。実質的には、SAMPAは、国際音声アルファベッ
ト(IPA)のシンボルを7ビットのASCII文字に
より符号化する。SAMPAについての更なる詳細は、
本発明を理解するのには不要であるが、インターネット
サイトhttp://www.phon.ucl.ac.uk/home/sampa/home.ht
m にて参照できる。
【0015】処理の一般図が、図2のフローチャートに
示されている。以下の説明では、例としてイタリア語が
参照されているが、上述のように、SAMPAのような
アルファベットは、幾つかの言語の音素を記載するの
で、異なる言語によるものを適応するのは技術者にとっ
て容易である。図2から分かるように、音素の抽出に続
く最初の操作は、それらをビズムに変換することであ
る。既に述べたように、MPEG−4規格は、音素群と
ビズム群間の関連を定義し、特に、多くの欧州言語に共
通の音素群に関連する14個のビズムを定義する。この
ような規格により定義されたビズムが、第1表に挙げら
れており、この表において、最初の欄は、規格に従った
ビズムインデックスを示し、二番目の欄は、ビズムに関
連する音素を含み、三番目の欄は、このような音素を含
むイタリア語(又は幾つかの音素に対しては英語)の単
語の幾つかの例を与える。
【0016】
【表5】
【0017】このビズム群は、補足を要求する言語に対
しては(イタリア語もその一つ)、強調母音に関係する
別群により補足される。特に、イタリア語に対しては、
次のビズムが導入される。
【0018】
【表6】
【0019】使用するビズム集合は、CFPに接続され
且つ対応音素によりアドレス指定される適当なメモリに
記憶される。次の工程は、このようなビズムをマクロパ
ラメータにより特徴付けることである。本発明は、上記
4つのマクロパラメータLOW,LOH,JY,LPを
利用し、各ビズムに対し、値又は強度を各マクロパラメ
ータに関連付ける。このような強度は、予備動作段階に
おいて概略値から開始して同定されたものである。この
概略値は、発見的な方法にて求められ、且つ、顔モデル
アニメーションの類似性を向上させるべく主観評価に基
づいて徐々に精密化されたものである。特に、強度値の
最適区間は、下記第3表に示されるように、定められて
いる。
【0020】
【表7】 [表中、〜は範囲を示す記号である。]
【0021】本発明は、P.CosiとE.Magno Caldognetto
による上記引用文献 (4)に記載の方法とは異なる方法に
てマクロパラメータを使用する。というのは、マクロパ
ラメータの値は、絶対的な尺度を表すのではなく、MP
EG−4規格において定義された中立位置に対する差を
表すからである(従って、マクロパラメータの強度は、
正及び負の値を取り得る)。換言すれば、この規格は、
顔モデルに対する中立位置を定義し、このような位置に
おいては、マクロパラメータの全ての強度は零である。
ビズムを特徴付けるマクロパラメータの強度は、このよ
うな中立位置に対する差を示し、正又は負の符号は、関
連する要素が中立位置から遠ざかっているか又は近づい
ているかを示す。後に説明するマクロパラメータの値と
顔アニメーションパラメータの値は、所謂「顔アニメー
ションパラメータ単位」(FAPU)(Facial Animatio
n Parameter Units) にて表される。顔アニメーション
パラメータ単位は、規格化された測定単位であり、この
ことは、該規格において記載された個々のパラメータの
特色である。区間内で強度が選べることにより、システ
ムのフレキシビリティが改善される。
【0022】次に、マクロパラメータは、MPEG−4
の顔アニメーションパラメータ(FAP)に分割され
る。マクロパラメータから顔アニメーションパラメータ
への変換は、どのパラメータが所与のマクロパラメータ
とそれぞれの強度とを形成するかを同定することにより
実行される。例えば、マクロパラメータLP(唇の突
出)は、顔アニメーションパラメータ「push_b _lip
」と「push_t _lip 」により作られる。これらのパ
ラメータは、それぞれ下唇及び上唇の突出を定める。定
義により、顔アニメーションパラメータは、MPEG−
4端末により使用される顔モデルとは独立である。従っ
て、このようなシステムにより、MPEG−4に従うど
んな顔モデルのアニメーションも可能となる。第4表
は、前のマクロパラメータをMPEG−4のFAPに分
割するのを示す。"x" 変数は、第3表から与えられるパ
ラメータ値を表す。第4表における欄「強度区間」は、
各MPEG−4 FAPの強度が選択され得る値の区間
を示す。値区間の採用は、マクロパラメータの値区間の
使用に関して述べたのと同じ考察による。
【0023】
【表8】
【0024】
【表9】
【0025】
【表10】
【0026】
【表11】
【0027】これらの表において、顔アニメーションパ
ラメータの名称は、規格において使用されているものと
同じであるので、それらの定義を参照されたい。略字"
l" 、"r" 、"t" 、"b" 、"m" 、"o" は、それぞれ"lef
t"、"right" 、"top" 、"bottom"、"middle"、"outer"
を示す。従って、第3〜7表(これらもCFPの適当な
メモリ領域に記憶されている)を使用し関連強度を各F
APに関連付けることにより、FAP集合を用いてビズ
ムを再生することが可能である。顔モデルの対応するア
ニメーションを実現するため、前記FAPが、MPEG
−4規格に従う任意の顔アニメーションシステムに転送
し得る。
【0028】要するに、変換アルゴリズムは、以下の工
程から成る。 1)テキスト・ストリングを取る工程、 2)第1表と第2表に示された記法を用いて、又はビズ
ムとの同じ関連性を有する等価記法を用いて、前記テキ
ストを音素に分割する工程、 3)i番目の音素を考慮し、第1表と第2表により対応
するj番目のビズムを見つけ出す工程、 4)第3表においてj番目のビズムに関連したマクロパ
ラメータの値を同定する工程、及び 5)マクロパラメータの値を第4表に示されたFAPに
適用する工程。 工程3〜5は、テキスト・ストリングにおける全ての音
素に対して繰り返される。前記アルゴリズムは、以下に
示すように、疑似コードによっても記載し得る。
【0029】
【表12】 ここで、変数はイタリック体にて表記した。
【0030】以下の関数が使用されている。 (1)read_character _string():テキストのストリ
ングを読み出すための一般的な入力/出力関数である。 (2)text_to_phonemes (text[]) :文字ストリング
text()を、第1表及び第2表において選択された音素の
対応ストリングに関連付ける。 (3)length(V[]) :パラメータとして送られるベクト
ルv() の長さを戻す。 (4)search_viseme(fon) :第1表及び第2表におけ
る探索に際し、パラメータとして送られる音素fon に対
応するビズムを戻す。 (5)produce _FAP(FAPindex,FAPintensity):インデ
ックスFAPindexと強度FAPintensityを用いてFAPを発
生する。生成されたFAPは、アニメーションサブシス
テムに転送される。該サブシステムは、それらを外に運
ぶ、すなわち、それらを顔モデルに適用する。 (6)intensity(FAPindex) :インデックスFAPindexを
用いてFAPの強度を戻し、第4〜7表のうちの一つか
らそれを読み出す。
【0031】次の例は、アルゴリズム操作を示す。例え
ば、イタリア語のテキスト・センテンス"Martedi andia
mo a sciare"(火曜日に我々はスキーに行く)を音素に
分割する場合を考える。第1表及び第2表に挙げられた
音素を用い、明確にするために"-" により単語を分離す
ることにより、次の表現が可能となる。すなわち、"mA:
rtedi-A:ndlamQ-A:-Slare"となる。さて、音素の最初の
ストリングである"mA:rtedi"を考える。最初の音素"m"
から開始すると、第1表と第2表を参照して関連付けら
れたビズム、この場合にはビズム1が見出せる。次に、
第3表を使用してこのようなビズムを4つのマクロパラ
メータLOH,JY,LP,LOWに分割する。ビズム
1に関連する列は、 ビズム LOH JY LOW LP 1 -88〜-64 -12〜-4 14〜30 10〜22 である。次に、4つの区間から値が選択される。例え
ば、中心値−76,−8,22,16である。これらの
パラメータは、第4〜7表を用いることにより、基本的
なFAPに分割される。所与のマクロパラメータに関連
したFAPの強度は、このようなマクロパラメータの強
度により乗算される。簡単のため、FAP値の可変性区
間の中心値が考えられた。計算から得られる値は、下記
のように最も近い整数に丸められる。
【0032】
【表13】
【0033】このようにして、MPEG−4規格のどん
な顔モデルにも直接適用できるFAPのベクトルが得ら
れる。次の音素"A:"を考える。第1表と第2表は、関連
するビズムがビズム10であることを示す。次に、第3
表を用いて、このようなビズムをマクロパラメータLO
H,LJ,LP,LOWに分割する。ビズム10に関連
する列は、次の通り。 ビズム LOH JY LOW LP 10 304〜516 274〜464 28〜52 -79〜-43 このようなビズムに対しても、これらの区間内の値、例
えば中心値410,369,40,−61が選択され
る。区間の中心値を用いて基本FAPに分割し、それら
を最も近い整数に丸めることで、以下の結果が得られ
る。
【0034】
【表14】
【0035】テキスト・センテンスを用いて全てのFA
Pを得るためには、ストリングの最後までこのプロセス
を繰り返すことで十分である。これまで記載してきたこ
とは、非制限的な例として与えられていること、及び変
更や修正が本発明の範囲を逸脱することなく導入し得る
ことは明らかである。
【図面の簡単な説明】
【図1】本発明を利用するアニメーションシステムのブ
ロック図である。
【図2】本発明によるアニメーション方法の一般的なフ
ローチャートである。
【符号の説明】
DM デマルチプレクサー DE1,DE2,DE3 復号器 SY 音声合成器 CFP 変換モジュール AF 顔アニメーションモジュール CS シーン構成モジュール
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マウロ・クアグリア イタリー国 10900 モンタレンジエ (トリノ)、ヴイア・モンテヴエツロ 30 (56)参考文献 国際公開97/36288(WO,A2) (58)調査した分野(Int.Cl.7,DB名) G06T 13/00 G06T 15/70 G10L 15/00

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 人間の顔の合成モデルの音声信号駆動ア
    ニメーションの方法であって、 駆動信号が、機械により読み取り可能な音声情報に変換
    され、この音声情報が、以下の操作シーケンス、すなわ
    ち(1)個々の音声情報項目又は音声情報項目群を、モ
    デルの口の対応位置を表す夫々の情報項目(以下「ビズ
    ム」という。)に関連付ける操作であって、該ビズム
    は、駆動音声信号の言語に独立なビズムとこのような言
    語に特有のビズムを含んだ集合内で選択される上記操
    作、(2)各ビズムを、モデルにおける唇領域と顎の形
    状及び/又は位置を特徴付けるマクロパラメータ群に分
    割し、且つ、所与のビズムのマクロパラメータの各々
    を、中立位置からの変位を表す強度値に関連付ける操作
    であって、該強度値は、アニメ化されたモデルの良好な
    自然さを保証すべく初期化段階にて決められた所与の区
    間内で選択される上記操作、(3)マクロパラメータ
    を、モデルに適用される変形を表すパラメータであっ
    て、口の動きに関係する標準顔アニメーションパラメー
    タ群内で選択された該パラメータに分割し、且つ、これ
    らのパラメータをマクロパラメータの強度値に依存した
    強度値に関連付ける操作であって、該強度値も、アニメ
    化モデルの自然さを保証すべく設定された区間内で選択
    され、言語に独立な前記ビズム群と前記標準顔アニメー
    ションパラメータ群は、それぞれISO−IEC規格1
    4496により定義されたビズムと顔アニメーションパ
    ラメータである上記操作、により、このようなモデルに
    適用される基本変形を表すパラメータに変換される上記
    方法。
  2. 【請求項2】 前記マクロパラメータが、 (1)唇間の垂直距離、LOH (2)顎の開口、JY (3)口の幅、LOW (4)唇の突出、LPを表し、標準ビズムのマクロパラ
    メータの強度が、次の区間内、すなわち 【表1】 から選択され、強度値は、ISO−IEC規格1449
    6により定義されるような顔アニメーションパラメータ
    単位により表される請求項1記載の方法。
  3. 【請求項3】 言語に特有な前記ビズムは、強調母音に
    関係する音声情報に関連付けられれたビズムであり、言
    語に特有な特定ビズムのマクロパラメータの強度は、次
    の区間内、すなわち 【表2】 から選択されることを特徴とする請求項2に記載の方
    法。
  4. 【請求項4】 マクロパラメータを分割するために、以
    下の顔アニメーションパラメータ(FAP)、すなわち 【表3】 が使用されることを特徴とする請求項2又は3に記載の
    方法。
  5. 【請求項5】 顔アニメーションパラメータが、以下の
    強度値、すなわち 【表4】 [ここでxは特定ビズムのマクロパラメータ強度値であ
    る]に関連付けられることを特徴とする請求項2、3又
    は4に記載の方法。
  6. 【請求項6】 人間の顔の合成モデルの音声信号駆動ア
    ニメーションの装置であって、(1)機械により読み取
    り可能な駆動音声信号を表す音声情報を発生するための
    手段(SY)、(2)音声情報を、前記モデルに適用さ
    れる基本変形を表すパラメータに変換するための手段
    (CFP)であって、 (ア)個々の音声情報項目又は音声情報項目群を、合成
    モデルにおける対応する口の位置を表す夫々の情報項目
    (以下「ビズム」という。)に関連付ける操作であっ
    て、該ビズムは、駆動音声信号の言語に独立なビズムと
    このような言語に特有なビズムとを含んだメモリから読
    み出される上記操作、 (イ)各ビズムを、モデルにおける口の形状及び唇と顎
    の位置を特徴付けるマクロパラメータ群に分割する操
    作、 (ウ)所与のビズムのマクロパラメータの各々を、中立
    位置からの変位を表す強度値に関連付ける操作であっ
    て、該強度値は、アニメ化モデルの良好な自然さを保証
    すべく初期化段階にて所与の区間内で選択される上記操
    作、 (エ)マクロパラメータを、このようなモデルに適用さ
    れる変形を表すパラメータに分割する操作であって、該
    パラメータは、口の動きに関係する標準顔アニメーショ
    ンパラメータ群内で選択される上記操作、 (オ)これらのパラメータを、マクロパラメータの強度
    値に依存した強度値に関連付ける操作であって、該強度
    値も、アニメ化モデルの自然さを保証するべく設定され
    た区間内で選択される上記操作、を行う前記手段(CF
    P)、(3)音声情報を発生するための手段の制御下に
    おいて、パラメータをモデルに適用するための手段(A
    F)であって、言語に独立な前記ビズム群と前記標準顔
    アニメーションパラメータ群が、それぞれISO/IE
    C規格14496により定義されたビズムと顔アニメー
    ションパラメータである上記手段(AF)、を含む上記
    装置。
  7. 【請求項7】 このような変換手段(CFP)が、IS
    O/IEC規格14496により符号化されたマルチメ
    ディア信号ストリームを復号化するユニットの一部であ
    ることを特徴とする請求項6記載の装置。
JP28550899A 1998-10-07 1999-10-06 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 Expired - Fee Related JP3215823B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IT98A000842 1998-10-07
IT1998TO000842A IT1314671B1 (it) 1998-10-07 1998-10-07 Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio.

Publications (2)

Publication Number Publication Date
JP2000113216A JP2000113216A (ja) 2000-04-21
JP3215823B2 true JP3215823B2 (ja) 2001-10-09

Family

ID=11417087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28550899A Expired - Fee Related JP3215823B2 (ja) 1998-10-07 1999-10-06 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置

Country Status (6)

Country Link
US (1) US6665643B1 (ja)
EP (1) EP0993197B1 (ja)
JP (1) JP3215823B2 (ja)
CA (1) CA2285158C (ja)
DE (1) DE69941942D1 (ja)
IT (1) IT1314671B1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826540B1 (en) * 1999-12-29 2004-11-30 Virtual Personalities, Inc. Virtual human interface for conducting surveys
US7080473B2 (en) * 2000-05-24 2006-07-25 Virtual Video Uk Ltd. Novelty animated device with synchronized audio output, and method for achieving synchronized audio output therein
US6661418B1 (en) 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US20020120643A1 (en) * 2001-02-28 2002-08-29 Ibm Corporation Audio-visual data collection system
US20020140718A1 (en) * 2001-03-29 2002-10-03 Philips Electronics North America Corporation Method of providing sign language animation to a monitor and process therefor
US7343082B2 (en) * 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
US20030058932A1 (en) * 2001-09-24 2003-03-27 Koninklijke Philips Electronics N.V. Viseme based video coding
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
ITTO20020724A1 (it) * 2002-08-14 2004-02-15 Telecom Italia Lab Spa Procedimento e sistema per la trasmissione di messaggi su
US20050049005A1 (en) * 2003-08-29 2005-03-03 Ken Young Mobile telephone with enhanced display visualization
WO2005031701A2 (de) * 2003-09-29 2005-04-07 Siemens Aktiengesellschaft Automatisierte generierung gebärdensprachelemente repräsentierender mehrdimensionaler graphischer darstellungen
US8965771B2 (en) * 2003-12-08 2015-02-24 Kurzweil Ainetworks, Inc. Use of avatar with event processing
JP2009500679A (ja) * 2005-07-11 2009-01-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コミュニケーション方法及びコミュニケーション装置
US7567251B2 (en) * 2006-01-10 2009-07-28 Sony Corporation Techniques for creating facial animation using a face mesh
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
KR101541907B1 (ko) * 2008-10-14 2015-08-03 삼성전자 주식회사 음성 기반 얼굴 캐릭터 형성 장치 및 방법
CN101436312B (zh) * 2008-12-03 2011-04-06 腾讯科技(深圳)有限公司 一种生成视频动画的方法及装置
JP5178607B2 (ja) * 2009-03-31 2013-04-10 株式会社バンダイナムコゲームス プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
US8594993B2 (en) 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US20120276504A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Talking Teacher Visualization for Language Learning
TW201301148A (zh) * 2011-06-21 2013-01-01 Hon Hai Prec Ind Co Ltd 網頁瀏覽控制系統及方法
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
US10910001B2 (en) * 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
GB201804807D0 (en) * 2018-03-26 2018-05-09 Orbital Media And Advertising Ltd Interaactive systems and methods
US10699705B2 (en) * 2018-06-22 2020-06-30 Adobe Inc. Using machine-learning models to determine movements of a mouth corresponding to live speech
CN111970540B (zh) * 2020-08-19 2021-05-04 王磊 基于远程互动和云计算的媒体数据处理方法及大数据平台
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US6122616A (en) * 1993-01-21 2000-09-19 Apple Computer, Inc. Method and apparatus for diphone aliasing
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
MX9504648A (es) * 1994-11-07 1997-02-28 At & T Corp Metodo y aparato para el procesamiento de imagenes, asistido por acustica.
JP4037455B2 (ja) * 1996-03-26 2008-01-23 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 画像合成
US5818463A (en) * 1997-02-13 1998-10-06 Rockwell Science Center, Inc. Data compression for animated three dimensional objects
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
US6154222A (en) * 1997-03-27 2000-11-28 At&T Corp Method for defining animation parameters for an animation definition interface
US5995119A (en) * 1997-06-06 1999-11-30 At&T Corp. Method for generating photo-realistic animated characters
US6177928B1 (en) * 1997-08-22 2001-01-23 At&T Corp. Flexible synchronization framework for multimedia streams having inserted time stamp
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus

Also Published As

Publication number Publication date
IT1314671B1 (it) 2002-12-31
EP0993197A2 (en) 2000-04-12
DE69941942D1 (de) 2010-03-11
US6665643B1 (en) 2003-12-16
JP2000113216A (ja) 2000-04-21
CA2285158C (en) 2006-04-11
EP0993197B1 (en) 2010-01-20
ITTO980842A1 (it) 2000-04-07
EP0993197A3 (en) 2002-03-27
CA2285158A1 (en) 2000-04-07

Similar Documents

Publication Publication Date Title
JP3215823B2 (ja) 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置
CN108492817B (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
JP4344658B2 (ja) 音声合成機
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
US20040141093A1 (en) Post-synchronizing an information stream
CN112466313B (zh) 一种多歌者歌声合成方法及装置
CN112802446B (zh) 音频合成方法及装置、电子设备和计算机可读存储介质
KR101089184B1 (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
Rojc et al. The TTS-driven affective embodied conversational agent EVA, based on a novel conversational-behavior generation algorithm
Wang et al. Computer-assisted audiovisual language learning
US20150073772A1 (en) Multilingual speech system and method of character
CN114793300A (zh) 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统
KR100897149B1 (ko) 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
Karpov et al. Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech
Bear et al. Some observations on computer lip-reading: moving from the dream to the reality
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
CN113763924B (zh) 声学深度学习模型训练方法、语音生成方法及设备
JP2003132363A (ja) アニメーション制作システム
JP3368739B2 (ja) アニメーション制作システム
EP0982684A1 (en) Moving picture generating device and image control network learning device
Wolfe et al. Exploring localization for mouthings in sign language avatars
Malage et al. Low Resource Speech-to-Speech Translation of English videos to Kannada with Lip-Synchronization
CN117750060A (zh) 一种基于多模态ai手语生成系统、方法
CN118864672A (zh) 一种表情可控的人脸视频风格编辑方法
CN117690409A (zh) 一种提升语音合成情感表达的方法及系统

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080727

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090727

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100727

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110727

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110727

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130727

Year of fee payment: 12

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130727

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees