Nothing Special   »   [go: up one dir, main page]

JP7312853B2 - 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム - Google Patents

人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム Download PDF

Info

Publication number
JP7312853B2
JP7312853B2 JP2021565810A JP2021565810A JP7312853B2 JP 7312853 B2 JP7312853 B2 JP 7312853B2 JP 2021565810 A JP2021565810 A JP 2021565810A JP 2021565810 A JP2021565810 A JP 2021565810A JP 7312853 B2 JP7312853 B2 JP 7312853B2
Authority
JP
Japan
Prior art keywords
speech
frame
processed
facial expression
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021565810A
Other languages
English (en)
Other versions
JP2022537011A (ja
Inventor
カン,シイン
トゥオ,デイ
レイ,クオンチ
フゥ,ティエンシアオ
ホアン,ホォイルゥォン
スゥ,ダン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2022537011A publication Critical patent/JP2022537011A/ja
Application granted granted Critical
Publication of JP7312853B2 publication Critical patent/JP7312853B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本出願は、2019年8月29日に中国専利局へ提出された、出願番号を201910820742.1、発明の名称を「人工知能に基づく音声駆動アニメーション方法及び装置」とする中国特許出願に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。
本開示は、データ処理分野に関し、特に人工知能に基づく音声駆動型アニメーションに関する。
現在、音声から仮想的な顔動画を生成する技術が、工業界応用分野において研究ヒットになりつつある。例えば、任意の話者による音声断片を対象とし、アニメーションキャラクターを駆使して当該音声断片に適応した唇形状を作り出させるように設計することができる。このシナリオにおいて、アニメーションキャラクターの存在により現実感が大幅に向上し、表現力が高まり、より高品質のインタラクティブな体験をユーザに提供することが可能となる。
1つの方法は、Speech2Faceシステムによって前記技術を実現することである。一般的には、ある話者の音声に対して、当該システムは音声から音響的特徴、例えばメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient,MFCC)を抽出後、マッピングモデルによって、音響的特徴に基づいて調整可能なアニメーションキャラクターの表情パラメータを特定し、当該表情パラメータごとに、当該音声断片に対応する唇形状を作り出すように当該アニメーションキャラクターを制御することができる。
しかしながら、抽出された音響的特徴には、話者自体に関する情報が含まれているから、これを元に構築されたマッピングモデルは、特定の話者の音声から、対応する表情パラメータを正確に特定できるが、話者が変わると、マッピングモデルによって特定される表情パラメータに大きな偏差が発生し、これを元に駆動されるアニメーションキャラクターの唇形状は音声と一致しなくなるから、インタラクティブな体験が低下してしまう。
前記技術的課題を解決すべく、本出願は、任意の話者に対応する被処理音声でも効果的にサポートでき、インタラクティブな体験が向上され得る、人工知能に基づく音声駆動アニメーション方法及び装置を提供する。
本出願の実施形態は、以下のような技術案を開示する。
第一側面では、本出願の実施形態は、オーディオ・ビデオ処理デバイスによって実行される音声駆動アニメーション方法を提供する。前記方法は、
複数の音声フレームを含む被処理音声を取得するステップと、
前記被処理音声の音声フレームに対応する言語的情報を特定するステップであって、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示すステップと、
前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定するステップと、
前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動するステップとを含む。
第二側面では、本出願の実施形態は、オーディオ・ビデオ処理デバイスに搭載されており、取得ユニットと、第1の特定ユニットと、第2の特定ユニットと、駆動ユニットとを備える音声駆動アニメーション装置を提供する。
前記取得ユニットは、複数の音声フレームを含む被処理音声を取得する;
前記第1の特定ユニットは、前記被処理音声の音声フレームに対応する言語的情報を特定し、前記言語的情報は前記被処理音声の音声フレームが属する音素の分布可能性を示す;
前記第2の特定ユニットは、前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する;
前記駆動ユニットは、前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する。
第三側面では、本出願の実施形態は、プロセッサ及びメモリを備えるアニメーションを音声駆動するためのデバイスを提供する。
前記メモリは、プログラムコードを記憶すると共に、前記プログラムコードをプロセッサに伝送するものである;
前記プロセッサは、前記プログラムコードにおける命令に従って、第一側面に記載された方法を実行するものである。
第四側面では、本出願の実施形態は、第一側面に記載された方法を実行するためのプログラムコードを記憶したコンピュータ可読記憶媒体を提供する。
前記技術案により明らかなように、複数の音声フレームを含む被処理音声が取得されると、被処理音声の音声フレームに対応する言語的情報が特定され得る。各々の言語的情報は、対応する音声フレームが属する音素の分布可能性を示し、即ち音声フレームに含まれるコンテンツがある音素に該当する確率分布を反映する。当該言語的情報に付される情報は、被処理音声を出している実際の話者とは無関係であることから、これ以降の表情パラメータの特定に対する異なる話者の発音習慣による影響を相殺することができる。また言語的情報ごとに特定された表情パラメータに基づいて、被処理音声に対応する表情、例えば唇形状を作り出すようにアニメーションキャラクターを正確に駆動できるので、任意の話者に対応する被処理音声を効果的にサポートし、インタラクティブな体験を向上させることができる。
本出願の実施形態または先行技術の技術案をより明瞭に説明するために、以下で、実施形態または先行技術を記述するのに必要な添付図面について簡単に紹介する。明らかなように、下記に示す図面は、本開示の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることもできる。
関連技術に採用されたSpeech2Faceシステムである。 本出願の実施形態による音声駆動アニメーション方法の適用シナリオを示す概略図である。 本出願の実施形態による音声駆動アニメーション方法の流れを示すフローチャートである。 本出願の実施形態によるSpeech2Faceのシステムアーキテクチャを示す概略図である。 本出願の実施形態によるASRモデルの訓練過程を示す概略図である。 本出願の実施形態によるDNNモデルに基づく表情パラメータの特定を示す概略図である。 本出願の実施形態による隣接コンテキスト音声フレームの概略図である。 本出願の実施形態による間隔コンテキスト音声フレームの概略図である。 本出願の実施形態によるLSTMモデルに基づく表情パラメータの特定を示す概略図である。 本出願の実施形態によるBLSTMモデルに基づく表情パラメータの特定を示す概略図である。 本出願の実施形態による音声駆動アニメーション装置のブロック図である。 本出願の実施形態による端末デバイスのブロック図である。 本出願の実施形態によるサーバーのブロック図である。
以下で、図面を参照しながら、本出願の実施形態について説明する。
関連技術に採用されたSpeech2Faceシステムは図1に示されている。話者の音声に対して、当該システムは音声に対して音響的特徴を抽出してMFCCを取得する。その後、マッピングモデルを介して音響的特徴に基づいて表情パラメータを特定する。設定された、表情パラメータを調整することで表情(唇形状など)を調整できるアニメーションキャラクターについて、特定された表情パラメータを用いてアニメーションキャラクターを調整し、この音声に対応するアニメーションキャラクターを作り出す。
ところが、関連技術から抽出された音響的特徴は、話者に関っているため、話者が変わると、マッピングモデルによって特定される表情パラメータに大きな偏差が発生し、これを元に駆動されるアニメーションキャラクターの唇形状は音声と一致しなくなるから、インタラクティブな体験が低下してしまう。
そこで、本出願の実施形態では、複数の音声フレームを含む被処理音声が取得されると、被処理音声における音声フレームに対応する言語的情報が特定され得る人工知能に基づく音声駆動アニメーション(voice-driven animation,「音声によってアニメーションを駆動する」こと)方法が提案されている。関連技術から抽出された音響的特徴、例えばMFCCと比べて、言語的情報に付される情報は、被処理音声を出している実際の話者とは無関係であることから、これ以降の表情パラメータの特定に対する異なる話者の発音習慣による影響が避けられるようになる。したがって、任意の話者に対応する被処理音声に対しても、言語的情報に基づいて表情パラメータを特定できるため、被処理音声に対応する表情を作り出すようにアニメーションキャラクターを正確に駆動できる。
なお、本開示の実施形態による音声駆動アニメーション方法は、人工知能を利活用して実現される。人工知能(Artificial Intelligence,AI)は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。
人工知能技術は、幅広い分野をカバーする包括的な学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む。人工知能の基本的な技術には、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング/インタラクティブシステム、メカトロニクスなどの技術が含まれている。人工知能のソフトウェア技術には、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習など幾つかの大方向が含まれている。
本出願の実施形態では、主に、前記音声処理技術および機械学習などの人工知能ソフトウェア技術に関わる。
例えば、それは、音声技術(Speech Technology)の中の音声認識技術に関わり、音声信号前処理(Speech signal preprocessing)、音声信号周波数分析(Speech signal frequency analyzing)、音声信号特徴抽出(Speech signal feature extraction)、音声信号特徴マッチング/認識(Speech signal feature matching/recognition)、音声訓練(Speech training)などが含まれる。
例えば、機械学習(Machine Learning,ML)に関わる。機械学習は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑理論など様々な分野に跨る学科であり、人間の学習行動をシミュレートまたは実現する方法に特化し、新しい知識やスキルを学習し、既存の知識構造を再編成して自身のパフォーマンスを改善し続けることを目指している。機械学習は人工知能の中の要素技術であり、コンピュータをインテリジェントにするための根本的な手法ともいえ、人工知能の各分野に幅広く適用されている。機械学習は通常、深層学習(Deep Learning)などの技術を含む。深層学習には、畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)、再帰型ニューラルネットワーク(Recurrent Neural Network,RNN)、ディープニューラルネットワーク(Deep neural network,DNN)などの人工ニューラルネットワーク(artificial neural network)が含まれている。
本出願の実施形態による人工知能に基づく音声駆動アニメーション方法は、アニメーションを駆動する能力を有するオーディオ・ビデオ処理デバイスに適用され得る。当該オーディオ・ビデオデバイスは端末デバイスまたはサーバーであり得る。
当該オーディオ・ビデオデバイスは、音定技術の自動音声認識技術(ASR)及び声紋認識を実施する機能を具備する。オーディオ・ビデオデバイスが聞く、見る、感じることを可能にすることは、ヒューマンコンピュータインタラクションの今後の開発方向とされ、中でも、音声は、将来に最も期待されるヒューマンコンピュータインタラクションの実施方式の一つとして位置付けられている。
本出願の実施形態では、オーディオ・ビデオ処理デバイスは、上記の音声技術を実施することによって、取得済みの被処理音声を認識し、被処理音声の音声フレームに対応する言語的情報などを特定することができる。機械学習技術によりニューラルネットワークマッピングモデルを訓練し、訓練して得られたニューラルネットワークマッピングモデルによって、言語的情報に基づいて表情パラメータを特定し、被処理音声に対応する表情を作り出すようにアニメーションキャラクターを駆動する。
ここで、オーディオ・ビデオ処理デバイスが端末デバイスである場合、この端末デバイスは、スマート端末、コンピュータ、パーソナルデジタルアシスタント(Personal Digital Assistant,PDAと略称する)、タブレットコンピュータなどであり得る。
また、オーディオ・ビデオ処理デバイスがサーバーである場合、このサーバーは独立サーバーまたはクラスターサーバーであり得る。サーバーは当該音声駆動アニメーション方法を実施する場合、表情パラメータを特定し、被処理音声に対応する表情を作り出すように、この表情パラメータを利用して端末デバイス上に表示されるアニメーション画像を駆動する。
なお、本出願の実施形態による音声駆動アニメーション方法は、ニュース放送や天気予報、ゲーム解説など人間が行っている業務を置き換える各種適用シナリオに利用されるか、さらに心理医師や仮想アシスタントなど個人向けの1対1サービスなどプライベートサービスの提供にも利用され得る。これらのシナリオでは、表情を作り出すように本出願の実施形態による方法を利用してアニメーションを駆動することによって、現実感が大幅に向上され、表現力が高められるようになる。
本出願の技術案を容易に理解するために、以下で実際の適用シナリオと結び付けて本出願の実施形態による音声駆動アニメーション方法について説明する。
図2を参照すると、図2は本出願の実施形態による音声駆動アニメーション方法の適用シナリオを示す概略図である。この適用シナリオでは、オーディオ・ビデオ処理デバイスを端末デバイスとする例を取り上げて説明する。この適用シナリオには、複数の音声フレームを含む被処理音声を取得できる端末デバイス201が備えられる。被処理音声は、任意の話者に対応する音声、例えば、話者が出している音声であり得る。本実施形態は、被処理音声のタイプを限定せず、被処理音声は、話者が話している音声、または話者が歌っている歌声であってもよい。また、本実施形態は、被処理音声の言語種類をも限定せず、例えば被処理音声は、中国語、英語などでも構わない。
被処理音声は、端末装置201を介して話者が入力した音声だけではなく、場合によっては、本出願の実施形態による方法の対象となる被処理音声は、テキストから生成された音声でもあり得ることが理解されるべきであろう。つまり、テキストが端末装置201を介して入力され、インテリジェントスピーチプラットフォームによって、話者の発声特徴に適応した音声に変換し、この音声を被処理音声として扱う。
音素は、音声の自然な特性ごとに分割された最小の音声単位であるため、音節の発音アクションに基づいて分析され、1つのアクション(唇形状など)が1つの音素を構成する。つまり、音素は話者とは何の関係もなく、話者が誰であるか、被処理音声が英語か中国語か、音素に対応するテキストが同じであるかどうかにも係わらず、被処理音声における音声フレームに対応する音素が同じであれば、対応する表情、例えば唇形状が一致することになる。音素の特性に基づいて、本実施形態では、端末デバイス201は被処理音声の音声フレームに対応する言語的情報を特定し、言語的情報は、対応する音声フレームが属する音素の分布可能性を示し、即ち音声フレームに含まれるコンテンツがある音素に該当する確率分布を反映し、これにより音声フレームに含まれるコンテンツが属する音素を特定することができる。
このように、上記の関連内容に係る関連技術に言及された音響的特徴と比べて、言語的情報に付される情報は、被処理音声を出している実際の話者とは無関係であり、話者が誰であるか、音声フレームに含まれるコンテンツに対応するテキストが何であるかにも係らず、音声フレームに含まれるコンテンツが属する音素(言語的情報)は特定され得る。例えば、音声フレームに含まれるコンテンツが属する音素は「a」であると特定された場合、音素「a」に対応する話者が異なり、対応するテキストも異なったとしても、発声音素が「a」であると判断されれば、音素「a」に対応する表情、例えば唇形状が一致するものである。そのため、端末デバイス201は言語的情報に基づいて表情パラメータを精度よく特定し、これで被処理音声に対応する表情を作り出すようにアニメーションキャラクターを正確に駆動することができるので、表情パラメータの特定に対する異なる話者の発音習慣による影響が避けられ、インタラクティブな体感が向上され得る。
続いて、図面を参照しながら本出願の実施形態による音声駆動アニメーション方法について詳しく説明する。
図3を参照すると、音声駆動アニメーション方法の流れを示すフローチャートである。前記方法は、以下のステップを含む。
ステップS301:被処理音声を取得する。
端末デバイスがオーディオ・ビデオ処理デバイスである例を取り上げて説明する。話者が被処理音声をマイクロフォンを介して端末デバイスに入力し、被処理音声に基づいて被処理音声に対応する表情をアニメーションキャラクターに作り出させることが意図される場合、端末デバイスは当該被処理音声を受信する。本出願の実施形態では、話者や被処理音声のタイプ、言語種類などは限定されない。当該方法は、任意の話者に対応する音声をサポートでき、即ち任意の話者に対応する音声を処理対象とすることができる。また当該方法は多言語にも対応可能であり、即ち被処理音声の言語種類は中国語、英語、フランス語など多言語でも構わない。さらに当該方法は歌声音声をもサポートでき、即ち被処理音声は、話者が歌っている音声でも構わない。
ステップS302:前記被処理音声の音声フレームに対応する言語的情報を特定する。
端末デバイスは、被処理音声の言語的情報を抽出して、被処理音声の音声フレームに対応する言語的情報を特定することができる。ここで、言語的情報は、話者とは無関係な情報であり、前記被処理音声の音声フレームが属する音素の分布可能性を示すために使用される。本実施形態では、言語的情報は、音素事後確率(Phonetic Posterior grams,PPG)、ボトルネック(bottomneck)特徴および埋め込み(imbedding)特徴のいずれか1つまたは複数の組み合わせを含み得る。これ以降の実施形態では、主に言語的情報がPPGとされる場合について説明する。
なお、本出願の実施形態では、アニメーションの音声駆動を実現する際に用いられるシステムもSpeech2Faceシステムであるが、本出願の実施形態で用いられるSpeech2Faceシステムは、前述の関連技術に係るSpeech2Faceシステムとは異なり、本出願の実施形態によるSpeech2Faceシステムのアーキテクチャは、図4に示されている。当該Speech2Faceシステムは、主に4つの部分で構成されている。第1の部分は、訓練によって自動音声認識(Automatic Speech Recognition,ASR)モデルを得、PPG抽出に使用することである。第2の部分は、訓練済みのASRモデルによって、被処理音声のPPGを特定することである(例えばS302)。第3の部分は、音響パラメータから表情パラメータへのマッピングであり、即ち音素事後確率PPGに基づいて、被処理音声の音声フレームに対応する表情パラメータを特定することである(例えばS303)。図4は、ニューラルネットワークマッピングモデルによって、PPGに基づいて被処理音声の音声フレームに対応する表情パラメータを特定する例を示している。第4の部分は、表情パラメータに基づいて、設計済みの3Dアニメーションキャラクターを駆動して、被処理音声に対応する表情を作り出すことである(例えばS304)。
本実施形態に言及されている音素としては、多言語の言語的情報抽出を達成するために、中国語音素、英語音素など多言語を含む218音素が存在している。言語的情報はPPGである場合、得られたPPGは218次元のベクトルになる。
一の実現方式では、端末デバイスは、ASRモデルによって言語的情報の抽出を実現できる。このような状況下で、言語的情報がPPGであることを例に説明すると、PPGの抽出を可能にするために、ASRモデル(即ち前記第1部分)を事前に訓練しなければならない。ASRモデルは、音声セグメントと音素の対応付け関係を含む訓練用サンプルを訓練することによって得られる。実際の訓練中に、ASRモデルは、Kaldiから提供されるASRインタフェース経由で、訓練用サンプルを含むASRデータセットが提供された状況下で訓練される。Kaldiはオープンソースの音声認識ツールキットであり、ディープビリーフネットワーク-ディープニューラルネットワーク(Deep Belief Network-Deep neural network,DBN-DNN)に基づくネットワーク構造を使用して、抽出されたMFCCに基づいて音声フレームが各音素に属する確率、即ちPPGを予測し、これで、出力された音素を分類化する。ASRモデルの訓練過程は、図5の点線に示されている。前記ASRモデルが訓練によって構築された後、被処理音声が前記ASRモデルに入力されると、被処理音声の音声フレームに対応するPPGが出力され、これで後続の表情パラメータの特定が可能になる。ここで、ASRモデルは実際にDNNモデルであり得る。
ASRモデルの訓練方式を踏まえて、ASRモデルによって言語的情報を特定する方法としては、被処理音声の音声フレームに対応する音響的特徴を特定し、その後、当該音響的特徴に対応する言語的情報を特定する方法が挙げられる。ここで、当該音響的特徴は前記関連内容に言及された関連技術に係る音響的特徴、例えばMFCCでもよい。
なお、ASRモデルを訓練するためのASRデータセットを作成する際に、ノイズの多い音声セグメントの状況が考慮されるため、ノイズに対する適応性が高いので、MFCCなど関連技術に用いられた音響的特徴と比べて、ASRモデルによって抽出された言語的情報は、堅牢性がより一層補強される。
ステップS303:前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する。
表情パラメータは、アニメーションキャラクターを駆動して、被処理音声に対応する表情を作り出すために使用され、即ち特定された表情パラメータに基づいて、事前に作成されたアニメーションキャラクターの表情パラメータを調整し、アニメーションキャラクターに被処理音声に一致する表情を作り出して出力させる。
通常、アニメーションキャラクターの表情は、顔の表情と体勢の表情を含み得る。顔表情には、例えば唇形状、五官の動き及び頭の姿勢などが含まれ、体勢の表情には、体の動き、ジェスチャー及び歩行姿勢などが含まれる。
一の実現方式では、例えば図4の点線枠に示されているように、S303は、言語的情報に基づいて、ニューラルネットワークによって被処理音声の音声フレームに対応する表情パラメータを特定するように実現され得る。ここで、ニューラルネットワークマッピングモデルは、DNNモデル、長短期記憶ネットワーク(Long Short-Term Memory,LSTM)モデル、または双方向長短期記憶ネットワーク(Bidirectional Long Short-term Memory,BLSTM)モデルを含み得る。
ニューラルネットワークマッピングモデルは事前に訓練によって得られたものである。ニューラルネットワークマッピングモデルは、言語的情報から表情パラメータへのマッピングを実現する。つまり、言語的情報が入力されると、被処理音声の音声フレームに対応する表情パラメータが出力されるようになる。
言語的情報は表情の中の唇形状との相関性が更に高いことから、言語的情報から唇形状への特定がより精確になる。また、唇形状以外の他の表情は、被処理音声に対応する感情との相関性が更に高いことから、表情パラメータをより精確に特定し、表情パラメータでアニメーションキャラクターを駆動してより豊かな表情を反映させ、例えばアニメーションキャラクターに唇を動かすと同時に大笑いしたり、瞬きをしたりさせることを可能にするために、S303の一の実現可能な方式は図5に示されているように(図5では、言語的情報がPPGであることを例にする)、訓練済みのASRモデルによって音声フレームのPPGを取得後、PPG(即ち言語的情報)を予め表記された感情ベクトルと結び合わせて最終的な特徴とし、これでPPGと被処理音声に対応する感情ベクトルとを統合して、被処理音声の音声フレームに対応する表情パラメータを特定する。
それらの中で、感情に関して、本実施形態では、喜び、悲しみ、怒り及び正常な状態を含む4種類の一般的な感情が用いられている。感情ベクトルは感情を表現するものであり、1-of-Kのコーディング手法を採用し、即ち長さを4とし、4つの次元上においてそれぞれに1をとり、他の次元を0としたとき、4種類の感情を表すための4つのベクトルを得る。音声フレームのPPGが決定されると、218次元のベクトルが得られ、被処理音声の4次元感情ベクトルと結び合わせると、後でニューラルネットワークマッピングモデルの入力とする222次元の特徴ベクトルが得られる。
なお、本実施形態に使用されるニューラルネットワークに基づくニューラルネットワークマッピングモデルはまた、Tacotron decoderよって置き換えられる。ここで、Tacotron decoderは、エンドツーエンドの音声合成に利用される注意モデルである。
ステップS304:前記表情パラメータに基づいて、アニメーションキャラクターを駆動して前記被処理音声に対応する表情を反映させる。
アニメーションキャラクター自体に対して、アニメーションキャラクターは3D画像または2D画像であり得るが、本実施形態では限定されない。例えば、作成されたアニメーションキャラクターは、図2のアニメーションキャラクターに示される通りであり、当該アニメーションキャラクターを利用して新年の挨拶を行うとき、仮に被処理音声が「明けましておめでとうございます!お金持ちになり良いことがたくさんありますように」と想定された場合、当該被処理音声に基づいて表情パラメータを特定し、当該アニメーションキャラクターを駆動して「明けましておめでとうございます!お金持ちになり良いことがたくさんありますように」と発音する表情(唇形状)を作り出すことができる。もちろん、唇形状以外の他の表情も作れる。
前記技術案により明らかなように、複数の音声フレームを含む被処理音声が取得されると、被処理音声の音声フレームに対応する言語的情報が特定され得る。各々の言語的情報は、対応する音声フレームが属する音素の分布可能性を示し、即ち音声フレームに含まれるコンテンツがある音素に該当する確率分布を反映する。当該言語的情報に付される情報は、被処理音声を出している実際の話者とは無関係であることから、これ以降の表情パラメータの特定に対する異なる話者の発音習慣による影響を相殺することができる。また言語的情報ごとに特定された表情パラメータに基づいて、被処理音声に対応する表情、例えば唇形状を作り出すようにアニメーションキャラクターを正確に駆動できるので、任意の話者に対応する被処理音声を効果的にサポートし、インタラクティブな体験を向上させることができる。
一の実現方式では、被処理音声には複数の音声フレームが含まれている。次に、被処理音声の中の1つの音声フレームを対象音声フレームとする例を取り上げて、対象音声フレームに対して、S303において、対象音声フレームに対応する表情パラメータをどのように特定するかについて詳細に説明する。
音声の同時調音現象により、対象音声フレームに対応する唇形状などの表情はそのコンテキスト音声フレームと短時間で関連付けられるようになるので、対象音声フレームに対応する表情パラメータを正確に特定するために、表情パラメータの特定に際しては、コンテキスト音声フレームと結合して、即ち対象音声フレームが属する音声フレームセットを先に特定し、当該音声フレームセットには、対象音声フレームと音声フレームのコンテキスト音声フレームが含まれているから、音声フレームセットにおける音声フレームのそれぞれに対応する言語的情報に基づいて、対象音声フレームに対応する表情パラメータを特定することができる。
ニューラルネットワークマッピングモデルを使用して表情パラメータを特定する場合は、使用するニューラルネットワークマッピングモデルによって、音声フレームセットを特定する方法及び音声フレームセット内の音声フレーム数が異なっていくことは理解されるべきであろう。ニューラルネットワークマッピングモデルがDNNモデル、つまりフォワードリンクに基づく分類器である場合、図6に示すように、DNNモデルの入力要件は固定長であるので、可変長シーケンスの入力によるシーケンス予測の代わりに、1フレームごとに入力して予測することが考慮される。対象音声フレームの表情パラメータをコンテキスト音声フレームの情報と組み合わせて特定する必要があるので、コンテキスト音声フレームを導入する目的を達成するために、入力時には、1フレームではなく、入力された被処理音声を中心にウィンドウ付加処理を施し、ウィンドウ内の音声フレームを短時間シーケンスとして同時に入力する。このとき、ウィンドウ内の音声フレームは、対象音声フレームと複数の音声フレームを含み、音声フレームセットを構成する。このように、所定のウィンドウ長さを選定することにより、自然にDNNモデルの入力要件を満足できることが明らかである。
この場合に、音声フレームセット内の音声フレーム数はウィンドウ長さによって決定される。また、ウィンドウ長はニューラルネットワークマッピングモデルの入力要件を反映する。即ち、音声フレームセット内の音声フレーム数は、ニューラルネットワークマッピングモデルによって特定される。
図6を例に説明すると、PPGが218次元のベクトルで表され、ウィンドウ長さが7とした場合、DNNモデルへの入力は、対象音声フレームを含む7つの音声フレーム(ウィンドウ長さが限られたPPG入力)となり、即ち音声フレームセット内の音声フレーム数は7フレームであり、それぞれの音声フレームは1つのPPG(合計218次元)に対応している。そこで、7フレームの場合は、218×7次元のベクトルに対応する。図6における各丸形状は、1次元パラメータを表す。7つの音声フレームのそれぞれに対応するPPGが入力されると、対象音声フレームに対応する表情パラメータが出力され得る。
DNNモデルは、モデリングが簡単で訓練時間が短く、かつストリーミング作業をサポートでき、つまりシーケンス全体を一度に入力する必要がなく1フレームごとに入力すればよいという利点がある。
なお、ニューラルネットワークマッピングモデルがDNNモデルである場合、本実施形態は、種々の方法で音声フレームセット内の複数の音声フレームを選択できる。それらの中で、一の実現可能な方式は、対象音声フレームの隣接コンテキスト音声フレームを対象音声フレームのコンテキスト音声フレームとして使用することである。例えば、対象音声フレームを中心に同じ数の隣接先行音声フレームと隣接後続音声フレームを選定する。図7に示すように、ウィンドウ長さを7、対象音声フレームをXtとした場合(Xtはt番目の音声フレーム)、Xtの隣接コンテキスト音声フレームは、Xt-3、Xt-2、Xt-1、Xt+1、Xt+2、及びXt+3を含むことになる。
別の実現可能な方式は、対象音声フレームの間隔コンテキスト音声フレームを、対象音声フレームのコンテキスト音声フレームとして使用することである。本実施形態では、コンテキスト音声フレームの間隔方式は制限されない。例えば、乗算法によりフレームを選定することができ、即ちコンテキスト音声フレームは、等比数列の形または等差数列の形で倍増的に選択され得る。図8に示すように、ウィンドウ長さを7、対象音声フレームをXtとした場合、コンテキスト音声フレームは幾何学的シーケンスを乗算した形式で選択され、Xtの間隔コンテキスト音声フレームは、Xt-4、Xt-2、Xt-1、Xt+1、Xt+2およびXt+4を含むことになる。
また、ニューラルネットワークマッピングモデルがLSTMモデルまたはBLSTMモデルの場合、両者の入力が類似し、何れも1つの語句を表現する音声フレームを直接に入力できる。1つの語句を表現する音声フレームを特定する際に、被処理音声を切り出し、例えば被処理音声におけるサイレントセグメントに対して音声切出を行い、音声切出結果を得ることができる。音声切出結果のうち切出された各音声セグメントは1つの語句を表すことができ、当該音声セグメントに含まれる音声フレームのPPGは、LSTMモデルまたはBLSTMモデルの入力として使用できる。この状況下では、音声切出結果の中に対象音声フレームを含む音声セグメント内の音声フレームを音声フレームセットとして使用できる。このとき、音声フレームセットにおける音声フレーム数は、音声切り出しによってえられた、対象音声フレームを含む音声セグメント内の音声フレーム数であり、即ち音声フレームセットにおける音声フレーム数は、被処理音声の音声切出結果に応じて特定される。
LSTMモデルが図9に示されている。図9における各丸形状は1次元パラメータを表す。音声フレームセット内の各音声フレームに対応するPPG(即ちウィンドウ長さが限られたPPG)が入力されると、対象音声フレームに対応する表情パラメータが出力されることになる。LSTMモデルの利点は、シーケンスを便利にモデル化でき、かつコンテキスト音声フレームの情報を捉えることであるが、先行音声フレームの情報が更に重要視されている。
BLSTMモデルが図10に示されている。BLSTMモデルはLSTMモデルに類似し、BLSTMの各隠れ層ユニットは、シーケンスコンテキスト音声フレームの双方向の入力情報を受信できる点で、両者は相違する。従って、LSTMモデルに比べて、コンテキスト音声フレームの情報をも効果的に捉えることができ、コンテキスト音声フレームの先行と後続の両方ともが表情パラメータの特定に著しく影響し得る状況に更に好適に利用できる。
対象音声フレームに対応する表情パラメータは音声フレームセット内の音声フレームに対応する言語的情報に基づいて決定される場合、各対象音声フレームは1つの表情パラメータに対応し、複数の対象音声フレームに対応する表情同士間には、突然変種が発生したり、繋がりが連続しなかったりする恐れがあることが理解されるべきであろう。そこで、特定された表情パラメータを平滑化処理し、表情パラメータに突然変種が発生するのを避けることができるため、表情パラメータごとにアニメーションキャラクターに作り出させる表情の連続性が高まり、アニメーションキャラクターに表情を作り出させる真実性が向上され得る。
本出願の実施形態では、2種類の平滑化処理手法が提供される。第1の平滑化処理手法は、平均平滑化である。
音声フレームセット内の各音声フレームに対応する言語的情報に従い、音声フレームセット内の各音声フレームに対応する未定(未確定の)表情パラメータ(即ち、音声フレームセット内の各音声フレームの表情パラメータ)を特定できる。だが、対象音声フレームは異なる音声フレームセットに出現する可能性があるため、複数の対象音声フレームに対する未定表情パラメータを取得する可能性がある。そこで、異なる音声フレームセットにおいて対象音声フレームに対してそれぞれに特定された未定表情パラメータに基づいて、対象音声フレームの表情パラメータに平滑化処理を施し、対象音声フレームに対応する表情パラメータを算出することができる。
例えば、対象音声フレームがXt、音声フレームセットが{Xt-2、Xt-1、Xt、Xt+1、Xt+2}である場合、当該音声フレームセット内の各音声フレームに対応する未定表情パラメータは順に、{Yt-2、Yt-1、Yt、Yt+1、Yt+2}であり、対象音声フレームXtは、その他の音声フレームセット、例えば音声フレームセット{Xt-4、 Xt-3、Xt-2、Xt-1、Xt}、音声フレームセット{Xt-3、Xt-2、Xt-1、Xt、Xt+1}、音声フレームセット{Xt-1、Xt、Xt+1、Xt+2、Xt+3}、音声フレームセット{Xt、Xt+1、Xt+2、Xt+3、Xt+4}にも出現する可能性がある。これらの音声フレームセットに基づいて、これらのセットにおける各対象音声セットに対応する未定表情パラメータYtを特定することができ、即ち合計5つの対象音声フレームXtの未定表情パラメータを取得できる。この5つの未定表情パラメータを平均化すれば、対象音声フレームXtに対応する表情パラメータを算出できる。
第2の平滑化手法は、最尤法パラメータ生成アルゴリズム(Maximum likelihood parameter generation,MLPG)である。
音声フレームセット内の各音声フレームに対応する言語的情報に従い、音声フレームセット内の各音声フレームに対応する未定表情パラメータ(即ち、音声フレームセット内の各音声フレームの表情パラメータ)を特定すると同時に、当該未定表情パラメータの一階差分(または二階差分)を特定することもできる。静的パラメータ(未定表情パラメータ)と一階差分(又は二階差分)が与えられた場合に、最尤となるシーケンスを復元でき、差分を導入することにより、未定表情パラメータの変化を修正して、平滑化効果を図ることができる。
平滑化された表情パラメータを取得後、自然状態でのアニメーションキャラクターを使って、被処理音声に対応する表情をアニメーションキャラクターに作り出させることができる。アニメーションキャラクターのパラメータ設定を変更することにより、アニメーションキャラクターの表情は、被処理音声と同期して作り出される。
次に、具体的な適用シナリオと組み合わせて、本出願の実施形態による音声駆動アニメーション方法について説明する。
この適用シナリオでは、アニメーションキャラクターをニュース放送に活用する。例えば、被処理音声が「視聴者の皆様、こんばんは、今日のニュースをお伝えします」である場合、現実感を向上させるために、当該被処理音声に対応する唇形状を当該アニメーションキャラクターに反映させ、当該被処理音声が確かにこのアニメーションキャラクターから出されているように視聴者に感じさせるように工夫する必要がある。そこで、被処理音声「視聴者の皆様、こんばんは、今日のニュースをお伝えします」を取得後、当該被処理音声の音声フレームに対応する言語的情報を特定する。被処理音声の各音声フレーム、例えば対象音声フレームに対して、言語的情報に従い音声フレームセット内の各音声フレームに対応する未定表情パラメータを特定し、異なる音声フレームセットにおいて対象音声フレームに対してそれぞれに特定された未定表情パラメータを平均化し、対象音声フレームに対応する表情パラメータを算出する。これにより、被処理音声内の各音声フレームの表情パラメータを取得できるため、アニメーションキャラクターを駆動して、「視聴者の皆様、こんばんは、今日のニュースをお伝えします」に対応する唇形状を作り出すことが可能になる。
前記実施形態による方法に基づいて、本実施形態は、オーディオ・ビデオ処理デバイスに搭載される人工知能に基づく音声駆動アニメーション装置を更に提供する。図11を参照すると、前記装置1100は、取得ユニット1101と、第1の特定ユニット1102と、第2の特定ユニット1103及び駆動ユニット1104を備える。
前記取得ユニット1101は、複数の音声フレームを含む被処理音声を取得する;
前記第1の特定ユニット1102は、前記被処理音声の音声フレームに対応する言語的情報を特定し、前記言語的情報は前記被処理音声の音声フレームが属する音素の分布可能性を示す;
前記第2の特定ユニット1103は、前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する;
前記駆動ユニット1104は、前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する。
一の実現可能な方式では、対象音声フレームは、前記被処理音声の中の1つの音声フレームであり、前記対象音声フレームに対して、前記第2の特定ユニット1103は、
前記対象音声フレームが属する音声フレームセットを特定し、前記音声フレームセットは前記対象音声フレームと前記対象音声フレームのコンテキスト音声フレームを含み、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記対象音声フレームに対応する表情パラメータを特定する。
一の実現可能な方式では、前記音声フレームセット内の音声フレーム数は、ニューラルネットワークマッピングモデルによって特定されるか、または、前記音声フレームセット内の音声フレーム数は、前記被処理音声の音声切出結果に従って特定される。
一の実現可能な方式では、前記コンテキスト音声フレームは、前記対象音声フレームの隣接コンテキスト音声フレームであるか、または、前記コンテキスト音声フレームは、前記対象音声フレームの間隔コンテキスト音声フレームである。
一の実現可能な方式では、前記第2の特定ユニット1103は、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記対象音声フレームに対応する表情パラメータを特定し、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記音声フレームセット内の音声フレームのそれぞれに対応する未定表情パラメータを特定し、
前記対象音声フレームの異なる音声フレームセット内でそれぞれに特定された未定表情パラメータに基づいて、前記対象音声フレームに対応する表情パラメータを算出する。
一の実現可能な方式では、前記言語的情報は、音素事後確率、ボトルネック特徴および埋め込み特徴からなる群から選ばれるいずれか1つまたは複数の組み合わせを含む。
一の実現可能な方式では、前記第2の特定ユニット1103は、
前記言語情報に基づいて、ニューラルネットワークマッピングモデルによって前記被処理音声の音声フレームに対応する表情パラメータを特定する。ここで、前記ニューラルネットワークマッピングモデルには、ディープニューラルネットワークDNNモデル、長短期記憶ネットワークLSTMモデル、または双方向長短期記憶ネットワークBLSTMモデルが含まれる。
一の実現可能な方式では、前記第2の特定ユニット1103は、
前記言語情報と前記被処理音声に対応する感情ベクトルに基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する。
一の実現可能な方式では、前記第1の特定ユニット1102は、
前記被処理音声の音声フレームに対応する言語情報を特定し、
前記被処理音声の音声フレームに対応する音響的特徴を特定し、
自動音声認識モデルによって、前記音響的特徴に対応する言語情報を特定する。
一の実現可能な方式では、前記自動音声認識モデルは、音声セグメントと音素の対応付け関係を含む訓練用サンプルを訓練することによって得られる。
また、本出願の実施形態は、さらにアニメーションを音声駆動するためのデバイスを提供する。係るデバイスはオーディオ・ビデオ処理デバイスであり得る。以下にて、図面を参照しながら当該デバイスについて説明する。図12を参照すると、本出願の実施形態では、アニメーションを音声駆動するためのデバイスが提供され、当該デバイスは端末デバイスであり得る。当該端末デバイスとしては、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント(Personal Digital Assistant,PDAと略称する)、セールス端末(Point of Sales,POSと略称する)、車載パソコンなど何れのスマート端末であってもよい。端末デバイスが携帯電話である例を取り上げて説明する。
図12は、本出願の実施形態による端末デバイスに関連する携帯電話の部分構成を示すブロック図を示している。係る携帯電話は、無線周波数(Radio Frequency,RFと略称する)回路1210、メモリ1220、入力ユニット1230、表示ユニット1240、センサ1250、オーディオ回路1260、ワイヤレスフィデリティ(wireless fidelity,WiFiと略称する)モジュール1270、プロセッサ1280、および電源1290などのコンポーネントを備える。図12に示される携帯電話の構成は携帯電話を限定するものではなく、図示よりも多い又は少ない部品を備えるか、または幾つかの部品を組み合わせるか、或いは異なる部品配置であってもよいことは当業者に理解されるべきであろう。
以下で、図12を参照しながら携帯電話の各構成部品について具体的に説明する。
RF回路1210は、情報の送受信または通話過程で信号を送受信するために使用され、特に、基地局のダウンリンク情報を受信後、プロセッサ1280に送信して処理させる。さらに、設計アップリンクデータを基地局に送信する。通常、RF回路1210は、アンテナ、少なくとも1つの増幅器、トランシーバ、カプラ、低雑音増幅器(Low Noise Amplifier,LNAと略称する)、デュプレクサなどを含むが、これらに限定されない。さらに、RF回路1210はまた、無線通信を介してネットワークおよび他のデバイスと通信することができる。上記の無線通信は、任意の通信規格またはプロトコルを使用でき、グローバルシステムオブモバイルコミュニケーション(Global System of Mobile communication,GSMと略称する)、汎用パケット無線サービス(General Packet Radio Service,GPRSと略称する)、符号分割多元接続(Code Division Multiple Access,CDMAと略称する)、広帯域符号分割多元接続(Wideband Code Division Multiple Access,WCDMAと略称する)、ロングタームエボリューション(Long Term Evolution,LTEと略称する)、電子メール、ショートメッセージングサービス(Short Messaging Service,SMSと略称する)などを含むが、これらに限定されない。
メモリ1220は、ソフトウェアプログラム及びモジュールを格納するために使用され得る。プロセッサ1280は、メモリ1220に格納されたソフトウェアプログラムおよびモジュールを実行することによって、携帯電話の様々な機能アプリケーションおよびデータ処理を実現することができる。メモリ1220は、主にプログラム記憶領域およびデータ記憶領域を含み得る。プログラム記憶領域には、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば音声再生機能、画像再生機能など)などが格納されている。データ記憶領域には、携帯電話の使用に合わせて作成されたデータ(例えば音声データ、電話帳など)などが格納されている。また、メモリ1220は、高速ランダムアクセスメモリを含み、さらに少なくとも1つの磁気ディスク記憶デバイスやフラッシュメモリなど不揮発性メモリ、または他の揮発性固体記憶デバイスを含み得る。
入力ユニット1230は、入力されたデジタル情報または文字情報を受信したり、携帯電話のユーザ設定および機能制御に関連するキー信号の入力を生成したりするために使用され得る。具体的には、入力ユニット1230は、タッチパネル1231および他の入力デバイス1232を含み得る。タッチパネル1231は、タッチスクリーンとも呼ばれ、その上またはその近くでのユーザのタッチ操作(例えば、ユーザが指やスタイラスなど任意の適切なオブジェクトまたはアクセサリを利用してタッチパネル1231の上又はタッチパネル1231の近くに行った操作)を収集するとともに、予め設定されたプログラムに従って、相応の接続装置を駆動することができる。オプションとして、タッチパネル1231は、タッチ検出装置とタッチコントローラの2部分を含み得る。タッチ検出装置は、ユーザのタッチ位置を検出しながら、タッチ操作による信号を検出し、その信号をタッチコントローラに送信する。またタッチコントローラは、タッチ検出装置からタッチ情報を受信し、コンタクト座標に変換後、プロセッサ1280に送信するとともに、プロセッサ1280から送信されてきた命令を受信し実行することができる。また、タッチパネル1231は、抵抗式、容量式、赤外線および弾性表面波など複数のタイプで実現され得る。タッチパネル1231に加えて、入力ユニット1230は他の入力デバイス1232をさらに含み得る。具体的には、他の入力デバイス1232は、物理キーボード、ファンクションキー(例えば音量調節ボタン、スイッチボタンなど)、トラックボール、マウスおよびジョイスティックのうちの1つまたは複数を含み得るが、これらに限定されない。
表示ユニット1240は、ユーザが入力した情報や、ユーザに出力する情報及び携帯電話の各種メニューを表示するために使用され得る。表示ユニット1240は、ディスプレイパネル1241を含み得る。オプションとして、ディスプレイパネル1241は、液晶ディスプレイ(Liquid Crystal Display,LCDと略称する)、有機発光ダイオード(Organic Light-Emitting Diode,OLEDと略称する)などの形態で構成され得る。さらに、タッチパネル1231は、ディスプレイパネル1241を覆うことができ、タッチパネル1231によって、その上またはその近くでタッチ操作を検出すると、タッチイベントのタイプを決定するためにプロセッサ1280に送信し、その後、プロセッサ1280はタッチイベントのタイプに応じて、相応する視覚出力をディスプレイパネル1241に提供する。図12では、タッチパネル1231およびディスプレイパネル1241は、携帯電話の入力および入力機能を実現するための2つの独立した構成要素として機能しているが、いくつかの実施形態では、タッチパネル1231およびディスプレイパネル1241を統合して携帯電話の入出力機能とすることが可能になる。
また携帯電話は、光センサ、モーションセンサおよび他のセンサなど少なくとも1つのセンサ1250を含み得る。具体的には、光センサは、周囲光センサおよび近接センサを含んでもよく、周囲光センサは、周囲光の明るさに応じてディスプレイパネル1241の輝度を調整することができ、また近接センサは、携帯電話が耳に近づくと、ディスプレイパネル1241および/またはバックライトを閉じることができる。加速度センサは、モーションセンサの一種として、各方向(通常は3軸)の加速度の大きさを検出し、静止時に重力の大きさ及び方向を検出し、携帯姿勢のアプリケーション(水平垂直画面切り替え、関連ゲーム、磁力計姿勢キャリブレーションなど)、振動認識関連機能(歩数計、パーカッションなど)などを識別するために使用できる。また、携帯電話にさらに配置され得るジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなど他のセンサについては、ここでは詳しく述べない。
オーディオ回路1260、スピーカー1261、およびマイクロフォン1262は、ユーザと携帯電話との間のオーディオを提供できる。オーディオ回路1260は、受信した音声データから変換された電気信号をスピーカー1261に送信し、スピーカー1261によって音声信号に変換して出力することができる。一方、マイクロフォン1262は、収集された音声信号を電気信号に変換し、オーディオ回路1260に受信後、音声データに変換し、そして音声データをプロセッサ1280に出力して処理させた後、RF回路1210を介して別の携帯電話に送信するか、または音声データをメモリ1220に出力して後続処理を行わせる。
WiFiは近距離無線伝送技術である。携帯電話に搭載されているWiFiモジュール1270は、ユーザが電子メールを送受信したり、Webページを閲覧したり、ストリーミングメディアにアクセスしたりすることを支援し、無線ブロードバンドインターネットアクセスをユーザに提供する。WiFiモジュール1270は図12に示されているが、それは携帯電話の必要な構成要素ではなく、本発明の本質を変えない範囲内で必要に応じて省略できることは理解されるべきであろう。
プロセッサ1280は携帯電話のコントロールセンターであり、各種インターフェイス及び回線経由で携帯電話全体の各部分を接続し、メモリ1220に格納されたソフトウェアプログラムおよび/またはモジュールを作動または実行させ、メモリ1220に格納されたデータを利活用することによって、携帯電話の様々な機能及び処理データを実行し、携帯電話全体を監視することができる。オプションとして、プロセッサ1280は、1つまたは複数の処理ユニットを含み得る。好ましくは、プロセッサ1280は、アプリケーションプロセッサとモデムプロセッサとを統合することができる。アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェイス、およびアプリケーションプログラムなどを処理し、またモデムプロセッサは、主にワイヤレス通信を扱う構成となっている。前記モデムプロセッサは、プロセッサ1280に統合されなくてもよいことは、理解されるべきであろう。
携帯電話は、各構成部品に電力を供給するための電源1290(バッテリーなど)をさらに含む。好ましくは、電源は、電力管理システムを介してプロセッサ1280に論理的に接続され、これにより電力管理システムを介して充電、放電及び電力消費管理を図れる。
図示されていないが、携帯電話は、カメラやブルートゥース(登録商標)モジュールなどを更に含み得るが、ここでは詳しく述べない。
本実施形態では、当該端末デバイスに含まれるプロセッサ1280は、さらに以下の機能をも具備する。すなわち、
複数の音声フレームを含む被処理音声を取得する;
前記被処理音声の音声フレームに対応する言語的情報を特定し、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示す;
前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する;
前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する。
本出願の実施形態は、さらにサーバーを提供する。図13を参照すると、図13は本出願の実施形態によるサーバー1300のブロック図である。サーバー1300は、構成またはパフォーマンスが異なることによって大いに違っていく可能性があり、1つ以上の中央プロセッサ(Central Processing Units,CPUと略称する)1322(例えば、1つまたは複数のプロセッサ)及びメモリ1332、1つ以上のアプリケーションプログラム1342またはデータ1344を記憶するための記憶媒体1330(例えば、1つ以上の大容量記憶装置)を含み得る。メモリ1332および記憶媒体1330は、短期記憶または永続記憶であり得る。記憶媒体1330に格納されたプログラムは、1つ以上のモジュール(図示されない)を含み、各モジュールは、サーバーに対する一連の命令操作を含み得る。更には、中央プロセッサ1322は、記憶媒体1330と通信し、サーバー1300上で記憶媒体1330に記憶された一連の命令操作を実行するように構成され得る。
サーバー1300は、さらに、1つ以上の電源1326、1つ以上の有線または無線ネットワーク1350、1つ以上の入出力1358、および/または、ウィンドウズサーバーTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなど1つ以上のオペレーティングシステム1341を含み得る。
前述の実施形態では、サーバーによって実行されるステップは、当該図13に示されるサーバー構造に基づいて実施され得る。
本出願の実施形態は、さらに、前記各実施形態に記載された音声駆動アニメーション方法を実行するためのプログラムコードを記憶させるためのコンピュータ可読記憶媒体を提供する。
本出願の実施形態は、さらに、命令を含み、コンピュータ上で実行されるとき、前記各実施形態に記載の音声駆動アニメーション方法をコンピュータに実行させるコンピュータプログラムを提供する。
本出願の明細書および上記図面における「第1」、「第2」、「第3」、「第4」などの用語(存在すれば)は、類似の対象を区別するために使用されているが、必ずしも特定の順序または優先順位を説明するために使用されるわけではない。このように使用されるデータ同士は適切な状況下で変換でき、その結果、本明細書に記載の本出願の実施形態は、例えば本明細書に図示または記載されたもの以外の順序で実施され得ることは理解されるべきであろう。さらに、「含む」および「有する」という用語及びそれらの変形例は、非排他的な包含をカバーすることを意図されている。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品またはデバイスは、明確に列挙されたそれらのステップまたはユニットに限られるものではなく、明確に列挙されていないもの、またはこれらのプロセス、方法、製品またはデバイス自体に備わる他のステップまたはユニットを含み得る。
本出願においては、「少なくとも1つ(1項)」とは1つ以上を指し、「複数」は2つ以上を指すことが理解されるべきであろう。「および/または」は、関連対象の関連関係を表すために使用され、3種類の関係が存在する可能性があることを意味している。例えば、「Aおよび/またはB」は、Aのみ、Bのみ、およびA、B両方の3種類の状況を意味し、ここで、AおよびBは単数形または複数形である。文字「/」は通常、前後の関連対象が「または」の関係にあることを指している。「以下の少なくとも1項(個)」または類似表現とは、
単一の項(個)または複数の項(個)の任意の組み合わせを含む、これらの項目の任意の組み合わせを指している。例えば、a、b、またはcの少なくとも1項(個)は、a、b、c、「aとb」、「aとc」、「bとc」、または「aとbとc」を表してもよく、ここで、a、b、cは単一または複数であり得る。
本出願によるいくつかの実施形態では、開示されたシステム、装置および方法は、他の方法によって実施され得ることが理解されるべきであろう。例えば、上記に記載された装置の実施形態は、単に例示的なものである。例えばユニットの分割は、論理機能の分割に過ぎず、実際の実現時に、他の分割方式が存在する場合がある。例えば複数のユニットまたはコンポーネントを組み合わせるか、または別のシステムに統合するか、或いは一部の機能を無視するか、実行しないことができる。さらに、表示または検討されている相互間の結合または直接結合または通信接続は、いくつかの、装置またはユニットを経由する間接結合または通信接続でもよく、電気的、機械的または他の形態でもよい。
分離部材として記述されている前記ユニットは、物理的に分離されてもよく、物理的に分離されなくてもよい。ユニットとして表示されている部品は、物理ユニットでなくてもよく、即ち1つの場所に配置されてもよく、または複数のネットワークユニットに分散されている場合もある。実際の必要に応じて、ユニットの中の一部または全部を選択して、本実施形態の目的を実現することが可能となる。
また、本出願の各実施形態における各機能ユニットは、1つの処理ユニットに統合され得るか、または各ユニットが物理的に単独で存在し得るか、または2つ以上のユニットが1つのユニットに統合され得る。上記の統合ユニットは、ハードウェアまたはソフトウェア機能ユニットの形で実現され得る。
前記統合ユニットがソフトウェア機能ユニットの形で実装され、かつ独立した製品として販売または使用される場合、コンピュータ可読記憶媒体に格納され得る。この理解に基づいて、本出願の技術案の本質的または先行技術に寄与する部分、または当該技術案の全部または一部は、ソフトウェア製品の形で具体化され得る。当該コンピュータソフトウェア製品は記憶媒体に格納され、コンピュータデバイス(パーソナルコンピュータ、サーバー、またはネットワークデバイスなどであり得る)に、本出願の各実施形態に記載された方法の全部または一部のステップを実行させるようにするためのいくつかの命令を含む。前述の記憶媒体には、Uディスク、モバイルハードディスク、読み取り専用メモリ(Read-Only Memory,ROMと略称する)、ランダムアクセスメモリ(Random Access Memory,RAMと略称する)、磁気ディスクまたは光ディスクなど、プログラムコードを格納できる各種の媒体が含まれている。
上述したとおり、上記の実施形態は、単に本出願の技術案を説明するために使用されるが、それらを限定するものではない;前述の実施形態を参照して本出願について詳細に説明しているが、前記各実施形態に記載された技術案を補正するか、またはその技術的特徴のいくつかを同等に置換することができ、またこれらの変更または置換により、相応する技術案の本質が本出願の各実施形態に係る技術案の精神および範囲から逸脱することはないことは、当業者に理解されるべきであろう。

Claims (12)

  1. オーディオ・ビデオ処理デバイスが実行する音声駆動アニメーション方法であって、
    複数の音声フレームを含む被処理音声を取得するステップと、
    前記被処理音声の音声フレームに対応する言語的情報を特定するステップであって、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示す、ステップと、
    前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定するステップと、
    前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動するステップと、
    を含み、
    対象音声フレームは、前記被処理音声の中の1つの音声フレームであり、
    前記対象音声フレームに対して、前記言語的情報に基づいて前記被処理音声の音声フレームに対応する表情パラメータを特定する前記ステップは、
    前記対象音声フレームが属する音声フレームセットを特定するステップであって、前記音声フレームセットは前記対象音声フレームと前記対象音声フレームのコンテキスト音声フレームを含むステップと、
    前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記音声フレームセット内の音声フレームのそれぞれに対応する未定表情パラメータを特定するステップと、
    前記対象音声フレームに対して異なる音声フレームセットにおいてそれぞれに特定された未定表情パラメータに基づいて、前記対象音声フレームに対応する表情パラメータを算出するステップと、
    を含む、
    方法。
  2. 前記音声フレームセット内の音声フレーム数は、ニューラルネットワークマッピングモデルによって特定され、または、
    前記音声フレームセット内の音声フレーム数は、前記被処理音声の音声切出結果に従って特定される、請求項に記載の方法。
  3. 前記コンテキスト音声フレームは、前記対象音声フレームの隣接コンテキスト音声フレームであり、または、
    前記コンテキスト音声フレームは、前記対象音声フレームの間隔コンテキスト音声フレームである、請求項に記載の方法。
  4. 前記言語的情報は、音素事後確率、ボトルネック特徴および埋め込み特徴からなる群から選ばれるいずれか1つまたは複数の組み合わせを含む、請求項1~のいずれか1項に記載の方法。
  5. 前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する前記ステップは、
    前記言語的情報に基づいて、ニューラルネットワークマッピングモデルによって前記被処理音声の音声フレームに対応する表情パラメータを特定するステップを含み、
    ここで、前記ニューラルネットワークマッピングモデルには、ディープニューラルネットワークDNNモデル、長短期記憶ネットワークLSTMモデル、または双方向長短期記憶ネットワークBLSTMモデルが含まれる、請求項1~のいずれか1項に記載の方法。
  6. 前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する前記ステップは、
    前記言語的情報と前記被処理音声に対応する感情ベクトルとに基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定するステップを含む、請求項1~のいずれか1項に記載の方法。
  7. 前記被処理音声の音声フレームに対応する言語的情報を特定する前記ステップは、
    前記被処理音声の音声フレームに対応する音響的特徴を特定するステップと、
    自動音声認識モデルによって、前記音響的特徴に対応する言語的情報を特定するステップと、
    を含む、請求項1~のいずれか1項に記載の方法。
  8. 前記自動音声認識モデルは、音声セグメントと音素の対応付け関係を含む訓練用サンプルを訓練することによって得られる、請求項に記載の方法。
  9. オーディオ・ビデオ処理デバイスに搭載された音声駆動アニメーション装置であって、
    複数の音声フレームを含む被処理音声を取得する取得ユニットと、
    前記被処理音声の音声フレームに対応する言語的情報を特定する第1の特定ユニットであって、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示す、第1の特定ユニットと、
    前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する第2の特定ユニットと、
    前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する駆動ユニットと、
    を備え、
    対象音声フレームは、前記被処理音声における音声フレームの1つであり、
    前記対象音声フレームに対して、前記第2の特定ユニットは、
    前記対象音声フレームが属する音声フレームセットを特定し、前記音声フレームセットは前記対象音声フレームと前記対象音声フレームのコンテキスト音声フレームを含み、
    前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記音声フレームセット内の音声フレームのそれぞれに対応する未定表情パラメータを特定し、
    前記対象音声フレームに対して異なる音声フレームセットにおいてそれぞれに特定された未定表情パラメータに基づいて、前記対象音声フレームに対応する表情パラメータを算出する、
    装置。
  10. 前記音声フレームセット内の音声フレーム数は、ニューラルネットワークマッピングモデルによって特定され、または、
    前記音声フレームセット内の音声フレーム数は、前記被処理音声の音声切り出し結果に従って特定される、請求項に記載の装置。
  11. プログラムコードを記憶すると共に、前記プログラムコードをプロセッサに伝送するためのメモリと、
    前記プログラムコードにおける命令に従って、請求項1~のいずれか1項に記載の方法を実行するためのプロセッサと、
    を備える、アニメーションを音声駆動するためのデバイス。
  12. コンピュータプログラムであって、コンピュータに請求項1~のいずれか1項に記載の方法実行させるためのコンピュータプログラム。
JP2021565810A 2019-08-29 2020-07-28 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム Active JP7312853B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910820742.1 2019-08-29
CN201910820742.1A CN110503942A (zh) 2019-08-29 2019-08-29 一种基于人工智能的语音驱动动画方法和装置
PCT/CN2020/105046 WO2021036644A1 (zh) 2019-08-29 2020-07-28 一种基于人工智能的语音驱动动画方法和装置

Publications (2)

Publication Number Publication Date
JP2022537011A JP2022537011A (ja) 2022-08-23
JP7312853B2 true JP7312853B2 (ja) 2023-07-21

Family

ID=68590994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021565810A Active JP7312853B2 (ja) 2019-08-29 2020-07-28 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US12002138B2 (ja)
JP (1) JP7312853B2 (ja)
CN (1) CN110503942A (ja)
WO (1) WO2021036644A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11736756B2 (en) * 2016-02-10 2023-08-22 Nitin Vats Producing realistic body movement using body images
CN110503942A (zh) 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置
CN111145282B (zh) * 2019-12-12 2023-12-05 科大讯飞股份有限公司 虚拟形象合成方法、装置、电子设备和存储介质
CN111124229B (zh) * 2019-12-24 2022-03-11 山东舜网传媒股份有限公司 通过语音交互实现网页动画控制的方法、系统及浏览器
CN111354370B (zh) * 2020-02-13 2021-06-25 百度在线网络技术(北京)有限公司 一种唇形特征预测方法、装置和电子设备
CN111524534B (zh) * 2020-03-20 2021-04-09 北京捷通华声科技股份有限公司 一种语音分析方法、系统、设备及存储介质
CN113672194A (zh) * 2020-03-31 2021-11-19 北京市商汤科技开发有限公司 声学特征样本的获取方法、装置、设备以及存储介质
CN111698552A (zh) * 2020-05-15 2020-09-22 完美世界(北京)软件科技发展有限公司 一种视频资源的生成方法和装置
CN111933110B (zh) * 2020-08-12 2021-10-29 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备
CN113079328B (zh) * 2021-03-19 2023-03-28 北京有竹居网络技术有限公司 视频生成方法和装置、存储介质和电子设备
CN113077537B (zh) * 2021-04-29 2023-04-25 广州虎牙科技有限公司 一种视频生成方法、存储介质及设备
CN113314104B (zh) * 2021-05-31 2023-06-20 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN113313797A (zh) * 2021-06-22 2021-08-27 广州虎牙科技有限公司 虚拟形象驱动方法、装置、电子设备和可读存储介质
CN113538641A (zh) * 2021-07-14 2021-10-22 北京沃东天骏信息技术有限公司 动画生成方法及装置、存储介质、电子设备
CN114466178A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置
WO2024004609A1 (ja) * 2022-06-28 2024-01-04 ソニーグループ株式会社 情報処理装置、情報処理方法、および記録媒体
CN117036583A (zh) * 2022-10-13 2023-11-10 腾讯科技(深圳)有限公司 视频生成方法、装置、存储介质及计算机设备
US20240203014A1 (en) * 2022-12-14 2024-06-20 Samsung Electronics Co., Ltd. Machine learning-based approach for audio-driven avatar animation or other functions
US12039653B1 (en) * 2023-05-30 2024-07-16 Roku, Inc. Video-content system with narrative-based video content generation feature
CN116916089B (zh) * 2023-06-14 2024-09-20 西南交通大学 一种融合人声特征与人脸特征的智能视频剪辑方法
CN116564338B (zh) * 2023-07-12 2023-09-08 腾讯科技(深圳)有限公司 语音动画生成方法、装置、电子设备和介质
CN117078811A (zh) * 2023-08-31 2023-11-17 华院计算技术(上海)股份有限公司 模型训练方法、图像生成方法、动画生成方法及系统
CN118262015B (zh) * 2024-03-27 2024-10-18 浙江大学 一种人脸身份感知的数字人唇动生成方法和模型训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197488A (ja) 2000-12-27 2002-07-12 Konami Computer Entertainment Yokyo Inc リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
JP2002298155A (ja) 2001-03-29 2002-10-11 Hic:Kk 感情による3dコンピュータグラフィックス表情モデル形成システム
JP2007058846A (ja) 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
US20180137678A1 (en) 2016-11-11 2018-05-17 Magic Leap, Inc. Periocular and audio synthesis of a full face image
JP2018087935A (ja) 2016-11-30 2018-06-07 日本電信電話株式会社 音声言語識別装置、その方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
KR20020022504A (ko) * 2000-09-20 2002-03-27 박종만 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법
JP2006065683A (ja) * 2004-08-27 2006-03-09 Kyocera Communication Systems Co Ltd アバタ通信システム
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
CN101364309B (zh) * 2008-10-09 2011-05-04 中国科学院计算技术研究所 一种源虚拟角色上的口形动画生成方法
CN101923726B (zh) * 2009-06-09 2012-04-04 华为技术有限公司 一种语音动画生成方法及系统
CN106653052B (zh) * 2016-12-29 2020-10-16 Tcl科技集团股份有限公司 虚拟人脸动画的生成方法及装置
CN108447474B (zh) * 2018-03-12 2020-10-16 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
US11264010B2 (en) * 2018-05-11 2022-03-01 Google Llc Clockwork hierarchical variational encoder
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109829363A (zh) * 2018-12-18 2019-05-31 深圳壹账通智能科技有限公司 表情识别方法、装置、计算机设备和存储介质
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
CN110503942A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197488A (ja) 2000-12-27 2002-07-12 Konami Computer Entertainment Yokyo Inc リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
JP2002298155A (ja) 2001-03-29 2002-10-11 Hic:Kk 感情による3dコンピュータグラフィックス表情モデル形成システム
JP2007058846A (ja) 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
US20180137678A1 (en) 2016-11-11 2018-05-17 Magic Leap, Inc. Periocular and audio synthesis of a full face image
JP2018087935A (ja) 2016-11-30 2018-06-07 日本電信電話株式会社 音声言語識別装置、その方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG ZHOU,外5名,VisemeNet: Audio-Driven Animator-Centric Speech Animation,ACM Transactions on Graphics,Association for Computing Machinery,2018年,Volume 37,Issue 4,Article 161,p.1-10,https://dl.acm.org/doi/10.1145/3197517.3201292

Also Published As

Publication number Publication date
WO2021036644A1 (zh) 2021-03-04
US20220044463A1 (en) 2022-02-10
US12002138B2 (en) 2024-06-04
JP2022537011A (ja) 2022-08-23
CN110503942A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
JP7312853B2 (ja) 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
JP7408048B2 (ja) 人工知能に基づくアニメキャラクター駆動方法及び関連装置
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
US12039995B2 (en) Audio signal processing method and apparatus, electronic device, and storage medium
CN110418208B (zh) 一种基于人工智能的字幕确定方法和装置
CN108304846B (zh) 图像识别方法、装置及存储介质
CN110379430B (zh) 基于语音的动画显示方法、装置、计算机设备及存储介质
EP3992965B1 (en) Voice signal processing method and speech separation method
CN113454708A (zh) 语言学风格匹配代理
CN113421547B (zh) 一种语音处理方法及相关设备
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN111538456A (zh) 基于虚拟形象的人机交互方法、装置、终端以及存储介质
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
CN110599359B (zh) 社交方法、装置、系统、终端设备及存储介质
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN108962241B (zh) 位置提示方法、装置、存储介质及电子设备
CN116229311B (zh) 视频处理方法、装置及存储介质
CN113948060A (zh) 一种网络训练方法、数据处理方法及相关设备
CN111816168A (zh) 一种模型训练的方法、语音播放的方法、装置及存储介质
CN110728993A (zh) 一种变声识别方法及电子设备
CN115394285A (zh) 语音克隆方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230710

R150 Certificate of patent or registration of utility model

Ref document number: 7312853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150