JP7312853B2 - 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム - Google Patents
人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7312853B2 JP7312853B2 JP2021565810A JP2021565810A JP7312853B2 JP 7312853 B2 JP7312853 B2 JP 7312853B2 JP 2021565810 A JP2021565810 A JP 2021565810A JP 2021565810 A JP2021565810 A JP 2021565810A JP 7312853 B2 JP7312853 B2 JP 7312853B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- frame
- processed
- facial expression
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 67
- 238000004590 computer program Methods 0.000 title claims description 3
- 230000008921 facial expression Effects 0.000 claims description 131
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 11
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 100
- 238000005516 engineering process Methods 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 229920001451 polypropylene glycol Polymers 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Description
複数の音声フレームを含む被処理音声を取得するステップと、
前記被処理音声の音声フレームに対応する言語的情報を特定するステップであって、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示すステップと、
前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定するステップと、
前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動するステップとを含む。
前記取得ユニットは、複数の音声フレームを含む被処理音声を取得する;
前記第1の特定ユニットは、前記被処理音声の音声フレームに対応する言語的情報を特定し、前記言語的情報は前記被処理音声の音声フレームが属する音素の分布可能性を示す;
前記第2の特定ユニットは、前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する;
前記駆動ユニットは、前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する。
前記メモリは、プログラムコードを記憶すると共に、前記プログラムコードをプロセッサに伝送するものである;
前記プロセッサは、前記プログラムコードにおける命令に従って、第一側面に記載された方法を実行するものである。
前記取得ユニット1101は、複数の音声フレームを含む被処理音声を取得する;
前記第1の特定ユニット1102は、前記被処理音声の音声フレームに対応する言語的情報を特定し、前記言語的情報は前記被処理音声の音声フレームが属する音素の分布可能性を示す;
前記第2の特定ユニット1103は、前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する;
前記駆動ユニット1104は、前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する。
前記対象音声フレームが属する音声フレームセットを特定し、前記音声フレームセットは前記対象音声フレームと前記対象音声フレームのコンテキスト音声フレームを含み、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記対象音声フレームに対応する表情パラメータを特定する。
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記対象音声フレームに対応する表情パラメータを特定し、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記音声フレームセット内の音声フレームのそれぞれに対応する未定表情パラメータを特定し、
前記対象音声フレームの異なる音声フレームセット内でそれぞれに特定された未定表情パラメータに基づいて、前記対象音声フレームに対応する表情パラメータを算出する。
前記言語情報に基づいて、ニューラルネットワークマッピングモデルによって前記被処理音声の音声フレームに対応する表情パラメータを特定する。ここで、前記ニューラルネットワークマッピングモデルには、ディープニューラルネットワークDNNモデル、長短期記憶ネットワークLSTMモデル、または双方向長短期記憶ネットワークBLSTMモデルが含まれる。
前記言語情報と前記被処理音声に対応する感情ベクトルに基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する。
前記被処理音声の音声フレームに対応する言語情報を特定し、
前記被処理音声の音声フレームに対応する音響的特徴を特定し、
自動音声認識モデルによって、前記音響的特徴に対応する言語情報を特定する。
複数の音声フレームを含む被処理音声を取得する;
前記被処理音声の音声フレームに対応する言語的情報を特定し、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示す;
前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する;
前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する。
単一の項(個)または複数の項(個)の任意の組み合わせを含む、これらの項目の任意の組み合わせを指している。例えば、a、b、またはcの少なくとも1項(個)は、a、b、c、「aとb」、「aとc」、「bとc」、または「aとbとc」を表してもよく、ここで、a、b、cは単一または複数であり得る。
Claims (12)
- オーディオ・ビデオ処理デバイスが実行する音声駆動アニメーション方法であって、
複数の音声フレームを含む被処理音声を取得するステップと、
前記被処理音声の音声フレームに対応する言語的情報を特定するステップであって、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示す、ステップと、
前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定するステップと、
前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動するステップと、
を含み、
対象音声フレームは、前記被処理音声の中の1つの音声フレームであり、
前記対象音声フレームに対して、前記言語的情報に基づいて前記被処理音声の音声フレームに対応する表情パラメータを特定する前記ステップは、
前記対象音声フレームが属する音声フレームセットを特定するステップであって、前記音声フレームセットは前記対象音声フレームと前記対象音声フレームのコンテキスト音声フレームを含むステップと、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記音声フレームセット内の音声フレームのそれぞれに対応する未定表情パラメータを特定するステップと、
前記対象音声フレームに対して異なる音声フレームセットにおいてそれぞれに特定された未定表情パラメータに基づいて、前記対象音声フレームに対応する表情パラメータを算出するステップと、
を含む、
方法。 - 前記音声フレームセット内の音声フレーム数は、ニューラルネットワークマッピングモデルによって特定され、または、
前記音声フレームセット内の音声フレーム数は、前記被処理音声の音声切出結果に従って特定される、請求項1に記載の方法。 - 前記コンテキスト音声フレームは、前記対象音声フレームの隣接コンテキスト音声フレームであり、または、
前記コンテキスト音声フレームは、前記対象音声フレームの間隔コンテキスト音声フレームである、請求項1に記載の方法。 - 前記言語的情報は、音素事後確率、ボトルネック特徴および埋め込み特徴からなる群から選ばれるいずれか1つまたは複数の組み合わせを含む、請求項1~3のいずれか1項に記載の方法。
- 前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する前記ステップは、
前記言語的情報に基づいて、ニューラルネットワークマッピングモデルによって前記被処理音声の音声フレームに対応する表情パラメータを特定するステップを含み、
ここで、前記ニューラルネットワークマッピングモデルには、ディープニューラルネットワークDNNモデル、長短期記憶ネットワークLSTMモデル、または双方向長短期記憶ネットワークBLSTMモデルが含まれる、請求項1~3のいずれか1項に記載の方法。 - 前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する前記ステップは、
前記言語的情報と前記被処理音声に対応する感情ベクトルとに基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定するステップを含む、請求項1~3のいずれか1項に記載の方法。 - 前記被処理音声の音声フレームに対応する言語的情報を特定する前記ステップは、
前記被処理音声の音声フレームに対応する音響的特徴を特定するステップと、
自動音声認識モデルによって、前記音響的特徴に対応する言語的情報を特定するステップと、
を含む、請求項1~3のいずれか1項に記載の方法。 - 前記自動音声認識モデルは、音声セグメントと音素の対応付け関係を含む訓練用サンプルを訓練することによって得られる、請求項7に記載の方法。
- オーディオ・ビデオ処理デバイスに搭載された音声駆動アニメーション装置であって、
複数の音声フレームを含む被処理音声を取得する取得ユニットと、
前記被処理音声の音声フレームに対応する言語的情報を特定する第1の特定ユニットであって、前記言語的情報は、前記被処理音声の音声フレームが属する音素の分布可能性を示す、第1の特定ユニットと、
前記言語的情報に基づいて、前記被処理音声の音声フレームに対応する表情パラメータを特定する第2の特定ユニットと、
前記表情パラメータに基づいて、アニメーションキャラクターが前記被処理音声に対応する表情を作り出すように、前記アニメーションキャラクターを駆動する駆動ユニットと、
を備え、
対象音声フレームは、前記被処理音声における音声フレームの1つであり、
前記対象音声フレームに対して、前記第2の特定ユニットは、
前記対象音声フレームが属する音声フレームセットを特定し、前記音声フレームセットは前記対象音声フレームと前記対象音声フレームのコンテキスト音声フレームを含み、
前記音声フレームセット内の音声フレームのそれぞれに対応する言語的情報に基づいて、前記音声フレームセット内の音声フレームのそれぞれに対応する未定表情パラメータを特定し、
前記対象音声フレームに対して異なる音声フレームセットにおいてそれぞれに特定された未定表情パラメータに基づいて、前記対象音声フレームに対応する表情パラメータを算出する、
装置。 - 前記音声フレームセット内の音声フレーム数は、ニューラルネットワークマッピングモデルによって特定され、または、
前記音声フレームセット内の音声フレーム数は、前記被処理音声の音声切り出し結果に従って特定される、請求項9に記載の装置。 - プログラムコードを記憶すると共に、前記プログラムコードをプロセッサに伝送するためのメモリと、
前記プログラムコードにおける命令に従って、請求項1~8のいずれか1項に記載の方法を実行するためのプロセッサと、
を備える、アニメーションを音声駆動するためのデバイス。 - コンピュータプログラムであって、コンピュータに請求項1~8のいずれか1項に記載の方法を実行させるためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910820742.1 | 2019-08-29 | ||
CN201910820742.1A CN110503942A (zh) | 2019-08-29 | 2019-08-29 | 一种基于人工智能的语音驱动动画方法和装置 |
PCT/CN2020/105046 WO2021036644A1 (zh) | 2019-08-29 | 2020-07-28 | 一种基于人工智能的语音驱动动画方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022537011A JP2022537011A (ja) | 2022-08-23 |
JP7312853B2 true JP7312853B2 (ja) | 2023-07-21 |
Family
ID=68590994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021565810A Active JP7312853B2 (ja) | 2019-08-29 | 2020-07-28 | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US12002138B2 (ja) |
JP (1) | JP7312853B2 (ja) |
CN (1) | CN110503942A (ja) |
WO (1) | WO2021036644A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11736756B2 (en) * | 2016-02-10 | 2023-08-22 | Nitin Vats | Producing realistic body movement using body images |
CN110503942A (zh) | 2019-08-29 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
CN111145282B (zh) * | 2019-12-12 | 2023-12-05 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN111124229B (zh) * | 2019-12-24 | 2022-03-11 | 山东舜网传媒股份有限公司 | 通过语音交互实现网页动画控制的方法、系统及浏览器 |
CN111354370B (zh) * | 2020-02-13 | 2021-06-25 | 百度在线网络技术(北京)有限公司 | 一种唇形特征预测方法、装置和电子设备 |
CN111524534B (zh) * | 2020-03-20 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种语音分析方法、系统、设备及存储介质 |
CN113672194A (zh) * | 2020-03-31 | 2021-11-19 | 北京市商汤科技开发有限公司 | 声学特征样本的获取方法、装置、设备以及存储介质 |
CN111698552A (zh) * | 2020-05-15 | 2020-09-22 | 完美世界(北京)软件科技发展有限公司 | 一种视频资源的生成方法和装置 |
CN111933110B (zh) * | 2020-08-12 | 2021-10-29 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
CN113079328B (zh) * | 2021-03-19 | 2023-03-28 | 北京有竹居网络技术有限公司 | 视频生成方法和装置、存储介质和电子设备 |
CN113077537B (zh) * | 2021-04-29 | 2023-04-25 | 广州虎牙科技有限公司 | 一种视频生成方法、存储介质及设备 |
CN113314104B (zh) * | 2021-05-31 | 2023-06-20 | 北京市商汤科技开发有限公司 | 交互对象驱动和音素处理方法、装置、设备以及存储介质 |
CN113313797A (zh) * | 2021-06-22 | 2021-08-27 | 广州虎牙科技有限公司 | 虚拟形象驱动方法、装置、电子设备和可读存储介质 |
CN113538641A (zh) * | 2021-07-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法及装置、存储介质、电子设备 |
CN114466178A (zh) * | 2021-09-09 | 2022-05-10 | 马上消费金融股份有限公司 | 语音与图像同步性的衡量方法及装置 |
WO2024004609A1 (ja) * | 2022-06-28 | 2024-01-04 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、および記録媒体 |
CN117036583A (zh) * | 2022-10-13 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 视频生成方法、装置、存储介质及计算机设备 |
US20240203014A1 (en) * | 2022-12-14 | 2024-06-20 | Samsung Electronics Co., Ltd. | Machine learning-based approach for audio-driven avatar animation or other functions |
US12039653B1 (en) * | 2023-05-30 | 2024-07-16 | Roku, Inc. | Video-content system with narrative-based video content generation feature |
CN116916089B (zh) * | 2023-06-14 | 2024-09-20 | 西南交通大学 | 一种融合人声特征与人脸特征的智能视频剪辑方法 |
CN116564338B (zh) * | 2023-07-12 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 语音动画生成方法、装置、电子设备和介质 |
CN117078811A (zh) * | 2023-08-31 | 2023-11-17 | 华院计算技术(上海)股份有限公司 | 模型训练方法、图像生成方法、动画生成方法及系统 |
CN118262015B (zh) * | 2024-03-27 | 2024-10-18 | 浙江大学 | 一种人脸身份感知的数字人唇动生成方法和模型训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002197488A (ja) | 2000-12-27 | 2002-07-12 | Konami Computer Entertainment Yokyo Inc | リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法 |
JP2002298155A (ja) | 2001-03-29 | 2002-10-11 | Hic:Kk | 感情による3dコンピュータグラフィックス表情モデル形成システム |
JP2007058846A (ja) | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
US20180137678A1 (en) | 2016-11-11 | 2018-05-17 | Magic Leap, Inc. | Periocular and audio synthesis of a full face image |
JP2018087935A (ja) | 2016-11-30 | 2018-06-07 | 日本電信電話株式会社 | 音声言語識別装置、その方法、及びプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0008537D0 (en) * | 2000-04-06 | 2000-05-24 | Ananova Ltd | Character animation |
KR20020022504A (ko) * | 2000-09-20 | 2002-03-27 | 박종만 | 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법 |
JP2006065683A (ja) * | 2004-08-27 | 2006-03-09 | Kyocera Communication Systems Co Ltd | アバタ通信システム |
JP5198046B2 (ja) * | 2007-12-07 | 2013-05-15 | 株式会社東芝 | 音声処理装置及びそのプログラム |
CN101364309B (zh) * | 2008-10-09 | 2011-05-04 | 中国科学院计算技术研究所 | 一种源虚拟角色上的口形动画生成方法 |
CN101923726B (zh) * | 2009-06-09 | 2012-04-04 | 华为技术有限公司 | 一种语音动画生成方法及系统 |
CN106653052B (zh) * | 2016-12-29 | 2020-10-16 | Tcl科技集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN108447474B (zh) * | 2018-03-12 | 2020-10-16 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
US11264010B2 (en) * | 2018-05-11 | 2022-03-01 | Google Llc | Clockwork hierarchical variational encoder |
CN109377540B (zh) * | 2018-09-30 | 2023-12-19 | 网易(杭州)网络有限公司 | 面部动画的合成方法、装置、存储介质、处理器及终端 |
CN109829363A (zh) * | 2018-12-18 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
CN110009716B (zh) * | 2019-03-28 | 2023-09-26 | 网易(杭州)网络有限公司 | 面部表情的生成方法、装置、电子设备及存储介质 |
US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
CN110503942A (zh) * | 2019-08-29 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
-
2019
- 2019-08-29 CN CN201910820742.1A patent/CN110503942A/zh active Pending
-
2020
- 2020-07-28 WO PCT/CN2020/105046 patent/WO2021036644A1/zh active Application Filing
- 2020-07-28 JP JP2021565810A patent/JP7312853B2/ja active Active
-
2021
- 2021-10-08 US US17/497,622 patent/US12002138B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002197488A (ja) | 2000-12-27 | 2002-07-12 | Konami Computer Entertainment Yokyo Inc | リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法 |
JP2002298155A (ja) | 2001-03-29 | 2002-10-11 | Hic:Kk | 感情による3dコンピュータグラフィックス表情モデル形成システム |
JP2007058846A (ja) | 2005-07-27 | 2007-03-08 | Advanced Telecommunication Research Institute International | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム |
US20180137678A1 (en) | 2016-11-11 | 2018-05-17 | Magic Leap, Inc. | Periocular and audio synthesis of a full face image |
JP2018087935A (ja) | 2016-11-30 | 2018-06-07 | 日本電信電話株式会社 | 音声言語識別装置、その方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
YANG ZHOU,外5名,VisemeNet: Audio-Driven Animator-Centric Speech Animation,ACM Transactions on Graphics,Association for Computing Machinery,2018年,Volume 37,Issue 4,Article 161,p.1-10,https://dl.acm.org/doi/10.1145/3197517.3201292 |
Also Published As
Publication number | Publication date |
---|---|
WO2021036644A1 (zh) | 2021-03-04 |
US20220044463A1 (en) | 2022-02-10 |
US12002138B2 (en) | 2024-06-04 |
JP2022537011A (ja) | 2022-08-23 |
CN110503942A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7312853B2 (ja) | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
JP7408048B2 (ja) | 人工知能に基づくアニメキャラクター駆動方法及び関連装置 | |
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
US12039995B2 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
CN110418208B (zh) | 一种基于人工智能的字幕确定方法和装置 | |
CN108304846B (zh) | 图像识别方法、装置及存储介质 | |
CN110379430B (zh) | 基于语音的动画显示方法、装置、计算机设备及存储介质 | |
EP3992965B1 (en) | Voice signal processing method and speech separation method | |
CN113454708A (zh) | 语言学风格匹配代理 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
CN112040263A (zh) | 视频处理方法、视频播放方法、装置、存储介质和设备 | |
CN110890093A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN111538456A (zh) | 基于虚拟形象的人机交互方法、装置、终端以及存储介质 | |
CN110322760B (zh) | 语音数据生成方法、装置、终端及存储介质 | |
CN110599359B (zh) | 社交方法、装置、系统、终端设备及存储介质 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN108962241B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN116229311B (zh) | 视频处理方法、装置及存储介质 | |
CN113948060A (zh) | 一种网络训练方法、数据处理方法及相关设备 | |
CN111816168A (zh) | 一种模型训练的方法、语音播放的方法、装置及存储介质 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN115394285A (zh) | 语音克隆方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7312853 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |