JP5178607B2

JP5178607B2 - プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置

Info

Publication number: JP5178607B2
Application number: JP2009087789A
Authority: JP
Inventors: 博之平石
Original assignee: Namco Ltd; Namco Bandai Games Inc
Current assignee: Namco Ltd; Bandai Namco Entertainment Inc
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2013-04-10
Anticipated expiration: 2029-03-31
Also published as: US8612228B2; US20100250256A1; JP2010238133A

Description

本発明は、コンピュータに、キャラクタの口形状を変形制御させるためのプログラム等に関する。

従来、ゲームをはじめとするコンピュータグラフィックス（ＣＧ）アニメーションや、アバターを利用したチャット、玩具において、人が話した音声をスピーカから再生するのに合わせてキャラクタの口形状を変化させることで、あたかも映像内のキャラクタや玩具のキャラクタが話しているかのように見せることが行われている。

典型的な手法は、対象とする音声をアニメータが聴いて経験則的に口形状を決定し、音声再生と同期可能な口形状の設定データを予め用意する方法である。この手法は、口形状と音声との対応に正確さが欠けるが、比較的簡単に音声再生と同期させてキャラクタの口の形状をそれっぽく変化させることができるので、既存の音声を再生するタイプのゲーム製作や、多くのＴＶアニメーション製作現場で採用されている。
しかし、映画などに代表されるリアル指向の３ＤＣＧや、美術館等における案内装置で表示されるガイドキャラクタ制御では、それっぽく見えるだけの口形状制御では映像品質としては十分とは言えないため、音と口形状とが正しく対応づけられた口形状制御が常に望まれている。

そうした要望に応える技術の一つとしては、例えば、再生する音声から母音を特徴づけるフォルマント情報を抽出して母音を識別変化し、識別した母音に同期する所定のアニメーション画像を選択出力することで、音と口形状とが正しく対応づけられたアニメーション画像を自動生成するものが知られている（例えば、特許文献１を参照）。

また、アバターを利用したチャットシステムにおいて、サーバーが送信側端末より受信した音声を音声認識によって分析して音素に対応するアバターの口形状を決定し、決定した口形状を含む情報を受信端末に送信することで、受信端末で表示制御されるアバターの口唇形状を音声に正しく対応づける技術も知られるところである（例えば、特許文献２を参照）。

特開２００３−２３３３８９号公報特開２００６−６５６８４号公報

しかしながら、フォルマント情報の抽出や音声認識を利用する方法では、比較的演算処理負荷が高く、また参照する辞書データも大きくなることから、利用可能なシステム構成が限られる問題があった。例えば、前述のチャットシステムに関する従来技術では、高処理能力を有するサーバーで口形状の決定をする構成が例示されているが、サーバー装置ほどの処理能力を要求できないゲーム装置や玩具等へ適用するには演算処理負荷が大きすぎる。

本発明は、こうした事情を鑑みてなされたものであり、その目的とするところは、比較的低演算負荷でありながらも、キャラクタの口形状と音との高い適合率を確保した口形状制御を実現する新しい技術を提供することである。

上記の課題を解決する第１の発明は、コンピュータを、話者が発声した際の声道形状を、当該発声時の音声データを分析して所定の声道モデルの形状を算出することで推定する声道モデル算出手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、声道断面積関数算出部２１６、図１６のステップＳ５０）、
前記声道モデル算出手段により算出された声道モデルの形状に基づいて所定のキャラクタの口を変形させる口形状制御手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、口形状判定部２１８、パラメータ値補正部２２０、口形状制御部２２２、口形状パラメータ値設定データ５２４、図１５のステップＳ３２、ステップＳ１００）
として機能させるためのプログラムである。

また、別形態として、話者が発声した際の声道形状を、当該発声時の音声データを分析して所定の声道モデルの形状を算出することで推定する声道モデル算出ステップと、前記算出された声道モデルの形状に基づいて所定のキャラクタの口を変形させる口形状制御ステップと、を含む口形状制御方法として実現してもよい。

また、更に別形態として、話者が発声した際の声道形状を、当該発声時の音声データを分析して所定の声道モデルの形状を算出することで推定する声道モデル算出手段と、前記声道モデル算出手段により算出された声道モデルの形状に基づいて所定のキャラクタの口を変形させる口形状制御手段と、を備えた口形状音制御装置を実現することとしてもよい。

ここで言う「声道モデル」とは、声帯の振動から放音に至るまでの、発声に関与する人体器官を一つのモデルに単純化したものである。
よって、第１の発明及びその別形態の発明によれば、話者が発声した音声データから声道モデルを求める比較的軽い処理負荷で、音声データの再生と同期するとともに音と口形状とが適合したキャラクタの口形状制御を実現できる。

第２の発明は、前記音声データに基づく音声を出力する音声出力手段（例えば、図２の制御ユニット１３１０、ヘッドセット１３７０、図１０の処理部２００、音生成部２５０、音出力部３５０、図１５のステップＳ３０）として前記コンピュータを更に機能させ、
前記口形状制御手段が、前記音声出力手段により出力される音声に合わせるように、前記キャラクタの口を変形させるように前記コンピュータを機能させるための第１の発明のプログラムである。

第２の発明によれば、第１の発明と同様の効果を奏するとともに、音声データに基づく音声を出力することができる。しかもこの時、音声出力手段により出力される音声に合わせるように、キャラクタの口を変形させるように制御できる。

また、第３の発明として、第１又は第２の発明のプログラムであって、前記声道モデル算出手段が、前記声道モデルを声道の各部位の断面積で表したモデル（例えば、図６の声道断面積関数５４）として算出し、前記口形状制御手段が、前記声道モデル算出手段により算出された声道の各部位（例えば、図６の第１判定ブロック群、第２判定ブロック群、開口断面積）の断面積に基づいて、前記キャラクタの口を変形させるように前記コンピュータを機能させるためのプログラムを構成することもできる。

第３の発明によれば、第１又は第２の発明と同様の効果を奏するとともに、公知の声道断面積関数の算出技術を利用できるので発明の実施がより容易となる。また、声道断面積関数でモデル化された声道モデルでは、基準の音がある特定の音となって放音されると解釈されるので言語種類への依存性が小さい。そのため、音声認識技術を利用する場合のように膨大な辞書データを言語種類別に容易する必要が無く、例えば外国語の音声への対応が容易になる。

そして、口形状の制御については、第４の発明のように、第３の発明のプログラムであって、前記口形状制御手段が、声道の開口部分の面積（例えば、図８、図９の開口面積ｄ３）と、開口部側所定範囲の断面積（例えば、図７の第２判定ブロック群の平均断面積ｄ２）と、喉側所定範囲の断面積（例えば、図７の第１判定ブロック群の平均断面積ｄ１）とを少なくとも用いて前記キャラクタの口を変形させるように前記コンピュータを機能させるためのプログラムを構成してもよい。

第４の発明によれば、第３の発明と同様の効果を奏するとともに、所定箇所や所定範囲の断面積を利用するだけでキャラクタの口形状を制御できるので、演算負荷を低減する効果が期待できる。

より具体的には、第５の発明のように、第４の発明のプログラムであって、前記口形状制御手段が、前記喉側所定範囲の断面積に基づいて、前記キャラクタの口の縦方向の長さを変化させるように前記コンピュータを機能させる構成とすることができる。

更には、第６の発明のように、第５の発明のプログラムであって、前記口形状制御手段が、前記喉側所定範囲の断面積が大きいほど、前記キャラクタの口の縦方向の長さを短くさせるように前記コンピュータを機能させる構成とすることができる。

これらは、喉側所定範囲の断面積が口の縦方向の長さに高い相関性を有し、同断面積が大きいほど口の縦方向の長さが短くなることに気づいた新しい発見に基づくものであり、第５及び第６の発明によれば、演算処理負荷を軽減することができる。

また、第７の発明のように、第４〜第６の何れかの発明のプログラムであって、前記口形状制御手段が、前記開口部側所定範囲の断面積に基づいて、前記キャラクタの口の開口面積を変化させるように前記コンピュータを機能させる構成とすることができる。

これは、開口部側（つまり口側）から所定範囲の断面積と口の開口面積とが高い相関性を有していることに気づいた新しい発見に基づくものであり、第７の発明によれば、演算処理負荷を軽減することができる。

また、擦過音については、第８の発明のように、第１〜第７の何れかの発明のプログラムであって、前記音声データが擦過音相当の音を示していることを検出する擦過音検出手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、口形状判定部２１８、図１８のステップＳ６０）として前記コンピュータを機能させ、
前記口形状制御手段が、前記擦過音検出手段による検出に応じて、前記キャラクタの口の開口面積を非検出時に比べて小さくさせるように前記コンピュータを機能させるためのプログラムを構成することができる。

更には、第９の発明のように、第８の発明のプログラムであって、前記擦過音検出手段が、擦過音の種類を判定する擦過音種類判定手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、口形状判定部２１８、図１８のステップＳ６２）を有し、前記口形状制御手段が前記擦過音種類判定手段により判定された種類に応じて前記キャラクタの口を変形させるように前記コンピュータを機能させるためのプログラムを構成することもできる。

声道断面積関数は、一本の管の喉側から声帯を振動させた基準音を発声させると、口側から有る特定の音となって放音されることを前提とするモデルである。一方、擦過音は舌を口蓋に近づけて声道の途中に極端に狭い部分を形成し、そこに比較的速い空気を通して生成される雑音が元になっている。そのため、声道断面積関数の所定箇所や所定範囲の断面積から関数を利用して擦過音を発する口形状を求めることは非常に難しい。しかしながら、擦過音の声道断面積関数の形状に着目すれば、擦過音を他の音と区別することができる。
よって、擦過音の検出時には開口面積を非検出時より小さくすることで、声道断面積関数を利用する形態をそのままに、自然な擦過音発声時の口形状を実現できる。

同様に、鼻音については、第１０の発明のように、第１〜第９の何れかの発明のプログラムであって、前記音声データが鼻音相当の音を示していることを検出する鼻音検出手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、口形状判定部２１８、図１８のステップＳ６６）として前記コンピュータを機能させ、
前記口形状制御手段が、前記鼻音検出手段による検出に応じて、前記キャラクタの口の開口面積を非検出時に比べて小さくさせるように前記コンピュータを機能させるためのプログラムを構成することができる。

更には、第１１の発明のように、第１０の発明のプログラムであって、前記鼻音検出手段が、鼻音の種類を判定する鼻音種類判定手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、口形状判定部２１８、図１８のステップＳ６８）を有し、
前記口形状制御手段が、前記鼻音種類判定手段により判定された種類に応じて前記キャラクタの口を変形させる、ように前記コンピュータを機能させるためのプログラムを構成してもよい。

声道断面積関数は、一本の管の喉側から声帯を振動させた基準音を発声させると、口側から有る特定の音となって放音されることを前提とするモデルである。一方、鼻音は鼻腔へ空気を抜くことで生成される音であり、実質的に管が２本なければならず、声道断面積関数の前提と異なる。そのため、声道断面積関数の所定箇所や所定範囲の断面積から鼻音を発する口形状を求めることはできない。しかしながら、鼻音発声時の声道断面積関数の形状に着目すれば、鼻音を他の音と区別することができる。
よって、鼻音の検出時には開口面積を非検出時より小さくすることで、声道断面積関数を利用する形態をそのままに、自然な鼻音発声時の口形状を実現できる。

また、第１２の発明のように、第１〜第１１の何れかの発明のプログラムであって、前記音声データが無音状態を示していることを検出する無音状態検出手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、パラメータ値補正部２２０、音量履歴データ５３６、図１９のステップＳ８６）として前記コンピュータを機能させ、
前記口形状制御手段が、前記無音状態検出手段による検出が続くにつれて前記キャラクタの口の開口面積を徐々に小さくさせるように前記コンピュータを機能させるためのプログラムを構成してもよい。

第１２の発明によれば、第１〜第１１の何れかの発明と同様の効果を奏するとともに、無音状態を検知して、無音が続いた後に次第に口が閉じるといった人の自然な口の変化を口形状制御で実現することができる。

また、第１３の発明のように、第１〜第１２の何れかの発明のプログラムであって、前記口形状制御手段が、前記キャラクタの口形状の急激な変形を抑制する時間遅れ制御処理を実行する遅れ制御処理手段（例えば、図２の制御ユニット１３１０、図１０の処理部２００、パラメータ値補正部２２０、図１９のステップＳ８４、Ｓ９０）を有するように前記コンピュータを機能させるためのプログラムを構成してもよい。

第１３の発明によれば、第１〜第１２の発明の何れかと同様の効果を奏するとともに、キャラクタの口形状の急激な変形を抑制し、自然な変化を表現できる。

第１４の発明は、第１〜第１３の何れか一つのプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。ここで言う「情報記憶媒体」とは、例えば磁気ディスクや光学ディスク、ＩＣメモリなどを含む。本発明によれば、第１〜第１３の何れか一つの発明のプログラムをコンピュータに読み取らせて実行させることによって、コンピュータに第１〜第１３の何れか一つの発明と同様の効果を発揮させることができる。

システム構成例を示す図。業務用ゲーム装置の構成例を示す斜視外観図。オンラインマルチプレイゲームの概要を説明するための図。オンラインマルチプレイゲームにおけるゲーム画面例を示す図。アバターの口形状制御の原理の概要を説明するための概念図。口形状パラメータ値の算出原理について説明するための図。声道断面積関数から母音・有声子音に対応する口形状パラメータ値を算出する原理を説明するための図。声道断面積関数から鼻音に対応する口形状パラメータ値を算出する原理を説明するための図。声道断面積関数から擦過音に対応する口形状パラメータ値を算出する原理を説明するための図。第１実施形態の機能構成例を示す機能ブロック図。プレーヤ情報のデータ構成例を示す図。アバター設定データのデータ構成例を示す図。口形状パラメータ値設定データのデータ構成の例を示す図。マッチングデータのデータ構成の例を示す図。業務用ゲーム装置で実行される処理の流れを説明するためのフローチャート。口形状パラメータ値算出処理の流れを説明するためのフローチャート。音信号前処理の流れを説明するためのフローチャート。口形状決定処理の流れを説明するためのフローチャート。口形状補正処理の流れを説明するためのフローチャート。第２実施形態である玩具の構成例を示す図。第２実施形態における機能構成例を示す機能ブロック図。第２実施形態における処理の流れを説明するためのフローチャート。第２実施形態における口形状決定処理Ｂの流れを説明するためのフローチャート。口形状パラメータ値に基づいて制御される変形部位の変形例を示す図。

〔第１実施形態〕
次に、本発明を適用した第１実施形態として、複数のプレーヤが２チームに分かれて対戦するオンラインマルチプレイゲームで使用されるチャットを例に挙げて説明する。

［システムの構成］
図１は、本実施形態におけるシステム構成例を示す図である。同図に示すように、複数の業務用ゲーム装置１３００（１３００ａ〜１３００ｈ）が、インターネットやローカルネットワーク、専用回線網、その他の回線網、及び通信を仲介する中継装置等で成る通信回線１を介して互いにデータ送受信可能に接続されており、一台の業務用ゲーム装置１３００を一人のプレーヤが使用する。本実施形態では４人１チーム合計８人がプレイするために８台の業務用ゲーム装置１３００が図示されているが、１チーム当たりの業務用ゲーム装置１３００の台数は適宜設定することができる。

データ通信の形式についても適宜設定できる。例えば、ゲームスタート時にマッチングサーバ１４００にアクセスして互いのＩＰアドレス等の情報を取得した後、ピアツーピア形式で実現するとしても良いし、マッチングサーバ１４００を使用したクライアント／サーバー型で実現しても良く、公知のオンラインマルチプレイ対応のシステム構成を適宜適用できる。

［業務用ゲーム装置の構成］
図２は、業務用ゲーム装置１３００の構成例を示す斜視外観図である。業務用ゲーム装置１３００は、ゲーム装置本体１３０１の前方に突設された操作台１３０４に、プレーヤが各種操作入力をするためのジョイスティック１３０６や複数のプッシュスイッチ１３０８といった入力デバイスを備える。

また、ゲーム装置本体１３０１の上部には、ゲーム画像を表示させるための液晶パネルディスプレイやＣＲＴといったビデオモニタ１３２２と、ゲーム音や効果音を放音するスピーカ１３２４と、携行型の情報記憶媒体であるゲームカード１３３２からのデータ読み出しや書き込みをするゲームカードリーダライター１３３０とを備える。
そして、ゲーム装置本体１３０１の下部及び内部には、コインカウンタ１３４０と、制御ユニット１３１０と、図示されない電源装置とを備える。更に、マイク１３７２とヘッドホン１３７４を一体に備えたチャット用のヘッドセット１３７０を備える。

制御ユニット１３１０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）及びＤＳＰ（Digital Signal Processor）などの各種マイクロプロセッサ、ＡＳＩＣ(Application Specific Integrated Circuit)、ＩＣメモリなどの電気電子機器を備えたいわゆるコンピュータ基板を構成する。また、制御ユニット１３１０は通信装置１３１２を備え、インターネットやＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）と言った通信回線１と有線又は無線接続し、外部装置（特に同型の他の業務用ゲーム装置１３００やマッチングサーバ１４００）との間でデータ通信を実現する。そして、制御ユニット１３１０は、搭載されているＩＣメモリやハードディスクなどの情報記憶媒体からシステムプログラムやゲームプログラムを読み出して演算処理し、業務用ゲーム装置１３００の各部を制御する。

業務用ゲーム装置１３００でオンラインマルチプレイゲームをプレイするためには、プレーヤは公知のオンラインマルチプレイゲームと同様に、事前にプレーヤ登録してプレーヤ情報（例えば、ハンドルネーム、使用するキャラクタの種類など）を記憶したゲームカード１３３２を入手する必要が有る。
ゲームプレイに際しては、業務用ゲーム装置１３００のゲームカードリーダライター１３３０にこれを差し込み、記憶されているプレーヤ情報を読み取らせる必要がある。プレーヤ登録及びゲームカード１３３２の発行は、公知のように別途専用の登録装置を設けて行うとしても良いし、業務用ゲーム装置１３００が行うとしても良い。尚、プレーヤ登録情報はゲームカード１３３２の他にマッチングサーバ１４００においても記憶・管理される。

さて、コインカウンタ１３４０で所定額のコインの投入を検出したならば、制御ユニット１３１０がゲームプログラムを読み出して実行し、業務用ゲーム装置１３００は本発明を実現するゲーム装置及び本発明が適用された口形状音声同期制御装置として機能する。

業務用ゲーム装置１３００は、ゲーム開始に際して先ずゲームカードリーダライター１３３０でプレーヤのゲームカード１３３２からプレーヤ情報を読み出す。そして、公知のオンラインマルチプレイゲームと同様にマッチングサーバ１４００にアクセスしてマッチング処理を行い、参加する他の業務用ゲーム装置１３００（以下、単に「他ゲーム装置」とも言う。）のデータ送信先を特定するための情報（例えばＩＰアドレス）やプレーヤ情報を取得する。そして、ゲームプレイ中は、ジョイスティック１３０６やプッシュスイッチ１３０８に為された操作入力に基づく操作入力コードや、ヘッドセット１３７０のマイク１３７２で集音したプレーヤ（話者）の声の音データを他ゲーム装置に所定サイクルで送信する一方、他ゲーム装置から送出された操作入力コードや声データを受信する。

業務用ゲーム装置１３００は、他ゲーム装置から受信した操作入力コードと自ゲーム装置への操作入力に基づく操作入力コードとに基づいて、仮想３次元空間内に形成されたゲーム空間に配置されたプレーヤキャラクタの動作等を制御する。そして、その様子を仮想カメラで撮影した画像をゲーム画面として生成し、適当なタイミングでＢＧＭや効果音などのゲーム音を生成する。

生成されたゲーム画面はビデオモニタ１３２２で表示され、生成されたゲーム音はスピーカ１３２４で放音される。プレーヤはビデオモニタ１３２２に映し出されるゲーム画面を見つつ、スピーカ１３２４から放音されるゲーム音を聞きつつゲームをプレイする。

また、業務用ゲーム装置１３００は、音データを受信したならば、ゲーム画面に当該音データの話者であるプレーヤが選択したアバターの顔を映す画像を表示させつつ、音データの再生を行いヘッドホン１３７４から放音させる。

［ゲーム概要の説明］
図３は、本実施形態におけるオンラインマルチプレイゲームの概要を説明するための図である。本実施形態では、４人１チームを編成し、２チームが一つのゲーム空間１０で銃器等の武器を使って交戦する対戦ゲームを実行する。

例えば同図に示すように、仮想方位南北に長い直方体領域をゲーム空間１０とし、各所に障害物１２を配置するとともに南端及び北端それぞれに各チームの拠点１４ａ、１４ｂを配置する。一方のチームは戦車を含む合計４体のプレーヤキャラクタ２０ａ、２０ｂ、２０ｃ、２０ｄで編成され、他方のチームも戦車を含む合計４体のプレーヤキャラクタ２２ａ、２２ｂ、２２ｃ、２２ｄで編成されている。各プレーヤキャラクタは、各業務用ゲーム装置１３００でプレイするプレーヤと一対一で対応し、各プレーヤの操作入力に従って行動制御される。

図４は、本実施形態におけるオンラインマルチプレイゲームにおけるゲーム画面例を示す図である。各業務用ゲーム装置１３００にて表示されるゲーム画面Ｗ２は、各ゲーム装置が対応づけられたプレーヤキャラクタの一人称視点で描かれる。

ゲーム画面内には、方位表示３１や、マップ表示部３２、照準マーク３３、選択武器表示部３４、ヒットポイントゲージ３６、戦況指数表示部３８、チャット画面４０が表示される。

ヒットポイントゲージ３６は、自プレーヤキャラクタの現在のヒットポイント値を示すゲージである。ヒットポイントが「０」になると戦闘不能になる。
戦況指数表示部３８は、味方チームと敵チームとの戦況の優劣具合をバーの長さで示す。バーが中央より右側に伸びていれば味方が優勢、中央より左側なら劣勢に相当する。戦況指数そのものは、チーム対戦形式の公知ゲームの技術を適宜応用できる。例えば各チーム毎の全プレーヤキャラクタのヒットポイント総合計が多い程高く、行動不能なプレーヤキャラクタが多いほど低くなるといった具合に所定のルールで算定され、算定された各チーム毎の指数の比で算出される。

プレーヤは、味方チームの他のプレーヤとチャットしてコミュニケーションをとりながら自プレーヤキャラクタを移動させ、画面内に表示される照準マーク３３を視界内の敵チームのプレーヤキャラクタや拠点に合わせ射撃してこれを破壊する。チームを構成するプレーヤキャラクタ全てが戦闘不能になった場合、又は拠点が破壊された場合に、当該チームの負けとなる。

チャット画面４０は、チャットが行われるとゲーム画面内に表示されるサブ画面である。チャット画面４０には、他ゲーム装置から受信した音データの話者であるプレーヤの代理をするアバター４２の正面画像及びアバター呼称４４とが表示される。アバター４２は、チャットの音データの再生に同期して当該音データを発言しているように口元を含む表情がアニメーションされる。

［アバターの口形状制御の原理の説明］
図５は、本実施形態におけるアバター４２の口形状制御の原理の概要を説明するための図である。プレーヤが所定のチャット発言開始操作を入力し、ヘッドセット１３７０のマイク１３７２に向けて発言すると、その音声は音データ５０として他ゲーム装置へ送信され、受信先で同様の音データとして記憶される。これが、アバター４２の口形状を制御するための元になるデータである。

他ゲーム装置から受信した音データ５０は、所定時間幅（例えば、１／６０秒）で次々に切り出され、切り出された部分５２それぞれついて、アバター４２の口形状を制御するのに供される口形状パラメータ値が算出される。

本実施形態における口形状パラメータ値の算出に関する設定は、母音・有声子音系の設定と、鼻音系の設定と、擦過音系の設定との３パターンある。その何れかが選択され、選択された設定に従って具体的な口形状パラメータ値が算出される。

アバター４２のモデルのうち少なくとも口元部分４２ｍ（アバターが発声放音するのに伴って変形する部位）は、算出された口形状パラメータ値に基づいて制御される。そして、その様子を仮想カメラで正面から撮影した画像がレンダリングされ、正面画像としてチャット画面４０内に表示される。つまり、プレーヤの肉声の音データ５０から、アバター４２の口形状を判定し制御するので、単なるそれらしい口パクではなく、まさしくアバター４２がしゃべっているかのようにみえるチャット画面４０を実現することができる。

図６〜図９は、具体的な口形状パラメータ値の算出原理について説明するための図である。口形状パラメータ値の算出に際しては、先ず図６に示すように、音データ５０を走査し、走査された音データ５０の部分５２ごとに、プレーヤの発声時の声道形状を推定しモデル化した声道断面積関数５４を算出する。声道断面積関数５４の算出方法は、公知技術を適宜利用することができる。

そして、算出した声道断面積関数５４を、口側から喉側へ向けて複数のブロック（例えば、１２〜２５ブロック程度。同図の例は１５ブロック。）に分け、喉側から５〜７ブロック程度を第１判定ブロック群として、当該ブロック群における断面特性に基づいて口形状パラメータ値の一つである「口の縦長さ」を算出する。また、口側から２〜４ブロック程度を第２判定ブロック群として、当該ブロック群における断面特性から口の面積を算出し、この口の面積と先に算出した口の縦長さとから「口の横長さ」を算出する。また更に、声道断面積関数５４の口側端の開口断面積に基づいて鼻音の判定をする。

尚、声道断面積関数５４を分割するブロックの総数、第１判定ブロック群とするブロック数、第２判定ブロック群とするブロック数の設定は、プレーヤの人種、性別、年齢などの組み合わせに応じて適宜事前にチューニングされる。

図７は、声道断面積関数から母音・有声子音の口形状パラメータ値を算出する原理を説明するための図である。ここでは、母音・有声子音における代表例を挙げている。尚、声道断面積関数５４（５４ａ，５４ｂ，５４ｃ）については実際に人が発する声の特徴が分かりやすいように外形を単純化して示している。

人間の声道周りの構造上、口を縦に大きく開けると喉の面積が小さくなる特徴がある。同図に示すように、実際に人が発する音の代表例「ａ」「ｉ」「ｕ」と、その時の口の形状５６（５６ａ，５６ｂ，５６ｃ）及び声道断面積関数５４（５４ａ，５４ｂ，５４ｃ）に着目すると、第１判定ブロック群の平均断面積ｄ１が大きい程、口の縦長さが小さくなることが分かる。また、第２判定ブロック群の平均断面積ｄ２が大きい程、口の面積（口の広さ）ｄｍが大きくなることが分かる。

この特徴を利用して、喉の部分の断面積に相当する平均断面積ｄ１から口の縦長さｌｙを推定する関数を設定できる。本実施形態では、平均断面積ｄ１が大きくなる程、縦長さｌｙが小さくなるような所定の関数で口の縦長さｌｙを算出する。同図の例では、平均断面積ｄ１をＸ軸、口の縦長さｌｙをＹ軸とする直交座標系において右下がりの線形関数としているが、グラフが右下がりの関係を実現するならば関数は線形関数に限らない。

そして、口の中の断面積に相当する平均断面積ｄ２と、口の縦長さｌｙとから口の横長さｌｘを推定することができる。本実施形態では、平均断面積ｄ２が大きくなる程大きくなるように所定の関数で開口面積ｄｍを求め、開口面積ｄｍと口の縦長さｌｙから口の横長さｌｘ（＝ｄｍ／ｌｙ）を導く。尚、同図の例では、平均断面積ｄ２をＸ軸、口の面積ｄｍをＹ軸とする直交座標系において右上がりの線形関数としているが、グラフが右上がりの関係を実現するならば関数は線形関数以外を適用することができる。また、同図のように平均断面積ｄ２と口の面積ｄｍが線形関係にある場合、ｌｘ＝ｋ・ｄ２／ｌｙ（ｋは係数）として求める構成としても良い。

図８は、声道断面積関数から鼻音の口形状パラメータ値を算出する原理を説明するための図である。ここでは、鼻音における代表例「ｍ」「ｎ」を挙げている。尚、声道断面積関数５４（５４ｄ，５４ｅ）については実際に人が発する声の特徴が分かりやすいように外形を単純化して示している。

鼻音は、鼻に空気が抜ける音であり、口に空気が抜ける音と同列に声道断面積関数を扱うことはできない。しかし、実際に鼻音から求めた声道断面積関数においては、開口面積ｄ３（ｄ３ｍ、ｄ３ｎ）が、母音・有声子音におけるそれよりも小さくなる特徴がある。本実施形態は、この特徴の有無によって音データ５０より切り出された部分５２の音が鼻音であるか否かの判定をする。

更に、「ｍ」音は「ｎ」音の時よりも開口面積ｄ３が小さくなる傾向があることに着目して、本実施形態では、所定の基準よりも小さければ「ｍ」の鼻音と判定し、基準よりも大きければ「ｎ」の鼻音と判定する。
また、「ｍ」の鼻音は「ｎ」の鼻音に比べて、声道断面積関数に設定した各ブロックの断面積の変化に着目すると、口側から喉側に向けて緩やかに減少する特徴が有ることを判定条件として利用することもできる。また更には、「ｎ」の鼻音では、口側から５ブロック程度に注目した場合、口側から第１又は第２のブロックまでが、それ以降のブロックに比べて断面積が小さくなる（声道断面積関数５４ｅにおける破線丸印箇所）特徴があるので、これを判定条件として利用することもできる。

そして、「ｍ」の鼻音の場合には、口を閉じた状態となるように口形状パラメータ値を決定し、「ｎ」の鼻音の場合には、僅かに口を開けた状態となるように口形状パラメータ値を決定する。例えば口形状パラメータ値を０（全閉）〜１．０（最大）で表現すると、口の縦長さｌｙを０．２程度、口の横長さｌｘを０．４程度とする。

図９は、声道断面積関数５４から擦過音（摩擦音とも言う）の口形状パラメータ値を算出する原理を説明するための図である。ここでは、擦過音における代表例として「ｓ」「ｈ」「ｋ」の音を挙げている。尚、声道断面積関数５４（５４ｆ，５４ｇ，５４ｈ）については実際に人が発する声の特徴が分かりやすいように外形を単純化して示している。

擦過音は、舌を口蓋に近づけることで声道の途中に非常に狭い部分を作り、そこに呼気を素早く通すことで発生される一種の雑音である。本実施形態では、擦過音の声道断面積関数の形状が、開口面積ｄ３が母音・有声子音におけるそれよりも極端に大きくなるとともに、喉部分の平均断面積係数ｄ１が母音・有声子音におけるそれよりも極端に小さくなる特徴に着目して擦過音であるか否かの判定をする。

更に、平均断面積係数ｄ１が所定の基準値よりも小さい場合を「ｓ」の擦過音と判定する。また、平均断面積係数ｄ１が基準値よりも大きい場合には、口側から数ブロックにかけての声道断面積の減少度合い（図９の破線矢印）を声道断面積減少率とし、これが所定の基準値よりも大きい（減少が急激である）場合を「ｈ」の擦過音と判定し、それ以外を「ｋ」の擦過音と判定する。

そして、それぞれの擦過音には予め所定の口形状パラメータ値が用意されており、これを使用する。具体的には、本実施形態では、０（全閉）〜１．０（最大）として、口の横長さｌｘを０．１程度、口の縦長さｌｙを「ｓ」の擦過音で０．５程度、「ｈ」の擦過音で０．７程度、「ｋ」の擦過音で０．８程度とする。

［機能ブロックの説明］
次に、機能構成について説明する。
図１０は、本実施形態における機能構成の一例を示す機能ブロック図である。本実施形態では、操作入力部１００と、情報記憶媒体リーダライター部１３０と、処理部２００と、音出力部３５０と、画像表示部３６０と、通信部３７０と、記憶部５００とを備える。

操作入力部１００は、プレーヤによって為された各種の操作入力に応じて操作入力信号を処理部２００に出力する。本実施形態では音声入力部１１０を含む。図２では、ジョイスティック１３０６、プッシュスイッチ１３０８、ヘッドセット１３７０のマイク１３７２（音声入力部１１０相当）が操作入力部１００に該当する。

情報記憶媒体リーダライター部１３０は、プレーヤ情報１４２等を記憶した外部記憶媒体である携行型情報記憶媒体１４０からデータを読み出したりデータを書き込むことのできる装置である。図２では、ゲームカードリーダライター１３３０がこれに該当し、例えば、携行型情報記憶媒体１４０であるゲームカード１３３２が磁気カードであれば磁気カードリーダーライター装置、ＩＣカードであればＩＣカードリーダーライター装置で実現される。

プレーヤ情報１４２には、例えば図１１に示すように、プレーヤＩＤ１４２ａと、プレーヤキャラクタの種類を示す使用キャラクタ種類１４２ｂと、チャット画面４０（図４参照）においてプレーヤの代理として表示されるアバター４２の種類を示すアバターＩＤ１４２ｃと、プレーヤが事前に決めたアバター呼称１４２ｄが格納される。
更に、プレーヤ自身に関する情報として、プレーヤ性別１４２ｅと、プレーヤ年齢１４２ｆ、といった情報が格納されている。その他、プレーヤ自身に関する情報としては人種、方言種類などを設定することもできる。また、公知のオンラインマルチプレイゲームと同様に適宜プレイ履歴に関する情報等を記憶することもできる。
尚、これらの情報管理は、公知のオンラインマルチプレイゲームにおけるプレーヤ情報１４２の管理と同様に実現される。

処理部２００は、例えばマイクロプロセッサやＡＳＩＣ（特定用途向け集積回路）、ＩＣメモリなどの電子部品によって実現され、操作入力部１００や記憶部５００を含む各機能部との間でデータの入出力を行うとともに、所定のプログラムやデータ、操作入力部１００からの操作入力信号に基づいて各種の演算処理を実行して、業務用ゲーム装置１３００の動作を制御する。図２では、ゲーム装置本体１３０１に内蔵された制御ユニット１３１０が処理部２００に該当する。
そして本実施形態における処理部２００は、ゲーム演算部２１０と、音生成部２５０と、画像生成部２６０と、通信制御部２７０とを備える。

ゲーム演算部２１０は、ゲームの進行に係る処理を実行する。例えば、ゲーム開始前のマッチング処理、操作入力部１００からの操作入力に基づく操作入力コードを他ゲーム装置へ送信する処理、ゲーム空間を仮想３次元空間中に形成する処理、仮想３次元空間中に配置された自プレーヤの使用キャラクタや他プレーヤの使用キャラクタの動作制御処理、チャット音声の音データを他ゲーム装置へ逐次送信する処理、チャット画面４０の表示制御、それに関するアバターのモデル制御処理が実行対象に含まれる。更に、ヒット判定処理、物理演算処理、参加チームの戦況を示す戦況指数の算出処理、レーダ画面等のゲーム画面を構成する各要素（例えば、図４の方位表示３１や、マップ表示部３２、ヒットポイントゲージ３６、戦況指数表示部３８など）の生成に係る処理、などが実行対象に含まれる。

そして、本実施形態のゲーム演算部２１０は、マッチング処理部２１２と、音データ処理部２１４と、声道断面積関数算出部２１６と、口形状判定部２１８と、パラメータ値補正部２２０と、口形状制御部２２２とを含んでいる。音データ処理部２１４、声道断面積関数算出部２１６、口形状判定部２１８及びパラメータ値補正部２２０は、口形状パラメータ値算出に関する主要機能部である。

マッチング処理部２１２は、ゲーム開始に際してマッチングサーバ１４００にアクセスしてゲームに参加する互いのＩＰアドレス等の情報を交換・取得する所謂「マッチング処理」を実行する。本実施形態では１チーム４プレーヤキャラクタで構成され、一方のチームが１号機〜４号機で編成され、他方のチームが５号機〜８号機で編成されるので、自ゲーム装置を含む合計８台分の業務用ゲーム装置のＩＰアドレス及び各プレーヤのプレーヤ情報などを取得することができる。そして、マッチング処理で得られた情報を、記憶部５００にマッチングデータ５３０として記憶する。

音データ処理部２１４は、ゲーム装置に送信するために音声入力部１１０から入力された音声から音データを生成する。また、通信部３７０を介して他ゲーム装置から受信した音データ５３４も記憶部５００に一時記憶する。そして、音データ５３４への各種フィルタ処理や音声加工処理、音データ５３４から口形状パラメータ値算出のための切り出し処理、などを行う。

声道断面積関数算出部２１６は、音データ処理部２１４によって音データ５３４から切り出された部分５２（図６参照）について声道断面積関数を算出する。

口形状判定部２１８は、算出された声道断面積関数から口の形状を判定し、判定した形状を実現するための口形状パラメータ値を暫定的に決定する。

パラメータ値補正部２２０は、口形状判定部２１８で暫定的に決定された口形状パラメータ値を補正処理して最終的な口形状パラメータ値とする。具体的には、例えばパラメータ値を所定範囲内にクリッピングして適正化したり、フィルタ処理してパラメータ値の不自然な変動を抑止する。また、音データ５３４における無声状態を検出し、無声状態への突入タイミング直後に当る口形状パラメータ値を補正・適正化する。

口形状制御部２２２は、決定された口形状パラメータ値に基づいて、アバター４２の口元の形状制御を実行する。本実施形態では、アバター４２は３ＤＣＧによって描かれるので、口元のポリゴン頂点や口周り等を表す内部骨格モデルを制御する。尚、制御対象は、口元に限らず、発声に伴って変形する部位であれば、頬、鼻周辺などその他の部分を適宜含めることができる。また、口元などの部分を局所的に制御する技術は、３ＤＣＧモデルに関する公知技術を適宜利用することで実現できる。

音生成部２５０は、例えばデジタルシグナルプロセッサ（ＤＳＰ）などのプロセッサやその制御プログラムによって実現され、ゲーム演算部２１０による処理結果に基づいてゲームに係る効果音やＢＧＭ、各種操作音、チャット音声の音データ５３４に基づいて音信号を生成し、音出力部３５０に再生出力する。

音出力部３５０は、音生成部２５０から出力された音信号に基づいて効果音やＢＧＭ等を音出力する装置によって実現される。図２ではスピーカ１３２４及びヘッドセット１３７０のヘッドホン１３７４がこれに該当する。

画像生成部２６０は、例えば、ＧＰＵやデジタルシグナルプロセッサ（ＤＳＰ）などのプロセッサ、その制御プログラム、フレームバッファ等の描画フレーム用ＩＣメモリ等によって実現される。画像生成部２６０は、ゲーム演算部２１０による処理結果に基づいて１フレーム時間（例えば１／６０秒）で１枚のゲーム画像を生成し、生成したゲーム画像の画像信号を画像表示部３６０に出力する。

画像表示部３６０は、画像生成部２６０から出力される画像信号に基づいて各種ゲーム画像を表示する。例えば、フラットパネルディスプレイ、ブラウン管（ＣＲＴ）、プロジェクター、ヘッドマウントディスプレイといった画像表示デバイスによって実現できる。図２ではビデオモニタ１３２２が該当する。

通信制御部２７０は、データ通信に係るデータ処理を実行し、通信部３７０を介して外部装置（本実施形態では他ゲーム装置）とのデータのやりとりを実現する。

通信部３７０は、通信回線１と接続して通信を実現する。例えば、無線通信機、モデム、ＴＡ（ターミナルアダプタ）、有線用の通信ケーブルのジャックや制御回路等によって実現され、図２では通信装置１３１２がこれに該当する。

記憶部５００は、処理部２００に業務用ゲーム装置１３００を統合的に制御させるための諸機能を実現するためのシステムプログラムや、ゲームを実行させるために必要なゲームプログラム、各種データ等を記憶する。また、処理部２００の作業領域として用いられ、処理部２００が各種プログラムに従って実行した演算結果や操作部１００から入力される入力データ等を一時的に記憶する。この機能は、例えばＲＡＭやＲＯＭなどのＩＣメモリ、ハードディスク等の磁気ディスク、ＣＤ−ＲＯＭやＤＶＤなどの光学ディスク、磁気カード、ＩＣカードなどによって実現される。

本実施形態では、記憶部５００はシステムプログラム５０１と、ゲームプログラム５０２とを記憶している。処理部２００はゲームプログラム５０２を読み出して実行することによってゲーム演算部２１０としての機能を実現する。

本実施形態では更に、ゲームプログラム５０２がミドルウェアとして口形状パラメータ値算出プログラム５０４を含んでいる。口形状パラメータ値算出プログラム５０４は、処理部２００に音データ処理部２１４の機能を実現させるための音データ処理プログラム５０６と、声道断面積関数算出部２１６の機能を実現させるための声道断面積関数算出プログラム５０８と、パラメータ値補正部２２０の機能を実現させるためのパラメータ値補正プログラム５１０とを含んでいる。

また、記憶部５００には、予め用意されるデータとして、ゲーム空間設定データ５１８と、キャラクタ設定データ５２０と、アバター設定データ５２２と、口形状パラメータ値設定データ５２４とが記憶されている。更にゲームの進行に伴って生成されたり随時書き換えられるデータとして、マッチングデータ５３０と、ゲーム進行状況データ５３２と、音データ５３４と、音量履歴データ５３６とを記憶する。また、ゲームの進行に係る処理を実行するにあたり適宜必要となるタイマ値や各種パラメータ値なども記憶される。

ゲーム空間設定データ５１８には、仮想３次元空間にゲーム空間１０（図３参照）を形成するための各種データが格納されている。例えば、ゲーム空間１０の境界、障害物１２、拠点１４ａ，１４ｂなどのモデルデータやテクスチャデータが含まれる。可動する障害物を設ける場合にはそれらのモーションデータも含まれる。

キャラクタ設定データ５２０には、ゲーム空間１０内に配置されるプレーヤキャラクタ２０ａ〜２０ｄ，２２ａ〜２２ｄの種類それぞれについて用意される。キャラクタ設定データ５２０は、それぞれのキャラクタのモデルデータやテクスチャデータ、モーションデータ、ヒットポイントなどの各種パラメータの初期設定データを格納している。

アバター設定データ５２２は、アバター４２の定義データを格納しており、プレーヤが選択可能な種類の数だけ用意される。
例えば、図１２に示すように、一つのアバター設定データ５２２は、アバターＩＤ５２２ａと対応づけて、アバターの３ＤＣＧを形成するためのモデルデータ５２２ｂ、テクスチャデータ５２２ｄ、モーションデータ５２２ｅといったデータを格納する。モデルデータ５２２ｂには、発声にともなって変形する部位に関する形状情報として、口元モデルデータ５２２ｃが含まれている。尚、アバター４２を２Ｄ画像として表示する場合には、口元モデルデータ５２２ｃに代えて、口元のみの画像を形状別に複数用意して、顔の口部分に張り替えできるようにすると良い。

口形状パラメータ設定値データ５２４は、想定されるプレーヤ（話者）の性別・年齢から判断される大人か子供の区別などの組み合わせの数だけ用意され、声道断面積関数から口形状パラメータ値を決定するための判定条件や、関数、予め用意されたパラメ−タ値のセットなどを格納する。
また、本実施形態では、口形状パラメータ設定値データ５２４を予め複数用意する構成としているが、口形状パラメータ設定値データ５２４はプレーヤの特性や、アバター（キャラクタ）の属性などに応じて、適宜変更可能に構成しても良い。

例えば、図１３に示すように、口形状パラメータ値設定データ５２４は、適用条件を示す情報としての適用性別５２４ａと、年齢５２４ｂを含む。その他、年齢層や人種などのデータを含む構成としても良い。更に、母音・有声子音について口形状パラメータ値を決定するための母音有声子音口面積算出関数５２４ｃ及び母音有声子音口縦長さ算出関数５２４ｄを含む。

また、擦過音に関しては、擦過音を判別するための条件及び擦過音の種類を判定するための条件を格納した擦過音判定条件５２４ｅと、擦過音の種類毎の口形状パラメータ値を格納する擦過音パラメータ値設定５２４ｆとを含む。
また、鼻音に関しては、鼻音を判別するための条件及び鼻音の種類を判定するための条件を格納した鼻音判定条件５２４ｇと、鼻音の種類毎の口形状パラメータ値を格納する鼻音パラメータ値設定５２４ｈとを含む。

マッチングデータ５３０は、マッチング処理によって生成されるデータであって、ゲームに参加する全プレーヤに関する情報を格納している。
例えば、図１４に示すように、業務用ゲーム装置１３００のＩＰアドレス５３０ａと対応づけて、当該装置を使用するプレーヤの使用する使用キャラクタＩＤ５３０ｂ、アバターＩＤ５３０ｃ、アバター呼称５３０ｄ、プレーヤ性別５３０ｅ、プレーヤ年齢５３０ｆを格納する。これらの情報は、マッチングされた業務用ゲーム装置１３００それぞれを使用するプレーヤのゲームカード１３３２に記憶されているプレーヤ情報１４２から読み出され、マッチング処理にともなって配信された情報である。

音量履歴データ５３６は、音データ５３４から切り出された音の部分５２（図６参照）の音量値の変化を時系列に記憶したデータである。

［動作の説明］
次に、本実施形態における業務用ゲーム装置１３００の動作について説明する。
図１５は、オンラインマルチプレイゲームを実行するにあたり各業務用ゲーム装置１３００で実行される処理の流れを説明するためのフローチャートである。ここで説明される処理は、処理部２００がシステムプログラム５０１、ゲームプログラム５０２を読み出して実行することによって実現される。
尚、ゲーム空間１０を自プレーヤキャラクタの一人称仮想カメラで撮影した画像や、ゲーム画面内に表示されるマップ表示部３２等の各種情報表示の生成、合成、画像表示部３６０への表示出力に係る処理は、公知のビデオゲームと同様に所定サイクルで自動的に行われることとし、ここでの説明は省略する。また、ＢＧＭや環境音などのゲーム音の生成と音出力部３５０での出力制御についても同様である。

処理部２００は、先ず情報記憶媒体リーダライター部１３０で携帯型情報記憶媒体１４０に記憶されているプレーヤ情報１４２を読み出し、公知のオンラインマルチプレイゲームと同様に、自プレーヤキャラクタの使用キャラクタ種類の設定処理を行う（ステップＳ２）。ここでは先に読み出したプレーヤ情報１４２は、マッチングデータ５３０の自装置に該当する情報として記憶される。

そして、処理部２００はマッチング処理を実行する（ステップＳ４）。マッチング処理は、公知のオンラインマルチプレイゲームと同様に実現できる。本実施形態では、各プレーヤの使用キャラクタ種類、アバターＩＤ、アバター呼称、プレーヤ性別、プレーヤ年齢の情報が、ゲームに参加する業務用ゲーム装置１３００間で交換され、記憶部５００にマッチングデータ５３０として格納される。

次に、処理部２００は仮想３次元空間にゲーム空間１０を形成するとともにプレーヤキャラクタ２０ａ〜２０ｄ，２２ａ〜２２ｄを配置し、ゲーム進行状況データ５３２を初期状態に設定してゲームを開始する（ステップＳ６）。

ゲームが開始されたならば、以降、処理部２００は、ステップＳ８〜Ｓ１０８の処理を所定の制御サイクル（例えば１／６０秒）で繰り返し実行する。

具体的には、処理部２００はマッチングした他ゲーム装置へ操作入力部１００から入力された操作入力信号に基づく操作入力コードを送信し（ステップＳ８）、他ゲーム装置から同様にして送出された操作入力コードを受信する（ステップＳ１０）。そして、処理部２００は、操作入力部１００から入力された操作入力信号に基づく操作入力コードと、他ゲーム装置から受信した操作入力コードとに基づいてゲーム空間１０内の各プレーヤキャラクタ２０ａ〜２０ｄ，２２ａ〜２２ｄの移動や攻撃など様々な動作を制御する（ステップＳ１２）。

次に、処理部２００は操作入力部１００からチャットの発言操作（例えば、所定のプッシュスイッチ１３０８を押下するなど）が為されたことを検知して（ステップＳ１４のＹＥＳ）、音声入力部１１０から入力されたプレーヤのチャット音声の音データを生成し（ステップＳ１６）、他ゲーム装置へ生成した音データを送信する（ステップＳ１８）。
また、他ゲーム装置から音データを受信した場合（ステップＳ２０のＹＥＳ）、処理部２００は記憶部５００にこの受信した音データ５３４を一時保存する（ステップＳ２２）。

そして、記憶部５００に未再生の音データ５３４が有れば（ステップＳ２４のＹＥＳ）、処理部２００はチャット画面４０（図４参照）が表示されていなければ（ステップＳ２６のＹＥＳ）、これを表示制御する（ステップＳ２８）。具体的には、マッチングデータ５３０から未再生の音データ５３４の送信元に対応づけられたアバターＩＤ５３０ｃを参照し、該当するアバター設定データ５２２に基づいて、ゲーム空間１０とは別の仮想３次元空間にアバター４２のモデルを配置し、ゲーム空間１０を撮影するのとは別のサブ仮想カメラで撮影した正面画像をレンダリングして、ゲーム画面の所定位置に表示させる。また、マッチングデータ５３０から再生中の音データ５３４の送信元に対応づけられたアバター呼称５３０ｄを参照して、正面画像の下方にアバターの識別情報４４としてテキスト表示する。

チャット画面を表示したら、処理部２００は未再生の音データ５３４を今回の制御サイクル分だけ再生し（ステップＳ３０）、口形状パラメータ値算出処理を実行する（ステップＳ３２）。

図１６は、本実施形態における口形状パラメータ値算出処理の流れを説明するためのフローチャートである。同処理では、処理部２００は音信号前処理（ステップＳ４０）、声道断面積関数算出処理（ステップＳ５０）、口形状決定処理（ステップＳ５２）、口形状補正処理（ステップＳ８０）、を順に実行する。

図１７は、本実施形態における音信号前処理の流れを説明するためのフローチャートである。同処理では、先ず処理部２００は音データ５３４を読み出してそのサンプリング周波数を声道断面積関数の算出に十分な程度に低減し、以降の演算負荷を軽減する（ステップＳ４２）。例えば、音データ５３４がＣＤ並のサンプリング周波数であれば、概ね半分まで低減しても良い。

次いで、求められた声道断面積関数に傾斜補正フィルタ処理を実行して、声帯の周波数特性と口からの放射特性を除去する（ステップＳ４４）。傾斜補正フィルタ処理は、公知の処理であるため詳細な説明は省略するが、本実施形態では、例えば６ｄＢ／ｏｃｔ程度の補正フィルタを掛ける。

次いで、処理部２００は今回の制御サイクルで再生される音データ５３４の未処理部分の先頭から所定時間幅で部分５２（図６参照）を切り出して（ステップＳ４６）、今回切り出された部分の音量を算出し、音量履歴データ５３６に時系列に格納し（ステップＳ４８）、音信号前処理を終了する。

図１８は、本実施形態における口形状決定処理の流れを説明するためのフローチャートである。同処理において、処理部２００は先ず、今回の制御サイクルで再生される音データ５３４の送信元に対応するプレーヤ情報として、マッチングデータ５３０からプレーヤ性別５３０ｅと、プレーヤ年齢５３０ｆを参照して、それらの設定に合致する口形状パラメータ値設定データ５２４を読み出す（ステップＳ５６；図１３参照）。

次いで、処理部２００は、読み出した口形状パラメータ値設定データ５２４に従って、先に算出した声道断面積関数における第１判定ブロック群の平均断面積ｄ１と、第２判定ブロック群の平均断面積ｄ２と、開口面積ｄ３とを算出する（ステップＳ５８）。

そして、算出した平均断面積ｄ１、平均断面積ｄ２及び開口面積ｄ３が擦過音の判定条件５２４ｅを満たすならば（ステップＳ６０のＹＥＳ）、処理部２００は更に擦過音の種類を判定し（ステップＳ６２）、擦過音パラメータ値設定５２４ｆを参照して判定した擦過音の種類に対応する口形状パラメータ値を暫定値として（ステップＳ６４）、口形状決定処理を終了する。

一方、鼻音判定条件５２４ｇを満たす場合には（ステップＳ６６のＹＥＳ）、処理部２００は更に鼻音の種類を判定し（ステップＳ６８）、鼻音パラメータ値設定５２４ｈを参照して判定した鼻音の種類に対応する口形状パラメータ値を暫定値として（ステップＳ７０）、口形状決定処理を終了する。

また、擦過音の判定条件も鼻音の判定条件も満たさない場合には（ステップＳ６６のＮＯ）、処理部２００は母音・有声子音に該当すると判断して、母音有声子音口縦長さ算出関数５２４ｄに基づいて平均断面積ｄ１から口の縦長さｌｙを算出し（ステップＳ７２）、母音有声子音口面積算出関数５２４ｃに基づいて平均断面積ｄ２から口の面積ｄｍを算出する（ステップＳ７４）。
そして、口の面積ｄｍと口の縦長さｌｙとから所定の関数で口の横長さｌｘを算出する（ステップＳ７６）。そして、それらを暫定値として（ステップＳ７８）、口形状決定処理を終了する。

図１９は、本実施形態における口形状補正処理の流れを説明するためのフローチャートである。同処理では、処理部２００は先ず、口形状決定処理で暫定値とされた口縦長さｌｙ及び口横長さｌｘをそれぞれの上限値でクリッピングする（ステップＳ８２）。これによって、口を開けたときの大きさを有限とする。

次に、処理部２００は、クリッピング補正された口縦長さｌｙ及び口横長さｌｘが、それぞれ直前の制御サイクルで求められた値に対して突発的に大きく変化する要素を除去する（ステップＳ８４）。具体的には、公知のメジアンフィルタ処理を施す。これによって、音データ５３４からの部分５２の切り出しのタイミングによって、偶発的に直前と大きく値の異なるパラメータ値が生じた場合でも、これを補正し、アバター４２の口形状が瞬発的に大きくなったり小さくなるといった不具合を防止することができる。

次いで、処理部２００は音量履歴データ５３６を参照して、今回の制御サイクルから過去所定時間内の音量が基準値に達せず、無音状態が継続していると判断できるか否かを判定する（ステップＳ８６）。そして、肯定の場合（ステップＳ８６のＹＥＳ）、口形状決定処理で決定された口形状パラメータ値を、無音状態の継続時間に応じた所定割合で減少させる（ステップＳ８８）。例えば、１秒当たり７０％減で減少させ、口の縦長さｌｙの最小値を「０」、口の横長さｌｘの最少値を「０．４」とする。

次いで、処理部２００は口形状パラメータ値にローパスフィルタ処理を行って、口元の形状が微細に開閉するといったパラメータ値の不自然な変動を抑止して、最終的な口形状パラメータ値を決定し（ステップＳ９０）、口形状補正処理を終了する。

口形状補正処理が終了したら、本実施形態における口形状パラメータ値算出処理は終了し、図１５のフローチャートに戻り、処理部２００は決定された口形状パラメータ値に基づいてアバター４２の口部分の形状を制御して、再生される音データにアバター４２の口元の動きを同期させる（ステップＳ１００）。

次いで、処理部２００はゲーム結果の算出処理を実行する（ステップＳ１０２）。ゲーム結果の算出処理としては、プレイ時間の算出、プレーヤキャラクタ間の攻撃のヒット判定、被弾に伴うヒットポイントの減算、残弾数の変更、戦況指数の算出などの処理を行い、ゲーム進行状況データ５３２を更新する。

そして、算出されたゲームの結果が所定のゲーム終了条件を満たしていなければ（ステップＳ１０４のＮＯ）、処理部２００は自プレーヤキャラクタが戦闘継続可能であるか判定する（ステップＳ１０６）。
自プレーヤキャラクタのヒットポイントが「０」になっていなければ戦闘継続可能と判定して（ステップＳ１０６のＹＥＳ）、ステップＳ８の処理に移行する。戦闘継続不可能であれば（ステップＳ１０６のＮＯ）、公知のオンラインマルチプレイゲームと同様にしてゲーム画面表示用の仮想カメラを所定の観戦モードで制御し（ステップＳ１０８）、ステップＳ１０に移行する。

一方、ゲーム終了条件を満たしていれば（ステップＳ１０４のＹＥＳ）、処理部２００はゲームカード１３３２に記憶されているプレーヤ情報１４２を更新して（ステップＳ１１０）、所定のゲーム終了処理を実行して（ステップＳ１１２）、オンラインマルチプレイゲームに係る一連の処理を終了する。

以上、本実施形態によれば、人の発した音声に合わせた自然な口元の形状制御を実現することができる。
しかも、口形状の制御に用いる口形状パラメータ値を声道断面積関数を元に求める構成とすることで、従来の音声認識を用いて音の種類を判別して口形状を制御する手法に比べて演算負荷を低減することができる。よって、高い処理能力が期待できないゲーム装置においても、リアルタイムでの口形状制御を実現できる。また、音声認識用の膨大な辞書データを保持する必要がないので、巨大な記憶領域を確保する必要が無い。

また、声道断面積関数の特性上、口から発せられる音は言語種類に依存せず声道断面積関数に依存する。従って、従来の音声認識を用いて音の種類を判別して口形状を制御する手法に比べて容易に外国語対応が可能になる。

〔第２実施形態〕
次に、本発明を適用した第２実施形態として、オペレータがヘッドセットに向けて発音した音声を元におしゃべりする玩具を例に挙げて説明する。尚、第１実施形態と同様の構成要素については同じ符合を付与して説明は省略するものとする。

図２０は、本実施形態における口形状音声同期制御装置に相当する玩具１０００の構成例を示す図である。玩具１０００は、台座１００１と、その上部立設された立体モデルであるキャラクタ１００２と、近距離無線通信機能を有したヘッドセット１３７０とを有する。尚、ヘッドセット１３７０については、玩具１０００の付属物ではなく、別途用意した汎用のヘッドセットを用いる構成とすることもできる。

キャラクタ１００２は、例えばプラスチック製の骨格上に布などの皮膜をかけて作られたヌイグルミ様の外観を有する。口元内部には、口を縦方向に開閉動する電子制御式の縦方向アクチュエータ１００４と、口を横方向に開閉動する電子制御式の横方向アクチュエータ１００６と、スピーカ１００８とを備える。

台座１００１は、その内部に、縦方向アクチュエータ１００４や横方向アクチュエータ１００６を含む玩具１０００の各部を電子制御するための制御ユニット１０５０と、図示されない電源ユニットと、オペレータ２の性別や年齢（大人／子供）などのオペレータ情報（第１実施形態のプレーヤ情報における同様のパラメータに相当）を設定するオペレータ設定ダイヤル１０５４とを備える。

制御ユニット１０５０は、第１実施形態の制御ユニット１３１０に相当する。制御ユニット１０５０は、近距離無線機能を内蔵したヘッドセット１３７０と無線通信する近距離無線通信チップ１０５２を搭載しており、ヘッドセット１３７０のマイク１３７２で集音した音声の音声信号を受信することができる。

制御ユニット１０５０は、ヘッドセット１３７０から受信したオペレータ２の音声信号をスピーカ１００８からキャラクタ１００２のおしゃべり声として再生させるとともに、当該音声の音データ５３４に基づいて口形状パラメータ値を算出する。そして、算出した口形状パラメータ値を元に縦方向アクチュエータ１００４及び横方向アクチュエータ１００６を制御して、あたかも再生される音声をキャラクタ１００２自身が話しているかのようにキャラクタ１００２の口元を自然な口形状となるように制御する。

図２１は、本実施形態における機能構成例を示す機能ブロック図である。
第１実施形態と比較すると、本実施形態では操作入力部１００にオペレータ情報入力部１３２を備える。図２０のオペレータ設定ダイヤル１０５４が、これに該当する。尚、オペレータ情報入力部１３２は、第１実施形態と同様に携帯型情報記憶媒体１４０と情報記憶媒体リーダライター部１３０とで実現し、携帯型情報記憶媒体１４０に記憶されているオペレータ情報を読み出す構成とすることもできる。

また、オペレータ２の音声を入力するための音声入力部１１０は、通信部３７０と同様の通信部１７０を備え、集音した音データを通信部３７０へ送信する。図２０では、近距離無線対応のヘッドセット１３７０が音声入力部１１０に該当する。

また、本実施形態における処理部２００Ｂは、第１実施形態の処理部２００に相当し、記憶部５００に記憶されている玩具制御プログラム５０３を読み込み、それに従って演算処理することによって玩具１０００全体を電子制御する。
そして、処理部２００Ｂは、音データ処理部２１４、声道断面積関数算出部２１６、口形状判定部２１８、パラメータ値補正部２２０、音生成部２５０、及び通信制御部２７０を第１実施形態と同様に備えるが、画像生成部２６０が省略され、第１実施形態の口形状制御部２２２に代わる機能部として口形状駆動制御部２２４を含む。

口形状駆動制御部２２４は、キャラクタ１００２の口形状の駆動制御に係る演算処理や駆動制御信号の生成処理を実行し、生成した駆動制御信号を変形部位駆動部３８０に出力する。

変形部位駆動部３８０は、各種アクチュエータによって実現され、キャラクタ１００２が有する音声の放音に伴って変形する部位を物理的に変形させる。
実施形態における変形部位駆動部３８０は、第１実施形態と同様に縦横の二つの寸法で開度が決まる口である。よって、口の縦方向への任意の開度を実現する縦方向駆動部３８２と、口の横方向への任意の開度を実現する横方向駆動部３８４とを含む。図２０の縦方向アクチュエータ１００４と横方向アクチュエータ１００６とがそれぞれ該当する。

次に、本実施形態における動作を説明する。図２２は、本実施形態における処理の流れを説明するためのフローチャートである。個々で説明する一連の処理は、処理部２００Ｂが玩具制御プログラム５０３を記憶部５００より読み出して演算処理することによって実現される。

処理部２００Ｂは、先ずヘッドセット１３７０からオペレータ２の音声信号を受信した場合（ステップＳ１００のＹＥＳ）、受信した音声信号から音データ５３４を生成して記憶部５００に一時保存する（ステップＳ１０２）。そして、未再生の音データ５３４がある場合には（ステップＳ１０４のＹＥＳ）、処理部２００Ｂは当該未再生の音データ５３４を再生するとともに（ステップＳ１０６）、口形状パラメータ値算出処理Ｂを実行する（ステップＳ１０８）。

口形状パラメータ値算出処理Ｂは、第１実施形態における口形状パラメータ値算出処理と基本的には同じであるが、口形状決定処理が僅かに異なる。図２３は、本実施形態における口形状決定処理Ｂの流れを説明するためのフローチャートである。口形状決定処理Ｂは第１実施形態における口形状決定処理と基本的には同じであるが、第１実施形態のステップＳ５６に代わってステップＳ５７を実行する。
具体的には、処理部２００Ｂは、オペレータ設定ダイヤル１０５４で設定されているオペレータの性別と年齢に、適用性別５２４ａと年齢５２４ｂの設定が合致する口形状パラメータ値設定データ５２４を記憶部５００より読み出し（ステップＳ５７；図１３参照）、読み出した同設定データの各種設定に従って、口形状パラメータ値を暫定する（ステップＳ５８〜Ｓ７８）。

口形状決定処理Ｂで暫定された口形状パラメータ値は、第１実施形態と同様にして口形状補正処理（ステップＳ８０；図１６参照）で補正されて口形状パラメータ値として最終的に決定され、口形状パラメータ値算出処理Ｂを終了する。

図２２のフローチャートに戻って、処理部２００Ｂは次に算出された口形状パラメータ値に基づいて変形部位駆動部３８０の駆動制御信号を生成し（ステップＳ１１０）、生成した信号を出力する（ステップＳ１１２）。

よって、本実施形態によればオペレータ２の音声をあたかも自身の口から発しているかのように見せるおしゃべり玩具を実現することができる。その口元の形状は人のそれを正確に再現しており、単にそれらしく見える口の開閉、所謂口パクだけよりもより本物らしく見せることができる。

〔変形例〕
以上、本発明を適用した第１〜第２実施形態について説明したが、本発明の実施形態はこれらに限定されるものではなく、適宜構成要素の変更・追加・省略を行うことができる。

例えば、上記実施形態では業務用ゲーム装置１３００の使用を前提としているが、ネットワーク通信機能、特にオンラインマルチプレイゲーム対応の家庭用ゲーム装置や携帯型ゲーム装置、パソコン、携帯電話機などを用いる構成としても良い。

また、上記実施形態では、発声にともなって変形する部位を口として説明しているが、プレーヤやオペレータに代わって発声するキャラクタの設定によってはその他の部位を制御する構成とすることができる。
例えば、図２４に示すように、アバター４６（４６ａ，４６ｂ，４６ｃ）がジェルのように不定形で弾性変形する体を有し、その大きさや形状を音に合わせて変化させて会話する設定であれば、口の縦長さｌｙ及び口の横長さｌｘに基づいて縦横の比率や正面投影面積を変化させる構成としても良い。

また、上記実施形態ではプレーヤやオペレータの声は、会話の声を前提として説明しているが、「きゃー！」や「わー！」のような叫び声も対象とすることができる。

また、口形状パラメータ値算出プログラム５０４（図１０参照）及び口形状パラメータ値設定データ５２４を抜き出して、例えば、ＣＧ映像製作における口形状制御のためのミドルウェアとして利用することもできる。

４０チャット画面
４２アバター
５０音データ
５２切り出された部分
５４声道断面積関数
１００操作入力部
１１０音声入力部
１４０携帯型情報記憶媒体
１４２プレーヤ情報
２００処理部
２１０ゲーム演算部
２１２マッチング処理部
２１４音データ処理部
２１６声道断面積関数算出部
２１８口形状決定部
２２０パラメータ値補正部
２２２口形状制御部
５００記憶部
５０２ゲームプログラム
５０４口形状パラメータ値算出プログラム
５２２アバター設定データ
５２４口形状パラメータ値設定データ
１３００業務用ゲーム装置
１３１０制御ユニット
１３７０ヘッドセット
１３７２マイク
１３７４ヘッドホン
ｌｙ口の縦長さ
ｌｘ口の横長さ

Claims

コンピュータを、
話者が発声した際の声道形状を、当該発声時の音声データを分析して所定の声道モデルの形状を算出することで推定する声道モデル算出手段、
前記声道モデル算出手段により算出された声道モデルの形状に基づいて所定のキャラクタの口を変形させる口形状制御手段、
として機能させるためのプログラム。
前記音声データに基づく音声を出力する音声出力手段として前記コンピュータを更に機能させ、
前記口形状制御手段が、前記音声出力手段により出力される音声に合わせるように、前記キャラクタの口を変形させるように前記コンピュータを機能させる、
ための請求項１に記載のプログラム。
前記声道モデル算出手段が、前記声道モデルを声道の各部位の断面積で表したモデルとして算出し、
前記口形状制御手段が、前記声道モデル算出手段により算出された声道の各部位の断面積に基づいて、前記キャラクタの口を変形させる、
ように前記コンピュータを機能させるための請求項１又は２に記載のプログラム。
前記口形状制御手段が、声道の開口部分の面積と、開口部側所定範囲の断面積と、喉側所定範囲の断面積とを少なくとも用いて前記キャラクタの口を変形させるように前記コンピュータを機能させるための請求項３に記載のプログラム。
前記口形状制御手段が、前記喉側所定範囲の断面積に基づいて、前記キャラクタの口の縦方向の長さを変化させるように前記コンピュータを機能させるための請求項４に記載のプログラム。
前記口形状制御手段が、前記喉側所定範囲の断面積が大きいほど、前記キャラクタの口の縦方向の長さを短くさせるように前記コンピュータを機能させるための請求項５に記載のプログラム。
前記口形状制御手段が、前記開口部側所定範囲の断面積に基づいて、前記キャラクタの口の開口面積を変化させるように前記コンピュータを機能させるための請求項４〜６の何れか一項に記載のプログラム。
前記音声データが擦過音相当の音を示していることを検出する擦過音検出手段として前記コンピュータを機能させ、
前記口形状制御手段が、前記擦過音検出手段による検出に応じて、前記キャラクタの口の開口面積を非検出時に比べて小さくさせるように前記コンピュータを機能させる、
ための請求項１〜７の何れか一項に記載のプログラム。
前記擦過音検出手段が、擦過音の種類を判定する擦過音種類判定手段を有し、
前記口形状制御手段が、前記擦過音種類判定手段により判定された種類に応じて前記キャラクタの口を変形させる、
ように前記コンピュータを機能させるための請求項８に記載のプログラム。
前記音声データが鼻音相当の音を示していることを検出する鼻音検出手段として前記コンピュータを機能させ、
前記口形状制御手段が、前記鼻音検出手段による検出に応じて、前記キャラクタの口の開口面積を非検出時に比べて小さくさせるように前記コンピュータを機能させる、
ための請求項１〜９の何れか一項に記載のプログラム。
前記鼻音検出手段が、鼻音の種類を判定する鼻音種類判定手段を有し、
前記口形状制御手段が、前記鼻音種類判定手段により判定された種類に応じて前記キャラクタの口を変形させる、
ように前記コンピュータを機能させるための請求項１０に記載のプログラム。
前記音声データが無音状態を示していることを検出する無音状態検出手段として前記コンピュータを機能させ、
前記口形状制御手段が、前記無音状態検出手段による検出が続くにつれて前記キャラクタの口の開口面積を徐々に小さくさせるように前記コンピュータを機能させる、
ための請求項１〜１１の何れか一項に記載のプログラム。
前記口形状制御手段が、前記キャラクタの口形状の急激な変形を抑制する時間遅れ制御処理を実行する遅れ制御処理手段を有するように前記コンピュータを機能させるための請求項１〜１２の何れか一項に記載のプログラム。
請求項１〜１３の何れか一項に記載のプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。
話者が発声した際の声道形状を、当該発声時の音声データを分析して所定の声道モデルの形状を算出することで推定する声道モデル算出ステップと、
前記算出された声道モデルの形状に基づいて所定のキャラクタの口を変形させる口形状制御ステップと、
を含む口形状制御方法。
話者が発声した際の声道形状を、当該発声時の音声データを分析して所定の声道モデルの形状を算出することで推定する声道モデル算出手段と、
前記声道モデル算出手段により算出された声道モデルの形状に基づいて所定のキャラクタの口を変形させる口形状制御手段と、
を備えた口形状制御装置。