Nothing Special   »   [go: up one dir, main page]

JP3938015B2 - 音声再生装置 - Google Patents

音声再生装置 Download PDF

Info

Publication number
JP3938015B2
JP3938015B2 JP2002335233A JP2002335233A JP3938015B2 JP 3938015 B2 JP3938015 B2 JP 3938015B2 JP 2002335233 A JP2002335233 A JP 2002335233A JP 2002335233 A JP2002335233 A JP 2002335233A JP 3938015 B2 JP3938015 B2 JP 3938015B2
Authority
JP
Japan
Prior art keywords
data
sequence data
type
audio reproduction
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002335233A
Other languages
English (en)
Other versions
JP2004170618A (ja
Inventor
隆宏 川嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002335233A priority Critical patent/JP3938015B2/ja
Priority to US10/715,921 priority patent/US7230177B2/en
Priority to KR1020030081353A priority patent/KR100582154B1/ko
Priority to CNB2003101163027A priority patent/CN1223983C/zh
Priority to TW092132425A priority patent/TWI251807B/zh
Priority to CNU2003201006500U priority patent/CN2705856Y/zh
Publication of JP2004170618A publication Critical patent/JP2004170618A/ja
Priority to HK04106131A priority patent/HK1063373A1/xx
Application granted granted Critical
Publication of JP3938015B2 publication Critical patent/JP3938015B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/056MIDI or other note-oriented file format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/571Waveform compression, adapted for music synthesisers, sound banks or wavetables
    • G10H2250/591DPCM [delta pulse code modulation]
    • G10H2250/595ADPCM [adaptive differential pulse code modulation]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声再生装置に関する。
【0002】
【従来の技術】
音源を用いて音楽を表現するためのデータを頒布したり、相互に利用したりするためのデータ交換フォーマットとして、SMF(Standard MIDI file format)やSMAF(Synthetic Music Mobile Application Format)などが知られている。SMAFは、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である(非特許文献1参照)。
【0003】
図15を参照しつつSMAFについて説明する。
この図において、100はSMAFファイルであり、チャンクとよばれるデータの塊が基本構造となっている。チャンクは固定長(8バイト)のヘッダ部と任意長のボディ部とからなり、ヘッダ部は、さらに、4バイトのチャンクIDと4バイトのチャンクサイズに分けられる。チャンクIDはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。SMAFファイルは、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
この図に示すように、SMAFファイル100の中身は、管理用の情報が格納されているコンテンツ・インフォ・チャンク(Contents Info Chunk)101と、出力デバイスに対するシーケンスデータを含む1つ以上のトラックチャンク102〜108とからなる。シーケンスデータは出力デバイスに対する制御を時間を追って定義したデータ表現である。1つのSMAFファイル100に含まれる全てのシーケンスデータは時刻0で同時に再生を開始するものと定義されており、結果的に全てのシーケンスデータが同期して再生される。
シーケンスデータはイベントとデュレーションの組み合わせで表現される。イベントは、シーケンスデータに対応する出力デバイスに対する制御内容のデータ表現であり、デュレーションは、イベントとイベントとの間の経過時間を表現するデータである。イベントの処理時間は実際には0ではないが、SMAFのデータ表現としては0とみなし、時間の流れは全てデュレーションで表わすようにしている。あるイベントを実行する時刻は、そのシーケンスデータの先頭からのデュレーションを積算することで一意に決定することができる。イベントの処理時間は、次のイベントの処理開始時刻に影響しないことが原則である。従って、値が0のデュレーションを挟んで連続したイベントは同時に実行すると解釈される。
【0004】
SMAFでは、前記出力デバイスとして、MIDI(musical instrument digital interface)相当の制御データで発音を行う音源デバイス111、PCMデータの再生を行うPCM音源デバイス(PCMデコーダ)112、テキストや画像の表示を行うLCDなどの表示デバイス113などが定義されている。
トラックチャンクには、定義されている各出力デバイスに対応して、スコアトラックチャンク102〜105、PCMオーディオトラックチャンク106、グラフィックストラックチャンク107及びマスタートラックチャンク108がある。ここで、マスタートラックチャンクを除くスコアトランクチャンク、PCMオーディオトラックチャンク及びグラフィックストラックチャンクは、それぞれ最大256トラックまで記述することが可能である。
図示する例では、スコアトラックチャンク102〜105は音源デバイス111を再生するためのシーケンスデータを格納し、PCMトラックチャンク106はPCM音源デバイス112で発音されるADPCMやMP3、TwinVQ等のwaveデータをイベント形式で格納し、グラフィックトラックチャンク107は背景画や差込静止画、テキストデータと、それらを表示デバイス113で再生するためのシーケンスデータを格納している。また、マスタートラックチャンク108にはSMAFシーケンサ自身を制御するためのシーケンスデータが格納されている。
【0005】
一方、音声合成の手法として、LPCなどのフィルタ合成方式や複合正弦波音声合成法などの波形合成方式がよく知られている。複合正弦波音声合成法(CSM法)は、複数の正弦波の和により音声信号をモデル化し音声合成を行う方式であり、簡単な合成法でありながら良質な音声を合成することができる。(非特許文献2参照)。
また、音源を用いて音声合成させることにより、歌声を発生させる音声合成装置も提案されている(特許文献1参照)。
【0006】
【非特許文献1】
SMAF仕様書 Ver. 3.06 ヤマハ株式会社、[平成14年10月18日検索]、インターネット<URL: http://smaf.yamaha.co.jp>
【非特許文献2】
嵯峨山茂樹、板倉文忠、「複合正弦波音声合成方式の検討と合成器の試作」、日本音響学会、音声研究会資料、資料番号S80-12(1980-5)、p.93-100、(1980.5.26)
【特許文献1】
特開平9−50287号公報
【0007】
【発明が解決しようとする課題】
上述のように、SMAFは、MIDI相当のデータ(楽曲データ)、PCMオーディオデータ、テキストや画像の表示データなどの各種シーケンスデータを含み、全シーケンスを時間的に同期して再生することができる。
しかしながら、SMFやSMAFには音声(人の声)を表現することについては、定義されていない。
そこで、SMFなどのMIDIイベントを拡張して音声を合成することも考えられるが、この場合は、音声部分のみ一括して取り出して音声合成するときに処理が複雑になるという問題点がある。
【0008】
そこで本発明は、柔軟性があり、かつ、楽曲シーケンスなどと音声再生シーケンスとを同期して再生させることが可能なシーケンスデータのデータ交換フォーマットを有するファイルを再生することができる音声再生装置を提供することを目的としている。
【0009】
【課題を解決するための手段】
上記目的を達成するために、本発明の音声再生装置は、一つのファイル中のそれぞれ異なるチャンクに含まれている楽曲シーケンスデータと音声再生シーケンスデータとを同期して再生する音声再生装置であって、前記楽曲シーケンスデータは、演奏イベントデータとその演奏イベントを実行するタイミングを先行する演奏イベントからの経過時間により指定するデュレーションデータとの組が時間順に配置されたデータであり、前記音声再生シーケンスデータは、音声再生イベントデータと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションデータとの組により構成されている音声再生シーケンスデータであって、前記音声再生イベントデータが音声合成用の情報を指定して音声の発音を指示するメッセージであり、前記指定される音声合成用の情報が、合成される音声の読みを示すテキスト情報、音声表現を指定する韻律記号及び音色を指定する情報をテキストで記述した情報である第1のタイプの音声再生シーケンスデータ、音声再生イベントデータと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションデータとの組により構成されている音声再生シーケンスデータであって、前記音声再生イベントデータが、合成される音声を示す音素情報と韻律制御情報とを含む音声の発音を指示するメッセージと、音色を指定するメッセージとを含むものである第2のタイプの音声再生シーケンスデータ、又は、音声再生イベントデータと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションデータとの組により構成されている音声再生シーケンスデータであって、前記音声再生イベントデータが音声合成用の情報を指定して発音の開始を指示するメッセージであり、前記指定される音声合成用の情報が再生される音声を示す所定時間長を有するフレームごとのフォルマント制御情報である第3のタイプの音声再生シーケンスデータのいずれかのタイプの音声再生シーケンスデータであり前記楽曲シーケンスデータに基づいて当該楽曲を再生するとともに、前記フォルマント制御情報に基づいて音声を合成する音源部と、前記第1のタイプの音声再生シーケンスデータをテキスト情報及び韻律記号とそれに対応する音素及び韻律制御情報を格納した第1の辞書を参照して前記第2のタイプの音声再生シーケンスデータに変換する第1の手段と、前記第2のタイプの音声再生シーケンスデータを各音素及び韻律制御情報とそれに対応するフォルマント制御情報を格納した第2の辞書を参照して前記第3のタイプの音声再生シーケンスデータに変換する第2の手段と、前記ファイルに含まれている前記楽曲シーケンスデータと前記音声再生シーケンスデータを分離する手段と、前記楽曲シーケンスデータに基づいて所定のタイミングで楽音発生パラメータを前記音源部に供給する手段と、前記音声再生シーケンスデータが、前記第1のタイプの音声再生シーケンスデータであるときは、前記第1の手段と前記第2の手段を用いて当該第1のタイプの音声再生シーケンスデータを前記第3のタイプの音声再生シーケンスデータに変換し、前記第2のタイプの音声再生シーケンスデータであるときは、前記第2の手段を用いて当該第2のタイプの音声再生シーケンスデータを前記第3のタイプの音声再生シーケンスデータに変換する手段と前記第3のタイプの音声再生シーケンスデータに基づいて所定のタイミングで該第3のタイプの音声再生シーケンスデータに含まれているフォルマント制御情報を前記フレームごとに前記音源部に出力する出力手段とを有し、前記音声再生シーケンスデータと前記楽曲シーケンスデータの再生を同時に開始させ、前記音源部において生成された楽音と音声を合成して出力することにより当該楽曲と当該音声とを同期して再生するようにしたものである。
【0012】
【発明の実施の形態】
図1は、本発明における音声再生シーケンスデータのデータ交換フォーマットの一実施の形態を示す図である。この図において、1は本発明のデータ交換フォーマットを有するファイルである。このファイル1は、前述したSMAFファイルと同様に、チャンク構造を基本としており、ヘッダ部とボディ部とを有する(ファイルチャンク)。
前記ヘッダ部には、ファイルを識別するためのファイルID(チャンクID)と後続するボディ部の長さを示すチャンクサイズが含まれている。
ボディ部はチャンク列であり、図示する例では、コンテンツ・インフォ・チャンク(Contents Info Chunk)2、オプショナル・データ・チャンク(Optional Data Chunk)3、及び、音声再生シーケンスデータを含むHV(Human Voice)トラックチャンク4が含まれている。なお、図1には、HVトラックチャンク4として、HVトラックチャンク#00の一つのみが記載されているが、ファイル1中に複数個のHVトラックチャンク4を含ませることができる。
また、本発明においては、前記HVトラックチャンク4に含まれる音声再生シーケンスデータとして、3つのフォーマットタイプ(TSeq型、PSeq型、FSeq型)が定義されている。これらについては後述する。
前記コンテンツ・インフォ・チャンク2には、含まれているコンテンツのクラス、種類、著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などの管理用の情報が格納されている。また、前記著作権情報やジャンル名、曲名、アーティスト名、作詞/作曲者名などの情報を格納するオプショナル・データ・チャンク3を設けても良い。
【0013】
図1に示した音声再生シーケンスデータのデータ交換フォーマットは、それ単独で音声を再生することができるが、前記HVトラックチャンク4をデータチャンクの一つとして前述したSMAFファイルに含ませることができる。
図2は、上述したHVトラックチャンク4をデータチャンクの一つとして含む本発明のシーケンスデータのデータ交換フォーマットを有するファイルの構造を示す図である。このファイルは、SMAFファイルを音声再生シーケンスデータを含むように拡張したものであるということができる。なお、この図において、前記図15に示したSMAFファイル100と同一の要素には同一の番号を付す。
この図に示すように、前述した音声再生シーケンスデータのデータ交換フォーマットにおけるHVトラックチャンク4を、前述したスコアトラックチャンク102〜105、PCMオーディオトラックチャンク106、グラフィックストラックチャンク107などと共に、SMAFファイル100中に格納することにより、楽曲の演奏や画像、テキストの表示と同期して音声を再生することが可能となり、例えば、楽音に対し、音源が歌うコンテンツなどを実現することができるようになる。
【0014】
図3は、前記図2に示した本発明のデータ交換フォーマットのファイルを作成するシステム及び該データ交換フォーマットファイルを利用するシステムの概略構成の一例を示す図である。
この図において、21はSMFやSMAFなどの楽曲データファイル、22は再生される音声に対応するテキストファイル、23は本発明によるデータ交換フォーマットのファイルを作成するためのデータ・フォーマット制作ツール(オーサリング・ツール)、24は本発明のデータ交換フォーマットを有するファイルである。
オーサリング・ツール23は、再生する音声の読みを示す音声合成用テキストファイル22を入力して、編集作業などを行い、それに対応する音声再生シーケンスデータを作成する。そして、SMFやSMAFなどの楽曲データファイル21に該作成した音声再生シーケンスデータを加えて、本発明のデータ交換フォーマット仕様に基づくファイル(前記図2に示したHVトラックチャンクを含むSMAFファイル)24を作成する。
【0015】
作成されたファイル24は、シーケンスデータに含まれているデュレーションにより規定されるタイミングで音源部27に制御パラメータを供給するシーケンサ26と、シーケンサ26から供給される制御パラメータに基づいて音声を再生出力する音源部27を有する利用装置25に転送され、そこで、楽曲などとともに音声が同期して再生されることとなる。
図4は前記音源部27の概略構成の一例を示す図である。
この図に示した例では、音源部27は、複数のフォルマント生成部28と1個のピッチ生成部29を有しており、前記シーケンサ26から出力されるフォルマント制御情報(各フォルマントを生成するためのフォルマント周波数、レベルなどのパラメータ)及びピッチ情報に基づいて各フォルマント生成部28で対応するフォルマント信号を発生し、これらをミキシング部30で加算することにより対応する音声合成出力が生成される。なお、各フォルマント生成部28はフォルマント信号を発生させるためにその元となる基本波形を発生させるが、この基本波形の発生には、例えば、周知のFM音源の波形発生器を利用することができる。
【0016】
前述のように、本発明においては、前記HVトラックチャンク4に含まれる音声再生シーケンスデータに3つのフォーマットタイプを用意し、これらを任意に選択して用いることができるようにしている。以下、これらについて説明する。再生する音声を記述するためには、再生する音声に対応する文字情報、言語に依存しない発音情報、音声波形そのものを示す情報など抽象度が異なる各種の段階の記述方法があるが、本発明においては、(a)テキスト記述型(TSeq型)、(b)音素記述型(PSeq型)及び(c)フォルマント・フレーム記述型(FSeq型)の3通りのフォーマットタイプを定義している。
【0017】
まず、図5を参照して、これら3つのフォーマットタイプの相違について説明する。
(a)テキスト記述型(TSeq型)
TSeq型は、発音すべき音声をテキスト表記により記述するフォーマットであり、それぞれの言語による文字コード(テキスト情報)とアクセントなどの音声表現を指示する記号(韻律記号)とを含む。このフォーマットのデータはエディタなどを用いて直接作成することができる。再生するときは、図5の(a)に示すように、ミドルウェア処理により、該TSeq型のシーケンスデータを、まず、PSeq型に変換し(第1のコンバート処理)、次に、PSeq型をFSeq型に変換(第2のコンバート処理)して、前記音源部27に出力することとなる。
ここで、TSeq型からPSeq型へ変換する第1のコンバート処理は、言語に依存する情報である文字コード(例えば、ひらがなやカタカナなどのテキスト情報)と韻律記号と、それに対応する言語に依存しない発音を示す情報(音素)と韻律を制御するための韻律制御情報を格納した第1の辞書を参照することにより行われ、PSeq型からFSeq型への変換である第2のコンバート処理は、各音素及び韻律制御情報とそれに対応するフォルマント制御情報(各フォルマントを生成するためのフォルマントの周波数、帯域幅、レベルなどのパラメータ)を格納した第2の辞書を参照することにより行われる。
(b)音素記述型(PSeq型)
PSeq型は、SMFで定義するMIDIイベントに類似する形式で発音すべき音声に関する情報を記述するものであり、音声記述としては言語依存によらない音素単位をベースとする。図5の(b)に示すように、前記オーサリング・ツールなどを用いて実行されるデータ制作処理においては、まずTSeq型のデータファイルを作成し、これを第1のコンバート処理によりPSeq型に変換する。このPSeq型を再生するときは、ミドルウェア処理として実行される第2のコンバート処理によりPSeq型のデータファイルをFSeq型に変換して、音源部27に出力する。
(c)フォルマント・フレーム記述型(FSeq型)
FSeq型は、フォルマント制御情報をフレーム・データ列として表現したフォーマットである。図5の(c)に示すように、データ制作処理において、TSeq型→第1のコンバート処理→PSeq型→第2のコンバート処理→FSeq型への変換を行う。また、サンプリングされた波形データから通常の音声分析処理と同様の処理である第3のコンバート処理によりFSeq型のデータを作成することもできる。再生時には、該FSeq型のファイルをそのまま前記音源部に出力して再生することができる。
このように、本発明においては、抽象度の異なる3種類のフォーマットタイプを定義し、個々の場合に応じて、所望のタイプを選択することができるようにしている。また、音声を再生するために実行する前記第1のコンバート処理及び前記第2のコンバート処理をミドルウェア処理として実行させることにより、アプリケーションの負担を軽減することができる。
【0018】
次に、前記HVトラックチャンク4(図1)の内容について詳細に説明する。
前記図1に示したように、各HVトラックチャンク4には、このHVトラックチャンクに含まれている音声再生シーケンスデータが前述した3通りのフォーマットタイプのうちのどのタイプであるかを示すフォーマットタイプ(Format Type)、使用されている言語種別を示す言語タイプ(Language Type)及びタイムベース(Timebase)をそれぞれ指定するデータが記述されている。
フォーマットタイプ(Format Type)の例を表1に示す。
【表1】
Figure 0003938015
【0019】
言語タイプ(Language Type)の例を表2に示す。
【表2】
Figure 0003938015
なお、ここでは、日本語(0x00;0xは16進を表わす。以下、同じ。)と韓国語(0x01)のみを示しているが、中国語、英語などその他の言語についても同様に定義することができる。
【0020】
タイムベース(Timebase)は、このトラックチャンクに含まれるシーケンスデータチャンク内のデュレーション及びゲートタイムの基準時間を定めるものである。この実施の形態では、20msecとされているが任意の値に設定することができる。
【表3】
Figure 0003938015
【0021】
前述した3通りのフォーマットタイプのデータの詳細についてさらに説明する。
(a)Tseq型(フォーマットタイプ=0x00)
前述のように、このフォーマットタイプは、テキスト表記によるシーケンス表現(TSeq:text sequence)を用いたフォーマットであり、シーケンスデータチャンク5とn個(nは1以上の整数)のTSeqデータチャンク(TSeq#00〜TSeq#n)6,7,8を含んでいる(図1)。シーケンスデータに含まれる音声再生イベント(ノートオンイベント)でTSeqデータチャンクに含まれるデータの再生を指示する。
【0022】
(a-1)シーケンスデータチャンク
シーケンスデータチャンクは、SMAFにおけるシーケンスデータチャンクと同様に、デュレーションとイベントの組み合わせを時間順に配置したシーケンスデータを含む。図6の(a)はシーケンスデータの構成を示す図である。ここで、デュレーションは、イベントとイベントの間の時間を示している。先頭のデュレーション(Duration 1)は、時刻0からの経過時間を示している。図6の(b)は、イベントがノートメッセージである場合に、デュレーションとノートメッセージに含まれるゲートタイムの関係を示す図である。この図に示すように、ゲートタイムはそのノートメッセージの発音時間を示している。なお、図6で示したシーケンスデータチャンクの構造は、PSeq型及びFSeq型におけるシーケンスデータチャンクにおいても同様である。
このシーケンスデータチャンクでサポートされるイベントとしては、次の3通りのイベントがある。なお、以下に記述する初期値は、イベント指定がないときのデフォルト値である。
(a-1-1)ノートメッセージ「0x9n kk gt」
ここで、n:チャンネル番号(0x0[固定])、kk:TSeqデータ番号(0x00〜0x7F)、gt:ゲートタイム(1〜3バイト)である。
ノートメッセージは、チャンネル番号nで指定されるチャンネルのTSeqデータ番号kkで指定されるTSeqデータチャンクを解釈し発音を開始するメッセージである。なお、ゲートタイムgtが「0」のノート・メッセージについては発音を行わない。
(a-1-2)ボリューム「0xBn 0x07 vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、チャンネルボリュームの初期値は0x64である。
ボリュームは、指定チャンネルの音量を指定するメッセージである。
(a-1-3)パン「0xBn 0x0A vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、パンポット初期値は、0x40(センター)である。
パンメッセージは、指定チャンネルのステレオ音場位置を指定するメッセージである。
【0023】
(a-2)TSeqデータチャンク(TSeq#00〜TSeq#n)
TSeqデータチャンクは、音声合成用の情報として、言語や文字コードに関する情報、発音する音の設定、(合成する)読み情報を表記したテキストなどを含んだ、しゃべり用フォーマットでありタグ形式で書かれている。このTSeqデータチャンクは、ユーザーによる入力を容易にするためテキスト入力となっている。
タグは、"<"(0x3C)で始まり制御タグと値が続く形式であり、TSeqデータチャンクはタグの列で構成されている。ただし、スペースは含まず、制御タグ及び値に"<"は使用することはできない。また、制御タグは必ず1文字とする。制御タグとその有効値に例を下の表4に示す。
【0024】
【表4】
Figure 0003938015
【0025】
前記制御タグのうちのテキストタグ「T」について、さらに説明する。
テキストタグ「T」に後続する値は、全角ひらがな文字列で記述された読み情報(日本語の場合)と音声表現を指示する韻律記号(Shift-JISコード)からなる。文末にセンテンス区切り記号がないときは、"。"で終わるのと同じ意味とする。
以下に示すのは韻律記号であり、読み情報の文字の後につく。
"、"(0x8141):センテンスの区切り(通常のイントネーション)。
"。"(0x8142):センテンスの区切り(通常のイントネーション)。
"?"(0x8148):センテンスの区切り(疑問のイントネーション)。
"’"(0x8166):ピッチを上げるアクセント(変化後の値はセンテンス区切りまで有効)。
"_"(0x8151):ピッチを下げるアクセント(変化後の値はセンテンス区切りまで有効)。
"ー"(0x815B):長音(直前の語を長く発音する。複数でより長くなる。)
【0026】
図7の(a)は、TSeqデータチャンクのデータの一例を示す図であり、(b)はその再生時間処理について説明するための図である。
最初のタグ「<LJAPANESE」で言語が日本語であることを示し、「<CS-JIS」で文字コードがシフトJISであること、「<G4」で音色選択(プログラムチェンジ)、「<V1000」で音量の設定、「<N64」で音の高さを指定している。「<T」は合成用テキストを示し、「<P」はその値により規定されるmsec単位の無音期間の挿入を示している。
図7の(b)に示すように、このTSeqデータチャンクのデータは、デュレーションにより指定されるスタート時点から1000msecの無音期間をおいた後に、「い’やーーー、き_ょーわ’さ_むい_ねー。」と発音され、その後1500msecの無音期間をおいた後に「こ’のままい_ったら、は’ちが_つわ、た’いへ’ん_やねー。」と発音される。ここで、「’」、「_」、「ー」に応じてそれぞれに対応するアクセントや長音の制御が行われる。
【0027】
このように、TSeq型は、各国語それぞれに特化した発音をするための文字コードと音声表現(アクセントなど)をタグ形式で記述したフォーマットであるため、エディタなどを用いて直接作成することができる。従って、TSeqデータチャンクのファイルはテキストベースで容易に加工することができ、例えば、記述されている文章からイントネーションを変更したり、語尾を加工することで方言に対応するといったことを容易に行うことができる。また、文章中の特定単語だけを入れ替えることも容易にできる。さらに、データ・サイズが小さいという長所がある。
一方、このTSeq型データチャンクのデータを解釈し音声合成をするための処理負荷が大きくなる、より細かいピッチ制御ができにくい、フォーマットを拡張し複雑な定義を増やせば、ユーザ・フレンドリーでなくなってしまう、言語(文字)コードに依存する(例えば、日本語の場合にはShift-JISが一般であるが、他国語の場合には、それに応じた文字コードでフォーマットを定義する必要がある。)などという短所がある。
【0028】
(b)PSeq型(フォーマットタイプ=0x01)
このPSeq型は、MIDIイベントに類似する形式の音素によるシーケンス表現(PSeq:phoneme sequence)を用いたフォーマットタイプである。この形式は、音素を記述するようにしているので言語依存がない。音素は発音を示す文字情報により表現することができ、例えば、複数の言語に共通にアスキーコードを用いることができる。
前記図1に示したように、このPSeq型は、セットアップ・データ・チャンク9、ディクショナリ・データ・チャンク10及びシーケンス・データ・チャンク11を含んでいる。シーケンスデータ中の音声再生イベント(ノートメッセージ)で指定されたチャンネルの音素と韻律制御情報の再生を指示する。
【0029】
(b-1)セットアップ・データ・チャンク(Setup Data Chunk)(オプション)音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。この実施の形態では、含まれているイクスクルーシブ・メッセージは、HV音色パラメータ登録メッセージである。
HV音色パラメータ登録メッセージは「0xF0 Size 0x43 0x79 0x07 0x7F 0x01 PC data ... 0xF7」というフォーマットであり、PC:プログラム番号(0x02〜0x0F)、data:HV音色パラメータである。
このメッセージは、該当するプログラム番号PCのHV音色パラメータを登録する。
【0030】
HV音色パラメータを次の表5に示す。
【表5】
Figure 0003938015
【0031】
表5に示すように、HV音色パラメータとしては、ピッチシフト量、第1〜第n(nは2以上の整数)の各フォルマントに対するフォルマント周波数シフト量、フォルマントレベルシフト量及びオペレータ波形選択情報が含まれている。前述のように、処理装置内には、各音素とそれに対応するフォルマント制御情報(フォルマントの周波数、帯域幅、レベルなど)を記述したプリセット辞書(第2の辞書)が記憶されており、HV音色パラメータは、このプリセット辞書に記憶されているパラメータに対するシフト量を規定している。これにより、全ての音素について同様のシフトが行われ、合成される音声の声質を変化させることができる。
なお、このHV音色パラメータにより、0x02〜0x0Fに対応する数(すなわち、プログラム番号の数)の音色を登録することができる。
【0032】
(b-2)ディクショナリデータチャンク(Dictionary Data Chunk)(オプション)
このチャンクには、言語種別に応じた辞書データ、例えば、前記プリセット辞書と比較した差分データやプリセット辞書で定義していない音素データなどを含む辞書データを格納する。これにより、音色の異なる個性のある音声を合成することが可能となる。
【0033】
(b-3)シーケンスデータチャンク(Sequence Data Chunk)
前述のシーケンスデータチャンクと同様に、デュレーションとイベントの組み合わせを時間順に配置したシーケンスデータを含む。
このPSeq型におけるシーケンスデータチャンクでサポートするイベント(メッセージ)を次に列挙する。読み込み側は、これらのメッセージ以外は無視する。また、以下に記述する初期設定値は、イベント指定がないときのデフォルト値である。
【0034】
(b-3-1)ノートメッセージ「0x9n Nt Vel Gatetime Size data ...」
ここで、n:チャンネル番号(0x0[固定])、Nt:ノート番号(絶対値ノート指定:0x00〜0x7F,相対値ノート指定:0x80〜0xFF)、Vel:ベロシティ(0x00〜0x7F)、Gatetime:ゲートタイム長(Variable)、Size:データ部のサイズ(可変長)である。
このノートメッセージにより、指定チャンネルの音声の発音が開始される。
なお、ノート番号のMSBは、解釈を絶対値と相対値とに切り替えるフラグである。MSB以外の7ビットはノート番号を示す。音声の発音はモノラルのみであるため、ゲートタイムが重なる場合は後着優先として発音する。オーサリング・ツールなどでは、重なりのあるデータは作られないように制限を設けることが望ましい。
【0035】
データ部は、音素とそれに対する韻律制御情報(ピッチベンド、ボリューム)を含み、次の表6に示すデータ構造からなる。
【表6】
Figure 0003938015
【0036】
表6に示すように、データ部は、音素の数n(#1)、例えばアスキーコードで記述した個々の音素(音素1〜音素n)(#2〜#4)、及び、韻律制御情報からなっている。韻律制御情報はピッチベンドとボリュームであり、ピッチベンドに関して、その発音区間を音素ピッチベンド数(#5)により規定されるN個の区間に区切り、それぞれにおけるピッチベンドを指定するピッチベンド情報(音素ピッチベンド位置1,音素ピッチベンド1(#6〜#7)〜音素ピッチベンド位置N,音素ピッチベンドN(#9〜#10))と、ボリュームに関して、その発音区間を音素ボリューム数(#11)により規定されるM個の区間に区切り、それぞれにおけるボリュームを指定するボリューム情報(音素ボリューム位置1,音素ボリューム1(#12,#13)〜音素ボリューム位置M,音素ボリュームM(#15,#16))からなっている。
【0037】
図8は、前記韻律制御情報について説明するための図である。ここでは、発音する文字情報が「ohayou」である場合を例にとって示している。また、この例では、N=M=128としている。この図に示すように、発音する文字情報(「ohayou」)に対応する区間を128(=N=M)の区間に区切り、各点におけるピッチとボリュームを前記ピッチベンド情報及びボリューム情報で表現して韻律を制御するようにしている。
【0038】
図9は、前記ゲートタイム長(Gatetime)とディレイタイム(Delay Time(#0))との関係を示す図である。この図に示すように、ディレイタイムにより、実際の発音をデュレーションで規定されるタイミングよりも遅らせることができる。なお、Gate time = 0 は、禁止とする。
【0039】
(b-3-2)プログラムチェンジ「0xCn pp」
ここで、n:チャンネル番号(0x0[固定])、pp:プログラム番号(0x00〜0xFF)である。また、プログラム番号の初期値は0x00とされている。
このプログラムチェンジメッセージにより指定されたチャンネルの音色が設定される。ここで、チャンネル番号は、0x00:男声プリセット音色、0x01:女声プリセット音色、0x02〜0x0F:拡張音色である。
【0040】
(b-3-3)コントロールチェンジ
コントロールチェンジメッセージとしては、次のものがある。
(b-3-3-1)チャンネルボリューム「0xBn 0x07 vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。また、チャンネルボリュームの初期値は0x64とされている。
このチャンネルボリュームメッセージは、指定チャンネルの音量を指定するものであり、チャンネル間の音量バランスを設定することを目的としている。
(b-3-3-2)パン「0xBn 0x0A vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。パンポットの初期値は0x40(センター)とされている。
このメッセージは、指定チャンネルのステレオ音場位置を指定する。
【0041】
(b-3-3-3)エクスプレッション「0xBn 0x0B vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。このエクスプレッションメッセージの初期値は0x7F(最大値)とされている。
このメッセージは、指定チャンネルのチャンネル・ボリュームで設定した音量の変化を指定する。これは曲中で音量を変化させる目的で使用される。
【0042】
(b-3-3-4)ピッチベンド「0xEn ll mm」
ここで、n:チャンネル番号(0x0[固定])、ll:ベンド値LSB(0x00〜0x7F)、mm:ベンド値MSB(0x00〜0x7F)である。ピッチベンドの初期値はMSB0x40、LSB0x00とされている。
このメッセージは、指定チャンネルのピッチを上下に変化させる。変化幅(ピッチ・ベンド・レンジ)の初期値は±2半音であり、0x00/0x00で下方向へのピッチ・ベンドが最大となる。0x7F/0x7Fで上方向へのピッチ・ベンドが最大となる。
【0043】
(b-3-3-5)ピッチベンド・センシティビティ「0x8n bb」
ここで、n:チャンネル番号(0x0[固定])、bb:データ値(0x00〜0x18)である。このピッチベンド・センシティビティの初期値は0x02である。
このメッセージは、指定チャンネルのピッチ・ベンドの感度設定を行う。単位は半音である。例えば、bb=01のときは±1半音(変化範囲は計2半音)となる。
【0044】
このように、PSeq型のフォーマットタイプは、発音を示す文字情報で表現した音素単位をベースとし、MIDIイベントに類似する形式で音声情報を記述したものであり、データ・サイズはTSeq型よりは大きいがFSeq型よりは小さくなる。
これにより、MIDIと同様に時間軸上の細かいピッチやボリュームをコントロールすることができる、音素ベースで記述しているため言語依存性がない、音色(声質)を細かく編集することができる、MIDIと類似した制御ができ、従来のMIDI機器へ追加実装し易いという長所を有している。
一方、文章や単語レベルの加工ができない、処理側において、TSeq型よりは軽いものの、フォーマットを解釈し音声合成するための処理負荷がかかるという短所を有している。
【0045】
(c)フォルマント・フレーム記述(FSeq)型(フォーマットタイプ=0x02)
フォルマント制御情報(各フォルマントを生成するための、フォルマント周波数やゲインなどのパラメータ)をフレーム・データ列として表現したフォーマットである。すなわち、一定時間(フレーム)の間は、発音する音声のフォルマントなどは一定であるとし、各フレーム毎に発音する音声に対応するフォルマント制御情報(各々のフォルマント周波数やゲインなど)を更新するシーケンス表現(FSeq:formant sequence)を用いる。シーケンスデータに含まれるノートメッセージにより指定されたFSeqデータチャンクのデータの再生を指示する。
このフォーマットタイプは、シーケンスデータチャンクとn個(nは以上の整数)のFSeqデータチャンク(FSeq#00〜FSeq#n)を含んでいる。
【0046】
(c-1)シーケンスデータチャンク
前述のシーケンスデータチャンクと同様に、デュレーションとイベントの組を時間順に配置したシーケンスデータを含む。
以下に、このシーケンスデータチャンクでサポートするイベント(メッセージ)を列挙する。読み込み側は、これらのメッセージ以外は無視する。また、以下に記述する初期設定値は、イベント指定がないときのデフォルト値である。
(c-1-1)ノート・メッセージ「0x9n kk gt」
ここで、n:チャンネル番号(0x0[固定])、kk:FSeqデータ番号(0x00〜0x7F)、gt:ゲートタイム(1〜3バイト)である。
このメッセージは、指定チャンネルのFSeqデータ番号のFSeqデータチャンクを解釈し発音を開始するメッセージである。なお、ゲートタイムが"0"のノート・メッセージは発音を行わない。
【0047】
(c-1-2)ボリューム「0xBn 0x07 vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、チャンネルボリュームの初期値は0x64である。
このメッセージは、指定チャンネルの音量を指定するメッセージである。
【0048】
(c-1-3)パン「0xBn 0x0A vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、パンポットの初期値は0x40(センター)である。
このメッセージは、指定チャンネルのステレオ音場位置を指定するメッセージである。
【0049】
(c-2)FSeqデータチャンク(FSeq#00〜FSeq#n)
FSeqデータチャンクは、FSeqフレーム・データ列で構成する。すなわち、音声情報を所定時間長(例えば、20msec)を有するフレーム毎に切り出し、それぞれのフレーム期間内の音声データを分析して得られたフォルマント制御情報(フォルマント周波数やゲインなど)を、それぞれのフレームの音声データを表わすフレーム・データ列として表現したフォーマットである。
表7にFSeqのフレーム・データ列を示す。
【0050】
【表7】
Figure 0003938015
【0051】
表7において、#0〜#3は音声合成に用いる複数個(この実施の形態においては、n個)のフォルマントの波形の種類(サイン波、矩形波など)を指定するデータである。#4〜#11は、フォルマントレベル(振幅)(#4〜#7)と中心周波数(#8〜#11)によりn個のフォルマントを規定するパラメータである。#4と#8が第1フォルマント(#0)を規定するパラメータ、以下同様に、#5〜#7と#9〜#11は第2フォルマント(#1)〜第nフォルマント(#3)を規定するパラメータである。また、#12は無声/有声を示すフラグなどである。
図10は、フォルマントのレベルと中心周波数を示す図であり、この実施の形態においては、第1〜第nフォルマントまでのn個のフォルマントのデータを用いるようにしている。前記図4に示したように、各フレーム毎の第1〜第nフォルマントに関するパラメータとピッチ周波数に関するパラメータは、前記音源部27のフォルマント生成部とピッチ生成部に供給され、そのフレームの音声合成出力が前述のようにして生成出力される。
【0052】
図11は、前記FSeqデータチャンクのボディ部のデータを示す図である。前記表7に示したFSeqのフレームデータ列のうち、#0〜#3は、各フォルマントの波形の種類を指定するデータであり、各フレームごとに指定する必要はない。従って、図11に示すように、最初のフレームについては、前記表7に示した全てのデータとし、後続するフレームについては、前記表7における#4以降のデータだけでよい。FSeqデータチャンクのボディ部を図11のようにすることにより、総データ数を少なくすることができる。
【0053】
このように、FSeq型は、フォルマント制御情報(各々のフォルマント周波数やゲインなど)をフレーム・データ列として表現したフォーマットであるため、FSeq型のファイルをそのまま音源部に出力することにより音声を再生することができる。従って、処理側は音声合成処理の必要がなく、CPUは所定時間ごとにフレームを更新する処理を行うのみでよい。なお、既に格納されている発音データに対し、一定のオフセットを与えることで音色(声質)を変更することができる。
ただし、FSeq型のデータは文章や単語レベルの加工がしづらく、音色(声質)を細かく編集したり、時間軸上の発音長やフォルマント変位を変更することができない。さらに、時間軸上のピッチやボリュームを制御することはできるが、元のデータのオフセットで制御することとなるため、制御しにくいのに加え、処理負荷が増大するという短所がある。
【0054】
次に、上述したシーケンスデータのデータ交換フォーマットを有するファイルを利用するシステムについて説明する。
図12は、上述した音声再生シーケンスデータを再生する音声再生装置の一つである携帯通信端末に対し、上述したデータ交換フォーマットのファイルを配信するコンテンツデータ配信システムの概略構成を示す図である。
この図において、51は携帯通信端末、52は基地局、53は前記複数の基地局を統括する移動交換局、54は複数の移動交換局を管理するとともに公衆網などの固定網やインターネット55とのゲートウエイとなる関門局、56はインターネット55に接続されたダウンロードセンターのサーバーコンピュータである。
コンテンツデータ制作会社57は、前記図3に関して説明したように、専用のオーサリング・ツールなどを用い、SMFやSMAFなどの楽曲データ及び音声合成用テキストファイルから本発明のデータ交換フォーマットを有するファイルを作成し、サーバーコンピュータ56に転送する。
サーバーコンピュータ56には、コンテンツデータ制作会社57により制作された本発明のデータ交換フォーマットを有するファイル(前記HVトラックチャンクを含むSMAFファイルなど)が蓄積されており、携帯通信端末51や図示しないコンピュータなどからアクセスするユーザーからのリクエストに応じて、対応する前記音声再生シーケンスデータを含む楽曲データなどを配信する。
【0055】
図13は、音声再生装置の一例である前記携帯通信端末51の一構成例を示すブロック図である。
この図において、61はこの装置全体の制御を行う中央処理装置(CPU)、62は各種通信制御プログラムや楽曲再生のためのプログラムなどの制御プログラムおよび各種定数データなどが格納されているROM、63はワークエリアとして使用されるとともに楽曲ファイルや各種アプリケーションプログラムなどを記憶するRAM、64は液晶表示装置(LCD)などからなる表示部、65はバイブレータ、66は複数の操作ボタンなどを有する入力部、67は変復調部などからなりアンテナ68に接続される通信部である。
また、69は、送話マイク及び受話スピーカに接続され、通話のための音声信号の符号化および復号を行う機能を有する音声処理部、70は前記RAM63などに記憶された楽曲ファイルに基づいて楽曲を再生するとともに、音声を再生して、スピーカ71に出力する音源部、72は前記各構成要素間のデータ転送を行うためのバスである。
ユーザーは、前記携帯通信端末51を用いて、前記図12に示したダウンロードセンターのサーバー56にアクセスし、前記3つのフォーマットタイプのうちの所望のタイプの音声再生シーケンスデータを含む本発明のデータ交換フォーマットのファイルをダウンロードして前記RAM63などに格納し、そのまま再生したり、あるいは、着信メロディとして使用することができる。
【0056】
図14は、前記サーバーコンピュータ56からダウンロードして前記RAM63に記憶した本発明のデータ交換フォーマットのファイルを再生する処理の流れを示すフローチャートである。ここでは、ダウンロードしたファイルが、前記図2に示したフォーマットにおいて、スコアトラックチャンクとHVトラックチャンクを有するファイルであるとして説明する。
楽曲の再生の開始指示があったとき、或いは、着信メロディとして使用する場合は着信が発生して処理が開始されると、ダウンロードしたファイルに含まれている音声部(HVトラックチャンク)と楽曲部(スコアトラックチャンク)を分離する(ステップS1)。そして、音声部については、そのフォーマットタイプが(a)TSeq型であるときには、TSeq型をPSeq型に変換する第1のコンバート処理とPSeq型をFSeq型に変換する第2のコンバート処理を実行してFSeq型に変換し、(b)PSeq型であるときには、前記第2のコンバート処理を行ってFSeq型に変換し、(c)FSeq型であるときにはそのままというように、フォーマットタイプに応じた処理を行ってFSeq型のデータに変換し(ステップS2)、各フレームのフォルマント制御データをフレーム毎に更新して前記音源部70に供給する(ステップS3)。一方、楽曲部については、音源部に所定のタイミングで楽音発生パラメータを供給する(ステップS4)。これにより、音声と楽曲が合成して(ステップS5)、出力される(ステップS6)。
【0057】
前記図3に関して説明したように、本発明のデータ交換フォーマットは、SMFやSMAFなどの既存の楽曲データ21に音声合成用テキストデータ22に基づいて作成した音声再生シーケンスデータを付け加えることにより制作することができるため、上述のように着信メロディなどに利用した場合に多種のエンターテイメント性のあるサービスを提供することが可能となる。
【0058】
また、上記においてはダウンロードセンターのサーバーコンピュータ56からダウンロードした音声再生シーケンスデータを再生するものであったが、音声再生装置で上述した本発明のデータ交換フォーマットのファイルを作成することもできる。
前記携帯通信端末51において、発声したいテキストに対応する前記TSeq型のTSeqデータチャンクを入力部66から入力する。例えば、「<Tお’っはよー、げ_んき?」と入力する。そして、これをそのまま、あるいは、前記第1、第2のコンバート処理を行って、前述の3つのフォーマットタイプのうちのいずれかの音声再生シーケンスデータとし、本発明のデータ交換フォーマットのファイルへ変換して保存する。そして、そのファイルをメールに添付して相手端末に送信する。
このメールを受信した相手方の携帯通信端末では、受信したファイルのタイプを解釈し、対応した処理を行ってその音源部を用いて当該音声を再生する。
このように、携帯通信端末で、データを送信する前に加工することで、多種のエンターテイメント性のあるサービスを提供することが可能となる。この場合、それぞれの加工方法で、サービスに最適な音声合成用フォーマット種類を選択する。
【0059】
さらにまた、近年では、携帯通信端末においてJava(TM)によるアプリケーションプログラムをダウンロードして実行することができるようになっている。そこで、Java(TM)アプリケーションプログラムを用いてより多彩な処理を行わせることができる。
すなわち、携帯通信端末上で、発声したいテキストを入力する。そして、Java(TM)アプリケーションプログラムにより、入力されたテキストデータを受け取り、該テキストに合致した画像データ(例えば、しゃべっている顔)を貼付け、本発明のデータ交換フォーマットのファイル(HVトラックチャンクとグラフィックストラックチャンクを有するファイル)へ変換し、Java(TM)アプリケーションプログラムからAPI経由で本ファイルをミドルウエア(シーケンサ、音源や画像を制御するソフトウエアモジュール)に送信する。ミドルウエアは送られたファイル・フォーマットを解釈し、音源で音声を再生しながら表示部で画像を同期して表示する。
このように、Java(TM)アプリケーションのプログラミングにより、多種のエンターテイメント性のあるサービスを提供することができる。この場合、それぞれの加工方法で、サービスに最適な音声合成用フォーマット種類を選択する。
【0060】
なお、上述した実施の形態においては、HVトラックチャンクに含まれる音声再生シーケンスデータのフォーマットを3つの型に応じて異なるフォーマットとしていたが、これに限られることはない。例えば、前記図1に示したように、(a)TSeq型と(c)FSeq型は、いずれも、シーケンスデータチャンクとTSeqあるいはFSeqデータチャンクを有するものであり、基本的な構造は同一であるので、これらを統一し、データチャンクのレベルで、TSeq型のデータチャンクであるのかFSeq型のデータチャンクであるのかを識別するようにしてもよい。
また、上述した各表に記載したデータの定義は、何れも一例に過ぎないものであり、任意に変更することができる。
【0061】
【発明の効果】
以上説明したように、本発明の音声再生シーケンスデータのデータ交換フォーマットによれば、音声再生のためのシーケンスを表現することができるとともに、異なるシステムや装置の間で音声再生シーケンスデータを頒布したり交換することが可能となる。
また、楽曲シーケンスデータと音声再生シーケンスデータを各々異なるチャンクに含むようにした本発明のシーケンスデータのデータ交換フォーマットによれば、1つのフォーマット・ファイルで音声再生シーケンスと楽曲シーケンスの同期を取って再生することができる。
また、楽曲シーケンスデータと音声再生シーケンスデータを独立に記述することができ、一方のみを取り出して再生させることが容易にできる。
また、3つのフォーマットタイプを選択することができる本発明のデータ交換フォーマットによれば、音声再生の用途や処理側の負荷を考慮し、最も適切なフォーマットタイプを選択することができる。
【図面の簡単な説明】
【図1】 本発明における音声再生シーケンスデータのデータ交換フォーマットの一実施の形態を示す図である。
【図2】 HVトラックチャンクをデータチャンクの一つとして含むSMAFファイルの例を示す図である。
【図3】 本発明のデータ交換フォーマットを作成するシステム及び該データ交換フォーマットファイルを利用するシステムの概略構成の一例を示す図である。
【図4】 音源部の概略構成の一例を示す図である。
【図5】 (a)TSeq型、(b)PSeq型、及び、(c)FSeq型の3通りのフォーマットタイプの違いについて説明するための図である。
【図6】 (a)はシーケンスデータの構成、(b)はデュレーションとゲートタイムの関係を示す図である。
【図7】 (a)はTSeqデータチャンクの一例を示す図であり、(b)はその再生時間処理について説明するための図である。
【図8】 韻律制御情報について説明するための図である。
【図9】 ゲートタイムとディレイタイムとの関係を示す図である。
【図10】 フォルマントのレベルと中心周波数を示す図である。
【図11】 FSeqデータチャンクのボディ部のデータを示す図である。
【図12】 音声再生装置の一つである携帯通信端末に対し本発明のデータ交換フォーマットのファイルを配信するコンテンツデータ配信システムの概略構成の一例を示す図である。
【図13】 携帯通信端末の一構成例を示すブロック図である。
【図14】 本発明のデータ交換フォーマットのファイルを再生する処理の流れを示すフローチャートである。
【図15】 SMAFの概念を説明するための図である。
【符号の説明】
1 本発明のデータ交換フォーマットを有するファイル、2 コンテンツ・インフォ・チャンク、3 オプショナル・データ・チャンク、4 HVトラックチャンク、5,11,12 シーケンスデータチャンク、6〜8 TSeqデータチャンク、9 セットアップデータチャンク、10 ディクショナリデータチャンク、13〜15 FSeqデータチャンク、21 楽曲データ、22 テキストファイル、23 オーサリング・ツール、24 本発明のデータ交換フォーマットを有するファイル、25 利用装置、26 シーケンサ、27 音源部、28 フォルマント生成部、29 ピッチ生成部、30 ミキシング部、51 携帯通信端末、52 基地局、53 移動交換局、54 関門局、55 インターネット、56 ダウンロードサーバー、57 コンテンツデータ制作会社

Claims (1)

  1. 一つのファイル中のそれぞれ異なるチャンクに含まれている楽曲シーケンスデータと音声再生シーケンスデータとを同期して再生する音声再生装置であって、
    前記楽曲シーケンスデータは、演奏イベントデータとその演奏イベントを実行するタイミングを先行する演奏イベントからの経過時間により指定するデュレーションデータとの組が時間順に配置されたデータであり、
    前記音声再生シーケンスデータは、
    音声再生イベントデータと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションデータとの組により構成されている音声再生シーケンスデータであって、前記音声再生イベントデータが音声合成用の情報を指定して音声の発音を指示するメッセージであり、前記指定される音声合成用の情報が、合成される音声の読みを示すテキスト情報、音声表現を指定する韻律記号及び音色を指定する情報をテキストで記述した情報である第1のタイプの音声再生シーケンスデータ、
    音声再生イベントデータと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションデータとの組により構成されている音声再生シーケンスデータであって、前記音声再生イベントデータが、合成される音声を示す音素情報と韻律制御情報とを含む音声の発音を指示するメッセージと、音色を指定するメッセージとを含むものである第2のタイプの音声再生シーケンスデータ、又は
    音声再生イベントデータと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションデータとの組により構成されている音声再生シーケンスデータであって、前記音声再生イベントデータが音声合成用の情報を指定して発音の開始を指示するメッセージであり、前記指定される音声合成用の情報が再生される音声を示す所定時間長を有するフレームごとのフォルマント制御情報である第3のタイプの音声再生シーケンスデータのいずれかのタイプの音声再生シーケンスデータであり
    前記楽曲シーケンスデータに基づいて当該楽曲を再生するとともに、前記フォルマント制御情報に基づいて音声を合成する音源部と、
    前記第1のタイプの音声再生シーケンスデータをテキスト情報及び韻律記号とそれに対応する音素及び韻律制御情報を格納した第1の辞書を参照して前記第2のタイプの音声再生シーケンスデータに変換する第1の手段と、
    前記第2のタイプの音声再生シーケンスデータを各音素及び韻律制御情報とそれに対応するフォルマント制御情報を格納した第2の辞書を参照して前記第3のタイプの音声再生シーケンスデータに変換する第2の手段と、
    前記ファイルに含まれている前記楽曲シーケンスデータと前記音声再生シーケンスデータを分離する手段と、
    前記楽曲シーケンスデータに基づいて所定のタイミングで楽音発生パラメータを前記音源部に供給する手段と、
    前記音声再生シーケンスデータが、前記第1のタイプの音声再生シーケンスデータであるときは、前記第1の手段と前記第2の手段を用いて当該第1のタイプの音声再生シーケンスデータを前記第3のタイプの音声再生シーケンスデータに変換し、前記第2のタイプの音声再生シーケンスデータであるときは、前記第2の手段を用いて当該第2のタイプの音声再生シーケンスデータを前記第3のタイプの音声再生シーケンスデータに変換する手段と
    前記第3のタイプの音声再生シーケンスデータに基づいて所定のタイミングで該第3のタイプの音声再生シーケンスデータに含まれているフォルマント制御情報を前記フレームごとに前記音源部に出力する出力手段とを有し、
    前記音声再生シーケンスデータと前記楽曲シーケンスデータの再生を同時に開始させ、 前記音源部において生成された楽音と音声を合成して出力することにより、当該楽曲と当該音声とを同期して再生するようにしたことを特徴とする音声再生装置。
JP2002335233A 2002-11-19 2002-11-19 音声再生装置 Expired - Fee Related JP3938015B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2002335233A JP3938015B2 (ja) 2002-11-19 2002-11-19 音声再生装置
US10/715,921 US7230177B2 (en) 2002-11-19 2003-11-17 Interchange format of voice data in music file
KR1020030081353A KR100582154B1 (ko) 2002-11-19 2003-11-18 시퀀스 데이터의 데이터 교환 포맷, 음성 재생 장치 및서버 장치
TW092132425A TWI251807B (en) 2002-11-19 2003-11-19 Interchange format of voice data in music file
CNB2003101163027A CN1223983C (zh) 2002-11-19 2003-11-19 乐音语音再现装置及其控制方法、及服务器装置
CNU2003201006500U CN2705856Y (zh) 2002-11-19 2003-11-19 乐音和语音再现装置
HK04106131A HK1063373A1 (en) 2002-11-19 2004-08-17 Musical tone and voice reproduction device and control method thereof, and server device.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002335233A JP3938015B2 (ja) 2002-11-19 2002-11-19 音声再生装置

Publications (2)

Publication Number Publication Date
JP2004170618A JP2004170618A (ja) 2004-06-17
JP3938015B2 true JP3938015B2 (ja) 2007-06-27

Family

ID=32321757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002335233A Expired - Fee Related JP3938015B2 (ja) 2002-11-19 2002-11-19 音声再生装置

Country Status (6)

Country Link
US (1) US7230177B2 (ja)
JP (1) JP3938015B2 (ja)
KR (1) KR100582154B1 (ja)
CN (2) CN2705856Y (ja)
HK (1) HK1063373A1 (ja)
TW (1) TWI251807B (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137880A1 (en) * 2003-12-17 2005-06-23 International Business Machines Corporation ESPR driven text-to-song engine
JP4702689B2 (ja) * 2003-12-26 2011-06-15 ヤマハ株式会社 音楽コンテンツ利用装置及びプログラム
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
JP4400363B2 (ja) * 2004-08-05 2010-01-20 ヤマハ株式会社 音源システム、楽曲ファイルを記録したコンピュータ読み取り可能な記録媒体及び楽曲ファイル作成ツール
JP4412128B2 (ja) * 2004-09-16 2010-02-10 ソニー株式会社 再生装置および再生方法
JP2006137033A (ja) * 2004-11-10 2006-06-01 Toppan Forms Co Ltd 音声メッセージ伝達シート
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
KR20080043358A (ko) * 2005-08-19 2008-05-16 그레이스노트 아이엔씨 재생 디바이스의 동작을 제어하는 방법 및 시스템
WO2007103583A2 (en) * 2006-03-09 2007-09-13 Gracenote, Inc. Method and system for media navigation
JP5152458B2 (ja) * 2006-12-01 2013-02-27 株式会社メガチップス コンテンツベース、コミュニケーションシステム
JPWO2008102413A1 (ja) * 2007-02-22 2010-05-27 富士通株式会社 音楽再生装置および音楽再生方法
US7649136B2 (en) * 2007-02-26 2010-01-19 Yamaha Corporation Music reproducing system for collaboration, program reproducer, music data distributor and program producer
JP5040356B2 (ja) * 2007-02-26 2012-10-03 ヤマハ株式会社 自動演奏装置、再生システム、配信システム及びプログラム
US7825322B1 (en) * 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing
US20100036666A1 (en) * 2008-08-08 2010-02-11 Gm Global Technology Operations, Inc. Method and system for providing meta data for a work
JP4674623B2 (ja) * 2008-09-22 2011-04-20 ヤマハ株式会社 音源システム及び楽曲ファイル作成ツール
US8731943B2 (en) * 2010-02-05 2014-05-20 Little Wing World LLC Systems, methods and automated technologies for translating words into music and creating music pieces
EP2362375A1 (en) 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5879682B2 (ja) * 2010-10-12 2016-03-08 ヤマハ株式会社 音声合成装置及びプログラム
CN102541965B (zh) * 2010-12-30 2015-05-20 国际商业机器公司 自动获得音乐文件中的特征片断的方法和系统
JP6003115B2 (ja) * 2012-03-14 2016-10-05 ヤマハ株式会社 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法
US11132983B2 (en) 2014-08-20 2021-09-28 Steven Heckenlively Music yielder with conformance to requisites
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6801687B2 (ja) * 2018-03-30 2020-12-16 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
CN111294626A (zh) * 2020-01-21 2020-06-16 腾讯音乐娱乐科技(深圳)有限公司 歌词显示的方法和装置
KR102465870B1 (ko) * 2021-03-17 2022-11-10 네이버 주식회사 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4527274A (en) * 1983-09-26 1985-07-02 Gaynor Ronald E Voice synthesizer
JPH0229797A (ja) 1988-07-20 1990-01-31 Fujitsu Ltd テキスト音声変換装置
JP3077981B2 (ja) 1988-10-22 2000-08-21 博也 藤崎 基本周波数パタン生成装置
JPH01186977A (ja) 1988-11-29 1989-07-26 Mita Ind Co Ltd 可変倍率静電複写機における光学装置
JPH04175049A (ja) 1990-11-08 1992-06-23 Toshiba Corp 音声応答装置
JP2745865B2 (ja) 1990-12-15 1998-04-28 ヤマハ株式会社 楽音合成装置
US5673362A (en) 1991-11-12 1997-09-30 Fujitsu Limited Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network
JP3446764B2 (ja) 1991-11-12 2003-09-16 富士通株式会社 音声合成システム及び音声合成サーバ
US5680512A (en) * 1994-12-21 1997-10-21 Hughes Aircraft Company Personalized low bit rate audio encoder and decoder using special libraries
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
JP3144273B2 (ja) 1995-08-04 2001-03-12 ヤマハ株式会社 自動歌唱装置
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
JP3806196B2 (ja) 1996-11-07 2006-08-09 ヤマハ株式会社 楽曲データ作成装置およびカラオケシステム
JP3405123B2 (ja) 1997-05-22 2003-05-12 ヤマハ株式会社 音声データ処理装置及びデータ処理プログラムを記録した媒体
JP3307283B2 (ja) 1997-06-24 2002-07-24 ヤマハ株式会社 歌唱音合成装置
JP3985117B2 (ja) 1998-05-08 2007-10-03 株式会社大塚製薬工場 ジヒドロキノリン誘導体
JP3956504B2 (ja) 1998-09-24 2007-08-08 ヤマハ株式会社 カラオケ装置
JP3116937B2 (ja) 1999-02-08 2000-12-11 ヤマハ株式会社 カラオケ装置
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP2001222281A (ja) * 2000-02-09 2001-08-17 Yamaha Corp 携帯電話装置及び携帯電話装置の楽曲再生方法
JP2001282815A (ja) 2000-03-28 2001-10-12 Hitachi Ltd 要約読み上げ装置
JP2002074503A (ja) 2000-08-29 2002-03-15 Dainippon Printing Co Ltd 自動販売機情報配信システム及び記録媒体
JP2002132282A (ja) 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd 電子テキスト読み上げ装置

Also Published As

Publication number Publication date
TW200501056A (en) 2005-01-01
CN1503219A (zh) 2004-06-09
US7230177B2 (en) 2007-06-12
CN2705856Y (zh) 2005-06-22
HK1063373A1 (en) 2004-12-24
TWI251807B (en) 2006-03-21
US20040099126A1 (en) 2004-05-27
KR20040044349A (ko) 2004-05-28
JP2004170618A (ja) 2004-06-17
CN1223983C (zh) 2005-10-19
KR100582154B1 (ko) 2006-05-23

Similar Documents

Publication Publication Date Title
JP3938015B2 (ja) 音声再生装置
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US5890115A (en) Speech synthesizer utilizing wavetable synthesis
JP2000194360A (ja) 音の電子的発生方法及び装置
JP2000105595A (ja) 歌唱装置及び記録媒体
JP2001215979A (ja) カラオケ装置
TW529018B (en) Terminal apparatus, guide voice reproducing method, and storage medium
KR100634142B1 (ko) 휴대 단말 장치
JP2001195068A (ja) 携帯用端末装置、楽音情報利用システム及び基地局
JPH10319993A (ja) データ編集装置
JP2022065554A (ja) 音声合成方法およびプログラム
KR100612780B1 (ko) 음성 및 악곡 재생 장치
JP2002221978A (ja) ボーカルデータ生成装置、ボーカルデータ生成方法および歌唱音合成装置
JP3409644B2 (ja) データ編集装置およびデータ編集プログラムを記録した媒体
JP5598056B2 (ja) カラオケ装置およびカラオケ曲紹介プログラム
JPH0895588A (ja) 音声合成装置
JPH1185174A (ja) 利用者が伴奏音楽を演奏できるカラオケ装置
JP4244706B2 (ja) 音声再生装置
KR100994340B1 (ko) 문자음성합성을 이용한 음악 컨텐츠 제작장치
Uchida A practical method for generating whispers from singing voices: Application of improved phantom silhouette method
JP2005156946A (ja) 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム
JP6578725B2 (ja) 制御用端末装置、合成歌唱生成装置
JPH1039896A (ja) 歌唱音声合成装置及び方法
CN116324971A (zh) 语音合成方法及程序
JP2004341338A (ja) カラオケシステム、カラオケ再生方法および車両

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees