Nothing Special   »   [go: up one dir, main page]

JP3270356B2 - Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure - Google Patents

Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure

Info

Publication number
JP3270356B2
JP3270356B2 JP08312497A JP8312497A JP3270356B2 JP 3270356 B2 JP3270356 B2 JP 3270356B2 JP 08312497 A JP08312497 A JP 08312497A JP 8312497 A JP8312497 A JP 8312497A JP 3270356 B2 JP3270356 B2 JP 3270356B2
Authority
JP
Japan
Prior art keywords
voice
information
data
character string
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08312497A
Other languages
Japanese (ja)
Other versions
JPH10222187A (en
Inventor
信英 山崎
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP08312497A priority Critical patent/JP3270356B2/en
Publication of JPH10222187A publication Critical patent/JPH10222187A/en
Application granted granted Critical
Publication of JP3270356B2 publication Critical patent/JP3270356B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To prepare information in which two expression types of information, i.e., character information and voice information, are combined consistently by allowing speech data for selected voice to correspond to inputted character- string and storing it as speech text. SOLUTION: A speech data storage part 103 stores speech data by each group by grouping the speech data with the same character-string information on the basis of the character-string information of the speech data. Using the character-string inputted through an inputting part 106, a group having the same character-string information as the character-string is retrieved from the speech data storage part 103. A voice synthesis part 105 successively reads out the speech data in the retrieved group and synthesizes voice using the information read out and the timbre data stored in a timbre data storage part 104. A speech text storage part 110 allows the speech data for selected voice to correspond to the inputted character-string and stores it as speech text.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は,文書を構成する文
字列に,それぞれの文字列の喋り方を特定する喋り方デ
ータを付加して発話文書を作成する発話文書作成装置,
発話文書作成方法および発話文書作成手順をコンピュー
タに実行させるプログラムを格納したコンピュータ読み
取り可能な記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an utterance document creation apparatus for creating an utterance document by adding, to a character string constituting a document, speaking style data for specifying how each character string is spoken.
The present invention relates to a computer-readable recording medium storing a program for causing a computer to execute an utterance document creation method and an utterance document creation procedure.

【0002】[0002]

【従来の技術】情報の伝達・保管方法の一つとして文字
情報を用いる方法が知られている。この文字情報を用い
る方法として,近年,日本語ワードプロセッサ,英文ワ
ードプロセッサ等の文書作成装置や,ワープロ機能を有
したパソコンを用いて,文書作成者が所望の文書を作成
し,作成した文書をネットワークを介して転送したり,
作成した文書を磁気ディスクや,光ディスク等の記録媒
体に記憶させる方法が使用されるようになっている。こ
れは,コンピュータ関連技術の発展に伴って文書作成装
置自体が高機能化・低価格化を実現していると共に,オ
フィスのペーパレス化の推進や,通信網の整備,電子メ
ールの普及等による作業環境の変化に負うところが大き
い。
2. Description of the Related Art As a method of transmitting and storing information, a method using character information is known. Recently, as a method of using this character information, a document creator creates a desired document using a document creating device such as a Japanese word processor or an English word processor, or a personal computer having a word processing function, and transmits the created document to a network. Transfer via
A method of storing a created document in a recording medium such as a magnetic disk or an optical disk has been used. This is due to the development of computer-related technology, which has realized higher functionality and lower cost of the document creation device itself, as well as the promotion of paperless offices, the development of communication networks, and the spread of e-mail. It depends heavily on environmental changes.

【0003】また,情報の伝達・保管等に使用される他
の方法として,音声情報を用いる方法や,音声情報と映
像情報とを用いる方法が知られている。例えば,音声情
報を用いる方法では,情報の伝達は電話等を介して直
接,音声情報を転送し,情報の保管は録音機器を用いて
テープ等に録音して保管している。また,音声情報と映
像情報とを用いる方法では,情報の伝達はモニターとス
ピーカーを有する通信装置を用いて音声情報と映像情報
を転送し,情報の保管はビデオ装置等の録画機器を用い
てビデオテープや,光ディスク等に保管している。
As other methods used for transmitting and storing information, a method using audio information and a method using audio information and video information are known. For example, in the method using voice information, voice information is transmitted directly through a telephone or the like, and information is stored and recorded on a tape or the like using a recording device. In the method using audio information and video information, information is transmitted using a communication device having a monitor and a speaker, and audio information and video information are transferred, and information is stored using a recording device such as a video device. Stored on tape, optical disk, etc.

【0004】なお,上述した情報の伝達・保管方法のう
ち,文字情報を用いる方法は,他の方法と比較して,デ
ータ量が少なく,情報の編集が容易であること,さらに
デジタル情報としてコンピュータ上で使用可能であるこ
とから,最も汎用性が高く,広く使用されている。
[0004] Among the above-mentioned methods of transmitting and storing information, the method using character information has a smaller amount of data and is easier to edit information than other methods, and furthermore, a computer as digital information. Since it can be used above, it is the most versatile and widely used.

【0005】[0005]

【発明が解決しようとする課題】しかしながら,上記従
来の文字情報を用いる方法では,作成した文書が視覚的
な言語情報(すなわち,文字言語情報)に限定された情
報であるため,非言語情報にあたる感情等の表現を情報
として付加することはできなかった。なお,音声を用い
た言語情報(すなわち,音声言語情報)では,アクセン
トや,声の大きさ(音量),声の高さ等の喋り方を変え
ることで,非言語情報にあたる感情等の表現を情報とし
て付加していた。
However, according to the conventional method using character information, since the created document is information limited to visual linguistic information (that is, character linguistic information), it corresponds to non-linguistic information. Expressions such as emotions could not be added as information. In speech-based linguistic information (ie, speech linguistic information), expressions such as emotions that correspond to non-linguistic information can be expressed by changing the way of speaking, such as accent, loudness (volume), and pitch. Was added as information.

【0006】また,従来の技術において,文字情報と音
声情報という2つの表現形態の情報を整合性の取れた形
で複合した情報を作成する装置および方法は提供されて
いなかった。
Further, in the prior art, there has not been provided an apparatus and a method for creating information in which information of two expression forms, that is, character information and voice information, is combined in a consistent manner.

【0007】また,音声情報の編集は,基本的に聴覚を
用いて(すなわち,再生させた音声情報を耳で聞いて)
行うのが一般的であり,一々再生して所望の音声情報の
位置(場所)を確認する必要があるため,作業が煩雑
で,面倒であるという問題点もあった。
[0007] The editing of audio information is basically performed using the auditory sense (that is, by listening to the reproduced audio information by ear).
This is generally performed, and it is necessary to reproduce the data one by one to check the position (location) of the desired audio information, so that there is a problem that the operation is complicated and troublesome.

【0008】なお,従来の音声合成技術の一つであるテ
キスト音声合成技術を用いることにより,テキスト文書
(すなわち,文字情報)から音声を合成することも可能
であるが,テキストからの音声合成では,辞書に入って
いない固有名詞を読み間違えたり,違ったアクセントで
発音するという問題点があった。さらに非言語情報であ
る感情等の表現ができないことや,文書作成者の意図す
る喋り方で正確に音声を合成することができないという
問題点もあった。
It is possible to synthesize speech from a text document (ie, character information) by using a text speech synthesis technique, which is one of the conventional speech synthesis techniques. However, there was a problem that proper nouns not included in the dictionary were misread or pronounced with different accents. There are also problems that it is not possible to express emotions, which are non-verbal information, and that it is not possible to synthesize speech accurately according to the way the creator intends to speak.

【0009】本発明は上記に鑑みてなされたものであっ
て,文字情報と音声情報という2つの表現形態の情報を
整合性の取れた形で複合した情報(発話文書)を作成す
ることができる装置および方法を提供することを目的と
する。
The present invention has been made in view of the above, and it is possible to create information (an utterance document) in which information of two expression forms, that is, character information and voice information, is combined in a consistent manner. It is an object to provide an apparatus and a method.

【0010】また,本発明は上記に鑑みてなされたもの
であって,文字情報と文書作成者の意図する喋り方を含
む音声情報(喋り方データ)との整合性をとった情報
(発話文書)を作成して,文書中に非言語情報にあたる
感情等の表現を付加できるようにすることを目的とす
る。
Further, the present invention has been made in view of the above, and is based on information (a spoken document) in which character information and speech information (speech data) including a manner of speech intended by a document creator are obtained. ) Is created so that expressions such as emotions corresponding to non-verbal information can be added to a document.

【0011】また,本発明は上記に鑑みてなされたもの
であって,音声情報の編集を文字情報を介して視覚的に
行って作業性の向上を図ると共に,文書作成者の意図す
る喋り方で正確に音声を合成できるようにすることを目
的とする。
Further, the present invention has been made in view of the above, and it is intended to improve the workability by visually editing audio information through character information, and to improve the way of speaking intended by a document creator. It is an object of the present invention to be able to synthesize speech accurately by using.

【0012】[0012]

【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る発話文書作成装置は,単語,文節
または文から成る文字列情報,前記文字列情報の文字に
対応した音韻から成る音韻列情報,前記音韻列情報中の
各音韻の継続時間長,前記音韻列情報の任意の時点での
相対的なピッチを指定するピッチ情報および前記音韻列
情報の各音韻の音量を指定するベロシティ情報から構成
される喋り方データを,前記喋り方データの文字列情報
に基づいて,前記文字列情報が同一であってその読みが
異なる喋り方データをグループ化してグループ毎に記憶
した喋り方データ記憶手段と,単語,文節または文を構
成する文字列を入力するための文字列入力手段と,前記
文字列入力手段を介して入力された文字列を用いて,前
記文字列と同一の文字列情報を有するグループを前記喋
り方データ記憶手段から検索する検索手段と,合成する
音声に声色を付加するための声色データを複数記憶した
声色データ記憶手段と,前記検索手段で検索したグルー
プ中の喋り方データを順次読み出して,前記読み出した
喋り方データの音韻列情報,継続時間長,ピッチ情報お
よびベロシティ情報と前記声色データ記憶手段に記憶さ
れている声色データの一つとを用いて音声を合成する音
声合成手段と,前記音声合成手段で合成された音声から
所望の音声を選択するための音声選択手段と,前記音声
選択手段を用いて選択された音声に対応する喋り方デー
タを前記文字列入力手段を介して入力された文字列と対
応させて発話文書として記憶する発話文書記憶手段と,
を備えたものである。
In order to achieve the above object, an utterance document creating apparatus according to claim 1 comprises a character string information composed of a word, a phrase or a sentence, and a phoneme corresponding to a character of the character string information. , The duration of each phoneme in the phoneme string information, the pitch information specifying the relative pitch of the phoneme string information at an arbitrary point in time, and the volume of each phoneme in the phoneme string information. Based on the character string information of the speaking data, the speaking data having the same character string information and different readings are grouped and stored for each group. Using a character string input means for inputting a character string constituting a word, a phrase or a sentence, and a character string input via the character string input means, Search means for searching a group having character string information from the speech data storage means; voice data storage means for storing a plurality of voice data for adding voice to a synthesized voice; The voice data is sequentially read out, and a voice is generated by using the phoneme string information, the duration time, the pitch information and the velocity information of the read voice data and one of the voice data stored in the voice data storage means. Voice synthesizing means for synthesizing, voice selecting means for selecting a desired voice from the voice synthesized by the voice synthesizing means, and speech data corresponding to the voice selected by using the voice selecting means, Utterance document storage means for storing as an utterance document in correspondence with a character string input via the column input means;
It is provided with.

【0013】また,請求項2に係る発話文書作成装置
は,単語,文節または文から成る文字列情報,前記文字
列情報の文字に対応した音韻から成る音韻列情報,前記
音韻列情報中の各音韻の継続時間長,前記音韻列情報の
任意の時点での相対的なピッチを指定するピッチ情報お
よび前記音韻列情報の任意の時点での相対的な音量を指
定するベロシティ情報から構成される喋り方データを,
前記喋り方データの文字列情報に基づいて,前記文字列
情報が同一であってその読みが異なる喋り方データをグ
ループ化してグループ毎に記憶した喋り方データ記憶手
段と,単語,文節または文を構成する文字列を入力する
ための文字列入力手段と,前記文字列入力手段を介して
入力された文字列を用いて,前記文字列と同一の文字列
情報を有するグループを前記喋り方データ記憶手段から
検索する検索手段と,合成する音声に声色を付加するた
めの声色データを複数記憶した声色データ記憶手段と,
前記検索手段で検索したグループ中の喋り方データを順
次読み出して,前記読み出した喋り方データの音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報と前
記声色データ記憶手段に記憶されている声色データの一
つとを用いて音声を合成する音声合成手段と,前記音声
合成手段で合成された音声から所望の音声を選択するた
めの音声選択手段と,前記音声選択手段を用いて選択さ
れた音声に対応する喋り方データを前記文字列入力手段
を介して入力された文字列と対応させて発話文書として
記憶する発話文書記憶手段と,を備えたものである。
Further, the speech document creating apparatus according to the second aspect of the present invention is characterized in that character string information composed of words, phrases or sentences, phoneme string information composed of phonemes corresponding to the characters of the character string information, Speaking composed of a duration of a phoneme, pitch information specifying a relative pitch of the phoneme string information at an arbitrary point in time, and velocity information specifying a relative volume of the phoneme string information at an arbitrary point in time. Data
Based on the character string information of the speaking style data, speaking style data storage means for grouping speaking style data having the same character string information but different readings and storing the data for each group, and a word, a phrase or a sentence. Using a character string input means for inputting a character string to be composed, and a character string input through the character string input means, storing a group having the same character string information as the character string in the way of speaking data storage Searching means for searching from the means, voice data storing means for storing a plurality of voice data for adding voice to the synthesized voice,
The speech data in the group retrieved by the retrieval means is sequentially read, and the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speech data and the voice data stored in the voice data storage means are read out. Voice synthesizing means for synthesizing the voice using one of the above, a voice selecting means for selecting a desired voice from the voice synthesized by the voice synthesizing means, and a voice selected using the voice selecting means. Utterance document storage means for storing the corresponding manner of speaking data as an utterance document in association with the character string input via the character string input means.

【0014】また,請求項3に係る発話文書作成装置
は,請求項1または2記載の発話文書作成装置におい
て,さらに,前記発話文書記憶手段に記憶されている発
話文書の再生を指定する再生指定手段を備え,前記発話
文書の再生が指定されると,前記音声合成手段が,前記
発話文書中の喋り方データを順次読み出して,音声を合
成するものである。
According to a third aspect of the present invention, in the utterance document creation device according to the first or second aspect, further, a reproduction designation for designating the reproduction of the utterance document stored in the utterance document storage means. Means for reproducing the utterance document, wherein the voice synthesizing means sequentially reads the speaking style data in the utterance document and synthesizes the voice.

【0015】また,請求項4に係る発話文書作成装置
は,請求項3記載の発話文書作成装置において,前記再
生指定手段が,前記発話文書を再生する範囲として,前
記発話文書中の任意の文字列単位,文章単位,ページ単
位または発話文書全体の指定が可能であるものである。
According to a fourth aspect of the present invention, in the utterance document creating apparatus according to the third aspect, the reproduction designating means sets an arbitrary character in the utterance document as a range in which the utterance document is reproduced. It is possible to specify a column unit, a sentence unit, a page unit, or the entire utterance document.

【0016】また,請求項5に係る発話文書作成装置
は,単語,文節または文から成る文字列情報,前記文字
列情報の文字に対応した音韻から成る音韻列情報,前記
音韻列情報中の各音韻の継続時間長,前記音韻列情報の
任意の時点での相対的なピッチを指定するピッチ情報お
よび前記音韻列情報の各音韻の音量を指定するベロシテ
ィ情報から構成される喋り方データを,前記喋り方デー
タの文字列情報に基づいて,前記文字列情報が同一であ
ってその読みが異なる喋り方データをグループ化してグ
ループ毎に記憶した喋り方データ記憶手段と,単語,文
節または文を構成する文字列を入力するための文字列入
力手段と,前記文字列入力手段を介して入力された文字
列を用いて,前記文字列と同一の文字列情報を有するグ
ループを前記喋り方データ記憶手段から検索する検索手
段と,合成する音声に声色を付加するための声色データ
を複数記憶した声色データ記憶手段と,前記声色データ
記憶手段に記憶されている声色データの一つを指定する
ための声色データ指定手段と,前記検索手段で検索した
グループ中の喋り方データを順次読み出して,前記読み
出した喋り方データの音韻列情報,継続時間長,ピッチ
情報およびベロシティ情報と前記声色データ指定手段で
指定された声色データとを用いて音声を合成する音声合
成手段と,前記音声合成手段で合成された音声から所望
の音声を選択するための音声選択手段と,前記音声選択
手段を用いて選択された音声に対応する喋り方データお
よび声色データを前記文字列入力手段を介して入力され
た文字列と対応させて発話文書として記憶する発話文書
記憶手段と,を備えたものである。
According to a fifth aspect of the present invention, there is provided an utterance document creating apparatus, comprising: character string information including words, phrases or sentences; phoneme string information including phonemes corresponding to characters of the character string information; The speech style data comprising the duration of a phoneme, pitch information specifying a relative pitch of the phoneme string information at an arbitrary point in time, and velocity information specifying the volume of each phoneme in the phoneme string information, Based on the character string information of the speaking data, the speaking data data storing means for grouping the speaking data having the same character string information and different readings and storing the data for each group, and forming a word, a phrase or a sentence. A character string input unit for inputting a character string to be input, and a group having the same character string information as the character string using the character string input via the character string input unit. A search means for retrieving from the data storage means, a voice data storage means for storing a plurality of voice data for adding a voice to the synthesized voice, and one of the voice data stored in the voice data storage means. Voice data designating means for reading the voice data in the group searched by the searching means, and sequentially read phonemic sequence information, duration time, pitch information and velocity information of the read voice data and the voice data. A voice synthesizing unit for synthesizing a voice using the voice color data specified by the specifying unit; a voice selecting unit for selecting a desired voice from the voice synthesized by the voice synthesizing unit; The speech style data and the timbre data corresponding to the selected voice are associated with the character string input through the character string input means as an utterance document. And spoken documents storage means for 憶, those having a.

【0017】また,請求項6に係る発話文書作成装置
は,単語,文節または文から成る文字列情報,前記文字
列情報の文字に対応した音韻から成る音韻列情報,前記
音韻列情報中の各音韻の継続時間長,前記音韻列情報の
任意の時点での相対的なピッチを指定するピッチ情報お
よび前記音韻列情報の任意の時点での相対的な音量を指
定するベロシティ情報から構成される喋り方データを,
前記喋り方データの文字列情報に基づいて,前記文字列
情報が同一であってその読みが異なる喋り方データをグ
ループ化してグループ毎に記憶した喋り方データ記憶手
段と,単語,文節または文を構成する文字列を入力する
ための文字列入力手段と,前記文字列入力手段を介して
入力された文字列を用いて,前記文字列と同一の文字列
情報を有するグループを前記喋り方データ記憶手段から
検索する検索手段と,合成する音声に声色を付加するた
めの声色データを複数記憶した声色データ記憶手段と,
前記声色データ記憶手段に記憶されている声色データの
一つを指定するための声色データ指定手段と,前記検索
手段で検索したグループ中の喋り方データを順次読み出
して,前記読み出した喋り方データの音韻列情報,継続
時間長,ピッチ情報およびベロシティ情報と前記声色デ
ータ指定手段で指定された声色データとを用いて音声を
合成する音声合成手段と,前記音声合成手段で合成され
た音声から所望の音声を選択するための音声選択手段
と,前記音声選択手段を用いて選択された音声に対応す
る喋り方データおよび声色データを前記文字列入力手段
を介して入力された文字列と対応させて発話文書として
記憶する発話文書記憶手段と,を備えたものである。
According to a sixth aspect of the present invention, there is provided an utterance document creating apparatus, comprising: character string information comprising words, phrases or sentences; phoneme string information comprising phonemes corresponding to characters of the character string information; Speaking composed of a duration of a phoneme, pitch information specifying a relative pitch of the phoneme string information at an arbitrary point in time, and velocity information specifying a relative volume of the phoneme string information at an arbitrary point in time. Data
Based on the character string information of the speaking style data, speaking style data storage means for grouping speaking style data having the same character string information but different readings and storing the data for each group, and a word, a phrase or a sentence. Using a character string input means for inputting a character string to be composed, and a character string input through the character string input means, storing a group having the same character string information as the character string in the way of speaking data storage Searching means for searching from the means, voice data storing means for storing a plurality of voice data for adding voice to the synthesized voice,
Voice data designating means for designating one of the voice data stored in the voice data storage means; and speaking data in the group searched by the searching means are sequentially read out, and the read voice data is read out. Voice synthesizing means for synthesizing voice using phoneme string information, duration time, pitch information and velocity information and voice data specified by the voice data specifying means, and a desired voice from the voice synthesized by the voice synthesizing means. Voice selecting means for selecting a voice, and speaking data and voice color data corresponding to the voice selected using the voice selecting means are associated with a character string input via the character string input means, and uttered. Utterance document storage means for storing as a document.

【0018】また,請求項7に係る発話文書作成装置
は,請求項5または6記載の発話文書作成装置におい
て,さらに,前記喋り方データを作成して前記喋り方デ
ータ記憶手段に登録する喋り方データ作成・登録手段を
備えたものである。
According to a seventh aspect of the present invention, in the utterance document creating apparatus according to the fifth or sixth aspect, the utterance document creating apparatus further creates the speaking manner data and registers the speaking manner data in the speaking manner data storage means. It is provided with data creation / registration means.

【0019】また,請求項8に係る発話文書作成装置
は,請求項7記載の発話文書作成装置において,前記喋
り方データ作成・登録手段が,あらかじめ収録した音声
波形データまたはユーザが発話した肉声を入力して,音
声波形データを表示する音声波形データ入力手段と,ユ
ーザによる入力または前記音声波形データを音韻分析し
て,各音韻の継続時間長を設定して表示する継続時間長
設定手段と,前記設定された継続時間長に対応する音韻
列情報を付加する音韻列情報付加手段と,前記音声波形
データをピッチ分析してピッチ曲線を表示するピッチ曲
線表示手段と,前記表示されたピッチ曲線および音韻列
情報とに基づいて,前記音韻列情報の任意の時点での相
対的なピッチの値を調整または追加してピッチ情報を生
成するピッチ情報生成手段と,前記音韻列情報の各音韻
の音量を調整してベロシティ情報を生成するベロシティ
情報生成手段と,前記音声波形データに対応する文字列
を入力して文字列情報を設定する文字列情報設定手段
と,前記文字列情報に基づいて前記喋り方データ記憶手
段中の該当するグループに,前記文字列情報,音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報を喋
り方データとして登録する登録手段と,を備えたもので
ある。
According to an eighth aspect of the present invention, in the utterance document creating apparatus according to the seventh aspect, the speaking style data creating / registering means is configured to record voice waveform data recorded in advance or a real voice spoken by a user. Voice waveform data input means for inputting and displaying voice waveform data; duration input means for inputting by a user or analyzing the phonetic waveform of the voice waveform data to set and display the duration of each phoneme; Phoneme string information adding means for adding phoneme string information corresponding to the set duration, pitch curve display means for pitch-analyzing the speech waveform data and displaying a pitch curve; A pitch information generator that adjusts or adds a relative pitch value at an arbitrary point in the phoneme string information based on the phoneme string information to generate pitch information; Means, velocity information generating means for adjusting the volume of each phoneme in the phoneme string information to generate velocity information, and character string information setting for inputting a character string corresponding to the speech waveform data and setting character string information Registering means for registering the character string information, phoneme string information, duration, pitch information and velocity information as speaking data in a corresponding group in the speaking data storage based on the character string information And

【0020】また,請求項9に係る発話文書作成装置
は,請求項5〜8記載のいずれか一つの発話文書作成装
置において,さらに,前記発話文書記憶手段に記憶され
ている発話文書の再生を指定する再生指定手段を備え,
前記発話文書の再生が指定されると,前記音声合成手段
が,前記発話文書中の喋り方データおよび声色データを
順次読み出して,音声を合成するものである。
According to a ninth aspect of the present invention, in the utterance document creation device according to any one of the fifth to eighth aspects, the utterance document creation device further reproduces the utterance document stored in the utterance document storage means. A playback specification means for specifying
When the reproduction of the utterance document is designated, the voice synthesizing means sequentially reads the speech style data and the timbre data in the utterance document and synthesizes the voice.

【0021】また,請求項10に係る発話文書作成装置
は,請求項9記載の発話文書作成装置において,前記再
生指定手段が,前記発話文書を再生する範囲として,前
記発話文書中の任意の文字列単位,文章単位,ページ単
位または発話文書全体の指定が可能であるものである。
According to a tenth aspect of the present invention, in the utterance document creating apparatus according to the ninth aspect, the reproduction specifying means sets an arbitrary character in the utterance document as a range in which the utterance document is reproduced. It is possible to specify a column unit, a sentence unit, a page unit, or the entire utterance document.

【0022】また,請求項11に係る発話文書作成装置
は,請求項5〜10記載のいずれか一つの発話文書作成
装置において,さらに,前記文字列入力手段を用いて,
前記発話文書記憶手段に記憶されている発話文書を表示
し,前記表示した発話文書の任意の文字列を指定し,前
記指定した文字列の変更または再入力が可能であり,前
記変更または再入力された文字列を用いて,前記検索手
段による検索,前記声色データ指定手段による声色デー
タの指定,前記音声合成手段による音声の合成および前
記音声選択手段による音声の選択を行うことにより,前
記指定した文字列に対応する喋り方データおよび声色デ
ータの変更が可能であるものである。
An utterance document creating apparatus according to claim 11 is the utterance document creating apparatus according to any one of claims 5 to 10, further comprising:
Displaying an utterance document stored in the utterance document storage means, specifying an arbitrary character string of the displayed utterance document, and changing or re-inputting the specified character string; The search is performed by the searching means, the voice data is specified by the voice data specifying means, the voice is synthesized by the voice synthesizing means, and the voice is selected by the voice selecting means, using the character string thus specified, whereby the specified voice is specified. It is possible to change the way of speaking data and voice data corresponding to the character string.

【0023】また,請求項12に係る発話文書作成装置
は,請求項1,2,5または6記載の発話文書作成装置
において,前記複数の声色データが,男性の声,女性の
声,子供の声,老人の声,掠れた声,明瞭な声,太い
声,細い声,力強い声,やさしい声,機械的な声のよう
に,それぞれ感覚的に識別可能な声色データであるもの
である。
According to a twelfth aspect of the present invention, in the utterance document creating apparatus according to the first, second, fifth or sixth aspect, the plurality of timbre data is a male voice, a female voice, or a child voice. The voice data is sensibly identifiable, such as voice, old man's voice, sharp voice, clear voice, thick voice, thin voice, powerful voice, gentle voice, and mechanical voice.

【0024】また,請求項13に係る発話文書作成装置
は,請求項1,2,5または6記載の発話文書作成装置
において,前記文字列入力手段が,仮名漢字変換機能を
有し,前記文字例入力手段で入力した文字列が,前記仮
名漢字変換機能を用いて変換した後の漢字仮名交じりの
テキストであるものである。
According to a thirteenth aspect of the present invention, in the utterance document creator according to the first, second, fifth, or sixth aspect, the character string input means has a kana-kanji conversion function, and Example The character string input by the input means is a text with kanji and kana mixed after being converted using the kana-kanji conversion function.

【0025】また,請求項14に係る発話文書作成装置
は,請求項5または6記載の発話文書作成装置におい
て,さらに,前記喋り方データの分類タイプを指定する
分類タイプ指定手段を備え,前記喋り方データが,前記
文字列情報,音韻列情報,継続時間長,ピッチ情報およ
びベロシティ情報に加えて,それぞれの喋り方データの
分類タイプを示すタイプ情報を有し,前記分類タイプ指
定手段を介して分類タイプが指定されると,前記検索手
段が,前記文字列入力手段を介して入力された文字列お
よび前記分類タイプ指定手段を介して指定された分類タ
イプを用いて,前記文字列と同一の文字列情報を有する
グループで,かつ,前記指定された分類タイプと同一の
タイプ情報を有する喋り方データを前記喋り方データ記
憶手段から検索し,前記音声合成手段が,前記検索手段
で検索した喋り方データを読み出して,前記読み出した
喋り方データの音韻列情報,継続時間長,ピッチ情報お
よびベロシティ情報と前記声色データ指定手段で指定さ
れた声色データとを用いて音声を合成するものである。
According to a fourteenth aspect of the present invention, in the utterance document creation device according to the fifth or sixth aspect, the utterance document creation device further includes a classification type designating means for designating a classification type of the speaking style data. Method data has type information indicating a classification type of each of the speaking style data in addition to the character string information, phoneme sequence information, duration time, pitch information and velocity information, and When a classification type is designated, the search means uses the character string input via the character string input means and the classification type designated via the classification type designation means to generate the same character string as the character string. Retrieving, from the speaking data storage means, speaking data in a group having character string information and having the same type information as the designated classification type; The speech synthesis means reads the speaking style data retrieved by the retrieval means, and reads the phonetic sequence information, duration time, pitch information and velocity information of the read speaking style data, and the voice specified by the voice color data specifying means. The speech is synthesized using the data.

【0026】また,請求項15に係る発話文書作成装置
は,請求項14記載の発話文書作成装置において,前記
分類タイプが,それぞれの喋り方データに対応する音声
を,東京型発音タイプ,大阪型発音タイプ,徳島型発音
タイプ等のように地域によって分類したものである。
According to a fifteenth aspect of the present invention, in the utterance document creator according to the fourteenth aspect, the classification type is such that a speech corresponding to each of the speaking style data is a Tokyo type pronunciation type or an Osaka type pronunciation. It is classified by region, such as pronunciation type and Tokushima type pronunciation type.

【0027】また,請求項16に係る発話文書作成装置
は,請求項14記載の発話文書作成装置において,前記
分類タイプが,それぞれの喋り方データに対応する音声
を,老人型発音タイプ,若者型発音タイプ,高校生型発
音タイプ等のように年齢によって分類したものである。
[0027] According to a twelfth aspect of the present invention, in the utterance document creator according to the fourteenth aspect, the classification type is such that a speech corresponding to each of the speaking style data is an elderly-type pronunciation type and a youth-type. They are classified by age, such as pronunciation type and high school student type.

【0028】また,請求項17に係る発話文書作成装置
は,請求項5〜16記載のいずれか一つの発話文書作成
装置において,前記文字列入力手段が,表示部を有して
おり,かつ,前記発話文書の各文字列毎に指定されてい
る声色データに基づいて,表示する文字列のフォント
や,装飾方法を変えて前記表示部に表示するものであ
る。
According to a twelfth aspect of the present invention, in the utterance document creation device according to any one of the fifth to sixteenth aspects, the character string input means has a display unit; Based on the voice data specified for each character string of the utterance document, the font of the character string to be displayed and the decoration method are changed and displayed on the display unit.

【0029】また,請求項18に係る発話文書作成方法
は,単語,文節または文を構成する文字列を入力する第
1の工程と,単語,文節または文から成る文字列情報,
前記文字列情報の文字に対応した音韻から成る音韻列情
報,前記音韻列情報中の各音韻の継続時間長,前記音韻
列情報の任意の時点での相対的なピッチを指定するピッ
チ情報および前記音韻列情報の各音韻の音量を指定する
ベロシティ情報から構成される喋り方データを,前記喋
り方データの文字列情報に基づいて,前記文字列情報が
同一であってその読みが異なる喋り方データをグループ
化してグループ毎に記憶したデータベースを参照して,
前記第1の工程で入力された文字列と同一の文字列情報
を有するグループを検索する第2の工程と,合成する音
声に声色を付加するため声色データを指定する第3の工
程と,前記第2の工程で検索したグループ中の喋り方デ
ータを順次読み出して,前記読み出した喋り方データの
音韻列情報,継続時間長,ピッチ情報およびベロシティ
情報と,前記第3の工程で指定された声色データとを用
いて,音声を合成する第4の工程と,前記第4の工程で
合成された音声から所望の音声を選択する第5の工程
と,前記第5の工程で選択した音声に対応する喋り方デ
ータを前記1の工程で入力した文字列と対応させて発話
文書として記憶する第6の工程と,を含むものである。
According to a twelfth aspect of the present invention, there is provided an utterance document creating method, comprising the steps of: inputting a character string constituting a word, a phrase or a sentence;
Phoneme string information composed of phonemes corresponding to the characters of the character string information, duration time of each phoneme in the phoneme string information, pitch information specifying a relative pitch of the phoneme string information at an arbitrary point in time, and Speaking data composed of velocity information specifying the volume of each phoneme in the phonemic sequence information is converted into speech data having the same character string information and different readings based on the character string information of the speaking data. By referring to the database that has been grouped and stored for each group,
A second step of searching for a group having the same character string information as the character string input in the first step, a third step of specifying voice data to add voice to the synthesized voice, The speech style data in the group searched in the second step is sequentially read, and the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speech style data, and the voice specified in the third step are read out. A fourth step of synthesizing the voice using the data, a fifth step of selecting a desired voice from the voice synthesized in the fourth step, and a step corresponding to the voice selected in the fifth step. And a sixth step of storing the speaking style data to be associated with the character string input in the first step as an utterance document.

【0030】また,請求項19に係る発話文書作成方法
は,単語,文節または文を構成する文字列を入力する第
1の工程と,単語,文節または文から成る文字列情報,
前記文字列情報の文字に対応した音韻から成る音韻列情
報,前記音韻列情報中の各音韻の継続時間長,前記音韻
列情報の任意の時点での相対的なピッチを指定するピッ
チ情報および前記音韻列情報の任意の時点での相対的な
音量を指定するベロシティ情報から構成される喋り方デ
ータを,前記喋り方データの文字列情報に基づいて,前
記文字列情報が同一であってその読みが異なる喋り方デ
ータをグループ化してグループ毎に記憶したデータベー
スを参照して,前記第1の工程で入力された文字列と同
一の文字列情報を有するグループを検索する第2の工程
と,合成する音声に声色を付加するため声色データを指
定する第3の工程と,前記第2の工程で検索したグルー
プ中の喋り方データを順次読み出して,前記読み出した
喋り方データの音韻列情報,継続時間長,ピッチ情報お
よびベロシティ情報と,前記第3の工程で指定された声
色データとを用いて,音声を合成する第4の工程と,前
記第4の工程で合成された音声から所望の音声を選択す
る第5の工程と,前記第5の工程で選択した音声に対応
する喋り方データを前記1の工程で入力した文字列と対
応させて発話文書として記憶する第6の工程と,を含む
ものである。
According to a twelfth aspect of the present invention, in the utterance document creating method, a first step of inputting a character string constituting a word, a phrase or a sentence, and a character string information comprising a word, a phrase or a sentence,
Phoneme string information composed of phonemes corresponding to the characters of the character string information, duration time of each phoneme in the phoneme string information, pitch information specifying a relative pitch of the phoneme string information at an arbitrary point in time, and Based on the character string information of the speaking data, the speaking style data composed of the velocity information specifying the relative volume at any time of the phonemic sequence information is read. A second step of retrieving a group having the same character string information as the character string input in the first step with reference to a database in which different ways of speaking data are grouped and stored for each group; A third step of specifying voice data to add a voice to the voice to be spoken, and sequentially reading the talking style data in the group searched in the second step, and selecting the voice of the read talking style data. A fourth step of synthesizing the voice using the column information, the duration time, the pitch information and the velocity information, and the timbre data specified in the third step; and a voice synthesized in the fourth step. A fifth step of selecting a desired voice from the first step; and a sixth step of storing the speaking style data corresponding to the voice selected in the fifth step as an utterance document in association with the character string input in the first step. And a process.

【0031】また,請求項20に係る発話文書作成方法
は,請求項18または19記載の発話文書作成方法にお
いて,さらに,前記第6の工程で記憶した発話文書の再
生を指定する第7の工程と,前記第7の工程で前記発話
文書の再生が指定されると,前記発話文書中の喋り方デ
ータおよび声色データを順次読み出して,音声を合成す
る第8の工程と,を含むものである。
According to a twentieth aspect of the present invention, there is provided the utterance document creating method according to the twelfth aspect, further comprising a seventh step of designating reproduction of the utterance document stored in the sixth step. And an eighth step of, when the reproduction of the utterance document is designated in the seventh step, sequentially reading the speech style data and the timbre data in the utterance document and synthesizing the voice.

【0032】また,請求項21に係る発話文書作成方法
は,請求項20記載の発話文書作成方法において,前記
第7の工程で,前記発話文書を再生する範囲として,前
記発話文書中の任意の文字列単位,文章単位,ページ単
位または発話文書全体の指定が可能であるものである。
According to a twelfth aspect of the present invention, in the utterance document creating method according to the twentieth aspect, in the seventh step, an arbitrary range in the utterance document is set as a range in which the utterance document is reproduced. It is possible to specify a character string unit, a sentence unit, a page unit, or the entire utterance document.

【0033】また,請求項22に係る発話文書作成方法
は,請求項18〜21記載のいずれか一つの発話文書作
成方法において,さらに,前記第6の工程で記憶した発
話文書を表示し,前記表示した発話文書の任意の文字列
を指定し,前記指定した文字列の変更または再入力を行
う第9の工程とを含み,前記第9の工程で変更または再
入力された文字列を用いて,再度,前記第2の工程,第
3の工程,第4の工程,第5の工程および第6の工程を
実行することにより,前記発話文書の変更が可能である
ものである。
According to a twelfth aspect of the present invention, in the utterance document creating method according to any one of the eighteenth to twenty-first aspects, the utterance document stored in the sixth step is further displayed. A ninth step of specifying an arbitrary character string of the displayed utterance document and changing or re-inputting the specified character string, using the character string changed or re-input in the ninth step. By executing the second step, the third step, the fourth step, the fifth step, and the sixth step again, the utterance document can be changed.

【0034】また,請求項23に係るコンピュータ読み
取り可能な記録媒体は,発話文書作成方法は,単語,文
節または文を構成する文字列を入力する第1の手順と,
単語,文節または文から成る文字列情報,前記文字列情
報の文字に対応した音韻から成る音韻列情報,前記音韻
列情報中の各音韻の継続時間長,前記音韻列情報の任意
の時点での相対的なピッチを指定するピッチ情報および
前記音韻列情報の各音韻の音量を指定するベロシティ情
報から構成される喋り方データを,前記喋り方データの
文字列情報に基づいて,前記文字列情報が同一であって
その読みが異なる喋り方データをグループ化してグルー
プ毎に記憶したデータベースを参照して,前記第1の手
順で入力された文字列と同一の文字列情報を有するグル
ープを検索する第2の手順と,合成する音声に声色を付
加するため声色データを指定する第3の手順と,前記第
2の手順で検索したグループ中の喋り方データを順次読
み出して,前記読み出した喋り方データの音韻列情報,
継続時間長,ピッチ情報およびベロシティ情報と,前記
第3の手順で指定された声色データとを用いて,音声を
合成する第4の手順と,前記第4の手順で合成された音
声から所望の音声を選択する第5の手順と,前記第5の
手順で選択した音声に対応する喋り方データを前記1の
手順で入力した文字列と対応させて発話文書として記憶
する第6の手順と,を含むプログラムをコンピュータに
実行させるものである。
Also, a computer-readable recording medium according to claim 23, wherein the utterance document creating method comprises: a first step of inputting a word, a phrase or a character string constituting a sentence;
Character string information composed of words, phrases or sentences, phoneme string information composed of phonemes corresponding to the characters of the character string information, duration of each phoneme in the phoneme string information, Based on pitch information specifying relative pitch and velocity information specifying the volume of each phoneme in the phoneme string information, the character string information is converted into character string information based on the character string information of the talking method data. A second step of searching for a group having the same character string information as the character string input in the first procedure, with reference to a database in which the same but different readings of the speaking data are grouped and stored for each group. Step 2, a third step of designating voice data to add voice to the synthesized voice, and reading the speaking style data in the group searched in the second step sequentially. Out was talking how phoneme sequence information of the data,
A fourth procedure of synthesizing speech using the duration time, pitch information and velocity information, and the timbre data specified in the third procedure, and a desired procedure from the speech synthesized in the fourth procedure. A fifth procedure of selecting a voice, a sixth procedure of storing speaking style data corresponding to the voice selected in the fifth procedure as an utterance document in association with the character string input in the first procedure, And causing a computer to execute a program including the program.

【0035】また,請求項24に係るコンピュータ読み
取り可能な記録媒体は,単語,文節または文を構成する
文字列を入力する第1の手順と,単語,文節または文か
ら成る文字列情報,前記文字列情報の文字に対応した音
韻から成る音韻列情報,前記音韻列情報中の各音韻の継
続時間長,前記音韻列情報の任意の時点での相対的なピ
ッチを指定するピッチ情報および前記音韻列情報任意の
時点での相対的な音量を指定するベロシティ情報から構
成される喋り方データを,前記喋り方データの文字列情
報に基づいて,前記文字列情報が同一であってその読み
が異なる喋り方データをグループ化してグループ毎に記
憶したデータベースを参照して,前記第1の手順で入力
された文字列と同一の文字列情報を有するグループを検
索する第2の手順と,合成する音声に声色を付加するた
め声色データを指定する第3の手順と,前記第2の手順
で検索したグループ中の喋り方データを順次読み出し
て,前記読み出した喋り方データの音韻列情報,継続時
間長,ピッチ情報およびベロシティ情報と,前記第3の
手順で指定された声色データとを用いて,音声を合成す
る第4の手順と,前記第4の手順で合成された音声から
所望の音声を選択する第5の手順と,前記第5の手順で
選択した音声に対応する喋り方データを前記1の手順で
入力した文字列と対応させて発話文書として記憶する第
6の手順と,を含むプログラムをコンピュータに実行さ
せるものである。
A computer-readable recording medium according to claim 24, further comprising: a first step of inputting a character string constituting a word, a phrase, or a sentence; character string information comprising a word, a phrase, or a sentence; Phoneme string information composed of phonemes corresponding to the characters of the string information, duration time of each phoneme in the phoneme string information, pitch information specifying a relative pitch of the phoneme string information at an arbitrary time, and the phoneme string Based on the character string information of the speaking method data, speaking style data composed of velocity information specifying relative volume at any point in time of the information is spoken with the same character string information and different readings. A second procedure for retrieving a group having the same character string information as the character string input in the first procedure by referring to a database in which the data is grouped and stored for each group A third procedure for specifying voice data for adding a voice to a voice to be synthesized; and a method of sequentially reading the speaking data in the group searched in the second procedure, and phonemic sequence information of the read speaking data. A fourth procedure for synthesizing a voice using the timbre data specified in the third procedure, and a desired voice from the voice synthesized in the fourth procedure. A fifth procedure of selecting the voice of the first step, and a sixth procedure of storing the speaking style data corresponding to the voice selected in the fifth procedure as the utterance document in association with the character string input in the first procedure. Are executed by a computer.

【0036】また,請求項25に係るコンピュータ読み
取り可能な記録媒体は,請求項23または24記載のコ
ンピュータ読み取り可能な記録媒体において,さらに,
前記第6の手順で記憶した発話文書の再生を指定する第
7の手順と,前記第7の手順で前記発話文書の再生が指
定されると,前記発話文書中の喋り方データおよび声色
データを順次読み出して,音声を合成する第8の手順
と,を含むプログラムをコンピュータに実行させるもの
である。
The computer-readable recording medium according to claim 25 is the computer-readable recording medium according to claim 23 or 24, further comprising:
A seventh procedure for designating the reproduction of the utterance document stored in the sixth procedure, and when the reproduction of the utterance document is designated in the seventh procedure, the speech style data and the timbre data in the utterance document are converted. An eighth procedure of sequentially reading and synthesizing speech, and causing a computer to execute the program.

【0037】また,請求項26に係るコンピュータ読み
取り可能な記録媒体は,請求項25記載のコンピュータ
読み取り可能な記録媒体において,前記第7の手順にお
いて,前記発話文書を再生する範囲として,前記発話文
書中の任意の文字列単位,文章単位,ページ単位または
発話文書全体の指定が可能であるものである。
A computer-readable recording medium according to a twenty-sixth aspect is the computer-readable recording medium according to the twenty-fifth aspect, wherein in the seventh step, the utterance document is set as a range in which the utterance document is reproduced. It is possible to specify an arbitrary character string unit, a sentence unit, a page unit, or the entire utterance document in it.

【0038】また,請求項27に係るコンピュータ読み
取り可能な記録媒体は,請求項23〜26記載のいずれ
か一つのコンピュータ読み取り可能な記録媒体におい
て,さらに,前記第6の手順で記憶した発話文書を表示
し,前記表示した発話文書の任意の文字列を指定し,前
記指定した文字列の変更または再入力を行う第9の手順
とを含み,前記第9の手順で変更または再入力された文
字列を用いて,再度,前記第2の手順,第3の手順,第
4の手順,第5の手順および第6の手順を実行すること
により,前記発話文書の変更が可能であるものである。
The computer-readable recording medium according to claim 27 is the computer-readable recording medium according to any one of claims 23 to 26, further comprising: the utterance document stored in the sixth procedure. Ninth step of displaying, specifying an arbitrary character string of the displayed utterance document, and changing or re-inputting the specified character string, wherein the character changed or re-input in the ninth step is included. By executing the second procedure, the third procedure, the fourth procedure, the fifth procedure, and the sixth procedure again using the columns, the speech document can be changed. .

【0039】[0039]

【発明の実施の形態】以下,本発明の発話文書作成装
置,発話文書作成方法およびその発話文書作成手順をコ
ンピュータに実行させるプログラムを格納したコンピュ
ータ読み取り可能な記録媒体について,〔実施の形態
1〕,〔実施の形態2〕の順で,添付の図面を参照して
詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, an utterance document creating apparatus, an utterance document creating method, and a computer-readable recording medium storing a program for causing a computer to execute the utterance document creating procedure according to the present invention will be described (Embodiment 1). , [Embodiment 2] will be described in detail with reference to the accompanying drawings.

【0040】〔実施の形態1〕 図1は,実施の形態1の発話文書作成装置100の概略
ブロック図を示す。この発話文書作成装置100は,制
御部101と,アプリケーション記憶部102と,喋り
方データ記憶部103と,声色データ記憶部104と,
音声合成部105と,キー入力部106と,表示部10
7と,マイク108と,スピーカ109と,発話文書記
憶部110と,インタフェース(I/F)111と,フ
ロッピーディスクドライブ(FDドライブ)112と,
CD−ROMドライブ113と,通信部114と,から
構成される。
Embodiment 1 FIG. 1 is a schematic block diagram of an utterance document creating apparatus 100 according to Embodiment 1. The utterance document creation device 100 includes a control unit 101, an application storage unit 102, a speaking style data storage unit 103, a timbre data storage unit 104,
Voice synthesizing section 105, key input section 106, display section 10
7, a microphone 108, a speaker 109, an utterance document storage unit 110, an interface (I / F) 111, a floppy disk drive (FD drive) 112,
It comprises a CD-ROM drive 113 and a communication unit 114.

【0041】制御部101は,バスBSに結合された上
記各部を制御する中央処理ユニットであり,CPU10
1a,ROM101bおよびRAM101c等を備えて
いる。CPU101aはROM101bに格納されたO
S(オペレーティングシステム)プログラムやアプリケ
ーション記憶部102に格納されたアプリケーションプ
ログラムに従って動作する。また,ROM101bはO
Sプログラムを格納するメモリであり,RAM101c
は各種プログラムのワークエリアとして使用するメモリ
である。
The control unit 101 is a central processing unit for controlling the above-mentioned units connected to the bus BS.
1a, a ROM 101b, a RAM 101c, and the like. The CPU 101a stores the O stored in the ROM 101b.
It operates according to an S (operating system) program or an application program stored in the application storage unit 102. The ROM 101b has O
A memory for storing the S program;
Is a memory used as a work area for various programs.

【0042】アプリケーション記憶部102は,後述す
る発話文書作成プログラム,発話文書再生プログラム,
喋り方データ作成・登録プログラム等の各種アプリケー
ションが記憶されている。また,実施の形態1の発話文
書作成装置100は,仮名漢字変換機能を有しており,
この仮名漢字変換機能を実現する仮名漢字変換アプリケ
ーションもアプリケーション記憶部102に記憶されて
いる。
The application storage unit 102 stores an utterance document creation program, an utterance document reproduction program,
Various applications such as a speaking data creation / registration program are stored. Further, the utterance document creating apparatus 100 according to the first embodiment has a kana-kanji conversion function.
The kana-kanji conversion application that realizes the kana-kanji conversion function is also stored in the application storage unit 102.

【0043】喋り方データ記憶部103は,本発明の喋
り方データ記憶手段の役割を果たし,図2に示すよう
に,喋り方データ201の有する情報の一つである文字
列情報202に基づいて,該文字列情報202が同一の
喋り方データ201をグループ化し,文字列情報202
を用いてグループ単位で検索できるように記憶してい
る。
The speaking style data storage unit 103 plays the role of the speaking style data storage means of the present invention, and, based on the character string information 202 which is one of the information of the speaking style data 201, as shown in FIG. , The character string information 202 groups the same way of speaking data 201,
Is stored in such a manner that a search can be performed on a group basis by using.

【0044】なお,喋り方データ201は,単語,文節
または文から成る文字列情報202,文字列情報202
の文字に対応した音韻から成る音韻列情報203,音韻
列情報203中の各音韻の継続時間長204,音韻列情
報203の任意の時点での相対的なピッチを指定するピ
ッチ情報205,音韻列情報203の各音韻の音量を指
定するベロシティ情報206および各喋り方データの分
類タイプを示すタイプ情報207を有している。また,
詳細な説明は省略するが,文字列情報202以外の他の
情報(例えば音韻列情報203やタイプ情報207)を
それぞれ検索キーとして所望の喋り方データ201を検
索することも可能である。
The speaking data 201 includes character string information 202 composed of words, phrases or sentences, and character string information 202.
Phoneme string information 203 composed of phonemes corresponding to the characters, the duration time 204 of each phoneme in the phoneme string information 203, pitch information 205 specifying the relative pitch of the phoneme string information 203 at an arbitrary time, a phoneme string The information 203 has velocity information 206 specifying the volume of each phoneme and type information 207 indicating a classification type of each speech style data. Also,
Although detailed description is omitted, it is also possible to search for desired manner of speaking data 201 using information other than character string information 202 (for example, phoneme string information 203 and type information 207) as search keys.

【0045】ここで,例えば,文字列情報202が『こ
んにちは』のグループを検索すると,音韻列情報203
が『コ,ン,ニ,チ,ワ』の3種類の喋り方データ20
1が得られる。これらの喋り方データ201は,文字列
情報202と音韻列情報203が共通しているものの,
継続時間長204,ピッチ情報205,ベロシティ情報
206の何れかが異なることにより,異なる喋り方デー
タ201として区別することができる。
[0045] In this case, for example, when the character string information 202 to search for a group of "Hello", phoneme sequence information 203
Are three types of speaking data 20 of "ko, n, ni, chi, wa" 20
1 is obtained. These speech data 201 have character string information 202 and phoneme string information 203 in common,
When any one of the duration time 204, the pitch information 205, and the velocity information 206 is different, it can be distinguished as different speaking data 201.

【0046】また,例えば,文字列情報202が『今日
は』のグループを検索すると,音韻列情報203が
『コ,ン,ニ,チ,ワ』の3種類と音韻列情報203が
『キョ,ウ,ワ』の2種類の計5種類の喋り方データ2
01が得られる。これらの喋り方データ201は,先
ず,音韻列情報203で2つに区別可能であり,さらに
継続時間長204,ピッチ情報205,ベロシティ情報
206の何れかが異なることにより,それぞれ異なる喋
り方データ201として区別することができる。
For example, when the character string information 202 is searched for the group of "today", the phoneme string information 203 is three types of "ko, n, ni, j, wa" and the phoneme string information 203 is "Kyo, 5 types of talking data 2
01 is obtained. These speech style data 201 can be first distinguished into two pieces by phoneme sequence information 203, and further, any one of the duration time 204, the pitch information 205, and the velocity information 206 is different, so that different speech style data 201 respectively. Can be distinguished as

【0047】なお,文字列情報202が『こんにちは』
のグループの3種類の喋り方データ201と,文字列情
報202が『今日は』のグループにおける音韻列情報2
03が『コ,ン,ニ,チ,ワ』の3種類の喋り方データ
201は,文字列情報202が異なるだけで,他の情報
(音韻列情報203〜タイプ情報207)は同一であ
る。したがって,実施の形態1では説明を簡単にするた
めに,喋り方データ記憶部103における喋り方データ
201を図2に示すようにデータ・テーブルの形式で示
したが,喋り方データ201を,文字列情報202の部
分と,音韻列情報203〜ベロシティ情報206の部分
と,タイプ情報207の部分とに分けて,それぞれをリ
ンクして同一の情報を共通化したデータベースの形式で
記憶することにより,全体の情報の低減およびメモリの
効率的な使用が図れるのは明らかである。
[0047] In addition, the character string information 202 is "Hello"
The three types of speech data 201 and the character string information 202 of the group
The three types of speaking data 201 of “03,” “ko, n, ni, chi, wa” differ only in character string information 202, and the other information (phonological string information 203 to type information 207) is the same. Therefore, in the first embodiment, for the sake of simplicity, the talking data 201 in the talking data storage unit 103 is shown in the form of a data table as shown in FIG. By dividing the column information 202, the phoneme sequence information 203 to the velocity information 206, and the type information 207, linking them and storing the same information in the form of a common database, Obviously, the overall information can be reduced and the memory can be used efficiently.

【0048】声色データ記憶部104は,本発明の声色
データ記憶手段の役割を果たし,合成する音声に声色を
付加するための声色データを複数記憶している。ここ
で,声色データは,例えば,音韻系列に対するスペクト
ル情報(時間的に変化していく情報であり,具体的に
は,ケプストラム,LSPパラメータ等で表現される)
の形態で記憶されている。また,複数の声色データとし
ては,図3に示すように,男性の声,女性の声,子供の
声,老人の声,掠れた声,明瞭な声,太い声,細い声,
力強い声,やさしい声,機械的な声のように,それぞれ
感覚的に識別可能な声色データが記憶されている。
The voice data storage section 104 serves as voice data storage means of the present invention, and stores a plurality of voice data for adding voice to a synthesized voice. Here, the timbre data is, for example, spectral information for a phoneme sequence (information that changes over time, and is specifically expressed by cepstrum, LSP parameters, and the like).
Is stored in the form of Further, as shown in FIG. 3, a plurality of voice data includes a male voice, a female voice, a child voice, an old man's voice, a sharp voice, a clear voice, a fat voice, a thin voice,
Voice data that can be discerned intuitively, such as a powerful voice, a gentle voice, and a mechanical voice, is stored.

【0049】音声合成部105は,本発明の音声合成手
段の役割を果たし,制御部101が検索した喋り方デー
タ記憶部103のグループ中の喋り方データ201を順
次読み出して,読み出した喋り方データ201の音韻列
情報203,継続時間長204,ピッチ情報205およ
びベロシティ情報206と声色データ記憶部104に記
憶されている声色データの一つとを用いて音声を合成す
るものである。
The speech synthesis unit 105 plays the role of the speech synthesis means of the present invention, and sequentially reads the speech style data 201 in the group of the speech style data storage unit 103 searched by the control unit 101, and reads the read speech style data. The speech is synthesized using the phoneme sequence information 203, the duration time 204, the pitch information 205, the velocity information 206, and one of the timbre data stored in the timbre data storage unit 104.

【0050】キー入力部106は,キーボード,マウス
等の入力デバイスを備えており,文字列の入力や,音声
の選択,発話文書の再生指定,発話文書の作成・登録等
の各種オペレーションを行うのに使用される。
The key input unit 106 includes input devices such as a keyboard and a mouse, and performs various operations such as input of a character string, selection of voice, designation of reproduction of an utterance document, creation and registration of an utterance document. Used for

【0051】表示部107は,液晶表示装置またはCR
Tディスプレイからなり,文字列の表示,発話文書の表
示,各種メッセージの表示等に使用される。
The display unit 107 is a liquid crystal display or a CR.
It is composed of a T display and is used for displaying character strings, displaying utterance documents, displaying various messages, and the like.

【0052】マイク108は,喋り方データ201の作
成・登録時に,元音声波形データとなるオリジナルの肉
声をサンプリングするのに使用される。
The microphone 108 is used to sample the original real voice, which is the original voice waveform data, when creating and registering the speaking style data 201.

【0053】スピーカ109は,音声合成部105で合
成した音声の再生出力や,各種音の再生に使用される。
The speaker 109 is used for reproducing and outputting the voice synthesized by the voice synthesizing unit 105 and reproducing various sounds.

【0054】発話文書記憶部110は,作成された発話
文書を記憶するメモリである。詳細は後述するが,発話
文書とは,選択された喋り方データ201および声色デ
ータを指定する声色選択番号と,キー入力部106を介
して入力された文字列とを対応させて作成した文書であ
る。
The utterance document storage unit 110 is a memory for storing the prepared utterance document. Although the details will be described later, the utterance document is a document created by associating the selected speech style data 201 and the voice selection number designating the voice data with the character string input via the key input unit 106. is there.

【0055】I/F111は,バスBSとFDドライブ
112やCD−ROMドライブ113との間でデータ授
受を行うユニットである。FDドライブ112は着脱自
在のFD112a(記録媒体)を装着してデータを読み
出したり書き込む動作を実施する。CD−ROMドライ
ブ113は着脱自在のCD−ROM113a(記録媒
体)を装着してデータを読み出す動作を実施する。な
お,発話文書記憶部110に記憶されている発話文書
を,I/F111およびFDドライブ112を介してF
D112aに保存することも可能である。
The I / F 111 is a unit for exchanging data between the bus BS and the FD drive 112 or the CD-ROM drive 113. The FD drive 112 carries out an operation of reading and writing data by mounting a removable FD 112a (recording medium). The CD-ROM drive 113 carries out an operation of reading data by mounting a removable CD-ROM 113a (recording medium). The utterance document stored in the utterance document storage unit 110 is stored in the F / F 111 via the I / F 111 and the FD drive 112.
It is also possible to save it in D112a.

【0056】通信部114は,通信回線に接続されてお
り,その通信回線を介して外部装置との通信を行う。
The communication unit 114 is connected to a communication line and communicates with an external device via the communication line.

【0057】なお,実施の形態1では,制御部101,
キー入力部106および表示部107が本発明の文字列
入力手段および再生指定手段の役割を果たし,制御部1
01が本発明の検索手段の役割を果たし,スピーカ10
9,キー入力部106および制御部101が本発明の音
声選択手段および声色データ指定手段の役割を果たし,
制御部101および発話文書記憶部110が本発明の発
話文書記憶手段の役割を果たし,制御部101,キー入
力部106,表示部107,マイク108およびスピー
カ109が本発明の喋り方データ作成・登録手段の役割
を果たす。
In the first embodiment, the control unit 101,
The key input unit 106 and the display unit 107 serve as character string input means and reproduction designating means of the present invention, and the control unit 1
01 plays the role of search means of the present invention, and the speaker 10
9. The key input unit 106 and the control unit 101 play the role of voice selection means and voice data designation means of the present invention,
The control unit 101 and the utterance document storage unit 110 function as the utterance document storage unit of the present invention, and the control unit 101, the key input unit 106, the display unit 107, the microphone 108, and the speaker 109 generate and register the speaking style data of the present invention. Act as a means.

【0058】なお,実施の形態1では,キー入力部10
6を介して文字列を入力する場合を例として説明する
が,特にこれに限定するものではなく,手書き入力装置
を接続して,手書きの文字を判別(文字認識)して文字
列を入力しても良く,さらにあらかじめ作成したワープ
ロ文書等から文字列を入力しても良い。
In the first embodiment, the key input unit 10
A description will be given of a case where a character string is input through the input device 6 as an example. However, the present invention is not particularly limited to this, and a handwriting input device is connected to determine a handwritten character (character recognition) and input the character string. Alternatively, a character string may be input from a word processing document or the like created in advance.

【0059】図4は,実施の形態1の発話文書作成装置
100の外観図を示す。図示の如く,ハードウェアの構
成としては,マイク108およびスピーカ109を有し
たパソコンを使用することが可能である。
FIG. 4 is an external view of the utterance document creating apparatus 100 according to the first embodiment. As shown in the figure, as a hardware configuration, a personal computer having a microphone 108 and a speaker 109 can be used.

【0060】以上の構成において, 発話文書の作成処理 発話文書の再生処理 タイプ情報を用いた発話文書の作成処理 タイプ情報を用いた発話文書の再生処理 喋り方データの作成・登録処理 発話文書の変更処理 の順で,その動作を説明する。In the above configuration, a speech document creation process a speech document playback process a speech document creation process using type information a speech document playback process using type information creation / registration process of speaking style data Changing a speech document The operation will be described in the order of processing.

【0061】発話文書の作成処理 図5〜図9を参照して,発話文書の作成処理について説
明する。ここで,図5は発話文書の作成処理の概略フロ
ーチャートを示し,図6〜図9は発話文書の作成処理に
おける表示部107の表示画面の例を示す。なお,ここ
では発話文書作成装置100の本体電源が投入される
と,制御部101がアプリケーション記憶部102に格
納されている発話文書作成プログラムを起動して,図5
の概略フローチャートを実行するものとする。
Speech Document Creation Process The speech document creation process will be described with reference to FIGS. Here, FIG. 5 shows a schematic flowchart of the creation process of the utterance document, and FIGS. 6 to 9 show examples of the display screen of the display unit 107 in the creation process of the utterance document. Here, when the main body of the utterance document creation apparatus 100 is turned on, the control unit 101 starts the utterance document creation program stored in the application storage unit 102, and
Is executed.

【0062】先ず,文書作成者は,キー入力部106お
よび表示部107を用いて,単語,文節または文を構成
する文字列を入力する(S501:請求項18の第1の
工程)。例えば,キー入力部106を介して文字列『こ
んにちは』を入力すると,表示部107には,図6
(a)の表示画面D1に示すように,文字列『こんにち
は』が表示される。なお,この文字列『こんにちは』を
そのまま使用することも可能であるが,ここでは,さら
に仮名漢字変換機能を用いて,図6(b)の表示画面D
2に示すように,『こんにちは』→『今日は』の漢字仮
名交じりの文字列に変換したテキストを用いるものとす
る。
First, the document creator uses the key input unit 106 and the display unit 107 to input a word, a phrase, or a character string constituting a sentence (S501: a first step of claim 18). For example, through the key input unit 106 inputs a character string "Hello", the display unit 107, FIG. 6
As shown on the display screen D1 of (a), the character string "Hello" is displayed. Although it is possible to accept the string "Hello", wherein further using the kana-kanji conversion function, the display screen D shown in FIG. 6 (b)
As shown in 2, it is assumed that the use of the "Hello" → text that was converted to a string of kanji kana and Pepper of "Today."

【0063】次に,喋り方データ記憶部103から,ス
テップS501で入力した文字列『今日は』と同一の文
字列情報202を有するグループを検索する(S50
2:請求項18の第2の工程)。換言すれば,文字列
『今日は』に対応した喋り方データ201を検索する。
具体的には,図2に示したように,喋り方データ記憶部
103には,文字列『今日は』に対応する文字列情報2
02のグループとして,音韻列情報203が『コ,ン,
ニ,チ,ワ』の3種類と音韻列情報203が『キョ,
ウ,ワ』の2種類の計5種類の喋り方データ201が得
られる。
Next, a group having the same character string information 202 as the character string "today" entered in step S501 is searched from the speaking data storage unit 103 (S50).
2: The second step of claim 18). In other words, the speech data 201 corresponding to the character string “today” is searched.
Specifically, as shown in FIG. 2, the speaking style data storage unit 103 stores the character string information 2 corresponding to the character string “today”.
02, the phoneme sequence information 203 is “Ko, N,
D, J, W ”and the phoneme sequence information 203 are“ Kyo,
5), a total of five types of speaking manner data 201 of "U, W".

【0064】続いて,声色データの指定を選択し,合成
する音声に声色を付加するため声色データを指定する
(S503,S504:請求項18の第3の工程)。具
体的には,例えば,図7(a)の表示画面D3に示すよ
うに,声色指定ボタン701を表示し,これをマウスで
クリックして,図7(b)の表示画面D4に示すよう
に,声色データ記憶部104に記憶してある声色データ
を表示して選択することにより実現できる。なお,ここ
では,選択された声色データに対応する声色選択番号
(図7(b)の声色データに対応する番号)を保持し,
以降,声色選択番号によって声色データを特定する。ま
た,声色データの指定を選択しない場合には,前回指定
した声色データ(すなわち,前回選択された声色選択番
号)が再度指定されたものと見做し,ステップS505
へ進むものとする。
Subsequently, designation of voice data is selected, and voice data for adding a voice to the voice to be synthesized is specified (S503, S504: a third step of claim 18). Specifically, for example, a voice color designation button 701 is displayed as shown in a display screen D3 in FIG. 7A, and this button is clicked with a mouse, and as shown in a display screen D4 in FIG. , Can be realized by displaying and selecting voice data stored in the voice data storage unit 104. Here, the voice selection number (the number corresponding to the voice data in FIG. 7B) corresponding to the selected voice data is held.
Thereafter, voice data is specified by the voice selection number. If designation of voice data is not selected, it is assumed that the previously specified voice data (that is, the previously selected voice selection number) has been specified again, and step S505 is performed.
Shall proceed to

【0065】次に,音声合成部105が,ステップS5
02で検索したグループ中の喋り方データ201を順次
読み出して,読み出した喋り方データ201の音韻列情
報203,継続時間長204,ピッチ情報205および
ベロシティ情報206と,指定された声色データとを用
いて,音声を合成し,スピーカ109を介して合成した
音声を出力する(S505:請求項18の第4の工
程)。具体的には,検索したグループに属する音韻列情
報203が『コ,ン,ニ,チ,ワ』の3種類の喋り方デ
ータ201と音韻列情報203が『キョ,ウ,ワ』の2
種類の喋り方データ201が順次,音声合成されて出力
される。
Next, the speech synthesizing unit 105 determines in step S5
02 is read out sequentially in the group searched in 02, and the phoneme sequence information 203, the duration time 204, the pitch information 205 and the velocity information 206 of the read out speech style data 201 and the designated voice data are used. Then, the voice is synthesized, and the synthesized voice is output via the speaker 109 (S505: fourth step of claim 18). Specifically, the phoneme string information 203 belonging to the searched group is three kinds of speaking data 201 of “ko, n, ni, chi, wa” and the phoneme string information 203 is two of “kyo, u, wa”.
The type of speech data 201 is sequentially synthesized and output.

【0066】文書作成者は,順次再生される喋り方デー
タ201を聞いて,所望の音声を選択する(S506:
請求項18の第5の工程)。ここで,所望の音声が選択
されるまで,ステップS505〜S506を繰り返す。
The document creator listens to the sequentially reproduced speech style data 201 and selects a desired voice (S506:
(Fifth step of claim 18). Here, steps S505 to S506 are repeated until a desired voice is selected.

【0067】ステップS506で所望の音声が選択され
ると,その時の声色データ(声色選択番号)と,選択し
た音声に対応する喋り方データ201と,ステップS5
01で入力した文字列『今日は』と,を対応させて発話
文書データを作成し,発話文書記憶部110に記憶し
(S507:請求項18の第6の工程),所定の終了キ
ーが指定されるまで,ステップS501〜S507を繰
り返す(S508)。
When the desired voice is selected in step S506, the voice data at that time (voice selection number), the speaking data 201 corresponding to the selected voice, and the step S5
The utterance document data is created by associating the character string “today is” with the character string “01” input in step S 01, stored in the utterance document storage unit 110 (S 507: sixth step of claim 18), and a predetermined end key is designated. Steps S501 to S507 are repeated until this is done (S508).

【0068】図8は,上記発話文書の作成処理で作成し
た発話文書の画面表示例を示し,図9は,発話文書記憶
部110に記憶されている発話文書データの例を示す。
図8に示すような発話文書において,例えば,花子さん
の言葉である『今日は,一太郎さん』や,『いいえ,特
許図面の……』という部分の声色データとして女性の声
を指定し,それ以外の部分の声色データとして男性の声
を指定することにより,音声合成部105を介して再生
する際に,一つの発話文書を複数の声色データで再生す
ることが可能である。
FIG. 8 shows an example of a screen display of the utterance document created in the above-mentioned utterance document creation processing. FIG. 9 shows an example of the utterance document data stored in the utterance document storage unit 110.
In the utterance document shown in FIG. 8, for example, a female voice is specified as the voice data of the part of Hanako-san's words "Today is Ichitaro-san" or "No, patent drawing ...". By specifying a male voice as voice data of a portion other than the above, it is possible to reproduce one utterance document with a plurality of voice data at the time of reproduction via the voice synthesis unit 105.

【0069】また,801で示す文字列『今日は』と8
02で示す文字列『今日は』は,画面表示における文字
列は同じであるが,図9の発話文書データの901,9
02で示すように,喋り方データ201の音韻列情報2
03が異なるため,文字列801が(コ,ン,ニ,チ,
ワ)と発音され,文字列802が(キョ,ウ,ワ)と発
音される。したがって,文書作成者の意図した通りの読
み方で正確に文書を音声化することができる。
Also, the character string "today is" 8
The character string “today” indicated by 02 is the same as the character string on the screen display,
02, the phoneme sequence information 2 of the speaking style data 201
03 is different, the character string 801 is (ko, n, d, j,
And the character string 802 is pronounced as (Kyo, U, Wa). Therefore, the document can be accurately vocalized in the reading manner intended by the document creator.

【0070】前述したように発話文書の作成処理におい
て,入力した文字列(文字情報)と文書作成者の意図す
る喋り方を含む音声情報(喋り方データ)との整合性を
とった発話文書データを作成することができる。
As described above, in the process of creating the utterance document, the utterance document data in which the input character string (character information) is matched with the voice information (speech method data) including the way of speech intended by the document creator. Can be created.

【0071】また,発話文書データ(換言すれば,喋り
方データ201)が音韻列情報203の他に,継続時間
長204,ピッチ情報205およびベロシティ情報20
6を有しており,かつ,喋り方データ201を音声合成
した音声を文書作成者が実際に聞いて発話文書データを
作成できるので,アクセントや,声の大きさ(音量),
声の高さ等を調整して意図する喋り方を有した情報(発
話文書データ)を作成することにより,非言語情報にあ
たる感情等の表現を情報として付加することができる。
The utterance document data (in other words, the way of speaking data 201) includes the duration time 204, the pitch information 205, and the velocity information 20 in addition to the phoneme sequence information 203.
6, and the document creator can actually generate speech document data by actually listening to the speech synthesized from the speech data 201, so that accent, loudness (volume),
By adjusting the pitch of the voice and the like to create information (speech document data) having the intended way of speaking, it is possible to add an expression such as emotion corresponding to non-verbal information as information.

【0072】感情等の表現としては,例えば,『わかり
ました』という文字列の喋り方データ201を音声合成
し,次の2種類を選択することにより,文書作成者の意
図する感情を表現することができる。
As the expression of emotions, for example, the speech synthesis data 201 of the character string “OK” is synthesized by voice, and the following two types are selected to express the emotions intended by the document creator. be able to.

【0073】1)『わかりました』という文字列を,し
り上がりの調子で喋る場合,わかったか否かを問いかけ
る疑問文となり,文章中における使い方によって,相手
がわかったか否か多少不安であるという感情等を含ませ
ることができる。 2)『わかりました』という文字列を,例えば,『た』
の部分のみの音量を大きくして,短く喋る場合,文字通
りの意味で,理解したこと,または承諾したことを情報
として伝える一方で,文章中における使い方によって,
十分理解していること,理解したが不快であること,不
承不承の承諾であること等を感情として表現することが
できる。
1) When the character string "I understand" is spoken in a rising tone, the sentence becomes a question asking whether or not it is understood. Etc. can be included. 2) Change the character string "I understand" to "ta"
When the volume of only the part is increased and the speaking is short, while conveying the understanding or acceptance in the literal sense as information, while using in the text,
It is possible to express as a feeling that one fully understands, understands, but is uncomfortable, that he / she is unwilling to accept.

【0074】発話文書の再生処理 次に,図10〜図13を参照して,発話文書の再生処理
について説明する。ここで,図10は発話文書の再生処
理の概略フローチャートを示し,図11〜図13は発話
文書の再生処理における表示部107の表示画面の例を
示す。なお,図示を省略するが,表示部107の表示画
面上から発話文書の再生処理を選択すると,制御部10
1がアプリケーション記憶部102に格納されている発
話文書再生プログラムを起動して,図10の概略フロー
チャートを実行するものとする。
Reproduction Process of Utterance Document Next, the reproduction process of the utterance document will be described with reference to FIGS. Here, FIG. 10 shows a schematic flowchart of the reproduction process of the utterance document, and FIGS. 11 to 13 show examples of the display screen of the display unit 107 in the reproduction process of the utterance document. Although illustration is omitted, when the reproduction process of the utterance document is selected on the display screen of the display unit 107, the control unit 10
1 activates the utterance document reproduction program stored in the application storage unit 102, and executes the schematic flowchart of FIG.

【0075】先ず,発話文書記憶部110に記憶されて
いる発話文書の一覧を表示部107に表示し,文書作成
者に再生する発話文書の選択を促す。文書作成者がキー
入力部106を介して発話文書を選択する(S100
1:請求項20の第7の工程)と,選択された発話文書
を発話文書記憶部110から読み出して,表示部107
に表示する(S1002)。このとき,図11に示すよ
うに,発話文書の各文字列毎に指定されている声色デー
タに基づいて,表示する文字列のフォントや,装飾方法
(例えば,網点・反転表示等)を変えて表示することに
より,視覚的に声色データの違いを認識できるようにす
ると便利である。
First, a list of utterance documents stored in the utterance document storage unit 110 is displayed on the display unit 107 to prompt the document creator to select an utterance document to be reproduced. The document creator selects an utterance document via the key input unit 106 (S100)
1: the seventh step of claim 20), the selected utterance document is read out from the utterance document storage unit 110, and displayed on the display unit 107.
(S1002). At this time, as shown in FIG. 11, based on the voice data specified for each character string of the utterance document, the font of the character string to be displayed and the decoration method (for example, halftone dots, reverse display, etc.) are changed. It is convenient to be able to visually recognize the difference in the timbre data by displaying the data.

【0076】次に,キー入力部106および表示部10
7を用いて発話文書を再生する再生範囲を,図12の表
示画面上の1)発話文書中の任意の文字列単位,2)文
章単位,3)ページ単位,4)発話文書全体(文書単
位)の何れかから選択する(S1003)。ここで,例
えば,1)の文字列単位を選択し,図13(a)の表示
画面に示すように,発話文書中の任意の文字列単位(少
なくとも一つの文字列)を指定すると,指定された文字
列1301が反転表示される。また,2)の文章単位を
選択し,図13(b)の表示画面に示すように,発話文
書中の任意の文章単位(少なくとも一つの文章単位)を
指定すると,指定された文章1302が反転表示され
る。なお,3)のページ単位および4)の発話文書全体
を指定した場合には,画面表示は図11のままで指定さ
れたページ番号または文書全体の指定を示すメッセージ
が表示されるものとする。
Next, the key input unit 106 and the display unit 10
The reproduction range of reproducing the utterance document by using 7 is shown in the display screen of FIG. ) (S1003). Here, for example, if the character string unit of 1) is selected and an arbitrary character string unit (at least one character string) in the utterance document is specified as shown in the display screen of FIG. The displayed character string 1301 is highlighted. When the text unit of 2) is selected and an arbitrary text unit (at least one text unit) in the utterance document is specified as shown in the display screen of FIG. 13B, the specified text 1302 is inverted. Is displayed. When the page unit of 3) and the entire utterance document of 4) are designated, the screen display remains the same as in FIG. 11 and the designated page number or a message indicating the designation of the entire document is displayed.

【0077】ステップS1003において再生範囲が指
定されると,音声合成部105が,指定された再生範囲
に基づいて,発話文書中の該当する発話文書データ(喋
り方データおよび声色データ)を順次読み出して,音声
を合成する(S1004:請求項20の第8の工程)。
When the reproduction range is specified in step S1003, the speech synthesis unit 105 sequentially reads out the corresponding utterance document data (speaking style data and voice color data) in the utterance document based on the specified reproduction range. (S1004: Eighth step of the twentieth aspect).

【0078】その後,指定された再生範囲の音声合成が
終了すると,表示部107上の所定の再生処理の終了ボ
タン(図示せず)が選択されるまで,ステップS100
3〜S1004を繰り返す(S1005)。
After that, when the voice synthesis in the designated reproduction range is completed, step S100 is performed until a predetermined reproduction processing end button (not shown) on the display unit 107 is selected.
Steps S3 to S1004 are repeated (S1005).

【0079】前述したように発話文書の再生処理では,
あらかじめ発話文書が,文字列(文字情報)と文書作成
者の意図する喋り方を含む音声情報(喋り方データ)と
の整合性をとった発話文書データとして作成されている
ので,表示画面上に表示された発話文書(表示された文
字列)から再生したい音声だけを視覚的に選択すること
ができる。
As described above, in the reproduction process of the utterance document,
Since the utterance document is created in advance as utterance document data in which the character string (character information) and the voice information (speech data) including the way of speech intended by the document creator are created, the utterance document is displayed on the display screen. Only the voice to be reproduced can be visually selected from the displayed utterance document (displayed character string).

【0080】また,発話文書データ(換言すれば,喋り
方データ201)が,音韻列情報203の他に,継続時
間長204,ピッチ情報205およびベロシティ情報2
06を有しており,かつ,喋り方データ201を音声合
成した音声を文書作成者が実際に聞いて作成したもので
あるため,非言語情報にあたる感情等の表現が付加され
た音声として再生することができる。
Further, the utterance document data (in other words, the way of speaking data 201) includes the duration time 204, the pitch information 205, and the velocity information 2 in addition to the phoneme sequence information 203.
Since the document creator actually listens to and creates a speech obtained by speech-synthesizing the speech style data 201, the speech is reproduced as a speech to which an expression such as emotion corresponding to non-verbal information is added. be able to.

【0081】タイプ情報を用いた発話文書の作成処理 タイプ情報を用いた発話文書の作成処理について説明す
る。図14は,タイプ情報を用いた発話文書の作成処理
の概略フローチャートを示し,図示を省略するが,表示
部107の表示画面上からタイプ情報を用いた発話文書
の作成処理を選択すると,制御部101がアプリケーシ
ョン記憶部102に格納されているタイプ情報を用いた
発話文書作成プログラムを起動して,図14の概略フロ
ーチャートを実行するものとする。
A process for creating an utterance document using type information The process for creating an utterance document using type information will be described. FIG. 14 is a schematic flowchart of a process of creating an utterance document using type information. Although not shown, when the process of creating an utterance document using type information is selected on the display screen of the display unit 107, the control unit It is assumed that 101 activates an utterance document creation program using the type information stored in the application storage unit 102, and executes the schematic flowchart of FIG.

【0082】なお,図14の概略フローチャートは,基
本的に図5で示した発話文書の作成処理の概略フローチ
ャートと同じであるため,同一のステップは共通の符号
を付して,ここでは異なる部分のみを説明する。
Since the schematic flowchart of FIG. 14 is basically the same as the schematic flowchart of the speech document creating process shown in FIG. 5, the same steps are denoted by the same reference numerals, and different parts are used here. Only the explanation will be given.

【0083】先ず,キー入力部106および表示部10
7を用いて,喋り方データの分類タイプを指定する(S
1401)。ここで,分類タイプとは,例えば,それぞ
れの喋り方データに対応する音声を,東京型発音タイ
プ,大阪型発音タイプ,徳島型発音タイプ等のように地
域によって分類したものや,老人型発音タイプ,若者型
発音タイプ,高校生型発音タイプ等のように年齢によっ
て分類したものを用いることができる。換言すれば,あ
らかじめ分類タイプを決めて,その分類タイプに基づい
て,例えば,大阪型発音タイプの場合には,関西風の喋
り方データ201を作成し,大阪型発音タイプとして分
類し,それぞれの喋り方データ201のタイプ情報20
7に登録しておく。
First, the key input unit 106 and the display unit 10
7 is used to specify the classification type of the speaking style data (S
1401). Here, the classification type refers to, for example, a speech corresponding to each type of speech data, which is classified according to a region such as a Tokyo-type pronunciation type, an Osaka-type pronunciation type, a Tokushima-type pronunciation type, and the like, and an elderly-type pronunciation type. , Younger type pronunciation type, high school student type, etc., classified by age can be used. In other words, a classification type is determined in advance, and based on the classification type, for example, in the case of Osaka type pronunciation type, Kansai-style speaking style data 201 is created and classified as Osaka type pronunciation type. Type information 20 of the speaking data 201
7

【0084】図15は分類タイプの指定画面の例を示
す。ここでは,TYPE1:東京型,TYPE2:大阪
型,TYPE3:老人型,TYPE4:若者型,TYP
E5:高校生型の5つの分類タイプがあらかじめ用意さ
れているものとする。
FIG. 15 shows an example of a classification type designation screen. Here, TYPE1: Tokyo type, TYPE2: Osaka type, TYPE3: Elderly type, TYPE4: Youth type, TYPE
E5: It is assumed that five classification types of high school student type are prepared in advance.

【0085】分類タイプの指定後,文字列の入力(S5
01)が行われると,次に,喋り方データ記憶部103
から,ステップS501で入力された文字列と,指定さ
れた分類タイプを用いて,該文字列と同一の文字列情報
を有するグループで,かつ,指定された分類タイプと同
一のタイプ情報を有する喋り方データ201を喋り方デ
ータ記憶部103から検索する(S1402)。換言す
れば,該当する分類タイプの喋り方データ201のみが
検索されることになる。この場合,喋り方データ記憶部
103内に,該当する分類タイプの喋り方データ201
が複数存在する場合には複数の喋り方データ201が検
索されることになる。
After the classification type is specified, a character string is input (S5
01) is performed, then the talking data storage unit 103
From the character string input in step S501 and the designated classification type, a group having the same character string information as the character string and a speech having the same type information as the designated classification type The speech data 201 is retrieved from the speaking data storage unit 103 (S1402). In other words, only the way of speaking data 201 of the corresponding classification type is searched. In this case, the speaking data 201 of the corresponding classification type is stored in the speaking data storage unit 103.
When there are a plurality of utterances, a plurality of talking data 201 is searched.

【0086】続いて,声色データの指定(S503,S
504)が実行される。
Subsequently, designation of voice data (S503, S
504) is executed.

【0087】次に,音声合成部105が,ステップS1
402で検索した喋り方データ201を読み出して,読
み出した喋り方データ201の音韻列情報203,継続
時間長204,ピッチ情報205およびベロシティ情報
206と,指定された声色データとを用いて,音声を合
成し,スピーカ109を介して合成した音声を出力する
(S505)。ここでは,分類タイプが指定されている
ので,該当する喋り方データ201のみが音声合成され
る。
Next, the speech synthesizing unit 105 determines in step S1
The speech data 201 retrieved in 402 is read out, and the speech is generated using the phoneme sequence information 203, the duration time 204, the pitch information 205, and the velocity information 206 of the read speech data 201, and the designated timbre data. The synthesized voice is output through the speaker 109 (S505). Here, since the classification type is specified, only the corresponding speech data 201 is synthesized.

【0088】その後,所望の音声を選択すると(S50
6),発話文書データを作成して発話文書記憶部110
に記憶し(S507),所定の終了キーが指定されるま
で,ステップS1401,S501,S1402および
S502〜S507を繰り返す(S508)。なお,2
回目以降のステップS1401では,特に分類タイプの
変更を行わないかぎり,すぐにステップS501へ進
み,文字列の入力が行えるものとする。
Thereafter, when a desired sound is selected (S50)
6), utterance document data is created and utterance document storage unit 110
(S507), and steps S1401, S501, S1402, and S502 to S507 are repeated until a predetermined end key is designated (S508). Note that 2
In the subsequent steps S1401, it is assumed that the process immediately proceeds to step S501 to input a character string unless the classification type is changed.

【0089】前述したようにタイプ情報を用いた発話文
書の作成処理において,音声合成を行って再生する喋り
方データ201の分類タイプを指定することができるの
で,喋り方に所定の特徴を有するタイプの発話文書デー
タ(すなわち,発話文書)を容易に作成することがで
き,便利である。また,発話文書の作成時間の短縮を図
ることができる。
As described above, in the process of creating an utterance document using type information, the classification type of the speaking style data 201 to be reproduced by performing speech synthesis can be designated. Can be easily created, which is convenient. In addition, it is possible to reduce the time required for creating the utterance document.

【0090】なお,図14のフローチャートでは,文字
列を入力する度に,ステップS503〜ステップS50
6を実行して,声色データの指定および音声の選択を行
うようにしたが,特にこれに限定するものではなく,ス
テップS1402で該当する分類タイプの喋り方データ
201を検索すると,ステップS507へ進み,検索し
た喋り方データ201を用いて自動的に発話文書を記憶
するようにしても良い。この場合には,発話文書を構成
する文字列をある程度入力した後,後からステップS5
03〜ステップS506を実行して,それぞれの文字列
に対して声色データの指定が行えるようにする。
In the flowchart of FIG. 14, every time a character string is input, steps S503 to S50 are performed.
6, the voice color data is specified and the voice is selected. However, the present invention is not limited to this. When the method 201 searches for the appropriate type of speaking data 201 in step S1402, the process proceeds to step S507. Alternatively, the utterance document may be automatically stored using the searched speech style data 201. In this case, after a character string constituting the utterance document is input to some extent, the process proceeds to step S5.
03 to step S506 are executed so that voice data can be specified for each character string.

【0091】タイプ情報を用いた発話文書の再生処理 タイプ情報を用いた発話文書の再生処理とは,再生に使
用する分類タイプを指定し,指定された分類タイプと,
の発話文書の作成処理で作成した発話文書(発話文書
記憶部110に記憶されている発話文書)の中の文字列
情報202および音韻列情報203とを用いて,喋り方
データ記憶部103から該当する喋り方データ201を
検索し,検索した喋り方データ201との発話文書の
作成処理で作成した発話文書(発話文書記憶部110に
記憶されている発話文書)の中の声色データとを用い
て,音声合成部105で音声を合成し,スピーカ109
を介して再生出力するものである。
Reproduction processing of utterance document using type information Reproduction processing of an utterance document using type information specifies a classification type to be used for reproduction, and specifies the classification type and the specified classification type.
Using the character string information 202 and the phoneme string information 203 in the utterance document (utterance document stored in the utterance document storage unit 110) created in the utterance document creation process of the above, the corresponding speech data storage unit 103 The speech data 201 to be spoken is searched, and voice data in an utterance document (an utterance document stored in the utterance document storage unit 110) created in the utterance document creation process with the searched speech data 201 is used. , A voice synthesizer 105 synthesizes a voice, and a speaker 109
And reproduces the output.

【0092】換言すれば,の発話文書の作成処理で指
定した喋り方データ201の継続時間長204,ピッチ
情報205およびベロシティ情報206を使用せずに,
タイプ情報207によって特定された喋り方データ20
1の継続時間長204,ピッチ情報205およびベロシ
ティ情報206を用いるものである。
In other words, without using the duration 204, pitch information 205 and velocity information 206 of the speaking style data 201 specified in the process of creating the utterance document,
Speaking data 20 specified by type information 207
1 uses the duration 204, pitch information 205, and velocity information 206.

【0093】図16は,タイプ情報を用いた発話文書の
再生処理の概略フローチャートを示し,図示を省略する
が,表示部107の表示画面上からタイプ情報を用いた
発話文書の再生処理を選択すると,制御部101がアプ
リケーション記憶部102に格納されているタイプ情報
を用いた発話文書再生プログラムを起動して,図16の
概略フローチャートを実行するものとする。
FIG. 16 is a schematic flowchart of the reproduction process of the utterance document using the type information. Although not shown, when the reproduction process of the utterance document using the type information is selected on the display screen of the display unit 107. The control unit 101 activates an utterance document reproduction program using the type information stored in the application storage unit 102, and executes the schematic flowchart of FIG.

【0094】先ず,発話文書記憶部110に記憶されて
いる発話文書の一覧を表示部107に表示し,文書作成
者に再生する発話文書の選択を促す。文書作成者がキー
入力部106を介して発話文書を選択する(S160
1)と,選択された発話文書を発話文書記憶部110か
ら読み出して,表示部107に表示する(S160
2)。
First, a list of the utterance documents stored in the utterance document storage unit 110 is displayed on the display unit 107 to prompt the document creator to select an utterance document to be reproduced. The document creator selects an utterance document via the key input unit 106 (S160)
1), the selected utterance document is read from the utterance document storage unit 110 and displayed on the display unit 107 (S160).
2).

【0095】次に,キー入力部106および表示部10
7を用いて,再生に使用する分類タイプを指定する(S
1603)。なお,分類タイプの指定は,図15の表示
画面を使用して指定することができる。
Next, the key input unit 106 and the display unit 10
7 to specify the classification type to be used for reproduction (S
1603). The classification type can be specified using the display screen of FIG.

【0096】続いて,指定された分類タイプと,選択さ
れた発話文書の中の文字列情報202および音韻列情報
203とを用いて,喋り方データ記憶部103から該当
する喋り方データ201を検索する(S1604)。
Subsequently, using the designated classification type and the character string information 202 and the phoneme string information 203 in the selected utterance document, the corresponding speaking data 201 is searched from the speaking data storage unit 103. (S1604).

【0097】次に,音声合成部105が,検索した喋り
方データ201の音韻列情報203,継続時間長20
4,ピッチ情報205およびベロシティ情報206と,
選択された発話文書の中の声色データ(検索に使用した
音韻列情報203を含む発話文書データの声色データ)
とを用いて,音声を合成し,スピーカ109を介して再
生出力する(S1605)。これによって,指定された
分類タイプおよび声色データで,該当する文字列情報2
02および音韻列情報203が,音声合成されたことに
なる。
Next, the speech synthesizing unit 105 generates the phoneme sequence information 203 of the searched speech style data 201 and the continuation time length 20.
4, pitch information 205 and velocity information 206,
Voice data in the selected utterance document (voice data of utterance document data including phoneme string information 203 used for search)
Are used to synthesize and reproduce and output through the speaker 109 (S1605). As a result, the character string information 2 corresponding to the specified classification type and voice data can be obtained.
02 and the phoneme string information 203 are speech-synthesized.

【0098】その後,選択された発話文書の全ての文字
列を音声合成したか否か判定し(S1606),該当す
る発話文書中の文字列を全て音声合成して出力するま
で,ステップS1604,S1605を繰り返し,出力
が終わると処理を終了する。
Thereafter, it is determined whether or not all the character strings of the selected utterance document have been voice-synthesized (S1606), and steps S1604 and S1605 until all the character strings in the corresponding utterance document are voice-synthesized and output. Is repeated, and the process ends when the output is completed.

【0099】前述したようにタイプ情報を用いた発話文
書の再生処理を実行することにより,既に作成した発話
文書で,喋り方(すなわち,喋り方データ201)が設
定されている場合でも,分類タイプを指定することで,
異なる喋り方で音声を再生することが可能である。
By executing the reproduction process of the utterance document using the type information as described above, even if the utterance document which has already been created has a way of speaking (that is, the way of speaking data 201) set, the classification type By specifying
It is possible to play sound in different ways of speaking.

【0100】喋り方データの作成・登録処理 次に,図17〜図25を参照して,新規に喋り方データ
201を作成して,喋り方データ記憶部103に登録す
る方法について説明する。喋り方データ201は,図2
で示したように,文字列情報202,音韻列情報20
3,継続時間長204,ピッチ情報205,ベロシティ
情報206およびタイプ情報207から構成される。し
たがって,喋り方データ201の作成とは,これらの情
報を作成または設定することである。
Next, a method for creating new speaking data 201 and registering it in the speaking data storage unit 103 will be described with reference to FIGS. 17 to 25. The speech data 201 is shown in FIG.
As shown by, the character string information 202 and the phoneme string information 20
3, a duration length 204, pitch information 205, velocity information 206, and type information 207. Therefore, the creation of the speaking style data 201 is to create or set such information.

【0101】なお,喋り方データ201は,原則とし
て,あらかじめ標準となるものが作成されて喋り方デー
タ記憶部103に複数登録されているものとするが,文
書作成者の個々の感覚によって自由に喋り方データ20
1を作成し,登録することにより,喋り方(音声)の選
択を広げることができ,さらに発話文書の表現力を増す
ことができる。
It is assumed that, as a rule, a plurality of speaking style data 201 are prepared in advance as standard data and registered in the speaking style data storage unit 103, but freely according to the individual sense of the document creator. Speaking data 20
By creating and registering 1, the choice of how to speak (voice) can be expanded, and the expressiveness of the utterance document can be further increased.

【0102】図17は,喋り方データの作成・登録処理
の概略フローチャートを示す。先ず,あらかじめ収録し
た音声波形データを入力またはマイク108を用いて自
然音声(ユーザが発話した肉声)を入力し(S170
1),入力した自然音声を解析してデジタル化した後,
音声波形データを生成して表示部107に表示する(S
1702)。なお,ここで,あらかじめ収録した音声波
形データとは,発話文書作成装置100において,事前
にマイク108を用いて自然音声を入力し,アプリケー
ション記憶部102や,I/F111およびFDドライ
ブ112を介してFD112aに保存しておいた音声波
形データを示す。また,他の装置で収録した音声波形デ
ータを入力して用いても良い。
FIG. 17 is a schematic flowchart of the process of creating and registering the speaking style data. First, a pre-recorded voice waveform data is input or a natural voice (a real voice spoken by the user) is input using the microphone 108 (S170).
1) After analyzing and digitizing the input natural speech,
The audio waveform data is generated and displayed on the display unit 107 (S
1702). Here, the pre-recorded voice waveform data means that the natural voice is input in advance using the microphone 108 in the utterance document creating apparatus 100, and is input via the application storage unit 102, the I / F 111 and the FD drive 112. The audio waveform data stored in the FD 112a is shown. Also, audio waveform data recorded by another device may be input and used.

【0103】生成された音声波形データは,図18の1
0Bで示すように表示部107の表示画面上に表示され
る。なお,図18は,表示部107に表示される喋り方
データの作成・登録処理の表示画面を示し,音韻列情報
203を表示するウインドである音節表示ウインド10
Aと,入力した自然音声から生成した音声波形データを
表示するウインドである元波形表示ウインド10Bと,
喋り方データ201から合成した波形データを表示する
ウインドである合成波形表示ウインド10Cと,ピッチ
情報205を表示するウインドであるピッチ表示ウイン
ド10Dと,ベロシティ情報206を表示するウインド
であるベロシティ表示ウインド10Eと,元波形表示ウ
インド10Bに表示されている音声波形データの音声再
生/停止を指定するための元音声再生/停止ボタン10
Fと,合成波形表示ウインド10Cに表示されている波
形データの音声再生/停止を指定するための音声再生/
停止ボタン10Gと,ピッチ情報205のピッチ基準を
設定するためのピッチ基準設定目盛り10Hと,文字列
情報202を入力するための文字列入力エリア10Y
と,を有している。
The generated speech waveform data is shown in FIG.
It is displayed on the display screen of the display unit 107 as shown by 0B. FIG. 18 shows a display screen of the creation / registration processing of the speaking style data displayed on the display unit 107, and the syllable display window 10 which is a window for displaying the phoneme sequence information 203.
A, an original waveform display window 10B which is a window for displaying audio waveform data generated from the input natural audio,
A synthesized waveform display window 10C which is a window for displaying waveform data synthesized from the speaking style data 201, a pitch display window 10D which is a window for displaying pitch information 205, and a velocity display window 10E which is a window for displaying velocity information 206. And an original audio playback / stop button 10 for designating audio playback / stop of the audio waveform data displayed in the original waveform display window 10B.
F and sound reproduction / designation for designating sound reproduction / stop of the waveform data displayed in the synthesized waveform display window 10C.
A stop button 10G, a pitch reference setting scale 10H for setting a pitch reference of the pitch information 205, and a character string input area 10Y for inputting character string information 202.
And

【0104】次に,ステップS1702で生成した音声
波形データの音韻分析を行って各音韻の継続時間長を求
め,求めた各音韻の継続時間長を時間軸上で視覚化した
ラベルを生成し,表示部107に表示する(S170
3)。ここで,視覚化したラベルとは,図19の表示画
面に示すように,各ウインド10A〜10Eを縦方向に
横切る線10Iを示す。なお,音韻分析によって自動的
に付与された各ラベル10Iの位置は,キー入力部10
6のマウスを用いて,マニュアルで移動(または変更)
可能とする。これは,音韻分析の精度が低い場合に,よ
り適切な位置にラベル10Iを付与できるようにするた
めである。
Next, the phoneme analysis of the speech waveform data generated in step S1702 is performed to determine the duration of each phoneme, and a label is generated by visualizing the determined duration of each phoneme on the time axis. Display on the display unit 107 (S170
3). Here, the visualized label indicates a line 10I that vertically crosses each of the windows 10A to 10E as shown in the display screen of FIG. The position of each label 10I automatically given by the phonetic analysis is determined by the key input unit 10
Move (or change) manually using mouse 6
Make it possible. This is to allow the label 10I to be assigned to a more appropriate position when the accuracy of the phoneme analysis is low.

【0105】続いて,設定されたラベル(すなわち,継
続時間長)10Iで仕切られたスペースに対応する音韻
列情報を入力する(S1704)。具体的には,キー入
力部106を用いたマニュアル操作で,音節表示ウイン
ド10Aのラベル10Iの間に該当する音韻(文字)を
入力する。図20は,音韻列情報203を入力した例を
示し,時間軸上,先頭から「ヨ」,「ロ」,「Uシ」,
「イ」,「デ」,「Uス」,「,」,「カ」の順で音韻
入力された例を示している。この入力された音韻の内,
「Uシ」および「Uス」は無声化音韻を示し,その他は
有声化音韻を示す。
Subsequently, phoneme string information corresponding to the space partitioned by the set label (that is, the duration time) 10I is input (S1704). Specifically, a corresponding phoneme (character) is input between the labels 10I of the syllable display window 10A by a manual operation using the key input unit 106. FIG. 20 shows an example in which phoneme sequence information 203 is input, and “yo”, “b”, “Ushi”,
An example is shown in which phonemes are input in the order of "i", "de", "Us", ",", and "ka". Of the input phonemes,
"Ushi" and "Usu" indicate unvoiced phonemes, and the others indicate voiced phonemes.

【0106】続くステップS1705では,音声波形デ
ータをピッチ分析してピッチ曲線を表示する。図21に
は,ピッチ表示ウインド10Dに表示されたピッチ分析
後のピッチ曲線が示されている。
In the following step S1705, pitch analysis is performed on the speech waveform data to display a pitch curve. FIG. 21 shows a pitch curve after pitch analysis displayed on the pitch display window 10D.

【0107】続くステップS1706では,ピッチ調整
が行われる。このピッチ調整には,後述するピッチラベ
ルの追加や削除,ピッチ基準のピッチ値の変更等の操作
が含まれている。すなわち,ステップS1706では,
音韻列情報203の任意の時点でのピッチの値を調整ま
たは追加してピッチ情報205を生成する。図22は,
ピッチ調整においてピッチラベル10Jを追加した例を
示し,音韻を仕切るラベル10Iにさらにピッチラベル
10Jが追加されている。この追加操作は,ピッチ表示
ウインド10D内に直接マウス等でラベル位置を指定す
れば良い。このようにして新たに付与されたピッチは隣
り合うピッチと直線で結ばれるので,一つの音韻の中に
所望のピッチ変化を与えることができ,理想とする声質
に加工することが容易となる。
In the following step S1706, pitch adjustment is performed. The pitch adjustment includes operations such as addition and deletion of a pitch label to be described later, and change of a pitch reference pitch value. That is, in step S1706,
The pitch information 205 is generated by adjusting or adding the value of the pitch at an arbitrary point in the phoneme sequence information 203. FIG.
An example is shown in which a pitch label 10J is added in pitch adjustment, and a pitch label 10J is further added to a label 10I that partitions phonemes. This additional operation may be performed by directly specifying the label position in the pitch display window 10D with a mouse or the like. Since the newly added pitch is connected to the adjacent pitch by a straight line, a desired pitch change can be given in one phoneme, and it is easy to process the voice to an ideal voice quality.

【0108】続くステップS1707では,ステップS
1706までの処理でピッチ調整を終えた段階での合成
波形が生成され,例えば,図23の表示画面に示すよう
に,合成波形表示ウインド10Cに合成した波形データ
が表示される。このとき,ベロシティは未設定であるた
め,図示の如く,ベロシティ表示ウインド10Eにはプ
レーンなベロシティが表示される。
In the following step S1707, step S
A synthesized waveform at the stage after the pitch adjustment is completed by the processing up to 1706 is generated, and the synthesized waveform data is displayed in the synthesized waveform display window 10C, for example, as shown in the display screen of FIG. At this time, since the velocity has not been set, a plain velocity is displayed in the velocity display window 10E as shown in the figure.

【0109】なお,詳細な説明は省略するが,ステップ
S1707において,合成波形表示ウインド10Cに表
示されている合成した波形データと,元波形表示ウイン
ド10Bに表示されているオリジナルの音声波形データ
とを比較再生させることが可能である。また,この段階
では,合成される音声の声色の種類(声色データ)はデ
フォルトの声色とする。具体的には,音声再生/停止ボ
タン10Gを操作して合成した波形データの再生または
停止を行うことができ,元音声再生/停止ボタン10F
を操作して音声波形データの再生または停止を行うこと
ができる。
Although a detailed description is omitted, in step S1707, the synthesized waveform data displayed in the synthesized waveform display window 10C and the original voice waveform data displayed in the original waveform display window 10B are combined. Comparison playback is possible. At this stage, the voice type (voice data) of the synthesized voice is a default voice. More specifically, the user can operate the audio reproduction / stop button 10G to reproduce or stop the synthesized waveform data, and the original audio reproduction / stop button 10F
Can be operated to reproduce or stop the audio waveform data.

【0110】続くステップS1708では,音韻の音量
を示すベロシティ(ベロシティ情報206)をマニュア
ル操作で調整する。すなわち,音韻列情報203の各音
韻の音量を調整してベロシティ情報206を生成する。
このベロシティの調整は,図24に示すように,音韻毎
に行われ,あらかじめ決められた段階の範囲(例えば,
16段階)で調整される。
In the following step S1708, the velocity (velocity information 206) indicating the volume of the phoneme is manually adjusted. That is, the volume of each phoneme in the phoneme sequence information 203 is adjusted to generate velocity information 206.
This velocity adjustment is performed for each phoneme as shown in FIG. 24, and a predetermined range of steps (for example,
16).

【0111】このベロシティの調整後に,再び合成した
波形データの再生が操作されると,音韻毎に声の強さが
変化して,プレーンなベロシティ状態と比較して,声
(音声)に抑揚を付加される。
When the reproduction of the synthesized waveform data is operated again after the velocity adjustment, the intensity of the voice changes for each phoneme, and the voice (voice) is inflected as compared with the plain velocity state. Will be added.

【0112】次に,ステップS1709において,文書
作成者(ここでは喋り方データの作成者)が意図する音
声波形データに対応する文字列を入力して文字列情報2
02を設定する。例えば,図25に示すように,キー入
力部106を介して文字列入力エリア10Yに文字列
『宜しいですか』を入力すると,この文字列『宜しいで
すか』が文字列情報202として設定される。
Next, in step S1709, a character string corresponding to the audio waveform data intended by the document creator (here, the creator of the way of speaking data) is input, and character string information 2 is entered.
Set 02. For example, as shown in FIG. 25, when a character string “Okay?” Is input to the character string input area 10Y via the key input unit 106, this character string “Okay?” Is set as the character string information 202. .

【0113】続くステップS1710では,設定された
文字列情報202に基づいて,喋り方データ記憶部10
3の該当するグループを検索し,検索したグループ中に
喋り方データ201を追加登録する。すなわち,文字列
入力エリア10Yに設定された文字列情報202と,音
節表示ウインド10Aに入力された音韻列情報203
と,視覚化したラベルとして設定された継続時間長20
4と,ピッチ表示ウインド10Dに設定されたピッチ情
報205と,ベロシティ表示ウインド10Eに設定され
たベロシティ情報206とから喋り方データ201を生
成し,喋り方データ記憶部103に記憶する。
In the following step S1710, based on the set character string information 202, the speaking style data storage unit 10
The corresponding group of No. 3 is searched, and the talking style data 201 is additionally registered in the searched group. That is, the character string information 202 set in the character string input area 10Y and the phoneme string information 203 input in the syllable display window 10A.
And the duration 20 set as a visualized label
4, the pitch information 205 set in the pitch display window 10D, and the velocity information 206 set in the velocity display window 10E, and the speaking style data 201 is generated and stored in the speaking style data storage unit 103.

【0114】なお,説明を省略するが,このように登録
した喋り方データ201のタイプ情報207は,喋り方
データ201の登録後に,別途,分類タイプ設定・変更
処理を実行して設定するものとする。これは,喋り方デ
ータ201の作成作業と分類タイプの設定作業を同時に
行うと,文書作成者の感覚が鈍り,タイプの分類が的確
に行えなくなることを考慮したものであり,上記ステッ
プS1709の後にステップを追加してタイプ情報20
7の設定を行うようにしても良いのは勿論である。
Although the description is omitted, it is assumed that the type information 207 of the talking style data 201 registered in this way is set by separately executing classification type setting / change processing after the registration of the talking style data 201. I do. This takes into consideration that if the task of creating the speaking style data 201 and the task of setting the classification type are performed at the same time, the sensation of the document creator becomes dull and the type cannot be classified properly. Add step and type information 20
It goes without saying that the setting of 7 may be performed.

【0115】また,実施の形態1では,マイク108を
用いて自然音声を入力して音声波形データを生成した
が,喋り方データ記憶部103に記憶されている喋り方
データ201の一つを指定して,オリジナルの音声波形
データとして入力し,この喋り方データ201の持つ,
継続時間長204,ピッチ情報205およびベロシティ
情報206を修正して,喋り方データ201の有する文
字列情報202および音韻列情報203と,修正後の継
続時間長204,ピッチ情報205およびベロシティ情
報206を用いて新規の喋り方データ201を作成し
て,喋り方データ記憶部103に登録しても良い。
In the first embodiment, natural speech is input using the microphone 108 to generate speech waveform data, but one of the speaking style data 201 stored in the speaking style data storage unit 103 is designated. And input it as original speech waveform data.
The duration time 204, the pitch information 205, and the velocity information 206 are corrected, and the character string information 202 and the phoneme sequence information 203 included in the speech style data 201, and the corrected duration time 204, the pitch information 205, and the velocity information 206 are combined. New talking data 201 may be created by using the data and registered in the talking data storage unit 103.

【0116】また,実施の形態1では,ステップS17
03でラベルを生成した後,ステップS1704で音韻
列情報を入力する例を示したが,例えば,音韻列情報を
入力した後,ラベルを生成しても良い。さらに,音声認
識技術を用いることにより,音韻列情報の入力からラベ
ルの生成までを自動化することも可能である。
In the first embodiment, step S17
In step S1704, the label is generated after generating the label in step S1704. However, for example, the label may be generated after inputting the phoneme sequence information. Furthermore, by using the speech recognition technology, it is possible to automate from input of phoneme string information to generation of a label.

【0117】発話文書の変更処理 発話文書の変更処理は,発話文書記憶部110に記憶さ
れている発話文書を再度表示部107に表示して,発話
文書を構成する文字列および喋り方データ201を変更
するものである。
Speech Document Change Process The utterance document change process is to display the utterance document stored in the utterance document storage unit 110 again on the display unit 107, and to convert the character string and the speech style data 201 constituting the utterance document. To change.

【0118】図26は,発話文書の変更処理の概略フロ
ーチャートを示す。先ず,発話文書記憶部110に記憶
されている発話文書の一覧を表示部107に表示し,文
書作成者に変更する発話文書の選択を促す。文書作成者
がキー入力部106を介して発話文書を選択する(S2
601)と,選択された発話文書を発話文書記憶部11
0から読み出して,表示部107に表示する(S260
2)。
FIG. 26 shows a schematic flowchart of the process of changing the utterance document. First, a list of utterance documents stored in the utterance document storage unit 110 is displayed on the display unit 107, and the document creator is prompted to select an utterance document to be changed. The document creator selects an utterance document via the key input unit 106 (S2).
601), the selected utterance document is stored in the utterance document storage unit 11
0 and read it out on the display unit 107 (S260).
2).

【0119】次に,表示画面(図示せず)から変更する
項目を指定する(S2603)。ここで,変更可能な項
目としては,1)発話文書中の文字列の変更,2)文字
列に対応する喋り方データの変更,3)喋り方データ中
の情報の変更,4)声色データの変更がある。
Next, an item to be changed is designated from a display screen (not shown) (S2603). Here, the items that can be changed include 1) a change in a character string in the utterance document, 2) a change in speaking style data corresponding to the character string, 3) a change in information in the speaking style data, and 4) a change in voice data. There are changes.

【0120】次に,変更の対象となる文字列を指定する
と(S2604),ステップS2603で指定された変
更項目を判定し(S2605),変更項目にしたがって
ステップS2606〜ステップS2609の何れかへ進
む。
Next, when a character string to be changed is specified (S2604), the change item specified in step S2603 is determined (S2605), and the process proceeds to any of steps S2606 to S2609 according to the change item.

【0121】1)発話文書中の文字列の変更の場合に
は,ステップS2606へ進み,文字列の変更処理を実
行する。この文字列の変更処理は,基本的に図5で示し
た発話文書の作成処理の概略フローチャートと同様の処
理を行うものである。異なる部分は,図5のステップS
507が,作成した発話文書(すなわち,入力した文字
列を用いて作成した発話文書)を用いて,変更指定され
た文字列部分の発話文書(喋り方データ記憶部103に
記憶されている元の発話文書)を置き換える点である。
1) If the character string in the utterance document is to be changed, the flow advances to step S2606 to execute a character string changing process. This character string change process basically performs the same process as the schematic flowchart of the speech document creation process shown in FIG. The different parts are described in step S in FIG.
507, using the created utterance document (that is, the utterance document created using the input character string), the utterance document of the character string portion designated to be changed (the original utterance document stored in the speaking style data storage unit 103). Utterance document).

【0122】2)文字列に対応する喋り方データの変更
の場合には,ステップS2607へ進み,喋り方データ
の変更処理を実行する。この喋り方データの変更処理
は,基本的に図5で示した発話文書の作成処理の概略フ
ローチャートからステップS501を除いた他のステッ
プを実行するものである。異なる部分は,図5のステッ
プS507が,作成した発話文書(すなわち,喋り方デ
ータ変更後の発話文書)を用いて,変更指定された文字
列部分の発話文書(喋り方データ記憶部103に記憶さ
れている元の発話文書)を置き換える点である。
2) If the speaking style data corresponding to the character string is to be changed, the flow advances to step S2607 to execute a speaking style data changing process. This process of changing the way of speaking data basically executes other steps except for step S501 from the schematic flowchart of the process of creating the utterance document shown in FIG. The difference is that the step S507 of FIG. 5 uses the created utterance document (that is, the utterance document after the change in the way of speaking data) to store the utterance document of the character string portion designated to be changed (in the manner of speaking data storage unit 103). Original utterance document).

【0123】3)喋り方データ中の情報の変更の場合に
は,ステップS2608へ進み,喋り方データ中の情報
の変更処理を実行する。喋り方データ中の情報の変更処
理は,基本的に図17で示した喋り方データの作成・登
録処理と同様の方法で実現することできる。すなわち,
変更指定された文字列部分の喋り方データ201が有す
る文字列情報202,音韻列情報203,継続時間長2
04,ピッチ情報205およびベロシティ情報206を
オリジナルの情報として,それぞれ文字列入力エリア1
0Y,音節表示ウインド10A,視覚化したラベル,ピ
ッチ表示ウインド10D,ベロシティ表示ウインド10
Eに設定した後,視覚化したラベルの調整,ピッチの調
整,ベロシティの調整を行って喋り方データ201を変
更するものである。
3) If the information in the speaking style data is to be changed, the flow advances to step S2608 to execute processing for changing the information in the speaking style data. The process of changing the information in the speaking style data can be basically realized by the same method as the process of creating and registering the speaking style data shown in FIG. That is,
Character string information 202, phoneme string information 203, and duration 2 of the way of speaking data 201 of the character string portion designated for change
04, pitch information 205 and velocity information 206 as original information, respectively, in the character string input area 1
0Y, syllable display window 10A, visualized label, pitch display window 10D, velocity display window 10
After setting to E, the adjustment of the visualized label, the adjustment of the pitch, and the adjustment of the velocity are performed to change the speaking data 201.

【0124】4)声色データの変更の場合には,ステッ
プS2609へ進み,声色データの変更処理を実行す
る。この喋り方データの変更処理は,基本的に図5で示
した発話文書の作成処理の概略フローチャートのステッ
プS503とステップS504を実行するものである。
すなわち,声色データの変更が指定された文字列に対応
する発話文書(発話文書データ)中の声色データを,新
たに指定された声色データで置き換えるものである。
4) In the case of changing the timbre data, the flow advances to step S2609 to execute a timbre data change process. This process of changing the speaking style data basically executes steps S503 and S504 of the schematic flowchart of the process of creating the utterance document shown in FIG.
That is, the voice data in the utterance document (utterance document data) corresponding to the character string whose voice data is to be changed is replaced with the newly specified voice data.

【0125】このように発話文書記憶部110に記憶さ
れている発話文書を変更することが可能であるため,作
成した発話文書を効率的に利用することが可能となる。
例えば,定型の発話文書を作成しておき,必要な部分の
みを変更して使用することができる。
As described above, since the utterance document stored in the utterance document storage unit 110 can be changed, the created utterance document can be used efficiently.
For example, a standard utterance document can be created, and only necessary parts can be changed and used.

【0126】前述したように実施の形態1によれば,文
字情報(文字列)と音声情報(喋り方データ)という2
つの表現形態の情報を整合性の取れた形で複合した情報
(発話文書)を作成することができる。
As described above, according to the first embodiment, character information (character strings) and voice information (speaking data) are used.
It is possible to create information (an utterance document) in which information of two expression forms is combined in a consistent manner.

【0127】また,発話文書作成装置100で作成した
発話文書は,文字情報と文書作成者の意図する喋り方を
含む音声情報(喋り方データ)とが1対1に対応してい
るため,通常の文書作成装置(日本語ワードプロセッ
サ,英文ワードプロセッサ)における文書の移動・複写
と同様の操作を行っても,文字情報と音声情報の整合が
崩れることがなく,発話文書の編集が容易に行える。し
たがって,聴くだけでなく,見ながら作業をすすめるこ
とができるため,音声情報の編集が容易にできる。
Also, in the utterance document created by the utterance document creation device 100, the character information and the speech information (speech data) including the speech style intended by the document creator have a one-to-one correspondence. Even if the same operation as moving or copying a document is performed in a document creation device (Japanese word processor, English word processor), the matching of character information and voice information is not broken, and the spoken document can be easily edited. Therefore, it is possible not only to listen, but also to proceed with the work while watching, thereby making it easy to edit audio information.

【0128】さらに,使用目的に応じて,文字と音声の
両方を同時に提示することができると共に,どちらか一
方の情報を切り出して,一方の情報のみを提示すること
もできる。例えば,本発明の発話文書作成装置で作成さ
れた発話文書を電子メール等で受信した場合に,外出先
から電話で音声情報(喋り方データを用いて合成した音
声)のみを取り出すことが可能である。
Further, according to the purpose of use, both characters and voice can be presented at the same time, and either one of the information can be cut out and only one of the information can be presented. For example, when an utterance document created by the utterance document creation device of the present invention is received by e-mail or the like, it is possible to take out only voice information (speech synthesized using the way of speaking data) from the outside by telephone. is there.

【0129】また,文書作成者が所望の音声(喋り方デ
ータ)を選択して発話文書を作成できるので,作成した
発話文書に基づいて音声合成を行った際に,読みや,ア
クセント等の間違いのない,換言すれば,文書作成者の
意図する正確な音声を出力することが可能となる。
Further, since the document creator can select a desired voice (speech data) to create an utterance document, when performing speech synthesis based on the created utterance document, errors in reading, accents, etc., may occur. In other words, it is possible to output an accurate sound intended by the document creator.

【0130】また,実施の形態1で説明した発話文書作
成手順をプログラム化し,これをコンピュータ読み取り
可能な記録媒体に,コンピュータが実行可能なプログラ
ムとして格納することができる。
Further, the speech document creation procedure described in the first embodiment can be programmed and stored as a computer-executable program on a computer-readable recording medium.

【0131】〔実施の形態2〕 実施の形態2は,発話文書の作成処理の中で喋り方デー
タ201の編集(喋り方データ中の情報の変更処理)を
行えるようにすると共に,喋り方データ201のベロシ
ティ情報206を,音韻列情報203の任意の時点での
相対的な音量を指定する情報としたものである。なお,
基本的な構成および動作は,実施の形態1の発話文書作
成装置100と同様につき,ここでは異なる部分のみを
説明する。
[Embodiment 2] Embodiment 2 enables editing of speech style data 201 (processing for changing information in speech style data) in the process of creating an utterance document. The velocity information 206 of 201 is information specifying the relative volume of the phoneme sequence information 203 at an arbitrary point in time. In addition,
The basic configuration and operation are the same as those of the utterance document creating apparatus 100 according to the first embodiment, and only different portions will be described here.

【0132】図27は,実施の形態2の発話文書の作成
処理の概略フローチャートを示す。なお,基本的な動作
は,図5に示した実施の形態1の発話文書の作成処理と
同様につき,同一のステップは共通の符号を付けて簡単
に説明する。
FIG. 27 is a schematic flowchart of the process of creating an utterance document according to the second embodiment. The basic operation is the same as that of the utterance document creation process according to the first embodiment shown in FIG. 5, and the same steps are denoted by the same reference numerals and will be briefly described.

【0133】先ず,文書作成者は,キー入力部106お
よび表示部107を用いて,単語,文節または文を構成
する文字列を入力する(S501:請求項19の第1の
工程)。次に,喋り方データ記憶部103から,ステッ
プS501で入力した文字列と同一の文字列情報202
を有するグループを検索する(S502:請求項19の
第2の工程)。
First, the document creator uses the key input unit 106 and the display unit 107 to input a word, a phrase, or a character string constituting a sentence (S501: a first step of claim 19). Next, the same character string information 202 as the character string input in step S501 is read from the speaking style data storage unit 103.
(S502: second step of claim 19).

【0134】続いて,声色データの指定を選択し,合成
する音声に声色を付加するため声色データを指定する
(S503,S504:請求項19の第3の工程)。こ
こでは,選択された声色データに対応する声色選択番号
を保持し,以降,声色選択番号によって声色データを特
定する。また,声色データの指定を選択しない場合に
は,前回指定した声色データ(すなわち,前回選択され
た声色選択番号)が再度指定されとものと見做し,ステ
ップS505へ進むものとする。
Subsequently, designation of voice data is selected, and voice data for adding a voice to a synthesized voice is specified (S503, S504: a third step of claim 19). Here, the voice color selection number corresponding to the selected voice color data is held, and thereafter, the voice color data is specified by the voice color selection number. If designation of voice data is not selected, it is assumed that the previously specified voice data (that is, the previously selected voice selection number) has been specified again, and the process proceeds to step S505.

【0135】次に,音声合成部105が,ステップS5
02で検索したグループ中の喋り方データ201を順次
読み出して,読み出した喋り方データ201の音韻列情
報203,継続時間長204,ピッチ情報205および
ベロシティ情報206と,指定された声色データとを用
いて,音声を合成し,スピーカ109を介して合成した
音声を出力する(S505:請求項19の第5の工
程)。
Next, the speech synthesizing unit 105 determines in step S5
02 is read out sequentially in the group searched in 02, and the phoneme sequence information 203, the duration time 204, the pitch information 205 and the velocity information 206 of the read out speech style data 201 and the designated voice data are used. Then, the voice is synthesized, and the synthesized voice is output via the speaker 109 (S505: a fifth step of claim 19).

【0136】続いて,文書作成者は,順次再生される喋
り方データ201を聞いて,所望の音声を選択するか,
または所望の音声が存在しない場合には喋り方データの
編集を選択した後,最も近い音声を選択する。なお,喋
り方データの編集の選択は,図7に示した声色データの
指定の表示画面と同様の方法で行うものとする。この選
択の有無にしたがって,ステップS506およびS27
01において,音声が選択されたか,または喋り方デー
タの編集が選択されたかを判定する。
Subsequently, the document creator listens to the sequentially reproduced speech style data 201 and selects a desired voice, or
Alternatively, if the desired voice does not exist, after selecting the editing of the speaking style data, the closest voice is selected. The selection of the editing of the way of speaking data is performed in the same manner as in the display screen for specifying the voice data shown in FIG. Steps S506 and S27 are performed according to the selection.
At 01, it is determined whether a voice has been selected or whether editing of speaking style data has been selected.

【0137】所望の音声が選択されると,その時の声色
データ(声色選択番号)と,選択した音声に対応する喋
り方データ201と,ステップS501で入力した文字
列と,を対応させて発話文書データを作成し,発話文書
記憶部110に記憶し(S507:請求項19の第6の
工程),所定の終了キーが指定されるまで,ステップS
501以下の処理を繰り返す(S508)。
When the desired voice is selected, the voice data (voice color selection number) at that time, the speaking style data 201 corresponding to the selected voice, and the character string input in step S501 are made to correspond to each other, and The data is created and stored in the utterance document storage unit 110 (S507: the sixth step of claim 19).
Steps 501 and subsequent steps are repeated (S508).

【0138】一方,喋り方データの編集が選択される
と,ステップS2702へ進み,最も近い音声が選択さ
れたか否かを判定し,最も近い音声が選択されると,ス
テップS2703へ進み,後述するように,図28の喋
り方データ中の情報の変更処理の概略フローチャートを
実行する。
On the other hand, if the editing of the way of speaking data is selected, the flow advances to step S2702 to determine whether or not the closest voice has been selected. If the closest voice has been selected, the flow advances to step S2703 to be described later. Thus, the schematic flowchart of the information change process in the speaking style data of FIG. 28 is executed.

【0139】その後,喋り方データ中の情報の変更処理
で変更した喋り方データ201と,その時の声色データ
(声色選択番号)と,ステップS501で入力した文字
列と,を対応させて発話文書データを作成し,発話文書
記憶部110に記憶し(S507),所定の終了キーが
指定されるまで,ステップS501以下の処理を繰り返
す(S508)。
Thereafter, the speech data 201 changed by the information changing process in the speech data, the voice data at that time (voice selection number), and the character string input in step S501 are made to correspond to each other, and Is created and stored in the utterance document storage unit 110 (S507), and the process from step S501 is repeated until a predetermined end key is designated (S508).

【0140】図28は,実施の形態2における喋り方デ
ータ中の情報の変更処理の概略フローチャートを示す。
先ず,選択した最も近い音声に対応する喋り方データ2
01が有する文字列情報202,音韻列情報203,継
続時間長204,ピッチ情報205およびベロシティ情
報206を喋り方データ記憶部103から読み出す(S
2801)。
FIG. 28 is a schematic flowchart of a process for changing information in the talking style data according to the second embodiment.
First, the speaking style data 2 corresponding to the selected closest sound
01, the character string information 202, the phoneme string information 203, the duration time 204, the pitch information 205, and the velocity information 206 are read from the speaking style data storage unit 103 (S
2801).

【0141】次に,図29に示すように,ステップS2
801で読み出した文字列情報202,音韻列情報20
3,継続時間長204,ピッチ情報205およびベロシ
ティ情報206を,それぞれ文字列入力エリア10Y,
音節表示ウインド10A,視覚化したラベル,ピッチ表
示ウインド10D,ベロシティ表示ウインド10Eに設
定(すなわち,表示)する(S2802)。また,この
とき喋り方データ201から合成した波形データを元波
形表示ウインド10Bに表示する。
Next, as shown in FIG.
Character string information 202 and phoneme string information 20 read out at 801
3, the duration length 204, the pitch information 205 and the velocity information 206 are respectively entered in the character string input area 10Y,
The syllable display window 10A, the visualized label, the pitch display window 10D, and the velocity display window 10E are set (that is, displayed) (S2802). At this time, the waveform data synthesized from the speaking data 201 is displayed in the original waveform display window 10B.

【0142】続いて,図29の表示画面上において,視
覚化したラベルの調整,ピッチの調整またはベロシティ
の調整を行って喋り方データ201の情報を変更する
(S2803)。なお,実施の形態2では,喋り方デー
タ201のベロシティ情報206を,音韻列情報203
の単位とは無関係に音韻列情報203の任意の時点での
相対的な音量として指定および調整することが可能であ
る。具体的には,音韻列情報203の単位(区切り)を
示すラベル10Iとは別に,任意の位置にラベル10K
を指定し,音量(ベロシティ情報206)を調整するこ
とができるものとする。これによって,さらに喋り方を
多様に編集することができる。
Subsequently, on the display screen of FIG. 29, the information of the speaking style data 201 is changed by performing the adjustment of the visualized label, the adjustment of the pitch, or the adjustment of the velocity (S2803). In the second embodiment, the velocity information 206 of the speaking style data 201 is replaced with the phoneme sequence information 203.
Can be specified and adjusted as a relative volume at any point in the phoneme sequence information 203 regardless of the unit. Specifically, apart from the label 10I indicating the unit (delimiter) of the phoneme string information 203, the label 10K is set at an arbitrary position.
Can be specified to adjust the volume (velocity information 206). As a result, it is possible to further edit the manner of speaking.

【0143】次に,調整後の情報に基づいて合成波形を
生成し,例えば,図30の表示画面に示すように,合成
波形表示ウインド10Cに合成した波形データを表示す
ると共に,音声合成を行って再生する(S2804)。
なお,詳細な説明は省略するが,ステップS2802に
おいて,合成波形表示ウインド10Cに表示されている
合成した波形データと,元波形表示ウインド10Bに表
示されているオリジナルの喋り方データから合成した波
形データとを比較再生させることが可能であるものとす
る。
Next, a synthesized waveform is generated based on the adjusted information, and for example, as shown in the display screen of FIG. 30, the synthesized waveform data is displayed in a synthesized waveform display window 10C, and voice synthesis is performed. To reproduce (S2804).
Although a detailed description is omitted, in step S2802, the waveform data synthesized from the synthesized waveform data displayed in the synthesized waveform display window 10C and the original speaking data displayed in the original waveform display window 10B. Can be compared and reproduced.

【0144】その後,所定の終了キーが指定されるま
で,ステップS2803〜S2804の処理を繰り返す
(S2805)。
Thereafter, the processing of steps S2803 to S2804 is repeated until a predetermined end key is designated (S2805).

【0145】前述したように実施の形態2によれば,発
話文書の作成中に,喋り方データ中の細部の情報の編集
(ラベルの調整,ピッチの調整およびベロシティの調
整)を行うことができるので,さらに利便性を向上させ
ることができる。
As described above, according to the second embodiment, it is possible to edit detailed information (adjustment of labels, adjustment of pitch, and adjustment of velocity) in speech style data during creation of an utterance document. Therefore, the convenience can be further improved.

【0146】また,喋り方データ201のベロシティ情
報206を,音韻列情報203の任意の時点での相対的
な音量を指定する情報としたため,文書作成者の意図す
る喋り方データの作成が容易になると共に,さらに多彩
な表現の喋り方を作成することができる。
Further, since the velocity information 206 of the speaking style data 201 is the information for designating the relative volume at any time of the phoneme string information 203, the speaking style data intended by the document creator can be easily created. At the same time, it is possible to create more diverse ways of speaking.

【0147】[0147]

【発明の効果】以上説明したように,本発明の発話文書
作成装置(請求項1)は,単語,文節または文から成る
文字列情報,文字列情報の文字に対応した音韻から成る
音韻列情報,音韻列情報中の各音韻の継続時間長,音韻
列情報の任意の時点での相対的なピッチを指定するピッ
チ情報および音韻列情報の各音韻の音量を指定するベロ
シティ情報から構成される喋り方データを,喋り方デー
タの文字列情報に基づいて,前記文字列情報が同一であ
ってその読みが異なる喋り方データをグループ化してグ
ループ毎に記憶した喋り方データ記憶手段と,単語,文
節または文を構成する文字列を入力するための文字列入
力手段と,文字列入力手段を介して入力された文字列を
用いて,文字列と同一の文字列情報を有するグループを
喋り方データ記憶手段から検索する検索手段と,合成す
る音声に声色を付加するための声色データを複数記憶し
た声色データ記憶手段と,検索手段で検索したグループ
中の喋り方データを順次読み出して,読み出した喋り方
データの音韻列情報,継続時間長,ピッチ情報およびベ
ロシティ情報と声色データ記憶手段に記憶されている声
色データの一つとを用いて音声を合成する音声合成手段
と,音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と,音声選択手段を用いて選
択された音声に対応する喋り方データを文字列入力手段
を介して入力された文字列と対応させて発話文書として
記憶する発話文書記憶手段と,を備えたため,文字情報
と音声情報という2つの表現形態の情報を整合性の取れ
た形で複合した情報(発話文書)を作成することができ
る。また,文字情報と文書作成者の意図する喋り方を含
む音声情報(喋り方データ)との整合性をとった情報
(発話文書)を作成して,文書中に非言語情報にあたる
感情等の表現を付加することができる。さらに,文書作
成者の意図する喋り方で正確に音声を合成することがで
きる。
As described above, the utterance document creating apparatus according to the present invention (claim 1) provides character string information comprising words, phrases or sentences, and phoneme string information comprising phonemes corresponding to the characters of the character string information. Speech, which is composed of the duration of each phoneme in the phoneme sequence information, pitch information specifying the relative pitch of the phoneme sequence information at any time, and velocity information specifying the volume of each phoneme in the phoneme sequence information Based on the character string information of the speaking style data, the speaking style data storing means for grouping speaking style data having the same character string information and different readings and storing the data for each group; Or, using a character string input means for inputting a character string constituting a sentence, and a character string input via the character string input means, storing a group having the same character string information as the character string in a manner of speaking data storage Search means for searching from the first stage, voice data storage means for storing a plurality of voice data for adding voice to synthesized voices, and reading method of speaking in the group retrieved by the searching means sequentially, and the read method of speaking. Speech synthesis means for synthesizing speech using phonological sequence information, duration time, pitch information and velocity information of the data and one of the timbre data stored in the timbre data storage means, and speech synthesized by the speech synthesis means Means for selecting a desired voice from the user, and speaking style data corresponding to the voice selected using the voice selecting means are associated with the character string input through the character string input means as a speech document. Utterance document storage means for storing the information (speech document), which is a combination of two types of information, character information and voice information, in a consistent manner. It can be formed. It also creates information (spoken documents) that matches the text information with the speech information (speech data) including the way the creator intends to speak, and expresses emotions, etc., which correspond to non-verbal information in the document. Can be added. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0148】また,本発明の発話文書作成装置(請求項
2)は,単語,文節または文から成る文字列情報,文字
列情報の文字に対応した音韻から成る音韻列情報,音韻
列情報中の各音韻の継続時間長,音韻列情報の任意の時
点での相対的なピッチを指定するピッチ情報および音韻
列情報の任意の時点での相対的な音量を指定するベロシ
ティ情報から構成される喋り方データを,喋り方データ
の文字列情報に基づいて,前記文字列情報が同一であっ
てその読みが異なる喋り方データをグループ化してグル
ープ毎に記憶した喋り方データ記憶手段と,単語,文節
または文を構成する文字列を入力するための文字列入力
手段と,文字列入力手段を介して入力された文字列を用
いて,文字列と同一の文字列情報を有するグループを喋
り方データ記憶手段から検索する検索手段と,合成する
音声に声色を付加するための声色データを複数記憶した
声色データ記憶手段と,検索手段で検索したグループ中
の喋り方データを順次読み出して,読み出した喋り方デ
ータの音韻列情報,継続時間長,ピッチ情報およびベロ
シティ情報と声色データ記憶手段に記憶されている声色
データの一つとを用いて音声を合成する音声合成手段
と,音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と,音声選択手段を用いて選
択された音声に対応する喋り方データを文字列入力手段
を介して入力された文字列と対応させて発話文書として
記憶する発話文書記憶手段と,を備えたため,文字情報
と音声情報という2つの表現形態の情報を整合性の取れ
た形で複合した情報(発話文書)を作成することができ
る。また,文字情報と文書作成者の意図する喋り方を含
む音声情報(喋り方データ)との整合性をとった情報
(発話文書)を作成して,文書中に非言語情報にあたる
感情等の表現を付加することができる。さらに,文書作
成者の意図する喋り方で正確に音声を合成することがで
きる。
Further, the speech document creating apparatus of the present invention (claim 2) is characterized in that character string information composed of words, phrases or sentences, phoneme string information composed of phonemes corresponding to the characters of the character string information, and phoneme string information in the phoneme string information. Speech style composed of duration time of each phoneme, pitch information specifying relative pitch at any time of phoneme sequence information, and velocity information specifying relative volume at any time of phoneme sequence information Based on the character string information of the speaking method data, speaking method data storage means for grouping speaking data having the same character string information and different readings and storing the data for each group; Using a character string input means for inputting a character string constituting a sentence, and a character string input via the character string input means, a group having the same character string information as the character string is used as a data storage method for speaking. Search means for retrieving voice data; voice data storage means for storing a plurality of voice data for adding voice to synthesized voice; and speech data read sequentially from the group retrieved by the search means. Speech synthesis means for synthesizing speech using the phoneme sequence information, duration time, pitch information, and velocity information of the voice and one of the timbre data stored in the timbre data storage means, and a speech synthesized by the speech synthesis means. Voice selecting means for selecting a desired voice, and speaking data corresponding to the voice selected using the voice selecting means are stored as an utterance document in association with the character string input via the character string input means. Utterance document storage means to generate information (speech document) in which information in two representation forms, textual information and voice information, is combined in a consistent manner. It can be. It also creates information (spoken documents) that matches the text information with the speech information (speech data) including the way the creator intends to speak, and expresses emotions, etc., which correspond to non-verbal information in the document. Can be added. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0149】また,本発明の発話文書作成装置(請求項
3)は,発話文書の再生を指定し,発話文書中の喋り方
データを順次読み出して,音声を合成することができる
ため,発話文書の確認が容易に行える。
Further, the speech document creation device of the present invention (claim 3) can designate the reproduction of the speech document, sequentially read the speaking style data in the speech document, and synthesize the speech, so that the speech document can be synthesized. Can be easily confirmed.

【0150】また,本発明の発話文書作成装置(請求項
4)は,発話文書を再生する範囲として,発話文書中の
任意の文字列単位,文章単位,ページ単位または発話文
書全体の指定が可能であるため,発話文書の再生・確認
が容易に行える。
Further, the speech document creation device of the present invention (claim 4) can designate an arbitrary character string unit, a sentence unit, a page unit, or the entire speech document in the speech document as a reproduction range of the speech document. Therefore, reproduction and confirmation of the utterance document can be easily performed.

【0151】また,本発明の発話文書作成装置(請求項
5)は,単語,文節または文から成る文字列情報,文字
列情報の文字に対応した音韻から成る音韻列情報,音韻
列情報中の各音韻の継続時間長,音韻列情報の任意の時
点での相対的なピッチを指定するピッチ情報および音韻
列情報の各音韻の音量を指定するベロシティ情報から構
成される喋り方データを,喋り方データの文字列情報に
基づいて,前記文字列情報が同一であってその読みが異
なる喋り方データをグループ化してグループ毎に記憶し
た喋り方データ記憶手段と,単語,文節または文を構成
する文字列を入力するための文字列入力手段と,文字列
入力手段を介して入力された文字列を用いて,文字列と
同一の文字列情報を有するグループを喋り方データ記憶
手段から検索する検索手段と,合成する音声に声色を付
加するための声色データを複数記憶した声色データ記憶
手段と,声色データ記憶手段に記憶されている声色デー
タの一つを指定するための声色データ指定手段と,検索
手段で検索したグループ中の喋り方データを順次読み出
して,読み出した喋り方データの音韻列情報,継続時間
長,ピッチ情報およびベロシティ情報と声色データ指定
手段で指定された声色データとを用いて音声を合成する
音声合成手段と,音声合成手段で合成された音声から所
望の音声を選択するための音声選択手段と,音声選択手
段を用いて選択された音声に対応する喋り方データおよ
び声色データを文字列入力手段を介して入力された文字
列と対応させて発話文書として記憶する発話文書記憶手
段と,を備えたため,文字情報と音声情報という2つの
表現形態の情報を整合性の取れた形で複合した情報(発
話文書)を作成することができる。また,文字情報と文
書作成者の意図する喋り方を含む音声情報(喋り方デー
タ)との整合性をとった情報(発話文書)を作成して,
文書中に非言語情報にあたる感情等の表現を付加するこ
とができる。さらに,文書作成者の意図する喋り方で正
確に音声を合成することができる。
Further, the speech document creating apparatus of the present invention (claim 5) is characterized in that character string information composed of words, phrases or sentences, phoneme string information composed of phonemes corresponding to the characters of the character string information, and phoneme string information in the phoneme string information. Speaking style data consisting of duration time of each phoneme, pitch information specifying relative pitch of phoneme sequence information at an arbitrary point in time, and velocity information specifying volume of each phoneme in phoneme sequence information Based on character string information of the data, the speaking data having the same character string information but different readings are grouped and stored in each of the speaking manner data storing means; and a character constituting a word, a phrase or a sentence. Using a character string input means for inputting a string and a character string input via the character string input means, a group having the same character string information as the character string is retrieved from the speaking data storage means. Searching means; voice data storing means for storing a plurality of voice data for adding voice to a synthesized voice; voice data specifying means for specifying one of voice data stored in the voice data storing means; And sequentially reading the speaking style data in the group searched by the searching means, and using the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speaking style data and the timbre data specified by the timbre data specifying means. Synthesizing means for synthesizing voice, voice selecting means for selecting a desired voice from the voice synthesized by the voice synthesizing means, speech style data and voice color corresponding to the voice selected using the voice selecting means Utterance document storage means for storing data as an utterance document in correspondence with a character string input via the character string input means, thereby providing character information and sound information. The information of the two forms of expression can be created composite information in the rounded shape integrity (spoken documents) that information. In addition, information (spoken document) that matches the character information with the voice information (speech data) including the way of speech intended by the document creator is created.
Expressions such as emotions corresponding to non-verbal information can be added to the document. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0152】また,本発明の発話文書作成装置(請求項
6)は,単語,文節または文から成る文字列情報,文字
列情報の文字に対応した音韻から成る音韻列情報,音韻
列情報中の各音韻の継続時間長,音韻列情報の任意の時
点での相対的なピッチを指定するピッチ情報および音韻
列情報の任意の時点での相対的な音量を指定するベロシ
ティ情報から構成される喋り方データを,喋り方データ
の文字列情報に基づいて,前記文字列情報が同一であっ
てその読みが異なる喋り方データをグループ化してグル
ープ毎に記憶した喋り方データ記憶手段と,単語,文節
または文を構成する文字列を入力するための文字列入力
手段と,文字列入力手段を介して入力された文字列を用
いて,文字列と同一の文字列情報を有するグループを喋
り方データ記憶手段から検索する検索手段と,合成する
音声に声色を付加するための声色データを複数記憶した
声色データ記憶手段と,声色データ記憶手段に記憶され
ている声色データの一つを指定するための声色データ指
定手段と,検索手段で検索したグループ中の喋り方デー
タを順次読み出して,読み出した喋り方データの音韻列
情報,継続時間長,ピッチ情報およびベロシティ情報と
声色データ指定手段で指定された声色データとを用いて
音声を合成する音声合成手段と,音声合成手段で合成さ
れた音声から所望の音声を選択するための音声選択手段
と,音声選択手段を用いて選択された音声に対応する喋
り方データおよび声色データを文字列入力手段を介して
入力された文字列と対応させて発話文書として記憶する
発話文書記憶手段と,を備えたため,文字情報と音声情
報という2つの表現形態の情報を整合性の取れた形で複
合した情報(発話文書)を作成することができる。ま
た,文字情報と文書作成者の意図する喋り方を含む音声
情報(喋り方データ)との整合性をとった情報(発話文
書)を作成して,文書中に非言語情報にあたる感情等の
表現を付加することができる。さらに,文書作成者の意
図する喋り方で正確に音声を合成することができる。
Further, the utterance document creation device of the present invention (claim 6) is characterized in that character string information composed of words, phrases or sentences, phoneme sequence information composed of phonemes corresponding to the characters of the character string information, Speech style composed of duration time of each phoneme, pitch information specifying relative pitch at any time of phoneme sequence information, and velocity information specifying relative volume at any time of phoneme sequence information Based on the character string information of the speaking method data, speaking method data storage means for grouping speaking data having the same character string information and different readings and storing the data for each group; Using a character string input means for inputting a character string constituting a sentence, and a character string input via the character string input means, a group having the same character string information as the character string is used as a data storage method for speaking. Search means for retrieving voice data, voice data storage means for storing a plurality of voice data for adding voice to a synthesized voice, and voice data for specifying one of the voice data stored in the voice data storage means. Voice data specified by the voice data designation means by sequentially reading the speaking style data in the group searched by the specifying means and the searching means, and reading the phonetic sequence information, duration time, pitch information, and velocity information of the read speech style data. Voice synthesis means for synthesizing the voice using the voice synthesis means, a voice selection means for selecting a desired voice from the voice synthesized by the voice synthesis means, and a speech method corresponding to the voice selected using the voice selection means Utterance document storage means for storing data and voice data in correspondence with a character string input via the character string input means and storing the utterance document as an utterance document It is possible to create a character information and the composite information the information of the two expression form of audio information in a rounded shape integrity (spoken documents). It also creates information (spoken documents) that matches the text information with the speech information (speech data) including the way the creator intends to speak, and expresses emotions, etc., which correspond to non-verbal information in the document. Can be added. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0153】また,本発明の発話文書作成装置(請求項
7)は,喋り方データを作成して喋り方データ記憶手段
に登録する喋り方データ作成・登録手段を備えたため,
文書作成者が所望の喋り方データを作成・登録すること
ができ,発話文書を用いた音声(喋り方)の表現を豊か
にすることができる。
Further, the utterance document creation device of the present invention (Claim 7) is provided with the talking style data creating / registering means for creating the talking style data and registering it in the talking style data storage means.
The document creator can create and register desired speech data, thereby enriching the expression of speech (speech) using the utterance document.

【0154】また,本発明の発話文書作成装置(請求項
8)は,喋り方データ中の情報である文字列情報,音韻
列情報,継続時間長,ピッチ情報およびベロシティ情報
をそれぞれ設定して喋り方データを作成し,喋り方デー
タ記憶手段に登録するため,文書作成者が所望の喋り方
データを作成・登録することができ,発話文書を用いた
音声(喋り方)の表現を豊かにすることができる。
Further, the speech document creating apparatus according to the present invention (claim 8) sets a character string information, a phoneme string information, a duration time, a pitch information and a velocity information, which are the information in the speaking style data, to speak. The creator can create and register the desired speaking data because the creator creates the speaking data and registers it in the speaking data storage means, thereby enriching the expression of speech (speaking) using the spoken document. be able to.

【0155】また,本発明の発話文書作成装置(請求項
9)は,発話文書の再生を指定し,発話文書中の喋り方
データを順次読み出して,音声を合成することができる
ため,発話文書の確認が容易に行える。
Further, the speech document creation device of the present invention (claim 9) can designate reproduction of the speech document, sequentially read the speaking style data in the speech document, and synthesize the voice. Can be easily confirmed.

【0156】また,本発明の発話文書作成装置(請求項
10)は,発話文書を再生する範囲として,発話文書中
の任意の文字列単位,文章単位,ページ単位または発話
文書全体の指定が可能であるため,発話文書の再生・確
認が容易に行える。
Further, the utterance document creation device of the present invention (claim 10) can designate an arbitrary character string unit, a sentence unit, a page unit, or the entire utterance document in the utterance document as a range for reproducing the utterance document. Therefore, reproduction and confirmation of the utterance document can be easily performed.

【0157】また,本発明の発話文書作成装置(請求項
11)は,文字列入力手段を用いて,発話文書記憶手段
に記憶されている発話文書を表示し,表示した発話文書
の任意の文字列を指定し,指定した文字列の変更または
再入力が可能であり,変更または再入力された文字列を
用いて,検索手段による検索,声色データ指定手段によ
る声色データの指定,音声合成手段による音声の合成お
よび音声選択手段による音声の選択を行うことにより,
指定した文字列に対応する喋り方データおよび声色デー
タの変更が可能であるため,発話文書の利用範囲,利便
性の向上を図ることができる。
Further, the utterance document creation device according to the present invention (claim 11) displays the utterance document stored in the utterance document storage means using the character string input means, and selects any character of the displayed utterance document. It is possible to specify a column and change or re-enter the specified character string. Using the changed or re-input character string, search by search means, voice data specification by voice data specification means, voice data by voice synthesis means By performing voice synthesis and voice selection by voice selection means,
Since it is possible to change the way of speaking data and voice data corresponding to the designated character string, it is possible to improve the use range and convenience of the utterance document.

【0158】また,本発明の発話文書作成装置(請求項
12)は,複数の声色データとして,男性の声,女性の
声,子供の声,老人の声,掠れた声,明瞭な声,太い
声,細い声,力強い声,やさしい声,機械的な声のよう
に,それぞれ感覚的に識別可能な声色データを有してい
るため,発話文書の利用範囲,利便性の向上を図ること
ができる。また,より多彩な音声合成を行うことができ
る。
Further, the utterance document creating apparatus according to the present invention (claim 12) includes a plurality of timbre data as a male voice, a female voice, a child voice, an old voice, a sharp voice, a clear voice, and a fat voice. Voice, thin, strong, gentle, and mechanical voices each have sensibly identifiable timbre data, thereby improving the range of use and convenience of spoken documents . Also, more diverse voice synthesis can be performed.

【0159】また,本発明の発話文書作成装置(請求項
13)は,仮名漢字変換機能を有し,文字例入力手段で
入力した文字列として仮名漢字変換機能を用いて変換し
た後の漢字仮名交じりのテキストを用いることができる
ので,発話文書の利用範囲,利便性の向上を図ることが
できる。また,より自由な文書表現を行うことができ
る。
The utterance document creation device according to the present invention (claim 13) has a kana-kanji conversion function, and converts a kanji-kana character converted using a kana-kanji conversion function as a character string input by a character example input means. Since the mixed text can be used, the use range and convenience of the utterance document can be improved. Also, it is possible to perform more free document expression.

【0160】また,本発明の発話文書作成装置(請求項
14)は,喋り方データが,文字列情報,音韻列情報,
継続時間長,ピッチ情報およびベロシティ情報に加え
て,それぞれの喋り方データの分類タイプを示すタイプ
情報を有し,分類タイプが指定されると,入力された文
字列と同一の文字列情報を有するグループで,かつ,指
定された分類タイプと同一のタイプ情報を有する喋り方
データを喋り方データ記憶手段から検索し,検索した喋
り方データを読み出して,読み出した喋り方データの音
韻列情報,継続時間長,ピッチ情報およびベロシティ情
報と声色データ指定手段で指定された声色データとを用
いて音声を合成するため,発話文書の作成効率および利
便性の向上を図ることができる。
Further, in the utterance document creation device according to the present invention (claim 14), the speaking style data includes character string information, phoneme string information,
In addition to the duration time, pitch information, and velocity information, it has type information indicating the classification type of the respective speaking style data. When the classification type is specified, it has the same character string information as the input character string. Speaking data having the same type information as the specified classification type in the group is retrieved from the speaking data storage means, the retrieved speaking data is read, and phoneme sequence information of the read speaking data is read. Since the speech is synthesized using the time length, pitch information and velocity information and the timbre data specified by the timbre data specifying means, it is possible to improve the production efficiency and convenience of the utterance document.

【0161】また,本発明の発話文書作成装置(請求項
15)は,分類タイプとして,それぞれの喋り方データ
に対応する音声を,東京型発音タイプ,大阪型発音タイ
プ,徳島型発音タイプ等のように地域によって分類した
ため,分類タイプを指定することで,各地域の喋り方で
音声合成が行える発話文書を容易に作成できる。
Further, the utterance document creation device of the present invention (Claim 15), as the classification type, converts the speech corresponding to each way of speaking data into a Tokyo type pronunciation type, an Osaka type pronunciation type, a Tokushima type pronunciation type and the like. Since the classification is performed according to the region as described above, by specifying the classification type, it is possible to easily create an utterance document that can perform speech synthesis in a manner of speaking in each region.

【0162】また,本発明の発話文書作成装置(請求項
16)は,分類タイプとして,それぞれの喋り方データ
に対応する音声を,老人型発音タイプ,若者型発音タイ
プ,高校生型発音タイプ等のように年齢によって分類し
たため,分類タイプを指定することで,各年齢の喋り方
で音声合成が行える発話文書を容易に作成できる。
The speech document creating apparatus according to the present invention (claim 16) converts the speech corresponding to each type of speech data as a classification type such as an elderly-type pronunciation type, a youth-type pronunciation type, and a high-school-type pronunciation type. As described above, the categorization is made according to the age. By specifying the categorization type, it is possible to easily create an utterance document in which speech synthesis can be performed in each age.

【0163】また,本発明の発話文書作成装置(請求項
17)は,文字列入力手段が,表示部を有しており,か
つ,発話文書の各文字列毎に指定されている声色データ
に基づいて,表示する文字列のフォントや,装飾方法を
変えて表示部に表示するため,発話文書の作成・変更等
の作業が容易であると共に,声色データの指定状況を容
易に把握することができ,利便性が向上する。
Also, in the utterance document creation device according to the present invention (claim 17), the character string input means has a display unit, and converts the voice data designated for each character string of the utterance document into voice data. Since the font of the character string to be displayed and the decoration method are displayed on the display unit based on the display, it is easy to create and change the utterance document, and to easily grasp the voice data designation status. And the convenience is improved.

【0164】また,本発明の発話文書作成方法(請求項
18)は,単語,文節または文を構成する文字列を入力
する第1の工程と,単語,文節または文から成る文字列
情報,文字列情報の文字に対応した音韻から成る音韻列
情報,音韻列情報中の各音韻の継続時間長,音韻列情報
の任意の時点での相対的なピッチを指定するピッチ情報
および音韻列情報の各音韻の音量を指定するベロシティ
情報から構成される喋り方データを,喋り方データの文
字列情報に基づいて,前記文字列情報が同一であってそ
の読みが異なる喋り方データをグループ化してグループ
毎に記憶したデータベースを参照して,第1の工程で入
力された文字列と同一の文字列情報を有するグループを
検索する第2の工程と,合成する音声に声色を付加する
ため声色データを指定する第3の工程と,第2の工程で
検索したグループ中の喋り方データを順次読み出して,
読み出した喋り方データの音韻列情報,継続時間長,ピ
ッチ情報およびベロシティ情報と,第3の工程で指定さ
れた声色データとを用いて,音声を合成する第4の工程
と,第4の工程で合成された音声から所望の音声を選択
する第5の工程と,第5の工程で選択した音声に対応す
る喋り方データを1の工程で入力した文字列と対応させ
て発話文書として記憶する第6の工程と,を含むため,
文字情報と音声情報という2つの表現形態の情報を整合
性の取れた形で複合した情報(発話文書)を作成するこ
とができる。また,文字情報と文書作成者の意図する喋
り方を含む音声情報(喋り方データ)との整合性をとっ
た情報(発話文書)を作成して,文書中に非言語情報に
あたる感情等の表現を付加することができる。さらに,
文書作成者の意図する喋り方で正確に音声を合成するこ
とができる。
The speech document creating method according to the present invention (claim 18) includes a first step of inputting a word, a phrase or a character string constituting a sentence, a character string information comprising a word, a phrase or a sentence, and a character string. Each of phoneme string information composed of phonemes corresponding to the characters of the string information, duration time of each phoneme in the phoneme string information, pitch information specifying the relative pitch of the phoneme string information at an arbitrary time, and phoneme string information Based on the character string information of the speaking data, the speaking data composed of the velocity information specifying the volume of the phoneme is grouped based on the character string information of the speaking data, and the speaking data having the same character string information but different readings are grouped. A second step of searching for a group having the same character string information as the character string input in the first step with reference to the database stored in the first step, and generating voice data for adding voice to the synthesized voice. A third step of constant, sequentially reads out speaking how data in the group searched in the second step,
A fourth step and a fourth step of synthesizing a voice using the read phonetic sequence information, duration time, pitch information and velocity information of the speaking style data, and the timbre data specified in the third step A fifth step of selecting a desired voice from the voice synthesized in the step, and talking data corresponding to the voice selected in the fifth step are stored as a speech document in association with the character string input in the first step. And the sixth step,
It is possible to create information (an utterance document) in which information of two expression forms, that is, character information and voice information, is combined in a consistent manner. It also creates information (spoken documents) that matches the text information with the speech information (speech data) including the way the creator intends to speak, and expresses emotions, etc., which correspond to non-verbal information in the document. Can be added. further,
Speech can be accurately synthesized according to the way of speech intended by the document creator.

【0165】また,本発明の発話文書作成方法(請求項
19)は,単語,文節または文を構成する文字列を入力
する第1の工程と,単語,文節または文から成る文字列
情報,文字列情報の文字に対応した音韻から成る音韻列
情報,音韻列情報中の各音韻の継続時間長,音韻列情報
の任意の時点での相対的なピッチを指定するピッチ情報
および音韻列情報の任意の時点での相対的な音量を指定
するベロシティ情報から構成される喋り方データを,喋
り方データの文字列情報に基づいて,前記文字列情報が
同一であってその読みが異なる喋り方データをグループ
化してグループ毎に記憶したデータベースを参照して,
第1の工程で入力された文字列と同一の文字列情報を有
するグループを検索する第2の工程と,合成する音声に
声色を付加するため声色データを指定する第3の工程
と,第2の工程で検索したグループ中の喋り方データを
順次読み出して,読み出した喋り方データの音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報と,
第3の工程で指定された声色データとを用いて,音声を
合成する第4の工程と,第4の工程で合成された音声か
ら所望の音声を選択する第5の工程と,第5の工程で選
択した音声に対応する喋り方データを1の工程で入力し
た文字列と対応させて発話文書として記憶する第6の工
程と,を含むため,文字情報と文書作成者の意図する喋
り方を含む音声情報(喋り方データ)との整合性をとっ
た情報(発話文書)を作成することができる。また,文
字情報と文書作成者の意図する喋り方を含む音声情報
(喋り方データ)との整合性をとった情報(発話文書)
を作成して,文書中に非言語情報にあたる感情等の表現
を付加することができる。さらに,文書作成者の意図す
る喋り方で正確に音声を合成することができる。
The speech document creating method according to the present invention (claim 19) includes a first step of inputting a word, a phrase or a character string constituting a sentence, a character string information comprising a word, a phrase or a sentence, and a character string. Phoneme string information consisting of phonemes corresponding to the characters of the string information, duration of each phoneme in the phoneme string information, pitch information specifying the relative pitch of the phoneme string information at any point in time, and arbitrary phoneme string information Based on the character string information of the speaking data, the speaking data composed of the velocity information specifying the relative volume at the point of time is converted into the speaking data having the same character string information and different readings. With reference to the database that is grouped and stored for each group,
A second step of searching for a group having the same character string information as the character string input in the first step, a third step of specifying voice data for adding a voice to a synthesized voice, and a second step of specifying voice data. The speech style data in the group searched in the process of step 1 is sequentially read, and the phoneme sequence information, duration time, pitch information and velocity information of the read speech style data,
A fourth step of synthesizing a voice using the voice color data specified in the third step, a fifth step of selecting a desired voice from the voice synthesized in the fourth step, and a fifth step of And a sixth step of storing as a spoken document the speech style data corresponding to the voice selected in the process in association with the character string input in the first process, so that the text information and the speech style intended by the document creator are included. (Speech document) can be created with consistency with the voice information (speaking style data) including. In addition, information (spoken document) that matches character information with audio information (speech data) including how the document creator intended to speak.
Can be added to the document to add expressions such as emotions corresponding to non-verbal information. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0166】また,本発明の発話文書作成方法(請求項
20)は,第6の工程で記憶した発話文書の再生を指定
する第7の工程と,第7の工程で発話文書の再生が指定
されると,発話文書中の喋り方データおよび声色データ
を順次読み出して,音声を合成する第8の工程と,を含
むため,発話文書の確認が容易に行える。
Further, according to the speech document creation method of the present invention (claim 20), the reproduction of the speech document is specified in the seventh step of designating the reproduction of the speech document stored in the sixth step and the seventh step. Then, the eighth step of sequentially reading the speech style data and the timbre data in the utterance document and synthesizing the speech is included, so that the utterance document can be easily confirmed.

【0167】また,本発明の発話文書作成方法(請求項
21)は,第7の工程において,発話文書を再生する範
囲として,発話文書中の任意の文字列単位,文章単位,
ページ単位または発話文書全体の指定が可能であるた
め,発話文書の再生・確認が容易に行える。
Further, according to the utterance document creation method of the present invention (claim 21), in the seventh step, the range of reproduction of the utterance document is defined as an arbitrary character string unit, a sentence unit,
Since it is possible to specify a page unit or the entire utterance document, reproduction and confirmation of the utterance document can be easily performed.

【0168】また,本発明の発話文書作成方法(請求項
22)は,第6の工程で記憶した発話文書を表示し,表
示した発話文書の任意の文字列を指定し,指定した文字
列の変更または再入力を行う第9の工程とを含み,第9
の工程で変更または再入力された文字列を用いて,再
度,第2の工程,第3の工程,第4の工程,第5の工程
および第6の工程を実行することにより,発話文書の変
更が可能であるため,発話文書の利用範囲,利便性の向
上を図ることができる。
The speech document creation method of the present invention (claim 22) displays the speech document stored in the sixth step, specifies an arbitrary character string of the displayed speech document, and A ninth step of performing a change or re-entry.
The second step, the third step, the fourth step, the fifth step, and the sixth step are executed again by using the character string changed or re-input in the step, so that the utterance document is Since the change is possible, the use range and convenience of the utterance document can be improved.

【0169】また,本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体(請求項23)は,単語,文節
または文を構成する文字列を入力する第1の手順と,単
語,文節または文から成る文字列情報,文字列情報の文
字に対応した音韻から成る音韻列情報,音韻列情報中の
各音韻の継続時間長,音韻列情報の任意の時点での相対
的なピッチを指定するピッチ情報および音韻列情報の各
音韻の音量を指定するベロシティ情報から構成される喋
り方データを,喋り方データの文字列情報に基づいて,
前記文字列情報が同一であってその読みが異なる喋り方
データをグループ化してグループ毎に記憶したデータベ
ースを参照して,第1の手順で入力された文字列と同一
の文字列情報を有するグループを検索する第2の手順
と,合成する音声に声色を付加するため声色データを指
定する第3の手順と,第2の手順で検索したグループ中
の喋り方データを順次読み出して,読み出した喋り方デ
ータの音韻列情報,継続時間長,ピッチ情報およびベロ
シティ情報と,第3の手順で指定された声色データとを
用いて,音声を合成する第4の手順と,第4の手順で合
成された音声から所望の音声を選択する第5の手順と,
第5の手順で選択した音声に対応する喋り方データを1
の手順で入力した文字列と対応させて発話文書として記
憶する第6の手順と,を含むため,文字情報と文書作成
者の意図する喋り方を含む音声情報(喋り方データ)と
の整合性をとった情報(発話文書)を作成することがで
きる。また,文字情報と文書作成者の意図する喋り方を
含む音声情報(喋り方データ)との整合性をとった情報
(発話文書)を作成して,文書中に非言語情報にあたる
感情等の表現を付加することができる。さらに,文書作
成者の意図する喋り方で正確に音声を合成することがで
きる。
A computer-readable recording medium storing a program for causing a computer to execute the speech document creating procedure according to the present invention is a first medium for inputting a word, a phrase or a character string constituting a sentence. Procedures, character string information consisting of words, phrases or sentences, phoneme string information consisting of phonemes corresponding to the characters of the string information, duration of each phoneme in the phoneme string information, Based on the character string information of the speaking data, speech data composed of pitch information specifying a relative pitch and velocity information specifying the volume of each phoneme in the phoneme sequence information is obtained.
A group having the same character string information as the character string input in the first procedure by referring to a database in which the character string information is the same and the reading data is grouped and the reading is different, and stored in each group. , A third procedure of specifying voice data to add voice to the synthesized voice, and a method of sequentially reading the talking style data in the group searched in the second procedure, and reading the read speech. Using the phonemic sequence information, duration time, pitch information, and velocity information of the voice data and the timbre data specified in the third procedure, the speech is synthesized by the fourth procedure and the fourth procedure. A fifth procedure for selecting a desired voice from the voices obtained from the
Speaking data corresponding to the voice selected in the fifth step is 1
And the sixth step of storing as an utterance document in correspondence with the character string input in the above procedure, so that the consistency between the character information and the speech information (speaking style data) including the way of speech intended by the document creator is included. (Utterance document) can be created. It also creates information (spoken documents) that matches the text information with the speech information (speech data) including the way the creator intends to speak, and expresses emotions, etc., which correspond to non-verbal information in the document. Can be added. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0170】また,本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体(請求項24)は,単語,文節
または文を構成する文字列を入力する第1の手順と,単
語,文節または文から成る文字列情報,文字列情報の文
字に対応した音韻から成る音韻列情報,音韻列情報中の
各音韻の継続時間長,音韻列情報の任意の時点での相対
的なピッチを指定するピッチ情報および音韻列情報任意
の時点での相対的な音量を指定するベロシティ情報から
構成される喋り方データを,喋り方データの文字列情報
に基づいて,前記文字列情報が同一であってその読みが
異なる喋り方データをグループ化してグループ毎に記憶
したデータベースを参照して,第1の手順で入力された
文字列と同一の文字列情報を有するグループを検索する
第2の手順と,合成する音声に声色を付加するため声色
データを指定する第3の手順と,第2の手順で検索した
グループ中の喋り方データを順次読み出して,読み出し
た喋り方データの音韻列情報,継続時間長,ピッチ情報
およびベロシティ情報と,第3の手順で指定された声色
データとを用いて,音声を合成する第4の手順と,第4
の手順で合成された音声から所望の音声を選択する第5
の手順と,第5の手順で選択した音声に対応する喋り方
データを1の手順で入力した文字列と対応させて発話文
書として記憶する第6の手順と,を含むため,文字情報
と文書作成者の意図する喋り方を含む音声情報(喋り方
データ)との整合性をとった情報(発話文書)を作成す
ることができる。また,文字情報と文書作成者の意図す
る喋り方を含む音声情報(喋り方データ)との整合性を
とった情報(発話文書)を作成して,文書中に非言語情
報にあたる感情等の表現を付加することができる。さら
に,文書作成者の意図する喋り方で正確に音声を合成す
ることができる。
A computer-readable recording medium storing a program for causing a computer to execute the speech document creating procedure of the present invention is a first medium for inputting a word, a phrase or a character string constituting a sentence. Procedures, character string information consisting of words, phrases or sentences, phoneme string information consisting of phonemes corresponding to the characters of the string information, duration of each phoneme in the phoneme string information, Pitch information specifying relative pitch and phoneme string information Speaking data composed of velocity information specifying relative volume at any point in time is converted into the character string based on the character string information of the talking data. The same sentence as the character string input in the first procedure is referred to by referring to a database in which speaking information data having the same information but different readings is grouped and stored for each group. A second procedure for searching for a group having column information, a third procedure for specifying timbre data for adding a timbre to a synthesized voice, and a method of sequentially reading speaking style data in the group searched for in the second procedure A fourth procedure of synthesizing speech using the phoneme sequence information, duration time, pitch information and velocity information of the read speech style data and the timbre data specified in the third procedure;
5th step of selecting a desired voice from voices synthesized in the procedure of
And the sixth procedure of storing the speaking style data corresponding to the voice selected in the fifth procedure as the utterance document in association with the character string input in the first procedure. It is possible to create information (an utterance document) that is consistent with audio information (speaking style data) including a way of speaking intended by the creator. It also creates information (spoken documents) that matches the text information with the speech information (speech data) including the way the creator intends to speak, and expresses emotions, etc., which correspond to non-verbal information in the document. Can be added. Further, the speech can be accurately synthesized according to the way of speech intended by the document creator.

【0171】また,本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体(請求項25)は,第6の手順
で記憶した発話文書の再生を指定する第7の手順と,第
7の手順で発話文書の再生が指定されると,発話文書中
の喋り方データおよび声色データを順次読み出して,音
声を合成する第8の手順と,を含むため,発話文書の確
認が容易に行える。
A computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure of the present invention is a computer-readable recording medium storing a utterance document stored in the sixth procedure. When the reproduction of the utterance document is designated in the seventh step, and the eighth step of sequentially reading the speech style data and the timbre data in the utterance document and synthesizing the voice, the utterance document Can be easily confirmed.

【0172】また,本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体(請求項26)は,第7の手順
において,発話文書を再生する範囲として,発話文書中
の任意の文字列単位,文章単位,ページ単位または発話
文書全体の指定が可能であるため,発話文書の再生・確
認が容易に行える。
A computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure according to the present invention is characterized in that, in the seventh procedure, the utterance document creation range is set as the utterance document reproduction range. Since it is possible to specify an arbitrary character string unit, a sentence unit, a page unit, or the entire utterance document, the reproduction and confirmation of the utterance document can be easily performed.

【0173】また,本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体(請求項27)は,第6の手順
で記憶した発話文書を表示し,表示した発話文書の任意
の文字列を指定し,指定した文字列の変更または再入力
を行う第9の手順とを含み,第9の手順で変更または再
入力された文字列を用いて,再度,第2の手順,第3の
手順,第4の手順,第5の手順および第6の手順を実行
することにより,発話文書の変更が可能であるため,発
話文書の利用範囲,利便性の向上を図ることができる。
A computer-readable recording medium storing a program for causing a computer to execute the speech document creation procedure of the present invention displays the speech document stored in the sixth procedure, and displays the displayed speech document. A ninth procedure of specifying an arbitrary character string of the document and changing or re-inputting the specified character string, and using the character string changed or re-input in the ninth procedure, By executing the above procedure, the third procedure, the fourth procedure, the fifth procedure, and the sixth procedure, the utterance document can be changed, so that the use range and convenience of the utterance document are improved. be able to.

【図面の簡単な説明】[Brief description of the drawings]

【図1】実施の形態1の発話文書作成装置の概略ブロッ
ク図である。
FIG. 1 is a schematic block diagram of an utterance document creation device according to a first embodiment.

【図2】実施の形態1における喋り方データ記憶部に記
憶されている喋り方データを示す説明図である。
FIG. 2 is an explanatory diagram showing talking style data stored in a talking style data storage unit according to the first embodiment;

【図3】実施の形態1における声色データ記憶部に記憶
されている声色データの種類を示す説明図である。
FIG. 3 is an explanatory diagram showing types of voice data stored in a voice data storage unit according to the first embodiment.

【図4】実施の形態1の発話文書作成装置の外観図であ
る。
FIG. 4 is an external view of an utterance document creation device according to the first embodiment.

【図5】実施の形態1における発話文書の作成処理の概
略フローチャートである。
FIG. 5 is a schematic flowchart of an utterance document creation process according to the first embodiment;

【図6】発話文書の作成処理における表示部の表示画面
の例を示す説明図である。
FIG. 6 is an explanatory diagram illustrating an example of a display screen of a display unit in an utterance document creation process.

【図7】発話文書の作成処理における表示部の表示画面
の例を示す説明図である。
FIG. 7 is an explanatory diagram illustrating an example of a display screen of a display unit in a process of creating an utterance document.

【図8】発話文書の作成処理で作成した発話文書の画面
表示例示す説明図である。
FIG. 8 is an explanatory diagram showing a screen display example of an utterance document created in an utterance document creation process.

【図9】発話文書記憶部に記憶されている発話文書デー
タの例を示す説明図である。
FIG. 9 is an explanatory diagram illustrating an example of utterance document data stored in an utterance document storage unit.

【図10】実施の形態1における発話文書の再生処理の
概略フローチャートである。
FIG. 10 is a schematic flowchart of an utterance document reproduction process according to the first embodiment;

【図11】発話文書の再生処理における表示部の表示画
面の例を示す説明図である。
FIG. 11 is an explanatory diagram illustrating an example of a display screen of a display unit in a reproduction process of an utterance document.

【図12】発話文書の再生処理における表示部の表示画
面の例を示す説明図である。
FIG. 12 is an explanatory diagram illustrating an example of a display screen of a display unit in a process of reproducing an utterance document.

【図13】発話文書の再生処理における表示部の表示画
面の例を示す説明図である。
FIG. 13 is an explanatory diagram illustrating an example of a display screen of a display unit in a reproduction process of an utterance document.

【図14】実施の形態1におけるタイプ情報を用いた発
話文書の作成処理の概略フローチャートである。
FIG. 14 is a schematic flowchart of an utterance document creation process using type information according to the first embodiment;

【図15】タイプ情報を用いた発話文書の作成処理にお
ける表示部の表示画面の例を示す説明図である。
FIG. 15 is an explanatory diagram illustrating an example of a display screen of a display unit in a process of creating an utterance document using type information.

【図16】実施の形態1におけるタイプ情報を用いた発
話文書の再生処理の概略フローチャートである。
FIG. 16 is a schematic flowchart of a reproduction process of an utterance document using type information according to the first embodiment.

【図17】実施の形態1における喋り方データの作成・
登録処理の概略フローチャートである。
FIG. 17 is a diagram illustrating how to create and generate speaking style data according to the first embodiment.
It is a schematic flowchart of a registration process.

【図18】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 18 is an explanatory diagram illustrating a display screen of a process of creating and registering speaking style data.

【図19】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 19 is an explanatory diagram illustrating a display screen of a process for creating and registering speaking style data.

【図20】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 20 is an explanatory diagram showing a display screen of processing for creating and registering speaking style data.

【図21】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 21 is an explanatory diagram showing a display screen of processing for creating and registering speaking style data.

【図22】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 22 is an explanatory diagram showing a display screen of processing for creating and registering speaking style data.

【図23】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 23 is an explanatory diagram showing a display screen of a process of creating and registering speaking style data.

【図24】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 24 is an explanatory diagram showing a display screen of processing for creating and registering speaking style data.

【図25】喋り方データの作成・登録処理の表示画面を
示す説明図である。
FIG. 25 is an explanatory diagram showing a display screen of a process of creating and registering speaking style data.

【図26】実施の形態1における発話文書の変更処理の
概略フローチャートである。
FIG. 26 is a schematic flowchart of an utterance document change process according to the first embodiment;

【図27】実施の形態2における発話文書の作成処理の
概略フローチャートである。
FIG. 27 is a schematic flowchart of an utterance document creation process according to the second embodiment.

【図28】実施の形態2における喋り方データ中の情報
の変更処理の概略フローチャートである。
FIG. 28 is a schematic flowchart of a process of changing information in speaking style data according to the second embodiment.

【図29】実施の形態2における喋り方データ中の情報
の変更処理の表示画面を示す説明図である。
FIG. 29 is an explanatory diagram showing a display screen of a process of changing information in speaking style data according to the second embodiment.

【図30】実施の形態2における喋り方データ中の情報
の変更処理の表示画面を示す説明図である。
FIG. 30 is an explanatory diagram showing a display screen of a process of changing information in the talking style data according to the second embodiment.

【符号の説明】[Explanation of symbols]

101 制御部 101a CPU 101b ROM 101c RAM 102 アプリケーション記憶部 103 喋り方データ記憶部 104 声色データ記憶部 105 音声合成部 106 キー入力部 107 表示部 108 マイク 109 スピーカ 110 発話文書記憶部 111 インタフェース(I/F) 112 FDドライブ 113 CD−ROMドライブ 114 通信部 201 喋り方データ 202 文字列情報 203 音韻列情報 204 継続時間長 205 ピッチ情報 206 ベロシティ情報 207 タイプ情報 101 control unit 101a CPU 101b ROM 101c RAM 102 application storage unit 103 speech data storage unit 104 voice data storage unit 105 voice synthesis unit 106 key input unit 107 display unit 108 microphone 109 speaker 110 utterance document storage unit 111 interface (I / F) 112 FD drive 113 CD-ROM drive 114 Communication unit 201 Speaking data 202 Character string information 203 Phoneme sequence information 204 Duration length 205 Pitch information 206 Velocity information 207 Type information

フロントページの続き (56)参考文献 特開 昭62−217294(JP,A) 特開 平2−234198(JP,A) 特開 平2−247696(JP,A) 特開 平3−89300(JP,A) 特開 平4−20998(JP,A) 特開 平7−134597(JP,A) 特開 平7−319495(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G06F 3/16,17/21 Continuation of front page (56) References JP-A-62-217294 (JP, A) JP-A-2-234198 (JP, A) JP-A-2-247696 (JP, A) JP-A-3-89300 (JP) JP-A-4-20998 (JP, A) JP-A-7-134597 (JP, A) JP-A-7-319495 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB G10L 13/00-13/08 G06F 3 / 16,17 / 21

Claims (27)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 単語,文節または文から成る文字列情
報,前記文字列情報の文字に対応した音韻から成る音韻
列情報,前記音韻列情報中の各音韻の継続時間長,前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の各音韻の音量を指定
するベロシティ情報から構成される喋り方データを,前
記喋り方データの文字列情報に基づいて,前記文字列情
報が同一であってその読みが異なる喋り方データをグル
ープ化してグループ毎に記憶した喋り方データ記憶手段
と, 単語,文節または文を構成する文字列を入力するための
文字列入力手段と, 前記文字列入力手段を介して入力された文字列を用い
て,前記文字列と同一の文字列情報を有するグループを
前記喋り方データ記憶手段から検索する検索手段と, 合成する音声に声色を付加するための声色データを複数
記憶した声色データ記憶手段と, 前記検索手段で検索したグループ中の喋り方データを順
次読み出して,前記読み出した喋り方データの音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報と前
記声色データ記憶手段に記憶されている声色データの一
つとを用いて音声を合成する音声合成手段と, 前記音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と, 前記音声選択手段を用いて選択された音声に対応する喋
り方データを前記文字列入力手段を介して入力された文
字列と対応させて発話文書として記憶する発話文書記憶
手段と, を備えたことを特徴とする発話文書作成装置。
1. Character string information composed of a word, a phrase or a sentence, phoneme string information composed of phonemes corresponding to characters of the character string information, duration time of each phoneme in the phoneme string information, Based on the character string information of the speaking data, speech data composed of pitch information designating a relative pitch at an arbitrary point in time and velocity information designating a volume of each phoneme of the phoneme sequence information is obtained. Speaking data storage means for grouping speaking data having the same character string information and different readings and storing the data for each group, and character string input for inputting a character string constituting a word, a phrase or a sentence Means for searching a group having the same character string information as the character string from the speaking data storage means using the character string input via the character string input means; Voice data storage means for storing a plurality of voice data for adding voice to the voice to be synthesized; and sequentially reading the speaking data in the group searched by the searching means, phonemic sequence information of the read talking data, Voice synthesis means for synthesizing voice using the duration time, pitch information and velocity information and one of the voice data stored in the voice data storage means; and a desired voice from the voice synthesized by the voice synthesis means. A voice selecting means for selecting a voice, and speaking style data corresponding to the voice selected using the voice selecting means are stored as an utterance document in association with a character string input via the character string input means. An utterance document creation device, comprising: utterance document storage means.
【請求項2】 単語,文節または文から成る文字列情
報,前記文字列情報の文字に対応した音韻から成る音韻
列情報,前記音韻列情報中の各音韻の継続時間長,前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の任意の時点での相対
的な音量を指定するベロシティ情報から構成される喋り
方データを,前記喋り方データの文字列情報に基づい
て,前記文字列情報が同一であってその読みが異なる喋
り方データをグループ化してグループ毎に記憶した喋り
方データ記憶手段と, 単語,文節または文を構成する文字列を入力するための
文字列入力手段と, 前記文字列入力手段を介して入力された文字列を用い
て,前記文字列と同一の文字列情報を有するグループを
前記喋り方データ記憶手段から検索する検索手段と, 合成する音声に声色を付加するための声色データを複数
記憶した声色データ記憶手段と, 前記検索手段で検索したグループ中の喋り方データを順
次読み出して,前記読み出した喋り方データの音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報と前
記声色データ記憶手段に記憶されている声色データの一
つとを用いて音声を合成する音声合成手段と, 前記音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と, 前記音声選択手段を用いて選択された音声に対応する喋
り方データを前記文字列入力手段を介して入力された文
字列と対応させて発話文書として記憶する発話文書記憶
手段と, を備えたことを特徴とする発話文書作成装置。
2. A phoneme string information comprising a word, a phrase or a sentence, a phoneme string information comprising a phoneme corresponding to a character of the character string information, a duration time of each phoneme in the phoneme string information, A speech string composed of pitch information specifying a relative pitch at an arbitrary point in time and velocity information specifying a relative volume of the phoneme string information at an arbitrary point in time, Based on the information, the speaking style data storage means for grouping speaking style data having the same character string information and different readings and storing the data for each group, and a character string constituting a word, a phrase or a sentence are input. Character string input means for searching for a group having the same character string information as the character string from the speaking data storage means using the character string input through the character string input means. Searching means; voice data storing means for storing a plurality of voice data for adding voice to the voice to be synthesized; and sequentially reading the talking data in the group searched by the searching means. Voice synthesis means for synthesizing voice using phoneme string information, duration time, pitch information and velocity information and one of the voice data stored in the voice data storage means, and voice synthesized by the voice synthesis means A voice selecting means for selecting a desired voice from the user; and speaking the speech data corresponding to the voice selected using the voice selecting means in correspondence with the character string input through the character string input means. An utterance document creation device, comprising: utterance document storage means for storing as a document.
【請求項3】 さらに,前記発話文書記憶手段に記憶さ
れている発話文書の再生を指定する再生指定手段を備
え,前記発話文書の再生が指定されると,前記音声合成
手段が,前記発話文書中の喋り方データを順次読み出し
て,音声を合成することを特徴とする請求項1または2
記載の発話文書作成装置。
3. A reproduction designating means for designating reproduction of an utterance document stored in the utterance document storage means, and when reproduction of the utterance document is designated, the speech synthesis means causes the utterance document to be reproduced. 3. The method according to claim 1, wherein the speech data is read out sequentially to synthesize speech.
The described utterance document creation device.
【請求項4】 前記再生指定手段は,前記発話文書を再
生する範囲として,前記発話文書中の任意の文字列単
位,文章単位,ページ単位または発話文書全体の指定が
可能であることを特徴とする請求項3記載の発話文書作
成装置。
4. The reproduction specifying means is capable of specifying an arbitrary character string unit, a text unit, a page unit, or the entire utterance document in the utterance document as a range in which the utterance document is reproduced. The utterance document creation device according to claim 3.
【請求項5】 単語,文節または文から成る文字列情
報,前記文字列情報の文字に対応した音韻から成る音韻
列情報,前記音韻列情報中の各音韻の継続時間長,前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の各音韻の音量を指定
するベロシティ情報から構成される喋り方データを,前
記喋り方データの文字列情報に基づいて,前記文字列情
報が同一であってその読みが異なる喋り方データをグル
ープ化してグループ毎に記憶した喋り方データ記憶手段
と, 単語,文節または文を構成する文字列を入力するための
文字列入力手段と, 前記文字列入力手段を介して入力された文字列を用い
て,前記文字列と同一の文字列情報を有するグループを
前記喋り方データ記憶手段から検索する検索手段と, 合成する音声に声色を付加するための声色データを複数
記憶した声色データ記憶手段と, 前記声色データ記憶手段に記憶されている声色データの
一つを指定するための声色データ指定手段と, 前記検索手段で検索したグループ中の喋り方データを順
次読み出して,前記読み出した喋り方データの音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報と前
記声色データ指定手段で指定された声色データとを用い
て音声を合成する音声合成手段と, 前記音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と, 前記音声選択手段を用いて選択された音声に対応する喋
り方データおよび声色データを前記文字列入力手段を介
して入力された文字列と対応させて発話文書として記憶
する発話文書記憶手段と, を備えたことを特徴とする発話文書作成装置。
5. Character string information composed of a word, a phrase or a sentence, phoneme string information composed of phonemes corresponding to characters of the character string information, duration time of each phoneme in the phoneme string information, Based on the character string information of the speaking data, speech data composed of pitch information designating a relative pitch at an arbitrary point in time and velocity information designating a volume of each phoneme of the phoneme sequence information is obtained. Speaking data storage means for grouping speaking data having the same character string information and different readings and storing the data for each group, and character string input for inputting a character string constituting a word, a phrase or a sentence Means for searching a group having the same character string information as the character string from the speaking data storage means using the character string input via the character string input means; Voice data storing means for storing a plurality of voice data for adding voice to a voice to be synthesized; voice data specifying means for specifying one of voice data stored in the voice data storing means; Means for sequentially reading the speech data in the group searched by the means, and using the phoneme sequence information, duration time, pitch information and velocity information of the read speech data and the voice data specified by the voice data specifying means. Voice synthesis means for synthesizing voice by using the voice synthesis means, voice selection means for selecting a desired voice from the voice synthesized by the voice synthesis means, and speaking style data corresponding to the voice selected using the voice selection means And an utterance document storage means for storing voice data as an utterance document in association with a character string input via the character string input means. Spoken document creating apparatus characterized by.
【請求項6】 単語,文節または文から成る文字列情
報,前記文字列情報の文字に対応した音韻から成る音韻
列情報,前記音韻列情報中の各音韻の継続時間長,前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の任意の時点での相対
的な音量を指定するベロシティ情報から構成される喋り
方データを,前記喋り方データの文字列情報に基づい
て,前記文字列情報が同一であってその読みが異なる喋
り方データをグループ化してグループ毎に記憶した喋り
方データ記憶手段と, 単語,文節または文を構成する文字列を入力するための
文字列入力手段と, 前記文字列入力手段を介して入力された文字列を用い
て,前記文字列と同一の文字列情報を有するグループを
前記喋り方データ記憶手段から検索する検索手段と, 合成する音声に声色を付加するための声色データを複数
記憶した声色データ記憶手段と, 前記声色データ記憶手段に記憶されている声色データの
一つを指定するための声色データ指定手段と, 前記検索手段で検索したグループ中の喋り方データを順
次読み出して,前記読み出した喋り方データの音韻列情
報,継続時間長,ピッチ情報およびベロシティ情報と前
記声色データ指定手段で指定された声色データとを用い
て音声を合成する音声合成手段と, 前記音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と, 前記音声選択手段を用いて選択された音声に対応する喋
り方データおよび声色データを前記文字列入力手段を介
して入力された文字列と対応させて発話文書として記憶
する発話文書記憶手段と, を備えたことを特徴とする発話文書作成装置。
6. Character string information composed of a word, a phrase or a sentence, phoneme string information composed of phonemes corresponding to the characters of the character string information, duration time of each phoneme in the phoneme string information, A speech string composed of pitch information specifying a relative pitch at an arbitrary point in time and velocity information specifying a relative volume of the phoneme string information at an arbitrary point in time, Based on the information, the speaking style data storage means for grouping speaking style data having the same character string information and different readings and storing the data for each group, and a character string constituting a word, a phrase or a sentence are input. Character string input means for searching for a group having the same character string information as the character string from the speaking data storage means using the character string input through the character string input means. Searching means; voice data storing means for storing a plurality of voice data for adding voice to voice to be synthesized; voice data specifying means for specifying one of voice data stored in the voice data storing means And sequentially reading out the speaking style data in the group searched by the searching means, the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speaking style data, and the voice specified by the voice color data specifying means. Voice synthesizing means for synthesizing voice using data, voice selecting means for selecting a desired voice from voice synthesized by the voice synthesizing means, and corresponding to voice selected using the voice selecting means. An utterance document storage device that stores speech data and voice data to be spoken in association with a character string input via the character string input means as an utterance document. An utterance document creation device, comprising: a step;
【請求項7】 さらに,前記喋り方データを作成して前
記喋り方データ記憶手段に登録する喋り方データ作成・
登録手段を備えたことを特徴とする請求項5または6記
載の発話文書作成装置。
7. A method for creating speaking data, which creates the speaking data and registers the data in the speaking data storage means.
7. The utterance document creation device according to claim 5, further comprising registration means.
【請求項8】 前記喋り方データ作成・登録手段は,あ
らかじめ収録した音声波形データまたはユーザが発話し
た肉声を入力して,音声波形データを表示する音声波形
データ入力手段と,ユーザによる入力または前記音声波
形データを音韻分析して,各音韻の継続時間長を設定し
て表示する継続時間長設定手段と,前記設定された継続
時間長に対応する音韻列情報を付加する音韻列情報付加
手段と,前記音声波形データをピッチ分析してピッチ曲
線を表示するピッチ曲線表示手段と,前記表示されたピ
ッチ曲線および音韻列情報とに基づいて,前記音韻列情
報の任意の時点での相対的なピッチの値を調整または追
加してピッチ情報を生成するピッチ情報生成手段と,前
記音韻列情報の各音韻の音量を調整してベロシティ情報
を生成するベロシティ情報生成手段と,前記音声波形デ
ータに対応する文字列を入力して文字列情報を設定する
文字列情報設定手段と,前記文字列情報に基づいて前記
喋り方データ記憶手段中の該当するグループに,前記文
字列情報,音韻列情報,継続時間長,ピッチ情報および
ベロシティ情報を喋り方データとして登録する登録手段
と,を備えたことを特徴とする請求項7記載の発話文書
作成装置。
8. The speech style data creation / registration means, which inputs speech waveform data recorded in advance or a real voice uttered by a user and displays speech waveform data, and speech data input means for displaying speech waveform data; Phoneme analysis of the speech waveform data, setting and displaying the duration of each phoneme, and phoneme sequence information adding means for adding phoneme sequence information corresponding to the set duration. Pitch curve display means for analyzing the pitch of the speech waveform data to display a pitch curve, and a relative pitch of the phoneme string information at an arbitrary point in time based on the displayed pitch curve and phoneme string information. Pitch information generating means for generating pitch information by adjusting or adding the value of pitch information; and velocity information for generating velocity information by adjusting the volume of each phoneme in the phoneme sequence information. Character information generating means, character string information setting means for setting character string information by inputting a character string corresponding to the voice waveform data, and a corresponding group in the speaking style data storage means based on the character string information. 8. The utterance document creating apparatus according to claim 7, further comprising a registration unit for registering the character string information, phoneme string information, duration time, pitch information, and velocity information as speaking style data.
【請求項9】 さらに,前記発話文書記憶手段に記憶さ
れている発話文書の再生を指定する再生指定手段を備
え,前記発話文書の再生が指定されると,前記音声合成
手段が,前記発話文書中の喋り方データおよび声色デー
タを順次読み出して,音声を合成することを特徴とする
請求項5〜8記載のいずれか一つの発話文書作成装置。
9. A method according to claim 1, further comprising a reproduction designating means for designating reproduction of the utterance document stored in said utterance document storage means. 9. The utterance document creation apparatus according to claim 5, wherein the speech data and the timbre data in the speech data are sequentially read out to synthesize a speech.
【請求項10】 前記再生指定手段は,前記発話文書を
再生する範囲として,前記発話文書中の任意の文字列単
位,文章単位,ページ単位または発話文書全体の指定が
可能であることを特徴とする請求項9記載の発話文書作
成装置。
10. The reproduction specifying means is capable of specifying an arbitrary character string unit, a sentence unit, a page unit, or the entire utterance document in the utterance document as a range in which the utterance document is reproduced. The utterance document creation device according to claim 9.
【請求項11】 さらに,前記文字列入力手段を用い
て,前記発話文書記憶手段に記憶されている発話文書を
表示し,前記表示した発話文書の任意の文字列を指定
し,前記指定した文字列の変更または再入力が可能であ
り, 前記変更または再入力された文字列を用いて,前記検索
手段による検索,前記声色データ指定手段による声色デ
ータの指定,前記音声合成手段による音声の合成および
前記音声選択手段による音声の選択を行うことにより,
前記指定した文字列に対応する喋り方データおよび声色
データの変更が可能であることを特徴とする請求項5〜
10記載のいずれか一つの発話文書作成装置。
11. An utterance document stored in the utterance document storage means is displayed by using the character string input means, and an arbitrary character string of the displayed utterance document is designated. A column can be changed or re-input. Using the changed or re-input character string, a search by the search means, a specification of voice data by the voice data specification means, a synthesis of voice by the voice synthesis means, By selecting a voice by the voice selecting means,
The speech style data and the timbre data corresponding to the specified character string can be changed.
10. The utterance document creation device according to claim 10.
【請求項12】 前記複数の声色データは,男性の声,
女性の声,子供の声,老人の声,掠れた声,明瞭な声,
太い声,細い声,力強い声,やさしい声,機械的な声の
ように,それぞれ感覚的に識別可能な声色データである
ことを特徴とする請求項1,2,5または6記載の発話
文書作成装置。
12. The plurality of timbre data is a male voice,
Women's voice, children's voice, old man's voice, sharpened voice, clear voice,
7. The utterance document creation according to claim 1, wherein the utterance data is sensibly identifiable voice data such as a thick voice, a thin voice, a powerful voice, a gentle voice, and a mechanical voice. apparatus.
【請求項13】 前記文字列入力手段が,仮名漢字変換
機能を有し,前記文字例入力手段で入力した文字列が,
前記仮名漢字変換機能を用いて変換した後の漢字仮名交
じりのテキストであることを特徴とする請求項1,2,
5または6記載の発話文書作成装置。
13. The character string input means has a kana-kanji conversion function, and the character string input by the character example input means is
4. A text with kanji and kana mixed after being converted using the kana-kanji conversion function.
An utterance document creation device according to 5 or 6.
【請求項14】 さらに,前記喋り方データの分類タイ
プを指定する分類タイプ指定手段を備え, 前記喋り方データが,前記文字列情報,音韻列情報,継
続時間長,ピッチ情報およびベロシティ情報に加えて,
それぞれの喋り方データの分類タイプを示すタイプ情報
を有し, 前記分類タイプ指定手段を介して分類タイプが指定され
ると,前記検索手段が,前記文字列入力手段を介して入
力された文字列および前記分類タイプ指定手段を介して
指定された分類タイプを用いて,前記文字列と同一の文
字列情報を有するグループで,かつ,前記指定された分
類タイプと同一のタイプ情報を有する喋り方データを前
記喋り方データ記憶手段から検索し, 前記音声合成手段が,前記検索手段で検索した喋り方デ
ータを読み出して,前記読み出した喋り方データの音韻
列情報,継続時間長,ピッチ情報およびベロシティ情報
と前記声色データ指定手段で指定された声色データとを
用いて音声を合成することを特徴とする請求項5または
6記載の発話文書作成装置。
14. A classification type designating means for designating a classification type of the speaking style data, wherein the speaking style data is added to the character string information, phoneme string information, duration time, pitch information and velocity information. hand,
When the classification type is specified via the classification type specifying means, the search means includes a character string input via the character string input means. And using the classification type specified through the classification type specifying means, a group having the same character string information as the character string, and speaking style data having the same type information as the specified classification type From the speaking data storage means, and the speech synthesizing means reads the speaking data retrieved by the searching means, and obtains phoneme string information, duration time, pitch information and velocity information of the read speaking data. 7. An utterance document creating apparatus according to claim 5, wherein a voice is synthesized using the voice data specified by the voice data specifying means. .
【請求項15】 前記分類タイプとは,それぞれの喋り
方データに対応する音声を,東京型発音タイプ,大阪型
発音タイプ,徳島型発音タイプ等のように地域によって
分類したものであることを特徴とする請求項14記載の
発話文書作成装置。
15. The classification type is characterized in that voices corresponding to respective manners of speech data are classified according to region, such as Tokyo-type pronunciation type, Osaka-type pronunciation type, and Tokushima-type pronunciation type. The utterance document creation device according to claim 14, wherein:
【請求項16】 前記分類タイプとは,それぞれの喋り
方データに対応する音声を,老人型発音タイプ,若者型
発音タイプ,高校生型発音タイプ等のように年齢によっ
て分類したものであることを特徴とする請求項14記載
の発話文書作成装置。
16. The classification type is characterized in that voices corresponding to respective manners of speech data are classified according to age, such as an elderly-type pronunciation type, a youth-type pronunciation type, and a high-school-type pronunciation type. The utterance document creation device according to claim 14, wherein:
【請求項17】 前記文字列入力手段が,表示部を有し
ており,かつ,前記発話文書の各文字列毎に指定されて
いる声色データに基づいて,表示する文字列のフォント
や,装飾方法を変えて前記表示部に表示することを特徴
とする請求項5〜16記載のいずれか一つの発話文書作
成装置。
17. The character string input means has a display unit and, based on voice data specified for each character string of the utterance document, a font of a character string to be displayed or a decoration. 17. The utterance document creating apparatus according to claim 5, wherein the utterance document is displayed on the display unit by changing a method.
【請求項18】 単語,文節または文を構成する文字列
を入力する第1の工程と, 単語,文節または文から成る文字列情報,前記文字列情
報の文字に対応した音韻から成る音韻列情報,前記音韻
列情報中の各音韻の継続時間長,前記音韻列情報の任意
の時点での相対的なピッチを指定するピッチ情報および
前記音韻列情報の各音韻の音量を指定するベロシティ情
報から構成される喋り方データを,前記喋り方データの
文字列情報に基づいて,前記文字列情報が同一であって
その読みが異なる喋り方データをグループ化してグルー
プ毎に記憶したデータベースを参照して,前記第1の工
程で入力された文字列と同一の文字列情報を有するグル
ープを検索する第2の工程と, 合成する音声に声色を付加するため声色データを指定す
る第3の工程と, 前記第2の工程で検索したグループ中の喋り方データを
順次読み出して,前記読み出した喋り方データの音韻列
情報,継続時間長,ピッチ情報およびベロシティ情報
と,前記第3の工程で指定された声色データとを用い
て,音声を合成する第4の工程と, 前記第4の工程で合成された音声から所望の音声を選択
する第5の工程と, 前記第5の工程で選択した音声に対応する喋り方データ
を前記1の工程で入力した文字列と対応させて発話文書
として記憶する第6の工程と, を含むことを特徴とする発話文書作成方法。
18. A first step of inputting a character string constituting a word, a phrase or a sentence, character string information comprising a word, a phrase or a sentence, and phoneme sequence information comprising a phoneme corresponding to a character of the character string information. , The duration of each phoneme in the phoneme string information, pitch information specifying the relative pitch of the phoneme string information at any point in time, and velocity information specifying the volume of each phoneme in the phoneme string information. Based on the character string information of the speaking data, the speaking data to be spoken are referred to a database in which the speaking data having the same character string information and different readings are grouped and stored for each group, A second step of searching for a group having the same character string information as the character string input in the first step, and a third step of specifying voice data to add voice to the synthesized voice. The speech style data in the group searched in the second step is sequentially read, and the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speech style data and the speech information specified in the third step are read. A fourth step of synthesizing the voice using the timbre data; a fifth step of selecting a desired voice from the voice synthesized in the fourth step; and a step of synthesizing the voice selected in the fifth step. And a sixth step of storing the corresponding way of speaking data as the utterance document in association with the character string input in the first step.
【請求項19】 単語,文節または文を構成する文字列
を入力する第1の工程と, 単語,文節または文から成る文字列情報,前記文字列情
報の文字に対応した音韻から成る音韻列情報,前記音韻
列情報中の各音韻の継続時間長,前記音韻列情報の任意
の時点での相対的なピッチを指定するピッチ情報および
前記音韻列情報の任意の時点での相対的な音量を指定す
るベロシティ情報から構成される喋り方データを,前記
喋り方データの文字列情報に基づいて,前記文字列情報
が同一であってその読みが異なる喋り方データをグルー
プ化してグループ毎に記憶したデータベースを参照し
て,前記第1の工程で入力された文字列と同一の文字列
情報を有するグループを検索する第2の工程と, 合成する音声に声色を付加するため声色データを指定す
る第3の工程と, 前記第2の工程で検索したグループ中の喋り方データを
順次読み出して,前記読み出した喋り方データの音韻列
情報,継続時間長,ピッチ情報およびベロシティ情報
と,前記第3の工程で指定された声色データとを用い
て,音声を合成する第4の工程と, 前記第4の工程で合成された音声から所望の音声を選択
する第5の工程と, 前記第5の工程で選択した音声に対応する喋り方データ
を前記1の工程で入力した文字列と対応させて発話文書
として記憶する第6の工程と, を含むことを特徴とする発話文書作成方法。
19. A first step of inputting a character string constituting a word, a phrase or a sentence, character string information comprising a word, a phrase or a sentence, and phoneme sequence information comprising a phoneme corresponding to a character of the character string information. , The duration of each phoneme in the phoneme string information, the pitch information specifying the relative pitch of the phoneme string information at any time, and the relative volume of the phoneme string information at any time. A database in which speaking style data composed of velocity information to be read is grouped based on character string information of the speaking style data, and speaking style data having the same character string information and different readings are grouped and stored for each group. , A second step of searching for a group having the same character string information as the character string input in the first step, and specifying voice data to add a voice to the synthesized voice. A third step, sequentially reading the speaking style data in the group searched in the second step, and reading phonemic sequence information, duration time, pitch information and velocity information of the read speaking style data; A fourth step of synthesizing a voice using the voice color data specified in the step, a fifth step of selecting a desired voice from the voice synthesized in the fourth step, and a fifth step of And a sixth step of storing the way of speaking data corresponding to the voice selected in the step as the utterance document in association with the character string input in the first step.
【請求項20】 さらに,前記第6の工程で記憶した発
話文書の再生を指定する第7の工程と, 前記第7の工程で前記発話文書の再生が指定されると,
前記発話文書中の喋り方データおよび声色データを順次
読み出して,音声を合成する第8の工程と, を含むことを特徴とする請求項18または19記載の発
話文書作成方法。
20. A seventh step of designating the reproduction of the utterance document stored in the sixth step, and the reproduction of the utterance document is designated in the seventh step.
20. An utterance document creation method according to claim 18 or 19, further comprising: an eighth step of sequentially reading speech style data and voice color data in the utterance document and synthesizing a voice.
【請求項21】 前記第7の工程において,前記発話文
書を再生する範囲として,前記発話文書中の任意の文字
列単位,文章単位,ページ単位または発話文書全体の指
定が可能であることを特徴とする請求項20記載の発話
文書作成方法。
21. In the seventh step, an arbitrary character string unit, a sentence unit, a page unit, or the entire utterance document in the utterance document can be specified as a range in which the utterance document is reproduced. 21. The method according to claim 20, wherein:
【請求項22】 さらに,前記第6の工程で記憶した発
話文書を表示し,前記表示した発話文書の任意の文字列
を指定し,前記指定した文字列の変更または再入力を行
う第9の工程とを含み, 前記第9の工程で変更または再入力された文字列を用い
て,再度,前記第2の工程,第3の工程,第4の工程,
第5の工程および第6の工程を実行することにより,前
記発話文書の変更が可能であることを特徴とする請求項
18〜21記載のいずれか一つの発話文書作成方法。
22. A ninth step of displaying the utterance document stored in the sixth step, specifying an arbitrary character string of the displayed utterance document, and changing or re-inputting the specified character string. Using the character string changed or re-input in the ninth step, again using the second step, the third step, the fourth step,
22. The method according to any one of claims 18 to 21, wherein the utterance document can be changed by executing the fifth step and the sixth step.
【請求項23】 単語,文節または文を構成する文字列
を入力する第1の手順と, 単語,文節または文から成る文字列情報,前記文字列情
報の文字に対応した音韻から成る音韻列情報,前記音韻
列情報中の各音韻の継続時間長,前記音韻列情報の任意
の時点での相対的なピッチを指定するピッチ情報および
前記音韻列情報の各音韻の音量を指定するベロシティ情
報から構成される喋り方データを,前記喋り方データの
文字列情報に基づいて,前記文字列情報が同一であって
その読みが異なる喋り方データをグループ化してグルー
プ毎に記憶したデータベースを参照して,前記第1の手
順で入力された文字列と同一の文字列情報を有するグル
ープを検索する第2の手順と, 合成する音声に声色を付加するため声色データを指定す
る第3の手順と, 前記第2の手順で検索したグループ中の喋り方データを
順次読み出して,前記読み出した喋り方データの音韻列
情報,継続時間長,ピッチ情報およびベロシティ情報
と,前記第3の手順で指定された声色データとを用い
て,音声を合成する第4の手順と, 前記第4の手順で合成された音声から所望の音声を選択
する第5の手順と, 前記第5の手順で選択した音声に対応する喋り方データ
を前記1の手順で入力した文字列と対応させて発話文書
として記憶する第6の手順と, をコンピュータに実行させるプログラムを格納したこと
を特徴とするコンピュータ読み取り可能な記録媒体。
23. A first procedure for inputting a character string constituting a word, a phrase or a sentence, character string information comprising a word, a phrase or a sentence, and phoneme sequence information comprising a phoneme corresponding to a character of the character string information. , The duration of each phoneme in the phoneme string information, pitch information specifying the relative pitch of the phoneme string information at any point in time, and velocity information specifying the volume of each phoneme in the phoneme string information. Based on the character string information of the speaking data, the speaking data to be spoken are referred to a database in which the speaking data having the same character string information and different readings are grouped and stored for each group, A second procedure for searching for a group having the same character string information as the character string input in the first procedure, a third procedure for specifying voice data for adding voice to the synthesized voice, The speech style data in the group searched in the second procedure is sequentially read out, and the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speech style data and the speech information designated in the third procedure are read out. A fourth procedure of synthesizing a voice using the voice color data, a fifth procedure of selecting a desired voice from the voice synthesized in the fourth procedure, and a voice selected in the fifth procedure. A computer-readable recording medium storing a program for causing a computer to execute a sixth procedure of storing the corresponding manner of speaking data as an utterance document in association with the character string input in the first procedure; .
【請求項24】 単語,文節または文を構成する文字列
を入力する第1の手順と, 単語,文節または文から成る文字列情報,前記文字列情
報の文字に対応した音韻から成る音韻列情報,前記音韻
列情報中の各音韻の継続時間長,前記音韻列情報の任意
の時点での相対的なピッチを指定するピッチ情報および
前記音韻列情報任意の時点での相対的な音量を指定する
ベロシティ情報から構成される喋り方データを,前記喋
り方データの文字列情報に基づいて,前記文字列情報が
同一であってその読みが異なる喋り方データをグループ
化してグループ毎に記憶したデータベースを参照して,
前記第1の手順で入力された文字列と同一の文字列情報
を有するグループを検索する第2の手順と, 合成する音声に声色を付加するため声色データを指定す
る第3の手順と, 前記第2の手順で検索したグループ中の喋り方データを
順次読み出して,前記読み出した喋り方データの音韻列
情報,継続時間長,ピッチ情報およびベロシティ情報
と,前記第3の手順で指定された声色データとを用い
て,音声を合成する第4の手順と, 前記第4の手順で合成された音声から所望の音声を選択
する第5の手順と, 前記第5の手順で選択した音声に対応する喋り方データ
を前記1の手順で入力した文字列と対応させて発話文書
として記憶する第6の手順と, をコンピュータに実行させるプログラムを格納したこと
を特徴とするコンピュータ読み取り可能な記録媒体。
24. A first procedure for inputting a character string constituting a word, a phrase or a sentence, character string information comprising a word, a phrase or a sentence, and phoneme string information comprising a phoneme corresponding to a character of the character string information. , The duration of each phoneme in the phoneme string information, the pitch information specifying the relative pitch of the phoneme string information at any time, and the relative volume at any time of the phoneme string information. A database in which speaking style data composed of velocity information is grouped based on character string information of the speaking style data and speaking style data having the same character string information but different readings is grouped and stored for each group. In reference to,
A second procedure of searching for a group having the same character string information as the character string input in the first procedure, a third procedure of specifying voice data for adding voice to a synthesized voice, The speech style data in the group searched in the second procedure is sequentially read, and the phoneme sequence information, the duration time, the pitch information and the velocity information of the read speech style data, and the voice specified in the third procedure are read out. A fourth procedure for synthesizing the voice using the data, a fifth procedure for selecting a desired voice from the voice synthesized in the fourth procedure, and a voice corresponding to the voice selected in the fifth procedure. A sixth step of storing as a speech document the speech style data to be associated with the character string input in the first step, and a program for causing a computer to execute Capacity recording medium.
【請求項25】 さらに,前記第6の手順で記憶した発
話文書の再生を指定する第7の手順と, 前記第7の手順で前記発話文書の再生が指定されると,
前記発話文書中の喋り方データおよび声色データを順次
読み出して,音声を合成する第8の手順と, をコンピュータに実行させるプログラムを格納したこと
を特徴とする請求項23または24記載のコンピュータ
読み取り可能な記録媒体。
25. A seventh procedure for designating the reproduction of the utterance document stored in the sixth procedure, and when the reproduction of the utterance document is designated in the seventh procedure,
25. A computer readable program according to claim 23 or 24, wherein a program for causing a computer to execute an eighth procedure of sequentially reading out the speaking style data and the timbre data in the utterance document and synthesizing a voice is stored. Recording medium.
【請求項26】 前記第7の手順において,前記発話文
書を再生する範囲として,前記発話文書中の任意の文字
列単位,文章単位,ページ単位または発話文書全体の指
定が可能であることを特徴とする請求項25記載のコン
ピュータ読み取り可能な記録媒体。
26. The method according to claim 7, wherein in the seventh procedure, an arbitrary character string unit, a sentence unit, a page unit, or the entire utterance document in the utterance document can be designated as a reproduction range of the utterance document. 26. The computer-readable recording medium according to claim 25, wherein:
【請求項27】 さらに,前記第6の手順で記憶した発
話文書を表示し,前記表示した発話文書の任意の文字列
を指定し,前記指定した文字列の変更または再入力を行
う第9の手順とを含み, 前記第9の手順で変更または再入力された文字列を用い
て,再度,前記第2の手順,第3の手順,第4の手順,
第5の手順および第6の手順を実行することにより,前
記発話文書の変更が可能であることを特徴とする請求項
23〜26記載のいずれか一つのコンピュータ読み取り
可能な記録媒体。
27. A ninth step of displaying the utterance document stored in the sixth step, specifying an arbitrary character string of the displayed utterance document, and changing or re-inputting the specified character string. Using the character string changed or re-input in the ninth procedure, again using the second procedure, the third procedure, the fourth procedure,
27. The computer-readable recording medium according to claim 23, wherein the utterance document can be changed by executing a fifth procedure and a sixth procedure.
JP08312497A 1996-12-04 1997-04-01 Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure Expired - Fee Related JP3270356B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08312497A JP3270356B2 (en) 1996-12-04 1997-04-01 Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-324459 1996-12-04
JP32445996 1996-12-04
JP08312497A JP3270356B2 (en) 1996-12-04 1997-04-01 Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure

Publications (2)

Publication Number Publication Date
JPH10222187A JPH10222187A (en) 1998-08-21
JP3270356B2 true JP3270356B2 (en) 2002-04-02

Family

ID=26424189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08312497A Expired - Fee Related JP3270356B2 (en) 1996-12-04 1997-04-01 Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure

Country Status (1)

Country Link
JP (1) JP3270356B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282281A (en) * 2000-03-28 2001-10-12 Toshiba Corp Storage medium, distributing method, and voice output device
JP5361104B2 (en) * 2000-09-05 2013-12-04 アルカテル−ルーセント ユーエスエー インコーポレーテッド Method and apparatus for text-to-speech processing using non-language dependent prosodic markup
JP3534712B2 (en) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 Audio editing device and audio editing program
JP3534711B2 (en) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 Audio editing device and audio editing program
JP5019807B2 (en) * 2006-07-07 2012-09-05 シャープ株式会社 Speech synthesis apparatus, speech synthesis method, and program for realizing speech synthesis method
JP4648878B2 (en) * 2006-07-10 2011-03-09 日本電信電話株式会社 Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
JPWO2015162737A1 (en) 2014-04-23 2017-04-13 株式会社東芝 Transliteration work support device, transliteration work support method, and program
US10853747B2 (en) 2016-10-03 2020-12-01 Google Llc Selection of computational agent for task performance
US10311856B2 (en) 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
EP3504705B1 (en) * 2016-10-03 2022-09-21 Google LLC Multi computational agent performance of tasks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2580565B2 (en) * 1986-03-18 1997-02-12 富士通株式会社 Voice information dictionary creation device
JP2938466B2 (en) * 1989-03-07 1999-08-23 株式会社リコー Text-to-speech synthesis system
JP2892031B2 (en) * 1989-03-20 1999-05-17 株式会社リコー Text-to-speech synthesizer
JPH0389300A (en) * 1989-08-31 1991-04-15 Ricoh Co Ltd Rhythm control system
JP3071804B2 (en) * 1990-05-16 2000-07-31 株式会社リコー Speech synthesizer
JPH07134597A (en) * 1993-09-14 1995-05-23 Toshiba Corp Device for reading out sentence with read learning function and method of reading out sentence
JPH07319495A (en) * 1994-05-26 1995-12-08 N T T Data Tsushin Kk Synthesis unit data generating system and method for voice synthesis device

Also Published As

Publication number Publication date
JPH10222187A (en) 1998-08-21

Similar Documents

Publication Publication Date Title
US5875427A (en) Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
WO2004066271A1 (en) Speech synthesizing apparatus, speech synthesizing method, and speech synthesizing system
JP2007148039A (en) Speech translation device and speech translation method
JP3270356B2 (en) Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
TWI605350B (en) Text-to-speech method and multiplingual speech synthesizer using the method
JP5343293B2 (en) Speech editing / synthesizing apparatus and speech editing / synthesizing method
JP4409279B2 (en) Speech synthesis apparatus and speech synthesis program
JPH08335096A (en) Text voice synthesizer
JPH10171485A (en) Voice synthesizer
JP3060276B2 (en) Speech synthesizer
JP3366253B2 (en) Speech synthesizer
JP3668583B2 (en) Speech synthesis apparatus and method
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Kayte et al. Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi
JP2680643B2 (en) Character display method of rule synthesizer
JP3280729B2 (en) Phonetic symbol creation device
JPH11344996A (en) Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded
JPH08328578A (en) Text voice synthesizer
JPH04177526A (en) Sentence reading-out device
JPH06168265A (en) Language processor and speech synthesizer
JPH02234198A (en) Text voice synthesizing system

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees