JP2008268477A - Rhythm adjustable speech synthesizer - Google Patents
Rhythm adjustable speech synthesizer Download PDFInfo
- Publication number
- JP2008268477A JP2008268477A JP2007110287A JP2007110287A JP2008268477A JP 2008268477 A JP2008268477 A JP 2008268477A JP 2007110287 A JP2007110287 A JP 2007110287A JP 2007110287 A JP2007110287 A JP 2007110287A JP 2008268477 A JP2008268477 A JP 2008268477A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- prosodic
- speech
- prosody
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、テキストから音声を合成するテキスト音声合成技術に関し、特に、基本周波数、継続時間長等の韻律を調整する技術に関する。 The present invention relates to a text-to-speech synthesis technology for synthesizing speech from text, and more particularly to a technology for adjusting prosody such as a fundamental frequency and a duration length.
近年、テキストからの音声合成を行なうシステムでは、より高品位な音声を得るために、自然音声から音声素片(音声波形の断片)を切り出して、その特徴を蓄積した音声コーパスを利用する方法が知られている。音声の特徴には、ピッチを示す基本周波数、各音素の長さを示す音素継続時間長等の韻律パラメータが含まれる。これらを蓄積した音声コーパスから、任意の基準を用いて音声素片を抽出することで、自然な音声が合成される。 In recent years, in a system for synthesizing speech from text, in order to obtain higher-quality speech, there is a method of using a speech corpus in which speech segments (speech waveform fragments) are cut out from natural speech and the features are accumulated. Are known. The features of speech include prosodic parameters such as a fundamental frequency indicating the pitch and a phoneme duration indicating the length of each phoneme. A natural speech is synthesized by extracting speech segments from the speech corpus in which these are stored using an arbitrary criterion.
しかしながら、そのような従来の方法は、ユーザが選択した関連語句を基に、予め設定された韻律パラメータ中から最適と想定されるものを選択し、自動的に修正するものである。従って、関連語句を指定しても、想定している発音に修正されない場合がある。また、共起データ中に該当の関連語句が無い場合も同様である。 However, such a conventional method selects and automatically corrects a prosodic parameter that is assumed to be optimal from preset prosodic parameters based on a related phrase selected by the user. Therefore, even if a related phrase is specified, it may not be corrected to the expected pronunciation. The same applies when there is no relevant word / phrase in the co-occurrence data.
特許文献1には、ユーザが韻律パラメータ、例えば、継続時間長や基本周波数の情報を含んだ中間言語を調整可能な編集手段を備える音声合成装置が提案されている。これは、修正対象とする語句に関連する語句が、その読み、韻律の情報と共に、共起データとして予め記憶されており、UI(User Interface)を用いて、関連する共起データの一覧表示が可能となっている。ユーザがその中から最適な関連語句を選択することで、修正対象とする語句の読み、抑揚が、より自然なものに修正される。
しかしながら、上述したような従来の方法は、ユーザが選択した関連語句を基に、予め設定された韻律パラメータ中から最適と想定されるものを選択し、自動的に修正するものである。従って、関連語句を指定しても、想定している発音に修正されない場合がある。また、共起データ中に該当の関連語句が無い場合も同様である。 However, the conventional method as described above selects and automatically corrects a prosodic parameter that is assumed to be optimal from preset prosodic parameters based on a related phrase selected by the user. Therefore, even if a related phrase is specified, it may not be corrected to the expected pronunciation. The same applies when there is no relevant word / phrase in the co-occurrence data.
本発明では、上記従来技術の問題点を解決するために、韻律パラメータを画面上で視認、操作が可能であり、専門的知識を有しないユーザでも、韻律パラメータの編集操作が簡便に行える、ユーザフレンドリなGUI(Graphical User Interface)を提供することを目的とする。 In the present invention, in order to solve the above-described problems of the prior art, the prosody parameters can be visually recognized and operated on the screen, and the user who has no specialized knowledge can easily perform the prosody parameter editing operation. An object is to provide a friendly GUI (Graphical User Interface).
以上の課題を解決するため、本発明は、前記入力された文字列についての韻律パラメータを、音声コーパスから取得して、前記入力された文字列に前記韻律パラメータを韻律制御単位ごとに対応付け、中間言語を生成する中間言語生成手段と、前記生成した中間言語に含まれる韻律パラメータから、横軸に対応する第一の韻律パラメータと、縦軸に対応する第二の韻律パラメータを定義して構成されるグラフを描出し、前記中間言語の韻律制御単位ごとの座標に、予め記憶された表示シンボルを、グラフ上に配置して、接続される表示装置の画面上に表示させ、韻律パラメータの編集画面を生成する、韻律パラメータ編集画面生成手段と、を備えることを特徴とする、音声合成装置が提供される。 In order to solve the above problems, the present invention acquires a prosodic parameter for the input character string from a speech corpus, and associates the prosodic parameter with the input character string for each prosodic control unit, An intermediate language generating means for generating an intermediate language, and a first prosodic parameter corresponding to the horizontal axis and a second prosodic parameter corresponding to the vertical axis are defined from the prosodic parameters included in the generated intermediate language. Edit the prosodic parameters by displaying a pre-stored display symbol on the graph and displaying it on the screen of the connected display device at the coordinates for each prosodic control unit of the intermediate language. There is provided a speech synthesizer comprising: a prosodic parameter editing screen generating means for generating a screen.
以下、本発明の実施形態について、図面を参照して説明する。
まず、図1〜図3を参照して、本発明の実施形態の概略について説明する。図1は、本発明の請求項1の音声合成装置のハードウェアシステム構成を示すブロック図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
First, an outline of an embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing a hardware system configuration of a speech synthesizer according to
図1に示すように、音声合成装置10は、プログラムが動作する一般的なコンピュータであり、例えば、パーソナルコンピュータや、ワークステーションである。すなわち、音声合成装置10は、コンピュータの主要部であって各装置を集中的に制御するCPU(Central Processing Unit)1と、各種データを書換え可能に記憶する主記憶装置2を備える。
As shown in FIG. 1, the
さらに、音声合成装置10は、各種のプログラム、プログラムの生成するデータ等を格納する外部記憶装置3、各種操作指示を行うためのキーボードやマウスなどの入力装置4、画像データ等を表示する表示装置5、音声データ等を音声として出力する出力装置6を備える。これらの各装置はバスなどの信号線7を介してCPU1と接続される。もちろん、他に、外部の装置と通信を行うための通信装置を備えていてもよい。外部記憶装置3は、例えばHDD(Hard Disk Drive)を備える。
Furthermore, the
CPU1は、例えば、外部記憶装置3上に格納されたプログラムを主記憶装置2上にロードして実行することにより、各種処理を実行する。外部記憶装置3は、HDDのみに限定されず、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構として、CD−ROM、DVD−ROM等のドライブをさらに備えても良い。もちろん、プログラムは、例えば、通信装置を介してネットワークから外部記憶装置3にダウンロードされ、それから、主記憶装置2上にロードされてCPU1により実行されるようにしてもよい。
The
入力装置4は、テキストを入力するためのテキスト入力装置、また、GUI上の目的の動作を示すグラフィクスを操作するためのポインティングデバイスを含む。テキスト入力装置は、文字列が入力できる装置であれば、例えばキーボード、音声認識装置、または、文字列の読み込み装置等であってもよい。ポインティングデバイスは、例えばマウスや、画面に直接接触するようなタッチパネルであっても良い。 The input device 4 includes a text input device for inputting text, and a pointing device for operating graphics indicating a target operation on the GUI. The text input device may be, for example, a keyboard, a voice recognition device, or a character string reading device as long as it can input a character string. The pointing device may be, for example, a mouse or a touch panel that directly contacts the screen.
表示装置5のディスプレイは、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)等から選択される。 The display of the display device 5 is selected from CRT (Cathode Ray Tube), LCD (Liquid Crystal Display), and the like.
出力装置6は、CPUから送られる音声データを音声に変換して出力するものであれば、外部スピーカのような外部出力装置であっても良い。
The
図2は、上記のハードウェアで構成される音声合成装置10の機能構成を示すブロック図である。なお、本実施形態では、音声合成装置10は、基本的なGUI編集機能を備えているものとする。
FIG. 2 is a block diagram showing a functional configuration of the
本図に示すように、音声合成装置10上には、制御部20及び記憶部30が構築される。制御部20は、設定受付部22、韻律パラメータ編集部23、中間言語生成部24、音声合成部25、音声出力部26、及び、編集画面生成部27を備える。また、記憶部30は、辞書データ記憶領域32、音声コーパス記憶領域33、及び、作業データ記憶領域34を備える。
As shown in the figure, a
これらの機能は、例えば、CPU1が補助記憶装置3に予め記憶されている所定のプログラムを主記憶装置2にロードして実行することにより、または、ハードウェアを制御することにより、またはそれらの組合せにより実現される。記憶部30は、データを継続的に保持する場合は外部記憶装置3を、データを一時的に保持する場合は主記憶装置2を用いることにより実現される。
These functions are performed, for example, by the
設定受付部22は、GUI上のユーザによる操作、例えば、テキストデータの入力やカーソル・ポインタの移動などを、入力装置4を介して受け付ける。
The
韻律パラメータ編集部23は、設定受付部22を介して、韻律パラメータ編集に係る操作を受け付ける。そして、韻律パラメータに対応付けられた表示シンボルの位置の変更を検出し、その変位量と変位方向から韻律パラメータの値を算出して、新しい韻律パラメータを中間言語に付与する。
The prosody parameter editing unit 23 receives an operation related to prosody parameter editing via the
中間言語生成部24は、設定受付部22を介して、入力されたテキストデータを受け付ける。そして、受け付けたテキストデータを、辞書データ700等に基づいて、単語に分割し、それらの読み・アクセント情報や、アクセント句の情報を含む形態素解析データを生成して、該入力テキストデータに韻律が類似するデータを、外部記憶装置に格納された音声コーパス400より検索、抽出する。さらに、それに基づいて基準韻律パラメータを算出して中間言語データを生成する処理を行なう。
The intermediate language generation unit 24 receives the input text data via the
音声合成部25は、中間言語生成部24が生成した中間言語データに基づいて、出力音声波形を合成し、合成波形データを生成する。
音声出力部26は、生成された合成波形データを、出力装置6を介して、実際の音声データとして出力する。
The
The audio output unit 26 outputs the generated synthesized waveform data as actual audio data via the
編集画面生成部27は、生成された中間言語に含まれる韻律パラメータ情報をグラフ化し、ユーザが音声合成の作業を行うための画面、例えば、テキスト入力画面や韻律パラメータ編集画面を生成し、表示装置5に表示する。
The edit
辞書データ記憶領域32は、単語の読み、アクセント情報等を記憶する辞書700を、予め格納する。
The dictionary
音声コーパス記憶領域33は、図5に示すように、単語、アクセント句や文節単位の文字列群と、その基本周波数や継続時間長等の韻律パラメータ、音声データ等を対応付けた情報を、予めデータベースとして蓄積する、音声コーパスを格納する。具体的には、例えば、図5に示すように、文字列表記データ410、文字列表記データ410の発声音である音声波形データ420、音声波形データ420の基本周波数データ430、音声波形データ420の継続時間長データ440、文字列表記データ410の形態素分割結果である形態素分割データ450、文字列表記データ410の音素分割結果である音素分割データ460から構成されるデータセット(4100、4200…n)を、複数備えている。なお、構成エレメントの内容は上記に限定されず、パワーデータやケプストラムデータ等を含んでいても良い。
As shown in FIG. 5, the speech corpus storage area 33 stores information in which words, accent phrases, and character string groups in phrase units are associated with prosodic parameters such as fundamental frequency and duration, speech data, and the like in advance. Stores speech corpora stored as a database. Specifically, for example, as shown in FIG. 5, character
作業データ記憶領域34は、入力されたテキストデータや、韻律パラメータ編集部23、中間言語生成部24が生成した中間データなどを一時的に格納するための領域である。具体的には、図3に示すように、テキストデータ610、形態素解析データ620、音素解析データ630、基準韻律パラメータ640、更新韻律パラメータ650、検索結果データ660、中間言語データ670、中間言語更新データ680の各種データを格納する領域である。
The work
次に、上述した機能で構成される音声合成装置の動作を、フロー図を参照しながら説明する。 Next, the operation of the speech synthesizer configured with the above-described functions will be described with reference to a flowchart.
図4は、テキストデータの入力を受け付けてから波形合成を行うまでの処理の流れを示すフロー図である。ここでは、「雨が降る。」というテキストデータを例にとって説明する。 FIG. 4 is a flowchart showing the flow of processing from receiving text data input to performing waveform synthesis. Here, the description will be made taking text data “raining” as an example.
先ず、設定受付部22は、音声合成の対象のテキストデータを受け付ける(S1)。
First, the
具体的には、設定受付部22は、図8に示すテキスト入力画面を表示装置5に表示する。
Specifically, the
ここで、テキスト入力画面(図8)の構成を説明する。テキスト入力画面は、韻律編集ボタン601と、入力テキスト設定欄602を備える。韻律編集ボタン601は、韻律パラメータ編集を開始するためのボタンである。入力テキスト設定欄602は、音声合成の対象となるテキストデータを設定するための欄である。
Here, the configuration of the text input screen (FIG. 8) will be described. The text input screen includes a
上記のテキスト入力画面を表示した後、設定受付部22は、テキスト入力画面上のユーザの操作を、入力装置4を介して受け付ける。入力テキスト設定欄602にテキストデータが入力されると、設定受付部22は、該テキストデータを作業データ記憶領域34上のテキストデータ610に格納する。すなわち、テキストデータ「雨が降る。」が、テキストデータ610に格納される(S1)。
After displaying the text input screen, the
もちろん、テキストデータの受付方法は上記に限られない。例えば、設定受付部22は、上記のテキスト入力画面の前段階に、複数の文で構成される文章のテキストデータの入力を受け付けるGUI画面を表示する。そして、入力された文章のテキストデータを該画面に表示し、ユーザに韻律調整の対象の1文を選択させてから、上記のテキスト入力画面を表示し、選択された1文を表示させる構成とすることができる。
Of course, the method of accepting text data is not limited to the above. For example, the
次に、中間言語生成部24は、入力テキストデータが設定されると、入力テキストより中間言語を生成する(S2)。 Next, when the input text data is set, the intermediate language generation unit 24 generates an intermediate language from the input text (S2).
ここで、中間言語生成処理(S2)について、図6を用いて詳しく説明する。 Here, the intermediate language generation process (S2) will be described in detail with reference to FIG.
中間言語生成部24は、作業データ記憶領域34上のテキストデータ610に格納されたテキストデータ「雨が降る。」を読み出す(S101)。
The intermediate language generation unit 24 reads the text data “rains” stored in the
次に、中間言語生成部24は、形態素解析処理を実行する(S102)。具体的には、形態素解析部24は、読み出したテキストデータを意味がわかる最小の単位(形態素)に分割する。そして、分割した形態素毎に、表記、読み、アクセント情報などで構成される形態素解析データを生成し、該データを作業データ記憶領域34上の形態素解析データ620に格納する。単語毎の読み及びアクセント情報は、予め辞書700に登録されている値を使用する。テキストデータを単語(形態素)に分割する方法としては、清水らによる「隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理、日本音響学会誌、51巻、1号、pp.3−13、1995」に記載の処理を利用することができる。勿論、該方法は一例であり、他の処理方法を用いても良い。
Next, the intermediate language generation unit 24 executes morpheme analysis processing (S102). Specifically, the morpheme analyzer 24 divides the read text data into the smallest units (morphemes) whose meaning is known. Then, for each divided morpheme, morpheme analysis data composed of notation, reading, accent information, etc. is generated, and the data is stored in the
上記のようにして、中間言語生成部24は、図13(A)のテキストデータ「雨が降る。」から、図13(B)に示すような形態素解析データを生成する。すなわち、単語毎のデータ「雨」「が」「降」「る」「。」に分割し、読み・アクセント情報「ア´メ」「カ゜」「フ´」「ル」「.」(「´」はアクセント、「゜」は鼻濁音を示す)をそれぞれ対応付ける。また、アクセント句の区切りを示す情報「/」を付加する。なお、「ア´メカ゜/フ´ル.」は、発音記号列に相当するものである。もちろん、形態素の構造は上記のものに限られない。 As described above, the intermediate language generation unit 24 generates morphological analysis data as shown in FIG. 13B from the text data “rains down” in FIG. That is, the data for each word is divided into “rain”, “ga”, “fall”, “ru”, “.”, And reading / accent information “A'me”, “ka”, “fu”, “le”, “.” (“′” "Is an accent, and" ° "is a nasal cloud sound). Also, information “/” indicating an accent phrase delimiter is added. “A'mecha / full” corresponds to a phonetic symbol string. Of course, the structure of the morpheme is not limited to the above.
次に、中間言語生成部24は、音素分割処理を実行する(S103)。まず、形態素解析データ620を読み出し、該データに含まれる読みの情報を基に、意味の区別に用いられる最小の音の単位(音素)に分割し、得られた音素解析データを作業データ記憶領域34上の音素解析データ630に格納する。
Next, the intermediate language generation unit 24 executes phoneme division processing (S103). First, the
音素分割の方法は、例えば、宮崎らによる方法「日本文音声出力のための言語処理方式、情報処理学会論文誌、Vol.27、No.11、pp.1053−1061、1986」を利用することができる。もちろん、該計算方法は一例であり、他の音素分割法を用いても良い。 The phoneme segmentation method uses, for example, the method by Miyazaki et al. “Language Processing Method for Japanese Sentence Speech Output, Journal of Information Processing Society of Japan, Vol. 27, No. 11, pp. 1053-1061, 1986”. Can do. Of course, this calculation method is an example, and other phoneme division methods may be used.
上記の音素解析により、中間言語生成部24は、テキストデータ「雨が降る。」を、音素に分割し、図13(C)に示される、「A/ME/NG/A/H/U/R/U/.」のような音素データを生成する。ここで、「A」「M」「E」等は音素を示す記号であるが、これらは一例であり、他の音素記号表現を用いてもよい。 By the above phoneme analysis, the intermediate language generation unit 24 divides the text data “rains down” into phonemes, and displays “A / ME / NG / A / H / U /” shown in FIG. Phoneme data such as “R / U /.” Is generated. Here, “A”, “M”, “E”, and the like are symbols indicating phonemes, but these are only examples, and other phoneme symbol expressions may be used.
次に、中間言語生成部24は、形態素解析データに対して、アクセント型、品詞等の情報が類似するデータセットを、音声コーパス400から検索する処理を行う(S104〜S106)。
Next, the intermediate language generation unit 24 performs processing for searching the
中間言語生成部24は、先ず、音声コーパス400から、データセット4100を読み出す(S104)。また、読み出したデータセット4100から、形態素分割データ450を読み出す。
First, the intermediate language generation unit 24 reads the data set 4100 from the speech corpus 400 (S104). Further, the
そして、中間言語生成部24は、形態素解析データ620を読み出し(S105)、形態素分割データ450に含まれる、読み・アクセント情報、アクセント型、品詞等のデータと比較し、予め定めた基準で類似度の計算を行う(S106)。
Then, the intermediate language generation unit 24 reads the morpheme analysis data 620 (S105), compares it with data such as reading / accent information, accent type, part of speech, etc. included in the
以降、同様に、中間言語生成部24は、全てのデータセット(4200〜n)について、上記の類似度の計算を行う(S106)。その結果として、予め設定したしきい値(基準類似度)を満たすデータセットのうち、形態素解析データと最も類似するデータセット(以下、選択データセットと呼ぶ。)を1つ選択する。 Thereafter, similarly, the intermediate language generation unit 24 performs the above similarity calculation for all the data sets (4200 to n) (S106). As a result, one data set that is most similar to the morphological analysis data (hereinafter referred to as a selection data set) is selected from among the data sets that satisfy a preset threshold value (reference similarity).
次に、中間言語生成部24は、形態素解析データ620について、韻律パラメータの算出を行う(S107)。 Next, the intermediate language generation unit 24 calculates prosodic parameters for the morphological analysis data 620 (S107).
具体的には、中間言語生成部24は、形態素解析データ620と、選択データセットの形態素分割データ450とを比較し、形態素毎に一致部と不一致部とに分離する。そして、一致部の形態素には、選択データセットの韻律パラメータ(基本周波数データ430、継続時間長データ440)を付与する。不一致部の形態素の基本周波数データは、形態素のモーラ数とアクセント型等に対して1つの基本周波数データを記憶している単語基本周波数パタンテーブルから検索して算出する。また、継続時間長は、匂坂らによる、「規則による音声合成のための音韻時間長制御、電子情報通信学会論文誌、Vol.J67−A、No.7、pp.629−636、1984」を利用して算出することができる。その後、中間言語生成部24は、一致部と不一致部の韻律パラメータを滑らかに接続するために、不一致部を変形統合する処理を行なう。
Specifically, the intermediate language generation unit 24 compares the
このようにして求めた韻律パラメータを、中間言語生成部24は、作業データ記憶領域34上の基準韻律パラメータ640に格納する。なお、韻律パラメータの算出方法は上記に限られない。音素ごとの継続時間長を求めるには、例えば、予めデータベースとして保持された、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後1音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する方法を利用できる。また、音素ごと基本周波数を求めるには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する方法や矩形でモデル化する方法を利用できる。
The intermediate language generation unit 24 stores the prosodic parameters thus obtained in the reference
次に、中間言語生成部24は、形態素解析データ620と、音素解析データ630と、基準韻律パラメータ640とを基に、中間言語データを生成し、作業データ記憶領域34上の中間言語データ670に格納する(S108)。
Next, the intermediate language generation unit 24 generates intermediate language data based on the
具体的には、中間言語生成部24は、図13(D)に示すような中間言語データを生成する。すなわち、基準形態素解析データに含まれる発音記号列を分割して、「ア」「メ」「カ゜」「/」「フ」「ル」「.」の音韻表記から成るデータ列を生成する。そして、それぞれの文字の音素毎に、基本周波数及び継続時間長のデータを付与する。例えば、「メ」は、基本周波数「283」・継続時間長「51」の音素「M」と、基本周波数「252」・継続時間長「89」の音素「E」とから構成される。 Specifically, the intermediate language generation unit 24 generates intermediate language data as shown in FIG. That is, the phonetic symbol string included in the reference morphological analysis data is divided to generate a data string composed of phoneme notations of “a”, “me”, “cap”, “/”, “fu”, “le”, and “.”. And the data of a fundamental frequency and duration length are provided for every phoneme of each character. For example, “me” includes a phoneme “M” having a fundamental frequency “283” and a duration “51”, and a phoneme “E” having a fundamental frequency “252” and a duration “89”.
以上のようにして、中間言語生成部24は、中間言語生成処理(S2)を終了する。 As described above, the intermediate language generation unit 24 ends the intermediate language generation process (S2).
次に、韻律パラメータの編集処理(S3)について図7を用いて説明する。 Next, the prosody parameter editing process (S3) will be described with reference to FIG.
まず、設定受付部22は、テキスト入力画面(図8)上で、韻律編集ボタン601のクリックを受け付ける(S310)。すると、編集画面生成部27が、編集画面生成処理を開始する。
First, the
編集画面生成部27は、ユーザ可変の表示シンボルを備える、図9に示すような韻律パラメータ編集画面800を生成する(S312)。まず、中間言語データ670を作業データ記憶領域34から読み出す(S311)。そして、音韻表記910と、音素表記920を抽出する(図13(D)参照)。まず、音韻表記910を、横軸方向へ、音韻表記文字列830として展開し(図9)、対応する音素表記920を、音素表記文字列840として、さらに展開する。
The edit
次に、編集画面生成部27は、中間言語データ670から、継続時間長パラメータ930と、基本周波数パラメータ940を抽出する。
Next, the edit
さらに、上記展開された音韻表記文字列830と、音素表記文字列840に対応する、前記継続時間長パラメータ930を横軸に、基本周波数パラメータ940を縦軸に対応付け、韻律パラメータのグラフ化を実行する。
Further, the expanded phoneme
次に、編集画面生成部27は、音素表記文字列840の、文字ごとの開始点となる、横軸(継続時間長パラメータ930)の座標に、縦軸方向に延びる継続時間長表示シンボル850を、継続長の調整単位である音素表記文字列840の文字を区切るように配置する。(便宜上、一箇所のシンボルにのみ符号を付した。以下同様。)
編集画面生成部27は、音韻表記文字列830の、文字ごとの開始点となる横軸座標配置された、上記継続時間長表示シンボル850上に、基本周波数表示シンボル860を、基本周波数パラメータの値に従って配置する。さらに、隣接する基本周波数表示シンボル860同士を結んだ線を、韻律結線シンボル870として生成する。
Next, the edit
The editing
ここで、継続時間長表示シンボル850は、図9中に矢示線Xで示される横軸方向へ、基本周波数表示シンボル860は、図中の矢示線Yで示される縦軸方向へ、予め設定された基準値の範囲内において、入力装置4を介したスライド操作が可能に構成されている。継続時間長表示シンボル850は、左側に隣接する850との幅を変更可能であり、対応する表記文字の継続時間長を増減することが出来る。基本周波数シンボル860は、継続時間長表示シンボル850上でスライド操作が可能であり、対応する表記文字の基本周波数を増減させることが可能である。図中の矢示線X、Yは操作範囲を示すものではなく、単に操作方向を示すものである。
Here, the duration
編集画面生成部27は、横軸の継続時間長はミリ秒(1pixel=1ms)を、縦軸の周波数はHz(対象データの最小周波数×0.8〜最大周波数÷0.75)を単位として構成し、韻律編集画面800を生成する。なお、ここではこのような単位を用いたが、勿論、他の単位を用いてグラフを生成してもよい。
In the edit
また、韻律パラメータ編集画面800が表示装置の画面内に入りきらない場合には、スクロールバーを構成し、画面の左右スライド操作が可能となるように構成する。なお、画面切り替え手段は、スクロールバーに限られず、ページ切り替えや、圧縮して全体を表示する機能を設けてもよい。
In addition, when the prosody
以上のように生成された韻律パラメータ編集画面800を、編集画面生成部27は、GUIを用いて表示装置5に表示する。
The editing
設定受付部22は、表示シンボルの移動操作を受付ける(S321)。
The
まず、設定受付部22は、上記表示シンボルが、入力装置2を介して移動操作されたことを検出する。
First, the
継続時間長表示シンボル850上で、入力装置4のポインティングデバイスである、マウスによるクリック操作を検出すると、設定受付部22は、850の矢示線X方向への、ドラッグによるスライド操作の受付けを開始する。次に、矢示線X方向へのスライド操作を検出すると、韻律パラメータ編集部23は、スライド後の継続時間長表示シンボル850の変位量と、スライド方向についての情報を取得する。さらに、スライド方向と変位量によって定まる書換え値を、横軸座標の単位に基づいて算出する。
When the click operation with the mouse, which is the pointing device of the input device 4, is detected on the duration
基本周波数の変更についても同様に、基本周波数表示シンボル860上にマウスによるクリック操作を検出すると、韻律パラメータ編集部23は、860の矢示線Y方向へ、ドラッグによるスライド操作の受付けを開始する。次に、矢示線Y方向へのスライド操作を検出すると、スライド後の基本周波数表示シンボル860の変位量と、スライド方向についての情報を取得する。さらに、スライド方向と変位量によって定まる書換えを縦軸座標の単位に基づいて算出する。
Similarly, regarding the change of the fundamental frequency, when a click operation with the mouse is detected on the fundamental
ここで、ポインティングデバイスを介した操作は、ここではマウスによるものを使用したが、勿論、タッチパネルへのタッチアクション等を用いてもよい。 Here, the operation via the pointing device is performed using a mouse here, but of course, a touch action on the touch panel or the like may be used.
図10を参照して、韻律パラメータの書換え値の算出処理を具体的に説明する。矢示線A→A’は、継続時間長表示シンボル850の変位を示す。まず、設定受付部22がポインティングデバイスを介した矢示方向A→A’へのスライド操作を受付ける。すると、韻律パラメータ編集部23は、操作対象である継続時間長表示シンボル850と、それ以降の横軸座標の全ての音韻表記、音素表記、及び、表示シンボル(継続時間長表示シンボル850、基本周波数表示シンボル860、韻律結線シンボル870)を、矢示線A→A’のスライド方向へ、同様の変位量、変位して表示する。
With reference to FIG. 10, the calculation process of the rewrite value of the prosodic parameter will be specifically described. The arrow line A → A ′ indicates the displacement of the duration
ここで、A→A’へのスライド操作において、X軸座標のスライド方向は−であるから、変位量は、−(A’−A)で表される(単位はX軸座標のピクセル値)。よって、この場合は、1ピクセル=1ミリ秒として設定されているので、韻律パラメータ編集部23は、X軸座標のピクセル変位量と同値のミリ秒を、対応する音素表記の継続時間長(A−A0)から減じて、継続時間長パラメータの書換え値を算出する。 Here, in the slide operation from A → A ′, the slide direction of the X-axis coordinate is −, so the displacement is represented by − (A′−A) (the unit is the pixel value of the X-axis coordinate). . Therefore, in this case, since one pixel is set to 1 millisecond, the prosody parameter editing unit 23 sets the millisecond equivalent to the pixel displacement amount of the X-axis coordinate to the duration time (A Subtract from (A0) and calculate the rewrite value of the duration parameter.
さらに、矢示線B→B’ は、基本周波数表示シンボル860の変位を示す。まず、設定受付部22が、ポインティングデバイスを介した矢示方向B→B’へのスライド操作を受付ける。すると、韻律パラメータ編集部23は、操作対象の基本周波数表示シンボル860を、B’座標に変位して表示する。860の変位に従って、韻律結線シンボル870も同時に変位する。
Further, the arrow line B → B ′ indicates the displacement of the fundamental
ここで、B→B’のスライド操作において、Y軸座標のスライド方向は+であるから、変位量は、(B’−B)で表される(単位はY軸座標のピクセル値)。韻律パラメータ編集部23は、この変位量に、グラフのY軸範囲(対象データの最小周波数×0.8〜最大周波数÷0.75)により定まる、1ピクセルに対応する周波数を表す係数(Hz/pixel)を乗じて、基本周波数値を算出する。これを、対応する音韻表記の基本周波数Bに加算して、基本周波数パラメータの書換え値を算出する。 Here, in the slide operation of B → B ′, since the slide direction of the Y-axis coordinates is +, the displacement amount is represented by (B′−B) (the unit is the pixel value of the Y-axis coordinates). The prosodic parameter editing unit 23 uses a coefficient (Hz / Hz) representing a frequency corresponding to one pixel determined by the Y-axis range of the graph (the minimum frequency of the target data × 0.8 to the maximum frequency ÷ 0.75). pixel) to calculate the fundamental frequency value. This is added to the fundamental frequency B of the corresponding phoneme notation, and the rewritten value of the fundamental frequency parameter is calculated.
韻律パラメータ編集部23は、以上の処理から算出された、継続時間長、基本周波数、および、フレーズ区切りの継続時間長の各パラメータの書換え値が、予め定められた基準値の範囲内にあることを確認する。 The prosodic parameter editing unit 23 determines that the rewriting values of the parameters of the duration time, the fundamental frequency, and the phrase duration time length calculated from the above processing are within a predetermined reference value range. Confirm.
韻律パラメータ編集部23は、書換え値が予め定められた範囲外である場合には、画面上にエラー画面を表示させる(S145)。例えば、エラー画面には「周波数は〜Hz以内に設定してください。」「継続長は〜ms以上に設定してください。」等のエラーメッセージが表示される。 The prosodic parameter editing unit 23 displays an error screen on the screen when the rewritten value is outside the predetermined range (S145). For example, an error message such as “Set the frequency within ~ Hz” or “Set the duration to ~ ms or more” is displayed on the error screen.
継続時間長についてのエラーメッセージ表示と同時に、韻律パラメータ編集部23は、書換え値が上限値を超過している場合には上限値の座標、下限値を超過している場合には下限値の座標に、継続時間長表示シンボル850を変位させる処理を実行する。基本周波数については、エラーメッセージの表示要因となる、基準値を超過するスライド操作が行なわれる直前の座標に、基本周波数表示シンボル860を変位させる処理を実行する。
At the same time as displaying the error message about the duration, the prosodic parameter editing unit 23 coordinates the upper limit value when the rewritten value exceeds the upper limit value, and coordinates the lower limit value when the rewrite value exceeds the lower limit value. In addition, processing for displacing the duration
書換え値が基準値内にある場合、韻律パラメータ編集部23は、書換え値を更新韻律パラメータ650として、作業データ記憶領域34上に格納する。さらに、中間言語データ670の韻律パラメータを、更新韻律パラメータ650の値に書き換える、書き換え処理を行なう(S324)。これにより、更新された中間言語データを、中間言語更新データ680として作業データ記憶領域34上に格納する(S325)。
When the rewritten value is within the reference value, the prosodic parameter editing unit 23 stores the rewritten value as the updated
以上のようにして実行された韻律パラメータ編集処理によって生成された中間言語更新データ680から、音声合成部25は、波形合成を実行する(S4)。さらに、合成波形は、音声出力部26によって、出力装置6を介して出力される。
From the intermediate
本実施形態では、基本周波数は音韻表記毎、すなわち、母音開始周波数毎にのみが変更可能であり、母音開始周波数の値に応じて子音開始周波数が自動的に設定されるが、音素表記毎に基本周波数を設定可能な編集画面を構成してもよい(図11参照)。 In this embodiment, the fundamental frequency can be changed only for each phoneme notation, that is, for each vowel start frequency, and the consonant start frequency is automatically set according to the value of the vowel start frequency. You may comprise the edit screen which can set a fundamental frequency (refer FIG. 11).
さらに、音素表記内に基本周波数が編集可能な基本周波数編集点880をさらに設けた編集画面を構成してもよい(図12参照)。また、ユーザが音素表記内の座標を自由に指定し、基本周波数編集点880を、任意の位置に配置出来るような機能を設けてもよい。
Further, an editing screen may be configured in which a fundamental
以上、第1の実施形態について説明した。第1の実施形態によれば、韻律パラメータをグラフで視認・編集操作することが可能な、韻律パラメータ編集画面が提供される。これにより、専門知識が乏しいユーザであっても、韻律を視覚的、かつ直感的に簡便な操作で調整することが可能である。逆に、専門知識を有するユーザであっても、韻律パラメータの値を具体的に指定することができ、予め定められた韻律パターンに限定されない。このように、本願発明は、ユーザビリティを向上することができる。 The first embodiment has been described above. According to the first embodiment, a prosodic parameter editing screen is provided on which prosody parameters can be visually recognized and edited on a graph. As a result, even a user with poor expertise can adjust the prosody visually and intuitively with a simple operation. Conversely, even users who have specialized knowledge can specify the values of prosodic parameters specifically, and are not limited to predetermined prosodic patterns. Thus, the present invention can improve usability.
以上、本発明について、例示的な実施形態と関連させて記載した。多くの代替物、修正および変形例が当業者にとって明らかであることは明白である。従って、上に記載の本発明の実施形態は、本発明の要旨と範囲を例示することを意図し、限定するものではない。 The present invention has been described in connection with exemplary embodiments. Obviously, many alternatives, modifications, and variations will be apparent to practitioners skilled in this art. Accordingly, the above-described embodiments of the present invention are intended to illustrate and not limit the spirit and scope of the present invention.
10…音声合成装置、1…CPU、2…主記憶装置、3…外部記憶装置、4…入力装置、5…表示装置、6…出力装置、7…バス
20…制御部、22…設定受付部、23…韻律パラメータ編集部、24…中間言語生成部、25…音声合成部、26…音声出力部、27…編集画面生成部
30…記憶部、32…辞書データ記憶領域、33…音声コーパス記憶領域、34…作業データ記憶領域、700…辞書
610…テキストデータ、620…形態素解析データ、630…音素解析データ、640…基準韻律パラメータ、650…更新韻律パラメータ、660…検索結果データ、670…中間言語データ、680…中間言語更新データ
400…音声コーパス、4100・4200…データセット、410…文字列表記データ、420…音声波形データ、430…基本周波数データ、440…継続時間長データ、450…形態素分割データ、460…音素分割データ
601…韻律編集ボタン、602…入力テキスト設定欄
800…韻律パラメータ編集画面、830…音韻表記文字列、840…音素表記文字列、850…継続時間長表示シンボル、860…基本周波数表示シンボル、870…韻律結線シンボル、880…基本周波数編集点
910…音韻表記、920…音素表記、930…継続時間長パラメータ、940…基本周波数パラメータ
DESCRIPTION OF
Claims (9)
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段と、
前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する中間言語生成手段と、
前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる韻律パラメータ編集画面生成手段と、
を備えることを特徴とする音声合成装置。 A speech synthesizer that synthesizes speech corresponding to an input character string,
Prosody parameters including at least information specifying accent, duration length, and fundamental frequency as parameters, and voice data, corresponding to at least one of phoneme display characters and phoneme display characters as prosodic control units Storage means for storing the voice corpus accumulated for each voice control unit;
An intermediate language generating means for dividing the input character string into prosodic control units and generating an intermediate language in which prosodic parameters are associated with each divided prosodic control unit;
Among the parameters included in the prosodic parameters, a graph including coordinates in which the values of the first parameter and the second parameter are respectively arranged on the horizontal axis and the vertical axis is formed, and the first parameter and each of the divided prosodic control units Prosody parameter editing screen generating means for generating a prosodic parameter editing screen in which a predetermined display symbol is displayed on the graph at the coordinate position specified by the second parameter, and displaying on the display means;
A speech synthesizer comprising:
前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する韻律パラメータ書換え手段、
をさらに備えることを特徴とする音声合成装置。 The speech synthesizer according to claim 1,
In the prosodic parameter editing screen displayed on the display means, a displacement of the coordinate position of the display symbol is received via the input means, and the prosodic parameter of the intermediate language corresponding to the prosodic control unit in which the display symbol is displaced Prosody parameter rewriting means for changing the value of the prosody parameter value to a prosodic parameter value specified from the coordinate position of the display symbol after displacement
A speech synthesizer further comprising:
前記第一パラメータが継続時間長であり、第二パラメータが基本周波数であること、
を特徴とする音声合成装置。 The speech synthesizer according to claim 1,
The first parameter is a duration length and the second parameter is a fundamental frequency;
A speech synthesizer characterized by the above.
前記韻律パラメータ編集画面生成手段は、
横軸方向へ、音韻制御単位として、音韻表記文字列、音素表記文字列、又はその両方をさらに展開して表示する韻律パラメータ編集画面を生成すること、
を特徴とする音声合成装置。 The speech synthesizer according to claim 1 or 3,
The prosodic parameter editing screen generation means includes:
Generating a prosodic parameter editing screen that further expands and displays a phoneme notation character string, a phoneme notation character string, or both as a phoneme control unit in the horizontal axis direction;
A speech synthesizer characterized by the above.
前記韻律パラメータ編集画面生成手段は、
横軸に対応する継続時間長パラメータを表す第一の表示シンボルと、縦軸に対応する基本周波数パラメータを表す第二の表示シンボルと、隣接する前記第二の表示シンボルを互いに結んだ結線と、を前記韻律制御単位に対応付けて表示する韻律パラメータ編集画面を生成し、
前記第一の表示シンボルは、継続時間長パラメータ値に対応する座標に、前記第二の表示シンボルは、前記第一の表示シンボル上で、基本周波数パラメータ値に対応する座標にそれぞれ配置されること、
を特徴とする音声合成装置。 The speech synthesizer according to claim 3 or 4,
The prosodic parameter editing screen generation means includes:
A first display symbol representing a duration parameter corresponding to the horizontal axis, a second display symbol representing a fundamental frequency parameter corresponding to the vertical axis, and a connection connecting the adjacent second display symbols to each other; A prosody parameter editing screen that displays the corresponding to the prosody control unit,
The first display symbol is arranged at a coordinate corresponding to a duration length parameter value, and the second display symbol is arranged at a coordinate corresponding to a fundamental frequency parameter value on the first display symbol. ,
A speech synthesizer characterized by the above.
前記コンピュータを、
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段、
前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する中間言語生成手段、
前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる韻律パラメータ編集画面生成手段、
として機能させることを特徴とするプログラム。 A program that causes a computer to function as a speech synthesizer that synthesizes speech corresponding to an input character string,
The computer,
Prosody parameters including at least information specifying accent, duration length, and fundamental frequency as parameters, and voice data, corresponding to at least one of phoneme display characters and phoneme display characters as prosodic control units Storage means for storing the voice corpus accumulated for each voice control unit;
An intermediate language generating means for dividing the input character string into prosodic control units and generating an intermediate language in which prosodic parameters are associated with each divided prosodic control unit;
Among the parameters included in the prosodic parameters, a graph including coordinates in which the values of the first parameter and the second parameter are respectively arranged on the horizontal axis and the vertical axis is formed, and the first parameter and each of the divided prosodic control units Prosody parameter editing screen generation means for generating a prosodic parameter editing screen in which a predetermined display symbol is displayed on the graph at the coordinate position specified by the second parameter, and causing the display means to display it,
A program characterized by functioning as
前記コンピュータを、
前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する韻律パラメータ書換え手段、
としてさらに機能させることを特徴とするプログラム。 The program according to claim 6,
The computer,
In the prosodic parameter editing screen displayed on the display means, a displacement of the coordinate position of the display symbol is received via the input means, and the prosodic parameter of the intermediate language corresponding to the prosodic control unit in which the display symbol is displaced Prosody parameter rewriting means for changing the value of the prosody parameter value to a prosodic parameter value specified from the coordinate position of the display symbol after displacement
A program characterized by further functioning as
前記音声合成装置の中間言語生成手段が、前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する過程と、
前記音整合性装置の韻律パラメータ編集画面生成手段が、前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる過程と、
を備えることを特徴とする音声合成方法。 Prosody parameters including at least information specifying accent, duration length, and fundamental frequency as parameters, and voice data, corresponding to at least one of phoneme display characters and phoneme display characters as prosodic control units A speech synthesizing method in a speech synthesizer comprising a storage means for storing a speech corpus accumulated for each speech control unit and synthesizing speech corresponding to an input character string,
The intermediate language generating means of the speech synthesizer divides the input character string into prosodic control units, and generates an intermediate language in which prosodic parameters are associated with each divided prosodic control unit;
The prosody parameter editing screen generation means of the sound consistency device forms a graph having coordinates in which the values of the first parameter and the second parameter among the parameters included in the prosody parameter are arranged on the horizontal axis and the vertical axis, respectively. Generating a prosodic parameter editing screen in which a predetermined display symbol is displayed on the graph at the coordinate position specified by the first parameter and the second parameter for each of the divided prosodic control units and displaying it on the display means Process,
A speech synthesis method comprising:
前記音声合成装置の韻律パラメータ書換手段が、前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する過程、
をさらに備えることを特徴とする音声合成方法。 The speech synthesis method according to claim 8,
The prosody parameter rewriting means of the speech synthesizer accepts the displacement of the coordinate position of the display symbol via the input means on the prosodic parameter editing screen displayed on the display means, and the prosody where the display symbol is displaced Changing the value of the prosodic parameter of the intermediate language corresponding to the control unit to the prosodic parameter value specified from the coordinate position of the display symbol after displacement;
A speech synthesis method, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007110287A JP2008268477A (en) | 2007-04-19 | 2007-04-19 | Rhythm adjustable speech synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007110287A JP2008268477A (en) | 2007-04-19 | 2007-04-19 | Rhythm adjustable speech synthesizer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008268477A true JP2008268477A (en) | 2008-11-06 |
Family
ID=40048079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007110287A Pending JP2008268477A (en) | 2007-04-19 | 2007-04-19 | Rhythm adjustable speech synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008268477A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010060886A (en) * | 2008-09-04 | 2010-03-18 | Yamaha Corp | Audio processing apparatus and program |
JP2012022121A (en) * | 2010-07-14 | 2012-02-02 | Yamaha Corp | Speech synthesizer |
US20120143600A1 (en) * | 2010-12-02 | 2012-06-07 | Yamaha Corporation | Speech Synthesis information Editing Apparatus |
JP2014038282A (en) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | Prosody editing apparatus, prosody editing method and program |
JP2014219695A (en) * | 2014-07-24 | 2014-11-20 | 株式会社東芝 | Prosody editing apparatus, prosody editing method and program |
JP5666593B2 (en) * | 2010-08-05 | 2015-02-12 | 三菱自動車工業株式会社 | Battery information output device for power supply and demand leveling system |
JP2015060002A (en) * | 2013-09-17 | 2015-03-30 | 株式会社東芝 | Rhythm processing system and method and program |
CN103902213B (en) * | 2012-12-27 | 2017-03-29 | 中国移动通信集团河南有限公司 | A kind of generation method and equipment of Word message |
CN109246214A (en) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | A kind of prompt tone acquisition methods, device, terminal and server |
JP2020166298A (en) * | 2020-07-01 | 2020-10-08 | ヤマハ株式会社 | Voice synthesis method |
US11495206B2 (en) | 2017-11-29 | 2022-11-08 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10153998A (en) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method |
JP2005215287A (en) * | 2004-01-29 | 2005-08-11 | Equos Research Co Ltd | Voice synthesizing apparatus and method |
JP2005345699A (en) * | 2004-06-02 | 2005-12-15 | Toshiba Corp | Device, method, and program for speech editing |
-
2007
- 2007-04-19 JP JP2007110287A patent/JP2008268477A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10153998A (en) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method |
JP2005215287A (en) * | 2004-01-29 | 2005-08-11 | Equos Research Co Ltd | Voice synthesizing apparatus and method |
JP2005345699A (en) * | 2004-06-02 | 2005-12-15 | Toshiba Corp | Device, method, and program for speech editing |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010060886A (en) * | 2008-09-04 | 2010-03-18 | Yamaha Corp | Audio processing apparatus and program |
JP2012022121A (en) * | 2010-07-14 | 2012-02-02 | Yamaha Corp | Speech synthesizer |
US9469203B2 (en) | 2010-08-05 | 2016-10-18 | Mitsubishi Jidosha Kogyo Kabushiki Kaisha | Battery information output equipment for power supply and demand leveling system |
JP5666593B2 (en) * | 2010-08-05 | 2015-02-12 | 三菱自動車工業株式会社 | Battery information output device for power supply and demand leveling system |
US9135909B2 (en) | 2010-12-02 | 2015-09-15 | Yamaha Corporation | Speech synthesis information editing apparatus |
US20120143600A1 (en) * | 2010-12-02 | 2012-06-07 | Yamaha Corporation | Speech Synthesis information Editing Apparatus |
US9601106B2 (en) | 2012-08-20 | 2017-03-21 | Kabushiki Kaisha Toshiba | Prosody editing apparatus and method |
JP2014038282A (en) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | Prosody editing apparatus, prosody editing method and program |
CN103902213B (en) * | 2012-12-27 | 2017-03-29 | 中国移动通信集团河南有限公司 | A kind of generation method and equipment of Word message |
JP2015060002A (en) * | 2013-09-17 | 2015-03-30 | 株式会社東芝 | Rhythm processing system and method and program |
JP2014219695A (en) * | 2014-07-24 | 2014-11-20 | 株式会社東芝 | Prosody editing apparatus, prosody editing method and program |
US11495206B2 (en) | 2017-11-29 | 2022-11-08 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
CN109246214A (en) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | A kind of prompt tone acquisition methods, device, terminal and server |
JP2020166298A (en) * | 2020-07-01 | 2020-10-08 | ヤマハ株式会社 | Voice synthesis method |
JP7180642B2 (en) | 2020-07-01 | 2022-11-30 | ヤマハ株式会社 | Speech synthesis method, speech synthesis system and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008268477A (en) | Rhythm adjustable speech synthesizer | |
US8504368B2 (en) | Synthetic speech text-input device and program | |
US20130112062A1 (en) | Music data display control apparatus and method | |
US20100066742A1 (en) | Stylized prosody for speech synthesis-based applications | |
JP2009186820A (en) | Speech processing system, speech processing program, and speech processing method | |
EP2645363B1 (en) | Sound synthesizing apparatus and method | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2008268478A (en) | Accent adjustable speech synthesizer | |
JP5029884B2 (en) | Prosody generation device, prosody generation method, and prosody generation program | |
JP5079718B2 (en) | Foreign language learning support system and program | |
JP2008185911A (en) | Voice synthesizer | |
JP4744338B2 (en) | Synthetic speech generator | |
JP4584511B2 (en) | Regular speech synthesizer | |
JP4326251B2 (en) | Text-to-speech synthesizer, text-to-speech synthesis method and program thereof | |
JP6197523B2 (en) | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program | |
JPH06195326A (en) | Method and device for inputting document | |
JP2008146019A (en) | System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device | |
JP3762300B2 (en) | Text input processing apparatus and method, and program | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
JP6411015B2 (en) | Speech synthesizer, speech synthesis method, and program | |
JP5975033B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP6340839B2 (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program | |
JPH08272388A (en) | Device and method for synthesizing voice | |
JP6727477B1 (en) | Pitch pattern correction device, program and pitch pattern correction method | |
JP2014197117A (en) | Speech synthesizer and language dictionary registration method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100617 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110215 |