Nothing Special   »   [go: up one dir, main page]

JP6337455B2 - Speech synthesizer - Google Patents

Speech synthesizer Download PDF

Info

Publication number
JP6337455B2
JP6337455B2 JP2013257938A JP2013257938A JP6337455B2 JP 6337455 B2 JP6337455 B2 JP 6337455B2 JP 2013257938 A JP2013257938 A JP 2013257938A JP 2013257938 A JP2013257938 A JP 2013257938A JP 6337455 B2 JP6337455 B2 JP 6337455B2
Authority
JP
Japan
Prior art keywords
data
audio data
unit
shortening
counter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013257938A
Other languages
Japanese (ja)
Other versions
JP2015114584A (en
Inventor
康英 檜垣
康英 檜垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013257938A priority Critical patent/JP6337455B2/en
Publication of JP2015114584A publication Critical patent/JP2015114584A/en
Application granted granted Critical
Publication of JP6337455B2 publication Critical patent/JP6337455B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Circuits Of Receivers In General (AREA)

Description

本発明は、音声合成装置に関し、例えば、消防無線システムのデジタル無線等で、基地局より送信された音声と、他の移動局により送信された音声を合成するものするものに関する。   The present invention relates to a voice synthesizer, and more particularly to a voice synthesizer that synthesizes a voice transmitted from a base station and a voice transmitted from another mobile station by digital radio of a fire fighting radio system.

近年、消防無線システムのデジタル無線等で、基地局より送信された音声と、他の移動局により送信された音声を合成するものするものが、知られている。   2. Description of the Related Art In recent years, there has been known a technique that synthesizes a voice transmitted from a base station and a voice transmitted from another mobile station by a digital radio of a fire fighting radio system.

なお、本件発明の参考技術として、特許文献1に記載の技術が知られている。   As a reference technique of the present invention, a technique described in Patent Document 1 is known.

特開平11−161295号公報Japanese Patent Laid-Open No. 11-161295

しかしながら、基地局より送信された音声と、他の移動局により送信された音声を合成する場合、これら各々の音声において、同期しているクロックが異なっている。このため、これら2つの音声を単純に合成してしまうと、一方の音声にスリップが発生し、周期性のあるノイズが生じてしまうという問題があった。   However, when synthesizing the voice transmitted from the base station and the voice transmitted from another mobile station, the clocks synchronized in these respective voices are different. For this reason, when these two sounds are simply synthesized, there is a problem that slip occurs in one of the sounds, and periodic noise is generated.

本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、音声スリップの発生を抑止して、音声合成を行うことができる音声合成装置を提供することにある。   The present invention has been made in view of such circumstances, and an object of the present invention is to provide a speech synthesizer capable of performing speech synthesis while suppressing the occurrence of speech slip.

本発明の音声合成装置は、第1の音声データのデータ数である第1の音声データ数を計測する第1のカウンタと、第2の音声データのデータ数である第2の音声データ数を計測する第2のカウンタと、前記第1のカウンタにより計測された第1の音声データ数と、第2のカウンタにより計測された第2の音声データ数とを比較するデータ数比較部と、前記データ数比較部による比較結果に基づいて、前記第2の音声データを短縮または伸張し、短縮または伸張した後の第2の音声データを出力するデータ短縮伸張部と、前記データ短縮伸張部により出力された前記短縮または伸張した後の第2の音声データと、前記第1の音声データを合成する合成部とを備えている。   The speech synthesizer of the present invention includes a first counter that measures the number of first speech data that is the number of first speech data, and a second number of speech data that is the number of second speech data. A second counter to be measured; a data number comparison unit that compares the first audio data number measured by the first counter with the second audio data number measured by the second counter; Based on the comparison result by the data number comparison unit, the second audio data is shortened or expanded, the data shortening / decompressing unit outputting the second audio data after shortening or expanding, and the data shortening / decompressing unit outputting The second audio data after the shortening or expansion, and a synthesis unit for synthesizing the first audio data.

本発明にかかる音声合成装置によれば、音声スリップの発生を抑止して、音声合成を行うことができる。   The speech synthesizer according to the present invention can perform speech synthesis while suppressing the occurrence of speech slip.

本発明の実施の形態における音声合成装置の構成を示す図である。It is a figure which shows the structure of the speech synthesizer in embodiment of this invention. 音声データの短縮処理の一例を示す図である。It is a figure which shows an example of the shortening process of audio | voice data. 音声データの伸張処理の一例を示す図である。It is a figure which shows an example of the expansion | extension process of audio | voice data.

本発明の実施の形態における音声合成装置100の構成について説明する。   The configuration of speech synthesis apparatus 100 in the embodiment of the present invention will be described.

図1は、音声合成装置100の構成を示す図である。   FIG. 1 is a diagram illustrating the configuration of the speech synthesizer 100.

図1に示されるように、音声合成装置100は、第1のFIFO(First In First Out)メモリ110と、第2のFIFOメモリ120と、第1のカウンタ130と、第2のカウンタ140と、データ数比較部150と、相関ピーク検出部160と、データ短縮伸張部170と、合成部180とを備えている。   As shown in FIG. 1, the speech synthesizer 100 includes a first FIFO (First In First Out) memory 110, a second FIFO memory 120, a first counter 130, a second counter 140, A data number comparison unit 150, a correlation peak detection unit 160, a data shortening / expansion unit 170, and a synthesis unit 180 are provided.

図1に示されるように、第1のFIFOメモリ110には、第1の音声データF1が入力される。ここで、第1の音声データF1は、例えば、基地局(不図示)から送信される音声データである。なお、基地局は、本発明の第1の通信局に対応する。   As shown in FIG. 1, the first audio data F <b> 1 is input to the first FIFO memory 110. Here, the first audio data F1 is, for example, audio data transmitted from a base station (not shown). The base station corresponds to the first communication station of the present invention.

また、第1のFIFOメモリ110には、クロック信号CLK_Aが入力される。このクロック信号CLK_Aは、第1の音声データF1の電波の周波数に対応している。   In addition, the clock signal CLK_A is input to the first FIFO memory 110. The clock signal CLK_A corresponds to the radio wave frequency of the first audio data F1.

第1のFIFOメモリ110は、第1のカウンタ130と合成部180に接続されている。   The first FIFO memory 110 is connected to the first counter 130 and the combining unit 180.

第1のFIFOメモリ110は、入力される第1の音声データを当該第1の音声データの電波に同期して一時的に記憶しながら、順次、第1のカウンタ130および合成部180へ出力する。   The first FIFO memory 110 sequentially outputs the input first audio data to the first counter 130 and the synthesis unit 180 while temporarily storing the first audio data in synchronization with the radio waves of the first audio data. .

図1に示されるように、第2のFIFOメモリ120には、第2の音声データF2が入力される。ここで、第2の音声データF2は、例えば、移動局(不図示)から送信される音声データである。なお、移動局は、本発明の第2の通信局に対応する。   As shown in FIG. 1, the second audio data F <b> 2 is input to the second FIFO memory 120. Here, the second audio data F2 is, for example, audio data transmitted from a mobile station (not shown). The mobile station corresponds to the second communication station of the present invention.

また、第1のFIFOメモリ110には、クロック信号CLK_AおよびクロックCLK_Bが入力される。このクロック信号CLK_Bは、第2の音声データF2の電波の周波数に対応している。   Further, the first FIFO memory 110 receives the clock signal CLK_A and the clock CLK_B. The clock signal CLK_B corresponds to the radio wave frequency of the second audio data F2.

第2のFIFOメモリ120は、第2のカウンタ140と、相関ピーク検出部160と、データ短縮伸張部170に接続されている。   The second FIFO memory 120 is connected to the second counter 140, the correlation peak detection unit 160, and the data shortening / decompression unit 170.

第2のFIFOメモリ120は、入力される第2の音声データF2を当該第2の音声データF2の電波に同期して一時的に記憶しながら、順次、第2のカウンタ140、相関ピーク検出部160およびデータ短縮伸張部170へ出力する。   The second FIFO memory 120 sequentially stores the second audio data F2 that is input in synchronization with the radio waves of the second audio data F2, while sequentially storing the second counter 140, the correlation peak detector. 160 and the data shortening / decompression unit 170.

図1に示されるように、第1のカウンタ130は、第1のFIFOメモリ110と、データ数比較部150に接続されている。   As shown in FIG. 1, the first counter 130 is connected to the first FIFO memory 110 and the data number comparison unit 150.

第1のカウンタ130には、第1のFIFO110メモリから、第1の音声データF1が入力される。第1のカウンタ130は、第1の音声データF1のデータ数である第1の音声データ数N1を計測する。そして、第1のカウンタ130は、第1の音声データ数N1の計測値を、データ数比較部150へ出力する。   The first counter 130 receives the first audio data F1 from the first FIFO 110 memory. The first counter 130 measures a first number of audio data N1, which is the number of data of the first audio data F1. Then, the first counter 130 outputs the measured value of the first audio data number N1 to the data number comparison unit 150.

図1に示されるように、第2のカウンタ140は、第2のFIFOメモリ120と、データ数比較部150に接続されている。   As shown in FIG. 1, the second counter 140 is connected to the second FIFO memory 120 and the data number comparison unit 150.

第2のカウンタ140には、第2のFIFOメモリ120から、第2の音声データF2が入力される。第2のカウンタ140は、第2の音声データF2のデータ数である第2の音声データ数N2を計測する。そして、第2のカウンタ140は、第2の音声データ数N2の計測値を、データ数比較部150へ出力する。   The second audio data F <b> 2 is input from the second FIFO memory 120 to the second counter 140. The second counter 140 measures the second number of audio data N2, which is the number of data of the second audio data F2. Then, the second counter 140 outputs the measurement value of the second audio data number N2 to the data number comparison unit 150.

図1に示されるように、データ数比較部150は、第1のカウンタ130と、第2のカウンタ140と、データ短縮伸張部170とに接続されている。   As shown in FIG. 1, the data number comparison unit 150 is connected to a first counter 130, a second counter 140, and a data shortening / expanding unit 170.

データ数比較部150には、第1のカウンタ130から、第1の音声データ数N1の計測値が入力される。また、データ数比較部150には、第2のカウンタ140から、第1の音声データ数N2の計測値が入力される。   A measured value of the first number of audio data N1 is input from the first counter 130 to the data number comparison unit 150. Further, the measurement value of the first number of audio data N2 is input from the second counter 140 to the data number comparison unit 150.

データ数比較部150は、第1のカウンタ130により計測された第1の音声データ数N1と、第2のカウンタ140により計測された第2の音声データ数N2とを比較する。そして、データ数比較部150は、第1の音声データ数N1および第2の音声データ数N2の差分値を、データ短縮伸張部170へ出力する。   The data number comparison unit 150 compares the first audio data number N1 measured by the first counter 130 with the second audio data number N2 measured by the second counter 140. Then, the data number comparison unit 150 outputs the difference value between the first audio data number N1 and the second audio data number N2 to the data shortening / expanding unit 170.

図1に示されるように、相関ピーク検出部160は、第2のFIFOメモリ120と、データ短縮伸張部170とに接続されている。   As shown in FIG. 1, the correlation peak detection unit 160 is connected to the second FIFO memory 120 and the data shortening / expanding unit 170.

相関ピーク検出部160は、第2の音声データF2の自己相関ピークを検出する。また、相関ピーク検出部160は、検出した第2の音声データF2の自己相関ピークの位置と、第2の音声データ数N2に基づいて、第2の音声データF2の波長λ2を算出する。そして、相関ピーク検出部160は、第2の音声データF2の波長λ2をデータ短縮伸張部170へ出力する。   Correlation peak detector 160 detects the autocorrelation peak of second audio data F2. The correlation peak detector 160 calculates the wavelength λ2 of the second audio data F2 based on the detected position of the autocorrelation peak of the second audio data F2 and the second number of audio data N2. Correlation peak detection section 160 then outputs wavelength λ2 of second audio data F2 to data shortening / expansion section 170.

図1に示されるように、データ短縮伸張部170は、第2のFIFOメモリ120と、データ数比較部150と、相関ピーク検出部160と、合成部180とに接続されている。   As shown in FIG. 1, the data shortening / expanding unit 170 is connected to the second FIFO memory 120, the data number comparing unit 150, the correlation peak detecting unit 160, and the combining unit 180.

データ短縮伸張部170は、データ数比較部150による比較結果に基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を出力する。   The data shortening / expanding section 170 shortens or expands the second sound data F2 based on the comparison result by the data number comparing section 150, and outputs the second sound data F2 after shortening or expanding.

すなわち、データ短縮伸張部170は、データ数比較部150による比較結果に基づいて、第1の音声データ数N1または第2の音声データ数N2のどちらが多いのかを判断する。そして、データ短縮伸張部170は、第1の音声データ数F1と第2の音声データF2を合わせるために、第2の音声データF2を短縮または伸張するのかを決定する。このとき、データ短縮伸張部170は、第1の音声データ数N1と第2の音声データ数N2の差分値に基づいて、どの程度の大きさで、第2の音声データF2を短縮または伸張するのかを決定する。また、データ短縮伸張部170は、データ数比較部150による比較結果と、相関ピーク検出部160により検出された第2の音声データの波長λ2とに基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を合成部180へ出力する。   That is, the data shortening / decompressing unit 170 determines whether the first audio data number N1 or the second audio data number N2 is larger based on the comparison result by the data number comparing unit 150. Then, the data shortening / expanding unit 170 determines whether to shorten or expand the second sound data F2 in order to match the first sound data number F1 and the second sound data F2. At this time, the data shortening / decompressing unit 170 shortens or decompresses the second audio data F2 to what size based on the difference value between the first audio data number N1 and the second audio data number N2. To decide. The data shortening / expanding unit 170 shortens or reduces the second audio data F2 based on the comparison result by the data number comparing unit 150 and the wavelength λ2 of the second audio data detected by the correlation peak detecting unit 160. The second audio data F2 after being expanded, shortened or expanded is output to the synthesis unit 180.

ここで、データ短縮伸張部170の具体的な短縮処理または伸張処理について、説明する。   Here, a specific shortening process or decompression process of the data shortening / decompressing unit 170 will be described.

図2は、音声データの短縮処理の一例を示す図である。図2に示されるように、データ短縮伸張部170は、相関ピーク検出部260により検出された第2の音声データの波長λ2に基づいて、例えば、3波長分の長さのデータを、2波長分の長さのデータに、短縮する。このとき、より好ましくは、図2に示されるように、オーバーラップする区間を設けることにより、より自然なつながりを有する音声とすることができる。   FIG. 2 is a diagram illustrating an example of audio data shortening processing. As shown in FIG. 2, the data shortening / expanding unit 170 converts, for example, data having a length of three wavelengths into two wavelengths based on the wavelength λ2 of the second audio data detected by the correlation peak detecting unit 260. Reduce to minute length data. At this time, more preferably, by providing overlapping sections as shown in FIG. 2, it is possible to obtain a voice having a more natural connection.

図3は、音声データの伸張処理の一例を示す図である。図3に示されるように、データ短縮伸張部170は、相関ピーク検出部260により検出された第2の音声データの波長λ2に基づいて、例えば、2波長分の長さのデータを、3波長分の長さのデータに、伸張する。このとき、より好ましくは、図3に示されるように、オーバーラップする区間を設けることにより、より自然なつながりを有する音声とすることができる。   FIG. 3 is a diagram illustrating an example of audio data decompression processing. As shown in FIG. 3, the data shortening / expanding unit 170 converts, for example, data having a length of two wavelengths into three wavelengths based on the wavelength λ2 of the second audio data detected by the correlation peak detecting unit 260. Decompresses to minutes of data. At this time, more preferably, by providing overlapping sections as shown in FIG. 3, it is possible to obtain a voice having a more natural connection.

図2および図3を用いて説明したように、本発明では、第2の音声データF2に対して短縮処理または伸張処理を行った後に、第1の音声データF1および第2の音声データF2を合成する。これにより、音声スリップを発生させずに、デジタル音声合成を行うことができる。   As described with reference to FIGS. 2 and 3, in the present invention, after the shortening process or the expansion process is performed on the second sound data F2, the first sound data F1 and the second sound data F2 are stored. Synthesize. As a result, digital speech synthesis can be performed without causing speech slip.

図1に示されるように、合成部180は、第1のFIFOメモリ140とデータ短縮伸張部170に接続されている。   As shown in FIG. 1, the synthesis unit 180 is connected to the first FIFO memory 140 and the data shortening / expanding unit 170.

合成部180は、データ短縮伸張部170により出力された短縮または伸張した後の第2の音声データF2と、第1の音声データF1を合成し、この合成データを出力する。   The synthesizing unit 180 synthesizes the second audio data F2 output from the data shortening / expanding unit 170 after being shortened or expanded and the first audio data F1, and outputs the synthesized data.

以上、音声合成装置100の構成について説明した。   The configuration of the speech synthesizer 100 has been described above.

次に音声合成装置100の動作について説明する。   Next, the operation of the speech synthesizer 100 will be described.

まず、基地局(不図示)から送信された第1の音声データF1が、第1のFIFOメモリ110に入力される。併せて、別の移動局(不図示)から送信された第2の音声データF2が、第2のFIFOメモリ120へ入力される。これらの動作と同時に、クロック信号CLK_Aが、第1のFIFOメモリ110および第2のFIFOメモリ120に入力される。さらに、クロック信号CLK_Bが、第2のFIFOメモリ120に入力される。なお、前述の通り、クロック信号CLK_Aは、第1の音声データF1の電波の周波数に対応している。また、クロック信号CLK_Bは、第2の音声データF2の電波の周波数に対応している。   First, first audio data F1 transmitted from a base station (not shown) is input to the first FIFO memory 110. In addition, the second audio data F2 transmitted from another mobile station (not shown) is input to the second FIFO memory 120. Simultaneously with these operations, the clock signal CLK_A is input to the first FIFO memory 110 and the second FIFO memory 120. Further, the clock signal CLK_B is input to the second FIFO memory 120. As described above, the clock signal CLK_A corresponds to the frequency of the radio wave of the first audio data F1. The clock signal CLK_B corresponds to the radio wave frequency of the second audio data F2.

次に、第1のFIFOメモリ110は、入力される第1の音声データを当該第1の音声データの電波に同期して一時的に記憶しながら、順次、第1のカウンタ130および合成部180へ出力する。第2のFIFOメモリ120は、入力される第2の音声データを当該第2の音声データの電波に同期して一時的に記憶しながら、順次、第2のカウンタ140、相関ピーク検出部160およびデータ短縮伸張部170へ出力する。   Next, the first FIFO memory 110 sequentially stores the input first audio data in synchronization with the radio waves of the first audio data, and sequentially stores the first counter 130 and the synthesis unit 180. Output to. The second FIFO memory 120 sequentially stores the input second audio data in synchronization with the radio waves of the second audio data, and sequentially stores the second counter 140, the correlation peak detector 160, and The data is output to the data shortening / expanding unit 170.

次に、第1のカウンタ130は、第1の音声データ数N1を計測する。そして、第1のカウンタ130は、第1の音声データ数N1の計測値を、データ数比較部150へ出力する。第2のカウンタ140は、第2の音声データ数N2を計測する。そして、第2のカウンタ140は、第2の音声データ数N2の計測値を、データ数比較部150へ出力する。   Next, the first counter 130 measures the first number of audio data N1. Then, the first counter 130 outputs the measured value of the first audio data number N1 to the data number comparison unit 150. The second counter 140 measures the second number of audio data N2. Then, the second counter 140 outputs the measurement value of the second audio data number N2 to the data number comparison unit 150.

次に、データ数比較部150は、第1のカウンタ130により計測された第1の音声データ数N1と、第2のカウンタ140により計測された第2の音声データ数N2とを比較する。そして、データ数比較部150は、第1の音声データ数N1および第2の音声データ数N2の差分値を、データ短縮伸張部170へ出力する。   Next, the data number comparison unit 150 compares the first audio data number N1 measured by the first counter 130 with the second audio data number N2 measured by the second counter 140. Then, the data number comparison unit 150 outputs the difference value between the first audio data number N1 and the second audio data number N2 to the data shortening / expanding unit 170.

また、相関ピーク検出部160は、第2の音声データF2の自己相関ピークを検出する。相関ピーク検出部160は、検出した第2の音声データF2の自己相関ピークの位置と、第2の音声データ数N2に基づいて、第2の音声データF2の波長λ2を算出する。そして、相関ピーク検出部160は、第2の音声データF2の波長λ2をデータ短縮伸張部170へ出力する。   Correlation peak detector 160 detects an autocorrelation peak of second audio data F2. The correlation peak detector 160 calculates the wavelength λ2 of the second audio data F2 based on the detected autocorrelation peak position of the second audio data F2 and the second number of audio data N2. Correlation peak detection section 160 then outputs wavelength λ2 of second audio data F2 to data shortening / expansion section 170.

次に、データ短縮伸張部170は、データ数比較部150による比較結果に基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を出力する。   Next, the data shortening / expanding unit 170 shortens or expands the second sound data F2 based on the comparison result by the data number comparing unit 150, and outputs the second sound data F2 after the shortening or expanding.

すなわち、データ短縮伸張部170は、データ数比較部150による比較結果に基づいて、第1の音声データ数N1または第2の音声データ数N2のどちらが多いのかを判断する。そして、データ短縮伸張部170は、第1の音声データ数F1と第2の音声データF2を合わせるために、第2の音声データF2を短縮または伸張するのかを決定する。   That is, the data shortening / decompressing unit 170 determines whether the first audio data number N1 or the second audio data number N2 is larger based on the comparison result by the data number comparing unit 150. Then, the data shortening / expanding unit 170 determines whether to shorten or expand the second sound data F2 in order to match the first sound data number F1 and the second sound data F2.

このとき、データ短縮伸張部170は、第1の音声データ数N1と第2の音声データ数N2の差分値に基づいて、どの程度の大きさで、第2の音声データF2を短縮または伸張するのかを決定する。例えば、データ短縮伸張部170は、第2の音声データF2に対して、(N1/N2)倍の圧縮処理または伸長処理を行う。   At this time, the data shortening / decompressing unit 170 shortens or decompresses the second audio data F2 to what size based on the difference value between the first audio data number N1 and the second audio data number N2. To decide. For example, the data shortening / expanding unit 170 performs (N1 / N2) times compression processing or expansion processing on the second audio data F2.

また、データ短縮伸張部170は、データ数比較部150による比較結果と、相関ピーク検出部160により検出された第2の音声データの波長λ2とに基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を合成部180へ出力する。   The data shortening / expanding unit 170 shortens or reduces the second audio data F2 based on the comparison result by the data number comparing unit 150 and the wavelength λ2 of the second audio data detected by the correlation peak detecting unit 160. The second audio data F2 after being expanded, shortened or expanded is output to the synthesis unit 180.

最後に、合成部180は、データ短縮伸張部170により出力された短縮または伸張した後の第2の音声データF2と、第1の音声データF1を合成し、この合成データを出力する。   Finally, the synthesizing unit 180 synthesizes the second audio data F2 output from the data shortening / expanding unit 170 after being shortened or expanded and the first audio data F1, and outputs the synthesized data.

このように、本発明では、第2の音声データF2に対して短縮処理または伸張処理を行った後に、第1の音声データF1および第2の音声データF2を合成する。これにより、第1の音声データF1に同期するクロックCLK_Aと、第2の音声データF2に同期するクロックCLK_Bが互いに異なっていても、音声スリップを発生させずに、デジタル音声合成を行うことができる。   As described above, in the present invention, the first audio data F1 and the second audio data F2 are synthesized after the shortening process or the expansion process is performed on the second audio data F2. Thereby, even if the clock CLK_A synchronized with the first audio data F1 and the clock CLK_B synchronized with the second audio data F2 are different from each other, digital audio synthesis can be performed without causing audio slip. .

以上、次に音声合成装置100の動作について説明した。   The operation of the speech synthesizer 100 has been described above.

以上の通り、本発明の実施の形態における音声合成装置100は、第1のカウンタ130と、第2のカウンタ140と、データ数比較部150と、データ短縮伸張部170と、合成部180とを備えている。   As described above, the speech synthesis apparatus 100 according to the embodiment of the present invention includes the first counter 130, the second counter 140, the data number comparison unit 150, the data shortening / expansion unit 170, and the synthesis unit 180. I have.

第1のカウンタ130は、第1の音声データF1のデータ数である第1の音声データ数N1を計測する。第2のカウンタ140は、第2の音声データF2のデータ数である第2の音声データ数N2を計測する。データ数比較部150は、第1のカウンタ130により計測された第1の音声データ数N1と、第2のカウンタ140により計測された第2の音声データ数N2とを比較する。データ短縮伸張部170は、データ数比較部150による比較結果に基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を出力する。合成部180は、データ短縮伸張部170により出力された短縮または伸張した後の第2の音声データF2と、第1の音声データF1を合成する。   The first counter 130 measures a first number of audio data N1, which is the number of data of the first audio data F1. The second counter 140 measures the second number of audio data N2, which is the number of data of the second audio data F2. The data number comparison unit 150 compares the first audio data number N1 measured by the first counter 130 with the second audio data number N2 measured by the second counter 140. The data shortening / expanding unit 170 shortens or expands the second audio data F2 based on the comparison result by the data number comparison unit 150, and outputs the second audio data F2 after the shortening or expansion. The synthesizing unit 180 synthesizes the first audio data F1 and the second audio data F2 that has been shortened or expanded and output from the data shortening / expanding unit 170.

このように、データ数比較部150は、第1のカウンタ130により計測された第1の音声データ数N1と、第2のカウンタ140により計測された第2の音声データ数N2とを比較する。また、データ短縮伸張部170は、データ数比較部150による比較結果に基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を出力する。これにより、第2の音声データF2のデータ長を、第1の音声データのデータ長に合わせることができる。そして、合成部180は、データ短縮伸張部170により出力された短縮または伸張した後の第2の音声データF2と、第1の音声データF1を合成する。よって、合成部180は、第1の音声データF1と、この第1の音声データF1のデータ長に合わせたデータ長を有する第2の音声データF2とを、合成する。すなわち、合成部180は、互いに同じデータ長にした後に、第1の音声データF1と第2の音声データF2とを合成する。これにより、第1の音声データF1に同期するクロックCLK_Aと、第2の音声データF2に同期するクロックCLK_Bが互いに異なっていても、音声スリップの発生を抑止して、音声合成を行うことができる。   As described above, the data number comparison unit 150 compares the first audio data number N1 measured by the first counter 130 with the second audio data number N2 measured by the second counter 140. Further, the data shortening / expanding section 170 shortens or expands the second sound data F2 based on the comparison result by the data number comparing section 150, and outputs the second sound data F2 after shortening or expanding. Thereby, the data length of the 2nd audio | voice data F2 can be match | combined with the data length of 1st audio | voice data. Then, the synthesizing unit 180 synthesizes the first audio data F1 with the second audio data F2 output from the data shortening / extending unit 170 after being shortened or expanded. Therefore, the synthesizer 180 synthesizes the first audio data F1 and the second audio data F2 having a data length that matches the data length of the first audio data F1. That is, the synthesizing unit 180 synthesizes the first audio data F1 and the second audio data F2 after setting the same data length. Thereby, even if the clock CLK_A synchronized with the first audio data F1 and the clock CLK_B synchronized with the second audio data F2 are different from each other, it is possible to suppress the occurrence of the audio slip and perform the audio synthesis. .

また、本発明の実施の形態における音声合成装置100は、相関ピーク検出部160をさらに備えている。相関ピーク検出部160は、第2の音声データF2の自己相関ピークを検出する。この検出とともに、相関ピーク検出部160は、第2の音声データF2の自己相関ピークの位置と、第2の音声データ数N2に基づいて第2の音声データF2の波長λ2を算出する。さらに、相関ピーク検出部160は、第2の音声データF2の波長λ2をデータ短縮伸張部170へ出力する。そして、データ短縮伸張部170は、データ数比較部150による比較結果と、相関ピーク検出部160により検出された第2の音声データF2の波長λ2とに基づいて、第2の音声データF2を短縮または伸張し、短縮または伸張した後の第2の音声データF2を出力する。   Moreover, the speech synthesizer 100 according to the embodiment of the present invention further includes a correlation peak detector 160. Correlation peak detector 160 detects the autocorrelation peak of second audio data F2. Along with this detection, the correlation peak detector 160 calculates the wavelength λ2 of the second audio data F2 based on the position of the autocorrelation peak of the second audio data F2 and the second number of audio data N2. Further, correlation peak detection section 160 outputs wavelength λ2 of second audio data F2 to data shortening / expansion section 170. Then, the data shortening / extending unit 170 shortens the second audio data F2 based on the comparison result by the data number comparing unit 150 and the wavelength λ2 of the second audio data F2 detected by the correlation peak detecting unit 160. Alternatively, the second audio data F2 after being expanded and shortened or expanded is output.

このように、データ短縮伸張部170は、データ数比較部150による比較結果と、相関ピーク検出部160により検出された第2の音声データF2の波長λ2とに基づいて、第2の音声データF2を短縮または伸張する。これにより、データ短縮伸張部170は、第2の音声データF2の波長λ2単位で、当該第2の音声データF2を短縮または伸張することができる。この結果、第1の音声データF1に同期するクロックCLK_Aと、第2の音声データF2に同期するクロックCLK_Bが互いに異なっていても、より効率よく音声スリップの発生を抑止して、音声合成を行うことができる。   As described above, the data shortening / expanding unit 170 performs the second audio data F2 based on the comparison result by the data number comparison unit 150 and the wavelength λ2 of the second audio data F2 detected by the correlation peak detection unit 160. Shorten or stretch. Thereby, the data shortening / expanding unit 170 can shorten or expand the second audio data F2 in units of the wavelength λ2 of the second audio data F2. As a result, even if the clock CLK_A synchronized with the first audio data F1 and the clock CLK_B synchronized with the second audio data F2 are different from each other, the generation of the audio slip is suppressed more efficiently and the audio synthesis is performed. be able to.

また、本発明の実施の形態における音声合成装置100において、第1の音声データF1は、第1の通信局(例えば、基地局)から送信されデータである。第2の音声データF2は、第1の通信局と異なる第2の通信局(例えば、別の移動局)から送信されたデータである。このように、異なる通信局から送信される2つの音声データを、音声スリップの発生を抑止して、音声合成を行うことができる。   In the speech synthesizer 100 according to the embodiment of the present invention, the first speech data F1 is data transmitted from a first communication station (for example, a base station). The second audio data F2 is data transmitted from a second communication station (for example, another mobile station) different from the first communication station. As described above, it is possible to synthesize two voice data transmitted from different communication stations while suppressing the occurrence of voice slip.

以上、実施の形態をもとに本発明を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、上述各実施の形態に対して、さまざまな変更、増減、組合せを加えてもよい。これらの変更、増減、組合せが加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described above based on the embodiment. The embodiment is an exemplification, and various modifications, increases / decreases, and combinations may be added to the above-described embodiments without departing from the gist of the present invention. It will be understood by those skilled in the art that modifications to which these changes, increases / decreases, and combinations are also within the scope of the present invention.

100 音声合成装置
110 第1のFIFOメモリ
120 第2のFIFOメモリ
130 第1のカウンタ
140 第2のカウンタ
150 データ数比較部
160 相関ピーク検出部
170 データ短縮伸張部
180 合成部
DESCRIPTION OF SYMBOLS 100 Speech synthesizer 110 1st FIFO memory 120 2nd FIFO memory 130 1st counter 140 2nd counter 150 Data number comparison part 160 Correlation peak detection part 170 Data shortening expansion part 180 Synthesis | combination part

Claims (2)

第1の音声データのデータ数である第1の音声データ数を計測する第1のカウンタと、
第2の音声データのデータ数である第2の音声データ数を計測する第2のカウンタと、
前記第1のカウンタにより計測された第1の音声データ数と、第2のカウンタにより計測された第2の音声データ数とを比較するデータ数比較部と、
前記データ数比較部による比較結果に基づいて、前記第2の音声データを短縮または伸張し、短縮または伸張した後の第2の音声データを出力するデータ短縮伸張部と、
前記データ短縮伸張部により出力された前記短縮または伸張した後の第2の音声データと、前記第1の音声データを合成する合成部と
前記第2の音声データの自己相関ピークを検出するとともに、前記第2の音声データの自己相関ピークの位置と、前記第2の音声データ数に基づいて前記第2の音声データの波長を算出し、前記第2の音声データの波長を前記データ短縮伸張部へ出力する相関ピーク検出部を備え、
前記データ短縮伸張部は、前記データ数比較部による比較結果と、前記相関ピーク検出部により検出された前記第2の音声データの波長とに基づいて、前記第2の音声データを短縮または伸張し、短縮または伸張した後の第2の音声データを出力する音声合成装置。
A first counter that measures the number of first audio data that is the number of data of the first audio data;
A second counter that measures a second number of audio data that is the number of data of the second audio data;
A data number comparison unit that compares the first audio data number measured by the first counter with the second audio data number measured by the second counter;
A data shortening / expanding unit that shortens or expands the second audio data based on the comparison result by the data number comparison unit, and outputs the second audio data after the shortening or expansion;
A synthesizing unit that synthesizes the first audio data and the second audio data after the shortening or expansion output by the data shortening / extracting unit ;
The autocorrelation peak of the second audio data is detected, and the wavelength of the second audio data is calculated based on the position of the autocorrelation peak of the second audio data and the number of the second audio data. A correlation peak detection unit that outputs the wavelength of the second audio data to the data shortening / decompression unit;
The data shortening / extending unit shortens or decompresses the second audio data based on the comparison result by the data number comparing unit and the wavelength of the second audio data detected by the correlation peak detecting unit. A speech synthesizer that outputs the second speech data after shortening or expansion .
前記第1の音声データは、第1の通信局から送信されデータであり、
前記第2の音声データは、前記第1の通信局と異なる第2の通信局から送信されたデータである請求項に記載の音声合成装置。
The first audio data is data transmitted from a first communication station,
The speech synthesis apparatus according to claim 1 , wherein the second voice data is data transmitted from a second communication station different from the first communication station.
JP2013257938A 2013-12-13 2013-12-13 Speech synthesizer Active JP6337455B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013257938A JP6337455B2 (en) 2013-12-13 2013-12-13 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013257938A JP6337455B2 (en) 2013-12-13 2013-12-13 Speech synthesizer

Publications (2)

Publication Number Publication Date
JP2015114584A JP2015114584A (en) 2015-06-22
JP6337455B2 true JP6337455B2 (en) 2018-06-06

Family

ID=53528412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013257938A Active JP6337455B2 (en) 2013-12-13 2013-12-13 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP6337455B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4715806B2 (en) * 2007-05-18 2011-07-06 株式会社富士通ゼネラル Digital wireless receiver
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices

Also Published As

Publication number Publication date
JP2015114584A (en) 2015-06-22

Similar Documents

Publication Publication Date Title
EP2720224B1 (en) Voice Converting Apparatus and Method for Converting User Voice Thereof
WO2013154027A1 (en) Decoding device and method, audio signal processing device and method, and program
US20150319556A1 (en) Audio player with bluetooth function and audio playing method thereof
US20180137876A1 (en) Speech Signal Processing System and Devices
JP6646677B2 (en) Audio signal processing method and apparatus
JP6251605B2 (en) Noise canceller device
US10546581B1 (en) Synchronization of inbound and outbound audio in a heterogeneous echo cancellation system
EP2782254A1 (en) Pll circuit
JP6337455B2 (en) Speech synthesizer
JP5302190B2 (en) Audio decoding apparatus, audio decoding method, program, and integrated circuit
CN109076283B (en) Tone compensating device and method for earphone
KR20170098761A (en) Apparatus and method for extending bandwidth of earset with in-ear microphone
US20180145709A1 (en) Noise canceler
JP5139550B2 (en) Mobile communication terminal test system, base station simulation apparatus, and delay time measurement method
JP2017122792A (en) Band extension device and band extension method
JP6641624B2 (en) Signal processing device and signal processing method
JP6763194B2 (en) Encoding device, decoding device, communication system
US20160086610A1 (en) Audio processing device and method and electro-acoustic converting device and method
JP2007158633A (en) Receiving terminal
JP5322793B2 (en) Speech synthesis apparatus and speech synthesis method
JP2009033347A (en) Wiretap device detector and wiretap device detecting method
JPWO2013140733A1 (en) Band power calculation device and band power calculation method
JP6371530B2 (en) Audio signal processing apparatus and audio pitch conversion program
JPH0876783A (en) Voice processor and portable apparatus
JP2019035894A (en) Voice processing device and voice processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6337455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150