Nothing Special   »   [go: up one dir, main page]

JP3553828B2 - 音声蓄積再生方法および音声蓄積再生装置 - Google Patents

音声蓄積再生方法および音声蓄積再生装置 Download PDF

Info

Publication number
JP3553828B2
JP3553828B2 JP23097299A JP23097299A JP3553828B2 JP 3553828 B2 JP3553828 B2 JP 3553828B2 JP 23097299 A JP23097299 A JP 23097299A JP 23097299 A JP23097299 A JP 23097299A JP 3553828 B2 JP3553828 B2 JP 3553828B2
Authority
JP
Japan
Prior art keywords
voice
speed
stored
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23097299A
Other languages
English (en)
Other versions
JP2001056696A (ja
Inventor
享邦 西田
昌洋 渡辺
みづほ 井上
義武 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP23097299A priority Critical patent/JP3553828B2/ja
Publication of JP2001056696A publication Critical patent/JP2001056696A/ja
Application granted granted Critical
Publication of JP3553828B2 publication Critical patent/JP3553828B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,音声通信システム等において,自然な通話の実現を可能とした音声蓄積再生方法および音声蓄積再生装置に関する。
【0002】
【従来の技術】
音声通信を半2重通信路やネットワーク上で行うときなど効率的に音声を伝送するために,いわゆるボイス(音声)スイッチを用い,音声を送るときには音声回線を開いて音声を送り,無音時には音声回線を閉じて他のユーザが音声を送信できるようにしたり,他のデータを送受できるようにしたシステムがある。このシステムでは,送信側において,音声パワー計測によって音声パワーがある閾値を越えたときに,語頭と判断して音声回線を開くようにしたり,音素認識技術を用いることにより語頭検出精度を高め,語頭(話頭)切断を防止していた。
【0003】
しかしながら,背景雑音が大きなときには,語頭における音声パワーは背景雑音に対し小さく,また,音声認識率も低くなることから,語頭検出誤りによる欠落が生じやすくなり,音声通話は非常に不自然かつ不明瞭になり易いという問題点があった。
【0004】
図5に「北見」と発声したときの波形と音声パワー,および音声スイッチがONしている期間の例を示す。図5の例から明らかなように,語頭の「k」の部分は音声パワーが閾値に達していないため,音声スイッチのONが遅れ,これにより話頭の「き」の「k」の部分が欠落することがわかる。このように,話頭切断は,話頭が子音部のような音声パワーの小さいときに生じ易く,母音など音声パワーの大きなときには生じにくい。日本語を考えると,通常,音声は子音+母音の組合せが多い。そこで,上記問題点を解決するために,常に音声を一旦蓄積しておき,音声パワーの大きな母音部等で語頭が検出されたときに,ある一定期間さかのぼった時点から音声を再生し語頭欠落を防止する方法がある。
【0005】
【発明が解決しようとする課題】
しかしながら,音声の蓄積により,音声遅延が生じ通話は非常に不自然なものになってしまう。通常人間が会話するときには,相手の発言が終ってから発声することが多いと考えられる。例えば,100msecの音声蓄積を行うことを考えると,発声者が,発声し終ってから相手に発声の終了がわかるまでに,回線遅延がなかったとして100msecかかり,その後,相手が発声し最初の発声が相手の発声開始を知るまでに100msecかかることになる。そのため,会話間の無音部分は,合計200msecとなり,スムーズな会話が阻害される。
【0006】
本発明は,以上のような音声スイッチを実現するときに問題となる話頭切断を防止し,かつ音声遅延を生じさせないで自然な通話を可能とすることを目的とする。
【0007】
【課題を解決するための手段】
本発明は,上記課題を解決するため,話頭部分では,音声蓄積部から過去の音声を話速変換することにより速く再生し,音声蓄積部に過去の音声データがなくなったところで,入力されている音声データを等速度で再生し,語尾において音声遅延が生じないようにする。上記方法により,先に示した音声を蓄積しておいて話頭切断を防止するだけのシステムを用いたときの会話間の無音部分は,多くても100msecとなり,スムーズに会話することが可能となる。
【0008】
これにより,話頭切断による会話の不明瞭さを防止し,音声遅延による会話の不自然さを防止することができる。
【0009】
ところで,話速を変換する装置として,特開平8−83095号公報「話速変換方法および装置」や,特開平8−202391号公報「話速変換装置」に記載されているものがある。これらは,受聴者の聞き取り能力に合った話速度で入力音声信号を出力する装置であり,主に話速度を下げる制御を行う。また,話速度は,音素や音声処理フレームに対しては変動するが,一つの文といった大枠で,話速度が設定されるので,本発明のように,話頭部分で速く再生し,途中から等速再生し語尾において遅延をなくすことはできない。
【0010】
【発明の実施の形態】
図1は,本発明の構成例を示すブロック図である。図1において,1は音声を入力し,入力音声が音声区間かどうかを判別する音声検出部,2は入力された音声を蓄積する音声蓄積部であるリングバッファ,3は入力音声をリングバッファ2に格納し入力ポインタおよび出力ポインタを更新する制御を行うリングバッファ制御部,4は音声検出部1において音声が検出されたときに,どのくらい時間をさかのぼった時点の蓄積された音声から再生するかを決め,リングバッファ2に蓄積された音声のうち話頭部分を速く再生し,入力音声に追いついたところで等速度再生する制御を行う話速制御部,5は話速制御部4の制御のもとにリングバッファ2に蓄積された音声の話速を変換する話速変換器を表す。
【0011】
図1の装置に入力された音声は,音声検出部1において音声パワー等が計測され,リングバッファ2に蓄えられる。また,音声検出部1は,常に背景雑音パワーを計測し,音声区間検出のための閾値を動的に変化させる。
【0012】
発声者が発声しないときには,入力音声は常に過去のデータを保持しながら次々とリングバッファ2に蓄えられる。音声検出部1で音声が検出されると通知がリングバッファ制御部3および話速制御部4へ送られる。リングバッファ制御部3では,今現在書き込まれている音声データの格納されているポインタ,および過去の音声データが書き込まれているポインタを把握しているので,過去の音声データが存在していること,またどのくらい過去のデータが蓄えられているかを話速制御部4に通知する。
【0013】
話速制御部4では,リングバッファ制御部3から受け取ったデータにより,話速変換器5に話速度を通知し,ある特定の時間内に過去のデータを全て再生し,今現在書き込まれている入力音声データのポインタに過去の入力音声データのポインタが追いつくようにする。
【0014】
例えば,蓄積されている過去のデータが,100msec分あり,100msecで追いつくようにしようと考えると,再生速度は2倍ということになり,この情報を話速変換器5に通知する。逆に,目標とする時間を設定せず,話速変換器5に通知する話速度は,常に2倍とすることも考えられる。
【0015】
ところで,通常人間が話速を調整するとき,無音部や母音部の長さが大きく変化するが,子音部の速度は変化しない。逆に子音部の速度を変化させずにポーズ部や母音部の速度を変化させても,聞き取りに大きな劣化は生じない。つまり,音素により認知できる最小の継続時間が違うので,音声検出部1に音素認識を用いたときには,再生データの音素によって細かく動的に話速度を変化させることで,さらに違和感のない通話が可能となる。
【0016】
そこで,音素認識を用いたときには,蓄積されている音声データのどこからどこまでがどの音素なのかという情報も蓄積されているので,それぞれの区間における音素に対する最小継続時間が保証される再生速度を話速変換器5に通知する。ただし,あまりにも大きな速度になると違和感が増大するので,もし,あらかじめ定められた最大速度を越えるようなときには,最大速度を話速変換器5に通知する。例えば,「おーがき」と発声したときに,「おがき」と再生されることを防ぐ役割を持たせる。
【0017】
加えて,先に説明した認知できる最小の継続時間は,ポーズ部,無音摩擦音,破裂音,母音等,ある似通った音素間での違いは小さいので,厳密に,処理量が大きな音素認識をせず,ポーズ部,無声摩擦音,破裂音,母音等といった処理量の小さな音素の大分類を用いて,再生速度を決定することも考えられる。
【0018】
話速変換器5は,リングバッファ2から音声フレームデータを取り出し,話速制御部4から指定された速度に応じてフレームデータを圧縮することで,フレームデータ数を減少させる。音声出力では,定期的な周期でフレームデータの1サンプル毎に再生されるので,フレームデータの削減により,話速度が大きくなる。入力音声データに追いついたところで,話速度を入力音声と同じとする。
【0019】
図2に「北見」と発声したときの話速の変化再生される音声の例を示す。図2(a)は,音素認識せずにパワーのみで音声を検出し,一定速度で現在の音声データに追いつくように再生をしたとき,図2(b)は,音素認識を行い,音素の種類によって再生速度を変化させる可変速度で再生をしたときの様子を示している。便宜上,音声データの単位をフレームと呼ぶ。また,簡単のため速度変化を音声フレーム数を間引くことにより表現している。「*」は無音部を表す。
【0020】
図2(a)のとき,15フレームの「a」で入力音声に再生音声が到達するが,そこに到達するまで,再生速度を2倍にして再生し,その後は,入力音声に対し等速度で再生する。図2(b)のとき,1〜2フレーム目の「*」は,破裂音に先行する無音部なので,フレームを1つ飛ばした速度で再生する。3〜4フレームの「k」は,子音部なので,そのまま再生する。5〜8フレームの「i」は,人間が母音を認知するのに必要なフレーム数を確保するために,例えば3フレームにして再生する。9〜10フレームの「*」は,1フレームにする。11〜12フレームの「t」は,子音部なのでそのまま再生する。13〜17フレームの「a」は,「i」と同様の理由により5フレームを3フレームにして再生する。これ以降過去の音声データはなくなるので,そのまま再生する。
【0021】
図2からわかるように,語尾において入力音声フレームと再生音声フレームとは一致しているので,語尾において音声遅延はなくなる。また,語尾においては,音声区間終端が検出されたときには,リングバッファ制御部3は,出力音声データのポインタ(以下,出力ポインタという)を停止させる。入力音声データのポインタ(以下,入力ポインタという)が,出力ポインタに追いついた時点で,出力ポインタを進ませる。これにより,音声終端が検出され再生が終った後に,すぐに音声区間が検出されたときに,2重に音声が再生されることを防ぐ。
【0022】
音素認識せずにパワーのみで音声検出をする場合の制御例を図3に,音素認識をして,音素の種類により再生速度を変化させる場合の制御例を図4に示す。
【0023】
音素認識をせずに,音声(音響)パワーのみで音声検出をする場合,まず,音声検出部1では,音声区間を音声パワーと閾値との大小比較により検出する(S1)。リングバッファ2には,リングバッファ制御部3によって常時入力音声が蓄積される。話速制御部4は,音声検出部1から通知を受け,話速変換器5が参照する話速レジスタ(図示省略)に目標話速度を設定する(S2)。
【0024】
話速変換器5は,話速制御部4の制御のもとにリングバッファ2から音声フレームデータを取り込み(S3),話速レジスタ値に準じた話速変換を行う(S4)。その変換した音声フレームデータを出力バッファ(図示省略)へ書き出し(S5),リングバッファ2の出力ポインタをインクリメントする(S6)。
【0025】
リングバッファ2の入力ポインタが出力ポインタに追いついたかどうかをチェックし(S7),追いついていない場合,ステップS3へ戻って,同様に目標話速度の速い速度による音声再生出力を繰り返す。入力ポインタが出力ポインタに追いついた場合には,話速レジスタに等速度を設定して(S8),ステップS3へ戻り,入力音声の速度と同じ速度で音声を再生する。以上の処理を音声区間が終了するまで繰り返す。
【0026】
音素認識を行い,音素の種類により再生速度を変化させる場合の制御は,図4に示すように行われる。この方法では,あらかじめ音素に対する最小継続時間が格納されたテーブル10を用意しておく。
【0027】
まず,音声検出部1では,入力音声について音素認識を行い,その認識結果によって音声区間を検出する(S10)。このとき音声パワーも考慮し,音声パワーによる音声区間の検出を併用してもよい。リングバッファ2には,リングバッファ制御部3によって,常時入力音声が蓄積され,入力ポインタがその都度更新される。また,音声検出部1による音素認識の結果も併せてリングバッファ2に蓄積される。
【0028】
音声区間が検出されると,リングバッファ2から音声フレームデータを取り込み(S11),それに対応する音素認識結果を話速制御部4に取り込む。話速制御部4は,先に処理していた音声フレームデータの音素と今から処理しようとしている音声フレームデータの音素は同じかどうかを判定する(S12)。同じ場合には,ステップS14へ進む。違う音素であれば,ステップS13へ進み,音素の継続時間を調べ,音素に対する最小継続時間テーブル10から最小継続時間を読み出し,所定の最高話速度を越えないように求められた話速度を話速レジスタに設定する(S13)。その後,ステップS14へ進む。
【0029】
話速変換器5は,リングバッファ2から取り込まれた音声フレームデータについて,話速レジスタ値に準じた話速変換を行う(S14)。その変換した音声フレームデータを出力バッファ(図示省略)へ書き出し(S15),リングバッファ2の出力ポインタをインクリメントする(S16)。
【0030】
リングバッファ2の入力ポインタが出力ポインタに追いついたかどうかをチェックし(S17),追いついていない場合,ステップS11へ戻って,同様に可変速度による音声再生出力を繰り返す。入力ポインタが出力ポインタに追いついた場合には,話速レジスタに等速度を設定して(S18),リングバッファ2から次の音声フレームデータを取り込み,ステップS14へ戻って,入力音声の速度と同じ速度で音声を再生する。以上の処理を音声区間が終了するまで繰り返す。
【0031】
【発明の効果】
以上のとおり,本発明により,音声スイッチを実現するときの問題となる話頭切断を防止し,なおかつ音声遅延を生じさせず,自然な通話を実現することができるようになる。
【図面の簡単な説明】
【図1】本発明の構成例を示すブロック図である。
【図2】話速変換の様子を示す図である。
【図3】音素認識せずにパワーのみで音声検出をする場合の制御フローを示す図である。
【図4】音素の種類により再生速度を変化させる場合の制御フローを示す図である。
【図5】音声波形と音声パワー,および音声スイッチの動作の関係を説明する図である。
【符号の説明】
1 音声検出部
2 リングバッファ
3 リングバッファ制御部
4 話速制御部
5 話速変換器

Claims (4)

  1. 音声を入力する過程と,
    入力された音声が音声区間かどうかを判別する過程と,
    入力された音声を音声蓄積手段に蓄積する過程と,
    音声区間が検出されたとき,前記音声蓄積手段の出力ポインタが示す位置から蓄積された音声の再生を開始し,出力ポインタを進めながら蓄積された音声のうち話頭部分を速く再生し,入力音声に追いついたところで等速度再生する過程と
    音声区間終端が検出されたとき,あらかじめ決められた時間分の音声が蓄積されるまで前記出力ポインタを停止させ,蓄積された時点で出力ポインタを進ませる過程とを有する
    ことを特徴とする音声蓄積再生方法。
  2. 音声を入力し,入力音声が音声区間かどうかを判別する音声検出手段と,
    入力された音声を蓄積する音声蓄積手段と,
    前記音声蓄積手段への入力音声の蓄積を制御し,前記音声検出手段において音声区間終端が検出されたとき,あらかじめ決められた時間分の音声が蓄積されるまで出力ポインタを停止させ,蓄積された時点で出力ポインタを進ませる音声蓄積制御手段と,
    前記音声検出手段において音声が検出されたときに,前記出力ポインタが示す位置から蓄積された音声の再生を開始し,出力ポインタを進めながら前記音声蓄積手段に蓄積された音声のうち話頭部分を速く再生し,入力音声に追いついたところで,等速度再生する制御を行う話速変換制御手段と,
    前記話速変換制御手段の制御のもとに前記音声蓄積手段に蓄積された音声の話速を変換する話速変換手段とを備える
    ことを特徴とする音声蓄積再生装置。
  3. 前記音声区間の検出を音声パワーに基づいて行い,
    蓄積された音声のうち話頭部分の再生を,入力音声の速度より速い一定の速度で行う
    ことを特徴とする請求項1記載の音声蓄積再生方法。
  4. 入力された音声の音素認識を行い,
    蓄積された音声のうち話頭部分の再生を,前記音素認識結果に基づいて決められた速度で行う
    ことを特徴とする請求項1記載の音声蓄積再生方法。
JP23097299A 1999-08-18 1999-08-18 音声蓄積再生方法および音声蓄積再生装置 Expired - Fee Related JP3553828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23097299A JP3553828B2 (ja) 1999-08-18 1999-08-18 音声蓄積再生方法および音声蓄積再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23097299A JP3553828B2 (ja) 1999-08-18 1999-08-18 音声蓄積再生方法および音声蓄積再生装置

Publications (2)

Publication Number Publication Date
JP2001056696A JP2001056696A (ja) 2001-02-27
JP3553828B2 true JP3553828B2 (ja) 2004-08-11

Family

ID=16916219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23097299A Expired - Fee Related JP3553828B2 (ja) 1999-08-18 1999-08-18 音声蓄積再生方法および音声蓄積再生装置

Country Status (1)

Country Link
JP (1) JP3553828B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292720A (ja) * 2007-05-24 2008-12-04 Yamaha Corp 音声送信装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509255B2 (en) 2003-10-03 2009-03-24 Victor Company Of Japan, Limited Apparatuses for adaptively controlling processing of speech signal and adaptively communicating speech in accordance with conditions of transmitting apparatus side and radio wave and methods thereof
US7292564B2 (en) * 2003-11-24 2007-11-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for use in real-time, interactive radio communications
EP1840877A4 (en) * 2005-01-18 2008-05-21 Fujitsu Ltd LANGUAGE SPEED CHANGE PROCEDURE, AND LANGUAGE SPEED CHANGE DEVICE
JP2009021923A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声通信装置
JP2009122598A (ja) * 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
JP6476768B2 (ja) * 2014-11-07 2019-03-06 沖電気工業株式会社 音声処理装置、プログラム及び方法
CN110352591B (zh) 2017-12-05 2021-10-26 Nec平台株式会社 通信装置、通信数据记录系统、通信方法和程序
JP7422685B2 (ja) * 2018-05-31 2024-01-26 シュアー アクイジッション ホールディングス インコーポレイテッド 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法
JP7379965B2 (ja) * 2019-09-05 2023-11-15 ヤマハ株式会社 会話支援装置、及び会話支援システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292720A (ja) * 2007-05-24 2008-12-04 Yamaha Corp 音声送信装置

Also Published As

Publication number Publication date
JP2001056696A (ja) 2001-02-27

Similar Documents

Publication Publication Date Title
EP0910065B1 (en) Speaking speed changing method and device
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
WO2016063879A1 (ja) 音声合成装置および方法
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
JP4630876B2 (ja) 話速変換方法及び話速変換装置
US6999922B2 (en) Synchronization and overlap method and system for single buffer speech compression and expansion
JP4752516B2 (ja) 音声対話装置および音声対話方法
JPS60247697A (ja) 音声対話装置
JPH08106296A (ja) 単語認識システム
US20040267524A1 (en) Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
JP2001184100A (ja) 話速変換装置
JP3219892B2 (ja) リアルタイム話速変換装置
JP4127155B2 (ja) 聴覚補助装置
JPH0950288A (ja) 音声認識装置及び音声認識方法
JP3081469B2 (ja) 話速変換装置
JP3187242B2 (ja) 話速変換装置
JPH0772896A (ja) 音声の圧縮伸長装置
JP2005064744A (ja) 聴覚補助装置
JP2001154684A (ja) 話速変換装置
WO2014059585A1 (zh) 一种通话即时翻译系统和方法
JPH02103599A (ja) 音声認識装置
KR100533217B1 (ko) 음성신호의 발성변환용 신호처리에 의한 친절 헤드폰장치
JP2024102698A (ja) アバター動作制御装置およびアバター動作制御方法
JP2007212967A (ja) 話速変換装置
KR20210085777A (ko) 말듣기 효율 향상을 위한 화속조절출력 방법

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees