Nothing Special   »   [go: up one dir, main page]

JP2015141294A - 通信装置 - Google Patents

通信装置 Download PDF

Info

Publication number
JP2015141294A
JP2015141294A JP2014013633A JP2014013633A JP2015141294A JP 2015141294 A JP2015141294 A JP 2015141294A JP 2014013633 A JP2014013633 A JP 2014013633A JP 2014013633 A JP2014013633 A JP 2014013633A JP 2015141294 A JP2015141294 A JP 2015141294A
Authority
JP
Japan
Prior art keywords
unit
component
detection unit
speech speed
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014013633A
Other languages
English (en)
Other versions
JP6277739B2 (ja
Inventor
佐々木 均
Hitoshi Sasaki
均 佐々木
遠藤 香緒里
Kaori Endo
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014013633A priority Critical patent/JP6277739B2/ja
Priority to US14/592,802 priority patent/US9620149B2/en
Priority to EP15150456.0A priority patent/EP2899722B1/en
Publication of JP2015141294A publication Critical patent/JP2015141294A/ja
Application granted granted Critical
Publication of JP6277739B2 publication Critical patent/JP6277739B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

【課題】疑似帯域を拡張する際に出力音声に雑音感をもたらさない通信装置を提供する。
【解決手段】通信装置は、入力された音声信号の一部の成分を抽出する抽出部と、音声信号の特性を検出する検出部と、検出部で検出した特性に基づき、抽出部が抽出した成分を調整する調整部と、調整部で調整した成分を音声信号に加算して音声信号の帯域を拡張する加算部とを備える。
【選択図】図3

Description

本発明は、通信装置に関する。
通信のために狭帯域化された音声信号の周波数帯域を、受信装置側で疑似的に拡張する技術が、下記の先行技術文献に開示されている。
特開2012−022166号公報 特開2003−255973号公報
しかしながら、従来の音声処理では、擬似帯域を拡張する音声信号に子音が集中した場合に高域成分が強調されるため、処理された出力音声に雑音感をもたらす場合があった。
そこで、一態様では、疑似帯域を拡張する際に出力音声に雑音感をもたらさない通信装置を提供することを目的とする。
一態様では、通信装置は、入力された音声信号の成分を抽出する抽出部と、前記音声信号の話速を検出する検出部と、前記検出部で検出した前記話速に基づき、前記抽出部が抽出した前記成分を調整する調整部と、前記調整部で調整した成分を前記音声信号に加算して前記音声信号の帯域を拡張する加算部とを備える。
一態様によれば、入力音声の帯域を拡張する際に出力音声に雑音感をもたらさない通信装置を提供することができる。
音声処理機能を備える通信装置の構成の一例を示す図 制御部のハードウェア構成の一例を示す図 第1の実施形態における音声処理機能の構成の一例を示す図 話速検出部の構成の一例を示す図 通信装置の動作の一例を示すフローチャート 音声処理機能の動作の一例を示すフローチャート 擬似帯域拡張処理を説明するための、入力音声からのデータ抽出を示すグラフ(a)、抽出したデータの整形及びレベル調整を示す図(b)、データ加算を示すグラフ(c) 話速検出部の動作の一例を示すフローチャート 入力音声の周波数特性を示すグラフ 入力音声の子音の周波数特性を示すグラフ 話速検出部の処理を説明するための、原音の時間推移を示すグラフ(a)、原音のホルマントを示すグラフ(b)、原音のピッチ強度を示すグラフ(c) 第2の実施形態における音声処理機能の構成の一例を示す図
以下、図面に基づいて本発明の実施の形態を説明する。
先ず、図1を用いて、本実施形態における音声処理機能を備える通信装置の構成を説明する。図1は、音声処理機能を備える通信装置の構成の一例を示す図である。
図1において、通信装置1は、制御部10、通信部20、操作表示部30、D/A(Digital /Analog)変換部41、スピーカ42、A/D変換部43、およびマイク44を備える。
通信部20は、アンテナ21に接続されて、アンテナ21を介した無線通信の通信制御を行う。通信部20は、例えば専用の通信制御ハードウェアによって実現できる。
操作表示部30は、通信装置1のユーザに対して各種のユーザインターフェイスを提供し、ユーザによる操作入力を可能にする。操作表示部30は、例えばタッチパネルによって実現できる。
D/A変換部41は、例えば通信部20を介して遠端(通信相手の端末)から入力されて制御部10の音声処理機能100によって処理された音声データをアナログ化して、スピーカ42に対して音声を出力する。
A/D変換部43は、マイク44から入力された音声をデジタルデータ化して制御部10に入力する。
制御部10は、通信装置1の動作を制御する。制御部10は、音声処理機能100を備える。制御部の詳細を図2を用いて説明する。図2は、制御部のハードウェア構成の一例を示す図である。
図2において、制御部10は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、フラッシュメモリ13、およびCodec(コーデック)14を備える。CPU11は、RAM12またはフラッシュメモリ13に記憶されたプログラムを実行する。フラッシュメモリ13は、書き換え可能な不揮発性メモリであり、プログラムやデータを記憶することができる。Codec14は、通信装置1で送受信するデータをエンコードまたはデコードするコーデック(Codec)処理を行う。本実施形態では、Codec14は、専用のハードウェアを使用するが、例えばコーデックのプログラムをフラッシュメモリ13に記憶させて、RAM12に読み出してCPU11が実行することにより実現してもよい。
図1に戻り、制御部10は、フラッシュメモリ13等に格納されているプログラムを実行することにより音声処理機能100を実現する。
音声処理機能100は、遠端から入力された音声信号(以下、「入力音声」と省略する。)に対して、擬似帯域拡張処理を行う。擬似帯域拡張処理とは、通信部20を介した無線通信の通信速度に応じて制限された周波数帯域による遠端からの入力音声に対して周波数の高い音声信号を加算することにより出力される音声信号(以下、「出力音声」と省略する。)に擬似的に周波数帯域を拡張する処理である。
本実施形態では、音声処理機能100は、フラッシュメモリ13等に格納されているプログラムで実現するものとして説明するが、例えば同じ機能をハードウェアまたはミドルウエアによって実現してもよい。
なお、図2で説明した制御部10は、例えば、通信制御の用途に作成されたASIC(Application Specific Integrated Circuit)とすることができる。ASICには、CPU(Central Processing Unit)またはメモリ等のデジタル回路の他に通信用のアナログ回路を含んでいてもよい。
[第1の実施形態]
次に、図3を用いて、第1の実施形態における音声処理機能100の詳細を説明する。図3は、第1の実施形態における音声処理機能の構成の一例を示す図である。
図3において、音声処理機能100は、話速検出部101、複写成分抽出部102、複写成分整形部103、レベル調整部104、および複写成分加算部105を備える。
話速検出部101は、通信部20を介して遠端から入力されて、Codec14によりデコードされた入力音声の話速を検出して決定する。話速とは、話者が発声する音声の発声速度である。話速の検出方法の詳細は後述する。
複写成分抽出部102は、入力音声の中で特定の周波数帯域の成分を擬似帯域拡張の処理で複写する複写成分として抽出する。複写成分の抽出は、入力音声に対してFFT(Fast Fourier Transform)処理を行い、予め設定された周波数帯域の音声を抽出する。FFTのサンプリング周波数は、例えば入力音声を8KHz、出力音声を16KHzで行う。
複写成分整形部103は、複写成分抽出部102で抽出された複写成分の波形を整形する。波形の整形は、入力音声に対して設定された周波数範囲を切り出すことにより行われる。
レベル調整部104は、話速検出部101から入力される補正値に応じて、複写成分整形部103から入力された複写成分に対して複写成分のレベル調整を行う。レベル調整の詳細について、図7を用いて説明する。図7は、擬似帯域拡張処理を説明するための、入力音声からのデータ抽出を示すグラフ(a)、抽出したデータの整形及びレベル調整を示す図(b)、データ加算を示すグラフ(c)である。
レベル調整部104によって行われるレベルの調整は、例えば、複写成分の音量(波高値)に対して所定の減衰率で減衰させることにより行う。図7(a)は、入力音声に対してFFTの処理を行い、周波数特性として表したグラフである。
図7(b)は、図7(a)に示す入力音声に対して複写成分抽出部102が1.5KHz〜3.5KHzの範囲を複写成分として抽出し、複写成分整形部103から出力された複写成分の音量に対して、所定の減衰率を適用させた場合を示している。レベル調整部104は、話速検出部101から入力される補正値に応じて、減衰率を変えることができる。
また、レベル調整部104は、話速検出部101から入力される補正値に応じて、複写成分に対する周波数のシフト量の調整を行ってもよい。図7(b)は、複写成分整形部から入力された複写成分の音量に対して、高音方向に2KHzのシフトを行っている場合を示している。複写成分整形部103から入力された複写成分は、1.5KHz〜3.5KHzの周波数範囲であり、2KHz高音側にシフトすると、複写成分は、3.5KHz〜5.5KHzの周波数範囲となる。
また、レベル調整部104は、話速検出部101から入力される補正値に応じて、複写成分に対して周波数帯域の伸張あるいは圧縮を行ってもよい。図7(b)に示す複写成分は1.5KHz〜3.5KHzの周波数範囲であるために、2KHzの周波数帯域である。例えば、周波数帯域を3KHzに伸張した場合は、複写成分は図7(b)の図示横方向に1.5倍伸張された波形となる。また、周波数帯域を1KHzに圧縮した場合は、複写成分は図示横方向に1/2に圧縮された波形となる。
複写成分加算部105は、入力音声に対して、レベル調整部104によって調整された複写成分を加算する。図7(c)は、複写成分加算部105によって、入力音声に調整された複写成分を加算した図である。3.5KHzから高音側に調整された複写成分が加算され、周波数帯域が5.5KHzまで擬似的に拡張されている。
次に、図4を用いて、図3で説明した話速検出部101の詳細を説明する。図4は、話速検出部の構成の一例を示す図である。
図4において、話速検出部101は、ホルマント検出部1011、ピッチ検出部1012、変動検出部1013、および話速算出部1014を備える。
ホルマント検出部1011は、入力音声に対して、音声のフレーム単位でホルマント(F1周波数)を検出する。ホルマントとは、人が発する音声の周波数スペクトルのピークをいう。F1周波数とは、ホルマントの中で一番周波数が低いものである。ホルマントは人の発音に対して経時的に推移する。ホルマントの周波数が一定値以上変動した場合、音素が変化したものとして検出をすることができる。ホルマントの変化は、ホルマントを蓄積して平均し、その平均値に対して新たに計算されたホルマントの変化量で検出することができる。ホルマント検出部は、ホルマントを経時的に検出して変動検出部1013に出力する。
ピッチ検出部1012は、入力音声のピッチ強度を検出する。ピッチ検出部1012は、経時的にピッチ強度を検出して変動検出部1013に出力する。
ここで有声とは、声帯振動を伴う音声であり、周期的な振動として観測される。一方、無声とは、声帯振動を伴わない音声であり、非周期的な雑音として観測される。有声の周期は、声帯振動の周期で決まり、これをピッチ周波数という。ピッチ周波数は声の高低や抑揚によって変化する音声のパラメータである。
第1の実施形態において、ピッチ検出部1012は、ピッチ周波数について所定のサンプリング時間で自己相関係数を測定する。ピッチ検出部1012は、さらに自己相関係数のピークを検出することによりピッチ強度を求め、ピッチ強度の大きさによって音声の中の有声部と無声部とを判定することができる。
変動検出部1013は、ホルマント検出部1011で検出されたホルマントとピッチ検出部1012で検出されたピッチ強度の変化の有無を検出する。変動検出部1013は、ホルマントのF1情報をカウントするカウンタ10131、音素の継続数、つまり音素の継続長をカウントするカウンタ10132、および音素の切替数をカウントするカウンタ10133を備える。
話速算出部1014は、変動検出部1013によって検出されたホルマントとピッチ強度の変化から話速を算出して決定する。なお、話速検出部101の動作の詳細は後述する。
次に、図5を用いて、制御部10による通信装置1の動作を説明する。図5は、通信装置1の動作の一例を示すフローチャートである。
図5において、デコーダ処理、受話音声処理を行う(S1)。デコーダ処理および受話音声処理は図2で説明したCodec14によって行われる。受話音声処理は、例えばデコードした音声に対して、レベル調整、ノイズ除去等の前処理を行う。
次に、制御部10は、入力音声に対して擬似帯域拡張処理を行う(S2)。擬似帯域拡張処理の詳細は後述する。
次に、擬似帯域拡張処理を行った出力音声をD/A変換部41及びスピーカ42を通じて音声出力をする(S3)。
次に、制御部10は、終話判定を行う(S4)。終話判定は、例えば操作表示部30の操作、あるいは遠端からのオンフックが行われたかどうかで判断する。終話判定がされない場合(S4でNO)、再びステップS1に戻り処理が継続される。終話判定がされた場合(S4でYES)、制御部10による通信装置1の動作を終了する。
次に、図6ならびに先に説明した図3及び図7を用いて、図5で説明した擬似帯域拡張処理(S2)の詳細を説明する。図6は、音声処理機能の動作の一例を示すフローチャートである。
図6において、複写成分抽出部102は、複写成分を抽出する(S11)。
複写成分抽出部102によるデータの抽出は、例えば、抽出範囲を周波数で設定することにより行われる。例えば、複写成分の抽出範囲を1.5KHz〜3.5KHzに設定した場合、抽出対象は図7(a)に示す、1.5KHz〜3.5KHzの周波数の範囲の入力音声である。なお、抽出範囲は、例えば、基準となる周波数値と帯域幅によって設定してもよい。図7(a)の例では、基準となる周波数を1.5KHzとして、2KHzの帯域幅として設定してもよい。複写成分抽出部102は、抽出した複写成分をレベル調整部104に対して出力する。
次に、複写成分整形部103は、複写成分抽出部102から入力された複写成分の整形を行う(S12)。
図7(a)及び図7(b)は、複写成分整形部103が、入力音声のデータの中で1.5KHz以下と3.5KHz以上のデータをカットして、1.5KHz〜3.5KHzのデータのみを切り出すことにより複写成分のデータを整形している場合を例示している。
話速検出部101は、話速を検出して、検出した話速が高速話速であるかどうかの判定を行う(S13)。ステップS13の話速判定の詳細を、図8を用いて説明する。図8は、話速検出部101の動作の一例を示すフローチャートである。
図8において、話速検出部101は、初期設定を行う(S1)。初期設定は、図4で説明した、変動検出部1013のホルマントのF1情報をカウントするカウンタ10131、音素の継続数をカウントするカウンタ10132、および音素の切替数をカウントするカウンタ10133をクリアすることにより行う。
変動検出部1013は、ピッチ検出部1012で検出されたピッチ強度から、入力音声が有声かどうかの判定を行う(S22)。
変動検出部1013が有声と判定した場合には(S22でYES)、F1の変化が所定の閾値より小さいかどうかの判定を行う(S23)。
F1の変化が所定値以下の場合(S23でYES)、カウンタ10131及びカウンタ10132をそれぞれ+1カウントアップする(S24)。ここで、有声でF1の変化が小さいということは、入力音声の音素が切り替わっていないことを意味する。カウンタ10131及びカウンタ10132は、所定のフレーム数をカウントして、所定のフレーム数が経過するまでは音素の切り替わりをカウントしない。カウンタ10131及びカウンタ10132は、音素が切り替わるまでカウントアップされる。
F1の変化が所定値より大きい場合(S23でNO)、音素の切替数をカウントするカウンタ10133を+1カウントアップする(S27)。F1の変化が所定値より大きい場合は、音素が切り替わったと判断して切替数をカウントする。カウンタ10133の音素切替数は、音声のモーラ数(拍数)を表す。モーラ数を求めることにより、その逆数である話速を算出可能にする。
次に、カウンタ10131及びカウンタ10132をクリアする(S28)。カウンタ10131及びカウンタ10132をクリアすることにより、次の音素の切替を判断できるようになる。
次に、話速算出部1014は、カウンタ10133の音素切替数から話速を算出して決定する。話速は、単位時間あたりの音素切替数によって求めることができる。話速が所定の閾値以上の場合は、「高速話速」であると判定し、話速が所定の閾値未満の場合は、「通常話速」であると判定する。
一方、変動検出部1013が無声と判定した場合には(S22でNO)、音素継続数が所定の閾値以上であるかどうかを判断する(S26)。音素継続数が所定の閾値以上である場合(S26でYES)、音素の切替数をカウントするカウンタ10133を+1カウントアップする(S27)。F1の変化が小さく音素の継続時間が長い場合には、無声の判定により音素の切替であると判断する。
音素継続数が所定の閾値より小さい場合(S26でNO)、カウンタ10131及びカウンタ10132をクリアして(S28)、音素切替数から話速を算出する(S25)。
次に、終話かどうかを判定する(S26)。終話判定は、ステップS4と同様の処理により行う。終話判定がされない場合(S26でNO)、ステップS22に戻り処理が繰り返される。終話判定がされた場合(S26でYES)、ステップS13の話速判定の処理を終了する。
なお、話速検出部101は、たとえばピッチの周波数分布の広さによって高速話速を判定してもよい。早口で話すとピッチの周波数分布が広くなり、たとえば分散や標準偏差で求められる周波数分布の広がりに閾値を設けて、閾値以上の場合を高速話速として判断することができる。
再び図6に戻り、話速が通常話速であると判定された場合(S13でNO)、話速検出部101はレベル調整部104に対して、複写成分の減衰を通常減衰とする補正値を出力する(S14)。これにより、通常話速の入力に対して擬似帯域拡張により音質の向上を図ることができる。
一方、話速が高速話速であると判定された場合(S13でYES)、話速検出部101はレベル調整部104に対して、複写成分の減衰を通常より大きい減衰とする補正値を出力する(S15)。これにより、話速が速い場合に生じる高音の雑音感を低減し音質を向上させることができる。
ここで、図9および図10を用いて、話速が速い場合に生じる高音の雑音感を低減させる作用について説明する。図9は、入力音声の周波数特性を示すグラフの一例である。図10は、入力音声の子音の周波数特性を示すグラフの一例である。
図9において、入力音声は一般的に調波構造を持つ。調波構造とは,所定の周波数間隔で幾つものピークが存在する構造のことをいう。音声の中で特に母音部は調波構造を持つことが知られている。
音声通信では、利用可能な通信帯域に基づき、送受信されるデータ量を減らすために、入力音声を、たとえば300Hz〜3.4KHzのみをサンプリングして、当該周波数帯域以外の音声をカットする。このため、出力音声は、サンプリングされた周波数帯域外の周波成分を持たない臨場感のない音となる。
一方、図10において、入力音声の子音は、所定の周波数にピークを有し、母音の様な調波構造を持たない周波数特性を有する。
疑似帯域拡張とは、図7で説明したとおり、受信側装置が、受信した300Hz〜3.4KHzの音声から疑似的に他の周波数帯域を生成することで元の音声を再生する技術である。
したがって、調波構造を持たない子音の音声信号を複写して他の周波数帯域の音声信号を疑似的に生成すると、もともと存在しない周波数帯域の音を作り出してしまうことになり、雑音感を生じさせてしまう原因となる。
話速が遅い場合は単位時間あたりの子音の数が少ないため、疑似帯域拡張による雑音感も少ない。一方、話速が速い場合は単位時間あたりの子音の数が多いため、高音での雑音感が増加することになる。
本実施形態においては、話速が速い時に複写成分の減衰を通常より大きくすることにより、帯域拡張をしつつも雑音成分のゲインが下がり雑音感を小さくすることが可能となる。
なお、図7で説明した複写成分のシフト量を調整すること、拡張する複写成分の周波数帯域の伸張、圧縮を調整することも、上記減衰を大きくすることと同様の効果、すなわち帯域拡張をしつつ雑音感を小さくする効果を得ることができる。
また、本実施形態では、話速判定に対して高速話速と通常話速の2段階の補正値を出力するようにしたが、例えば、減衰レベル話速に応じて3段階以上、あるいは無段階に調整するようにしてもよい。また、補正値に非線形の補正曲線を適用してレベル調整部104に対して出力するようにしてもよい。
再び図6に戻り、複写成分加算部105は、入力音声に対して、レベル調整部で調整された複写成分を加算して出力音声を出力する(S16)。
次に、終話かどうかを判定する(S17)。終話判定は、ステップS4と同様の処理により行う。終話判定がされない場合(S26でNO)、ステップS22に戻り処理が繰り返される。終話判定がされた場合(S26でYES)、ステップS13の話速判定の処理を終了する。終話判定は、ステップS4と同様の処理により行う。終話判定がされない場合(S17でNO)、ステップS11に戻り処理が繰り返される。終話判定がされた場合(S17でYES)、ステップS2の擬似帯域拡張処理を終了する。
次に、図11を用いて、図4で説明した話速検出部101のホルマント検出部及びピッチ検出部1012によるホルマントとピッチ強度の検出の例を説明する。図11は、話速検出部の処理の一例を説明するための、原音の時間推移を示すグラフ(a)、原音のホルマントを示すグラフ(b)、原音のピッチ強度を示すグラフ(c)である。
図11(a)において、入力音声の原音は経時で図示する波形を有している。なお、図11(a)〜図11(c)の横軸は経過時間(秒)である。
ホルマント検出部1011は、図11(a)の入力音声が入力されると、フレーム単位(本実施例では10ms)でF1を算出する。図11(b)は原音に対するF1の算出結果である。図11(b)の縦軸は周波数(KHz)である。F1の変化の大きさによって有声部の音素の切替を判断することができる。
ピッチ検出部1012は、図11(a)の入力音声が入力されると、自己相関係数の最大値からピッチ強度を算出する。図11(c)は原音に対するピッチ強度の算出結果である。
[第2の実施形態]
次に、図12を用いて、音声処理機能100の第2の実施形態を説明する。図12は、第2の実施形態における音声処理機能100の構成の一例を示す図である。
図12において、音声処理機能100は、ピッチ分布検出部111、複写成分抽出部112、複写成分整形部113、レベル調整部114、および複写成分加算部115を備える。
第2の実施形態と第1の実施形態の差は、第1の実施形態における話速検出部101に代わってピッチ分布検出部111を備えたことである。複写成分抽出部112、複写成分整形部113、レベル調整部114、および複写成分加算部115については第1の実施形態と同じ構成であるため、説明を省略する。
ピッチ分布検出部111は、入力音声のピッチ周波数の分布を集計する。
ピッチ周波数は有声音の周波数によって計測することができる。例えば、音声の緊張状態が高い場合には音声の抑揚が小さくなり、ピッチの周波数分布の幅が狭くなる。一方、興奮状態にある場合にはピッチの周波数分布が広くなる。本実施形態では、ピッチ周波数の分布の大きさにより緊張状態や興奮状態を測定することができる。
ピッチ分布検出部111は、ピッチ周波数の分布が所定値の範囲内に入っているかどうかを検出し、所定の範囲内であるときは通常のピッチ分布であるとしてレベル調整部114に出力する補正値を通常の減衰率とする。これにより、通常のピッチ分布による入力音声に対して擬似帯域拡張により音質の向上を図ることができる。
一方、ピッチ周波数の分布が所定値の範囲内に入っていない場合は、ピッチ分布検出部111は、ピッチ分布が広い、又は狭いとして減衰率を高く、又は低く設定して補正値をレベル調整部114に出力する。これにより、例えば緊張度あるいは興奮度が高い場合に音質の低下を防止することができる。
なお、第2の実施形態においては、ピッチ分布検出部111は、ピッチ分布に対して2段階の補正値を出力するが、2段階の補正値に代えて多段階の補正値を出力するようにしてもよい。また、無段階の補正値を出力するようにしてもよい。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
1 通信装置
11 CPU
12 RAM
13 フラッシュメモリ
14 Codec
15 バス
10 制御部
100 音声処理機能
101 話速検出器
1011 ホルマント検出部
1012 ピッチ検出部
1013 変動検出部
1014 話速算出部
102 複写成分抽出部
103 複写成分整形部
104 レベル調整部
105 複写成分加算部
100 音声処理機能
111 ピッチ分布検出器
112 複写成分抽出部
113 複写成分整形部
114 レベル調整部
115 複写成分加算部
20 通信部
21 アンテナ
30 操作表示部
41 D/A変換部
42 スピーカ
43 A/D変換部
44 マイク

Claims (5)

  1. 入力された音声信号の成分を抽出する抽出部と、
    前記音声信号の話速を検出する検出部と、
    前記検出部で検出した前記話速に基づき、前記抽出部が抽出した前記成分を調整する調整部と、
    前記調整部で調整した成分を前記音声信号に加算して前記音声信号の帯域を拡張する加算部と
    を備える通信装置。
  2. 前記検出部は、前記音声信号のピッチ分布により前記話速を決定する、請求項1に記載の通信装置。
  3. 前記調整部は、前記成分を調整するときに前記成分の減衰率を調整する、請求項1または2に記載の通信装置。
  4. 前記調整部は、前記成分を調整するときに前記成分の周波数帯域を調整する、請求項1または2に記載の通信装置。
  5. 前記調整部は、前記成分を調整するときに前記成分の周波数のシフト量を調整する、請求項1または2に記載の通信装置。
JP2014013633A 2014-01-28 2014-01-28 通信装置 Expired - Fee Related JP6277739B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014013633A JP6277739B2 (ja) 2014-01-28 2014-01-28 通信装置
US14/592,802 US9620149B2 (en) 2014-01-28 2015-01-08 Communication device
EP15150456.0A EP2899722B1 (en) 2014-01-28 2015-01-08 Communication device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014013633A JP6277739B2 (ja) 2014-01-28 2014-01-28 通信装置

Publications (2)

Publication Number Publication Date
JP2015141294A true JP2015141294A (ja) 2015-08-03
JP6277739B2 JP6277739B2 (ja) 2018-02-14

Family

ID=52282638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014013633A Expired - Fee Related JP6277739B2 (ja) 2014-01-28 2014-01-28 通信装置

Country Status (3)

Country Link
US (1) US9620149B2 (ja)
EP (1) EP2899722B1 (ja)
JP (1) JP6277739B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6483391B2 (ja) * 2014-10-01 2019-03-13 Dynabook株式会社 電子機器、方法およびプログラム
CN105706167B (zh) * 2015-11-19 2017-05-31 瑞典爱立信有限公司 有语音的话音检测方法和装置
IL255954A (en) * 2017-11-27 2018-02-01 Moses Elisha Extracting content from speech prosody

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置
JP2005024869A (ja) * 2003-07-02 2005-01-27 Toshiba Tec Corp 音声応答装置
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
JP2012037726A (ja) * 2010-08-06 2012-02-23 Nippon Hoso Kyokai <Nhk> 音声合成装置およびコンピュータプログラム
JP2013125085A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 目的音抽出装置及び目的音抽出プログラム
JP2013222205A (ja) * 2012-04-16 2013-10-28 Samsung Electronics Co Ltd 音質向上装置及び方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP2003255973A (ja) 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
JP2010026323A (ja) 2008-07-22 2010-02-04 Panasonic Electric Works Co Ltd 話速検出装置
JP2010204564A (ja) 2009-03-05 2010-09-16 Panasonic Corp 通信装置
KR101712101B1 (ko) * 2010-01-28 2017-03-03 삼성전자 주식회사 신호 처리 방법 및 장치
WO2011103108A1 (en) * 2010-02-16 2011-08-25 Sky Holdings Company, Llc Spectral filtering systems
EP2555188B1 (en) 2010-03-31 2014-05-14 Fujitsu Limited Bandwidth extension apparatuses and methods
JP5589631B2 (ja) 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置
JP2005024869A (ja) * 2003-07-02 2005-01-27 Toshiba Tec Corp 音声応答装置
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
JP2012037726A (ja) * 2010-08-06 2012-02-23 Nippon Hoso Kyokai <Nhk> 音声合成装置およびコンピュータプログラム
JP2013125085A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 目的音抽出装置及び目的音抽出プログラム
JP2013222205A (ja) * 2012-04-16 2013-10-28 Samsung Electronics Co Ltd 音質向上装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
藤枝 大: "広帯域感を高めた音声帯域拡張技術", OKIテクニカルレビュー, vol. 80, no. 1, JPN7017003218, 20 May 2013 (2013-05-20), ISSN: 0003659574 *

Also Published As

Publication number Publication date
US20150213812A1 (en) 2015-07-30
JP6277739B2 (ja) 2018-02-14
EP2899722A1 (en) 2015-07-29
US9620149B2 (en) 2017-04-11
EP2899722B1 (en) 2017-01-11

Similar Documents

Publication Publication Date Title
TWI579834B (zh) 調整聲音清晰度強化的方法與系統
JP7427752B2 (ja) 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
EP3038106B1 (en) Audio signal enhancement
KR100905585B1 (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
EP2265039B1 (en) Hearing aid
US8271292B2 (en) Signal bandwidth expanding apparatus
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP5326533B2 (ja) 音声加工装置及び音声加工方法
JP6073456B2 (ja) 音声強調装置
US9749741B1 (en) Systems and methods for reducing intermodulation distortion
JP6277739B2 (ja) 通信装置
WO2016067644A1 (ja) 音声調整装置
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
KR101674597B1 (ko) 음성 인식 시스템 및 방법
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
CN111477246A (zh) 语音处理方法、装置及智能终端
JP5277355B1 (ja) 信号処理装置及び補聴器並びに信号処理方法
JP2022547860A (ja) コンテキスト適応の音声了解度を向上させる方法
JP2011071806A (ja) 電子機器、及び電子機器の音量制御プログラム
Brouckxon et al. An overview of the VUB entry for the 2013 hurricane challenge.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180101

R150 Certificate of patent or registration of utility model

Ref document number: 6277739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees