JP4435127B2 - ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置 - Google Patents
ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置 Download PDFInfo
- Publication number
- JP4435127B2 JP4435127B2 JP2006234172A JP2006234172A JP4435127B2 JP 4435127 B2 JP4435127 B2 JP 4435127B2 JP 2006234172 A JP2006234172 A JP 2006234172A JP 2006234172 A JP2006234172 A JP 2006234172A JP 4435127 B2 JP4435127 B2 JP 4435127B2
- Authority
- JP
- Japan
- Prior art keywords
- harmonic
- pitch
- calculated
- pitch detection
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 57
- 238000001228 spectrum Methods 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 26
- 230000001186 cumulative effect Effects 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 66
- 230000005484 gravity Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
101 前処理部
102 フーリエ変換部
103 補間部
104 正規化局所重心計算部
105 累積合計計算部
106 スケールコンバージョン部
107 SHR計算部
108 スペクトル自己相関値計算部
109 有声音区間決定部
110 ピッチ検出部
Claims (15)
- 入力音声信号に対するピッチ検出方法において、
入力された音声信号を前処理してフーリエ変換を遂行する段階と、
変換された音声信号に対して補間を遂行する段階と、
変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する段階と、
計算された正規化局所重心の累積合計を計算する段階と、
計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率を計算する段階と、
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する段階と、
を含むことを特徴とするピッチ検出方法。 - 変換された音声信号に対して補間を遂行する前記段階は、
所定の低域周波数範囲に該当する振幅に対して低域通過補間を遂行する段階と、
最初のサンプルレートのR倍に該当するようにシーケンスをリサンプリングする段階と、
を含むことを特徴とする請求項1に記載のピッチ検出方法。 - 計算された正規化局所重心を用いてスペクトル自己相関値を計算する段階と、
計算されたスペクトル自己相関値に基づいて有声音区間を決定する段階とを更に含み、
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する前記段階は、
前記有声音区間に該当するハーモニックとサブハーモニックの比率に基づいて前記ピッチを検出することを特徴とする請求項1に記載のピッチ検出方法。 - 計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出する前記段階は、
前記有声音区間に該当するハーモニックとサブハーモニックの比率のうち、ハーモニックとサブハーモニックの比率に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項3に記載のピッチ検出方法。 - 計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
計算されたスペクトル自己相関値の周波数成分によって前記有声音区間を決定することを特徴とする請求項3に記載のピッチ検出方法。 - 計算されたスペクトル自己相関値に基づいて有声音区間を決定する前記段階は、
計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較する段階と、
前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定する段階と、
を含むことを特徴とする請求項3に記載のピッチ検出方法。 - 計算された累積合計に対してスケールコンバージョンおよび補間を遂行する段階を更に含み、
計算された累積合計に基づいたスペクトラムから高調波と低調波の対比率を計算する前記段階は、
スケールコンバージョンおよび補間が遂行された累積合計によるスペクトラムから前記ハーモニックとサブハーモニックの比率を計算することを特徴とする請求項1に記載のピッチ検出方法。 - 前記スケールコンバージョンは、線形周波数スケールをログ周波数スケールに変換することを特徴とする請求項7に記載のピッチ検出方法。
- 請求項1ないし8のいずれか一項の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み取り可能な記録媒体。
- 入力音声信号に対するピッチ検出装置において、
入力された音声信号を前処理する前処理部と、
前処理された音声信号に対してフーリエ変換を遂行するフーリエ変換部と、
変換された音声信号に対して補間を遂行する補間部と、
変換および補間された音声信号のスペクトラムに対して正規化局所重心を計算する正規化局所重心計算部と、
計算された正規化局所重心の累積合計を計算する累積合計計算部と、
計算された累積合計に基づいたスペクトラムからハーモニックとサブハーモニックの比率を計算するSHR計算部と、
計算されたハーモニックとサブハーモニックの比率に基づいてピッチを検出するピッチ検出部と、
を含むことを特徴とするピッチ検出装置。 - 計算された正規化局所重心を用いてスペクトル自己相関値を計算するスペクトル自己相関値計算部と、
計算されたスペクトル自己相関値に基づいて有声音区間を決定する有声音区間決定部とを更に含み、
前記ピッチ検出部は、前記有声音区間に該当するハーモニックとサブハーモニックの比率に基づいて前記ピッチを検出することを特徴とする請求項10に記載のピッチ検出装置。 - 前記ピッチ検出部は、前記有声音区間に該当するハーモニックとサブハーモニックの比率のうち、最大ハーモニックとサブハーモニックの比率に対応する局所ピークの位置を前記ピッチとして検出することを特徴とする請求項11に記載のピッチ検出装置。
- 前記有声音区間決定部は、計算されたスペクトル自己相関値中の最大スペクトル自己相関値と所定の臨界値を比較し、前記最大スペクトル自己相関値が前記臨界値より大きい区間を前記有声音区間として決定することを特徴とする請求項11に記載のピッチ検出装置。
- 計算された累積合計に対してスケールコンバージョンおよび補間を遂行するスケールコンバージョン部を更に含み、
前記SHR計算部は、スケールコンバージョンおよび補間が遂行された累積合計によるスペクトラムから前記ハーモニックとサブハーモニックの比率を計算することを特徴とする請求項10に記載のピッチ検出装置。 - 前記スケールコンバージョン部は、線形周波数スケールをログ周波数スケールに変換することを特徴とする請求項14に記載のピッチ検出装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060008162A KR100653643B1 (ko) | 2006-01-26 | 2006-01-26 | 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007199663A JP2007199663A (ja) | 2007-08-09 |
JP4435127B2 true JP4435127B2 (ja) | 2010-03-17 |
Family
ID=37732016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006234172A Expired - Fee Related JP4435127B2 (ja) | 2006-01-26 | 2006-08-30 | ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8311811B2 (ja) |
JP (1) | JP4435127B2 (ja) |
KR (1) | KR100653643B1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
JP5306358B2 (ja) | 2007-09-28 | 2013-10-02 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 追加情報能力を持つマルチメディア符号化及び復号 |
JP4924513B2 (ja) * | 2008-03-31 | 2012-04-25 | ブラザー工業株式会社 | タイムストレッチシステムおよびプログラム |
JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
EP2237266A1 (en) | 2009-04-03 | 2010-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal |
US10467348B2 (en) * | 2010-10-31 | 2019-11-05 | Speech Morphing Systems, Inc. | Speech morphing communication system |
BR112013011312A2 (pt) * | 2010-11-10 | 2019-09-24 | Koninl Philips Electronics Nv | método para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico, dispositivo para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico e programa de computador |
US8731911B2 (en) * | 2011-12-09 | 2014-05-20 | Microsoft Corporation | Harmonicity-based single-channel speech quality estimation |
CN103325384A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
CN117116245B (zh) * | 2023-10-18 | 2024-01-30 | 武汉海微科技有限公司 | 声音信号的谐波生成方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
KR20010089811A (ko) * | 1999-11-11 | 2001-10-08 | 요트.게.아. 롤페즈 | 음성 인식 시스템 |
US20020016161A1 (en) * | 2000-02-10 | 2002-02-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for compression of speech encoded parameters |
AU2001294974A1 (en) * | 2000-10-02 | 2002-04-15 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
US6691085B1 (en) * | 2000-10-18 | 2004-02-10 | Nokia Mobile Phones Ltd. | Method and system for estimating artificial high band signal in speech codec using voice activity information |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
US7027980B2 (en) * | 2002-03-28 | 2006-04-11 | Motorola, Inc. | Method for modeling speech harmonic magnitudes |
-
2006
- 2006-01-26 KR KR1020060008162A patent/KR100653643B1/ko not_active IP Right Cessation
- 2006-08-30 JP JP2006234172A patent/JP4435127B2/ja not_active Expired - Fee Related
- 2006-11-27 US US11/604,276 patent/US8311811B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007199663A (ja) | 2007-08-09 |
KR100653643B1 (ko) | 2006-12-05 |
US20070174049A1 (en) | 2007-07-26 |
US8311811B2 (en) | 2012-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4435127B2 (ja) | ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置 | |
JP4444254B2 (ja) | スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置 | |
Gonzalez et al. | PEFAC-A pitch estimation algorithm robust to high levels of noise | |
US7567900B2 (en) | Harmonic structure based acoustic speech interval detection method and device | |
Boersma | Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
US20170287507A1 (en) | Pitch detection algorithm based on pwvt | |
Vasilakis et al. | Voice pathology detection based eon short-term jitter estimations in running speech | |
KR100717625B1 (ko) | 음성 인식에서의 포먼트 주파수 추정 방법 및 장치 | |
KR20060032401A (ko) | 신호의 피치를 평가하는 방법 및 장치 | |
JPS63500683A (ja) | 並列処理型ピッチ検出器 | |
US5809453A (en) | Methods and apparatus for detecting harmonic structure in a waveform | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
Patil et al. | Effectiveness of Teager energy operator for epoch detection from speech signals | |
Park et al. | Improving pitch detection through emphasized harmonics in time-domain | |
KR100194953B1 (ko) | 유성음 구간에서 프레임별 피치 검출 방법 | |
JP5203404B2 (ja) | テンポ値検出装置およびテンポ値検出方法 | |
JP3892379B2 (ja) | 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体 | |
Park et al. | Pitch Gross Error Compensation in Continuous Speech | |
Holmes | Robust measurement of fundamental frequency and degree of voicing | |
JP2005266098A (ja) | 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法 | |
Glover et al. | Real-time segmentation of the temporal evolution of musical sounds | |
Park et al. | Pitch Error Improved with SNR Compensation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070731 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4435127 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130108 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |