Nothing Special   »   [go: up one dir, main page]

JP4275762B2 - Voice instruction device and karaoke device - Google Patents

Voice instruction device and karaoke device Download PDF

Info

Publication number
JP4275762B2
JP4275762B2 JP07386998A JP7386998A JP4275762B2 JP 4275762 B2 JP4275762 B2 JP 4275762B2 JP 07386998 A JP07386998 A JP 07386998A JP 7386998 A JP7386998 A JP 7386998A JP 4275762 B2 JP4275762 B2 JP 4275762B2
Authority
JP
Japan
Prior art keywords
command
data
input
sound
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP07386998A
Other languages
Japanese (ja)
Other versions
JPH11272283A (en
Inventor
トム 蔡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP07386998A priority Critical patent/JP4275762B2/en
Publication of JPH11272283A publication Critical patent/JPH11272283A/en
Application granted granted Critical
Publication of JP4275762B2 publication Critical patent/JP4275762B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、コマンドの入力やテンポ,キー設定などをマイクからの音声入力で行うことができる音声指示装置およびカラオケ装置に関する。
【0002】
【従来の技術】
カラオケ装置を利用するためには、選曲や演奏スタートなどの操作が必要であるが、近年カラオケ装置の高機能化に伴って、選曲や演奏スタート以外に新機能を利用するための種々の操作が必要になっている。従来は、赤外線のリモコン装置のボタンや装置本体のパネルスイッチをオンすることによって上記操作を行っていた。
【0003】
【発明が解決しようとする課題】
しかし、赤外線リモコンや装置本体のパネルスイッチなどで多くの機能の操作を行おうとすると、ボタンの数を増やしたり、複雑なキーシーケンスを定めたりする必要がある。ボタンの数を増やすためには、ハードを改造することが必要であり、容易に行うことができず、コストアップや対応に時間が掛かるなどの問題点があった。また、キーシーケンスで新機能を操作しようとすれば、キーシーケンスが複雑化し、キー操作が面倒になるという問題点があった。
【0004】
この発明は、マイクから入力する音声信号によって種々の機能を操作できるようにした音声指示装置およびカラオケ装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
この出願の請求項1の発明は、連続する複数の音声信号のそれぞれの音楽要素の組み合わせであるコマンドパターンと該コマンドパターンに対応する処理内容とを対応して記憶したコマンドパターンテーブルと、マイクから入力された音声信号から検出された複数の音楽要素で前記コマンドパターンテーブルを検索し、一致したコマンドパターンが抽出されたとき、そのコマンドパターンに対応する処理を実行する制御部と、を備えたことを特徴とする。
【0006】
この出願の請求項2の発明は、請求項1の発明において、前記音楽要素は、音声信号の音高、音量またはテンポであることを特徴とする。
【0007】
この出願の請求項3の発明であるカラオケ装置は、請求項1または請求項2に記載の音声指示装置を備えたことを特徴とする。
【0009】
請求項1の発明において、音楽要素としては、周波数,音量,時間的要素などを用いることができる。周波数はヘルツで表される連続値を用いてもよく段階化された音高を用いてもよい。時間的要素としては、複数の音声信号の発音開始タイミングの時間的間隔や1つの音声信号の長さなどを用いることができる。
【0010】
これらの音楽要素を用いたコマンドパターンは、たとえば以下のようなもので構成される。
【0011】
複数の音声信号から抽出した音高データ列や音量データ列
複数の音声信号間の時間間隔(テンポ)や周波数間隔(音程)
1の音声信号から抽出した音高データ,音量データなどの組み合わせ。
【0012】
すなわち、コマンドパターンの複数の音楽要素は、連続する複数の音声信号から抽出した1種類の音楽要素列であっても、1つの音声信号から抽出した複数の音楽要素群であってもよい。コマンドパターンテーブルには、これらのコマンドパターンに対応して、カラオケ装置などの装置を制御する処理内容を記憶する。処理内容としては、たとえばこの発明をカラオケ装置に適用した場合、カラオケ装置が実行できるカラオケ演奏以外の機能(ゲームや占いなどのコンテンツ)の選択、ゲーム機能におけるキャラクタの動作など各コンテンツ内の操作などがある。この発明によれば、このような、従来のカラオケ装置にはない機能を追加したとき、ハード的な操作ボタンを追加することなく、マイクからの音声入力でこれを操作することができる。
【0015】
【発明の実施の形態】
図面を参照してこの発明の実施形態であるカラオケ装置について説明する。このカラオケ装置は、歌唱採点機能を備えている。歌唱採点機能は、利用者の歌唱音声信号をリファレンスデータと比較することによって、その音程,音量,リズムについて採点し、歌唱終了後にその得点を表示するものである。この採点機能は、音声信号処理部50によって実行される。
【0016】
また、このカラオケ装置は音声コマンド機能を備えている。音声コマンド機能とは、カラオケ曲の演奏中でないとき、利用者がマイク47から音声を入力することによってカラオケ装置を操作できる機能である。音声コマンド機能は、音高コマンド機能,音量コマンド機能,テンポコマンド機能の3種類があり、これら機能における音高,音量,テンポの判定は採点機能と同様、音声信号処理部50によって行われる。カラオケ演奏中でないときに、マイク47から複数の音声信号が連続して入力されると、その音高,音量またはテンポなどの音楽要素を音声信号処理部50が検出する。その音楽要素の配列パターンがコマンドパターンテーブルに記憶されているコマンドパターンのいずれかと一致するかを判定し、一致するものがあったときそのコマンドパターンが指示するコマンド(処理)を実行する。
【0017】
図1は同カラオケ装置のブロック図である。図2は、同カラオケ装置のRAM32,ハードディスク37および楽曲データの構成図である。
図1において、装置全体の動作を制御するCPU30には、バスを介してROM31,RAM32,ハードディスク記憶装置(HDD)37,通信制御部36,リモコン受信部33,表示パネル34,パネルスイッチ35,音源装置38,音声データ処理部39,コントロールアンプ40,文字表示部43,CD−ROMチェンジャ44,表示制御部45および音声信号処理部50が接続されている。
【0018】
ROM31にはこの装置を起動するために必要な起動プログラムなどが記憶されている。この装置の動作を制御するシステムプログラム,カラオケ実行プログラムなどはHDD37に記憶されており、装置の電源がオンされると上記起動プログラムによってRAM32に読み込まれる。RAM32には、これらのプログラムを記憶するエリアなど図2(A)に示すように種々の記憶エリアが設定されている。図2(A)において、RAM32にはハードディスク37から読み込まれたプログラムを記憶するプログラム記憶エリア320,演奏実行中のカラオケ曲の楽曲データを記憶する実行データ記憶エリア321,楽曲データ中のリファレンスデータと歌唱音声信号とを比較することによって求められたポイントを記憶するポイント記憶エリア322および上記音声コマンド機能のコマンドパターンを記憶するコマンドパターンテーブル323などが設けられている。プログラムおよびコマンドパターンテーブルは電源オン時にハードディスク37から読み込まれ、実行データ記憶エリア321の楽曲データは利用者によって選曲されたときにハードディスク37から読み込まれる。
【0019】
また、HDD37には図2(B)に示すように、上記システムプログラムやアプリケーションプログラムを記憶するプログラム記憶エリア370のほか数千曲分の楽曲データを記憶する楽曲データファイル371,コマンドパターンテーブル372などが設定されている。利用者のカラオケ歌唱を採点するためのリファレンスデータは各カラオケ曲の楽曲データに含まれている。通信制御部36は、ISDN回線を介してホストステーションから楽曲データなどをダウンロードし、内蔵しているDMA回路を用いてこの楽曲データをCPU30を介さずに直接HDD37に書き込む。
【0020】
選曲やカラオケ曲スタートなどの通常のコマンドは赤外線のリモコン装置51から入力される。リモコン受信部33はリモコン51から送られてくる赤外線信号を受信してデータを復元する。リモコン51は選曲スイッチなどのコマンドスイッチやテンキースイッチなどを備えており、利用者がこれらのスイッチを操作するとその操作に応じたコードで変調された赤外線信号を送信する。表示パネル34はこのカラオケ装置の前面に設けられており、現在演奏中の曲コードや予約曲数などを表示するものである。パネルスイッチ35はカラオケ装置の前面操作部に設けられており、テンポチェンジスイッチやキーチェンジスイッチなどを含んでいる。
【0021】
図2(C)おいて、楽曲データは、ヘッダ,楽音トラック,ガイドメロディトラック,歌詞トラック,音声制御トラック,効果トラックおよび音声データ部からなっている。ヘッダは、この楽曲データに関する種々のデータが書き込まれる部分であり、曲名,ジャンル,発売日,曲の演奏時間(長さ)などのデータが書き込まれている。
【0022】
楽音トラック〜効果トラックの各トラックは複数のイベントデータと各イベントデータ間の時間間隔を示すデュレーションデータΔtからなるシーケンスデータで構成されている。CPU30は、カラオケ演奏時にシーケンスプログラムに基づき全トラックのデータを並行して読み出す。シーケンスプログラムは、所定のテンポクロックでΔtをカウントし、Δtをカウントアップしたときこれに続くイベントデータを読み出し、所定の処理部へ出力するプログラムである。
【0023】
楽音トラックには、メロディトラック,リズムトラックを初めとして種々のパートのトラックが形成されている。ガイドメロディトラックには、このカラオケ曲の旋律すなわち歌唱者が歌うべき旋律のシーケンスデータが書き込まれている。CPU30はこのデータに基づいてリファレンスの音高データ,音量データを生成し、歌唱音声と比較する。
【0024】
歌詞トラックは、モニタ46上に歌詞を表示するためのシーケンスデータを記憶したトラックである。このシーケンスデータは楽音データではないが、インプリメンテーションの統一をとり、作業工程を容易にするためこのトラックもMIDIデータ形式で記述されている。データ種類は、システム・エクスクルーシブ・メッセージである。
【0025】
音声制御トラックは、音声データ部に記憶されている音声データn(n=1,2,3,‥‥)の発生タイミングなどを指定するシーケンストラックである。音声データ部には、音源装置38で合成しにくいバックコーラスやハーモニー歌唱などの人声が記憶されている。音声トラックには、音声指定データと、音声指定データの読み出し間隔、すなわち、音声データを音声データ処理部39に出力して音声信号形成するタイミングを指定するデュレーションデータΔtが書き込まれている。音声指定データは、音声データ番号,音程データおよび音量データからなっている。音声データ番号は、音声データ部に記録されている各音声データの識別番号nである。音程データ,音量データは、形成すべき音声データの音程や音量を指示するデータである。すなわち、言葉を伴わない「アー」や「ワワワワッ」などのバックコーラスは、音程や音量を変化させれば何度も利用できるため、基本的な音程,音量で1つ記憶しておき、このデータに基づいて音程や音量をシフトして繰り返し使用する。音声データ処理部39は音量データに基づいて出力レベルを設定し、音程データに基づいて音声データの読出間隔を変えることによって音声信号の音程を設定する。
【0026】
効果トラックには、コントロールアンプ40を制御するための効果制御データが書き込まれている。コントロールアンプ40は音源装置38,音声データ処理部39から入力される信号に対してリバーブなどの残響系の効果やフィルタ系の効果を付与する。効果制御データは、このような効果の種類を指定するデータおよびその程度を指示するデータなどからなっている。
【0027】
図1において、カラオケ曲の演奏がスタートすると、CPU30は、テンポクロックに基づいて楽曲データの各トラックのイベントデータを順次読み出し、所定の動作部に入力する。楽曲データの楽音トラックのイベントデータは音源装置38に入力される。また、リファレンスデータとして用いられるガイドメロディトラックのイベントデータは音声信号処理部50に入力される。効果トラックのイベントデータはコントロールアンプ40に入力される。CPU30が、歌詞トラックのイベントデータを読み出すと、このイベントデータに対応する文字パターンを文字表示部43のVRAM上に形成する。また、CPU30が、音声制御トラックのイベントデータを読み出すと、このイベントデータが指示する音声データを音声データ処理部39に入力する。
【0028】
音源装置38は、CPU30から入力された楽音トラックのイベントデータに基づいて楽音信号を形成する。楽音トラックは上述したように複数トラックで構成されており、音源装置38はこのデータに基づいて複数パートの楽音信号を同時に形成する。音声データ処理部39は、入力された音声データに基づき、指定された長さ,指定された音高の音声信号を形成する。
【0029】
音源装置38が形成した楽音信号および音声データ処理部39が形成した音声信号はコントロールアンプ40に入力される。コントロールアンプ40は、このカラオケ演奏音に対して残響系,フィルタ系の効果を付与する。この効果の種類や程度は前記効果トラックのイベントデータによって制御される。また、歌唱用のマイク47から入力された歌唱音声信号もコントロールアンプ40に入力される。コントロールアンプ40はこの歌唱音声信号に対して残響系,フィルタ系の効果を付与する。この効果の種類や程度も効果トラックのイベントデータによって制御される。コントロールアンプ40はカラオケ演奏音および歌唱音声信号をミキシングしてスピーカ42に出力する。
【0030】
一方、歌唱用のマイク47から入力された歌唱音声信号はコントロールアンプ40を介して音声信号処理部50にも入力される。音声信号処理部50は、入力された歌唱音声信号を50msずつのフレームに区切り、各フレーム毎の平均周波数および平均音量を測定する。CPU30は、この周波数データと音量データとをリファレンスデータと比較することによって歌唱の音量および音程についての採点を行う。また、各フレームの音量データを読み取ることによって歌唱音声の切れ目を検出し、この歌唱音声の切れ目によってリズムについての採点を行う。歌唱の音量データ,周波数データ,リズムデータのリファレンスデータとの差をマイナス点として加算してゆき、カラオケ演奏が終了したとき、音量,音程,リズム毎にマイナス点を満点から減算することによって各得点を計算し、これを重み付け平均することによって総合得点を算出する。重み付けは曲のジャンルによって定められている。たとえば、ポップスはリズムの重みを大きくし、演歌は音程や音量の重みを大きくするなどである。なお、音声信号処理部50を外付け装置とし音声信号処理部50自身がリファレンスパターンとの比較を行うようにしてもよい。
【0031】
一方、カラオケ演奏中でないときに、マイク47から音声信号が入力されると、音声信号処理部50はその音声信号の音高,音量やリズムなどを検出してCPU30に入力する。CPU30は、入力された音高データ,音量データ,リズムデータをコマンドパターンテーブルのコマンドパターンとを比較し、一致したコマンドパターンの処理を実行する。
【0032】
文字表示部43はCPU30から入力される文字パターンデータをVRAM上に展開して歌詞の映像信号を発生する。CD−ROMチェンジャ44はCPU30から入力された映像選択データに基づいて所定の背景映像を再生する。映像選択データは当該カラオケ曲のジャンルデータなどに基づいて決定される。ジャンルデータは楽曲データのヘッダに書き込まれており、カラオケ演奏スタート時にCPU30によって読み出される。CD−ROMチェンジャ44には、6枚のCD−ROMが内蔵されており約120シーンの背景映像を再生することができる。文字パターンの映像信号および背景映像の映像信号は表示制御部45に入力される。表示制御部45はこれらの映像信号をスーパーインポーズで合成してモニタ46に表示する。
【0033】
図3は音声コマンド機能のうち音高コマンド機能を実行する音高監視動作のフローチャートおよび音高のコマンドパターンテーブルを示す図である。同図(B)のコマンドパターンテーブルには、連続する3音の音高(第1音高,第2音高,第3音高)からなるコマンドパターンが、対応するコマンド(処理内容)とともに複数登録されている。たとえば、コマンドパターンA1,B1,C1はコマンド1に対応し、コマンドパターンA1,C1,D1はコマンド2に対応し、コマンドパターンA1,E1,G1はコマンド3に対応している。各コマンド(1〜n)は、たとえばカラオケ装置で実行可能なインタラクティブな機能(コンテンツ)でのメニュー項目の選択機能などの処理内容のコマンドである。たとえば、コマンド1は占い機能の選択、コマンド2はゲーム機能の選択、コマンド3は新譜紹介機能の選択、コマンド4は食事注文機能の選択などである。
【0034】
同図(A)のフローチャートにおいて、カラオケ演奏がされていない間、マイク47からの入力に対してこの動作を実行する。最初は音声信号が入力されるまでs1で待機する。音声信号が入力されると、この音声信号の音高を検出する(s2)。この音高検出動作は音声信号処理部50が実行する。音声信号の周波数が音高の検出が可能な許容範囲のものであれば(s3)、検出し音高データをCPU30に入力する。
【0035】
音高データがCPU30に入力されると、同図(B)のコマンドパターンテーブルを検索して、上記連続する3音の音高からなるコマンドパターンのうち第1音高が音声信号の音高データと一致するものを抽出する(s4)。第1音高が音高データと一致するコマンドパターンがない場合にはs5の判断でs1に戻る。第1音高が音高データと一致するコマンドパターンが抽出された場合、次の音声信号が入力されるまでs6,s7で待機する。音声信号の切れ目は、入力される音声信号が明確に別の音高に移行したとき、または、音量が所定値以下になったときとする。第1音が途切れたのち一定時間(たとえば1秒程度)以内に次の音声信号が入力されない場合には、連続した3音のコマンドパターンの入力ではないとして(s7)、s4の抽出をキャンセルして(s19)、s1に戻る。
【0036】
第2音の音声信号が入力されると(s6)、この音声信号の音高を検出する(s8)。音声信号が音階の周波数から大きく外れている場合や周波数が変動して一定しない場合など音高を検出できない場合には、コマンド入力ではないとしてs9の判断でs19に進み、s4の抽出をキャンセルしてs1に戻る。
【0037】
第2音の音高データが検出され、音声信号処理部50からCPU30に入力されると、s4で抽出された第1音高が一致したコマンドパターンのうち第2音高が第2音の音声信号から検出された音高データと一致するコマンドパターンを抽出する(s10)。第2音高一致するコマンドパターンがない場合にはs11の判断でs19に進み、s4の抽出をキャンセルしてs1に戻る。第2音高一致するコマンドパターンが抽出されると、次の音声信号(第3音)が入力されるまでs12,s13で待機する。第2音が途切れたのち一定時間次の第3音が入力されない場合には、連続した3音のコマンド入力ではないとして(s13)、s10の抽出をキャンセルして(s19)、s1に戻る。
【0038】
第3音の音声信号が入力されると(s12)、この音声信号の音高を検出する(s14)。音声信号が音階の周波数から大きく外れている場合や周波数が変動して一定しない場合など音高を検出できない場合には、コマンド入力ではないとしてs15の判断でs19に進み、s10の抽出をキャンセルしてs1に戻る。
【0039】
第3音の音高データが検出され、音声信号処理部50からCPU30に入力されると、s10で抽出された第1音高,第2音高が一致したコマンドパターンのうち第3音高が第3音の音声信号から検出された音高と一致するコマンドパターンを抽出する(s16)。第3音高が一致するコマンドがない場合にはs17の判断でs19に進み、s10の抽出をキャンセルしてs1に戻る。第3音高が一致するコマンドパターンが抽出された場合、そのコマンドパターンに対応する処理処理をコマンドパターンテーブルから読み出して実行する(s18)。実行ののち、s1にもどる。
【0040】
この例では全てのコマンドを3音にしたがコマンドは3音以外でもよく、3音と別の音数のものを混在させてもよい。この場合には、長いコマンドの前半部と一致する短いコマンドを設定しないようにする。
【0041】
図4は音声コマンド機能のうち、音量コマンド機能を処理する音量監視動作のフローチャートおよび音量のコマンドパターンテーブルを示す図である。同図(B)において、コマンドパターンテーブルには、連続する3音の音量の大/小(第1音量,第2音量,第3音量)からなるコマンドパターンが、対応するコマンド(処理内容)とともに複数登録されている。たとえば、コマンドパターン「大,大,大」はコマンド1に対応し、コマンドパターン「大,小,大」はコマンド2に対応し、コマンドパターン「大,大,小」はコマンド3に対応する。この音声コマンド機能も音量コマンド機能と同様のインタラクティブなコンテンツのメニュー選択機能に用いてもよく、音声コマンド機能とは異なる機能に用いてもよい。
【0042】
同図(A)のフローチャートにおいて、カラオケ演奏がされていない間、マイク47からの入力に対してこの動作を実行する。第1音の音声信号が入力されるまでs31で待機する。第1音の音声信号が入力されると、この音声信号の音量を検出し、その大小を判定する(s32)。音声信号の入力の有無は低いしきい値で判定し、音声信号の大小は中程度のしきい値で判定する。この音量判定動作は音声信号処理部50が実行し、検出された音量判定データはCPU30に入力される。
【0043】
音量判定データがCPU30に入力されると、同図(B)のコマンドパターンテーブルを検索して、上記音量判定データと第1音量が一致するコマンドパターンを抽出する(s33)。第1音量が一致するコマンドパターンを抽出したのち、第2音の音声信号が入力されるまでs34,s35で待機する。音声信号の切れ目は、音量が上記低いしきい値以下になったときとする。第1音が途切れたのち一定時間(たとえば1秒程度)次の音声信号(第2音)が入力されない場合には、連続した3音のコマンドパターンの入力ではないとして(s35)、s33の抽出をキャンセルして(s45)、s31にもどる。
【0044】
第2音の音声信号が入力されると(s34)、この音声信号の音量の大小を判定する(s36)。第2音の音量判定データが音声信号処理部50からCPU30に入力されると、s33で抽出されたコマンドパターンのうち第2音量がこの音量判定データと一致するコマンドを抽出する(s38)。上記コマンドパターンのなかで第2音量が音量判定データと一致するコマンドパターンがない場合にはs38の判断でs45に進み、s33の抽出をキャンセルしてs31に戻る。第2音量が音量判定データと一致するコマンドパターンが1または複数抽出された場合、第3音の音声信号が入力されるまでs39,s40で待機する。第2音が途切れたのち一定時間次の第3音が入力されない場合には、連続した3音のコマンドパターンの入力ではないとして(s40)、s37の抽出をキャンセルして(s45)、s31に戻る。
【0045】
第3音の音声信号が入力されると(s39)、この音声信号の音量の大小を判定する(s41)。第3音の音量判定データが音声信号処理部50からCPU30に入力されると、s37で抽出されたコマンドパターンのうち第3音量が前記音量判定データと一致するコマンドを抽出する(s42)。上記コマンドパターンのなかで第3音量が音量判定データと一致するコマンドパターンがない場合にはs43の判断でs45に進み、s37の抽出をキャンセルしてs31に戻る。第3音量が音量判定データと一致するコマンドパターンが抽出された場合、そのコマンドパターンに対応するコマンド(処理内容)を実行する(s44)。処理実行ののち、s31にもどる。
【0046】
図5はテンポによる音声コマンドを処理するテンポ監視動作のフローチャートおよびテンポのコマンドパターンテーブルを示す図である。同図(B)のコマンドパターンテーブルには、連続する4音の3つの発音間隔からなるコマンドパターンが、それぞれコマンドと対応して複数登録されている。すなわち、このコマンドパターンは、第1音の入力タイミングと第2音の入力タイミングの時間間隔である第1間隔、第2音の入力タイミングと第3音の入力タイミングの時間間隔である第2間隔、第3音の入力タイミングと第4音の入力タイミングの時間間隔である第3間隔からなっている。この実施形態において時間間隔はmsであるが、これ以外に予め定められたテンポクロックのカウント数などを採用することができる。同図では、たとえば、コマンドパターン「400,400,200」はコマンド1に対応し、コマンドパターン「400,800,200」はコマンド2に対応し、コマンドパターン「600,400,200」はコマンド3に対応している。
【0047】
同図(A)のフローチャートにおいて、カラオケ演奏がされていない間、マイク47からの入力に対してこの動作を実行する。最初に音声信号が入力されるまでs51で待機する。最初の(第1音の)音声信号が入力されると、次の第2音が入力されるまでの時間間隔をカウントする(s52,s54)。第1音ののち一定時間(たとえば1秒程度)次の第2音が入力されない場合には、コマンド入力ではないとして(s53)、カウントを中止してs51にもどる。第1音と第2音の音声信号の切れ目は、音量が所定値以下になったときとする。このカウント動作は音声信号処理部50が実行し、前記時間間隔のカウント値はCPU30に入力される。
【0048】
カウント値がCPU30に入力されると、同図(B)のコマンドパターンテーブルを検索して、第1間隔の値が前記カウント値と一致するコマンドパターンを抽出する(s55)。第1間隔がカウント値と一致するコマンドがない場合にはs56の判断でs51の待機動作にもどる。第1間隔がカウント値と一致するコマンドが抽出されると、第2音の入力タイミングからの時間をカウントしながら(s57)、第3音が入力されるまで待機する(s58,s59)。第2音の入力ののち一定時間次の第3音が入力されない場合には、コマンド入力ではないと判断して(s59)、s55の抽出をキャンセルして(s68)、s51に戻る。
【0049】
第3音の音声信号が入力されると(s58)、第2音の入力タイミングからのカウント値を読み出し、s55で抽出されたコマンドパターンのうち第2間隔の値がこのカウント値と一致するコマンドパターンを抽出する(s60)。上記コマンドパターンのなかで第2間隔がカウント値と一致するコマンドパターンがない場合にはs61の判断でs68に進み、s55の抽出をキャンセルしてs51に戻る。第2間隔がカウント値と一致したコマンドが抽出されると、第3音の入力タイミングからの時間をカウントしながら(s62)、第4音が入力されるまで待機する(s63,s64)。第3音の入力ののち一定時間次の第4音が入力されない場合には、コマンド入力ではないと判断して(s64)、s60の抽出をキャンセルして(s68)、s51に戻る。
【0050】
第4音の音声信号が入力され第3音の入力タイミングから第4音の入力タイミングまでのカウント値が音声信号処理部50から入力されると(s63)、s60で抽出されたコマンドパターンのうち第3間隔がこのカウント値と一致するコマンドパターンを抽出する(s66)。上記コマンドパターンのなかで第3間隔がカウント値と一致するコマンドがない場合にはs66の判断でs68に進み、s60の抽出をキャンセルしてs51に戻る。第3音がカウント値と一致するコマンドパターンが抽出された場合、そのコマンドパターンに対応するコマンド(処理内容)を実行する(s67)。実行ののち、s51にもどる。
【0051】
この例では全てのコマンドを連続する4音の3つの時間間隔で決定するものにしたがコマンドは4音以外でもよく、4音と別の音数のものを混在させてもよい。この場合には、長いコマンドの前半部と一致する短いコマンドを設定しないようにする。
【0052】
なお、カラオケ装置において、上記音声信号の音高,音量,テンポによる音声コマンド機能は、択一的にいずれか1つのみを機能させてもよく、3つの機能を並行して機能させてもよい。また、利用者が任意にいずれかの機能モードを選択できるようにしてもよい。
【0053】
さらに、上記実施形態では音高コマンド機能は、絶対音高を用い、3音の絶対音高でコマンドを構成するようにしたが、テンポコマンド機能のように2音間の音高間隔(相対音程)によってコマンドを構成するようにしてもよい。たとえば、4音の音声信号を入力し、第1音と第2音の相対音程である第1音程、第2音と第3音の相対音程である第2音程、第3音と第4音の相対音程である第3音程によってコマンドを構成するなどである。
【0054】
またさらに、入力された音声信号から音高,音量,テンポなどの複数の音楽要素を抽出し、これらを組み合わせてコマンドパターンとしてもよい。これであれば、少ない音数で多くのコマンドパターンを構成することができる。
【0055】
また、上記実施形態では、音高,音量,テンポの音声コマンド機能はコンテンツの選択機能であるが、これ以外にカラオケ装置上で実行されるゲームの操作機能にこの音声コマンド機能を適用してもよい。たとえば、「○○曲の最初のメロディを歌え」というゲームの回答の場合、マイク47から入力されたメロディが実際に○○曲のメロディであるかを判定する機能に用いることもできる。
【0056】
また、画面上のキャラクタや車を上下や左右に移動させるゲームの場合、音高の高低や音量の大小で移動方向の上下・左右を制御できるようにしてもよい。また、キャラクタや車の移動速度を入力テンポで制御できるようにしてもよい。たとえば、入力音声のテンポが速いほどキャラクタの移動も速くなるなどである。
【0057】
また、上記画面上でキャラクタや車を移動させるゲームにおいて、2本のマイクを用いて2個のキャラクタや車を移動させて対戦させるようにしてもよい。
【0058】
さらに、この音声コマンド機能を用いて、カラオケ装置本来の機能であるカラオケ曲演奏機能の制御を行うようにしてもよい。たとえば、カラオケ曲の演奏がスタンバイ状態にあるときに、あるテンポで音声信号(たとえば、「ワン,ツー,ワン,ツー,スリー」など)を入力すれば、音声信号処理部50がそのテンポを判断し、そのテンポで演奏がスタートするようにしてもよい。また、カラオケ曲の演奏がスタンバイしているときに、そのカラオケ曲の歌いだしを自分の好きなキーで歌うと、音声信号処理部50がそのキーを判断して、カラオケ曲をそのキーに移調して演奏するようにすることもできる。
【0059】
このフローチャートを図6に示す。図6(A)は、テンポ設定動作を示すフローチャートである。カラオケ曲が選曲され演奏がスタンバイしている状態で連続した「ワン,ツー,ワン,ツー,スリー」などの音声が入力されると(s71)、その音声の間隔に基づいてテンポを検出する(s72)。そしてこのテンポを楽曲データを読み出すクロックに設定する(s73)。すなわち、楽曲データがデフォルトで設定したテンポをこのテンポに書き換える。そしてカラオケ演奏をスタートする(s74)。以後の曲中におけるテンポ切り換えは、このテンポが基本として行われる。なお、入力する音声信号は、「ワン,ツー,ワン,ツー,スリー」のようなものでなくカラオケ曲の歌いだしでもよい。
【0060】
同図(B)は、キー設定動作を示すフローチャートである。カラオケ曲が選曲され演奏がスタンバイしている状態でその曲の歌いだしメロディが入力されると(s81)、このメロディの周波数からそのキー(調性)を検出する(s82)。このキーと楽曲データの原調に基づき、曲をこのキーに移調するための音高シフト量を設定する(s83)。すなわち、原調がハ長調で歌われたキーがニ長調であれば全音(2半音)全てのノートデータを上げるようにシフトする。このシフトはノートデータが読み出されたときリアルタイムに行ってもよく、予め全データを書き換えてせもよい。こののちカラオケ演奏をスタートする(s84)。なお、最初に入力するメロディは、歌いだし以外の部分でもよい。たとえば、サビの部分でもよい。
【0061】
また、この例では、歌唱者が曲の一部を歌唱し、その歌唱のキーに一致するように演奏のキーを移調するようにしているが、歌唱者が入力した音を主音とするキーに移調するようにしてもよく、歌唱者が入力した音がその曲の最高音または最低音となるようなキーに移調するようにしてもよい。これらの処理も上記フローチャートのs82およびs83で行うことができる。
【0062】
また、上記実施形態のテンポコマンド機能では、音声信号のスタートタイミングの間隔のみの組み合わせでコマンドを決定しているが、音声信号の持続時間もコマンドの要素にしてもよい。これにより、スタートタイミングの間隔である第1間隔,第2間隔,第3間隔が同じパターンであってもその音声の長さで別のコマンドにすることができる。また、スタートタイミングは考慮せず、複数の音声信号の長さのみでコマンドを構成するようにしてもよい。
【0063】
【発明の効果】
以上のようにこの発明によれば、音声信号によって装置を制御することができるため、装置が多機能であっても操作用のボタンの数を増やしたり、キーシーケンスを複雑にしたりする必要がなくなり、マイクから容易に装置を制御することができるようになる。
【図面の簡単な説明】
【図1】この発明の実施形態であるカラオケ装置のブロック図
【図2】同カラオケ装置のRAM,ハードディスク,楽曲データの構成を示す図
【図3】同カラオケ装置の音高コマンド機能を処理するフローチャート
【図4】同カラオケ装置の音量コマンド機能を処理するフローチャート
【図5】同カラオケ装置のリズムコマンド機能を処理するフローチャート
【図6】同カラオケ装置のテンポ設定動作およびキー設定動作を示すフローチャート
【符号の説明】
30…CPU、32…RAM、37…ハードディスク、
47…マイク、50…音声信号処理部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice instruction apparatus and a karaoke apparatus capable of performing command input, tempo, key setting, and the like by voice input from a microphone.
[0002]
[Prior art]
In order to use the karaoke device, operations such as music selection and performance start are necessary, but in recent years, with the enhancement of the functionality of karaoke devices, various operations for using new functions other than music selection and performance start are required. It is necessary. Conventionally, the above operation is performed by turning on a button of an infrared remote control device or a panel switch of the device main body.
[0003]
[Problems to be solved by the invention]
However, if many functions are to be operated with an infrared remote controller or a panel switch of the apparatus main body, it is necessary to increase the number of buttons or to define a complicated key sequence. In order to increase the number of buttons, it is necessary to modify the hardware, which cannot be easily performed, and there are problems such as cost increase and time taken for response. Further, when trying to operate a new function with a key sequence, the key sequence becomes complicated and the key operation becomes troublesome.
[0004]
An object of the present invention is to provide a voice instruction apparatus and a karaoke apparatus that can operate various functions by a voice signal input from a microphone.
[0005]
[Means for Solving the Problems]
  The invention of claim 1 of this application isMultiple consecutiveAudio signaleachMusic elementsIs a combination ofThe command pattern table storing the command pattern and the processing content corresponding to the command pattern in correspondence with each other, and searching the command pattern table with a plurality of music elements detected from the audio signal input from the microphone, and the matched command And a control unit that executes processing corresponding to the command pattern when the pattern is extracted.
[0006]
The invention of claim 2 of this application is characterized in that, in the invention of claim 1, the music element is a pitch, volume or tempo of an audio signal.
[0007]
  The karaoke apparatus which is the invention of claim 3 of this application,The voice instruction device according to claim 1 or 2 is provided.
[0009]
In the first aspect of the invention, the music element can be a frequency, volume, temporal element, or the like. The frequency may be a continuous value expressed in hertz or a stepped pitch. As a temporal element, a time interval between sound generation start timings of a plurality of audio signals, a length of one audio signal, or the like can be used.
[0010]
A command pattern using these music elements is configured as follows, for example.
[0011]
Pitch data sequence and volume data sequence extracted from multiple audio signals
Time interval (tempo) and frequency interval (pitch) between multiple audio signals
Combination of pitch data, volume data, etc. extracted from one audio signal.
[0012]
That is, the plurality of music elements of the command pattern may be one type of music element sequence extracted from a plurality of continuous audio signals, or may be a plurality of music element groups extracted from one audio signal. The command pattern table stores processing contents for controlling a device such as a karaoke device corresponding to these command patterns. As processing contents, for example, when the present invention is applied to a karaoke device, a function other than karaoke performance that can be executed by the karaoke device (contents such as games and fortune-telling), operations in each content such as character actions in the game function, etc. There is. According to the present invention, when such a function that the conventional karaoke apparatus does not have is added, it can be operated by voice input from the microphone without adding a hardware operation button.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
A karaoke apparatus according to an embodiment of the present invention will be described with reference to the drawings. This karaoke apparatus has a singing scoring function. The singing scoring function scores the pitch, volume, and rhythm of a user by comparing the user's singing voice signal with reference data, and displays the score after the singing ends. This scoring function is executed by the audio signal processing unit 50.
[0016]
The karaoke apparatus has a voice command function. The voice command function is a function that allows the user to operate the karaoke device by inputting voice from the microphone 47 when the karaoke song is not being played. There are three types of voice command functions: a pitch command function, a volume command function, and a tempo command function. The pitch, volume, and tempo are determined by the voice signal processing unit 50 in the same manner as the scoring function. When a plurality of audio signals are continuously input from the microphone 47 when the karaoke performance is not being performed, the audio signal processing unit 50 detects a music element such as a pitch, volume, or tempo. It is determined whether the arrangement pattern of the music elements matches any of the command patterns stored in the command pattern table, and when there is a match, the command (processing) indicated by the command pattern is executed.
[0017]
FIG. 1 is a block diagram of the karaoke apparatus. FIG. 2 is a block diagram of the RAM 32, hard disk 37 and music data of the karaoke apparatus.
In FIG. 1, a CPU 30 for controlling the operation of the entire apparatus includes a ROM 31, a RAM 32, a hard disk storage device (HDD) 37, a communication control unit 36, a remote control receiving unit 33, a display panel 34, a panel switch 35, a sound source via a bus. A device 38, an audio data processing unit 39, a control amplifier 40, a character display unit 43, a CD-ROM changer 44, a display control unit 45, and an audio signal processing unit 50 are connected.
[0018]
The ROM 31 stores an activation program necessary for activating this apparatus. A system program for controlling the operation of the apparatus, a karaoke execution program, and the like are stored in the HDD 37, and are read into the RAM 32 by the startup program when the apparatus is turned on. Various storage areas such as an area for storing these programs are set in the RAM 32 as shown in FIG. 2A, the RAM 32 has a program storage area 320 for storing a program read from the hard disk 37, an execution data storage area 321 for storing song data of a karaoke song being played, reference data in the song data, and A point storage area 322 for storing points obtained by comparing with a singing voice signal, a command pattern table 323 for storing command patterns of the voice command function, and the like are provided. The program and command pattern table are read from the hard disk 37 when the power is turned on, and the music data in the execution data storage area 321 is read from the hard disk 37 when the music is selected by the user.
[0019]
In addition, as shown in FIG. 2B, the HDD 37 has a program storage area 370 for storing the system program and application program, a music data file 371 for storing thousands of music data, a command pattern table 372, and the like. Is set. Reference data for scoring the user's karaoke song is included in the song data of each karaoke song. The communication control unit 36 downloads music data and the like from the host station via the ISDN line, and writes the music data directly into the HDD 37 without using the CPU 30 using the built-in DMA circuit.
[0020]
Ordinary commands such as song selection and karaoke song start are input from the infrared remote controller 51. The remote control receiving unit 33 receives the infrared signal sent from the remote control 51 and restores the data. The remote controller 51 includes a command switch such as a music selection switch, a numeric keypad switch, and the like. When the user operates these switches, the remote controller 51 transmits an infrared signal modulated with a code corresponding to the operation. The display panel 34 is provided on the front side of the karaoke apparatus, and displays the currently playing song code, the number of reserved songs, and the like. The panel switch 35 is provided in the front operation unit of the karaoke apparatus, and includes a tempo change switch, a key change switch, and the like.
[0021]
In FIG. 2C, the music data is composed of a header, a musical sound track, a guide melody track, a lyrics track, a voice control track, an effect track, and a voice data section. The header is a portion in which various data relating to the music data is written, and data such as a music title, genre, release date, and performance time (length) of the music is written.
[0022]
Each track from the musical sound track to the effect track is composed of a plurality of event data and sequence data including duration data Δt indicating a time interval between the event data. The CPU 30 reads the data of all tracks in parallel based on the sequence program during karaoke performance. The sequence program is a program that counts Δt with a predetermined tempo clock, reads the event data that follows when Δt is counted up, and outputs the event data to a predetermined processing unit.
[0023]
The musical sound track is formed with various parts such as a melody track and a rhythm track. In the guide melody track, the melody sequence data of the karaoke song, that is, the melody sequence data to be sung by the singer, is written. The CPU 30 generates reference pitch data and volume data based on this data and compares it with the singing voice.
[0024]
The lyrics track is a track that stores sequence data for displaying lyrics on the monitor 46. This sequence data is not musical sound data, but this track is also described in the MIDI data format in order to unify the implementation and facilitate the work process. The data type is a system exclusive message.
[0025]
The audio control track is a sequence track that designates the generation timing of audio data n (n = 1, 2, 3,...) Stored in the audio data portion. The voice data section stores voices such as back chorus and harmony singing that are difficult to synthesize by the sound source device 38. In the audio track, audio designation data and duration data Δt for designating the timing at which the audio data is read out, that is, the timing at which the audio data is output to the audio data processing unit 39 to form an audio signal are written. The voice designation data includes a voice data number, pitch data, and volume data. The audio data number is an identification number n of each audio data recorded in the audio data part. The pitch data and volume data are data for instructing the pitch and volume of audio data to be formed. In other words, back choruses such as “Ah” and “Wawa Wawa” without words can be used many times by changing the pitch and volume, so one data is stored at the basic pitch and volume. The pitch and volume are shifted based on the above and used repeatedly. The audio data processing unit 39 sets the output level based on the volume data, and sets the pitch of the audio signal by changing the reading interval of the audio data based on the pitch data.
[0026]
Effect control data for controlling the control amplifier 40 is written in the effect track. The control amplifier 40 gives a reverberation effect such as reverberation or a filter effect to the signals input from the sound source device 38 and the audio data processing unit 39. The effect control data is composed of data designating the kind of effect and data designating the degree thereof.
[0027]
In FIG. 1, when the performance of the karaoke song starts, the CPU 30 sequentially reads the event data of each track of the song data based on the tempo clock and inputs it to a predetermined operation unit. The event data of the musical tone track of the music data is input to the sound source device 38. Further, the event data of the guide melody track used as reference data is input to the audio signal processing unit 50. The event data of the effect track is input to the control amplifier 40. When the CPU 30 reads the event data of the lyrics track, a character pattern corresponding to the event data is formed on the VRAM of the character display unit 43. When the CPU 30 reads the event data of the audio control track, the audio data indicated by the event data is input to the audio data processing unit 39.
[0028]
The tone generator 38 forms a musical tone signal based on the musical tone track event data input from the CPU 30. As described above, the tone track is composed of a plurality of tracks, and the tone generator 38 simultaneously forms a plurality of parts of tone signals based on this data. The audio data processing unit 39 forms an audio signal having a specified length and a specified pitch based on the input audio data.
[0029]
The tone signal formed by the tone generator 38 and the sound signal formed by the sound data processing unit 39 are input to the control amplifier 40. The control amplifier 40 provides reverberation and filter effects to the karaoke performance sound. The type and degree of this effect are controlled by the event data of the effect track. A singing voice signal input from the singing microphone 47 is also input to the control amplifier 40. The control amplifier 40 gives reverberation and filter effects to this singing voice signal. The type and degree of this effect are also controlled by the event data of the effect track. The control amplifier 40 mixes the karaoke performance sound and the singing voice signal and outputs them to the speaker 42.
[0030]
On the other hand, the singing voice signal input from the singing microphone 47 is also input to the voice signal processing unit 50 via the control amplifier 40. The audio signal processing unit 50 divides the input singing audio signal into frames of 50 ms, and measures the average frequency and average volume for each frame. The CPU 30 scores the volume and pitch of the song by comparing the frequency data and volume data with reference data. In addition, the singing voice break is detected by reading the volume data of each frame, and the rhythm is scored based on the singing voice break. The difference between the singing volume data, frequency data, and rhythm data reference data is added as a negative point, and when the karaoke performance ends, each point is obtained by subtracting the negative point from the full score for each volume, pitch, and rhythm. Is calculated, and the total score is calculated by weighted averaging. The weighting is determined by the genre of the song. For example, pops increases the weight of rhythm, and enka increases the weight of pitch and volume. The audio signal processing unit 50 may be an external device, and the audio signal processing unit 50 itself may perform comparison with the reference pattern.
[0031]
On the other hand, when a voice signal is input from the microphone 47 when the karaoke performance is not being performed, the voice signal processing unit 50 detects the pitch, volume, rhythm, and the like of the voice signal and inputs them to the CPU 30. The CPU 30 compares the input pitch data, volume data, and rhythm data with the command pattern of the command pattern table, and executes the process of the matched command pattern.
[0032]
The character display unit 43 develops the character pattern data input from the CPU 30 on the VRAM and generates a video signal of lyrics. The CD-ROM changer 44 reproduces a predetermined background video based on the video selection data input from the CPU 30. The video selection data is determined based on the genre data of the karaoke song. The genre data is written in the header of the music data, and is read out by the CPU 30 when the karaoke performance is started. The CD-ROM changer 44 incorporates six CD-ROMs and can reproduce background images of about 120 scenes. The video signal of the character pattern and the video signal of the background video are input to the display control unit 45. The display control unit 45 synthesizes these video signals by superimposing and displays them on the monitor 46.
[0033]
FIG. 3 shows a flowchart of a pitch monitoring operation for executing the pitch command function of the voice command function and a pitch command pattern table. In the command pattern table of FIG. 5B, there are a plurality of command patterns consisting of three consecutive pitches (first pitch, second pitch, third pitch) together with corresponding commands (processing contents). It is registered. For example, command patterns A1, B1, and C1 correspond to command 1, command patterns A1, C1, and D1 correspond to command 2, and command patterns A1, E1, and G1 correspond to command 3. Each command (1 to n) is a command of processing contents such as a menu item selection function in an interactive function (content) that can be executed by a karaoke apparatus, for example. For example, command 1 is selection of a fortune telling function, command 2 is selection of a game function, command 3 is selection of a new music introduction function, command 4 is selection of a meal order function, and the like.
[0034]
In the flowchart of FIG. 5A, this operation is performed on the input from the microphone 47 while the karaoke performance is not being performed. Initially, the process waits at s1 until an audio signal is input. When an audio signal is input, the pitch of the audio signal is detected (s2). This pitch detection operation is executed by the audio signal processing unit 50. If the frequency of the audio signal is within an allowable range in which the pitch can be detected (s3), the detected pitch data is input to the CPU 30.
[0035]
When the pitch data is input to the CPU 30, the command pattern table of FIG. 5B is searched, and the first pitch among the command patterns consisting of the above three consecutive pitches is the pitch data of the voice signal. Are extracted (s4). If there is no command pattern in which the first pitch matches the pitch data, the process returns to s1 in the determination of s5. When the command pattern in which the first pitch matches the pitch data is extracted, the process waits at s6 and s7 until the next voice signal is input. The break of the audio signal is when the input audio signal clearly shifts to another pitch, or when the volume becomes a predetermined value or less. If the next sound signal is not input within a certain time (for example, about 1 second) after the first sound is interrupted, it is determined that the command pattern of three consecutive sounds is not input (s7), and the extraction of s4 is canceled. (S19), the process returns to s1.
[0036]
When the second sound signal is input (s6), the pitch of the sound signal is detected (s8). If the pitch cannot be detected, such as when the audio signal deviates significantly from the scale frequency, or if the frequency fluctuates and is not constant, the process proceeds to s19 with the determination of s9 as canceling the command and cancels the extraction of s4. And return to s1.
[0037]
When the pitch data of the second sound is detected and input to the CPU 30 from the voice signal processing unit 50, the second pitch of the command pattern in which the first pitch extracted in s4 matches is the second voice. A command pattern that matches the pitch data detected from the signal is extracted (s10). If there is no command pattern that matches the second pitch, the process proceeds to s19 with the determination of s11, cancels the extraction of s4, and returns to s1. When a command pattern that matches the second pitch is extracted, the process waits at s12 and s13 until the next voice signal (third sound) is input. If the third sound is not input for a certain time after the second sound is interrupted, it is determined that the command input is not three consecutive sounds (s13), the extraction of s10 is canceled (s19), and the process returns to s1.
[0038]
When the third sound signal is input (s12), the pitch of the sound signal is detected (s14). If the pitch cannot be detected, such as when the audio signal deviates significantly from the scale frequency, or if the frequency fluctuates and is not constant, the process proceeds to s19 with the judgment of s15 as not being a command input, and the extraction of s10 is canceled. And return to s1.
[0039]
When the pitch data of the third sound is detected and input to the CPU 30 from the voice signal processing unit 50, the third pitch of the command pattern in which the first pitch and the second pitch extracted in s10 match is found. A command pattern that matches the pitch detected from the third sound signal is extracted (s16). If there is no command with the same third pitch, the process proceeds to s19 by determining s17, cancels the extraction of s10, and returns to s1. When a command pattern having the same third pitch is extracted, the processing corresponding to the command pattern is read from the command pattern table and executed (s18). After execution, return to s1.
[0040]
In this example, all the commands are set to three sounds, but the commands may be other than three sounds, and may be mixed with three sounds having different numbers. In this case, a short command that matches the first half of the long command is not set.
[0041]
FIG. 4 shows a flowchart of a volume monitoring operation for processing the volume command function of the voice command functions and a command pattern table for the volume. In FIG. 5B, the command pattern table includes command patterns composed of large / small (first volume, second volume, third volume) of three consecutive sounds, together with corresponding commands (processing contents). Multiple registered. For example, the command pattern “large, large, large” corresponds to the command 1, the command pattern “large, small, large” corresponds to the command 2, and the command pattern “large, large, small” corresponds to the command 3. This voice command function may also be used for an interactive content menu selection function similar to the volume command function, or may be used for a function different from the voice command function.
[0042]
In the flowchart of FIG. 5A, this operation is performed on the input from the microphone 47 while the karaoke performance is not being performed. The process waits at s31 until the first sound signal is input. When the sound signal of the first sound is input, the volume of the sound signal is detected and the magnitude is determined (s32). The presence / absence of an audio signal is determined by a low threshold value, and the magnitude of the audio signal is determined by an intermediate threshold value. This sound volume determination operation is executed by the audio signal processing unit 50, and the detected sound volume determination data is input to the CPU 30.
[0043]
When the sound volume determination data is input to the CPU 30, the command pattern table in FIG. 5B is searched to extract a command pattern in which the sound volume determination data matches the first sound volume (s33). After extracting the command pattern having the same first volume, the process waits at s34 and s35 until the second sound signal is input. An audio signal break occurs when the volume falls below the low threshold. When the next sound signal (second sound) is not input for a certain period of time (for example, about 1 second) after the first sound is interrupted, it is determined that the command pattern of three consecutive sounds is not input (s35), and s33 is extracted. Is canceled (s45), and the process returns to s31.
[0044]
When the audio signal of the second sound is input (s34), the volume level of the audio signal is determined (s36). When the volume determination data of the second sound is input from the audio signal processing unit 50 to the CPU 30, a command whose second volume matches the volume determination data is extracted from the command pattern extracted in s33 (s38). If there is no command pattern in which the second sound volume matches the sound volume determination data in the command pattern, the process proceeds to s45 by the determination in s38, the extraction of s33 is canceled, and the process returns to s31. When one or a plurality of command patterns whose second volume matches the volume determination data are extracted, the process waits at s39 and s40 until the third sound signal is input. If the third sound is not input for a certain period of time after the second sound is interrupted, it is determined that the command pattern of three consecutive sounds is not input (s40), and the extraction of s37 is canceled (s45). Return.
[0045]
When the audio signal of the third sound is input (s39), the volume level of the audio signal is determined (s41). When the volume determination data of the third sound is input from the audio signal processing unit 50 to the CPU 30, a command whose third volume matches the volume determination data is extracted from the command pattern extracted in s37 (s42). If there is no command pattern in which the third volume matches the volume determination data in the command pattern, the process proceeds to s45 by the determination of s43, the extraction of s37 is canceled, and the process returns to s31. When a command pattern whose third volume matches the volume determination data is extracted, a command (processing content) corresponding to the command pattern is executed (s44). After executing the process, the process returns to s31.
[0046]
FIG. 5 shows a flowchart of a tempo monitoring operation for processing a voice command by tempo and a tempo command pattern table. In the command pattern table of FIG. 5B, a plurality of command patterns each consisting of three consecutive sound generation intervals of four sounds are registered corresponding to the commands. That is, this command pattern includes a first interval that is a time interval between the input timing of the first sound and the input timing of the second sound, and a second interval that is a time interval between the input timing of the second sound and the input timing of the third sound. The third interval is the time interval between the input timing of the third sound and the input timing of the fourth sound. In this embodiment, the time interval is ms, but other than this, a predetermined tempo clock count or the like can be employed. In the figure, for example, command pattern “400, 400, 200” corresponds to command 1, command pattern “400, 800, 200” corresponds to command 2, and command pattern “600, 400, 200” corresponds to command 3. It corresponds to.
[0047]
In the flowchart of FIG. 5A, this operation is performed on the input from the microphone 47 while the karaoke performance is not being performed. It waits in s51 until an audio signal is input first. When the first (first sound) audio signal is input, the time interval until the next second sound is input is counted (s52, s54). If the next second sound is not input for a certain time (for example, about 1 second) after the first sound, the command is not input (s53), and the count is stopped and the process returns to s51. The break between the sound signals of the first sound and the second sound is when the sound volume falls below a predetermined value. This counting operation is performed by the audio signal processing unit 50, and the count value of the time interval is input to the CPU 30.
[0048]
When the count value is input to the CPU 30, the command pattern table of FIG. 5B is searched to extract a command pattern whose first interval value matches the count value (s55). If there is no command in which the first interval matches the count value, the process returns to the standby operation in s51 based on the determination in s56. When a command whose first interval matches the count value is extracted, it waits until the third sound is input while counting the time from the input timing of the second sound (s57) (s58, s59). If the third sound is not input for a certain time after the second sound is input, it is determined that the command is not input (s59), the extraction of s55 is canceled (s68), and the process returns to s51.
[0049]
When the third sound signal is input (s58), the count value from the input timing of the second sound is read, and the command whose second interval value matches the count value in the command pattern extracted in s55. A pattern is extracted (s60). If there is no command pattern in which the second interval coincides with the count value in the command pattern, the process proceeds to s68 in the determination of s61, the extraction of s55 is canceled, and the process returns to s51. When a command whose second interval matches the count value is extracted, it waits until the fourth sound is input while counting the time from the input timing of the third sound (s62) (s63, s64). If the fourth sound is not input for a predetermined time after the third sound is input, it is determined that the command is not input (s64), the extraction of s60 is canceled (s68), and the process returns to s51.
[0050]
When a sound value of the fourth sound is input and a count value from the input timing of the third sound to the input timing of the fourth sound is input from the sound signal processing unit 50 (s63), among the command patterns extracted in s60 A command pattern whose third interval matches this count value is extracted (s66). If there is no command whose third interval matches the count value in the command pattern, the process proceeds to s68 in the determination of s66, cancels the extraction of s60, and returns to s51. If a command pattern whose third sound matches the count value is extracted, a command (processing content) corresponding to the command pattern is executed (s67). After execution, return to s51.
[0051]
In this example, all commands are determined at three time intervals of four consecutive sounds, but the commands may be other than four sounds, or four sounds and other sounds may be mixed. In this case, a short command that matches the first half of the long command is not set.
[0052]
In the karaoke apparatus, as for the voice command function based on the pitch, volume and tempo of the voice signal, only one of them may alternatively function, or three functions may function in parallel. . Further, the user may arbitrarily select one of the function modes.
[0053]
Further, in the above embodiment, the pitch command function uses absolute pitches and commands are composed of three absolute pitches. However, as in the tempo command function, the pitch interval between two pitches (relative pitch) is used. ) May constitute a command. For example, when four sound signals are input, the first pitch that is the relative pitch of the first and second sounds, the second pitch that is the relative pitch of the second and third sounds, the third and fourth sounds. The command is constituted by the third pitch which is the relative pitch of
[0054]
Furthermore, a plurality of music elements such as pitch, volume, and tempo may be extracted from the input audio signal and combined to form a command pattern. In this case, a large number of command patterns can be configured with a small number of sounds.
[0055]
In the above embodiment, the voice command function for pitch, volume, and tempo is a content selection function. However, the voice command function may be applied to a game operation function executed on the karaoke apparatus. Good. For example, in the case of an answer to a game “Sing the first melody of the XX song”, it can be used for a function of determining whether the melody input from the microphone 47 is actually the melody of the XX song.
[0056]
In addition, in the case of a game in which a character or car on the screen is moved up and down or left and right, the up and down and left and right of the moving direction may be controlled by the pitch or the volume. Moreover, you may enable it to control the moving speed of a character or a vehicle by input tempo. For example, the faster the input voice tempo, the faster the character moves.
[0057]
Further, in a game in which a character or a car is moved on the screen, two characters or a car may be moved using two microphones to make a battle.
[0058]
Further, this voice command function may be used to control a karaoke song performance function that is an original function of the karaoke apparatus. For example, if a voice signal (for example, “One, Two, One, Two, Three”, etc.) is input at a certain tempo when the performance of a karaoke song is in a standby state, the voice signal processing unit 50 determines the tempo. However, the performance may start at that tempo. Also, when the performance of a karaoke song is on standby, when the singing of the karaoke song is sung with a key of his choice, the audio signal processing unit 50 determines the key and transposes the karaoke song to that key. You can also play.
[0059]
This flowchart is shown in FIG. FIG. 6A is a flowchart showing the tempo setting operation. When a continuous voice such as “One, Two, One, Two, Three” is input while a karaoke song is selected and the performance is on standby (s71), the tempo is detected based on the interval of the voice (S71). s72). Then, this tempo is set as a clock for reading music data (s73). That is, the tempo set by default in the music data is rewritten to this tempo. Then, karaoke performance is started (s74). Subsequent tempo switching is performed based on this tempo. Note that the input audio signal is not like “One, Two, One, Two, Three” but may be a karaoke song.
[0060]
FIG. 5B is a flowchart showing the key setting operation. When a karaoke song is selected and the melody of the song is input while the performance is on standby (s81), the key (tonality) is detected from the frequency of this melody (s82). Based on the key and the original tone of the song data, a pitch shift amount for transposing the song to this key is set (s83). That is, if the key sung in C major is in D major, the shift is performed so as to raise all the note data of the whole tone (two semitones). This shift may be performed in real time when the note data is read, or all data may be rewritten in advance. After this, karaoke performance is started (s84). The melody to be input first may be a part other than the singing start. For example, a rust portion may be used.
[0061]
In this example, the singer sings a part of the song and transposes the key of the performance so that it matches the key of the singing. You may make it transpose, and you may make it transpose to the key that the sound which the singer input becomes the highest sound or the lowest sound of the music. These processes can also be performed in s82 and s83 of the flowchart.
[0062]
In the tempo command function of the above-described embodiment, the command is determined only by the combination of the audio signal start timing intervals. However, the duration of the audio signal may also be an element of the command. As a result, even if the first interval, the second interval, and the third interval, which are the start timing intervals, are the same pattern, another command can be used depending on the length of the voice. Further, the command may be configured only by the lengths of a plurality of audio signals without considering the start timing.
[0063]
【The invention's effect】
As described above, according to the present invention, since the apparatus can be controlled by the audio signal, it is not necessary to increase the number of buttons for operation or complicate the key sequence even if the apparatus is multifunctional. The device can be easily controlled from the microphone.
[Brief description of the drawings]
FIG. 1 is a block diagram of a karaoke apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing the configuration of RAM, hard disk, and music data of the karaoke apparatus
FIG. 3 is a flowchart for processing a pitch command function of the karaoke apparatus.
FIG. 4 is a flowchart for processing a volume command function of the karaoke apparatus.
FIG. 5 is a flowchart for processing a rhythm command function of the karaoke apparatus.
FIG. 6 is a flowchart showing a tempo setting operation and a key setting operation of the karaoke apparatus.
[Explanation of symbols]
30 ... CPU, 32 ... RAM, 37 ... hard disk,
47 ... Microphone, 50 ... Audio signal processor

Claims (3)

連続する複数の音声信号のそれぞれの音楽要素の組み合わせであるコマンドパターンと該コマンドパターンに対応する処理内容とを対応して記憶したコマンドパターンテーブルと、
マイクから入力された音声信号から検出された複数の音楽要素で前記コマンドパターンテーブルを検索し、一致したコマンドパターンが抽出されたとき、そのコマンドパターンに対応する処理を実行する制御部と、
を備えたことを特徴とする音声指示装置。
A command pattern table that stores a command pattern that is a combination of music elements of a plurality of continuous audio signals and processing contents corresponding to the command pattern;
A control unit that searches the command pattern table with a plurality of music elements detected from an audio signal input from a microphone and executes a process corresponding to the command pattern when a matching command pattern is extracted;
A voice instruction device comprising:
前記音楽要素は、音声信号の音高、音量またはテンポである請求項1に記載の音声指示装置。  The voice instruction device according to claim 1, wherein the music element is a pitch, a volume, or a tempo of a voice signal. 請求項1または請求項2に記載の音声指示装置を備えたカラオケ装置。  A karaoke apparatus comprising the voice instruction apparatus according to claim 1.
JP07386998A 1998-03-23 1998-03-23 Voice instruction device and karaoke device Expired - Lifetime JP4275762B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07386998A JP4275762B2 (en) 1998-03-23 1998-03-23 Voice instruction device and karaoke device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07386998A JP4275762B2 (en) 1998-03-23 1998-03-23 Voice instruction device and karaoke device

Publications (2)

Publication Number Publication Date
JPH11272283A JPH11272283A (en) 1999-10-08
JP4275762B2 true JP4275762B2 (en) 2009-06-10

Family

ID=13530637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07386998A Expired - Lifetime JP4275762B2 (en) 1998-03-23 1998-03-23 Voice instruction device and karaoke device

Country Status (1)

Country Link
JP (1) JP4275762B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030075316A (en) * 2002-03-18 2003-09-26 주식회사 아이티매직 Speech recognition method and speech recognition system for juke box system
JP4491743B2 (en) * 2006-06-26 2010-06-30 株式会社タイトー Karaoke equipment
DE102011003976B3 (en) 2011-02-11 2012-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sound input device for use in e.g. music instrument input interface in electric guitar, has classifier interrupting output of sound signal over sound signal output during presence of condition for period of sound signal passages
JP2014130187A (en) * 2012-12-28 2014-07-10 Brother Ind Ltd Karaoke device
JP6891969B2 (en) 2017-10-25 2021-06-18 ヤマハ株式会社 Tempo setting device and its control method, program

Also Published As

Publication number Publication date
JPH11272283A (en) 1999-10-08

Similar Documents

Publication Publication Date Title
JP3260653B2 (en) Karaoke equipment
JP3058051B2 (en) Musical amusement system
JP2001145778A (en) Game system, and computer readable storage medium for effecting the system
JP2002301263A (en) Game system and computer readable storage medium for realizing the same
JP4275762B2 (en) Voice instruction device and karaoke device
JP3286683B2 (en) Melody synthesis device and melody synthesis method
JP2002006866A (en) Karaoke sing-along machine
JP3239411B2 (en) Electronic musical instrument with automatic performance function
JP3902736B2 (en) Karaoke equipment
KR19990068392A (en) Karaoke system capable of dance training and gaming and method using the same
JP3614049B2 (en) Karaoke device, external device of karaoke device, and karaoke system
JP3005915B2 (en) Electronic musical instrument
JP3264857B2 (en) Karaoke device and karaoke device distribution device
JP3885250B2 (en) Karaoke equipment
JP3975621B2 (en) Dance game equipment
JP3962114B2 (en) Karaoke equipment
JP3902735B2 (en) Karaoke equipment
JP4605295B2 (en) Karaoke equipment
JP3573425B2 (en) Karaoke device characterized by karaoke battle game
JP2640587B2 (en) Automatic performance device with singing ability evaluation function
JP3672178B2 (en) Musical amusement system
JP3672179B2 (en) Musical amusement system
JPH10222176A (en) Karaoke device
JPH1039882A (en) Karaoke device
JP2005099844A (en) Musical amusement system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070709

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070814

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090305

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4