JP2005148199A - Information processing apparatus, image forming apparatus, program, and storage medium - Google Patents
Information processing apparatus, image forming apparatus, program, and storage medium Download PDFInfo
- Publication number
- JP2005148199A JP2005148199A JP2003382282A JP2003382282A JP2005148199A JP 2005148199 A JP2005148199 A JP 2005148199A JP 2003382282 A JP2003382282 A JP 2003382282A JP 2003382282 A JP2003382282 A JP 2003382282A JP 2005148199 A JP2005148199 A JP 2005148199A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- microphone
- input
- voice
- impulse response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ファイル検索などを行なう情報処理装置、画像形成装置及びプログラム、並びにこのプログラムを記憶した記憶媒体に関する。 The present invention relates to an information processing apparatus that performs file search and the like, an image forming apparatus, a program, and a storage medium that stores the program.
特許文献1には、スピーカーから出力する音声による音響エコーに人間の声、背景雑音などが混入している場合に、マイク入力する音声から、これら音響エコーなどのノイズを除去する技術について開示されている。
デジタル複写機においては、画像データなどのファイルを蓄積する機能や、ネットワーク機能を備えたものが知られている。このようなデジタル複写機においては、蓄積されるファイルには、スキャナで読み取ったPDFファイルなどをOCR処理したテキストデータや、インターネットやLANを介して外部から受信したテキストデータなども蓄積される。そこで、このような蓄積されたテキストデータを含むファイルを対象として全文検索することができれば、必要なファイルを用意に探し出すことができて便利である。このような全文検索の技術については、さまざまな技術が周知である。 Digital copying machines are known that have a function of storing files such as image data and a network function. In such a digital copying machine, the stored file also stores text data obtained by OCR processing of a PDF file read by a scanner, text data received from the outside via the Internet or LAN, and the like. Therefore, if a full-text search can be performed on a file containing such accumulated text data, it is convenient to find a necessary file in advance. Various techniques for such full-text search are well known.
しかしながら、この全文検索を行う際に検索キーワードをキーボード操作で入力したのでは、全文検索機能の使い勝手が悪く、より簡易な操作により全文検索できるようにしたい。 However, if a search keyword is input by keyboard operation when performing this full-text search, the full-text search function is not easy to use, and the full-text search can be performed by a simpler operation.
本発明の目的は、ファイル群の検索を行う際に、検索キーワードの入力を容易として使い勝手を向上させることである。 An object of the present invention is to facilitate the input of a search keyword and improve the usability when searching for a file group.
本発明は、マイクと、このマイクで入力された声を音声認識してテキストデータに変換する音声認識手段と、このテキストデータを検索キーワードとして所定のファイル群を検索する検索手段と、を備えている情報処理装置である。 The present invention includes a microphone, speech recognition means for recognizing a voice input through the microphone and converting it into text data, and search means for searching a predetermined file group using the text data as a search keyword. Information processing apparatus.
別の面から見た本発明は、原稿の画像を読み取るスキャナと、この読取後の画像データに基づいて媒体上に画像の形成を行うプリンタと、ファイル群を蓄積する蓄積手段と、マイクと、このマイクで入力された声を音声認識してテキストデータに変換する音声認識手段と、このテキストデータを検索キーワードとして前記ファイル群を検索する検索手段と、を備えている画像形成装置である。 Another aspect of the present invention is a scanner that reads an image of a document, a printer that forms an image on a medium based on the image data after the reading, a storage unit that stores a file group, a microphone, The image forming apparatus includes speech recognition means for recognizing voice converted by the microphone and converting it into text data, and search means for searching the file group using the text data as a search keyword.
別の面から見た本発明は、所定のマイクで入力された声を音声認識してテキストデータに変換する音声認識手段と、このテキストデータを検索キーワードとして所定のファイル群を検索する検索手段と、をコンピュータに実行させるコンピュータに読み取り可能なプログラムである。 Another aspect of the present invention relates to a voice recognition means for recognizing a voice inputted by a predetermined microphone and converting it into text data, and a search means for searching a predetermined file group using the text data as a search keyword. Is a computer-readable program that causes a computer to execute.
本発明によれば、検索キーワードをキーボードなどによらず音声入力により入力することができるので、検索機能の使い勝手を向上させることができる。 According to the present invention, since the search keyword can be input by voice input without using a keyboard or the like, the usability of the search function can be improved.
本発明を実施するための最良の一形態について説明する。 The best mode for carrying out the present invention will be described.
本実施の形態は、情報処理装置、画像形成装置として、コピー機能、ファクシミリ(FAX)機能、プリント機能、スキャナ機能及び入力画像(スキャナ機能による読み取り原稿画像やプリンタあるいはFAX機能により入力された画像)を配信する機能等を複合したいわゆるデジタルカラー複合機に適用した例を示す。 In this embodiment, as an information processing apparatus and an image forming apparatus, a copy function, a facsimile (FAX) function, a print function, a scanner function, and an input image (an original image read by the scanner function or an image input by a printer or a FAX function) An example applied to a so-called digital color multi-function peripheral that combines functions for distributing the image and the like.
図1は、本実施の形態のデジタルカラー複合機1を含むシステム構成図である。図1に示すように、本実施の形態においては、デジタルカラー複合機1に通信ネットワークであるLAN(Local Area Network)2を介し、各種の情報処理を実行するサーバコンピュータ3や複数代のクライアントコンピュータ4が接続されたシステムを想定する。サーバコンピュータ3は、例えばFTP,HTTPプロトコルをサポートしたり、WebサーバやDNS(ドメインネームサーバ)の機能を実現するものである。すなわち、このシステムにおいては、デジタルカラー複合機1が備えている画像入力機能(スキャナ機能)、画像出力機能(プリント機能)及び画像蓄積機能等の画像処理機能を、LAN2上でシェアし得る環境が構築されているものである。
FIG. 1 is a system configuration diagram including a digital color multifunction peripheral 1 according to the present embodiment. As shown in FIG. 1, in the present embodiment, a
このようなシステムは、通信制御ユニット5を介してインターネット網6に接続され、インターネット網6を介して外部環境とデータ通信可能に構築されている。通信制御ユニット5としては、ルータ、交換機、モデム、DSLモデム等が一般的であるが、最低限TCP/IP通信が可能であればよい。また、LAN2は有線通信に限るものではなく、無線通信(赤外線や電波等)であってもよい。また、光ファイバーを用いたものであってもよい。
Such a system is connected to the Internet network 6 via the
次に、デジタルカラー複合機1について説明する。ここで、図2はデジタルカラー複合機1を概略的に示す外観斜視図、図3はデジタルカラー複合機1の各部の電気的接続を示すブロック図である。図2に示すように、デジタルカラー複合機1は、転写紙などの媒体に画像を形成する画像形成装置である印刷装置7(プリンタ)の上部に、原稿から画像を読み取る画像読取装置8を配設した構成とされている。また、画像読取装置8(スキャナ)の装置外面には、オペレータに対する表示とオペレータからの機能設定等の各種の入力を許容する操作パネルPが設けられている。さらに、操作パネルPの下部には、光ディスク、フレキシブルディスクなどの記憶媒体M(図3参照)に記憶されているプログラムコードや画像データ等を読み取る、又は、記憶媒体Mに対してプログラムコードや画像データ等を書き込む装置である外部メディア入出力装置9が、記憶媒体Mの挿入を許容する挿入口を外部に露出させて設けられている。 Next, the digital color multifunction peripheral 1 will be described. Here, FIG. 2 is an external perspective view schematically showing the digital color multifunction peripheral 1, and FIG. 3 is a block diagram showing electrical connection of each part of the digital color multifunction peripheral 1. As shown in FIG. As shown in FIG. 2, the digital color multifunction peripheral 1 includes an image reading device 8 that reads an image from a document on an upper portion of a printing device 7 (printer) that is an image forming device that forms an image on a medium such as transfer paper. It is set as the set-up. An operation panel P that allows various inputs such as display to the operator and function setting from the operator is provided on the outer surface of the image reading device 8 (scanner). Further, under the operation panel P, program codes and image data stored in a storage medium M (see FIG. 3) such as an optical disk and a flexible disk are read, or program codes and images are read from the storage medium M. An external media input / output device 9 that is a device for writing data and the like is provided with an insertion opening that allows insertion of the storage medium M exposed to the outside.
このようなデジタルカラー複合機1のストラクチャとしては、図3に示すように、画像処理ユニット部Aと情報処理ユニット部Bとに大別されており、印刷装置7及び画像読取装置8は画像処理ユニット部Aに属し、操作パネルP及び外部メディア入出力装置9は情報処理ユニット部Bに属している。
As shown in FIG. 3, the structure of the digital color multifunction peripheral 1 is roughly divided into an image processing unit A and an information processing unit B, and the
画像処理ユニット部Aについて説明する。印刷装置7及び画像読取装置8を備える画像処理ユニット部Aは、画像処理ユニット部Aにおける画像処理全般の制御を行う画像処理制御ユニット10を備えており、この画像処理制御ユニット10には、印刷装置7を制御する印刷制御ユニット11と、画像読取装置8を制御する画像読取制御ユニット12とが接続されている。
The image processing unit A will be described. The image processing unit A including the
印刷制御ユニット11は、画像処理制御ユニット10の制御に従って印刷装置7に対して画像データを含む印刷指示を出力し、印刷装置7に転写紙などの媒体に画像を形成して出力させる。印刷装置7はフルカラー印刷可能とされており、その印刷方式は、電子写真方式のほか、インクジェット方式、昇華型熱転写方式、銀塩写真方式、直接感熱記録方式、溶融型熱転写方式など、さまざまな方式を用いることができる。
The print control unit 11 outputs a print instruction including image data to the
画像読取制御ユニット12は、画像処理制御ユニット10の制御により画像読取装置8を駆動し、原稿の表面に対するランプ照射の反射光をミラー及びレンズにより受光素子(例えば、CCD(Charge Coupled Device))に集光して読み取り、A/D変換してRGB各8bitのデジタル画像データを生成する。
The image
このような画像処理制御ユニット10は、メインプロセッサであるCPU(Central Processing Unit)13と、画像読取装置8から読み込んだ画像データを印刷装置7による作像に供すべく一旦格納しておくSDRAM(Synchronous Dynamic Random Access Memory)14と、制御プログラム等を記憶したROM(Read Only Memory)15と、システムログ/システム設定/ログ情報等を記録しておく電源OFF時にもデータの保持が可能なNVRAM16と、をバス接続したマイクロコンピュータ構成とされている。
Such an image
また、画像処理制御ユニット10には、多量の画像データの蓄積やジョブ履歴等の記憶装置となるHDD(Hard Disk Drive)17、装置内部に設けられた集線装置であるHUB19を介して画像処理ユニット部AをLAN2に接続するためのLAN制御部18、FAX制御を行うFAX制御ユニット20が接続されている。このFAX制御ユニット20は、公衆電話網21に通じる構内交換器(PBX)22に接続されており、デジタルカラー複合機1は、遠隔のファクシミリ装置と交信することができる。
Further, the image
加えて、画像処理制御ユニット10には、表示制御ユニット23及び操作入力制御ユニット24が接続されている。表示制御ユニット23は、画像処理制御ユニット10のコントロールによって制御パネルI/F25に接続された通信ケーブル26を介して情報処理ユニット部Bに対して画像表示制御信号を出力し、情報処理ユニット部Bの操作パネルPに対して画像表示の制御を行う。また、操作入力制御ユニット24は、情報処理ユニット部Bの操作パネルPからのオペレータによる機能設定や入力操作に応じた入力制御信号を、画像処理制御ユニット10のコントロールによって制御パネルI/F25に接続された通信ケーブル26を介して入力する。すなわち、画像処理ユニット部Aは、情報処理ユニット部Bの操作パネルPを通信ケーブル26を介して直接モニタすることができる構成になっている。
In addition, a display control unit 23 and an operation
したがって、画像処理ユニット部Aは、従来の画像処理装置が備える画像処理ユニットに対して通信ケーブル26を接続し、情報処理ユニット部Bの操作パネルPを利用するようにしたものである。すなわち、画像処理ユニット部Aの表示制御ユニット23及び操作入力制御ユニット24は、操作パネルPに接続されているものとして動作している。
Accordingly, the image processing unit A is configured such that the communication cable 26 is connected to the image processing unit provided in the conventional image processing apparatus, and the operation panel P of the information processing unit B is used. That is, the display control unit 23 and the operation
このような構成により、画像処理ユニット部Aは、外部(サーバコンピュータ3、クライアントコンピュータ4、ファクシミリ装置等)からの画像情報である印刷データ及びプリント指示するコマンドを解析し、印刷データを出力画像データとして印刷できる状態にビットマップ展開し、印刷モードをコマンドから解析し動作を決定している。その印刷データ及びコマンドをLAN制御部18あるいはFAX制御ユニット20を通じて受信し動作する。
With such a configuration, the image processing unit A analyzes the print data that is image information from the outside (the
また、画像処理ユニット部Aは、SDRAM14やHDD17に記憶されている印刷データ、原稿読取りデータ、これらを出力用に処理した出力画像データ、及び、それらを圧縮した圧縮データを外部(サーバコンピュータ3、クライアントコンピュータ4、ファクシミリ等)に転送することができる。
In addition, the image processing unit A externally print data stored in the
さらに、画像処理ユニット部Aは、画像読取装置8の読取り画像データを画像処理制御ユニット10に転送し、光学系及びデジタル信号への量子化に伴う信号劣化を補正し、該画像データをSDRAM14に書込む。このようにしてSDRAM14に格納された画像データは、印刷制御ユニット11で出力画像データに変換されて、印刷装置7に出力される。
Further, the image processing unit A transfers the read image data of the image reading device 8 to the image
次に、操作パネルPを備える情報処理ユニット部Bについて説明する。情報処理ユニット部Bは、一般にパーソナルコンピュータといわれるような情報処理装置に用いられる汎用のOS(Operating System)によって制御されるマイクロコンピュータ構成とされている。情報処理ユニット部Bは、メインプロセッサであるCPU31を有しており、このCPU31には、CPU31の作業用領域となるRAMや起動プログラムなどを記憶した読出し専用メモリであるROMで構成されるメモリユニット32と、OS(Operating System)やアプリケーションプログラムを記憶するHDD等の記憶装置34に対するデータの入出力を制御する記憶装置制御ユニット35とが、バス接続されている。
Next, the information processing unit B including the operation panel P will be described. The information processing unit part B has a microcomputer configuration controlled by a general-purpose OS (Operating System) used in an information processing apparatus generally called a personal computer. The information processing unit section B has a
また、CPU31には、情報処理ユニット部Bを、HUB19を介してLAN2に接続するための通信インターフェースであるLAN制御部33が接続されている。このLAN制御部33に割り当てられるネットワークアドレスであるIPアドレスは、前述した画像処理ユニット部AのLAN制御部18に割り当てられるIPアドレスとは異なるものである。すなわち、本実施の形態のデジタルカラー複合機1には、2つのIPアドレスが割り当てられていることになる。つまり、画像処理ユニット部Aと情報処理ユニット部BとはそれぞれLAN2に接続されていることになり、画像処理ユニット部Aと情報処理ユニット部Bとの間においてはデータ交換が可能な構成になっている。
The
なお、デジタルカラー複合機1はHUB19を介してLAN2に接続されていることから、見かけ上は、1つのIPアドレスのみが割り当てられているように見える。したがって、美観を損ねることはなく、結線等の取り扱いを容易にすることが可能になっている。
Since the digital color multifunction peripheral 1 is connected to the
さらに、CPU31には、操作パネルPを制御する表示制御ユニット36及び操作入力制御ユニット37が接続されている。ここで、図4は操作パネルPの構成を示す平面図である。図4に示すように、操作パネルPは、例えばLCD(Liquid Crystal Display)である表示装置40と、操作入力装置41とで構成されている。操作入力装置41は、表示装置40の表面に積層された超音波弾性波方式等のタッチパネル41aと、複数のキーを有するキーボード41bとで構成されている。キーボード41bには、画像読み取りの開始を宣言するためのスタートキー、数値入力を行うためのテンキー、読み取った画像データの送信先を設定する読取条件設定キー、クリアキー等が設けられている。すなわち、表示制御ユニット36は、画像表示制御信号を制御パネルI/F38を介して表示装置40に出力し、画像表示制御信号に応じた所定事項を表示装置40に表示させる。一方、操作入力制御ユニット37は、操作入力装置41におけるオペレータによる機能設定や入力操作に応じた入力制御信号を、制御パネルI/F38を介して受信する。
Further, a
加えて、CPU31には、画像処理ユニット部Aの制御パネルI/F25と通信ケーブル26を介して接続されている制御パネル通信ユニット39が接続されている。制御パネル通信ユニット39は、画像処理ユニット部Aから出力された画像表示制御信号を受信し、また、操作パネルPからのオペレータによる機能設定や入力操作に応じた入力制御信号を画像処理ユニット部Aに転送する。なお、詳細は後述するが、制御パネル通信ユニット39で受信した画像処理ユニット部Aからの画像表示制御信号は操作パネルPの表示装置40用にデータ変換処理されてから表示制御ユニット36に出力され、また、操作パネルPからのオペレータによる機能設定や入力操作に応じた入力制御信号は画像処理ユニット部Aでの仕様に応じた形式にデータ変換処理されてから制御パネル通信ユニット39に入力される。
In addition, a control
上述したように記憶装置34には、CPU31が実行するOS(Operating System)やアプリケーションプログラムが格納されている。この意味で、記憶装置34は、アプリケーションプログラムを記憶する記憶媒体として機能する。このデジタルカラー複合機1では、ユーザが電源を投入するとCPU31がメモリユニット32内の起動プログラムを起動させ、記憶装置34よりOSをメモリユニット32内のRAMに読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。情報処理ユニット部BのOSは、情報処理装置(サーバコンピュータ3やクライアントコンピュータ4等)と同種のOS、すなわち汎用のOS(例えば、Windows(登録商標)等)とされている。
As described above, the
なお、前述したように、本実施の形態のデジタルカラー複合機1には、OS、デバイスドライバや各種アプリケーションプログラム等の各種のプログラムコード(制御プログラム)や画像データ等を記憶した記憶媒体M、すなわち、フレキシブルディスク、ハードディスク、光ディスク(CD−ROM,CD−R,CD−RW,DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RWなど)、光磁気ディスク(MO)、半導体メディアなどの記憶媒体Mに記憶されているプログラムコードや画像データ等を読み取る、又は記憶媒体Mに対してプログラムコードや画像データ等を書き込む装置であるフレキシブルディスクドライブ装置、光ディスクドライブ装置、MOドライブ装置、メディアドライブ装置等の外部メディア入出力装置9が搭載されている。このような外部メディア入出力装置9は、CPU31にバス接続されている入出力デバイス制御ユニット42により制御される。
As described above, the digital color multi-function peripheral 1 of the present embodiment has a storage medium M that stores various program codes (control programs) such as an OS, device drivers and various application programs, image data, and the like. , Flexible disk, hard disk, optical disk (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-R, DVD + R, DVD-RW, DVD + RW, etc.), magneto-optical disk (MO), semiconductor A flexible disk drive device, an optical disk drive device, and an MO drive device, which are devices that read program codes, image data, and the like stored in a storage medium M such as a medium, or write program codes, image data, and the like to the storage medium M , Media drive devices, etc. External media input-output device 9 is mounted. Such an external media input / output device 9 is controlled by an input / output device control unit 42 connected to the
したがって、記憶装置34に記憶されているアプリケーションプログラムは、この記憶媒体Mに記録されたアプリケーションプログラムがインストールされたものであってもよい。このため、記憶媒体Mも、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えばインターネット網6及びLAN2を介して外部から取り込まれ、記憶装置34にインストールされてもよい。
Therefore, the application program stored in the
なお、入出力デバイス制御ユニット42には、USB,IEEE1394,SCSI等の各種インターフェース43も接続されており、各種インターフェース43を介して様々な機器(デジタルカメラ等)が接続可能とされている。
The input / output device control unit 42 is also connected with
次に、デジタルカラー複合機1で実行する特徴的な処理の内容について説明する。この処理は、記憶媒体Mから外部メディア入出力装置9により読み取られ、記憶装置34にインストールされる検索実行プログラムにより実行される。
Next, the contents of characteristic processing executed by the digital color multifunction peripheral 1 will be described. This processing is executed by a search execution program that is read from the storage medium M by the external media input / output device 9 and installed in the
図5は、かかる検索実行プログラムにより実行されるシステムのシステム構成を示すブロック図である。 FIG. 5 is a block diagram showing a system configuration of a system executed by the search execution program.
デジタルカラー複合機1の情報処理ユニット部Bは、音声の入力を受け付けるマイク101を備えている。このマイク101は、例えば、操作パネルPに設けられる(図4を参照)。このマイク101は、各種インターフェース43となる音声入力用の所定のインターフェース102を介して、デジタルカラー複合機1に音声データを取り込むことができる。この入力された音声データは、音声記憶部103に記憶される。この音声記憶部103は、具体的には、メモリユニット32の所定の記憶エリアなどである。
The information processing unit B of the digital color multifunction peripheral 1 includes a
データベース104(蓄積手段)は、記憶装置34などに構築され、テキストデータファイルなど、各種のファイルが登録される。このファイルは、具体的には、LAN2を介して、インターネット6、サーバコンピュータ3、クライアントコンピュータ4など、外部から受信したデータや、画像読取装置8で読み取った画像データにOCR(Optical Character Reader)処理をかけてテキスト変換したデータ(例えば、PDFファイルにOCR処理をかけてテキスト変換したデータ)などである。
The database 104 (storage means) is constructed in the
音声認識部105は、周知の技術により、音声記憶部103に記憶されている音声データをテキストデータに変換する。よって、マイク101に向かってユーザがしゃべった音声は音声認識部105でテキストデータとなる。
The
検索エンジン106は、データベース104内に登録されているテキストデータファイル群を対象に、与えられた検索キーワードで全文検索を行う。その全文検索の具体的な手段としては様々なシステムが周知であるので、詳細な説明は省略する。この場合に、検索エンジン106は、音声認識部105で変換後のテキストデータを検索キーワードとすることができる。なお、以上のシステム構成において、音声認識部105、検索エンジン106については、前述の検索実行プログラムに基づいてCPU31が実行する処理により実現される。
The
次に、図5のシステムを用いて実行される処理について、図6のフローチャートを参照して説明する。 Next, processing executed using the system of FIG. 5 will be described with reference to the flowchart of FIG.
ユーザは、データベース104内のテキストデータファイル群を全文検索するときは、図7に示す操作パネルPに表示されるメニュー画面141から検索ボタン111を選択する(ステップS1のY)。これにより、図8に示す検索画面142が表示される(ステップS2)。この検索画面でキーボード入力ボタン112を選択すると操作パネルPのタッチパネルにキーボードが表示されて、全文検索の検索キーワードを当該キーボードで入力できるが、ここでは、音声入力ボタン113を選択する。そして、この音声入力ボタン113を押下している間は(ステップS3のY)、マイク101から音声が取り込まれて音声データが音声記憶部103に記憶される(ステップS4)。そこで、ユーザは音声入力ボタン113を押下しながら検索キーワードとしたい語をマイク101に向かってしゃべることで、キーボードを操作しなくとも検索キーワードを入力することができる。
The user selects the search button 111 from the
このようにして音声により検索キーワードが入力され、音声入力ボタン113の押下がなくなると(ステップS5のY)、入力された検索キーワードは音声認識部105で音声認識がなされてテキストデータに変換され(音声認識手段)(ステップS6)、図9に示す検索キーワード表示画面143のキーワード表示欄144に表示される(ステップS7)。この表示された検索キーワードが適切でないときは、再入力ボタン114を選択すれば(ステップS8のY)、ステップS2に戻る。表示された検索キーワードが適切であると考える場合は、OKボタン115を選択すれば(ステップS9のY)、その検索キーワードに基づいて検索エンジン106がデータベース104内のテキストデータファイルを全文検索し(検索手段)(ステップS10)、その検索結果を操作パネルPに表示する(ステップS11)。
When the search keyword is input by voice and the voice input button 113 is not pressed (Y in step S5), the input search keyword is voice-recognized by the
このように、検索キーワードは音声で入力することができるので、キーボード操作の場合と比べてデータベース104の全文検索が容易である。
As described above, since the search keyword can be input by voice, a full-text search of the
ところで、このような全文検索システムはデジタルカラー複合機1に搭載されているため、このデジタルカラー複合機1の機構部から発するノイズが邪魔になり、音声認識部105による音声認識の認識率を低下させてしまう。そこで、音声認識部105では、ノイズ対策を講じている。以下では、かかる対策として実行される処理について説明する。
By the way, since such a full-text search system is installed in the digital color multi-function peripheral 1, noise generated from the mechanism section of the digital color multi-function peripheral 1 becomes an obstacle, and the recognition rate of voice recognition by the
すなわち、テレビ会議システムやハンズフリー自動車電話システム、カーナビゲーションシステムにおいては、リモートスピーカーが使用されるのが通例であり、スピーカーから出力された音声・音響信号がテレビ会議システムにおいては部屋の壁や机、自動車の窓ガラスやダッシュボードに反射して音響エコーとしてマイクの入力に混入する。この音響エコーはマイクの入力に対する雑音成分になるためにマイク入力から消去されることが望ましい。 That is, a remote speaker is usually used in a video conference system, a hands-free car phone system, and a car navigation system, and an audio / acoustic signal output from the speaker is a room wall or desk in the video conference system. It is reflected on the window glass and dashboard of the car and mixed into the microphone input as an acoustic echo. Since this acoustic echo becomes a noise component with respect to the input of the microphone, it is desirable to eliminate it from the microphone input.
このための対策としてLMS(Least Means Square)法やNLMS(Normalized Least Mean Square)法などが提案されてきた。これらの技術については、“北脇信彦編著「音のコミュニケーション工学−マルチメディア時代の音声・音響技術」コロナ社の第4章”に記述されている。
As countermeasures for this, the LMS (Least Means Square) method, the NLMS (Normalized Least Mean Square) method, and the like have been proposed. These technologies are described in “
LMS法、NLMS法およびそれらの改良法のいずれの場合においても、音響エコーの伝達経路のインパルス応答の推定値とスピーカーから出力される音声・音響信号の源信号から生成された擬似的な音響エコーとマイク入力信号の差がより小さくなるように、適応フィルタリングの原理により、音響エコーの伝達経路のインパルス応答を動的かつ逐次的に適応化することを基本的な原理としている。 In any of the LMS method, the NLMS method, and their improved methods, a pseudo acoustic echo generated from the estimated value of the impulse response of the transmission path of the acoustic echo and the source signal of the sound / acoustic signal output from the speaker Based on the principle of adaptive filtering, the basic principle is to dynamically and sequentially adapt the impulse response of the acoustic echo transmission path so that the difference between the input signal and the microphone input signal becomes smaller.
従って、もし、マイク入力に音響エコー以外の信号、たとえば、人間の声、背景雑音などが混入している場合は、それらの影響を受けて、音響エコーの伝達経路のインパルス応答が理想的な値から乖離するという現象が起こる。この状態を同時通話(ダブルトーク)と呼びダブルトーク状態では音響エコーの伝達経路のインパルス応答の適応動作を停止し、この時点のインパルス応答を保持する。音声が発生されなくなると停止直前に保持したインパルス応答を復帰させることにより、音響エコーの消去性能の著しい低下を防止するのが一般的である。 Therefore, if a signal other than an acoustic echo, such as a human voice or background noise, is mixed in the microphone input, the impulse response of the acoustic echo transmission path is an ideal value due to these effects. The phenomenon of deviating from occurs. This state is called simultaneous conversation (double talk). In the double talk state, the adaptive operation of the impulse response of the acoustic echo transmission path is stopped, and the impulse response at this time is held. When no sound is generated, the impulse response held immediately before the stop is restored to prevent the acoustic echo cancellation performance from significantly decreasing.
そこで、音声認識部105では、このような雑音消去を行う図10に示す音声処理システム121を備えている。以下では、この音声処理システム121について説明する。図10において、符号131は、音響信号と更新されたインパルス応答に基づき、擬似音響エコー信号を発生する適応フィルタ(適応フィルタ手段)であり、減算部133(減算手段)の減算結果、すなわち、エコー除去信号(雑音成分を除去後の信号)を入力し、エコー除去信号のレベルが0(ゼロ)になるようにフィルタ係数を逐次更新する。適応フィルタ131は後述のVAD(Voice Activity Detection)132(VAD手段)からオン/オフの停止/再開信号を受け付け、停止が指示されたとき、すなわち、上述のダブルトークが発生した時にインパルス応答の適応動作を停止して回復が指示された停止信号を入力した時点のフィルタ係数を保持する。
Therefore, the
減算部133は上記擬似エコー信号をマイク101から入力される入力信号から減算し、入力信号の中から雑音成分を消去する。
The subtracting
VAD132は入力の信号が音声(人間の声)か非音声を判別するシステムであり、このシステムは“古井貞煕著「デジタル音声処理」(東海大学出版会)153頁”や“Recommendation GSM 06.32”に記述されている。なお、適応フィルタ131、減算部133、VAD132はワイヤードロジックによっても実現できるが、ここでは、前述の検索実行プログラムに基づいてソフトウエアにより実現しているものとして説明する。
VAD132 is a system that discriminates whether the input signal is speech (human voice) or non-speech. This system is written by Sadaaki Furui, “Digital Speech Processing” (Page 153 of Tokai University Press) and “Recommendation GSM 06.32” The
VAD132が入力信号に音声信号が含まれると判定した場合には、VAD132からインパルス応答適応動作の停止信号が適応フィルタ131に出力され、VAD132が入力信号は非音声であると判定した場合にインパルス応答適応動作の再開信号が適応フィルタ131に出力される。
When the
マイク101への音声入力の雑音成分は、デジタルカラー複写機1から発するノイズの音響が当該デジタルカラー複写機1の設置されている部屋の壁により反射されてマイク101に入力したもの(音響エコー、図11の(b)参照)、および使用環境に特有の背景雑音(図11の(c)参照)がある。そして、適応フィルタ131に入力される音響信号は、デジタルカラー複写機1が所定の操作がなされたときに操作音を発する場合の当該操作音や、音声案内で音声を発する場合の当該音声である(スピーカー107(図4を参照)から出力される)。
The noise component of the sound input to the
図10のようなシステム構成において、音声がマイク101から入力されていない状態では、スピーカー107から再生出力された音響のエコーおよび背景雑音がマイク101から入力される。この入力信号から減算部133により擬似音響エコーが減算され得られるエコー除去信号が非音声であると、VAD132が判定している間はVAD132からは再開信号が出力されているので、適応フィルタ131はエコー除去信号が0(ゼロ)となるようにフィルタ係数を更新しながら、入力信号の音響エコー成分を消去する擬似エコー信号を発生する。図11に示すようにタイミングt1で音声が入力され、VAD132がタイミングt2で入力信号に音声が含まれると判定すると停止信号を適応フィルタ131に送る。これにより適応フィルタ131はフィルタ係数の更新を停止して、タイミングt2の時点のフィルタ係数の値に自己のフィルタ係数の値を固定する。これによりマイク101から入力された音声成分と雑音成分(音響エコーおよび背景雑音)からなる入力信号の中の音響エコー成分のみが消去され、この消去後の音声信号に対して音声認識部105が前述のように音声認識を行なう。
In the system configuration as shown in FIG. 10, in a state where no sound is input from the
このように、検索キーワードの音声入力を行なう場合には、操作音や背景雑音などのノイズが入力音声から除去され、除去後の音声について音声認識が行なわれるので、検索キーワードの音声入力を行うときの音声認識率を高めることができる。 As described above, when inputting a search keyword by voice, noises such as operation sounds and background noise are removed from the input voice, and voice recognition is performed on the voice after the removal. Can improve the voice recognition rate.
1 情報処理装置、画像形成装置
7 プリンタ
8 スキャナ
121 蓄積手段
131 適応フィルタ手段
132 VAD手段
133 減算手段
DESCRIPTION OF
Claims (7)
このマイクで入力された声を音声認識してテキストデータに変換する音声認識手段と、
このテキストデータを検索キーワードとして所定のファイル群を検索する検索手段と、
を備えている情報処理装置。 With a microphone,
Speech recognition means for recognizing voice converted by the microphone and converting it into text data;
Search means for searching a predetermined file group using the text data as a search keyword;
An information processing apparatus comprising:
このスピーカーが発する音声の音響エコーの伝達経路のインパルス応答の推定値と前記スピーカーから出力される音響信号とから擬似的な音響エコー信号を生成する適応フィルタ手段と、
前記マイクで入力され前記音声認識前の音声信号から前記音響エコー信号を減算してエコー除去信号とする減算手段と、
前記エコー除去信号に音声信号が含まれると判定した場合には、前記適応フィルタ手段に前記インパルス応答適応動作の停止を指示し、音声信号が含まれないと判断したときは前記インパルス応答適応動作の再開を指示するVAD(Voice Activity Detection)手段と、
をさらに備えている請求項1に記載の情報処理装置。 Speakers,
Adaptive filter means for generating a pseudo acoustic echo signal from the estimated value of the impulse response of the acoustic echo transmission path of the sound emitted by the speaker and the acoustic signal output from the speaker;
Subtracting means for subtracting the acoustic echo signal from the speech signal input by the microphone and before the speech recognition to obtain an echo removal signal;
When it is determined that an audio signal is included in the echo cancellation signal, the adaptive filter unit is instructed to stop the impulse response adaptive operation. When it is determined that no audio signal is included, the impulse response adaptive operation is performed. VAD (Voice Activity Detection) means for instructing resumption,
The information processing apparatus according to claim 1, further comprising:
この読取後の画像データに基づいて媒体上に画像の形成を行うプリンタと、
ファイル群を蓄積する蓄積手段と、
マイクと、
このマイクで入力された声を音声認識してテキストデータに変換する音声認識手段と、
このテキストデータを検索キーワードとして前記ファイル群を検索する検索手段と、
を備えている画像形成装置。 A scanner that reads the image of the document,
A printer that forms an image on a medium based on the read image data;
Storage means for storing files,
With a microphone,
Speech recognition means for recognizing voice converted by the microphone and converting it into text data;
Search means for searching the file group using the text data as a search keyword;
An image forming apparatus.
このスピーカーが発する音声の音響エコーの伝達経路のインパルス応答の推定値と前記スピーカーから出力される音響信号とから擬似的な音響エコー信号を生成する適応フィルタ手段と、
前記マイクで入力され前記音声認識前の音声信号から前記音響エコー信号を減算してエコー除去信号とする減算手段と、
前記エコー除去信号に音声信号が含まれると判定した場合には、前記適応フィルタ手段に前記インパルス応答適応動作の停止を指示し、音声信号が含まれないと判断したときは前記インパルス応答適応動作の再開を指示するVAD(Voice Activity Detection)手段と、
をさらに備えている請求項3に記載の画像形成装置。 Speakers,
Adaptive filter means for generating a pseudo acoustic echo signal from the estimated value of the impulse response of the acoustic echo transmission path of the sound emitted by the speaker and the acoustic signal output from the speaker;
Subtracting means for subtracting the acoustic echo signal from the speech signal input by the microphone and before the speech recognition to obtain an echo removal signal;
When it is determined that an audio signal is included in the echo cancellation signal, the adaptive filter unit is instructed to stop the impulse response adaptive operation. When it is determined that no audio signal is included, the impulse response adaptive operation is performed. VAD (Voice Activity Detection) means for instructing resumption,
The image forming apparatus according to claim 3, further comprising:
このテキストデータを検索キーワードとして所定のファイル群を検索する検索手段と、
をコンピュータに実行させるコンピュータに読み取り可能なプログラム。 Voice recognition means for recognizing a voice input with a predetermined microphone and converting it into text data;
Search means for searching a predetermined file group using the text data as a search keyword;
A computer-readable program that causes a computer to execute.
前記マイクで入力され前記音声認識前の音声信号から前記音響エコー信号を減算してエコー除去信号とする減算手段と、
前記エコー除去信号に音声信号が含まれると判定した場合には、前記適応フィルタ手段に前記インパルス応答適応動作の停止を指示し、音声信号が含まれないと判断したときは前記インパルス応答適応動作の再開を指示するVAD(Voice Activity Detection)手段と、
をさらにコンピュータに実行させる請求項5に記載のプログラム。 Adaptive filter means for generating a pseudo acoustic echo signal from the estimated value of the impulse response of the acoustic echo transmission path of the sound emitted by the predetermined speaker and the acoustic signal output from the speaker;
Subtracting means for subtracting the acoustic echo signal from the speech signal input by the microphone and before the speech recognition to obtain an echo removal signal;
When it is determined that an audio signal is included in the echo cancellation signal, the adaptive filter unit is instructed to stop the impulse response adaptive operation. When it is determined that no audio signal is included, the impulse response adaptive operation is performed. VAD (Voice Activity Detection) means for instructing resumption,
The program according to claim 5, further causing the computer to execute.
A storage medium storing the program according to claim 5 or 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003382282A JP2005148199A (en) | 2003-11-12 | 2003-11-12 | Information processing apparatus, image forming apparatus, program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003382282A JP2005148199A (en) | 2003-11-12 | 2003-11-12 | Information processing apparatus, image forming apparatus, program, and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005148199A true JP2005148199A (en) | 2005-06-09 |
Family
ID=34691399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003382282A Pending JP2005148199A (en) | 2003-11-12 | 2003-11-12 | Information processing apparatus, image forming apparatus, program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005148199A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010075015A2 (en) * | 2008-12-15 | 2010-07-01 | Motorola, Inc. | Assigning an indexing weight to a search term |
US7921094B2 (en) | 2007-02-28 | 2011-04-05 | Brother Kogyo Kabushiki Kaisha | Network system and communication device |
US8284919B2 (en) | 2007-03-29 | 2012-10-09 | Brother Kogyo Kabushiki Kaisha | Network system and communication device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06139289A (en) * | 1992-10-26 | 1994-05-20 | Olympus Optical Co Ltd | Information reproducing device |
JPH10257583A (en) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | Voice processing unit and its voice processing method |
JP2002259113A (en) * | 2001-03-02 | 2002-09-13 | Sharp Corp | Voice macro processor, its method, computer program, and recording medium with its program recorded |
JP2003131773A (en) * | 2001-08-17 | 2003-05-09 | Ricoh Co Ltd | Equipment-operating device, program, data-storage medium and image-forming device |
-
2003
- 2003-11-12 JP JP2003382282A patent/JP2005148199A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06139289A (en) * | 1992-10-26 | 1994-05-20 | Olympus Optical Co Ltd | Information reproducing device |
JPH10257583A (en) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | Voice processing unit and its voice processing method |
JP2002259113A (en) * | 2001-03-02 | 2002-09-13 | Sharp Corp | Voice macro processor, its method, computer program, and recording medium with its program recorded |
JP2003131773A (en) * | 2001-08-17 | 2003-05-09 | Ricoh Co Ltd | Equipment-operating device, program, data-storage medium and image-forming device |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7921094B2 (en) | 2007-02-28 | 2011-04-05 | Brother Kogyo Kabushiki Kaisha | Network system and communication device |
US8543559B2 (en) | 2007-02-28 | 2013-09-24 | Brother Kogyo Kabushiki Kaisha | Network system and communication device |
US8284919B2 (en) | 2007-03-29 | 2012-10-09 | Brother Kogyo Kabushiki Kaisha | Network system and communication device |
WO2010075015A2 (en) * | 2008-12-15 | 2010-07-01 | Motorola, Inc. | Assigning an indexing weight to a search term |
WO2010075015A3 (en) * | 2008-12-15 | 2010-08-26 | Motorola, Inc. | Assigning an indexing weight to a search term |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7180330B2 (en) | Information processing system, information processing device, and method | |
JP3885002B2 (en) | Information processing apparatus and method | |
JP2005056315A (en) | Information processor, program and storage medium | |
JP2000194533A (en) | Voice command annotating method | |
JP5146429B2 (en) | Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer program | |
US11140284B2 (en) | Image forming system equipped with interactive agent function, method of controlling same, and storage medium | |
JP4854704B2 (en) | Data processing apparatus, voice conversion method, and voice conversion program | |
JP2006330576A (en) | Apparatus operation system, speech recognition device, electronic apparatus, information processor, program, and recording medium | |
JP2007065994A (en) | Document ocr execution apparatus | |
JP7192220B2 (en) | Image processing device, information processing device and program | |
JP2005149061A (en) | Information processing system, program, and storage medium | |
JP2020155030A (en) | Information processing device and program | |
JP7187965B2 (en) | Image processing device, operation control method and operation control program | |
JP2005148199A (en) | Information processing apparatus, image forming apparatus, program, and storage medium | |
US20200366800A1 (en) | Apparatus | |
JP2021086510A (en) | Electronic apparatus | |
JP6939426B2 (en) | Image processing device and its operation control method | |
JP2005084861A (en) | Email sending device, image forming system, program and storage medium | |
JP2020052511A (en) | Summary generation apparatus, summary generation method, and program | |
JP4276921B2 (en) | Image processing device | |
JP6229433B2 (en) | Operation guidance server, operation guidance system, image forming apparatus, and program | |
KR102537797B1 (en) | Image forming system equipped with interactive agent function, method of controlling same, and storage medium | |
JP2018120372A (en) | Electronic device and image forming apparatus | |
JP7139937B2 (en) | Speech processing system, job generation device, job generation method and job generation program | |
JP7314499B2 (en) | Information processing system, information processing device, job control method and job control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091124 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100518 |