JP2021086510A - Electronic apparatus - Google Patents
Electronic apparatus Download PDFInfo
- Publication number
- JP2021086510A JP2021086510A JP2019216816A JP2019216816A JP2021086510A JP 2021086510 A JP2021086510 A JP 2021086510A JP 2019216816 A JP2019216816 A JP 2019216816A JP 2019216816 A JP2019216816 A JP 2019216816A JP 2021086510 A JP2021086510 A JP 2021086510A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- user
- input
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、電子機器に関し、特に、音声による指示を認識するための技術に関する。 The present invention relates to an electronic device, and more particularly to a technique for recognizing a voice instruction.
音声認識機能を備えている電子機器が知られている。例えば、特許文献1には、ユーザーの音声を認識し、認識された音声が予め記憶されている単音の組合せパターンと一致する場合に、当該パターンに対応する機器設定に基づく処理を実行する画像形成装置が開示されている。 Electronic devices having a voice recognition function are known. For example, in Patent Document 1, when a user's voice is recognized and the recognized voice matches a pre-stored single sound combination pattern, image formation is performed based on the device settings corresponding to the pattern. The device is disclosed.
特許文献2には、入力された音声を認識し、音声認識の正確度合いを示すスコアが第1の値以下である場合には音声の入力を再度要求し、第2の値以上である場合には認識された内容に従って処理を実行し、第1の値より大きくかつ第2の値未満である場合には認識された内容を表示部に表示させる複合機が開示されている。 In Patent Document 2, the input voice is recognized, and when the score indicating the accuracy of voice recognition is equal to or less than the first value, the input of voice is requested again, and when the score is equal to or more than the second value. Discloses a multifunction device that executes processing according to the recognized content and displays the recognized content on the display unit when it is larger than the first value and less than the second value.
電子機器に入力された音声に、例えば、ドアの開閉音及びキーボードの打鍵音等の非周期性雑音が含まれていると、正確な音声認識ができず、入力された指示の内容を誤って認識してしまうおそれがある。このように、入力された指示の内容が誤って認識されると、ユーザーが意図していない処理が実行されてしまうという問題がある。特許文献1及び特許文献2に開示されている技術では、非周期性雑音の影響について考慮されておらず、上記した問題を解決することはできない。 If the voice input to the electronic device contains aperiodic noise such as door opening / closing sound and keyboard keystroke sound, accurate voice recognition cannot be performed and the input instruction content is erroneously entered. There is a risk of recognizing it. In this way, if the content of the input instruction is erroneously recognized, there is a problem that a process unintended by the user is executed. The techniques disclosed in Patent Document 1 and Patent Document 2 do not consider the influence of aperiodic noise, and cannot solve the above-mentioned problems.
本発明は、上記の事情に鑑みなされたものであり、入力された音声指示の内容が誤って認識されることを防止するとともに、ユーザーが意図していない処理が実行されることを確実に防ぐことを目的とする。 The present invention has been made in view of the above circumstances, and prevents the contents of the input voice instruction from being erroneously recognized and reliably prevents the user from performing an unintended process. The purpose is.
本発明の一局面に係る電子機器は、複数の処理を実行可能な制御部と、音声が入力される音声入力部と、音声を出力する音声出力部と、予め定められている音声を複数の処理のいずれかを示す情報に対応付けて記憶する記憶部と、を備えている。制御部は、音声入力部に入力された音声から、周波数特性が不規則でない部分の音声をユーザー音声として抽出し、音声出力部に、抽出されたユーザー音声を出力させ、音声出力部がユーザー音声を出力してから、ユーザー音声を取消すための取消指示を受付けることなく予め定められた時間が経過した場合に、複数の処理のうち、ユーザー音声に対応付けて記憶部に記憶されている情報が示す処理を実行し、音声出力部がユーザー音声を出力してから予め定められた時間が経過する前に取消指示を受付けた場合には、上記した処理を実行しない。 The electronic device according to one aspect of the present invention includes a control unit capable of executing a plurality of processes, a voice input unit for inputting voice, a voice output unit for outputting voice, and a plurality of predetermined voices. It includes a storage unit that stores information in association with information indicating any of the processes. The control unit extracts the voice of the part whose frequency characteristics are not irregular from the voice input to the voice input unit as the user voice, causes the voice output unit to output the extracted user voice, and the voice output unit outputs the user voice. When a predetermined time elapses without accepting a cancellation instruction for canceling the user voice after outputting, the information stored in the storage unit in association with the user voice among a plurality of processes is stored. If the processing shown above is executed and the cancellation instruction is received before the predetermined time has elapsed after the voice output unit outputs the user voice, the above processing is not executed.
本発明によれば、音声入力部に入力された音声から、周波数特性が不規則でない部分の音声をユーザー音声として抽出するので、認識された音声に非周期性雑音が含まれることによって、入力された音声指示の内容が誤って認識されることを防止できる。また、ユーザーは、音声出力部によって出力された音声を確認することによって、ユーザー音声が正確に認識されているか否かを確認することができるので、視覚に障害のあるユーザーの利便性が向上する。さらに、ユーザー音声が出力されてから予め定められた待機時間が経過する前に取消指示を受付けた場合には、ユーザー音声に対応する処理が実行されないので、ユーザーが意図していない処理が実行されることを確実に防ぐことができる。 According to the present invention, since the voice of the portion whose frequency characteristics are not irregular is extracted as the user voice from the voice input to the voice input unit, the recognized voice is input due to the inclusion of aperiodic noise. It is possible to prevent the contents of the voice instruction from being erroneously recognized. In addition, the user can confirm whether or not the user's voice is accurately recognized by checking the voice output by the voice output unit, which improves the convenience of the visually impaired user. .. Further, if the cancellation instruction is received before the predetermined waiting time elapses after the user voice is output, the process corresponding to the user voice is not executed, so that the process not intended by the user is executed. Can be reliably prevented.
以下、本発明の一実施形態に係る電子機器としての画像形成装置について図面を参照して説明する。図1は、本発明の一実施形態に係る画像形成装置の構成を示す正面断面図である。図1を参照して、画像形成装置1は、コピー機能、スキャン機能、プリント機能、及びファクシミリ機能等の複数の機能を備えている複合機である。画像形成装置1の筐体には、画像形成装置1の様々な機能を実現するための複数の機器が収容されている。例えば、筐体には、画像読取部11、画像形成部12、定着部13、及び給紙部14等が収容されている。
Hereinafter, an image forming apparatus as an electronic device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a front sectional view showing a configuration of an image forming apparatus according to an embodiment of the present invention. With reference to FIG. 1, the image forming apparatus 1 is a multifunction device having a plurality of functions such as a copy function, a scanning function, a printing function, and a facsimile function. The housing of the image forming apparatus 1 houses a plurality of devices for realizing various functions of the image forming apparatus 1. For example, the housing includes an
図2は、画像形成装置の内部構成を示すブロック図である。図2を参照して、画像形成装置1は、制御ユニット100を含んでいる。制御ユニット100は、プロセッサー、RAM(Random Access Memory)、及びROM(Read Only Memory)等を含んでいる。プロセッサーは、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、又はASIC(Application specific Integrated Circuit)等である。
FIG. 2 is a block diagram showing an internal configuration of the image forming apparatus. With reference to FIG. 2, the image forming apparatus 1 includes a
制御ユニット100は、ROM又はHDD(Hard Disk Drive)17に記憶されている制御プログラムが上記プロセッサーによって実行されることにより、制御部10として機能する。なお、制御部10は、上記制御プログラムに基づく動作によらず、ロジック回路により構成されていてもよい。
The
制御部10は、画像形成装置1の全体制御を司る。より詳細には、制御部10は、画像形成装置1の各部の動作を制御することによって、コピー処理、スキャン処理、及びプリント処理等を含む複数の処理を実行可能に構成されている。制御部10はまた、後述する認識プログラムにしたがって動作することによって、画像形成装置1に入力された音声を認識し、認識された音声に対応する処理を実行するための音声指示認識処理を実行する。
The
制御ユニット100は、原稿搬送部6、画像読取部11、画像形成部12、定着部13、給紙部14、表示部15、操作部16、HDD17、搬送機構18、画像処理部19、画像メモリー20、ファクシミリ通信部21、音声入力部22A乃至22C、音声出力部23、及び通信部24等と電気的に接続されている。
The
画像読取部11は、原稿台に載置されている原稿を搬送する原稿搬送部6と、原稿搬送部6によって搬送されてくる原稿又はプラテンガラス7に載置されている原稿を光学的に読み取るスキャナーと、を含んでいるADF(Auto Document Feeder)である。画像読取部11は、光照射部により原稿を照射し、その反射光をCCD(Charge-Coupled Device)センサーで受光することによって、原稿を読取って画像データを生成する画像読取処理を実行する。
The
画像形成部12は、感光体ドラム、帯電装置、露光装置、現像装置、及び転写装置を含んでいる。画像形成部12は、画像読取部11によって生成された画像データ等に基づいて、給紙部14から搬送されてくる記録紙Pに、トナー像によって構成されている画像を形成する画像形成処理を実行する。
The
定着部13は、画像形成部12によってトナー像が形成された記録紙Pを加熱及び加圧することによってトナー像を記録紙Pに定着させる。定着部13によってトナー像が定着された記録紙Pは、排出トレイ8に排出される。
The
給紙部14は、手差しトレイと、複数の給紙カセットとを備えている。給紙部14は、給紙カセットに収容されている記録紙P、又は手差しトレイに載置されている記録紙を一枚ずつ引出して、画像形成部12に向けて給紙する。
The
表示部15は、液晶ディスプレイ又は有機EL(Organic Light-Emitting Diode)ディスプレイ等によって構成されている表示装置である。表示部15は、制御部10の制御にしたがって、画像形成装置1によって実行可能な各機能についての各種の画面を表示する。
The
操作部16は、画像形成装置1の正面側に設けられている。操作部16は、入力された指示を取消すための取消キー16A等の複数のハードキーを含んでいる。操作部16はまた、表示部15に重ねて配置されているタッチパネル16Bを含んでいる。ユーザーは、操作部16を介して、画像形成装置1によって実行可能な各機能についての指示等の各種の情報を入力する。操作部16は、特許請求の範囲における指示入力部の一例である。
The
HDD17は、画像読取部11によって生成された画像データ等の各種データを記憶するための大容量の記憶装置である。HDD17は、画像形成装置1の一般的な動作を実現するための各種制御プログラムを記憶している。HDD17は、各種制御プログラムの1つとして、本発明の一実施形態に係る音声指示認識処理を実行するための認識プログラムを記憶している。
The
HDD17は、予め定められている文字列を示すテキストデータを、制御部10によって実行可能な上記した複数の処理のいずれかを示す情報に対応付けて記憶している。例えば、HDD17は、「コピー」という文字列を示すテキストデータを、コピー処理を示す情報に対応付けて記憶している。HDD17は、「スキャン」という文字列を示すテキストデータを、スキャン処理を示す情報に対応付けて記憶している。HDD17は、「プリント」という文字列を示すテキストデータを、プリント処理を示す情報に対応付けて記憶している。
The
HDD17は、ユーザーに対して確認を行なうための確認用音声を示す確認用音声データを記憶している。ここでは、HDD17は、「を行ないますか」という確認用音声を示す確認用音声データを記憶しているものとする。
The
HDD17はまた、ユーザーに対して確認を行なうための確認用文字列を示す確認用テキストデータを記憶している。ここでは、HDD17は、「を行ないますか」という確認用文字列を示す確認用テキストデータを記憶しているものとする。
The
搬送機構18は、搬送ローラー対18A及び排出ローラー対18B等によって構成されている。搬送機構18は、排出先として設定されている排出トレイ8に向けて、記録紙Pを搬送路Tに沿って搬送する。
The
画像処理部19は、画像読取部11によって生成された画像データに対して、必要に応じて画像処理を実行する。画像メモリー20は、画像読取部11によって生成された出力対象の画像データを一時的に記憶する領域を含む。ファクシミリ通信部21は、公衆回線への接続を行ない、公衆回線を介して画像データの送受信を行なう。
The
音声入力部22Aは、画像形成装置1の正面側であって、操作部16の近傍に設けられている。音声入力部22Bは、画像形成装置1の一方の側面側に設けられている。音声入力部22Cは、画像形成装置1の他方の側面側に設けられている。音声入力部22A乃至22Cはそれぞれ、音声が入力されるマイクロフォンと、マイクロフォンに入力された音声に基づくアナログ信号をデジタル信号に変換するためのA/D変換回路と、を含んでいる。
The
音声出力部23は、音声データが示すデジタル信号をアナログ信号に変換するためのD/A変換回路と、変換されたアナログ信号に基づいて音声を出力するスピーカー、及びアンプ等を含んでいる。
The
通信部24は、LAN(Local Area Network)ボード等の通信モジュールを含んでいる。画像形成装置1は、通信部24を介して、ネットワークを介して接続されているPC(Personal Computer)25等とデータ通信を行なう。
The
画像形成装置1の各部には電源が接続されており、この電源から電力が供給されることによって、画像形成装置1の各部が動作する。 A power supply is connected to each part of the image forming apparatus 1, and each part of the image forming apparatus 1 operates by supplying electric power from this power source.
[動作]
図3は、音声指示認識処理を示すフローチャートである。以下、図3等を参照して、画像形成装置1の動作について説明する。
[motion]
FIG. 3 is a flowchart showing the voice instruction recognition process. Hereinafter, the operation of the image forming apparatus 1 will be described with reference to FIG. 3 and the like.
画像形成装置1の管理者が、操作部16を介して、画像形成装置1の操作モードを通常モード及び音声モードのうちのいずれかに設定するための設定画面を表示するための表示指示を入力したものとする。ここで、画像形成装置1の操作モードとして通常モードが設定されている場合には、制御部10は、ユーザーの指示として、操作部16を介して入力された指示を受付ける。音声モードが設定されている場合には、制御部10は、ユーザーの指示として、音声入力部22を介して音声によって入力された指示を受付ける。
The administrator of the image forming apparatus 1 inputs a display instruction for displaying a setting screen for setting the operation mode of the image forming apparatus 1 to either a normal mode or a voice mode via the
図4は、設定画面の一例を示す図である。図4を参照して、制御部10は、操作部16を介して上記した表示指示を受付けると、表示部15に、設定画面40を表示させる。このとき、制御部10は、選択画面40に、通常モードを選択するためのラジオボタン41と、音声モードを選択するためのラジオボタン42と、を表示させている。管理者は、選択画面40を確認して、ラジオボタン42をタッチしたものとする。制御部10は、タッチパネル16Bを介してラジオボタン42に対するタッチ操作を検知すると、ラジオボタン42にチェックを表示させる。
FIG. 4 is a diagram showing an example of a setting screen. With reference to FIG. 4, when the
制御部10はまた、選択画面40に、音声のみによって操作案内を行なうための設定を選択するためのラジオボタン43と、音声及び表示によって操作案内を行なうための設定を選択するためのラジオボタン44と、を表示させている。管理者は、選択画面40を確認して、ラジオボタン43をタッチしたものとする。制御部10は、タッチパネル16Bを介してラジオボタン43に対するタッチ操作を検知すると、ラジオボタン43にチェックを表示させる。
The
ラジオボタン43のタッチ後、管理者は、選択内容を確定するためのソフトキー45をタッチしたものとする。制御部10は、タッチパネル16Bを介してソフトキー45に対するタッチ操作を検知すると、設定画面40に反映されている選択内容を、操作モードについての設定内容として、HDD17に記憶させる。ソフトキー45のタッチ後、管理者は、画像形成装置1の電源を切断する。
After touching the radio button 43, it is assumed that the administrator touches the
管理者による電源切断後、画像形成装置1のユーザーが、画像形成装置1の電源を投入したものとする。図3を参照して、画像形成装置1の電源が投入されると、制御部10は、音声指示認識処理を開始して、HDD17に記憶されている設定内容に基づいて、音声モードが設定されているか否かを判定する(ステップS10)。
It is assumed that the user of the image forming apparatus 1 turns on the power of the image forming apparatus 1 after the power is turned off by the administrator. With reference to FIG. 3, when the power of the image forming apparatus 1 is turned on, the
この場合、管理者によってラジオボタン42がタッチされ、音声モードが設定されているので、制御部10は、音声モードが設定されていると判定し(ステップS10にてYES)、音声入力部22A乃至22Cを起動させる(ステップS11)。
In this case, since the
音声入力部22A乃至22Cが起動されると、音声入力部22AのA/D変換回路は、マイクロフォンに入力された音声に基づくアナログ信号をデジタル信号に変換することで第1音声データを生成し、生成された第1音声データを制御ユニット100に入力する。同様にして、音声入力部22Bは、音声入力部22Bのマイクロフォンに入力された音声に基づいて第2音声データを生成し、生成された第2音声データを制御ユニット100に入力する。音声入力部22Cは、音声入力部22Cのマイクロフォンに入力された音声に基づいて第3音声データを生成し、生成された第3音声データを制御ユニット100に入力する。
When the
ステップS11の処理後、制御部10は、制御ユニット100に入力されてくる第1乃至第3音声データが示す音声に、ユーザー音声が含まれているか否かを判定する(ステップS12)。具体的には、ステップS12において、制御部10はまず、第1乃至第3音声データのそれぞれが示す音声の波形に対してフーリエ変換を行なうことで、第1乃至第3音声データのそれぞれに対応する第1乃至第3周波数スペクトルを取得する。第1乃至第3周波数スペクトルは、特許請求の範囲における周波数特性を示している。
After the processing of step S11, the
制御部10は、第1乃至第3周波数スペクトルに共通して、周期性を示している部分が存在している場合には、第1乃至第3音声データが示す音声に、ユーザー音声が含まれていると判定する(ステップS12にてYES)。一方、制御部10は、第1乃至第3周波数スペクトルが不規則であって周期性を示しておらず、第1乃至第3周波数スペクトルに共通して周期性を示している部分が存在していない場合には、第1乃至第3音声データが示す音声に、ユーザー音声が含まれていないと判定する(ステップS12にてNO)。
When the
このとき、音声入力部22A乃至22Cのマイクロフォンのそれぞれには、画像形成装置1の周囲に発生している、ドアの開閉音及びキーボードの打鍵音等の非周期性雑音が入力されているものとする。この場合、第1乃至第3周波数スペクトルが不規則であって周期性を示していないので、制御部10は、第1乃至第3音声データが示す音声に、ユーザー音声が含まれていないと判定して(ステップS12にてNO)、上記したステップS12の処理を繰返す。
At this time, it is assumed that aperiodic noises such as door opening / closing sounds and keyboard keystroke sounds generated around the image forming apparatus 1 are input to each of the microphones of the
このような状況で、ユーザーは、画像形成装置1の正面に立って、「コピー。」という音声を発声したものとする。このとき、第1乃至第3周波数スペクトルに共通して、特定の周波数帯のピークが周期的に出現するので、制御部10は、第1乃至第3音声データが示す音声に、ユーザー音声が含まれていると判定し(ステップS12にてYES)、第1音声データが示す音声から、ユーザー音声を抽出する(ステップS13)。
In such a situation, it is assumed that the user stands in front of the image forming apparatus 1 and utters the voice "copy." At this time, since peaks in a specific frequency band appear periodically in the first to third frequency spectra, the
具体的には、ステップS13において、制御部10は、第1乃至第3周波数スペクトルに共通して周期的なピークが出現している周波数帯のスペクトルを特定して抽出し、抽出されたスペクトルに対して逆フーリエ変換を行なうことで、ユーザー音声を示す音声データ(以下、「抽出データ」と記す。)を生成する。これによって、制御部10は、第1音声データが示す音声から、周波数特性が不規則でない部分の音声、すなわち周波数特性が周期性を示している部分の音声を抽出する。ここで、ステップS13において、第1周波数スペクトルのみからユーザー音声を抽出するのは、画像形成装置1の正面側に設けられている音声入力部22Aに、ユーザー音声が最も明瞭に入力されていると想定されるためである。
Specifically, in step S13, the
ステップS13の処理後、制御部10は、HDD17に記憶されている設定内容に基づいて、操作案内を音声のみで行なうか否かを判定する(ステップS14)。この場合、管理者によってラジオボタン43がタッチされ、音声のみによって操作案内を行なうための設定が選択されているので、制御部10は、操作案内を音声のみで行なうと判定し(ステップS14にてYES)、音声出力部23に、抽出されたユーザー音声を出力させる(ステップS15)。
After the process of step S13, the
具体的には、ステップS15において、制御部10は、抽出データと、HDD17に記憶されている確認用音声データとをこの順に音声出力部23に入力する。これによって、音声出力部23は、ユーザー音声と確認用音声とを、この順に出力する。この場合、音声出力部23は、「コピー」というユーザー音声と、「を行ないますか。」という確認用音声とをこの順に出力する。
Specifically, in step S15, the
一方、管理者によってラジオボタン44がタッチされ、音声及び表示によって操作案内を行なうための設定が選択されている場合、制御部10は、操作案内を音声のみで行なわないと判定し(ステップS14にてNO)、音声出力部23に、抽出されたユーザー音声を出力させるとともに、表示部15に、抽出されたユーザー音声が示す内容を表示させる(ステップS16)。
On the other hand, when the radio button 44 is touched by the administrator and the setting for performing the operation guidance by voice and display is selected, the
具体的には、ステップS16において、制御部10は、上記したステップS15の処理と同様にして、ユーザー音声と確認用音声とをこの順に音声出力部23に出力させる。制御部10はまた、一般的な音声認識技術を用いて、抽出データが示すユーザー音声の波形から音声の内容を認識し、認識された音声の内容をテキスト化して出力用テキストデータを生成する。制御部10は、出力用テキストデータが示す文字列と、HDD17に記憶されている確認用テキストデータが示す確認用文字列とを、この順に並べて、ユーザー音声が示す内容として表示部15に表示させる。この場合、制御部10は、「コピー」という文字列と、「を行ないますか。」という確認用文字列とを、この順に並べて表示部15に表示させる。
Specifically, in step S16, the
ステップS15又はステップS16の処理後、制御部10は、ユーザー音声を取消すための取消指示を受付けているか否かを判定する(ステップS17)。制御部10は、制御ユニット100に入力されてくる第1乃至第3音声データが示す音声に新たなユーザー音声が含まれている場合、又は、取消キー16Aが押下された場合には、取消指示を受付けていると判定する(ステップS17にてYES)。一方、制御部10は、上記した第1乃至第3音声データが示す音声に新たなユーザー音声が含まれておらず、かつ、取消キー16Aが押下されていない場合には、取消指示を受付けていないと判定する(ステップS17にてNO)。
After the processing of step S15 or step S16, the
この場合、「コピー」というユーザー音声が画像形成装置1によって正確に認識されているので、ユーザーは、新たな発声を行なわず、かつ取消キー16Aの押下も行なわない。したがって、制御部10は、取消指示を受付けていないと判定し(ステップS17にてNO)、ステップS15又はステップS16の処理が実行されてから予め定められた待機時間が経過しているか否かを判定する(ステップS18)。
In this case, since the user voice of "copy" is accurately recognized by the image forming apparatus 1, the user does not make a new utterance and does not press the cancel key 16A. Therefore, the
待機時間としては特に限定されないが、ここでは、予め定められた待機時間は「10秒」であるものとする。管理者は、操作部16を介して待機時間を予め入力しており、制御部10は、入力された待機時間を設定内容としてHDD17に予め記憶させている。制御部10は、ステップS15又はステップS16の処理が実行されてから10秒以内である場合、予め定められた待機時間が経過していないと判定し(ステップS18にてNO)、ステップS17の処理に戻る。
The waiting time is not particularly limited, but here, the predetermined waiting time is assumed to be "10 seconds". The administrator inputs the standby time in advance via the
ユーザーによって新たな発声及び取消キー16Aの押下が行なわれることなく10秒が経過すると、制御部10は、予め定められた待機時間が経過していると判定し(ステップS18にてYES)、ユーザー音声に対応付けてHDD17に記憶されている情報を読出し、読出された情報が示す処理を実行する(ステップS19)。
When 10 seconds have passed without the user performing a new utterance or pressing the cancel key 16A, the
具体的には、ステップS19において、制御部10は、一般的な音声認識技術を用いて、抽出データが示すユーザー音声の波形から音声を認識し、認識された音声をテキスト化して認識テキストデータを生成する。制御部10は、HDD17から、認識テキストデータが示す文字列と同じ文字列を示すテキストデータに対応付けて記憶されている情報を読出す。この場合、制御部10は、HDD17から、認識テキストデータが示す「コピー」という文字列と同じ文字列を示すテキストデータに対応付けて記憶されている、コピー処理を示す情報を読出す。
Specifically, in step S19, the
制御部10は、読出された情報が示す処理を実行するために必要となる処理を実行する。この場合、制御部10は、音声出力部23に、コピー処理についての各種設定を行なうための操作案内を示す音声を出力させたり、表示部15に、コピー処理についての各種設定を行なうためのコピー画面を表示させたりする。ステップS19の処理後、制御部10は、音声指示認識処理を終了する。
The
なお、予め定められた待機時間が経過する前に、ユーザーによって新たな発声又は取消キー16Aの押下が行なわれた場合、制御部10は、取消指示を受付けていると判定し(ステップS17にてYES)、ステップS12の処理に戻る。
If the user makes a new utterance or presses the cancel key 16A before the predetermined waiting time elapses, the
また、管理者によってラジオボタン41がタッチされ、通常モードが設定されている場合には、制御部10は、音声モードが設定されていないと判定し(ステップS10にてNO)、音声指示認識処理を終了する。この場合、制御部10は、表示部15に、画像形成装置1によって実行可能な複数の処理のうちのいずれかを選択するためのホーム画面を表示させる。
Further, when the radio button 41 is touched by the administrator and the normal mode is set, the
上記実施形態によれば、制御部10は、音声入力部22A乃至22Cに入力された音声から、周波数特性が不規則でない部分の音声をユーザー音声として抽出し、抽出されたユーザー音声を音声出力部23に出力させ、音声出力部23がユーザー音声を出力してから、取消指示を受付けることなく予め定められた待機時間が経過した場合に、ユーザー音声に対応付けてHDD17に記憶されている情報が示す処理を実行し、上記した待機時間が経過する前に取消指示を受付けた場合には、上記した処理を実行しない。
According to the above embodiment, the
これによって、音声入力部22Aに入力された音声から、周波数特性が不規則でない部分の音声をユーザー音声として抽出するので、認識された音声に非周期性雑音が含まれることによって、入力された音声指示の内容が誤って認識されることを防止できる。また、ユーザーは、音声出力部34によって出力された音声を確認することによって、ユーザー音声が正確に認識されているか否かを確認することができるので、視覚に障害のあるユーザーの利便性が向上する。さらに、ユーザー音声が出力されてから予め定められた待機時間が経過する前に取消指示を受付けた場合には、ユーザー音声に対応する処理が実行されないので、ユーザーが意図していない処理が実行されることを確実に防ぐことができる。
As a result, the voice of the portion whose frequency characteristics are not irregular is extracted as the user voice from the voice input to the
また上記実施形態によれば、制御部10は、音声入力部22A乃至22Cにそれぞれ入力された音声の周波数特性において、共通して周期性を示している部分の音声をユーザー音声として特定して抽出する。これによって、音声入力部22Aに入力された音声からユーザー音声を正確に抽出できるので、認識された音声に非周期性雑音が含まれることによって、入力された音声指示の内容が誤って認識されることをより一層確実に防止できる。
Further, according to the above embodiment, the
また上記実施形態によれば、制御部10は、ユーザー音声を音声出力部34に出力させるとともに、ユーザー音声が示す内容を表示部15に表示させる。これによって、ユーザーは、音声出力部34によって出力された音声だけでなく、表示部15に表示された内容を確認することによって、ユーザー音声が正確に認識されているか否かを確認することができる。したがって、視覚に障害のあるユーザーだけでなく、聴覚に障害のあるユーザーの利便性が向上する。
Further, according to the above embodiment, the
また上記実施形態によれば、制御部10は、音声入力部22A乃至22C又は操作部16を介して、取消指示を受付ける。したがって、ユーザーが視覚又は聴覚に障害のあるユーザーであっても、容易に取消指示を入力できるので、ユーザーの利便性がより一層向上する。
Further, according to the above embodiment, the
(その他の変形例)
上記実施形態では、制御部10は、待機時間を1つのみ設定したが、本発明はそのような実施形態に限定されない。例えば、制御部10は、操作部16を介して入力される管理者等の指示にしたがって、ユーザー音声に対応する処理ごとに異なる待機時間を設定してもよい。これによって、ユーザー音声に対応する処理ごとにユーザーの意向に沿った適切な待機時間を設定できるので、ユーザーの利便性がより一層向上する。
(Other variants)
In the above embodiment, the
制御部10はまた、コピー処理、プリント処理、及びスキャン処理のうちの少なくともいずれか1つの処理については、待機時間を設定しないように構成されていてもよい。この場合、制御部10は、ユーザー音声に対応する処理が上記した少なくともいずれか1つの処理である場合には、待機時間の経過を待つことなく、上記した少なくともいずれか1つの処理を実行するための処理を実行する。これによって、例えば、コピー処理、プリント処理、及びスキャン処理等の時間を要する処理については待機時間の経過を待つことがなくなるので、ユーザー音声による指示が入力されてからユーザー音声に対応する処理が完了するまでのユーザーの待ち時間が長くなり過ぎることを防止できる。
The
また上記実施形態では、制御部10は、第1周波数スペクトルから直接ユーザー音声を抽出したが、本発明はそのような実施形態に限定されない。例えば、制御部10は、画像読取部11、画像形成部12、又は給紙部14等に備えられているモーターから発生するモーター音等の周期性雑音の周波数スペクトルをHDD17に予め記憶させておき、ユーザー音声を抽出する際に、まず、第1周波数スペクトルから上記周期性雑音の周波数スペクトルを除去し、当該除去後の第1周波数スペクトルからユーザー音声を抽出してもよい。これによって、認識された音声に周期性雑音が含まれている場合であっても、入力された音声指示の内容が誤って認識されることを防止できる。
Further, in the above embodiment, the
また、この場合、制御部10は、周期性雑音の周波数スペクトルと、第1周波数スペクトルとの類似性の度合いを示す値が予め定められた値以上である場合に、例えば、「音声指示をもう一度行なって下さい。」等のメッセージを音声出力部23に出力させたり、表示部16に表示させたりすることによって、ユーザー音声の再入力を促すように構成されていてもよい。これによって、入力された音声指示の内容が誤って認識されることをより一層確実に防止できる。
Further, in this case, when the value indicating the degree of similarity between the frequency spectrum of the periodic noise and the first frequency spectrum is equal to or more than a predetermined value, the
また上記実施形態では、制御部10は、第1周波数スペクトルのみからユーザー音声を抽出したが、本発明はそのような実施形態に限定されない。例えば、制御部10は、第1乃至第3周波数スペクトルのそれぞれからユーザー音声を抽出してもよい。この場合、制御部10は、一般的な音声合成技術によって、抽出された3つのユーザー音声を合成し、合成されたユーザー音声を音声出力部23に出力させるように構成されていてもよい。
Further, in the above embodiment, the
また上記実施形態では、制御部10は、画像形成装置1の操作モードを通常モード及び音声モードのうちのいずれかに設定するための設定画面として、設定画面40を表示したが、本発明はそのような実施形態に限定されない。例えば、制御部10は、色覚に障害のないユーザーが認識でき、色覚に障害のあるユーザーが認識できない画像を含んでいる設定画面を表示させてもよい。この場合、制御部10は、ユーザーによって、操作部16を介して、当該画像を認識できることを示す情報が入力された場合に通常モードを設定し、当該画像を認識できないことを示す情報が入力された場合に音声モードを設定する。
Further, in the above embodiment, the
また上記実施形態では、制御部10は、ラジオボタン43及びラジオボタン44の表示に代えて、音声出力部23からモスキート音を出力させてもよい。この場合、制御部10は、ユーザーによって、操作部16を介して、モスキート音を認識できることを示す情報が入力された場合には、音声のみによって操作案内を行なうための設定を行ない、モスキート音を認識できないことを示す情報が入力された場合には、音声及び表示によって操作案内を行なうための設定を行なう。
Further, in the above embodiment, the
また上記実施形態では、音声入力部は3つ設けられたが、本発明はそのような実施形態に限定されず、例えば、音声入力部は4つ設けられてもよいし、5つ設けられてもよい。 Further, in the above embodiment, three voice input units are provided, but the present invention is not limited to such an embodiment. For example, four voice input units may be provided or five may be provided. May be good.
なお、本発明は上記実施形態の構成に限られず種々の変形が可能である。例えば、上記実施形態では、電子機器としてカラー複合機を用いているが、これは一例に過ぎず、モノクロ複合機、コピー機、又はファクシミリ装置等の他の画像形成装置が電子機器として用いられてもよいし、又は、PCが電子機器として用いられてもよい。 The present invention is not limited to the configuration of the above embodiment, and various modifications can be made. For example, in the above embodiment, a color multifunction device is used as an electronic device, but this is only an example, and another image forming device such as a monochrome multifunction device, a copier, or a facsimile machine is used as the electronic device. Alternatively, a PC may be used as an electronic device.
図1乃至図4を用いて示した上記実施形態の構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。 The configuration and processing of the above-described embodiment shown with reference to FIGS. 1 to 4 are merely one embodiment of the present invention, and the present invention is not intended to be limited to the configuration and processing.
1 画像形成装置
10 制御部
12 画像形成部
15 表示部
16 操作部
17 HDD
22A,22B,22C 音声入力部
23 音声出力部
1 Image forming
22A, 22B, 22C
Claims (5)
音声が入力される音声入力部と、
音声を出力する音声出力部と、
予め定められている音声を前記複数の処理のいずれかを示す情報に対応付けて記憶する記憶部と、を備え、
前記制御部は、
前記音声入力部に入力された音声から、周波数特性が不規則でない部分の音声をユーザー音声として抽出し、
前記音声出力部に、抽出された前記ユーザー音声を出力させ、
前記音声出力部が前記ユーザー音声を出力してから、前記ユーザー音声を取消すための取消指示を受付けることなく予め定められた時間が経過した場合に、前記複数の処理のうち、前記ユーザー音声に対応付けて前記記憶部に記憶されている前記情報が示す処理を実行し、
前記音声出力部が前記ユーザー音声を出力してから前記予め定められた時間が経過する前に前記取消指示を受付けた場合には、前記処理を実行しない、電子機器。 A control unit that can execute multiple processes and
The voice input section where voice is input and
An audio output unit that outputs audio and
A storage unit that stores a predetermined voice in association with information indicating any of the plurality of processes is provided.
The control unit
From the voice input to the voice input unit, the voice of the part where the frequency characteristics are not irregular is extracted as the user voice, and the voice is extracted.
The voice output unit is made to output the extracted user voice.
When a predetermined time elapses without receiving a cancellation instruction for canceling the user voice after the voice output unit outputs the user voice, the user voice is supported among the plurality of processes. The process indicated by the information stored in the storage unit is executed.
An electronic device that does not execute the process when the cancellation instruction is received before the predetermined time elapses after the voice output unit outputs the user voice.
前記制御部は、複数の前記音声入力部にそれぞれ入力された音声の周波数特性において、共通して周期性を示している部分の音声を、前記ユーザー音声として特定して抽出する、請求項1に記載の電子機器。 A plurality of the voice input units are provided, and the voice input unit is provided.
According to claim 1, the control unit identifies and extracts the voice of a portion that commonly shows periodicity in the frequency characteristics of the voice input to each of the plurality of voice input units as the user voice. The electronic device described.
前記制御部は、前記音声出力部に前記ユーザー音声を出力させるとともに、前記表示部に、前記ユーザー音声が示す内容を表示させる、請求項1又は請求項2に記載の電子機器。 With an additional display
The electronic device according to claim 1 or 2, wherein the control unit causes the voice output unit to output the user voice and causes the display unit to display the content indicated by the user voice.
画像を記録媒体に形成するための画像形成処理を実行する画像形成部と、をさらに備え、
前記制御部は、前記処理が前記画像形成処理である場合には、前記予め定められた時間の経過を待つことなく、前記画像形成部に前記画像形成処理を行なわせるための処理を実行する、請求項1乃至請求項3のいずれかに記載の電子機器。 Input section where user's instructions are input and
An image forming unit for executing an image forming process for forming an image on a recording medium is further provided.
When the process is the image forming process, the control unit executes a process for causing the image forming unit to perform the image forming process without waiting for the elapse of the predetermined time. The electronic device according to any one of claims 1 to 3.
前記制御部は、前記音声入力部又は前記入力部を介して、前記取消指示を受付ける、請求項1乃至請求項4のいずれかに記載の電子機器。 It also has an instruction input section where user instructions are input.
The electronic device according to any one of claims 1 to 4, wherein the control unit receives the cancellation instruction via the voice input unit or the input unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019216816A JP2021086510A (en) | 2019-11-29 | 2019-11-29 | Electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019216816A JP2021086510A (en) | 2019-11-29 | 2019-11-29 | Electronic apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021086510A true JP2021086510A (en) | 2021-06-03 |
Family
ID=76087899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019216816A Pending JP2021086510A (en) | 2019-11-29 | 2019-11-29 | Electronic apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021086510A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021124613A (en) * | 2020-02-05 | 2021-08-30 | キヤノン株式会社 | Voice input apparatus, control method thereof, and program |
WO2024024642A1 (en) * | 2022-07-29 | 2024-02-01 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus |
-
2019
- 2019-11-29 JP JP2019216816A patent/JP2021086510A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021124613A (en) * | 2020-02-05 | 2021-08-30 | キヤノン株式会社 | Voice input apparatus, control method thereof, and program |
JP7482640B2 (en) | 2020-02-05 | 2024-05-14 | キヤノン株式会社 | Voice input device, control method thereof, and program |
WO2024024642A1 (en) * | 2022-07-29 | 2024-02-01 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11140284B2 (en) | Image forming system equipped with interactive agent function, method of controlling same, and storage medium | |
US20220139397A1 (en) | Image processing apparatus, image forming apparatus, confidential information management method, and recording medium | |
JP2021086510A (en) | Electronic apparatus | |
US11792338B2 (en) | Image processing system for controlling an image forming apparatus with a microphone | |
JP2020187169A (en) | Image formation apparatus and method of controlling image formation apparatus | |
JP7230482B2 (en) | Image processing system, image forming apparatus, voice input prohibition determination method and program | |
JP5343652B2 (en) | Operation screen control apparatus, image forming apparatus, and computer program | |
JP2008257566A (en) | Electronic equipment | |
JP2006220940A (en) | Image forming apparatus | |
JP6822374B2 (en) | Image forming device | |
JP2005102084A (en) | Image forming apparatus | |
US20210021723A1 (en) | Information processing system, information processing apparatus, and information processing method | |
JP2018120372A (en) | Electronic device and image forming apparatus | |
JP7218192B2 (en) | image forming device | |
JP7286321B2 (en) | Information processing system, information processing device, control method, program | |
WO2024024642A1 (en) | Image forming apparatus | |
JP2017065090A (en) | Image formation device | |
JP2016221831A (en) | Image forming system | |
WO2024024644A1 (en) | Image forming device | |
WO2024024643A1 (en) | Image formation device | |
JP2008271047A (en) | Image reader | |
JP7409155B2 (en) | Image forming device | |
JPWO2024024644A5 (en) | ||
US10992829B2 (en) | Image forming apparatus performing processing for resolving user's complaint against to printed result | |
JPWO2024024641A5 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20220930 |