JP7542826B2 - Voice recognition program and voice recognition device - Google Patents
Voice recognition program and voice recognition device Download PDFInfo
- Publication number
- JP7542826B2 JP7542826B2 JP2021060936A JP2021060936A JP7542826B2 JP 7542826 B2 JP7542826 B2 JP 7542826B2 JP 2021060936 A JP2021060936 A JP 2021060936A JP 2021060936 A JP2021060936 A JP 2021060936A JP 7542826 B2 JP7542826 B2 JP 7542826B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- voice
- utterance
- retroactive
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Images
Landscapes
- Telephone Function (AREA)
- Machine Translation (AREA)
Description
本発明は、音声認識プログラム及び音声認識装置に関するものである。 The present invention relates to a voice recognition program and a voice recognition device.
特許文献1には、入力された音声を音声認識し、その認識結果を用いて経路の案内や車両の運転等を行うシステム200が開示されている。そのシステム200には、ユーザが発話する音声を入力する音声入力装置21と、音声入力装置21から入力される一続きの音声を構成する始端から終端までの音声区間を検出する音声区間検出部11と、その音声区間検出部11で検出された音声区間内の音声を音声認識する音声認識部12とが設けられる。
先に第1音声(第1発話)が音声入力装置21に入力され、その後に第2音声(第2発話)が音声入力装置21に入力される場合、まず、音声区間検出部11によって第1音声に対応する第1音声区間が検出され、その第1音声区間の始端から音声認識部12による第1音声の音声認識が開始される。そして、第1音声区間の終端まで第1音声区間の音声認識が終了した後に、第2音声に対応する第2音声区間の検出および第2音声区間の始端からの音声認識が開始される。これによって、第1音声と第2音声とを区別して音声認識することができる。
When a first voice (first utterance) is input to the voice input device 21 first and then a second voice (second utterance) is input to the voice input device 21, first the voice section corresponding to the first voice is detected by the voice section detection unit 11, and voice recognition of the first voice by the
第1音声と第2音声とが連続して発話された場合、第1音声と第2音声との間隔が短時間となる。かかる場合においては、第1音声区間の音声認識、第2音声区間の検出および第2音声区間の音声認識の開始も短時間に行う必要がある。よって、第1音声区間の音声認識に時間を要すると、その後に音声入力装置21から入力される第2音声の第2音声区間の検出の開始が遅れ、検出された第2音声区間の始端が実際の第2音声の始端よりも遅れて検出される虞がある。これによって、第2音声において始端で発話された内容の音声認識が欠落し、第2音声が正確に音声認識できない虞があるという問題点があった。 When the first voice and the second voice are spoken consecutively, the interval between the first voice and the second voice is short. In such a case, it is necessary to perform voice recognition of the first voice section, detection of the second voice section, and start of voice recognition of the second voice section in a short time. Therefore, if voice recognition of the first voice section takes time, there is a risk that the start of detection of the second voice section of the second voice input from the voice input device 21 thereafter will be delayed, and the start of the detected second voice section will be detected later than the actual start of the second voice. This causes a problem in that voice recognition of the content spoken at the start of the second voice will be missed, and there is a risk that the second voice will not be accurately recognized.
本発明は、上述した問題点を解決するためになされたものであり、第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供することを目的としている。 The present invention has been made to solve the above-mentioned problems, and aims to provide a speech recognition program and a speech recognition device that can accurately recognize each of the first and second utterances even when they are input consecutively.
この目的を達成するために本発明の音声認識プログラムは、記憶部を備えたコンピュータに、音声認識処理を実行させるプログラムであって、前記記憶部を音声が記憶される音声記憶手段として機能させ、入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、その終了時刻取得ステップで取得された第1発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識ステップとを備えている。 In order to achieve this object, the voice recognition program of the present invention is a program for causing a computer having a storage unit to execute a voice recognition process, and includes a voice storage step for causing the storage unit to function as a voice storage means for storing voice, and storing input voice in the voice storage means, a start time acquisition step for acquiring a start time of an utterance by voice stored in the voice storage means, an end time acquisition step for acquiring an end time of an utterance by voice stored in the voice storage means, an interval acquisition step for acquiring an utterance interval that is a time difference between the end time of a first utterance acquired in the end time acquisition step and the start time acquired in the start time acquisition step, which is a start time of a second utterance input after the first utterance, a retroactive time acquisition step for acquiring a retroactive time that is a time going back from the start time of the second utterance acquired in the start time acquisition step based on the utterance interval acquired in the interval acquisition step, and a voice recognition step for starting voice recognition of the second utterance from a time going back from the start time of the second utterance acquired in the start time acquisition step by the retroactive time acquired in the retroactive time acquisition step, in the voice stored in the voice storage means.
また本発明の音声認識装置は、音声を入力する音声入力手段と、その音声入力手段で入力された音声を記憶する音声記憶手段と、その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、その終了時刻取得手段で取得された第1発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第2発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識手段と、を備えている。 The voice recognition device of the present invention also includes voice input means for inputting voice, voice storage means for storing the voice input by the voice input means, start time acquisition means for acquiring the start time of an utterance by the voice stored by the voice storage means, end time acquisition means for acquiring the end time of an utterance by the voice stored in the voice storage means, interval acquisition means for acquiring an utterance interval which is the time difference between the end time of a first utterance acquired by the end time acquisition means and the start time acquired by the start time acquisition means which is the start time of a second utterance input after the first utterance, retroactive time acquisition means for acquiring a retroactive time which is the time going back from the start time of the second utterance acquired by the start time acquisition means based on the utterance interval acquired by the interval acquisition means, and voice recognition means for starting voice recognition of the second utterance from a time going back from the start time of the second utterance acquired by the start time acquisition means by the retroactive time acquisition means, in the voice stored in the voice storage means.
請求項1記載の音声認識プログラムによれば、入力された音声が音声記憶手段に記憶され、音声記憶手段に記憶された第1発話の終了時刻と、第2発話の開始時刻とが取得され、それらの時間差である発話間隔に基づいた遡及時間が取得される。そして、音声記憶手段の音声において第2発話の開始時刻から遡及時間を遡った時刻から第2発話の音声認識が開始される。これにより、音声記憶手段に記憶される第2発話の開始から確実に音声認識を開始することができるので、第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できるという効果がある。また、遡及時間が第1発話と第2発話との発話間隔に応じて設定されるので、第2発話の開始から音声認識が開始できると共に、その第2発話の音声認識に与える第1発話の影響を最小限に抑制できるという効果もある。
According to the speech recognition program of
請求項2記載の音声認識プログラムによれば、請求項1記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第1所定時間以下の場合は、即ち第1発話と第2発話との発話間隔が短く、これらが連続している場合である。かかる場合に、遡及時間が第1所定時間以上の第1遡及時間に設定されることで、第1発話の後に連続する第2発話の開始から確実に音声認識を開始できるという効果がある。
The speech recognition program of claim 2 has the following effect in addition to the effect of the speech recognition program of
請求項3記載の音声認識プログラムによれば、請求項2記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第1所定時間よりも長い第2所定時間以上の場合、即ち第1発話と第2発話との発話間隔が長い場合に、その第2所定時間以下の第2遡及時間が遡及時間として取得されるので、第2発話の音声認識が開始されてから実際に第2発話が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第2発話が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第2発話を音声認識するためのコンピュータの処理時間が低減されるので、コンピュータの処理負荷を低減できるという効果がある。 According to the voice recognition program of claim 3, in addition to the effects of the voice recognition program of claim 2 , the following effects are achieved. When the speech interval is equal to or longer than the second predetermined time longer than the first predetermined time , i.e., when the speech interval between the first utterance and the second utterance is long, a second retroactive time equal to or shorter than the second predetermined time is acquired as the retroactive time, so that it is possible to prevent the time lag from the start of speech recognition of the second utterance to the actual start of the second utterance from increasing. This has the effect of preventing erroneous speech recognition of ambient sounds until the start of the second utterance, and reducing the processing time of the computer for speech recognition of the second utterance, thereby reducing the processing load of the computer.
請求項4記載の音声認識プログラムによれば、請求項3記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第1遡及時間が第1所定時間以上かつ第2所定時間以下の時間に設定されるので、第2発話の音声認識を開始する時刻が第1発話の開始時刻まで遡ることを抑制できる。これにより、第2発話と共に第1発話の全体が音声認識されるのを抑制できるという効果がある。 The speech recognition program according to claim 4 has the following effect in addition to the effect of the speech recognition program according to claim 3. Since the first retroactive time is set to a time equal to or greater than the first predetermined time and equal to or less than the second predetermined time, it is possible to prevent the time at which speech recognition of the second utterance is started from going back to the start time of the first utterance. This has the effect of preventing the entire first utterance from being speech-recognized along with the second utterance.
請求項5記載の音声認識プログラムによれば、請求項3又は4に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第2遡及時間が第1所定時間以上かつ第2所定時間以下の時間に設定される。これにより、第2発話の音声認識を開始する時刻が第1発話の開始時刻まで遡ることを抑制できる。これにより、第2発話と共に第1発話の全体が音声認識されるのを抑制できるという効果がある。 The speech recognition program according to claim 5 has the following effect in addition to the effect of the speech recognition program according to claim 3 or 4. The second retroactive time is set to a time equal to or greater than the first predetermined time and equal to or less than the second predetermined time. This makes it possible to prevent the time at which speech recognition of the second utterance starts from going back to the start time of the first utterance. This has the effect of preventing the entire first utterance from being speech-recognized along with the second utterance.
請求項6記載の音声認識プログラムによれば、請求項1から5のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第1所定時間と第2所定時間との間の場合、その発話間隔が遡及時間に設定される。これにより、第2発話の音声認識の開始が第1発話の終了時刻となるので、遡及時間を容易に取得できると共に、第2発話の開始から確実に音声認識を開始できるという効果がある。
According to the voice recognition program of claim 6, in addition to the effects of the voice recognition program of any one of
請求項7記載の音声認識装置によれば、請求項1記載の音声認識プログラムと同様の効果を奏する。
The voice recognition device described in claim 7 achieves the same effect as the voice recognition program described in
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、図1を参照して、本実施形態における携帯端末1の構成を説明する。図1は、携帯端末1の外観図である。携帯端末1は、ユーザHが発する発話を音声認識する情報処理装置(コンピュータ)である。
A preferred embodiment of the present invention will now be described with reference to the accompanying drawings. First, the configuration of a
携帯端末1では、音声Vが入力可能に構成され、入力された音声Vの音量に基づいてユーザHが発した発話かどうかが判断され、その発話毎に音声認識が実行される。なお、音声認識としては、公知の手法が採用されるが、例えば、音声Vを文字列に変換し、変換された文字列を該当する語句に置き換えるものが挙げられる。まず、図2を参照して、携帯端末1に入力された音声VからユーザHの発話の開始および終了を判断する手法を説明する。
The
図2は、音声Vの音量と、ユーザHの発話の開始時刻StT及び終了時刻EdTとを模式的に表した図である。図2においては横軸に時刻が、縦軸に音声Vの音量(dB)がそれぞれ設定され、その音量の最大値が「0dB」とされ、最小値が「-120dB」とされる。音量の範囲は0dBから-120dBまでに限られず、これ以外の範囲でも良い。 Figure 2 is a diagram that shows a schematic representation of the volume of voice V and the start time StT and end time EdT of user H's speech. In Figure 2, the horizontal axis represents time and the vertical axis represents the volume (dB) of voice V, with the maximum volume being "0 dB" and the minimum volume being "-120 dB." The range of volume is not limited to 0 dB to -120 dB, and may be any other range.
本実施形態の携帯端末1では、入力された音声Vの音量に基づいてユーザHが発話しているかどうかが判断される。具体的には、発話が開始したかを判定する音量の閾値である開始判定値St_Aと、発話が終了したかどうかを判定する音量の閾値である終了判定値Ed_Aとがそれぞれ設定される。開始判定値St_Aには、終了判定値Ed_Aより大きな音量が設定され、開始判定値St_Aとしては「-25dB」が、終了判定値Ed_Aとしては「-30dB」がそれぞれ例示される。
In the
入力された音声Vの音量が開始判定値St_Aより小さい状態から開始判定値St_A以上となった場合に、ユーザHの発話が開始したと判断され、その際の時刻が開始時刻StTとされる。一方で、開始時刻StT以後に、終了判定値Ed_A以下となった場合にユーザHの発話が終了したと判断され、その時刻が終了時刻EdTとされる。即ち開始時刻StTから終了時刻EdTまでの間に、ユーザHの発話がされていたと判断される。 When the volume of the input voice V goes from being lower than the start judgment value St_A to being equal to or higher than the start judgment value St_A, it is determined that user H has started speaking, and the time at which this occurs is designated as the start time StT. On the other hand, if the volume falls below the end judgment value Ed_A after the start time StT, it is determined that user H has ended speaking, and that time is designated as the end time EdT. In other words, it is determined that user H has been speaking between the start time StT and the end time EdT.
開始判定値St_Aが終了判定値Ed_Aより大きな音量が設定されることで、周囲の環境音と発話の開始とを明確に区別し、周囲の環境音がユーザHの発音と誤認識されるのを抑制できる。一方で、終了判定値Ed_Aが開始判定値St_Aより小さな音量が設定されることで、ユーザHが発話していると判断されている状況において、発話による音量が一時的に低下することで開始判定値St_Aを下回った場合でも、発話が継続していると判断できる。これらにより、ユーザHの発話の開始および終了を適切に取得できる。 By setting the start judgment value St_A at a volume greater than the end judgment value Ed_A, it is possible to clearly distinguish between the surrounding environmental sounds and the start of speech, and to prevent the surrounding environmental sounds from being mistaken for user H's pronunciation. On the other hand, by setting the end judgment value Ed_A at a volume less than the start judgment value St_A, in a situation in which it is determined that user H is speaking, even if the volume of the speech temporarily drops below the start judgment value St_A, it can be determined that the speech is continuing. As a result, the start and end of user H's speech can be appropriately obtained.
このように取得されたユーザHの発話の開始時刻StT及び終了時刻EdTに基づいて、その発話の音声認識が実行される。本実施形態では、ユーザHによる発話が連続した場合に、先の発話と後の発話との時間差である発話間隔ΔTに応じて、後の発話の音声認識を開始するタイミングが設定される。図3を参照して、音声認識を開始するタイミングを説明する。 Based on the start time StT and end time EdT of user H's utterance thus acquired, voice recognition of that utterance is performed. In this embodiment, when user H speaks continuously, the timing to start voice recognition of the subsequent utterance is set according to the speech interval ΔT, which is the time difference between the previous utterance and the subsequent utterance. The timing to start voice recognition will be described with reference to Figure 3.
図3(a)は、発話間隔ΔTが第1所定時間x1以下である場合の音声認識を開始するタイミングを表す図であり、図3(b)は、発話間隔ΔTが第2所定時間x2以上である場合の音声認識を開始するタイミングを表す図であり、図3(c)は、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合の音声認識を開始するタイミングを表す図である。 Figure 3(a) is a diagram showing the timing for starting voice recognition when the speech interval ΔT is equal to or less than the first predetermined time x1, Figure 3(b) is a diagram showing the timing for starting voice recognition when the speech interval ΔT is equal to or more than the second predetermined time x2, and Figure 3(c) is a diagram showing the timing for starting voice recognition when the speech interval ΔT is between the first predetermined time x1 and the second predetermined time x2.
図3(a)~(c)においては、ユーザHが「おはようございます。」と発話したものが第1発話V1とされ、その第1発話の直後にユーザHが「今日は晴れですね。」と発話したものが第2発話V2とされる。第1発話V1の終了時刻EdTと第2発話V2の開始時刻StTとの時間差が第1発話V1と第2発話V2との発話間隔ΔTとされ、その発話間隔ΔTの大小に応じて遡及時間Tが算出される。 In Figures 3(a) to (c), the first utterance V1 is "Good morning" uttered by user H, and the second utterance V2 is "It's a sunny day today" uttered by user H immediately after the first utterance. The time difference between the end time EdT of the first utterance V1 and the start time StT of the second utterance V2 is the speech interval ΔT between the first utterance V1 and the second utterance V2, and the retroactive time T is calculated depending on the length of the speech interval ΔT.
ここで携帯端末1に入力される音声Vは、ユーザHの発話の有無に依らず図4で後述の音声バッファ11bに記憶される。その音声バッファ11bの音声Vにおける、第2発話V2の開始時刻StTから遡及時間Tを遡った時刻である認識開始時刻StRより、第2発話V2の音声認識が開始される。
Here, the voice V input to the
まず、図3(a)を参照して、第1発話V1の直後に第2発話V2が開始された場合の遡及時間Tを説明する。図3(a)は、第1発話V1の直後に第2発話V2が開始された場合、即ち上記の発話間隔ΔTが第1所定時間x1以下の場合を表している。第1所定時間x1としては「0.1秒間」が例示される。 First, referring to FIG. 3(a), the retroactive time T when the second utterance V2 starts immediately after the first utterance V1 will be described. FIG. 3(a) shows the case where the second utterance V2 starts immediately after the first utterance V1, i.e., the above-mentioned utterance interval ΔT is equal to or shorter than the first predetermined time x1. An example of the first predetermined time x1 is "0.1 seconds."
このように、発話間隔ΔTが第1所定時間x1以下で短く、第1発話V1と第2発話V2とが連続している場合には、遡及時間Tとして第1所定時間x1以上の第1遡及時間Tx1が設定される。第1遡及時間Tx1としては「0.5秒間」が例示される。これにより、第2発話の認識開始時刻StRを第2発話の開始時刻StTよりも以前のタイミングとできるので、第2発話の開始から確実に音声認識を開始できる。 In this way, when the speech interval ΔT is short and equal to or less than the first predetermined time x1, and the first utterance V1 and the second utterance V2 are consecutive, the first retroactive time Tx1, which is equal to or greater than the first predetermined time x1, is set as the retroactive time T. An example of the first retroactive time Tx1 is "0.5 seconds." This allows the recognition start time StR of the second utterance to be set to a timing earlier than the start time StT of the second utterance, so that speech recognition can be reliably started from the start of the second utterance.
この際、第1発話の終了時刻EdT付近の発話(例えば「おはようございます。」の「す」)が第2発話の認識開始時刻StRに含まれることがある。かかる場合は、第2発話の認識開始時刻StRより開始した音声認識した結果から、第2発話の開始時刻StT以前の認識結果を除外や除去することで、第2発話の開始時刻StTからの音声認識の結果のみを出力しても良い。 In this case, an utterance near the end time EdT of the first utterance (for example, the "su" in "Good morning") may be included in the recognition start time StR of the second utterance. In such a case, the recognition results before the start time StT of the second utterance may be excluded or removed from the results of the speech recognition that began at the recognition start time StR of the second utterance, thereby outputting only the results of the speech recognition from the start time StT of the second utterance.
次に図3(b)を参照して、第1発話V1と第2発話V2との発話間隔ΔTが長い場合を説明する。図3(b)は、発話間隔ΔTが第2所定時間x2以上の場合を表している。第2所定時間x2としては「3秒間」が例示される。このように、第1発話V1と第2発話V2との発話間隔ΔTが第2所定時間x2以上の長い場合には、遡及時間Tとして第2所定時間x2以下の第2遡及時間Tx2が設定される。第1遡及時間Tx1としては「2秒間」が例示される。 Next, referring to FIG. 3(b), a case where the speech interval ΔT between the first utterance V1 and the second utterance V2 is long will be described. FIG. 3(b) shows a case where the speech interval ΔT is equal to or longer than the second predetermined time x2. An example of the second predetermined time x2 is "3 seconds". In this way, when the speech interval ΔT between the first utterance V1 and the second utterance V2 is equal to or longer than the second predetermined time x2, a second retroactive time Tx2 equal to or shorter than the second predetermined time x2 is set as the retroactive time T. An example of the first retroactive time Tx1 is "2 seconds".
これにより、第2発話V2の音声認識が開始されてから実際に第2発話V2が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第2発話V2が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第2発話V2を音声認識するための携帯端末1(具体的に図4で後述のCPU10)の処理時間が低減されるので、携帯端末1の処理負荷を低減できる。
This makes it possible to prevent the time lag from increasing between when speech recognition of the second utterance V2 starts and when the second utterance V2 actually starts. This makes it possible to prevent erroneous speech recognition of ambient sounds until the second utterance V2 starts, and also reduces the processing time of the mobile terminal 1 (specifically, the CPU 10 described later in FIG. 4) for speech recognition of the second utterance V2, thereby reducing the processing load of the
次に図3(c)を参照して、第1発話V1と第2発話V2との発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合を説明する。かかる場合には、遡及時間Tとして発話間隔ΔTが設定される。これにより、第2発話V2の認識開始時刻StRが第1発話V1の終了時刻EdTとなるので、遡及時間Tを容易に取得できると共に、第2発話V2の開始から確実に音声認識を開始できる。 Next, referring to FIG. 3(c), a case will be described in which the speech interval ΔT between the first utterance V1 and the second utterance V2 is between the first predetermined time x1 and the second predetermined time x2. In such a case, the speech interval ΔT is set as the retroactive time T. As a result, the recognition start time StR of the second utterance V2 becomes the end time EdT of the first utterance V1, so that the retroactive time T can be easily obtained and speech recognition can be reliably started from the start of the second utterance V2.
ここで、第1遡及時間Tx1及び第2遡及時間Tx2は、第1所定時間x1以上かつ第2所定時間x2以下の時間に設定される。これにより、第2発話の認識開始時刻StRが第1発話V1の開始時刻StTまで遡ることを抑制できるので、第2発話V2と共に第1発話V1の全体が音声認識されるのを抑制できる。 Here, the first retroactive time Tx1 and the second retroactive time Tx2 are set to a time equal to or greater than the first predetermined time x1 and equal to or less than the second predetermined time x2. This prevents the recognition start time StR of the second utterance from going back to the start time StT of the first utterance V1, thereby preventing the entire first utterance V1 from being voice recognized together with the second utterance V2.
以上の通り、第2発話V2の開始時刻StTから、その直前の第1発話V1と第2発話V2との発話間隔ΔTに応じた遡及時間Tを遡った認識開始時刻StRより音声認識を開始することで、第2発話V2の開始から確実に第2発話の音声認識を開始できる。これにより、第1発話と第2発話とが連続して入力された場合でも、第2発話の開始から確実に音声認識を開始できるので、第1発話と第2発話とを正確に音声認識できる。 As described above, by starting speech recognition from the recognition start time StR, which is calculated by going back from the start time StT of the second utterance V2 by a retroactive time T corresponding to the speech interval ΔT between the immediately preceding first utterance V1 and second utterance V2, speech recognition of the second utterance can be reliably started from the start of the second utterance V2. This ensures that speech recognition can be started reliably from the start of the second utterance even when the first utterance and the second utterance are input consecutively, thereby enabling accurate speech recognition of the first utterance and the second utterance.
また、ユーザHの第2発話を開始した際の音声Vの音量が小さく、第2発話V2の開始時刻StTと判断された時刻では実際にはユーザHが発話している場合がある。かかる場合でも、第2発話V2の開始時刻StTから遡及時間Tを遡った時刻から音声認識を開始することで、第2発話V2の開始時刻StTと判断される以前から実際にはユーザHが発話していた音声Vの音声認識の取りこぼしを抑制できる。 In addition, the volume of the voice V when user H starts the second utterance may be low, and user H may actually be speaking at the time determined to be the start time StT of second utterance V2. Even in such a case, by starting voice recognition from a time that is backdated by the retroactive time T from the start time StT of second utterance V2, it is possible to reduce the loss of voice recognition of the voice V that user H was actually speaking before the start time StT of second utterance V2 was determined.
なお、第1所定時間x1は0.1秒間に限られず、第2所定時間x2以下であれば、0.1秒間以上でも0.1秒間以下でも良い。第2所定時間x2は3秒間に限られず、第1所定時間x1以上であれば、3秒間以上でも3秒間以下でも良い。また、第1遡及時間Tx1は0.5秒間に限られず、上記した第1所定時間x1以上かつ第2所定時間x2以下の時間であれば、0.5秒間以上でも0.5秒間以下でも良い。同様に第2遡及時間Tx2は2秒間に限られず、第1所定時間x1以上かつ第2所定時間x2以下の時間であれば、2秒間以上でも2秒間以下でも良い。更に第1遡及時間Tx1を第2遡及時間Tx2よりも短い時間としたが、これに限られない。第1遡及時間Tx1と第2遡及時間Tx2とを同じ時間としても良いし、第1遡及時間Tx1を第2遡及時間Tx2よりも長い時間としても良い。 The first predetermined time x1 is not limited to 0.1 seconds, and may be 0.1 seconds or more or 0.1 seconds or less as long as it is equal to or less than the second predetermined time x2. The second predetermined time x2 is not limited to 3 seconds, and may be 3 seconds or more or 3 seconds or less as long as it is equal to or more than the first predetermined time x1. The first retroactive time Tx1 is not limited to 0.5 seconds, and may be 0.5 seconds or more or 0.5 seconds or less as long as it is equal to or more than the first predetermined time x1 and equal to or less than the second predetermined time x2. Similarly, the second retroactive time Tx2 is not limited to 2 seconds, and may be 2 seconds or more or 2 seconds or less as long as it is equal to or more than the first predetermined time x1 and equal to or less than the second predetermined time x2. Furthermore, the first retroactive time Tx1 is shorter than the second retroactive time Tx2, but is not limited to this. The first retroactive time Tx1 and the second retroactive time Tx2 may be the same time, or the first retroactive time Tx1 may be longer than the second retroactive time Tx2.
次に、図4を参照して、携帯端末1の電気的構成を説明する。図4は、携帯端末1の電気的構成を示すブロック図である。図4に示す通り、携帯端末1は、CPU10と、フラッシュROM11と、RAM12とを有し、これらはバスライン13を介して入出力ポート14にそれぞれ接続されている。入出力ポート14には更に、音声Vを入力するマイク15と、音声認識の認識結果等が表示されるLCD16と、ユーザHからの指示が入力されるタッチパネル17とが接続される。
Next, the electrical configuration of the
CPU10は、バスライン13により接続された各部を制御する演算装置である。フラッシュROM11は、書き換え可能な不揮発性のメモリであり、音声認識プログラム11aと、音声Vが記憶される音声バッファ11bとが保存される。CPU10によって音声認識プログラム11aが実行されると、図5の音声処理が実行される。RAM12は、CPU10の音声認識プログラム11aの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、上記した遡及時間Tが記憶される遡及時間メモリ12aが設けられる。
The CPU 10 is a calculation device that controls each part connected by the
次に、図5,6を参照して、携帯端末1のCPU10で実行される処理を説明する。図5(a)は、音声処理のフローチャートである。音声処理は、タッチパネル17等を介してユーザHから音声認識プログラム11aを実行する指示が入力された場合に実行される処理である。
Next, the processing executed by the CPU 10 of the
音声処理はまず、音声バッファ11bの内容をクリアし(S1)、音声取得時刻と、上記した開始時刻StT及び終了時刻EdTとをそれぞれ0に設定する(S2)。音声取得時刻は、音声Vのサンプリング周期(例えば1/44100秒)が1単位時間とした時刻であり、音声バッファ11bに記憶された音声Vを0秒、即ち音声バッファ11bへの音声Vの記憶を開始した時刻から順に上記のサンプリング周期間隔で取得するための時刻情報として用いられる。 The audio process first clears the contents of the audio buffer 11b (S1), and sets the audio acquisition time and the above-mentioned start time StT and end time EdT to 0 (S2). The audio acquisition time is the time when the sampling period of the audio V (e.g., 1/44100 seconds) is one unit time, and is used as time information for acquiring the audio V stored in the audio buffer 11b at the above-mentioned sampling period intervals in order from 0 seconds, i.e., the time when storage of the audio V in the audio buffer 11b began.
S2の処理の後、今回音量および前回音量に音量の最小値である-120dBを設定する(S3)。今回音量には、発話の開始時刻StT及び終了時刻EdTを判断するための音量が記憶され、前回音量にはその今回音量の前回の音量が記憶される。 After the process of S2, the current volume and previous volume are set to -120 dB, which is the minimum volume value (S3). The current volume stores the volume for determining the start time StT and end time EdT of the speech, and the previous volume stores the previous volume of the current volume.
S3の処理の後、録音処理を開始する(S4)。録音処理は、音声Vのサンプリング周期毎に実行され、マイク15から入力された音声Vを、サンプリング周期毎に音声バッファ11bへ記憶させる処理である。S4の処理によって、録音処理の定期的な実行が開始される。ここで、図5(b)を参照して録音処理を説明する。
After the process of S3, the recording process starts (S4). The recording process is executed every sampling period of the sound V, and the sound V input from the
図5(b)は、録音処理のフローチャートである。録音処理は、上記した通り、音声Vのサンプリング周期毎に実行される割込処理である。録音処理は、マイク15から取得した音声Vを音声バッファ11bに追加し(S20)、終了する。これにより、音声バッファ11bには、上記のサンプリング周期毎に取得された音声Vが記憶される。
Figure 5 (b) is a flowchart of the recording process. As described above, the recording process is an interrupt process that is executed for each sampling period of the audio V. The recording process adds the audio V acquired from the
図5(a)に戻る。S4の処理の後、音声バッファ11bから音声取得時刻における音声Vの音量を取得し、今回音量に設定する(S5)。S5の処理の後、音声認識処理(S6)を実行する。ここで、図6を参照して音声認識処理を説明する。 Returning to FIG. 5(a), after the process of S4, the volume of the voice V at the time of voice acquisition is obtained from the voice buffer 11b and set as the current volume (S5). After the process of S5, the voice recognition process (S6) is executed. Here, the voice recognition process will be explained with reference to FIG. 6.
図6は、音声認識処理のフローチャートである。音声認識処理はまず、前回音量が図2で上記した開始判定値St_Aより小さく、且つ、音声取得時刻における今回音量が開始判定値St_A以上かを確認する(S30)。即ち音声バッファ11bの音声Vにおいて、開始判定値St_Aより小さい状態から開始判定値St_A以上となり、発話が開始した開始時刻StTのタイミングであるかを確認する。 Figure 6 is a flowchart of the voice recognition process. The voice recognition process first checks whether the previous volume was smaller than the start judgment value St_A described above in Figure 2, and whether the current volume at the time of voice acquisition is equal to or greater than the start judgment value St_A (S30). That is, it checks whether the voice V in the voice buffer 11b has changed from a state smaller than the start judgment value St_A to equal to or greater than the start judgment value St_A, at the start time StT when speech began.
S30の処理において、前回音量が開始判定値St_Aより小さく、且つ、音声取得時刻における今回音量が開始判定値St_A以上の場合は(S30:Yes)、開始時刻StTに音声取得時刻を設定する(S31)。S31の処理の後、開始時刻StTから後述のS39,S40の処理で設定される図3で上記した終了時刻EdTを減算することで、発話間隔ΔTを算出する(S32)。S32の処理の後、算出された発話間隔ΔTを確認する(S33)。 In the process of S30, if the previous volume is smaller than the start judgment value St_A and the current volume at the voice acquisition time is equal to or greater than the start judgment value St_A (S30: Yes), the voice acquisition time is set to the start time StT (S31). After the process of S31, the speech interval ΔT is calculated by subtracting the end time EdT described above in FIG. 3, which is set in the processes of S39 and S40 described below, from the start time StT (S32). After the process of S32, the calculated speech interval ΔT is confirmed (S33).
S33の処理において、発話間隔ΔTが第1所定時間x1以下の場合は(ΔT≦x1)、遡及時間メモリ12aに第1遡及時間Tx1を設定し(S34)、発話間隔ΔTが第2所定時間x2以上の場合は(ΔT≧x2)、遡及時間メモリ12aに第2遡及時間Tx2を設定し(S35)、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合は(x1<ΔT<x2)、遡及時間メモリ12aに発話間隔ΔTを設定する(S36)。
In the process of S33, if the speech interval ΔT is less than or equal to the first predetermined time x1 (ΔT≦x1), a first retroactive time Tx1 is set in the
S34~S36の処理の後、音声バッファ11bにおいてS31の処理で設定された開始時刻StTから遡及時間メモリ12aの遡及時間Tだけ遡った時刻(即ち認識開始時刻StR)から音声認識を実施する(S37)。これにより、図3(a)~(c)で上記した発話間隔ΔTに応じた遡及時間Tが遡及時間メモリ12aに設定され、開始時刻StTからその遡及時間Tから音声認識が開始される。S37の処理によって音声認識された結果をLCD16に表示しても良いし、図示しない通信装置を介して、他の携帯端末1等の情報処理装置に送信しても良い。
After the processes of S34 to S36, speech recognition is performed from a time that is the retroactive time T in the
S30の処理において、前回音量が開始判定値St_A以上の場合、または、今回音量が開始判定値St_Aより小さい場合は(S30:No)、S31~S37の処理をスキップする。S30,S37の処理の後、前回音量が終了判定値Ed_Aより大きく且つ今回音量が終了判定値Ed_A以下かを確認する(S38)。 In the process of S30, if the previous volume is equal to or greater than the start judgment value St_A, or if the current volume is smaller than the start judgment value St_A (S30: No), the processes of S31 to S37 are skipped. After the processes of S30 and S37, it is confirmed whether the previous volume is greater than the end judgment value Ed_A and the current volume is equal to or less than the end judgment value Ed_A (S38).
S38の処理において、前回音量が終了判定値Ed_Aより大きく且つ今回音量が終了判定値Ed_A以下の場合は(S38:Yes)、音声取得時刻が図2で上記した発話が終了した終了時刻EdTのタイミングであるので、終了時刻EdTに音声取得時刻を設定する(S39)。一方で、前回音量が終了判定値Ed_A以下または今回音量が終了判定値Ed_Aより大きい場合は(S38:No)、S39の処理をスキップする。S38,S39の処理の後、音声認識処理を終了する。 In the process of S38, if the previous volume is greater than the end judgment value Ed_A and the current volume is equal to or less than the end judgment value Ed_A (S38: Yes), the voice acquisition time is the timing of the end time EdT when the utterance described above in FIG. 2 ends, so the voice acquisition time is set to the end time EdT (S39). On the other hand, if the previous volume is equal to or less than the end judgment value Ed_A or the current volume is greater than the end judgment value Ed_A (S38: No), the process of S39 is skipped. After the processes of S38 and S39, the voice recognition process ends.
図5(a)に戻る。S6の音声認識処理の後、音声取得時刻にサンプリング周期を加算し、音声取得時刻を音声バッファ11bから音量を取得する次のタイミングに進める(S7)。S7の処理の後、タッチパネル17を介してユーザHから音声処理の終了する指示を取得したかを確認する(S8)。S8の処理において、音声処理の終了の指示を取得しなかった場合は(S8:No)、S5以下の処理を繰り返し、音声処理の終了の指示を取得した場合は(S8:Yes)、音声処理を終了する。 Returning to FIG. 5(a), after the voice recognition process of S6, the sampling period is added to the voice acquisition time, and the voice acquisition time is advanced to the next timing for acquiring the volume from the voice buffer 11b (S7). After the process of S7, it is confirmed whether an instruction to end the voice processing has been acquired from the user H via the touch panel 17 (S8). If an instruction to end the voice processing has not been acquired in the process of S8 (S8: No), the processes from S5 onwards are repeated, and if an instruction to end the voice processing has been acquired (S8: Yes), the voice processing is terminated.
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。 The present invention has been described above based on the embodiments, but the present invention is in no way limited to the above-mentioned embodiments, and it can be easily imagined that various improvements and modifications are possible within the scope of the invention without departing from its spirit.
上記実施形態では、遡及時間Tに、発話間隔ΔTが第1所定時間x1以下の場合は第1遡及時間Tx1を、発話間隔ΔTが第2所定時間x2以上の場合は第2遡及時間Tx2を、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間の場合は発話間隔ΔTをそれぞれ設定したが、これに限られない。発話間隔ΔTによらず、遡及時間Tとして、発話間隔ΔTを設定しても良いし、発話間隔ΔTに所定の係数(例えば0.8)を乗算した時間を設定しても良いし、発話間隔ΔTに所定の時間(例えば0.5秒間)を加算した時間を設定しても良い。また、発話間隔ΔTによらず、遡及時間Tとして、第1遡及時間Tx1又は第2遡及時間Tx2を設定しても良い。 In the above embodiment, the retroactive time T is set to the first retroactive time Tx1 when the speech interval ΔT is equal to or less than the first predetermined time x1, the second retroactive time Tx2 when the speech interval ΔT is equal to or greater than the second predetermined time x2, and the speech interval ΔT when the speech interval ΔT is between the first predetermined time x1 and the second predetermined time x2, but this is not limited to the above. Regardless of the speech interval ΔT, the retroactive time T may be set to the speech interval ΔT, or a time obtained by multiplying the speech interval ΔT by a predetermined coefficient (e.g., 0.8), or a time obtained by adding a predetermined time (e.g., 0.5 seconds) to the speech interval ΔT. Furthermore, regardless of the speech interval ΔT, the retroactive time T may be set to the first retroactive time Tx1 or the second retroactive time Tx2.
上記実施形態では、発話の開始時刻StT及び終了時刻EdTを音声Vの音量で判断したがこれに限られない。例えば、音声Vにおいて、人間の音声による周波数帯域(例えば、100Hz~1000Hz)が観測され始めた時刻を発話の開始時刻StTと判断し、音声Vにおいて該周波数帯域が観測されている状態から、観測されなくなった時刻を終了時刻EdTと判断しても良い。 In the above embodiment, the start time StT and end time EdT of the speech are determined based on the volume of the voice V, but this is not limited to the above. For example, the start time StT of the speech may be determined as the time when a frequency band of human voice (e.g., 100 Hz to 1000 Hz) begins to be observed in the voice V, and the end time EdT may be determined as the time when the frequency band is no longer observed in the voice V.
上記実施形態では、マイク15から入力されたものを音声Vとしたが、これに限られない。例えば、予めフラッシュROM11に記憶された音声データを音声Vとしても良いし、図示しない通信装置を介して他の携帯端末1等から送信された音声データを音声Vとしても良い。
In the above embodiment, the voice V is input from the
上記実施形態では、音声取得時刻を、サンプリング周期を1単位時間とし、音声バッファ11bからサンプリング周期間隔で音量を取得したが、これに限られない。例えば、音声取得時刻の1単位時間を1秒間とし、音声バッファ11bから音量を1秒間隔で取得しても良い。 In the above embodiment, the audio acquisition time is set to one unit time of the sampling period, and the volume is acquired from the audio buffer 11b at sampling period intervals, but this is not limited to this. For example, one unit time of the audio acquisition time may be one second, and the volume may be acquired from the audio buffer 11b at one second intervals.
上記実施形態では、音声認識プログラム11aが組み込まれた携帯端末1を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置(コンピュータ)によって音声認識プログラム11aを実行する構成としても良い。また、音声認識プログラム11aをROMやICチップ等に記憶し、音声認識プログラム11aのみを実行する専用装置に、本発明を適用しても良い。
In the above embodiment, a
1 携帯端末(コンピュータ)
11 フラッシュROM(記憶部)
11b 音声バッファ(音声記憶手段)
11a 音声認識プログラム
V 音声
V1 第1発話
V2 第2発話
S20 音声記憶ステップ
StT 開始時刻
EdT 終了時刻
ΔT 発話間隔
x1 第1所定時間
x2 第2所定時間
T 遡及時間
Tx1 第1遡及時間
Tx2 第2遡及時間
S31 開始時刻取得ステップ、開始時刻取得手段
S39 終了時刻取得ステップ、終了時刻取得手段
S32 間隔取得ステップ、間隔取得手段
S34~S36 遡及時間取得ステップ、遡及時間取得手段
S37 音声認識ステップ、音声認識手段
1. Mobile terminal (computer)
11 Flash ROM (storage unit)
11b Audio buffer (audio storage means)
11a Voice recognition program V Voice V1 First utterance V2 Second utterance S20 Voice storage step StT Start time EdT End time ΔT Speech interval x1 First predetermined time x2 Second predetermined time T Retrospective time Tx1 First retrospective time Tx2 Second retrospective time S31 Start time acquisition step, start time acquisition means S39 End time acquisition step, end time acquisition means S32 Interval acquisition step, interval acquisition means S34 ~S36 Retrospective time acquisition step, retrospective time acquisition means S37 Voice recognition step, voice recognition means
Claims (7)
前記記憶部を音声が記憶される音声記憶手段として機能させ、
入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、
前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、
前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、
その終了時刻取得ステップで取得された第1発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、
その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、
前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識ステップとを備えていることを特徴とする音声認識プログラム。 A speech recognition program for causing a computer having a storage unit to execute a speech recognition process,
The storage unit functions as a voice storage means for storing voice,
a voice storage step of storing the input voice in the voice storage means;
a start time acquisition step of acquiring a start time of an utterance by voice stored in the voice storage means;
an end time acquisition step of acquiring an end time of a voice utterance stored in the voice storage means;
an interval acquiring step of acquiring an utterance interval which is a time difference between an end time of the first utterance acquired in the end time acquiring step and a start time of a second utterance which is acquired in the start time acquiring step and is input after the first utterance;
a retroactive time acquisition step of acquiring a retroactive time that is a time going back from the start time of the second utterance acquired in the start time acquisition step, based on the utterance interval acquired in the interval acquisition step;
a voice recognition step of starting voice recognition of the second utterance from a time going back from the start time of the second utterance acquired in the start time acquisition step by the retroactive time acquired in the retroactive time acquisition step, for the voice stored in the voice storage means.
その音声入力手段で入力された音声を記憶する音声記憶手段と、
その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、
前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、
その終了時刻取得手段で取得された第1発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、
その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、
前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第2発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識手段と、を備えていることを特徴とする音声認識装置。 A voice input means for inputting voice;
a voice storage means for storing the voice inputted by the voice input means;
a start time acquisition means for acquiring a start time of an utterance by the voice stored in the voice storage means;
an end time acquisition means for acquiring an end time of an utterance by voice stored in the voice storage means;
an interval acquiring means for acquiring an utterance interval, which is a time difference between an end time of a first utterance acquired by the end time acquiring means and a start time of a second utterance acquired by the start time acquiring means and input after the first utterance;
a retroactive time acquisition means for acquiring a retroactive time that is a time going back from the start time of the second utterance acquired by the start time acquisition means, based on the utterance interval acquired by the interval acquisition means;
a voice recognition means for starting voice recognition of the second utterance from a time going back from the start time of the second utterance acquired by the start time acquisition means by the retroactive time acquired by the retroactive time acquisition means, in the voice stored in the voice storage means.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013495 | 2021-01-29 | ||
JP2021013495 | 2021-01-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022117375A JP2022117375A (en) | 2022-08-10 |
JP7542826B2 true JP7542826B2 (en) | 2024-09-02 |
Family
ID=82750009
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021060936A Active JP7542826B2 (en) | 2021-01-29 | 2021-03-31 | Voice recognition program and voice recognition device |
JP2021060919A Active JP7552481B2 (en) | 2021-01-29 | 2021-03-31 | Voice recognition program and voice recognition device |
JP2021060947A Pending JP2022117376A (en) | 2021-01-29 | 2021-03-31 | Voice recognition program and voice recognition apparatus |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021060919A Active JP7552481B2 (en) | 2021-01-29 | 2021-03-31 | Voice recognition program and voice recognition device |
JP2021060947A Pending JP2022117376A (en) | 2021-01-29 | 2021-03-31 | Voice recognition program and voice recognition apparatus |
Country Status (1)
Country | Link |
---|---|
JP (3) | JP7542826B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090483A (en) | 2009-10-22 | 2011-05-06 | Fujitsu Ltd | Information processing apparatus and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4521673B2 (en) | 2003-06-19 | 2010-08-11 | 株式会社国際電気通信基礎技術研究所 | Utterance section detection device, computer program, and computer |
JP6276132B2 (en) | 2014-07-30 | 2018-02-07 | 株式会社東芝 | Utterance section detection device, speech processing system, utterance section detection method, and program |
-
2021
- 2021-03-31 JP JP2021060936A patent/JP7542826B2/en active Active
- 2021-03-31 JP JP2021060919A patent/JP7552481B2/en active Active
- 2021-03-31 JP JP2021060947A patent/JP2022117376A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090483A (en) | 2009-10-22 | 2011-05-06 | Fujitsu Ltd | Information processing apparatus and program |
Also Published As
Publication number | Publication date |
---|---|
JP2022117374A (en) | 2022-08-10 |
JP2022117375A (en) | 2022-08-10 |
JP2022117376A (en) | 2022-08-10 |
JP7552481B2 (en) | 2024-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4680429B2 (en) | High speed reading control method in text-to-speech converter | |
US8315873B2 (en) | Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same | |
JP5753869B2 (en) | Speech recognition terminal and speech recognition method using computer terminal | |
KR100742888B1 (en) | Speech recognition method | |
WO2010084881A1 (en) | Voice conversation device, conversation control method, and conversation control program | |
JP6495015B2 (en) | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device | |
JPWO2007111162A1 (en) | Text display device, text display method and program | |
JP7542826B2 (en) | Voice recognition program and voice recognition device | |
JPH10254475A (en) | Speech recognition method | |
JP5375423B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
KR100567828B1 (en) | Apparatus And Method for Enhanced Voice Recognition | |
JP4798039B2 (en) | Spoken dialogue apparatus and method | |
JP2009104047A (en) | Information processing method and information processing apparatus | |
JP5074759B2 (en) | Dialog control apparatus, dialog control method, and dialog control program | |
JP3578587B2 (en) | Voice recognition device and voice recognition method | |
KR20120111510A (en) | A system of robot controlling of using voice recognition | |
JP2002073061A (en) | Voice recognition device and its method | |
JPH0950288A (en) | Device and method for recognizing voice | |
JPH08263092A (en) | Response voice generating method and voice interactive system | |
JP2002287785A (en) | Voice segmentation system and method for the same as well as control program for the same | |
JP2006172110A (en) | Response data output device, and response data outputting method and program | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP3360978B2 (en) | Voice recognition device | |
KR102632806B1 (en) | Speech recoginition method and apparatus for early confirmation of speech-to-text results | |
EP1426924A1 (en) | Speaker recognition for rejecting background speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7542826 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |