JP2011170103A - Advertisement display system, advertisement display method, and advertisement display program - Google Patents
Advertisement display system, advertisement display method, and advertisement display program Download PDFInfo
- Publication number
- JP2011170103A JP2011170103A JP2010033813A JP2010033813A JP2011170103A JP 2011170103 A JP2011170103 A JP 2011170103A JP 2010033813 A JP2010033813 A JP 2010033813A JP 2010033813 A JP2010033813 A JP 2010033813A JP 2011170103 A JP2011170103 A JP 2011170103A
- Authority
- JP
- Japan
- Prior art keywords
- word
- advertisement
- score
- advertising
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 5
- 239000000470 constituent Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、広告表示システム、広告表示方法、および広告表示プログラムに関する。 The present invention relates to an advertisement display system, an advertisement display method, and an advertisement display program.
特許文献1(特開平11−133994号公報)には、入力音声に対して得られる複数の認識結果候補の中から最適なものを選択し入力音声に対する認識結果とする音声入力装置であって、認識結果候補となり得る複数の単語の適応スコアが格納される適応スコア記憶部と、入力音声に対して得られる複数の認識結果候補の中から認識結果を選択する際、適応スコア記憶部に格納されている各認識結果候補の適応スコアも考慮して認識結果を選択する手段と、該手段によって選択された認識結果をユーザの指示に従って修正すると共に、修正後の認識結果が手段に於いて選択されやすくなるように適応スコア記憶部の内容を更新するユーザ修正部とを備えた音声入力装置が記載されている。 Patent Document 1 (Japanese Patent Application Laid-Open No. 11-133994) discloses a voice input device that selects an optimum one from a plurality of recognition result candidates obtained for an input voice and obtains a recognition result for the input voice. An adaptive score storage unit that stores adaptive scores of a plurality of words that can be recognition result candidates, and a selection result that is stored in the adaptive score storage unit when a recognition result is selected from a plurality of recognition result candidates obtained for input speech. Means for selecting the recognition result in consideration of the adaptive score of each recognition result candidate, and correcting the recognition result selected by the means according to the user's instruction, and the corrected recognition result is selected by the means A voice input device is described that includes a user correction unit that updates the contents of the adaptive score storage unit so as to facilitate.
特許文献2(特開2008−170820号公報)には、単語とコンテンツを関連付けて記憶する手段と、会話音声の中から単語を抽出する単語抽出手段と、前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システムが記載されている。これにより、表示すべき広告等を話者の感情に基づいて選択できるとされている。 Patent Document 2 (Japanese Patent Application Laid-Open No. 2008-170820) discloses a means for storing a word and content in association with each other, a word extracting means for extracting a word from conversation speech, and a word extracted by the word extracting means. A content providing system including a content reading unit that reads the content stored in association with the content transmission unit that transmits the read content to a content reproduction unit is described. Thereby, it is supposed that the advertisement etc. which should be displayed can be selected based on a speaker's emotion.
しかし、従来の広告の表示方法では、たとえば特許文献2に記載された技術のように、単語に関連付けられたコンテンツが、音声認識結果とは別にユーザに提示される。そのため、ユーザにとっては、自分がコンテンツを表示させようとしたのではないのにコンテンツが表示されることになり、たとえばコンテンツが広告の場合、ユーザにとっては、明らかにそれが広告であるとわかるようになっており、不自然さを与えていた。 However, in the conventional advertisement display method, the content associated with the word is presented to the user separately from the speech recognition result, as in the technique described in Patent Document 2, for example. Therefore, for the user, the content is displayed even though the user did not try to display the content. For example, when the content is an advertisement, the user clearly understands that the content is an advertisement. It has become unnatural.
本発明の目的は、上述した課題であるユーザに広告を提示する際に不自然になってしまうという問題を解決する広告表示システム、広告表示方法、および広告表示プログラムを提供することにある。 An object of the present invention is to provide an advertisement display system, an advertisement display method, and an advertisement display program that solve the above-described problem of unnaturalness when an advertisement is presented to a user.
本発明によれば、
音響モデルおよび言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアを算出して、総スコアが高い単語を音声認識結果として選出する音声認識手段と、
音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶手段を含み、前記広告単語と前記音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を前記音声データの音声認識結果として表示出力する出力調整手段と、
を含み、
前記広告単語の広告料金のランクが高いほど前記類似許容範囲が広くなるように設定されている広告表示システムが提供される。
According to the present invention,
Based on the acoustic model and the language model, the acoustic score of the words that are candidates for the speech recognition result for the input speech data, the language score, and the total score based on the acoustic score and the language score are calculated, and the total score is high. Speech recognition means for selecting words as speech recognition results;
Including an advertising word storage means for storing an advertising word for which an advertising fee is paid as a consideration for facilitating selection as a speech recognition result, and the similarity between the advertising word and the voice data is within a predetermined similarity allowable range Adjusting so that the advertisement word is selected as the voice recognition result of the voice data, and output adjusting means for displaying and outputting the adjusted result as the voice recognition result of the voice data;
Including
There is provided an advertisement display system that is set such that the similarity allowable range becomes wider as the rank of the advertisement fee of the advertisement word is higher.
本発明によれば、
音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶手段を含むコンピュータシステムを用いた広告表示方法であって、
音響モデルおよび言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアとを算出して、総スコアが高い単語を音声認識結果として選出する音声認識ステップと、
前記広告単語と前記音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を前記音声データの音声認識結果として表示出力する出力調整ステップと、
を含み、
前記広告単語の広告料金のランクが高いほど前記類似許容範囲が広くなるように設定されている広告表示方法が提供される。
According to the present invention,
An advertisement display method using a computer system including an advertisement word storage means for storing an advertisement word for which an advertisement fee is paid as a price for facilitating selection as a speech recognition result,
Based on the acoustic model and the language model, an acoustic score, a language score, and a total score based on the acoustic score and the language score are calculated for a word that is a speech recognition result candidate for the input speech data. A speech recognition step for selecting high words as speech recognition results;
When the similarity between the advertisement word and the voice data is within a predetermined similarity tolerance range, the advertisement word is adjusted to be selected as a voice recognition result of the voice data, and the adjusted result is the voice data. Output adjustment step to display and output as a voice recognition result of
Including
There is provided an advertisement display method that is set such that the similarity allowable range becomes wider as the advertisement charge rank of the advertisement word is higher.
本発明によれば、
コンピュータを、
音響モデルおよび言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアとを算出して、総スコアが高い単語を音声認識結果として選出する音声認識手段、
音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶手段を含み、前記広告単語と前記音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を前記音声データの音声認識結果として表示出力する出力調整手段、
として機能させるプログラムであって、
前記広告単語の広告料金のランクが高いほど前記類似許容範囲が広くなるように設定されている広告表示プログラムが提供される。
According to the present invention,
Computer
Based on the acoustic model and the language model, an acoustic score, a language score, and a total score based on the acoustic score and the language score are calculated for a word that is a speech recognition result candidate for the input speech data. Speech recognition means for selecting high words as speech recognition results,
Including an advertising word storage means for storing an advertising word for which an advertising fee is paid as a consideration for facilitating selection as a speech recognition result, and the similarity between the advertising word and the voice data is within a predetermined similarity allowable range Adjusting the output so that the advertisement word is selected as the voice recognition result of the voice data, and displaying and outputting the adjusted result as the voice recognition result of the voice data;
A program that functions as
There is provided an advertisement display program which is set such that the similarity allowable range becomes wider as the rank of the advertisement fee of the advertisement word is higher.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
本発明によれば、音声認識処理を利用するユーザに、自然なかたちで広告単語を提示して広告効果を高めることができる。 ADVANTAGE OF THE INVENTION According to this invention, an advertising word can be shown to a user using a speech recognition process naturally, and an advertising effect can be heightened.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様の構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same constituent elements are denoted by the same reference numerals, and the description thereof is omitted as appropriate.
以下の実施の形態において、広告表示システムは、
音響モデルおよび言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアを算出して、総スコアが高い単語を音声認識結果として選出する音声認識手段と、
音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶手段を含み、広告単語と音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を音声データの音声認識結果として表示出力する出力調整手段と、
を含み、
広告単語の広告料金のランクが高いほど類似許容範囲が広くなるように設定されている。
In the following embodiment, the advertisement display system includes:
Based on the acoustic model and the language model, the acoustic score of the words that are candidates for the speech recognition result for the input speech data, the language score, and the total score based on the acoustic score and the language score are calculated, and the total score is high. Speech recognition means for selecting words as speech recognition results;
Including an advertising word storage means for storing an advertising word for which an advertising fee is paid as a consideration for facilitating selection as a speech recognition result, and the similarity between the advertising word and voice data is within a predetermined similarity allowable range, Adjusting so that the advertisement word is selected as the voice recognition result of the voice data, and output adjusting means for displaying and outputting the adjusted result as the voice recognition result of the voice data;
Including
The similarity allowable range is set to be wider as the rank of the advertisement fee of the advertisement word is higher.
以下の実施の形態において、広告表示システムは、広告単語と入力された音声データとの音がある程度類似する場合に、広告単語の本来の音声認識処理の総スコアが他の単語の総スコアよりも低い場合でも、音声認識結果として当該広告単語が表示出力されるように構成されている。ここで、広告単語と入力された音声データとの音がどの程度類似する場合に上記のような処理をするかは、類似許容範囲を設定することにより規定することができる。広告単語と入力された音声データとの音の類似の度合は、音声認識処理の結果の総スコアまたは音響スコアに基づき判断することができる。 In the following embodiment, the advertisement display system is configured such that when the sound of the advertisement word and the input voice data is somewhat similar, the total score of the original speech recognition processing of the advertisement word is higher than the total score of other words. Even if it is low, the advertisement word is displayed and output as a voice recognition result. Here, to what extent the sound of the advertising word and the input voice data is similar can be defined by setting a similar allowable range. The degree of sound similarity between the advertisement word and the input voice data can be determined based on the total score or acoustic score of the result of the voice recognition process.
(第1の実施の形態)
図1は、本実施の形態における広告表示システムの構成の一例を示すブロック図である。
広告表示システム100は、音声認識部102(音声認識手段)と、出力調整部104(出力調整手段)と、音響モデル記憶部110と、言語モデル記憶部112とを含む。
(First embodiment)
FIG. 1 is a block diagram illustrating an example of a configuration of an advertisement display system in the present embodiment.
The
音響モデル記憶部110は、音響モデルを記憶する。言語モデル記憶部112は、言語モデルを記憶する。これらの音響モデルおよび言語モデルは、一般的に用いられているものとすることができる。
The acoustic model storage unit 110 stores an acoustic model. The language
音声認識部102は、音響モデル記憶部110に記憶された音響モデルおよび言語モデル記憶部112に記憶された言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアを算出する。音声認識部102は、総スコアが高い単語を入力された音声データの音声認識結果として選出する。本実施の形態において、音声認識部102は、総スコアが高い単語を、総スコアが高い順に総スコアに対応付けて複数選出することができる。
The
出力調整部104は、広告単語と入力させた音声データとの類似度が所定の類似許容範囲内の場合に、広告単語が当該音声データの音声認識結果として選出されるように調整する。出力調整部104は、調整した結果を当該音声データの音声認識結果として表示出力する。ここで、出力表示とは、後述するように、ネットワークを介して接続された他の端末のディスプレイ等に表示される形態で出力することである。
The
以下に具体例を示す。本実施の形態において、出力調整部104は、スコア調整部106(スコア調整手段)と、表示出力部108(表示出力手段)と、広告単語記憶部120(広告単語記憶手段)とを含む。
Specific examples are shown below. In the present embodiment, the
広告単語記憶部120は、音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する。本実施の形態において、広告単語記憶部120は、類似許容範囲を規定するパラメータとして、広告単語の広告料金のランクが高いほど高い値となるスコアの補正値を、広告単語に対応付けて記憶する。これにより、広告単語の広告料金のランクが高いほど類似許容範囲が広くなるように設定されることになる。
The advertising
スコア調整部106は、広告単語については、音声認識部102が算出した総スコアに広告単語記憶部120に記憶されたスコアの補正値を付加する調整を行う。
For the advertising word, the
図2は、広告単語記憶部120の構成の一例を示す図である。
広告単語記憶部120は、広告単語欄と、広告料金欄と、スコアの補正値欄とを含む。広告単語欄には、たとえば「NEC」や「パペロ」等、広告主が広告したい広告単語が記憶される。
FIG. 2 is a diagram illustrating an example of the configuration of the advertising
The advertising
広告料金欄には、たとえば「20円/出力」、「10円/出力」等、各広告単語の広告料金を示す情報が記憶される。「20円/出力」とは、通常の音声認識処理の結果としては本来この広告単語が表示出力されないが、本実施の形態における広告表示システム100の調整処理により、この広告単語が表示出力されることになった場合に、1出力あたり20円の広告料金が課せられることを示す。
In the advertisement fee column, information indicating the advertisement fee of each advertisement word such as “20 yen / output”, “10 yen / output”, etc. is stored. “20 yen / output” means that the advertisement word is not originally displayed and output as a result of the normal speech recognition process, but the advertisement word is displayed and output by the adjustment process of the
スコアの補正値欄には、たとえば「20」や「10」等のスコアの補正値が記憶される。本実施の形態において、スコアの補正値は類似許容範囲を規定するパラメータとして設定される。ここで、スコアの補正値は総スコアに対する補正値とすることができる。 In the score correction value column, for example, score correction values such as “20” and “10” are stored. In the present embodiment, the score correction value is set as a parameter that defines the similar allowable range. Here, the correction value of the score can be a correction value for the total score.
以下、スコアの補正値の設定方法について説明する。スコアの補正値は、たとえば、入力された音声データに対して総スコアが最も高い最上位単語の総スコアと当該音声データに対する広告単語の総スコアとの差がどの程度の範囲内であれば人が類似と感じるかを考慮して上限値を決定することができる。スコアの補正値が大きすぎると、音声認識部102に入力された音声データと広告単語とが音として全く異なるものであっても、その音声データの音声認識結果として広告単語が選出されることになってしまう。しかし、入力された音声データと音声が全く異なる広告単語が音声認識結果として表示出力されると、ユーザにとって不自然になってしまう。そのため、本実施の形態においては、上記のようにスコアの補正値の上限値を決定し、スコアの補正値が、上限値以下となるように制御する。
Hereinafter, a method for setting a score correction value will be described. The correction value of the score is, for example, human if the difference between the total score of the highest word having the highest total score for the input voice data and the total score of the advertising word for the voice data is within the range. The upper limit value can be determined in consideration of whether they feel similar to each other. If the correction value of the score is too large, the advertisement word is selected as the voice recognition result of the voice data even if the voice data input to the
また、本実施の形態において、スコアの補正値は、広告単語の広告料金のランクが高いほど高い値となるように設定することができる。たとえば、広告料金の単価が「20円/出力」である広告単語「NEC」は、広告料金の単価が「10円/出力」である広告単語「パペロ」よりも広告料金のランクが高い。そのため、広告単語記憶部120において、広告単語「NEC」のスコア補正値が、広告単語「パペロ」のスコアの補正値「10」よりも高い「20」となるように設定する。なお、ここでは、広告料金の各単価に応じてスコアの補正値が設定されているが、たとえば広告料金の単価に応じてランク分けして、各ランクに応じてスコアの補正値を設定することもできる。たとえば、広告料金の単価が「6円/出力」以上「10円/出力」以下は「C(低ランク)」、広告料金の単価が「11円/出力」以上「15円/出力」以下は「B(中ランク)」、広告料金の単価が「16円/出力」以上「20円/出力」以下は「A(高ランク)」のようにして、各ランク毎にスコアの補正値を設定することもできる。
Further, in the present embodiment, the score correction value can be set to be higher as the rank of the advertisement fee of the advertisement word is higher. For example, the advertising word “NEC” whose unit price of the advertising fee is “20 yen / output” has a higher advertising fee rank than the advertising word “Papello” whose unit price of the advertising fee is “10 yen / output”. Therefore, in the advertising
本実施の形態において、スコアの補正値の上限以下の範囲で、広告単語の広告料金のランクに応じて各ランクのスコアの補正値を設定することができる。たとえば、入力された音声データに対して総スコアが最も高い最上位単語の総スコアと当該音声データに対する広告単語の総スコアとの差が30以内であれば、これらの単語が類似であると判断できるような場合は、スコアの補正値の上限を30として、広告単語の広告料金のランクが高い順に、スコアの補正値として、30、25、20・・等を設定することができる。 In the present embodiment, the correction value of the score of each rank can be set in accordance with the rank of the advertisement fee of the advertisement word within the range not exceeding the upper limit of the correction value of the score. For example, if the difference between the total score of the highest word having the highest total score for the input voice data and the total score of the advertising word for the voice data is within 30, it is determined that these words are similar. In such a case, the upper limit of the score correction value can be set to 30, and the score correction value can be set to 30, 25, 20,.
なお、本実施の形態において、広告単語記憶部120に広告料金欄が設けられた例を示しているが、広告単語記憶部120は、広告料金欄は含まない構成とすることもできる。
In the present embodiment, an example is shown in which an advertising fee column is provided in the advertising
図1に戻り、表示出力部108は、スコア調整部106が調整したスコアに基づき、総スコアが高い単語を入力された音声データの音声認識結果として表示出力する。本実施の形態において、表示出力部108は、総スコアが最も高い単語を一つのみ表示出力することができる。
Returning to FIG. 1, the
図14は、本実施の形態における広告表示システム100を含むネットワーク構造を示すブロック図である。
このネットワーク構造は、広告表示システム100と、広告表示システム100にインターネット等のネットワーク150を介して接続されたユーザ端末装置200とを含む。ユーザ端末装置200は、ユーザのPC等とすることができる。ユーザ端末装置200は、たとえばパーソナルコンピュータ等により構成することができる。ユーザ端末装置200には、たとえばマイク等の音声入力手段、およびディスプレイ等の表示手段が設けられた構成とすることができる。ユーザ端末200の音声入力手段を介して音声データが入力されると、当該音声データは、ネットワーク150を介して広告表示システム100の音声認識部102(図1参照)に入力される。広告表示システム100の表示出力部108が音声認識結果を出力すると、当該認識結果は、ネットワーク150を介してユーザ端末装置200に入力され、ユーザ端末装置200の表示手段に表示出力される。なお、ユーザ端末200のユーザの音声データは、ユーザ端末200との対応が取れていれば、たとえば電話回線等、ネットワーク150以外のネットワークを介して広告表示システム100の音声認識部102に入力される構成とすることもできる。
FIG. 14 is a block diagram showing a network structure including the
This network structure includes an
次に、本実施の形態において、広告表示システム100に音声データが入力されてから、音声認識結果が表示出力されるまでの手順を説明する。図3は、本実施の形態における広告表示システム100の処理手順を示すフローチャートである。
Next, in this embodiment, a procedure from when voice data is input to the
音声データが入力されると(ステップS100)、音声認識部102は音声認識処理を行う(ステップS102)。この処理は、通常の音声認識処理とすることができる。具体的には、音声認識部102は、音声認識結果の候補となる単語の各スコアを算出する。
When voice data is input (step S100), the
つづいて、出力調整部104のスコア調整部106は、音声認識部102による音声認識結果に対して、広告単語については、広告単語記憶部120に記憶されたスコアの補正値を用いてスコアの調整を行う(ステップS104)。表示出力部108は、スコア調整部106によるスコアの調整が行われた後のスコアに基づき、スコアが高い単語を音声認識結果として出力する(ステップS106)。
Subsequently, the
本実施の形態における出力調整部104の処理手順を図4および図5を参照して説明する。ここで、表示出力部108は、音声認識結果として、総スコアが最も高い単語一つのみを表示出力するものとする。
The processing procedure of the
図4(a)に示すように、たとえば入力された音声が「えんにちにいきました」だとする。この中で「えんにち」に対応する単語の音声認識結果として、「縁日」、・・・、「NEC」・・・等が候補の単語として挙げられるとする(図4(b))。また、音声認識部102による通常の音声認識処理の結果の総スコアが「縁日」=「30」、「NEC」=「16」だとする。図4(b)では、総スコアの大きい順に候補が表示されている。この場合、通常の音声認識処理においては、音声認識処理の結果、総スコアが最も高い「縁日」が音声認識結果として表示出力される。
As shown in FIG. 4A, for example, it is assumed that the input voice is “I went to life”. Among these, as a speech recognition result of a word corresponding to “enichi”, “enjoyment day”,..., “NEC”... Are assumed as candidate words (FIG. 4B). Further, it is assumed that the total score of the result of the normal speech recognition processing by the
本実施の形態において、音声認識部102の音声認識処理の結果がそのまま出力されるのではなく、広告単語について、スコア調整部106がスコアの調整を行った後に、結果が出力される。スコア調整部106は、広告単語記憶部120を参照して、広告単語について、音声認識部102による音声認識処理の結果の総スコアにスコアの補正値を付加する。図2に示したように、「NEC」は広告単語記憶部120に広告単語として記憶されており、スコアの補正値が「20」となっている。そこで、図4(b)に示された「NEC」の総スコア「16」にスコアの補正値「20」を付加すると、調整後の「NEC」の総スコアは「36」となる。この結果、「NEC」の総スコアが「縁日」の総スコア「30」よりも大きくなり、最も大きくなる(図4(c))。
In the present embodiment, the result of the speech recognition process of the
そのため、表示出力部108は、入力された音声データ「えんにち」の音声認識結果として、調整処理後の総スコアに基づき、総スコアが最も高い「NEC」を選択し、音声認識結果として「NECに行きました」等を表示出力する(図4(d))。
Therefore, the
一方、図5(a)に示すように、たとえば入力された音声が「えいがにいきました」だとする。この中で「えいが」に対応する単語の音声認識結果として、「映画」、・・・、「NEC」・・・等が候補の単語として挙げられるとする(図5(b))。また、音声認識部102による通常の音声認識処理の結果の総スコアが「映画」=「30」、「NEC」=「8」だとする。図5(b)でも、総スコアの大きい順に候補が表示されている。
On the other hand, as shown in FIG. 5 (a), for example, it is assumed that the input voice is “I went to Eigai”. Among these, as a speech recognition result of a word corresponding to “Eiga”, “movie”,..., “NEC”..., Etc. are cited as candidate words (FIG. 5B). Further, it is assumed that the total score of the result of the normal voice recognition processing by the
図4を参照して説明したのと同様に、スコア調整部106は、広告単語記憶部120を参照して、広告単語について、音声認識部102による音声認識処理の結果の総スコアにスコアの補正値を付加する。この場合、図5(b)に示された「NEC」の総スコア「8」にスコアの補正値「20」を付加すると、調整後の「NEC」のスコアは、「28」となる。本例では、「NEC」のスコアを調整した後も、「映画」のスコア「30」の方が大きい(図5(c))。そのため、本例では、スコア調整部106は、入力された音声データ「えいが」の音声認識結果として、調整処理後のスコアに基づき、スコアが最も高い「映画」を選択し、音声認識結果として、「映画に行きました」等を出力する(図5(d))。
As described with reference to FIG. 4, the
本実施の形態において、広告表示システム100は、広告単語と入力された音声データとの音が類似する場合に、広告単語が当該音声データの音声認識結果として選出されるように調整する。そのため、音自体の類似度を示す音響スコアを調整するよりも、言語スコアを調整することにより、入力された音声データと音が類似する場合に、広告単語が表示出力されやすくなるようにすることができる。
In the present embodiment, the
以下、他の例として、スコアの補正値が言語スコアに対するものである場合を説明する。音響モデル記憶部120のスコアの補正値欄には、言語スコアに対する補正値が記憶される。この場合、スコア調整部106は、広告単語については、音声認識部102が算出した言語スコアに広告単語記憶部120に記憶されたスコアの補正値を付加する調整を行う。音声認識部102は、スコア調整部106が広告単語の言語スコアに補正値を付加した場合、補正値が付加された言語スコアと音響スコアに基づき総スコアを算出することができる。
Hereinafter, as another example, a case where the score correction value is for the language score will be described. In the score correction value column of the acoustic
この場合、言語スコアの補正値は、たとえば、入力された音声データに対して総スコアが最も高い最上位単語の総スコアと当該音声データに対する広告単語の総スコアとの差がどの程度の範囲内であれば人が類似と感じるかを考慮して総スコアの補正値の上限値を決定し、当該上限値に対応する言語スコアの補正値の上限値を算出することにより決定することができる。 In this case, the correction value of the language score is, for example, within the range of the difference between the total score of the highest word having the highest total score with respect to the input voice data and the total score of the advertising word with respect to the voice data Then, the upper limit value of the correction value of the total score is determined in consideration of whether the person feels similar, and the upper limit value of the correction value of the language score corresponding to the upper limit value can be determined.
以上のように、本実施の形態における広告表示システム100によれば、広告単語の本来の総スコアが他の単語の総スコアよりも低い場合でも、当該広告単語と音声データとの類似度が所定の類似許容範囲内であれば、音声データの音声認識結果として広告単語が表示出力されるようになっている。本実施の形態において、類似許容範囲を規定するパラメータとしてスコアの補正値が設定される。また、スコアの補正値は、入力された音声データに対して総スコアが最も高い最上位単語の総スコアと当該音声データに対する広告単語の総スコアとの差がどの程度の範囲内であれば類似と判断できるかを考慮して上限値が決定される。そのため、広告単語が、入力された音声データに類似する場合に限って、広告単語が表示出力されるようになっているので、ユーザに自然なかたちで広告単語を提示して広告効果を高めることができる。
As described above, according to the
たとえば、図4および図5を参照して説明した例においては、入力された音声データが「えんにち」であれば、広告単語「NEC」が当該音声データに類似するとして、音声認識結果として表示出力されるが、入力された音声データが「えいが」の場合、広告単語「NEC」は音声認識結果として表示出力されない。「えんにち」と「NEC」とは音声が類似しているので、ユーザは誤認識結果として「NEC」が表示されたと感じ、「NEC」が広告単語であるとは気がつかない可能性がある。これにより、「NEC」という単語を自然なかたちでユーザの目にとまらせることができ、この単語をユーザに印象付けることができる。 For example, in the example described with reference to FIG. 4 and FIG. 5, if the input voice data is “Eniichi”, the advertisement word “NEC” is displayed as a voice recognition result, assuming that it is similar to the voice data. However, when the input voice data is “Eiga”, the advertising word “NEC” is not displayed and output as a voice recognition result. Since “enichi” and “NEC” have similar sounds, the user may feel that “NEC” is displayed as a misrecognition result and may not notice that “NEC” is an advertising word. As a result, the word “NEC” can be caught naturally by the user, and the word can be impressed by the user.
なお、図2では、広告単語記憶部120にスコアの補正値が記憶されている例を示したが、初期設定では、広告単語記憶部120には、広告単語に対応付けて、広告単語の広告料金を示す情報のみが記憶された構成とすることもできる。
FIG. 2 shows an example in which the correction value of the score is stored in the advertising
この構成を図6(a)に示す。この場合、出力調整部104は、広告単語記憶部120に記憶された広告単語の広告料金を示す情報に基づき、広告単語の広告料金のランクが高いほど高い値となるようにスコアの補正値を設定する補正値設定手段を有する構成とすることができる。本実施の形態において、スコア調整部106が、補正値設定手段の機能も有するようにすることができる。スコア調整部106は、スコアの補正値の上限値の入力を受け付けることができ、上限値以下の範囲で、広告単語の広告料金のランクに応じて、スコアの補正値を設定することができる。
This configuration is shown in FIG. In this case, the
図6(b)に示したように、スコア調整部106は、設定したスコアの補正値を広告単語記憶部120の各広告単語に対応付けて記憶することができる。また、他の例において、スコア調整部106は、広告単語記憶部120とは別の記憶部にスコアの補正値を各広告単語に対応付けて記憶することもできる。
As shown in FIG. 6B, the
この後の処理は、図1から図5を参照して説明した広告表示システム100と同様とすることができる。このような構成としても、図1から図5を参照して説明した広告表示システム100と同様の効果が得られる。
The subsequent processing can be the same as that of the
(第2の実施の形態)
図7は、本実施の形態における広告表示システムの構成の一例を示すブロック図である。
本実施の形態において、出力調整部104が、図1に示したスコア調整部106にかえて、類似判断部130を含む点で第1の実施の形態と異なる。また、本実施の形態において、広告単語記憶部120が、類似許容範囲を規定するパラメータとして記憶する内容も第1の実施の形態と異なる。
(Second Embodiment)
FIG. 7 is a block diagram showing an example of the configuration of the advertisement display system in the present embodiment.
This embodiment is different from the first embodiment in that the
本実施の形態において、広告表示システム100は、広告単語と入力された音声データとの音が類似する場合に、実際の音声データの音声認識処理の結果に変えて広告単語を結果として表示出力するようにする。そのため、広告単語と入力された音声データとが類似するか否かは、言語スコアではなく、音響スコアまたは総スコアに基づき判断することができる。
In the present embodiment, the
一例として、広告単語記憶部120は、類似許容範囲を規定するパラメータとして、広告単語の広告料金のランクが高いほど高い値となるスコアの許容範囲を、広告単語に対応付けて記憶する。類似判断部130は、音声データに対し、音声認識部102が算出した音響スコアまたは総スコアが最も高い最上位単語の当該音響スコアまたは当該総スコアと、広告単語の音響スコアまたは総スコアとのスコアの差がスコアの許容範囲内か否かを判断し、許容範囲内の場合に広告単語と音声データとの類似度が類似許容範囲内であると判断する。表示出力部108は、類似判断部130が広告単語と音声データとの類似度が類似許容範囲内であると判断した場合に、当該広告単語を音声データの音声認識結果として表示出力する。つまり、スコアの許容範囲が広い方が、広告単語が入力された音声データに類似すると判断される可能性が高くなり、広告単語が表示出力されやすくなる。
As an example, the advertising
図8は、本実施の形態における広告単語記憶部120の構成の一例を示す図である。
広告単語記憶部120は、広告単語欄と、広告料金欄と、スコアの許容範囲欄とを含む。広告単語欄および広告料金欄は、図2に示した構成と同様とすることができる。スコアの許容範囲欄には、たとえば「20」や「10」等のスコアの許容範囲が記憶される。スコアの許容範囲は、類似判断部130の処理に応じて、総スコアに対する許容範囲または音響スコアに対する許容範囲のいずれかとすることができる。
FIG. 8 is a diagram showing an example of the configuration of the advertising
The advertising
たとえば、第1の実施の形態において図4を参照して説明したように、入力された音声が「えんにちにいきました」だとする。また、「えんにち」に対応する単語の音声認識結果として、「縁日」、・・・、「NEC」・・・等が候補の単語として挙げられるとする(図4(b))。また、音声認識部102による通常の音声認識処理の結果の総スコアが「縁日」=「30」、「NEC」=「16」だとする。ここで、総スコアが最も高い「縁日」の総スコア「30」と広告単語である「NEC」の総スコア「16」との差は「14」で、図8に示した広告単語「NEC」のスコアの許容範囲「20」以内である。そのため、類似判断部130は、広告単語「NEC」と音声データとの類似度が類似許容範囲内であると判断し、表示出力部108は、音声認識結果として「NECに行きました」等を出力する。
For example, as described with reference to FIG. 4 in the first embodiment, it is assumed that the input voice is “I went to life”. In addition, as a speech recognition result of a word corresponding to “enichi”, it is assumed that “female day”,..., “NEC”... Are candidate words (FIG. 4B). Further, it is assumed that the total score of the result of the normal speech recognition processing by the
他の例として、広告単語記憶部120は、類似許容範囲を規定するパラメータとして、広告単語の広告料金のランクが高いほど高い値となる順位の許容範囲を、広告単語に対応付けて記憶する。類似判断部130は、音声データに対し、音声認識部102が算出した音響スコアまたは総スコアが高い順に音声認識結果の候補として並べたときに、広告単語の順位が許容範囲内か否かを判断し、許容範囲内の場合に広告単語と音声データとの類似度が類似許容範囲内であると判断する。表示出力部108は、類似判断部130が広告単語と音声データとの類似度が類似許容範囲内であると判断した場合に、当該広告単語を音声データの音声認識結果として表示出力する。つまり、順位の許容範囲が広い方が、広告単語が入力された音声データに類似すると判断される可能性が高くなり、広告単語が表示出力されやすくなる。
As another example, the advertising
図9は、本実施の形態における広告単語記憶部120の構成の一例を示す図である。
広告単語記憶部120は、広告単語欄と、広告料金欄と、順位の許容範囲欄とを含む。広告単語欄および広告料金欄は、図2に示した構成と同様とすることができる。順位の許容範囲欄には、たとえば「6」や「3」等の順位の許容範囲が記憶される。順位の許容範囲は、類似判断部130の処理に応じて、総スコアに基づく順位の許容範囲または音響スコアに基づく順位の許容範囲のいずれかとすることができる。
FIG. 9 is a diagram showing an example of the configuration of the advertising
The advertising
ここでも、たとえば、入力された音声が「えんにちにいきました」だとする。また、「えんにち」に対応する単語の音声認識結果として、「縁日」、・・・、「NEC」・・・等が候補の単語として挙げられるとする。ここで、総スコアが高い順に音声認識結果の候補として並べたときに、「縁日」が1位で「NEC」が3位だとする。この場合、図9に示した広告単語「NEC」の順位の許容範囲「6」以内となる。そのため、類似判断部130は、広告単語「NEC」と音声データとの類似度が類似許容範囲内であると判断し、表示出力部108は、音声認識結果として「NECに行きました」等を出力する。
Again, for example, suppose that the input voice is “I went to life”. In addition, as a speech recognition result of a word corresponding to “enichi”, it is assumed that “sales day”,..., “NEC”. Here, it is assumed that, when arranged as a candidate for the speech recognition result in descending order of the total score, “Funny Day” is first and “NEC” is third. In this case, the rank of the advertisement word “NEC” shown in FIG. 9 is within the allowable range “6”. For this reason, the
本実施の形態においても、第1の実施の形態で説明したスコアの補正値と同様、スコアの許容範囲および順位の許容範囲は、入力された音声データとの差がどの程度の範囲内であれば人が類似と感じるかを考慮して上限値を決定することができる。本実施の形態においても、スコアの許容範囲および順位の許容範囲は、このように決定した上限値以下の範囲で、広告単語の広告料金のランクが高いほど高い値となるように設定することができる。本実施の形態においても、第1の実施の形態と同様の効果が得られる。 Also in the present embodiment, like the score correction values described in the first embodiment, the allowable range of scores and the allowable range of ranks are within the range of the difference from the input voice data. The upper limit value can be determined in consideration of whether people feel similar. Also in the present embodiment, the allowable range of the score and the allowable range of the ranking may be set so as to be higher as the rank of the advertising fee of the advertising word is higher than the upper limit value determined as described above. it can. Also in this embodiment, the same effect as that of the first embodiment can be obtained.
(第3の実施の形態)
図10は、本実施の形態における広告表示システムの構成の一例を示すブロック図である。
本実施の形態において、出力調整部104が、図7に示した構成に加えて、類似単語抽出部132も含む点で第2の実施の形態と異なる。また、本実施の形態において、広告単語記憶部120が、類似許容範囲を規定するパラメータとして記憶する内容も第2の実施の形態と異なる。
(Third embodiment)
FIG. 10 is a block diagram showing an example of the configuration of the advertisement display system in the present embodiment.
This embodiment is different from the second embodiment in that the
図11(a)は、本実施の形態における広告単語記憶部120の構成の一例を示す図である。広告単語記憶部120は、類似許容範囲を規定するパラメータとして、広告単語の広告料金のランクが高いほど高い値となる、当該広告単語に類似する類似単語の登録可能個数(個数)を、広告単語に対応付けて記憶する。ここで、たとえば広告単語「NEC」の登録可能個数は「20」と設定されている。
FIG. 11A is a diagram illustrating an example of the configuration of the advertising
類似単語抽出部132は、広告単語と類似する類似単語を登録可能個数だけ抽出する。類似単語抽出部132は、音声認識部102が音声認識処理を行うのと同様にして、たとえば音響モデル記憶部110や言語モデル記憶部112を用いて、広告単語の音声データが入力されたとして音声認識処理を行うことができる。類似単語抽出部132は、音声認識処理の結果として選出される単語を、総スコアまたは音響スコアが高い順に、登録可能個数だけ広告単語に類似する類似単語として抽出することができる。
The similar
類似単語抽出部132は、抽出した類似単語を各広告単語に対応付けて広告単語記憶部120に記憶する。この例を図11(b)に示す。ここで、たとえば広告単語「NEC」の類似単語としては、「縁日」、「英字」等が記憶されている。なお、以上の手順において、類似単語抽出部132は、音声認識処理を音声認識部102に依頼し、音声認識部102から音声認識処理の結果を受け取るようにすることもできる。
The similar
本実施の形態において、類似判断部130は、音声認識部102が音声データの音声認識結果として選出した単語として、広告単語または類似単語が挙げられた場合に、広告単語と音声データとの類似度が類似許容範囲内であると判断する。表示出力部108は、類似判断部130が広告単語と音声データとの類似度が類似許容範囲内であると判断した場合に、当該広告単語を音声データの音声認識結果として表示出力する。つまり、類似単語の登録数が多い方が、広告単語が入力された音声データに類似すると判断される可能性が高くなり、広告単語が表示出力されやすくなる。
In the present embodiment, the
また、他の例において、類似許容範囲を規定するパラメータとして、広告単語の広告料金のランクが高いほど高い値となる個数の当該広告単語に類似する類似単語を、広告単語に対応付けて広告単語記憶部120に予め登録しておくこともできる。本例において、広告単語記憶部120は、たとえば図11(b)に示したような構成となっている。
In another example, as a parameter for defining the similarity allowable range, the number of similar words that are similar to the number of advertisement words that are higher as the advertisement charge rank of the advertisement word is higher are associated with the advertisement word and the advertisement word. It can also be registered in advance in the
この例において、たとえば、類似単語は以下の手順で選択することができる。まず、音声認識部102の機能、または他の音声認識処理システムを用いて、広告単語を発話した音声データに対する音声認識処理を行い、音声認識処理の結果の候補となる複数の単語の総スコアまたは音響スコアをそれぞれ算出する。次いで、総スコアまたは音響スコアが高い順、または総スコアまたは音響スコアが所定値以上の単語を複数抽出する。このとき、広告単語記憶部120に登録する類似単語の個数に対応する数の単語を抽出してそれらを類似単語として広告単語記憶部120に登録することもできるが、その個数以上の数の単語を抽出した後、その中から広告主が所望する単語を上記個数だけ選択し、それらを類似単語として広告単語記憶部120に登録することもできる。
In this example, for example, a similar word can be selected by the following procedure. First, using the function of the
この場合、広告表示システム100の出力調整部104は、類似単語抽出部132を有しない構成とすることができる。つまり、この場合、広告表示システム100の構成は、図5に示した構成と同様とすることができる。
In this case, the
類似判断部130は、音声認識部102が音声データの音声認識結果として選出した単語として、広告単語または類似単語が挙げられた場合に、広告単語と音声データとの類似度が類似許容範囲内であると判断する。表示出力部108は、類似判断部130が広告単語と音声データとの類似度が類似許容範囲内であると判断した場合に、当該広告単語を音声データの音声認識結果として表示出力する。
The
本実施の形態においても、第1の実施の形態で説明したスコアの補正値と同様、登録可能個数は、入力された音声データとの差がどの程度の範囲内であれば人が類似と感じるかを考慮して上限値を決定することができる。本実施の形態においても、登録可能個数は、このように決定した上限値以下の範囲で、広告単語の広告料金のランクが高いほど高い値となるように設定することができる。本実施の形態においても、第1の実施の形態と同様の効果が得られる。 Also in the present embodiment, like the score correction values described in the first embodiment, the number that can be registered is similar to a person if the difference from the input voice data is within a range. The upper limit value can be determined in consideration of the above. Also in the present embodiment, the number that can be registered can be set to be higher as the rank of the advertising fee of the advertising word is higher within the range of the upper limit determined in this way. Also in this embodiment, the same effect as that of the first embodiment can be obtained.
(第4の実施の形態)
図12は、本実施の形態における広告表示システムの構成の一例を示すブロック図である。
広告表示システム100は、図1に示した構成に加えて、さらにモード設定部134を含む点で、第1の実施の形態に記載した構成と異なる。本実施の形態において、出力調整部104は、モード設定部134の設定に基づき、音声認識部102が選出した音声認識結果をそのまま出力する通常モードの処理と、出力調整部104により調整した結果を出力する広告モードの処理のいずれかを選択して実行する。
(Fourth embodiment)
FIG. 12 is a block diagram showing an example of the configuration of the advertisement display system in the present embodiment.
The
たとえば、第1の実施の形態で説明した手順においては、広告単語と入力された音声データとの類似度が類似許容範囲内であれば、音声認識処理の結果の総スコアが他の単語に比べて最高でなくても、音声認識結果として広告単語が表示出力されることになる。そのため、精度の高い音声認識処理の結果を求めるユーザにとっては、使い勝手が悪くなってしまう。そこで、本実施の形態において、広告表示システム100は、通常の音声認識処理の結果が出力される通常モードの処理も選択可能な構成とすることができる。
For example, in the procedure described in the first embodiment, if the degree of similarity between the advertising word and the input voice data is within the allowable similarity range, the total score of the result of the voice recognition processing is compared with other words. Even if it is not the best, the advertisement word is displayed and output as a voice recognition result. For this reason, the user who obtains the result of the voice recognition processing with high accuracy is unusable. Therefore, in the present embodiment, the
モード設定部134は、通常の音声認識処理を行う通常モードと、広告モードとのいずれが設定されているかを記憶する設定記憶部を含むことができる。スコア調整部106は、音声認識部102が音声認識処理を行うと、広告モードと通常モードとのいずれが設定されているかを判断する。スコア調整部106は、通常モードが設定されている場合は、音声認識部102の音声認識処理の結果をそのまま表示出力部108から表示出力するようにする。一方、広告モードが設定されている場合は、スコア調整部106は、広告単語が表示出力されやすくなるように上述したような調整処理を行い、調整処理後の結果を表示出力部108から表示出力するようにする。
The
図13は、本実施の形態における広告表示システム100の処理手順を示すフローチャートである。
ステップS101およびステップS102の処理は、第1の実施の形態において、図3を参照して説明した手順と同様とすることができる。この後、スコア調整部106は、広告モードと通常モードとのいずれが設定されているかを判断する(ステップS103)。広告モードに設定されている場合(ステップS103のYES)、広告単語について、広告料金に応じたスコア調整を行う(ステップS104)。表示出力部108は、スコア調整部106によるスコアの調整が行われた後のスコアに基づき、スコアが最も高い単語を音声認識結果として出力する(ステップS106)。
FIG. 13 is a flowchart showing a processing procedure of the
The processing in steps S101 and S102 can be the same as the procedure described with reference to FIG. 3 in the first embodiment. Thereafter, the
一方、ステップS103において、広告モードに設定されておらず、通常モードの場合(ステップS103のNO)、スコア調整部106は、調整処理を行わず、表示出力部108は、音声認識部102の音声認識処理によるスコアに基づき、スコアが最も高い単語を音声認識結果として出力する(ステップS106)。
On the other hand, in the case where the advertisement mode is not set in step S103 and the normal mode is set (NO in step S103), the
なお、第2の実施の形態および第3の実施の形態で説明した広告表示システム100においても、同様にモード設定部134を含む構成とし、通常の音声認識処理の結果が出力される通常モードの処理も選択可能な構成とすることができる。
Note that the
また、ここでは図示していないが、広告表示システム100は、ユーザをたとえばユーザID等によって識別する機能を有することができ、ユーザによって、通常モードと広告モードのいずれを用いるかを決定することができる。たとえば、まだユーザ登録をしておらず、お試し版として音声認識部102の音声認識処理機能を用いるようなユーザには、広告モードでの音声認識処理の結果を表示出力するようにしてもよい。一方、ユーザ登録をしており、たとえばサービス利用料金を支払っているようなユーザには、通常モードでの音声認識処理の結果を表示出力するようにしてもよい。
Although not shown here, the
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
広告表示システム100は、図15に示したように、課金処理部140および課金情報記憶部142をさらに含む構成とすることができる。課金処理部140は、音声認識部102の音声認識処理の結果によれば、本来広告単語が結果として表示出力されないにも関わらず、出力調整部104の調整処理により広告単語が表示出力された場合、つまり入力された音声データに対する広告単語の本来の総スコアが他の単語の総スコアより低かったにも関わらず表示出力部108から広告単語が表示出力された出力回数を計数(カウント)する。課金処理部140は、その出力回数および広告単語記憶部120に設定された広告料金に基づき、各広告単語の料金を算出する。
As shown in FIG. 15, the
課金処理部140は、音声認識部102に入力された音声データが最初から広告単語だった場合は課金しないようにする。課金処理部140は、たとえば音声認識部102から出力される音声認識処理の結果と表示出力部108から出力される結果とを比較して、出力調整部104の調整処理により広告単語が表示出力された場合の出力回数を計数することができる。課金処理部140は、出力回数や料金を広告単語毎に課金情報記憶部142に記憶することができる。ここでは第1の実施の形態で説明した広告表示システム100が課金処理部140および課金情報記憶部142を含む構成を示したが、第2の実施の形態から第4の実施の形態における広告表示システム100においても、課金処理部140および課金情報記憶部142を含む構成とすることができる。
The charging
また、以上の実施の形態においては、表示出力部108が、総スコアが最も高い単語を一つのみ表示出力することができる構成を示したが、表示出力部108は、総スコアが高い単語を、総スコアが高い順に複数表示出力して、ユーザに選択させるようにすることもできる。
In the above embodiment, the
また、表示出力部108から広告単語が表示出力され、ユーザ端末200のディスプレイに広告単語が表示された後、たとえばユーザが当該広告単語をクリックすると、出力調整部104による調整処理前の通常の音声認識処理の結果で総スコアが高かった本来の音声認識処理の結果の単語が表示される構成とすることもできる。
Further, after the advertisement word is displayed and output from the
また、表示出力部108から広告単語が表示出力され、ユーザ端末200のディスプレイに広告単語が表示された後、たとえばユーザが当該広告単語をクリックすると、その広告単語の広告主が提供するサイトにアクセスできる構成とすることもできる。
Further, after the advertisement word is displayed and output from the
図1、図7、図10、図12および図15に示した広告表示システム100の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。広告表示システム100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
Each component of the
100 広告表示システム
102 音声認識部
104 出力調整部
106 スコア調整部
108 表示出力部
110 音響モデル記憶部
112 言語モデル記憶部
120 広告単語記憶部
130 類似判断部
132 類似単語抽出部
134 モード設定部
140 課金処理部
142 課金情報記憶部
150 ネットワーク
200 ユーザ端末
DESCRIPTION OF
Claims (12)
音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶手段を含み、前記広告単語と前記音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を前記音声データの音声認識結果として表示出力する出力調整手段と、
を含み、
前記広告単語の広告料金のランクが高いほど前記類似許容範囲が広くなるように設定されている広告表示システム。 Based on the acoustic model and the language model, the acoustic score of the words that are candidates for the speech recognition result for the input speech data, the language score, and the total score based on the acoustic score and the language score are calculated, and the total score is high. Speech recognition means for selecting words as speech recognition results;
Including an advertising word storage means for storing an advertising word for which an advertising fee is paid as a consideration for facilitating selection as a speech recognition result, and the similarity between the advertising word and the voice data is within a predetermined similarity allowable range Adjusting so that the advertisement word is selected as the voice recognition result of the voice data, and output adjusting means for displaying and outputting the adjusted result as the voice recognition result of the voice data;
Including
The advertisement display system in which the similarity allowable range is set wider as the advertisement charge rank of the advertisement word is higher.
前記広告単語記憶手段は、前記類似許容範囲を規定するパラメータとして、前記広告単語の広告料金のランクが高いほど高い値となるスコアの補正値を、前記広告単語に対応付けて記憶し、
前記出力調整手段は、
前記広告単語については、前記音声認識手段が算出した前記総スコアまたは前記言語スコアに前記スコアの補正値を付加する調整を行うスコア調整手段と、
前記スコア調整手段が調整したスコアに基づき、総スコアが高い単語を前記音声データの音声認識結果として表示出力する表示出力手段と、
を含む広告表示システム。 The advertisement display system according to claim 1,
The advertisement word storage means stores a correction value of a score that is higher as the advertisement charge rank of the advertisement word is higher as a parameter for defining the similarity allowable range, in association with the advertisement word,
The output adjusting means is
For the advertising word, score adjustment means for performing adjustment to add a correction value of the score to the total score or the language score calculated by the voice recognition means;
Display output means for displaying and outputting a word having a high total score as a voice recognition result of the voice data based on the score adjusted by the score adjusting means;
Advertising display system including.
前記広告単語記憶手段は、前記広告単語に対応付けて、前記広告単語の広告料金を示す情報を記憶し、
前記出力調整手段は、
前記広告単語の広告料金を示す情報に基づき、前記類似許容範囲を規定するパラメータとして、前記広告単語の広告料金のランクが高いほど高い値となるスコアの補正値を設定する補正値設定手段と、
前記広告単語については、前記音声認識手段が算出する前記総スコアまたは前記言語スコアに前記スコアの補正値を付加する調整を行うスコア調整手段と、
前記スコア調整手段が調整したスコアに基づき、総スコアが高い単語を前記音声データの音声認識結果として表示出力する表示出力手段と、
を含む広告表示システム。 The advertisement display system according to claim 1,
The advertising word storage means stores information indicating an advertising fee of the advertising word in association with the advertising word,
The output adjusting means is
Correction value setting means for setting a correction value of a score that becomes higher as the rank of the advertisement fee of the advertisement word is higher, as a parameter that defines the similar allowable range, based on information indicating the advertisement fee of the advertisement word;
For the advertising word, score adjusting means for performing adjustment to add a correction value of the score to the total score or the language score calculated by the voice recognition means;
Display output means for displaying and outputting a word having a high total score as a voice recognition result of the voice data based on the score adjusted by the score adjusting means;
Advertising display system including.
前記スコアの補正値は、言語スコアの補正値であって、
前記スコア調整手段は、前記広告単語については、前記音声認識手段が算出する前記言語スコアに前記言語スコアの補正値を付加する調整を行う広告表示システム。 The advertisement display system according to claim 2 or 3,
The score correction value is a language score correction value,
The said score adjustment means is an advertisement display system which performs adjustment which adds the correction value of the said language score to the said language score which the said speech recognition means calculates about the said advertising word.
前記広告単語記憶手段は、前記類似許容範囲を規定するパラメータとして、前記広告単語の広告料金のランクが高いほど高い値となるスコアの許容範囲を、前記広告単語に対応付けて記憶し、
前記出力調整手段は、
前記音声データに対し、前記音声認識手段が算出した音響スコアまたは総スコアが最も高い最上位単語の当該音響スコアまたは当該総スコアと、前記広告単語の音響スコアまたは総スコアとのスコアの差が前記スコアの許容範囲内か否かを判断し、許容範囲内の場合に前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断する類似判断手段と、
前記類似判断手段が前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断した場合に、当該広告単語を前記音声データの音声認識結果として表示出力する表示出力手段と、
を含む広告表示システム。 The advertisement display system according to claim 1,
The advertising word storage means stores, as a parameter for defining the similarity allowable range, an allowable range of a score that becomes higher as the advertising fee rank of the advertising word is higher in association with the advertising word,
The output adjusting means is
The difference in score between the acoustic score or the total score of the top word with the highest acoustic score or the total score calculated by the voice recognition means and the acoustic score or the total score of the advertising word is calculated for the voice data. Similarity determination means for determining whether the score is within an allowable range, and determining that the similarity between the advertising word and the audio data is within the allowable range if the score is within the allowable range;
Display output means for displaying and outputting the advertisement word as a voice recognition result of the voice data when the similarity judgment means determines that the similarity between the advertisement word and the voice data is within the similarity allowable range;
Advertising display system including.
前記広告単語記憶手段は、前記類似許容範囲を規定するパラメータとして、前記広告単語の広告料金のランクが高いほど高い値となる順位の許容範囲を、前記広告単語に対応付けて記憶し、
前記出力調整手段は、
前記音声データに対し、前記音声認識手段が算出した音響スコアまたは総スコアが高い順に音声認識結果の候補として並べたときに、前記広告単語の順位が前記許容範囲内か否かを判断し、許容範囲内の場合に前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断する類似判断手段と、
前記類似判断手段が前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断した場合に、当該広告単語を前記音声データの音声認識結果として表示出力する表示出力手段と、
を含む広告表示システム。 The advertisement display system according to claim 1,
The advertising word storage means stores, as a parameter defining the similarity allowable range, an allowable range of a rank that becomes a higher value as the advertising fee rank of the advertising word is higher in association with the advertising word,
The output adjusting means is
When the speech data is arranged as a speech recognition result candidate in descending order of the acoustic score or total score calculated by the speech recognition means, it is determined whether or not the rank of the advertising word is within the allowable range, Similarity determination means for determining that the similarity between the advertising word and the audio data is within the similarity allowable range when within the range;
Display output means for displaying and outputting the advertisement word as a voice recognition result of the voice data when the similarity judgment means determines that the similarity between the advertisement word and the voice data is within the similarity allowable range;
Advertising display system including.
前記広告単語記憶手段は、前記類似許容範囲を規定するパラメータとして、前記広告単語の広告料金のランクが高いほど高い値となる、当該広告単語に類似する類似単語の登録可能個数を、前記広告単語に対応付けて記憶し、
前記出力調整手段は、
前記広告単語と類似する類似単語を前記登録可能個数だけ抽出する類似単語抽出手段と、
前記音声認識手段が前記音声データの音声認識結果として選出した単語として、前記広告単語または前記類似単語が挙げられた場合に、前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断する類似判断手段と、
前記類似判断手段が前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断した場合に、当該広告単語を前記音声データの音声認識結果として表示出力する表示出力手段と、
を含む広告表示システム。 The advertisement display system according to claim 1,
The advertisement word storage means sets the number of similar words similar to the advertisement word that can be registered as a parameter that defines the similarity allowable range as the advertisement charge rank of the advertisement word is higher. And store it in association with
The output adjusting means is
Similar word extraction means for extracting similar words similar to the advertisement word by the registerable number;
When the advertisement word or the similar word is cited as the word selected as the speech recognition result of the speech data by the speech recognition means, the similarity between the advertisement word and the speech data is within the similarity allowable range. Similarity determination means for determining that there is,
Display output means for displaying and outputting the advertisement word as a voice recognition result of the voice data when the similarity judgment means determines that the similarity between the advertisement word and the voice data is within the similarity allowable range;
Advertising display system including.
前記広告単語記憶手段は、前記類似許容範囲を規定するパラメータとして、前記広告単語の広告料金のランクが高いほど高い値となる個数の当該広告単語に類似する類似単語を、前記広告単語に対応付けて記憶し、
前記出力調整手段は、
前記音声認識手段が前記音声データの音声認識結果として選出した単語として、前記広告単語または前記類似単語が挙げられた場合に、許容範囲内の場合に前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断する類似判断手段と、
前記類似判断手段が前記広告単語と前記音声データとの類似度が前記類似許容範囲内であると判断した場合に、当該広告単語を前記音声データの音声認識結果として表示出力する表示出力手段と、
を含む広告表示システム。 The advertisement display system according to claim 1,
The advertisement word storage means associates, as a parameter for defining the similarity allowable range, a similar number of similar words that are similar to the advertisement word with a higher value as the advertisement charge rank of the advertisement word is higher. Remember,
The output adjusting means is
When the advertisement word or the similar word is cited as the word selected as the speech recognition result of the speech data by the speech recognition means, the similarity between the advertisement word and the speech data is within an allowable range. Similarity determination means for determining that the similarity is within the allowable range;
Display output means for displaying and outputting the advertisement word as a voice recognition result of the voice data when the similarity judgment means determines that the similarity between the advertisement word and the voice data is within the similarity allowable range;
Advertising display system including.
前記出力調整手段は、設定に基づき、前記音声認識手段が選出した音声認識結果をそのまま出力する通常モードの処理と、当該出力調整手段により調整した結果を出力する広告モードの処理のいずれかを選択して実行する広告表示システム。 The advertisement display system according to any one of claims 1 to 8,
The output adjustment unit selects, based on the setting, one of a normal mode process for outputting the voice recognition result selected by the voice recognition unit as it is and an advertisement mode process for outputting the result adjusted by the output adjustment unit And display advertising system.
前記音声認識手段が算出した総スコアが他の単語よりも低いにも関わらず、前記処理調整手段による調整の結果、前記広告単語が音声認識結果として表示出力された回数を計数し、当該回数に応じて広告料金を算出する課金処理手段をさらに含む広告表示システム。 The advertisement display system according to any one of claims 1 to 9,
Although the total score calculated by the voice recognition unit is lower than other words, the number of times the advertising word is displayed and output as a voice recognition result as a result of adjustment by the processing adjustment unit is counted. An advertisement display system further including billing processing means for calculating an advertisement fee in response.
音響モデルおよび言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアとを算出して、総スコアが高い単語を音声認識結果として選出する音声認識ステップと、
前記広告単語と前記音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を前記音声データの音声認識結果として表示出力する出力調整ステップと、
を含み、
前記広告単語の広告料金のランクが高いほど前記類似許容範囲が広くなるように設定されている広告表示方法。 An advertisement display method using a computer system including an advertisement word storage means for storing an advertisement word for which an advertisement fee is paid as a price for facilitating selection as a speech recognition result,
Based on the acoustic model and the language model, an acoustic score, a language score, and a total score based on the acoustic score and the language score are calculated for a word that is a speech recognition result candidate for the input speech data. A speech recognition step for selecting high words as speech recognition results;
When the similarity between the advertisement word and the voice data is within a predetermined similarity tolerance range, the advertisement word is adjusted to be selected as a voice recognition result of the voice data, and the adjusted result is the voice data. Output adjustment step to display and output as a voice recognition result of
Including
The advertisement display method set so that the similarity allowable range becomes wider as the advertisement charge rank of the advertisement word is higher.
音響モデルおよび言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアとを算出して、総スコアが高い単語を音声認識結果として選出する音声認識手段、
音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶手段を含み、前記広告単語と前記音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を前記音声データの音声認識結果として表示出力する出力調整手段、
として機能させるプログラムであって、
前記広告単語の広告料金のランクが高いほど前記類似許容範囲が広くなるように設定されている広告表示プログラム。 Computer
Based on the acoustic model and the language model, an acoustic score, a language score, and a total score based on the acoustic score and the language score are calculated for a word that is a speech recognition result candidate for the input speech data. Speech recognition means for selecting high words as speech recognition results,
Including an advertising word storage means for storing an advertising word for which an advertising fee is paid as a consideration for facilitating selection as a speech recognition result, and the similarity between the advertising word and the voice data is within a predetermined similarity allowable range Adjusting the output so that the advertisement word is selected as the voice recognition result of the voice data, and displaying and outputting the adjusted result as the voice recognition result of the voice data;
A program that functions as
An advertisement display program that is set such that the higher the rank of the advertisement charge of the advertisement word, the wider the similar allowable range.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010033813A JP2011170103A (en) | 2010-02-18 | 2010-02-18 | Advertisement display system, advertisement display method, and advertisement display program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010033813A JP2011170103A (en) | 2010-02-18 | 2010-02-18 | Advertisement display system, advertisement display method, and advertisement display program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011170103A true JP2011170103A (en) | 2011-09-01 |
Family
ID=44684305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010033813A Pending JP2011170103A (en) | 2010-02-18 | 2010-02-18 | Advertisement display system, advertisement display method, and advertisement display program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011170103A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013080362A (en) * | 2011-10-04 | 2013-05-02 | Nippon Telegr & Teleph Corp <Ntt> | Dialogue type information transmission device, dialogue type information transmission method, and program |
CN107659847A (en) * | 2016-09-22 | 2018-02-02 | 腾讯科技(北京)有限公司 | Voice interface method and apparatus |
-
2010
- 2010-02-18 JP JP2010033813A patent/JP2011170103A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013080362A (en) * | 2011-10-04 | 2013-05-02 | Nippon Telegr & Teleph Corp <Ntt> | Dialogue type information transmission device, dialogue type information transmission method, and program |
CN107659847A (en) * | 2016-09-22 | 2018-02-02 | 腾讯科技(北京)有限公司 | Voice interface method and apparatus |
CN107659847B (en) * | 2016-09-22 | 2019-10-15 | 腾讯科技(北京)有限公司 | Voice interface method and apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832654B2 (en) | Recognizing accented speech | |
US11347801B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
TWI711967B (en) | Method, device and equipment for determining broadcast voice | |
CN109859298B (en) | Image processing method and device, equipment and storage medium thereof | |
US20150149149A1 (en) | System and method for translation | |
CN107659847A (en) | Voice interface method and apparatus | |
JP6570226B2 (en) | Response generation apparatus, response generation method, and response generation program | |
CN107707745A (en) | Method and apparatus for extracting information | |
CN109979450B (en) | Information processing method and device and electronic equipment | |
CN110428811B (en) | Data processing method and device and electronic equipment | |
CN115329206A (en) | Voice outbound processing method and related device | |
CN105139848B (en) | Data transfer device and device | |
CN114341922A (en) | Information processing system, information processing method, and program | |
JP5592919B2 (en) | Signage terminal and signage system | |
KR101567449B1 (en) | E-Book Apparatus Capable of Playing Animation on the Basis of Voice Recognition and Method thereof | |
CN111079423A (en) | Method for generating dictation, reading and reporting audio, electronic equipment and storage medium | |
JP6056068B2 (en) | Advertising system and method using connection signal of audio output device in digital device | |
CN113545781B (en) | Virtual reality sleep-promoting method and device | |
KR20160050599A (en) | Emoticon providing method and combined Digital music | |
JP2011170103A (en) | Advertisement display system, advertisement display method, and advertisement display program | |
US20120154514A1 (en) | Conference support apparatus and conference support method | |
JP2002150140A (en) | Voice banner advertising system and voice banner advertising method | |
JP5707346B2 (en) | Information providing apparatus, program thereof, and information providing system | |
KR20190074017A (en) | Hmd device for enabling vr-based presentation exercises and operating method thereof | |
CN110516043A (en) | Answer generation method and device for question answering system |