JP2012059126A - Search device - Google Patents
Search device Download PDFInfo
- Publication number
- JP2012059126A JP2012059126A JP2010203280A JP2010203280A JP2012059126A JP 2012059126 A JP2012059126 A JP 2012059126A JP 2010203280 A JP2010203280 A JP 2010203280A JP 2010203280 A JP2010203280 A JP 2010203280A JP 2012059126 A JP2012059126 A JP 2012059126A
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- morpheme
- documents
- facility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、大量の文書や施設名中から、所望の文書や施設名の検索を効率よく行う大規模な検索装置に関するものである。 The present invention relates to a large-scale search apparatus that efficiently searches a desired document or facility name from a large number of documents and facility names.
さまざまな施設名を検索対象とする検索システムを構築する場合、利用者は施設の正式名称を知らない場合があるので、施設名を形態素や音節に分解して、形態素や音節のユニグラムやバイグラムを照合単位として検索を行う技術が従来よりあり、このような技術として下記特許文献1に開示されたものがある。
When building a search system that searches various facility names, users may not know the official name of the facility, so the facility name is decomposed into morphemes and syllables, and morphemes and syllable unigrams and bigrams are converted. Conventionally, there is a technique for performing a search as a collation unit, and such a technique is disclosed in
特許文献1では、単語や音節等を単位として、入力文字列と検索対象施設名を比較照合し、マッチした単語や音節のユニグラムやバイグラム数に基づいて検索スコアを算出し、スコアの高い順に候補を提示する技術が開示されている。
しかし特許文献1の技術では、例えば大船にある「ウミベ」という百貨店の正式名称が「ウミベ大船」である場合、「おーふなうみべ(大船ウミベ)」という入力文字列で音節バイグラム数に基づいて検索すると、正解の「うみべおーふな(ウミベ大船)」よりも、「えーしょぼーおーふなうみべてん(A書房大船ウミベ店)」という不自然な検索結果が検索結果の上位に出力されるという課題があった。これは前記入力文字列中の音節バイグラム「なう」が前者の「うみべおーふな」ではマッチしないのに対し、後者の「えーしょぼーおーふなうみべてん」ではマッチし、検索スコアが後者のほうが高くなるためである。
In
However, in the technique of
この発明は上記課題を解決するためになされたもので、前記のような不自然な検索結果を抑制し検索精度を向上させることを目的とする。 The present invention has been made to solve the above-described problems, and an object thereof is to suppress the unnatural search results as described above and improve the search accuracy.
この発明に係る検索装置は、
入力された文字列に基づいて、検索対象とする複数個の文書から所望の文書を検索する検索装置であって、
前記文字列を入力として、前記文字列と検索対象とする複数個の文書を照合し、前記文字列と部分一致または完全一致する複数個の文書と、前記文字列が複数個の文書中に出現する回数に応じた検索スコアとを検索結果として出力する検索手段と、
前記検索対象とする複数個の文書のそれぞれに対する形態素と、検索時に使用される重要度に応じて形態素毎に付与したペナルティ値とを保持する形態素辞書と、
前記文字列と前記検索手段の検索結果を入力とし、前記検索結果のそれぞれの文書に対し、前記形態素辞書を参照して前記文字列から形態素を抽出し、前記文書中には存在するが、前記文字列中からは抽出されなかった形態素に対し、前記ペナルティ値を差し引いて前記検索スコアを修正し、修正した検索スコアに基づいて検索結果の出力順位を再構成して出力する検索順位修正手段とを備える。
The search device according to the present invention provides:
A search device for searching a desired document from a plurality of documents to be searched based on an input character string,
Using the character string as input, the character string and a plurality of documents to be searched are collated, a plurality of documents partially or completely matching the character string, and the character string appear in the plurality of documents. Search means for outputting a search score corresponding to the number of times to be searched as a search result;
A morpheme dictionary that holds a morpheme for each of the plurality of documents to be searched and a penalty value assigned to each morpheme according to the importance used during the search;
The search result of the character string and the search means is input, and for each document of the search result, the morpheme is extracted from the character string with reference to the morpheme dictionary, and exists in the document, Search rank correction means for correcting the search score by subtracting the penalty value from the morpheme that has not been extracted from the character string, and reconstructing and outputting the output rank of the search result based on the corrected search score; Is provided.
この発明による検索装置によれば、入力された文字列に基づいて検索手段で検索された検索対象の複数個の文書と、前記文字列が複数個の文書中に出現する回数に応じた検索スコアとの検索結果を、検索対象とする複数個の文書のそれぞれに対する形態素と、検索時に使用される重要度に応じて形態素毎に付与したペナルティ値とを保持する形態素辞書を参照し、前記検索対象文書中には存在するが、前記入力文字列中からは抽出されなかった形態素に対し、前記ペナルティ値を差し引いて前記検索スコアを修正し、修正した検索スコアに基づいて検索結果の出力順位を再構成して出力する検索順位修正手段により不自然な検索結果を抑制する効果がある。 According to the search device of the present invention, a plurality of documents to be searched searched by the search means based on the input character string, and a search score corresponding to the number of times the character string appears in the plurality of documents The search result is referred to by referring to a morpheme dictionary that holds a morpheme for each of a plurality of documents to be searched and a penalty value assigned to each morpheme according to the importance used in the search. The search score is corrected by subtracting the penalty value for morphemes that are present in the document but not extracted from the input character string, and the output order of the search results is re-established based on the corrected search score. There is an effect of suppressing unnatural search results by the search order correcting means configured and output.
実施の形態1.
本実施の形態では施設や観光スポットの名称(以後は簡単のため施設と観光スポットを総称して施設という)を検索する場合を例にとり説明する。
図1はこの発明による検索装置の実施の形態1の構成を示すブロック図である。
同図において、1は文字列の入力端、2は文字列、3は検索手段、4は検索辞書メモリ、
5は中間検索結果、6は検索順位修正手段、7は形態素辞書メモリ、8は検索結果である。
In the present embodiment, a description will be given taking as an example the case of searching for names of facilities and sightseeing spots (hereinafter, facilities and sightseeing spots are collectively referred to as facilities for simplicity).
FIG. 1 is a block diagram showing a configuration of a first embodiment of a search device according to the present invention.
In the figure, 1 is an input terminal of a character string, 2 is a character string, 3 is a search means, 4 is a search dictionary memory,
5 is an intermediate search result, 6 is a search order correcting means, 7 is a morpheme dictionary memory, and 8 is a search result.
検索辞書メモリ4にはテキスト検索辞書を事前に作成して格納しておく。テキスト検索辞書の作成方法を説明する。例えば図2に示すとおり、検索対象施設名が「A書房大船ウミべ店(えーしょぼーおーふなうみべてん)」、「ウミベ大船(うみベおーふな)」等として説明する。()内は施設名の読みを示している。ここで「ウミベ」は施設の固有名詞であり、本例では百貨店名とする。
In the
前記テキスト検索辞書は施設名を構成する言語単位を索引語として転置インデックスとして構成する。本例では索引語として施設名の読みの音節の2連鎖(音節バイグラム)を用いる。「A書房大船ウミベ店(えーしょぼーおーふなうみベてん)」に含まれる音節バイグラムは、「えーしょ」、「しょぼー」、「ぼーおー」、「おーふ」「ふな」「なう」「うみ」「みベ」、「べて」「てん」の10種類である。また「ウミベ大船(うみベおーふな)」に含まれる音節バイグラムは「うみ」「みべ」「ベおー」「おーふ」「ふな」の5種類である。検索辞書メモリ4は、これらの音節バイグラムを索引語として、索引語と施設名のID番号をテキスト検索辞書として保持する。前記の施設名から作成したテキスト検索辞書を図3に示す。
The text search dictionary is configured as a transposed index with language units constituting facility names as index words. In this example, two chain (syllable bigram) of the syllable of the facility name reading is used as an index word. The syllable bigrams included in “A Shobo Ofuna Umibe” are “Esho,” “Shoboo,” “Booh,” “Ohfu,” “Fu” There are 10 types: N, Nau, Umi, Mibe, Bete, and Ten. There are five syllable bigrams in “Umibe Ofuna”: “Umi”, “Mibe”, “Beow”, “Ohfu”, and “Funa”. The
形態素辞書メモリ7には形態素辞書を事前に作成して格納しておく。形態素辞書の作成方法を説明する。まず検索対象とする施設名を形態素解析器等を使用して形態素に分割する。必要に応じて形態素への分割結果を人手で修正してもよい。また英語等のように元々単語に分割されている言語では分割処理は不要であり、この場合には単語を形態素とみなす。次に各形態素毎に検索時に使用される重要度に応じて所定のペナルティ値を付与し、形態素とともに形態素辞書として保持する。なお本実施の形態では前記ペナルティ値は当該施設を検索するときに省略される可能性の低い形態素ほど大きなペナルティ値を設定しておく。前記「A書房大船ウミベ店」、および「ウミベ大船」に対する形態素辞書の例を図4に示す。「A書房大船ウミベ店」の形態素辞書は、「えーしょぼー(3)」、「おーふな(1)」、「うみべ(1)」である。()内の値はペナルティ値である。「A書房大船ウミベ店」を検索する場合の文字列2としては、「えーしょぼー」という形態素を省略する可能性は低いと考えられるので、他の形態素よりも大きなペナルティ値を付与している。一方「ウミベ大船」に対する形態素辞書は、当該施設を検索する場合の発話としては、「うみべ」という形態素を省略する可能性は低いと考えられるので、他の形態素よりも大きなペナルティ値を付与している。
In the
次に検索の動作について説明する。
文字列の入力端1から文字列2を入力すると、検索手段3はまず文字列2を構成する音節バイグラムを全て抽出する。例えば入力文字列2を「おーふなうみべ」とすると、音節バイグラムとして、「おーふ」「ふな」「なう」「うみ」「みべ」という5個の音節バイグラムを抽出する。
Next, the search operation will be described.
When the
次に検索手段3は、検索辞書メモリ4に格納しているテキスト検索辞書を参照し、抽出した音節バイグラム毎に当該音節バイグラムを含む施設の検索スコアに1を加算する。抽出した全音節バイグラムに対しこのスコア加算処理を行う。本例では、施設ID=1の「A書房大船ウミベ店(えーしょぼーおーふなうみベてん)」は、「おーふ」「ふな」「なう」「うみ」「みべ」の5個の音節バイグラムが文字列2の音節バイグラムとマッチするので、検索スコアは5となる。一方施設ID=2の「ウミベ大船(うみベおーふな)」は「おーふ」「ふな」「うみ」「みべ」の4個の音節バイグラムが文字列2の音節バイグラムとマッチするので、検索スコアは4となる。上記加算処理終了後、検索手段3は中間検索結果5として、検索スコアが1以上のN個の施設名のID番号と検索スコアの対を出力する。ここでNは1以上の整数である。中間検索結果5の出力例を図5に示す。
Next, the search means 3 refers to the text search dictionary stored in the
次に検索順位修正手段6は、文字列の入力端1からの文字列2と検索手段3からの中間検索結果5を入力とし、中間検索結果5のN個の施設名それぞれに対し形態素辞書メモリ7に格納されている当該施設名の形態素辞書を用いて、文字列2と照合することにより文字列2に含まれる形態素を抽出する。抽出した形態素と、形態素辞書メモリ7に格納されている当該施設の形態素辞書を比較し、形態素辞書中には存在するが、認識結果の音素列からは抽出されなかった形態素に対し、図4に示す形態素辞書に予め設定されたペナルティ値を付与して検索スコアをリスコアリングする。
Next, the search order correction means 6 receives the
以下に図6を参照し、検索順位修正手段6の具体的な処理手順を述べる。
手順1)k=1とおく(図6のst101)
手順2)形態素辞書メモリ7に保持している形態素辞書を参照し、図5に示す検索手段3の中間検索結果5の第k位(この場合はk=1であるから1位)の施設名の形態素と文字列2の照合処理を行い、文字列2に含まれる形態素を抽出する(図6のst102)。ここで前記照合処理とは、形態素辞書中の1個以上の形態素の組み合わせが文字列2と一致するか否かを調べることであり、一致する場合は前記1個以上の形態素が文字列2に含まれると判定し、前記1個以上の形態素を抽出する。
例えばk=1の場合は、前述のように1位の検索結果は施設ID=1の施設名であり、図4に示すとおり形態素辞書中の形態素は、「えーしょぼー」、「おーふな」、「うみべ」、「てん」となる。これらの形態素と文字列2である「おーふなうみべ」との間で照合を行うと、「おーふな」と「うみべ」の2個の形態素が抽出される。
The specific processing procedure of the search order correction means 6 will be described below with reference to FIG.
Procedure 1) Set k = 1 (st101 in FIG. 6)
Procedure 2) Refers to the morpheme dictionary stored in the
For example, in the case of k = 1, the search result of the first place is the facility name with the facility ID = 1 as described above. As shown in FIG. 4, the morphemes in the morpheme dictionary are “Esshobo”, “Ohfu” "N", "Umibe", "Ten". When collation is performed between these morphemes and the
手順3)手順2で抽出した文字列2に含まれる形態素と、k位の検索結果の形態素辞書中の形態素を比較し、前記形態素辞書中には存在するが文字列2中には存在しない形態素に対し、形態素辞書中のペナルティ値を累積したペナルティ累積値P(k)を算出する(図6のst103)。
例えばk=1の場合は、上述のとおり文字列2に含まれる形態素は「おーふな」と「うみべ」の2個、形態素辞書中の形態素は、「えーしょぼー」、「おーふな」、「うみべ」、「てん」なので、形態素辞書中には存在するが文字列2中には存在しない形態素は「えーしょぼー」と「てん」の2個である。これらの形態素に対するペナルティ値は図4に示すとおり、それぞれ3と0なので、前記ペナルティ累積値P(k)の値は、P(k) = 3+0 = 3となる。
Step 3) The morpheme included in the
For example, in the case of k = 1, as described above, the morpheme included in the
手順4)手順3で算出したペナルティ累積値P(k)と、検索スコアS(k)から下記の(1)式によって修正検索スコアS’(k)を算出する(図6のst104)。(1)式中でαは実験的に予め決めた定数であり、本実施の形態例ではα=0.5とする。
Procedure 4) The corrected search score S '(k) is calculated from the penalty accumulated value P (k) calculated in the
S’(k) = S(k) - αP(k) ・・・ (1)
この結果、上述のk=1の例では、S’(1) = 5 - 0.5*3 = 3.5となる。
S '(k) = S (k)-αP (k) (1)
As a result, in the above-described example of k = 1, S ′ (1) = 5−0.5 * 3 = 3.5.
手順5)k =Nなら、手順6へ進む。k <Nなら、k=k+1とし、手順2に戻る。(図6のst105,st106)。
手順6)手順4で修正した修正スコアS’(k) (k=1〜N)を用い、修正スコアS’(k)の大きい順に検索結果を並べ換え、検索結果8として出力する。(図5のst107)
Step 5) If k = N, go to step 6. If k <N, set k = k + 1 and return to
Step 6) Using the corrected score S ′ (k) (k = 1 to N) corrected in
処理手順は以上である。上記処理の結果、検索手段の出力結果で第2位の施設ID=2では、図4に示すとおり形態素辞書中の形態素は「うみべ」、「おーふな」なので、これらの形態素と文字列2である「おーふなうみべ」との間で照合を行うと「おーふな」と「うみべ」の2個の形態素が抽出される。この結果、形態素辞書中の形態素が認識結果中に全て存在するので、ペナルティ累積値P(k)の値は0となり、(1)式で計算される修正後の検索スコアS’(2) = S(2) = 4となる。
修正後の検索スコアの大きい順に検索順位を並べ換えた結果を図7に示す。「ウミベ大船」が検索順位の第1位になっていることがわかる。
The processing procedure is as described above. As a result of the above processing, if the facility ID = 2 as the output result of the search means, the morphemes in the morpheme dictionary are “Umbe” and “Ohuna” as shown in FIG. When matching is performed with “Ohuna Umibe” in
FIG. 7 shows the result of rearranging the search order in descending order of the corrected search score. It can be seen that “Umibe Ofuna” is ranked first in the search order.
このように本実施の形態によれば、各施設名毎に形態素辞書を備え、各形態素には当該形態素が文字列2に含まれなかった場合に付与するペナルティ値を設定する。このペナルティ値として当該施設を検索するときに省略される可能性の低い形態素ほど大きなペナルティ値を設定しておき、上述したとおりペナルティ累積値P(k)を差し引いた修正スコアS’(k)の大きい順に検索結果を出力するように構成したので、「大船ウミベ」という発話に対し、「ウミベ大船」よりも「A書房大船ウミベ店」が上位に検索されるという不自然な結果を抑制する効果がある。
As described above, according to the present embodiment, a morpheme dictionary is provided for each facility name, and a penalty value is set for each morpheme when the morpheme is not included in the
なお、本例では検索手段3では、音節バイグラムを転置インデックスの索引語としたが、索引語は任意の単位でよい。例えば単語のバイグラムや、単語または音節のユニグラムでもよい。また本例では検索手段3における検索方式として転置インデックスを用いる方式を説明したが、文字列2と検索対象との部分マッチングを許す任意の検索方式を用いてもよい。
In this example, the search means 3 uses the syllable bigram as the index word of the transposed index, but the index word may be an arbitrary unit. For example, it may be a bigram of words or a unigram of words or syllables. In this example, the transposition index is used as the search method in the search means 3, but any search method that allows partial matching between the
また、形態素辞書の各形態素に付与するペナルティ値としては、施設名を構成する最後尾の形態素が「店」である施設名の先頭の形態素に対し、他の形態素よりも大きなペナルティ値を付与してもよい。これは一般に、公園や百貨店内にある施設名は「施設のブランド名等の固有名詞+(公園名または百貨店名)+店」というパターンが多く、最後尾の形態素が「店」である施設名の先頭の形態素は、当該施設を検索する場合に省略することがほぼ無いと考えられるからである。このようにペナルティ値を付与することによりペナルティ付与作業の効率化を図る効果が得られる。 In addition, as a penalty value to be assigned to each morpheme in the morpheme dictionary, a penalty value larger than other morphemes is assigned to the first morpheme of the facility name whose last morpheme constituting the facility name is `` store ''. May be. In general, the names of facilities in parks and department stores often have the pattern of “proprietary nouns such as brand names of facilities + (park name or department store name) + store”, and the name of the facility whose last morpheme is “store” This is because it is considered that the first morpheme of is hardly omitted when searching for the facility. Thus, by giving a penalty value, the effect of aiming at the efficiency of a penalty provision operation | work is acquired.
実施の形態2.
本実施の形態では、実施の形態1と同様に施設名を検索する場合を例にとり説明する。
図8はこの発明による検索装置の実施の形態2の構成を示すブロック図である。
同図において、実施の形態1と同等部分には同一番号を付し、説明を省略する。9は音声の入力端、10は入力音声、11は音声認識手段、12は言語モデルメモリ、13は音響モデルメモリである。
In the present embodiment, a case where a facility name is searched as in the first embodiment will be described as an example.
FIG. 8 is a block diagram showing the configuration of the second embodiment of the search device according to the present invention.
In the figure, the same parts as those in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted. Reference numeral 9 is a voice input terminal, 10 is an input voice, 11 is a voice recognition means, 12 is a language model memory, and 13 is an acoustic model memory.
言語モデルメモリ12には統計言語モデルを事前に作成して格納しておく。本例では検索対象とする全施設名の表記の音節列を学習データとして、音節を単位としたトライグラムを学習して格納しておく。なお音節を単位とすることの利点は、学習データとする施設数に関わらず、音節の種類数は数百個以下におさまるので、認識時の演算量増加を抑えた言語モデルを作成できることである。
音響モデルメモリ13には音声の特徴をモデル化した音響モデルを格納している。本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
A statistical language model is created and stored in the
The
次に音声認識と検索の動作について説明する。
音声の入力端9から音声10を入力すると音声認識手段11は言語モデルメモリ12に保存されている言語モデルと音響モデルメモリ13に保存されている音響モデルを用いて、例えばビタビアルゴリズムによって音声認識を行い音声認識結果として、文字列2を出力する。文字列2は本例ではひらがな表記とする。
例えば音声10の発話内容が「大船ウミベ」である音声認識手段11の出力は、例えば「おーふなうみで」となる。本例では、「うみべ」の最後の1音節を「で」に誤認識したものとする。
Next, speech recognition and search operations will be described.
When speech 10 is input from the speech input end 9, the speech recognition means 11 uses the language model stored in the
For example, the output of the speech recognition means 11 whose utterance content of the voice 10 is “Ofuna Umibe” is, for example, “Oh Fu Umi de”. In this example, it is assumed that the last syllable of “Umbe” is misrecognized as “de”.
次に検索手段3は文字列2である「おーふなうみで」を入力として以下のように検索処理を行う。まず文字列2である「おーふなうみで」を構成する音節バイグラムを全て抽出する。本例では「おーふ」「ふな」「なう」「うみ」「みで」という5個の音節バイグラムを抽出する。次に検索辞書メモリ4に格納しているテキスト検索辞書を参照し、抽出した音節バイグラム毎に当該音節バイグラムを含む施設の検索スコアに1を加算する。抽出した全音節バイグラムに対しこの検索スコア加算処理を行う。本例では、施設ID=1の「A書房大船ウミベ店(えーしょぼーおーふなうみベてん)」は、「おーふ」「ふな」「なう」「うみ」の4個の音節バイグラムが文字列2の音節バイグラムとマッチするので、検索スコアは4となる。一方施設ID=2の「ウミベ大船(うみベおーふな)」は「おーふ」「ふな」「うみ」の3個の音節バイグラムが文字列2の音節バイグラムとマッチするので、検索スコアは3となる。上記加算処理終了後、検索手段3は中間検索結果5として、検索スコアが1以上のN個の施設名のID番号と検索スコアの対を出力する。ここでNは1以上の整数である。
Next, the search means 3 performs the search process as follows with the
次に検索順位修正手段6は、文字列2と中間検索結果5を入力とし、中間検索結果5のN個の施設名それぞれに対し当該施設名の形態素辞書を用いて、文字列2と照合することにより文字列2に含まれる形態素を抽出する。抽出した形態素と、当該施設の形態素辞書を比較し、形態素辞書中には存在するが、認識結果の音素列からは抽出されなかった形態素に対し、予め設定したペナルティ値を付与して検索スコアをリスコアリングする。
Next, the search order correcting means 6 receives the
検索順位修正手段6の具体的な処理手順は実施の形態1とほぼ同等である。違いは実施の形態1で述べた検索順位修正手段6の処理手順2における検索結果の施設名の形態素と文字列2との照合処理の方法である。実施の形態1では、形態素辞書中の1個以上の形態素の組み合わせが文字列2と一致するか否かを調べることによって照合処理を行ったが、本実施例では、形態素辞書中の1個以上の形態素の組み合わせと、文字列2との間で音節あるいは音素の置換または脱落または挿入を許したDP(Dynamic Programming)マッチングによる照合処理を行う。そして置換または脱落または挿入の個数が予め定めた所定の個数c以下なら、前記1個以上の形態素が文字列2に含まれると判定し、前記1個以上の形態素を抽出する。本実施の形態では前記所定の個数c=1とする。DPマッチングを用いる理由は、文字列2に音声認識誤りがあり、形態素辞書中の形態素と音節または音素が完全一致しない場合でも、形態素を抽出できるようにするためである。
The specific processing procedure of the search order correcting means 6 is almost the same as that of the first embodiment. The difference is the method of collation processing between the morpheme of the facility name of the retrieval result and the
例えばk=1の場合は、k(=1)位の検索結果は施設ID=1の施設名であり、図4に示すとおり形態素辞書中の形態素は、「えーしょぼー」、「おーふな」、「うみべ」、「てん」となる。これらの形態素と音声認識結果である「おーふなうみで」との間でDPマッチングを用いた照合処理を行う。これによって文字列2である「おーふなうみで」から、「おーふな」と「うみべ」の2個の形態素が抽出される。このうち「うみべ」は音声認識結果の文字列2である「おーふなうみで」中には完全一致する音節列が存在しないが、音節「べ」と「で」の置換が1個なので、DPマッチングを行うことによって抽出が可能になる。
For example, in the case of k = 1, the search result of the k (= 1) rank is the facility name of the facility ID = 1, and the morphemes in the morpheme dictionary are “Esshobo”, “Ohfu” as shown in FIG. "N", "Umibe", "Ten". A matching process using DP matching is performed between these morphemes and the speech recognition result “Oh Fu Na Umi”. As a result, two morphemes “Ofuna” and “Umibe” are extracted from the
またk=2の場合は、k(=2)位の検索結果は施設ID=2では、図4に示すとおり形態素辞書中の形態素は「うみべ」、「おーふな」なので、これらの形態素と音声認識結果の文字列2である「おーふなうみで」との間でDPマッチングを行うと「おーふな」と「うみべ」の2個の形態素が抽出される。
手順3以降の処理は実施の形態1と同一なので説明を省略する。
In the case of k = 2, the search result of the k (= 2) rank is the facility ID = 2, and the morpheme in the morpheme dictionary is “Umbe” and “Ohuna” as shown in FIG. When DP matching is performed between the morpheme and the
Since the processing after the
以上の処理によって修正検索スコアの大きい順に検索順位を並べ換えた結果を図9に示す。図9によれば「ウミベ大船」が検索順位の第1位になっていることがわかる。なお図7に示した実施の形態1における検索スコアおよび修正検索スコアと比較して、本実施例の検索スコアおよび修正検索スコアの値がそれぞれ1小さいが、これは上述したとおり音声認識結果である文字列2の「おーふなうみで」の最後の1音節「で」は「べ」を誤認識したものであり、その結果検索手段3における検索スコア算出時にマッチする音節バイグラム数が1個少なくなったためである。
FIG. 9 shows a result of rearranging the search order in the descending order of the corrected search score by the above processing. According to FIG. 9, it is understood that “Umibe Ofuna” is ranked first in the search order. In addition, compared with the search score and the corrected search score in the first embodiment shown in FIG. 7, each of the search score and the corrected search score in this example is 1 smaller, but this is a speech recognition result as described above. The last one syllable “de” of “Oh fu na umi” in the
なお、形態素辞書メモリ7に保持している形態素辞書の各形態素に付与するペナルティ値としては、施設名を構成する最後尾の形態素が「店」である施設名の先頭の形態素に対し、他の形態素よりも大きなペナルティ値を付与してもよい。これは一般に、公園や百貨店内にある施設名は「施設のブランド名等の固有名詞+(公園名または百貨店名)+店」というパターンが多く、最後尾の形態素が「店」である施設名の先頭の形態素は、当該施設を検索する場合に省略することがほぼ無いと考えられるからである。このようにペナルティ値を付与することによりペナルティ付与作業の効率化を図る効果が得られる。
The penalty value assigned to each morpheme of the morpheme dictionary held in the
この発明は文字列により大量の文書や施設名中から、所望の文書や施設名の大規模な検索を効率よく行う検索装置に関し、携帯端末やカーナビゲーションシステム等各種のナビゲーションシステムに適用が可能である。 The present invention relates to a search device that efficiently performs a large-scale search for a desired document or facility name from a large number of documents and facility names using character strings, and can be applied to various navigation systems such as portable terminals and car navigation systems. is there.
1、9;文字列の入力端、2;文字列、3;検索手段、4;検索辞書メモリ、5;中間検索結果、6;検索順位修正手段、7;形態素辞書メモリ、8;検索結果、10;入力音声、11;音声認識手段、12;言語モデルメモリ、13;音響モデルメモリ。 1, 9; character string input terminal, 2; character string, 3; search means, 4; search dictionary memory, 5; intermediate search result, 6; search rank correction means, 7; morpheme dictionary memory, 8; 10; input speech; 11; speech recognition means; 12; language model memory; 13; acoustic model memory.
Claims (5)
前記文字列を入力として、前記文字列と検索対象とする複数個の文書を照合し、前記文字列と部分一致または完全一致する複数個の文書と、前記文字列が複数個の文書中に出現する回数に応じた検索スコアとを検索結果として出力する検索手段と、
前記検索対象とする複数個の文書のそれぞれに対する形態素と、検索時に使用される重要度に応じて形態素毎に付与したペナルティ値とを保持する形態素辞書と、
前記文字列と前記検索手段の検索結果を入力とし、前記検索結果のそれぞれの文書に対し、前記形態素辞書を参照して前記文字列から形態素を抽出し、前記文書中には存在するが、前記文字列中からは抽出されなかった形態素に対し、前記ペナルティ値を差し引いて前記検索スコアを修正し、修正した検索スコアに基づいて検索結果の出力順位を再構成して出力する検索順位修正手段と、
を備えたことを特徴とする検索装置。 A search device for searching a desired document from a plurality of documents to be searched based on an input character string,
Using the character string as input, the character string and a plurality of documents to be searched are collated, a plurality of documents partially or completely matching the character string, and the character string appear in the plurality of documents. Search means for outputting a search score corresponding to the number of times to be searched as a search result;
A morpheme dictionary that holds a morpheme for each of the plurality of documents to be searched and a penalty value assigned to each morpheme according to the importance used during the search;
The search result of the character string and the search means is input, and for each document of the search result, the morpheme is extracted from the character string with reference to the morpheme dictionary, and exists in the document, Search rank correction means for correcting the search score by subtracting the penalty value from the morpheme that has not been extracted from the character string, and reconstructing and outputting the output rank of the search result based on the corrected search score; ,
A search device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010203280A JP5404563B2 (en) | 2010-09-10 | 2010-09-10 | Search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010203280A JP5404563B2 (en) | 2010-09-10 | 2010-09-10 | Search device |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012059126A true JP2012059126A (en) | 2012-03-22 |
JP2012059126A5 JP2012059126A5 (en) | 2013-01-10 |
JP5404563B2 JP5404563B2 (en) | 2014-02-05 |
Family
ID=46056123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010203280A Expired - Fee Related JP5404563B2 (en) | 2010-09-10 | 2010-09-10 | Search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5404563B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015107659A1 (en) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | Inspection device |
CN110516062A (en) * | 2019-08-26 | 2019-11-29 | 腾讯科技(深圳)有限公司 | A kind of search processing method and device of document |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116377A (en) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | Information retriever |
JPH06208588A (en) * | 1992-08-14 | 1994-07-26 | Ricoh Co Ltd | Document retrieving system |
JPH1097545A (en) * | 1996-09-20 | 1998-04-14 | Sharp Corp | Information processor |
JP2000250589A (en) * | 1999-03-04 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | Voice recognition error correcting device |
JP2002259426A (en) * | 2001-02-28 | 2002-09-13 | Toshiba Corp | Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program |
JP2008090401A (en) * | 2006-09-29 | 2008-04-17 | Just Syst Corp | Document retrieval apparatus, method and program |
JP2008262279A (en) * | 2007-04-10 | 2008-10-30 | Mitsubishi Electric Corp | Speech retrieval device |
-
2010
- 2010-09-10 JP JP2010203280A patent/JP5404563B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116377A (en) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | Information retriever |
JPH06208588A (en) * | 1992-08-14 | 1994-07-26 | Ricoh Co Ltd | Document retrieving system |
JPH1097545A (en) * | 1996-09-20 | 1998-04-14 | Sharp Corp | Information processor |
JP2000250589A (en) * | 1999-03-04 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | Voice recognition error correcting device |
JP2002259426A (en) * | 2001-02-28 | 2002-09-13 | Toshiba Corp | Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program |
JP2008090401A (en) * | 2006-09-29 | 2008-04-17 | Just Syst Corp | Document retrieval apparatus, method and program |
JP2008262279A (en) * | 2007-04-10 | 2008-10-30 | Mitsubishi Electric Corp | Speech retrieval device |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015107659A1 (en) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | Inspection device |
JP5866084B2 (en) * | 2014-01-16 | 2016-02-17 | 三菱電機株式会社 | Search device |
CN110516062A (en) * | 2019-08-26 | 2019-11-29 | 腾讯科技(深圳)有限公司 | A kind of search processing method and device of document |
CN110516062B (en) * | 2019-08-26 | 2022-11-04 | 腾讯科技(深圳)有限公司 | Method and device for searching and processing document |
Also Published As
Publication number | Publication date |
---|---|
JP5404563B2 (en) | 2014-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5258959B2 (en) | Voice recognition device | |
JP6188831B2 (en) | Voice search apparatus and voice search method | |
JP5072415B2 (en) | Voice search device | |
Creutz et al. | Morph-based speech recognition and modeling of out-of-vocabulary words across languages | |
US9978364B2 (en) | Pronunciation accuracy in speech recognition | |
Oh et al. | An English-Korean transliteration model using pronunciation and contextual rules | |
US6823493B2 (en) | Word recognition consistency check and error correction system and method | |
CN110603583A (en) | Speech recognition system and method for speech recognition | |
WO2011035986A1 (en) | Method and system for enhancing a search request by a non-native speaker of a given language by correcting his spelling using the pronunciation characteristics of his native language | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
JP5274191B2 (en) | Voice recognition device | |
JP2001092494A (en) | Device and method for recognizing speech, and speech recognition program recording medium | |
JP5404563B2 (en) | Search device | |
Zablotskiy et al. | Speech and Language Resources for LVCSR of Russian. | |
JP5590549B2 (en) | Voice search apparatus and voice search method | |
JP5004863B2 (en) | Voice search apparatus and voice search method | |
Valizada | Subword speech recognition for agglutinative languages | |
Meng et al. | Addressing the out-of-vocabulary problem for large-scale Chinese spoken term detection. | |
JP2012255867A (en) | Voice recognition device | |
Chen et al. | Using Taigi dramas with Mandarin Chinese subtitles to improve Taigi speech recognition | |
JP5046902B2 (en) | Voice search device | |
Puurula et al. | Vocabulary decomposition for Estonian open vocabulary speech recognition | |
Sarikaya et al. | Maximum entropy modeling for diacritization of arabic text | |
Ljunglöf et al. | Interactive correction of speech recognition errors: Implementation and evaluation for English and Swedish | |
Lehečka et al. | Improving speech recognition by detecting foreign inclusions and generating pronunciations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131029 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |