Nothing Special   »   [go: up one dir, main page]

JP5915274B2 - Information search method, program, and information search apparatus - Google Patents

Information search method, program, and information search apparatus Download PDF

Info

Publication number
JP5915274B2
JP5915274B2 JP2012052465A JP2012052465A JP5915274B2 JP 5915274 B2 JP5915274 B2 JP 5915274B2 JP 2012052465 A JP2012052465 A JP 2012052465A JP 2012052465 A JP2012052465 A JP 2012052465A JP 5915274 B2 JP5915274 B2 JP 5915274B2
Authority
JP
Japan
Prior art keywords
sentence
unit
evaluation value
search
minimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012052465A
Other languages
Japanese (ja)
Other versions
JP2013186766A (en
Inventor
清司 大倉
清司 大倉
明 潮田
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012052465A priority Critical patent/JP5915274B2/en
Publication of JP2013186766A publication Critical patent/JP2013186766A/en
Application granted granted Critical
Publication of JP5915274B2 publication Critical patent/JP5915274B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本技術は、テキスト文書の検索技術に関する。   The present technology relates to a text document search technology.

よく知られたキーワードによる検索では、キーワード単位のクエリーを用いるため、キーワード間の関係を検索条件に含めることができない。例えば、ユーザが「熱の放出を低減することにより、環境負荷を減らす技術」を検索したい場合に、キーワード「熱の放出、環境負荷、低減」を入力する。しかし、このキーワードのクエリーには、あいまい性が含まれている。この場合、「熱の放出を低減する」と「環境負荷を低減する」の両方の意味を含み、一方の意味に限定していない。また、熱の放出と環境負荷との関係も特定していない。   In a search using a well-known keyword, a query in keyword units is used, so the relationship between keywords cannot be included in the search condition. For example, when the user wants to search for “technology for reducing environmental load by reducing heat release”, the keyword “heat release, environmental load, reduction” is input. However, this keyword query includes ambiguity. In this case, the meanings of both “reducing heat release” and “reducing environmental load” are included, but the meaning is not limited to one. Also, the relationship between heat release and environmental load is not specified.

このようにクエリーにあいまい性が含まれているキーワード検索には、以下の問題がある。
(1)ユーザが意図した通りに検索されない。
(2)キーワードを含んでいても意図しない文書が検索される。
Thus, the keyword search in which the ambiguity is included in the query has the following problems.
(1) The search is not performed as intended by the user.
(2) An unintended document is searched even if it contains a keyword.

特に、(2)の問題は、抽出された文書中から、ユーザが意図した部分を見つけ出す手間が煩雑であるという欠点を含んでいる。例えば、3つのキーワードで検索してすべてのキーワードを含む文が検出された場合でも、その文は意図しない関係を含んでいるかもしれない。つまり、キーワードにヒットした部分を出力しても、必ずしもユーザが欲しい情報ではないことがある。従って、有用な文を抽出する判断に、ユーザは時間を費やすことになる。   In particular, the problem (2) includes a drawback that it is troublesome to find out the part intended by the user from the extracted document. For example, even when a sentence including all keywords is detected by searching with three keywords, the sentence may include an unintended relationship. In other words, even if a portion that hits a keyword is output, it may not always be the information that the user wants. Therefore, the user spends time in determining to extract useful sentences.

特開平05−197758号公報Japanese Patent Laid-Open No. 05-197758

田中穗積、辻井潤一共編『自然言語理解』(オーム社、1988年)“Natural Language Understanding” edited by Junzo Tanaka and Junichi Sakurai (Ohm, 1988) Steven Bird, Ewan Klein, Edward Loper著 萩原正人、中山敬広、水 貴明訳『入門 自然言語処理』 O'Reilly Japan, 2010.Steven Bird, Ewan Klein, Edward Loper Masato Sugawara, Takahiro Nakayama, Takaaki Mizu "Introduction to Natural Language Processing" O'Reilly Japan, 2010. WEBサイト『Pythonによる日本語自然言語処理』(http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)WEB site "Japanese Natural Language Processing with Python" (http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)

本技術の目的は、一側面では、検索しようとするユーザが意図した文を抽出することである。   An object of the present technology is, in one aspect, to extract a sentence intended by a user who intends to search.

本技術の一側面に係る情報検索方法は、(A)2つの単語及び当該単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定し、(B)検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部から、検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定し、特定した検索対象文についての検索結果を出力する処理を含む。   The information search method according to one aspect of the present technology is as follows: (A) Search for a semantic minimum unit composed of two words and each element of the semantic relationship between the words, or one word and each element of the role of the one word. (B) A search target including a minimum semantic unit that matches the minimum semantic unit of the search key from the data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence. The process includes specifying a sentence and outputting a search result for the specified search target sentence.

ユーザが意図した文を抽出できるようになる。   The sentence intended by the user can be extracted.

図1は、情報検索装置のモジュール構成の例を示す図である。FIG. 1 is a diagram illustrating an example of a module configuration of the information search apparatus. 図2Aは、有効グラフの例を示す図である。FIG. 2A is a diagram illustrating an example of an effective graph. 図2Bは、意味最小単位の例を示す図である。FIG. 2B is a diagram illustrating an example of the smallest semantic unit. 図3Aは、原文の位置の例を示す図である。FIG. 3A is a diagram illustrating an example of the position of the original text. 図3Bは、検索インデックスの例を示す図である。FIG. 3B is a diagram illustrating an example of a search index. 図4は、検索対象文書の準備処理のフローの例を示す図である。FIG. 4 is a diagram showing an example of the flow of search target document preparation processing. 図5は、検索対象文書の例を示す図である。FIG. 5 is a diagram illustrating an example of a search target document. 図6は、検索対象文書の例を示す図である。FIG. 6 is a diagram illustrating an example of a search target document. 図7は、検索対象文書の例を示す図である。FIG. 7 is a diagram illustrating an example of a search target document. 図8は、検索対象文書の例を示す図である。FIG. 8 is a diagram illustrating an example of a search target document. 図9は、評価値テーブルの例を示す図である。FIG. 9 is a diagram illustrating an example of the evaluation value table. 図10Aは、検索処理のフローの例を示す図である。FIG. 10A is a diagram illustrating an example of a flow of search processing. 図10Bは、検索処理のフローの例を示す図である。FIG. 10B is a diagram illustrating an example of a flow of search processing. 図11は、クエリーと意味最小単位の例を示す図である。FIG. 11 is a diagram illustrating an example of a query and a minimum semantic unit. 図12は、コンピュータの機能ブロック図である。FIG. 12 is a functional block diagram of a computer.

図1は、情報検索装置のモジュール構成の例を示す。情報検索装置は、検索対象文書データベース11と検索用インデックス13と評価値テーブル15と入力部31と意味解析部33と意味最小単位生成部35と検索部37と評価値計算部39とランキング部41と出力部43とを有する。入力部31は、ユーザの操作により自然言語文の検索クエリーを受け付ける。意味解析部33は、入力部31により受け付けられた検索クエリーの意味解析を実施する。この処理は、自然言語文を解析し、その中の概念(単語の意味)間の関係を有向グラフで表現する。意味最小単位生成部35は、意味解析部33により出力された有向グラフから、意味最小単位を生成する。意味最小単位については、後述する。   FIG. 1 shows an example of the module configuration of the information search apparatus. The information search apparatus includes a search target document database 11, a search index 13, an evaluation value table 15, an input unit 31, a semantic analysis unit 33, a semantic minimum unit generation unit 35, a search unit 37, an evaluation value calculation unit 39, and a ranking unit 41. And an output unit 43. The input unit 31 receives a natural language sentence search query by a user operation. The semantic analysis unit 33 performs semantic analysis of the search query accepted by the input unit 31. In this process, a natural language sentence is analyzed, and a relationship between concepts (word meanings) in the sentence is expressed by a directed graph. The semantic minimum unit generator 35 generates a semantic minimum unit from the directed graph output by the semantic analyzer 33. The semantic minimum unit will be described later.

検索用インデックス13は、検索対象文書に含まれる各文の意味最小単位を格納しているデータベースである。予め行う準備処理では、複数の検索対象文書に対して意味解析を行い、それらの文書中の各文について意味最小単位を生成し、検索用インデックス13を生成する。また、準備処理では、検索用インデックス13に含まれる各意味最小単位の文書頻度を計算する。文書頻度は、その意味最小単位が出現する検索対象文書の数である。準備処理は、更にこれらの文書頻度を用いて各意味最小単位のidf値を計算する。意味最小単位毎のidf値は、評価値テーブル15に格納される。   The search index 13 is a database that stores a minimum semantic unit of each sentence included in a search target document. In the preparatory process performed in advance, semantic analysis is performed on a plurality of search target documents, a minimum semantic unit is generated for each sentence in the documents, and a search index 13 is generated. Further, in the preparation process, the document frequency of each meaning minimum unit included in the search index 13 is calculated. The document frequency is the number of search target documents in which the smallest semantic unit appears. In the preparation process, the idf value of each semantic minimum unit is further calculated using these document frequencies. The idf value for each semantic minimum unit is stored in the evaluation value table 15.

各意味最小単位のidf値は、log(総文書数/その意味最小単位を含む文書数)である。意味最小単位を含む検索対象文書の数がより少ない場合に、そのidf値はより大きい。idf値は、意味最小単位の評価値の一例である。意味最小単位の評価値は、他の値でもよい。その評価値は、意味最小単位の有用性を示すことが望ましい。   The idf value of each minimum semantic unit is log (total number of documents / number of documents including the minimum semantic unit). The idf value is larger when the number of search target documents including the smallest semantic unit is smaller. The idf value is an example of an evaluation value in the smallest semantic unit. The evaluation value of the smallest semantic unit may be another value. It is desirable that the evaluation value indicates the usefulness of the smallest semantic unit.

検索部37は、検索クエリーから生成された意味最小単位を条件として、検索用インデックス13を検索する。例えば、複数の意味最小単位はOR条件で用いられる。マッチした意味最小単位に対応する文書が、検索用インデックス13から選び出される。評価値計算部39は、評価値テーブル15と検索用インデックス13を参照し、マッチした意味最小単位に基づいて抽出した各文を含む文書の評価値を計算する。ランキング部41は、抽出した各文書をランク付けする。つまり、ランキング部41は、評価値計算部39により計算された文書の評価値をソートキーとしてソートする。出力部43は、ランク付けされた結果を出力する。出力の形態は、例えば表示、印刷、又は送信である。抽出された文書は、有用な順に並べられ、ユーザに提示される。例えば、抽出された文が表示される。   The search unit 37 searches the search index 13 on the condition of the smallest semantic unit generated from the search query. For example, a plurality of semantic minimum units are used in the OR condition. A document corresponding to the matched minimum semantic unit is selected from the search index 13. The evaluation value calculation unit 39 refers to the evaluation value table 15 and the search index 13 and calculates the evaluation value of the document including each sentence extracted based on the matched meaning minimum unit. The ranking unit 41 ranks each extracted document. That is, the ranking unit 41 sorts the document evaluation values calculated by the evaluation value calculation unit 39 using the sort key. The output unit 43 outputs the ranked result. The output form is, for example, display, printing, or transmission. The extracted documents are arranged in a useful order and presented to the user. For example, the extracted sentence is displayed.

次に、有向グラフと意味最小単位について説明する。意味最小単位は、意味解析の結果として得られる有向グラフの部分構造を表す。有向グラフは、ノードとアークとを含む。図2Aは、有効グラフの例を示し、図2Bは、意味最小単位の例を示す。原文は、「太郎は花子に本をあげた。」である。図中の有向グラフは、この原文対して意味解析を行った結果である。   Next, a directed graph and a minimum semantic unit will be described. The minimum semantic unit represents a partial structure of a directed graph obtained as a result of semantic analysis. The directed graph includes nodes and arcs. FIG. 2A shows an example of an effective graph, and FIG. 2B shows an example of a minimum semantic unit. The original text is "Taro gave a book to Hanako." The directed graph in the figure is the result of semantic analysis of this original text.

有向グラフについては、以下の文献などが参考になる。
・田中穗積、辻井潤一共編『自然言語理解』(オーム社、1988年)
・Steven Bird, Ewan Klein, Edward Loper著 萩原正人、中山敬広、水 貴明訳『入門 自然言語処理』 O'Reilly Japan, 2010.
・WEBサイト『Pythonによる日本語自然言語処理』(http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)
For directed graphs, the following documents are helpful.
・ Takenaka Tanaka and Junichi Sakurai “Natural Language Understanding” (Ohm, 1988)
・ Steven Bird, Ewan Klein, Edward Loper Masato Sugawara, Takahiro Nakayama, Takaaki Mizu “Introduction to Natural Language Processing” O'Reilly Japan, 2010.
・ Web site "Japanese natural language processing with Python" (http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)

ノードは、入力文中の単語の概念(意味)を表す。「あげる」、「本」、「太郎」、及び「花子」は、ノードの例である。それぞれのノードには、その概念を表す記号(概念記号という。)が付加される。「GIVE」、「BOOK」、「TARO」、及び「HANAKO」は、概念記号の例である。   The node represents the concept (meaning) of a word in the input sentence. “Give”, “Book”, “Taro”, and “Hanako” are examples of nodes. A symbol representing the concept (referred to as a concept symbol) is added to each node. “GIVE”, “BOOK”, “TARO”, and “HANAKO” are examples of conceptual symbols.

アークは、ノード間の関係又はノードの役割を表す。アークが2つのノード間にある場合には、そのアークは2つのノード間の関係を表す。例えば、図中「GIVE」ノードから「BOOK」ノードに引かれているアークは、「対象」と名付けられている。この表示は、「BOOK」は「GIVE」の対象であることを意味している。一方、終点のノードがないアークは、起点のノードが有する役割を表す。例えば、図中起点のノードが「GIVE」であり、かつ終点がノードのないアークの一方は、「過去」と名付けられている。「GIVE」は、過去の役割であることを意味している。   An arc represents the relationship between nodes or the role of nodes. If the arc is between two nodes, the arc represents the relationship between the two nodes. For example, an arc drawn from the “GIVE” node to the “BOOK” node in the figure is named “target”. This display means that “BOOK” is an object of “GIVE”. On the other hand, an arc having no end node represents the role of the start node. For example, one of the arcs whose starting point is “GIVE” and whose end point is not a node in the figure is named “past”. “GIVE” means a past role.

意味最小単位の生成では、有向グラフからアークを抽出し、以下のように処理する。
(1)アークが2つのノードをつないでいる場合には、意味最小単位として、それぞれのアークに対して、(アークが出る始点ノード、アークが向かう終点ノード、アークの名前)を出力する。
(2)アークが出る起点ノードがない場合には、意味最小単位として、(「NIL」、アークが向かう終点ノード、アークの名前)を出力する。
(3)アークが向かう終点ノードがない場合には、意味最小単位として、(アークが出る起点ノード,"NIL",アークの名前)を出力する。
In the generation of the smallest semantic unit, an arc is extracted from the directed graph and processed as follows.
(1) When the arc connects two nodes, (the starting point node where the arc comes out, the end point node where the arc goes, and the name of the arc) are output as the minimum semantic unit for each arc.
(2) If there is no origin node where the arc is generated, (NIL, end node toward which the arc is directed, arc name) is output as the smallest semantic unit.
(3) If there is no end node to which the arc is headed, (starting node from which the arc occurs, “NIL”, arc name) is output as the smallest semantic unit.

このように、意味最小単位は、文中の2つの概念間の関係または概念の役割を表すものである。これを検索キーにしてデータベースを検索することにより、自然言語文に込められた検索者の意図を反映した検索が可能となる。   Thus, the minimum semantic unit represents the relationship between two concepts in a sentence or the role of a concept. By searching the database using this as a search key, a search reflecting the intention of the searcher embedded in the natural language sentence can be performed.

意味最小単位は、有向グラフの部分構造に基づくので、意味最小単位のマッチングによる検索は、有向グラフのマッチングによる検索に比べて、より柔軟である。また、検索対象文書に含まれる意味最小単位のidf値を予め準備し、マッチした意味最小単位のidf値を特定し、そのidf値を用いて、マッチした意味最小単位についての文を含む文書の評価値を計算することができる。文書の評価値は、ランク付けに役立つ。   Since the minimum semantic unit is based on the partial structure of the directed graph, the search based on the matching of the minimum semantic unit is more flexible than the search based on the matching of the directed graph. In addition, the idf value of the minimum semantic unit included in the search target document is prepared in advance, the idf value of the minimum semantic unit matched is specified, and the idf value is used to determine the document including the sentence about the matched minimum semantic unit. An evaluation value can be calculated. The evaluation value of the document is useful for ranking.

以下、処理フローの例について説明する。この処理の特徴は、クエリー及び各検索対象文書に含まれる各文に関して意味解析を行い、それぞれの意味最小単位を得て、意味最小単位を検索キーとして検索することである。更に、意味最小単位のidf値を使って、抽出された文書の評価値を計算してランキングを行うことである。   Hereinafter, an example of a processing flow will be described. A feature of this process is that semantic analysis is performed on each query and each sentence included in each search target document, each minimum semantic unit is obtained, and the minimum semantic unit is searched as a search key. Furthermore, ranking is performed by calculating an evaluation value of the extracted document using the idf value of the smallest semantic unit.

この実施例では、自然言語文のクエリーを受け付け、自然言語文から自動的に意味最小単位を生成する。但し、意味最小単位のクエリーを受け付けることにより、意味最小単位を特定することもできる。   In this embodiment, a query of a natural language sentence is accepted and a minimum semantic unit is automatically generated from the natural language sentence. However, the minimum semantic unit can be specified by receiving a query of the minimum semantic unit.

この実施例では、「翻訳家によって修正された単語を辞書に登録する手段をもつ。」というクエリー文で、特許データベースを検索する場合を想定している。この例の目的は、クエリー文と深い関係を持つ特許明細書を検索することである。   In this embodiment, it is assumed that a patent database is searched with a query sentence “having means for registering a word corrected by a translator in a dictionary”. The purpose of this example is to retrieve patent specifications that are closely related to the query statement.

検索段階の前に、予め検索用インデックス13のデータベースを生成する。図3Aは、原文の位置の例を示し、図3Bは、検索インデックスの例を示す。検索インデックス13は、意味最小単位毎に、意味最小単位の内容と、元文書の文書IDと、元文の文IDと、始点ノードの位置と、始点ノードの文字列長と、終点ノードの位置と、終点ノードの文字列長を対応付けるレコードを記憶している。始点ノードの位置は、当該ノードに相当する文字列の文中開始位置である。終点ノードの位置も同様である。   Prior to the search stage, a database of search indexes 13 is generated in advance. FIG. 3A shows an example of the position of the original text, and FIG. 3B shows an example of a search index. The search index 13 includes, for each minimum semantic unit, the content of the minimum semantic unit, the document ID of the original document, the sentence ID of the original sentence, the position of the start node, the character string length of the start node, and the position of the end node. And a record that associates the character string length of the end node. The position of the start point node is the start position in the sentence of the character string corresponding to the node. The same applies to the position of the end node.

図4は、検索対象文書の準備処理のフローの例を示す図である。この処理は、図示しない準備部により実行される。準備部は、検索対象文書データベース11に含まれる各検索対象文書について(S101)、文書を複数の文に分割する(S103)。準備部は、各文について(S105)、意味解析を行い、意味最小単位を生成し、新たなレコードを検索用インデックスに追加する(S107)。   FIG. 4 is a diagram showing an example of the flow of search target document preparation processing. This process is executed by a preparation unit (not shown). For each search target document included in the search target document database 11 (S101), the preparation unit divides the document into a plurality of sentences (S103). For each sentence (S105), the preparation unit performs semantic analysis, generates a minimum semantic unit, and adds a new record to the search index (S107).

図5乃至図8は、検索対象文書の例を示す図である。図5は、検索対象文書Aに含まれる文m「本発明による機械翻訳システムは,翻訳家が修正した単語あるいは修正または作成した翻訳文をそれぞれ前記辞書および例文データベースに登録する登録手段を持つ。」の例を示している。更に、図5は、文mの意味解析により生成された意味最小単位の例を示している。図中の意味最小単位が表す意味は、参考である。生成された意味最小単位は、元の文書Aと文mと関連付けて記憶される。この関連付けの情報は、例えば評価値の計算に使われる。図6は、同様に検索対象文書Bに含まれる文nと、その意味最小単位と意味最小単位が表す意味を示している。図7は、同様に検索対象文書Cに含まれる文pと、その意味最小単位と意味最小単位が表す意味を示している。図8は、同様に検索対象文書Dに含まれる文qと、その意味最小単位と意味最小単位が表す意味を示している。   5 to 8 are diagrams illustrating examples of search target documents. FIG. 5 shows a sentence m included in the search target document A “The machine translation system according to the present invention has registration means for registering a word corrected by a translator or a corrected or created translation sentence in the dictionary and the example sentence database, respectively. Is shown as an example. Further, FIG. 5 shows an example of the minimum semantic unit generated by the semantic analysis of the sentence m. The meaning represented by the smallest semantic unit in the figure is for reference only. The generated minimum semantic unit is stored in association with the original document A and the sentence m. This association information is used, for example, for calculating an evaluation value. FIG. 6 similarly shows the sentence n included in the search target document B, the meaning minimum unit, and the meaning represented by the meaning minimum unit. FIG. 7 similarly shows the sentence p included in the search target document C and the meaning represented by the minimum semantic unit and the minimum semantic unit. FIG. 8 similarly shows the sentence q included in the search target document D, and the meaning represented by the smallest semantic unit and the smallest semantic unit.

図4の処理の説明に戻り、準備部は、意味最小単位の生成と検索インデックスの登録をすべて終了すると(S109,S111)、生成されたそれぞれの意味最小単位についてidf値を計算し、評価値テーブル15に格納する(S113)。図中のdfは、文書頻度を示す。図9は、評価値テーブルの例である。意味最小単位とidf値は、対応付けられる。   Returning to the description of the processing in FIG. 4, when the preparation unit completes the generation of the smallest semantic unit and the registration of the search index (S109 and S111), it calculates an idf value for each generated smallest semantic unit, and evaluates the evaluation value. It stores in the table 15 (S113). In the figure, df indicates the document frequency. FIG. 9 is an example of an evaluation value table. The minimum semantic unit and the idf value are associated with each other.

続いて、文書の検索について説明する。図10Aと図10Bは、検索処理のフローの例を示す図である。入力部31は、自然言語文のクエリーを受け付ける(S121)。例えば、クエリーは、文字入力装置から入力され、あるいはネットワークを介して受信される。複数の文を含むクエリーを受け付けた場合には、クエリーは一文ずつに分割される(S123)。この分割処理は、入力部31あるいは図示しない分割部により実行される。それぞれの文について(S125)、意味解析部33が意味解析を行い、意味最小単位生成部35が意味最小単位を生成する。意味解析部33は、生成した意味最小単位を検索キーの集合に追加する(S127)。クエリー内の全ての文について、上で述べたS125及びS127の処理が繰り返される(S129)。   Next, document search will be described. 10A and 10B are diagrams illustrating an example of a flow of search processing. The input unit 31 accepts a natural language sentence query (S121). For example, the query is input from a character input device or received via a network. When a query including a plurality of sentences is accepted, the query is divided into sentences (S123). This dividing process is executed by the input unit 31 or a dividing unit (not shown). For each sentence (S125), the semantic analyzer 33 performs semantic analysis, and the semantic minimum unit generator 35 generates a semantic minimum unit. The semantic analysis unit 33 adds the generated minimum semantic unit to the set of search keys (S127). The above-described processes of S125 and S127 are repeated for all sentences in the query (S129).

図11は、クエリーと意味最小単位の例を示す図である。クエリーの原文「翻訳家によって修正された単語を辞書に登録する手段をもつ。」の例を示している。更に、図11は、クエリー文の意味解析により生成された意味最小単位の例を示している。図中の意味最小単位が表す意味は、参考である。   FIG. 11 is a diagram illustrating an example of a query and a minimum semantic unit. An example of the original query “has means for registering a word corrected by a translator in a dictionary” is shown. Further, FIG. 11 shows an example of the minimum semantic unit generated by the semantic analysis of the query sentence. The meaning represented by the smallest semantic unit in the figure is for reference only.

意味解析部33は、一又は複数の意味最小単位を含む検索キーを特定する(S131)。検索部37は、それぞれの意味最小単位について、以下の処理を行う(S133)。検索部37は、検索用インデックス13から一致する意味最小単位を抽出する。意味最小単位のマッチングは、ここでは完全一致か否かで判断される。つまり、意味最小単位に含まれる始点ノードと終点ノードとアークの名前のすべてが同じ場合のみ、一致したと判定する。この例では、図5乃至図8の文m、文n、文p、及び文qのいずれもマッチする。そして、意味解析部33は、一致した意味最小単位に対応する文を識別する情報(文書IDと文ID)を読み取り、マッチした文についてのデータとして一時的に記憶する(S135)。検索部37が、検索キー中のすべての意味最小単位について処理すると(S137)、文書の評価の処理に移る。   The semantic analysis unit 33 specifies a search key including one or more minimum semantic units (S131). The search unit 37 performs the following processing for each semantic minimum unit (S133). The search unit 37 extracts a matching minimum semantic unit from the search index 13. The matching of the smallest semantic unit is determined here based on whether or not it is a perfect match. That is, it is determined that they match only when the start point node, end point node, and arc names included in the smallest semantic unit are the same. In this example, all of the sentence m, the sentence n, the sentence p, and the sentence q in FIGS. 5 to 8 match. Then, the semantic analysis unit 33 reads information (document ID and sentence ID) for identifying a sentence corresponding to the matched minimum semantic unit, and temporarily stores it as data about the matched sentence (S135). When the search unit 37 has processed all the smallest semantic units in the search key (S137), the process proceeds to document evaluation processing.

まず、評価値計算部39は、全文書の評価値を0に設定する(S139)。そして、評価値計算部39は、マッチした文毎に、以下の処理を繰り返す(S141)。評価値計算部39は、その文の評価値を算出する(S143)。そして、評価値計算部39は、その文を含む文書の評価値にその文の評価値を足す(S145)。評価値計算部39がマッチした文のすべてを処理することにより、文書の評価値が得られる(S147)。文書の評価値は、その文書に含まれる文の評価値の総和である。ランキング部41は、文書の評価値をソートキーとして文書をソートする(S149)。文書が、評価が高い順に並び替えられる。そして、出力部43は、並び替えられた文書のデータを出力する(S149)。例えば、出力部43は、文書に含まれるマッチした文を表示する。この場合、文書のランク付けは、間接的に文のランク付けとなる。出力部43は、文書IDに対応する文書を検索対象文書データベース11から取得し、マッチした文IDに対応する文を検索対象文書データベース11から取得する。   First, the evaluation value calculation unit 39 sets the evaluation values of all documents to 0 (S139). Then, the evaluation value calculation unit 39 repeats the following processing for each matched sentence (S141). The evaluation value calculation unit 39 calculates the evaluation value of the sentence (S143). Then, the evaluation value calculation unit 39 adds the evaluation value of the sentence to the evaluation value of the document including the sentence (S145). The evaluation value calculation unit 39 processes all of the matched sentences, thereby obtaining the evaluation value of the document (S147). The evaluation value of a document is the sum of evaluation values of sentences included in the document. The ranking unit 41 sorts the documents using the document evaluation values as sort keys (S149). Documents are sorted in descending order of evaluation. Then, the output unit 43 outputs the rearranged document data (S149). For example, the output unit 43 displays a matched sentence included in the document. In this case, the ranking of the document is indirectly the ranking of the sentence. The output unit 43 acquires a document corresponding to the document ID from the search target document database 11 and acquires a sentence corresponding to the matched sentence ID from the search target document database 11.

抽出された文の評価値をソートキーとして、抽出された文をソートして、ソート順に抽出された文を表示する形態も、有効である。   It is also effective to sort the extracted sentences using the evaluation values of the extracted sentences as sort keys and display the extracted sentences in the sort order.

文の評価値の算出について説明する。文の評価値は、以下の式で表される。   The calculation of the sentence evaluation value will be described. The evaluation value of the sentence is expressed by the following expression.

文nの評価値(Sn)=[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文nにおけるKiの出現回数)の総和]×Mの二乗 Evaluation value (Sn) of sentence n = [set of minimum semantic units of query (K1, K2,..., Ki,...)] ((Idf value of Ki appearing in sentence n × number of occurrences of Ki in sentence n)) Sum] x M squared

ただし、M=文nに同時に出現するKの種類数 However, M = number of K types that appear simultaneously in sentence n

Mは、クエリーの全体を網羅していることを評価することに役立つ。また、Mの二乗値を用いることにより、その評価の程度が増す。   M helps to evaluate that it covers the whole query. Further, the use of the square value of M increases the degree of evaluation.

文nにおけるKiの出現回数は、一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数である。また、Mは、一つの検索対象文に含まれる意味最小単位のうちのいずれかと一致し且つ検索キーとして特定された意味最小単位の種類数である。   The number of occurrences of Ki in the sentence n is the number of minimum semantic units that match the minimum semantic unit specified as the search key among the minimum semantic units included in one search target sentence. M is the number of types of minimum semantic units that match one of the minimum semantic units included in one search target sentence and specified as a search key.

具体的な評価値算出の処理を説明する。まず、評価値計算部39は、クエリーの意味最小単位が算出対象の文に出現する場合に、その意味最小単位のidf値を評価値テーブル15から取得する。評価値計算部39は、更に検索用インデックス13からその文IDとその意味最小単位を含むレコード数をカウントして、前述の出現回数を得る。そして、評価値計算部39は、idf値と出現回数の積を算出する。評価値計算部39は、出現したすべての意味最小単位で得た積の総和を算出する。そして、評価値計算部39は、算出対象の文に出現した異なる意味最小単位の数をカウントし、Mを得る。更に、評価値計算部39は、Mの二乗を求めて、算出した積の総和に乗ずる。このようにして、評価値計算部39は、文の評価値を算出する。   A specific evaluation value calculation process will be described. First, the evaluation value calculation unit 39 acquires the idf value of the minimum semantic unit from the evaluation value table 15 when the minimum semantic unit of the query appears in the sentence to be calculated. The evaluation value calculation unit 39 further counts the number of records including the sentence ID and the minimum semantic unit from the search index 13 to obtain the number of appearances described above. Then, the evaluation value calculation unit 39 calculates the product of the idf value and the number of appearances. The evaluation value calculation unit 39 calculates the sum of the products obtained in all the smallest semantic units that have appeared. Then, the evaluation value calculation unit 39 counts the number of different semantic minimum units that appear in the sentence to be calculated, and obtains M. Further, the evaluation value calculation unit 39 obtains the square of M and multiplies the calculated sum of products. In this way, the evaluation value calculation unit 39 calculates the evaluation value of the sentence.

評価値計算部39が、積を求める意味最小単位及びMにカウントする意味最小単位を特定の条件で選択してもよい。評価値計算部39は、例えば、idf値が閾値に満たない場合には、その意味最小単位に関する積は総和に加えないように処理してもよい。同様に、idf値が閾値に満たない意味最小単位については、Mの計数に入れないようにしてもよい。   The evaluation value calculation unit 39 may select a minimum semantic unit for obtaining a product and a minimum semantic unit for counting to M under specific conditions. For example, when the idf value is less than the threshold value, the evaluation value calculation unit 39 may perform processing so that the product related to the smallest semantic unit is not added to the sum. Similarly, a minimum meaning unit whose idf value is less than the threshold value may not be included in the M count.

このように、文の評価値は、その文に出現した意味最小単位(又はその一部)のその文における評価値の総和と、クエリーに対するその文に出現した意味最小単位(又はその一部)の網羅度との積として表される。   Thus, the evaluation value of a sentence is the sum of the evaluation values in the sentence of the smallest semantic unit (or part thereof) that appears in the sentence and the smallest semantic unit (or part thereof) that appears in the sentence for the query. It is expressed as the product of the degree of coverage.

文書の評価値は、以下の式で表される。   The evaluation value of the document is expressed by the following formula.

文書の評価値(D)=文nの評価値(Sn)の総計 Document evaluation value (D) = total of evaluation value (Sn) of sentence n

評価値計算部39は、図10Bに示した通り、文書に含まれる文の評価値を合算することにより文書の評価値を求める。 As shown in FIG. 10B, the evaluation value calculation unit 39 calculates the evaluation value of the document by adding the evaluation values of the sentences included in the document.

評価値の算出の例を示す。説明を簡略化するために、全ての意味最小単位のidf値を2.0と仮定する。例えば、文mは、6つの意味最小単位にマッチしている。各意味最小単位の文m中の出現回数は、すべて1回である。また、文mに出現する意味最小単位の数は6である。従って、文mの評価値は、
(2.0*1+2.0*1+2.0*1+2.0*1+2.0*1+2.0*1) * (6^2) = 432.0
となる。文nの評価値は、
(2.0*1+2.0*1) * (2^2) = 16.0
となる。文qの評価値は、
(2.0*1+2.0*1+2.0*1) * (3^2) = 54.0
となる。文pの評価値は、
(2.0*1) * (2^1) = 4.0
となる。このように、検索クエリーに係る意味最小単位をより多く含む文ほど、M2が大きくなり、高評価となる。
An example of calculation of an evaluation value is shown. In order to simplify the explanation, it is assumed that the idf value of all the semantic minimum units is 2.0. For example, the sentence m matches six minimum semantic units. The number of occurrences of each semantic minimum unit in the sentence m is one. The number of minimum semantic units appearing in the sentence m is six. Therefore, the evaluation value of sentence m is
(2.0 * 1 + 2.0 * 1 + 2.0 * 1 + 2.0 * 1 + 2.0 * 1 + 2.0 * 1) * (6 ^ 2) = 432.0
It becomes. The evaluation value of sentence n is
(2.0 * 1 + 2.0 * 1) * (2 ^ 2) = 16.0
It becomes. The evaluation value of sentence q is
(2.0 * 1 + 2.0 * 1 + 2.0 * 1) * (3 ^ 2) = 54.0
It becomes. The evaluation value of sentence p is
(2.0 * 1) * (2 ^ 1) = 4.0
It becomes. As described above, as the sentence including more minimum semantic units related to the search query becomes larger, M 2 becomes larger and is highly evaluated.

次に、文書の評価値を計算する。文書Aの評価値は、文書Aに含まれる全ての文の評価値の総和である。文書Aが文iと文mの2文からなると仮定する。文iの評価値が18.0であれば、文書Aの評価値は18.0+432.0=450.0となる。   Next, the evaluation value of the document is calculated. The evaluation value of document A is the sum of the evaluation values of all sentences included in document A. Assume that document A consists of two sentences, sentence i and sentence m. If the evaluation value of sentence i is 18.0, the evaluation value of document A is 18.0 + 432.0 = 450.0.

文書B、文書C、文書Dの評価値も同様に算出し、それぞれ106.0, 253.0, 90.0であると仮定する。評価値で文書を降順にランキングする。結果は、以下のようになる。
検索結果1位: 文書A(評価値=450.0)
検索結果2位: 文書C(評価値=253.0)
検索結果3位: 文書B(評価値=106.0)
検索結果4位: 文書D(評価値=90.0)
The evaluation values of Document B, Document C, and Document D are calculated in the same manner, and are assumed to be 106.0, 253.0, and 90.0, respectively. Rank documents in descending order by evaluation value. The result is as follows.
Search result 1st place: Document A (Evaluation value = 450.0)
Search result 2nd place: Document C (Evaluation value = 253.0)
Search result 3rd place: Document B (Evaluation value = 106.0)
Search result 4th place: Document D (Evaluation value = 90.0)

この例では、表現が違う場合、あるいは単語間に別の表現が含まれる場合でも、同じ意味の情報を含む文書を上位にランキングする。   In this example, even if the expressions are different or different expressions are included between words, the documents including the information having the same meaning are ranked higher.

以下のように、同じ意味を持つ文同士は、表現が違う場合でもマッチする。また、文中の2つの単語が他の単語列によって切り離されていても、本来の意味を失わないので、そのような場合でもマッチングは成功する。   As shown below, sentences with the same meaning match even if the expressions are different. Even if two words in a sentence are separated by another word string, the original meaning is not lost, and matching is successful even in such a case.

例えば、文mの「翻訳家が修正」の表現が、クエリーの「翻訳家によって修正」の表現にマッチする。意味最小単位は、共に(修正、翻訳家、動作主)である。文mの「単語あるいは修正または…をそれぞれ前記辞書および例文データベースに登録」の表現から導かれる意味最小単位は、 (登録,単語,目的語)である。従って、この場合も、クエリーにマッチする。文qの「単語は辞書3に登録してもよい」の表現から導かれる意味最小単位は、(登録,単語,目的語)である。この場合、「単語」は「登録」の主語ではなく、目的語として解釈される。従って、この場合も、クエリーにマッチする。   For example, the expression “translator corrected” in the sentence m matches the expression “corrected by translator” in the query. The smallest semantic unit is both (correction, translator, actor). The smallest semantic unit derived from the expression “register word or correction or... In the dictionary and example sentence database” of sentence m is (registration, word, object). Therefore, in this case, it matches the query. The smallest semantic unit derived from the expression “word may be registered in dictionary 3” of sentence q is (registration, word, object). In this case, “word” is not the subject of “registration”, but is interpreted as an object. Therefore, in this case, it matches the query.

例えば、ユーザが文書を選択した場合に、出力部43は、その文書に含まれる評価値の高い文をハイライト表示してもよい。文ごとの評価値が計算されているため、このような表示も可能である。   For example, when the user selects a document, the output unit 43 may highlight a sentence with a high evaluation value included in the document. Since the evaluation value for each sentence is calculated, such a display is also possible.

本実施例は、例えば、以下の効果を奏する。
1.語の意味と意味の関係を指定して検索できる。
2.抽出された文書をクエリーに関係の深い順にランキングし、出力できる。
This example has the following effects, for example.
1. You can search by specifying the meaning of a word and its relationship.
2. The extracted documents can be ranked and output in descending order of relation to the query.

尚、文書の評価値の算出方法には、例えば、以下のバリエーションがある。
1.文nの評価値(Sn)の総計:上述の算出方法
2.文書Dに含まれる文を評価値順にソートし、評価値が高いものから上位m件の評価値を総計する。
3.ある値k以上の文の評価値のみを総計する。
4.文番号i〜i+hの評価値xをかけあわせたものを総計する(Σ_i(xi・xi+1・…・xi+h))。
この値は、複数の文による相乗的な価値を評価することに役立つ。
5.上記4.のバリエーションとして、文番号i〜i+hの評価値の平均値のh乗を総計する。
この値は、文書全体の価値の密度を強調して評価することに役立つ。
6.上記4.のバリエーションとして、文番号i〜i+hの評価値に関して、評価値がk以下のものは掛け合わせる対象外とし、i〜i+hの評価値を掛け合わせたものを総計する。
この値は、重要度の低い情報の集積による過大評価を防ぐことに役立つ。
Note that the document evaluation value calculation method includes, for example, the following variations.
1. Total of evaluation values (Sn) of sentence n: calculation method 2 described above The sentences included in document D are sorted in order of evaluation value, and the highest m evaluation values from the highest evaluation value are totaled.
3. Only the evaluation values of sentences with a certain value k or more are totaled.
4). The sum of the evaluation values x of the sentence numbers i to i + h is summed up (Σ_i (x i · x i + 1 ... X i + h )).
This value is useful for evaluating the synergistic value of multiple sentences.
5. 4. above. As a variation of the above, the average value of the evaluation values of the sentence numbers i to i + h is summed up to the power h.
This value is useful for stressing and evaluating the value density of the entire document.
6). 4. above. As variations of the above, regarding the evaluation values of sentence numbers i to i + h, those having an evaluation value of k or less are excluded from multiplication, and the evaluation values of i to i + h are totaled.
This value helps prevent overestimation due to the accumulation of less important information.

更に、文の評価値の算出方法には、例えば、以下のバリエーションがある。
1.文nの評価値(Sn)=[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文nにおけるKiの出現回数)の総和] X Mの二乗
ただし、M=文nに同時に出現するKの数:上述の算出方法
2.上記1.に関して、意味最小単位の集合の中で、特定の条件(1つまたは複数)にあてはまる意味最小単位は計算の対象外とする。例えば、アークが「中心」である、アークが「過去」である、idf値が閾値以下の意味最小単位である、NILを含む、などの条件が考えられる。
3.上記1.の「M=文nに同時に出現する意味最小単位Kの数」に関して、特定の条件(1つまたは複数)にあてはまる意味最小単位は、数にカウントしない。
4.上記1.の「Mの二乗」のバリエーション:Mのべき乗(log(M))
5.上記1.の「意味最小単位」を「分割した意味最小単位」に置き換え
6.上記1.の「意味最小単位」を「意味最小単位と形態素」に置き換え
7.上記1.の「意味最小単位」を「意味最小単位と分割した意味最小単位」に置き換え
8.上記1.の「意味最小単位」を「意味最小単位と形態素と分割した意味最小単位」に置き換え
9.上記1.の「意味最小単位」を「分割した意味最小単位と形態素」に置き換え
10.上記2.乃至9.の任意の組み合わせ
Further, the sentence evaluation value calculation method includes, for example, the following variations.
1. Evaluation value (Sn) of sentence n = [(id, value of Ki appearing in sentence n × number of occurrences of Ki in sentence n) of the set of smallest semantic units of the query (K1, K2,... Ki,...) Total] X M squared, where M = number of K appearing simultaneously in sentence n: calculation method 2 above. Above 1. In the set of minimum semantic units, the minimum semantic unit that meets the specific condition (s) is excluded from the calculation. For example, conditions such that the arc is “center”, the arc is “past”, the idf value is a minimum semantic unit with a threshold value or less, and NIL is included.
3. Above 1. In regard to “M = number of semantic minimum units K appearing simultaneously in sentence n”, the minimum semantic units that meet a specific condition (one or more) are not counted.
4). Above 1. Variation of “M-squared”: Power of M (log (M))
5. Above 1. 5. Replace “Meaning unit” with “Separated smallest unit”. Above 1. 6. Replace “Meaning unit” with “Meaning unit and morpheme”. Above 1. 7. Replace “Meaning unit” with “Meaning unit divided into smallest unit”. Above 1. 8. Replace “Meaning unit” with “Meaning unit divided by morpheme”. Above 1. 9. Replace “Meaning unit” with “Separated smallest unit and morpheme”. 2. To 9. Any combination of

上述の「分割した意味最小単位」について説明する。分割した意味最小単位は、意味最小単位(ノード1,ノード2,アーク)を、(ノード1,アーク)及び(アーク,ノード2)のように分割した単位である。ただし、アークがNILのものは、(ノード1,ノード2,アーク)とする。   The above-described “divided minimum semantic unit” will be described. The divided meaning minimum unit is a unit obtained by dividing the meaning minimum unit (node 1, node 2, arc) into (node 1, arc) and (arc, node 2). However, when the arc is NIL, it is assumed that (node 1, node 2, arc).

例えば、意味最小単位(GIVE, BOOK, 対象)の分割した意味最小単位は、(GIVE,対象)および(対象,BOOK)である。また、意味最小単位(GIVE, NIL, 述語)の分割した意味最小単位は、 (GIVE, NIL, 述語)である。   For example, the minimum semantic units divided by the minimum semantic unit (GIVE, BOOK, target) are (GIVE, target) and (target, BOOK). Further, the smallest semantic unit divided by the smallest semantic unit (GIVE, NIL, predicate) is (GIVE, NIL, predicate).

「分割した意味最小単位」による検索は、「意味最小単位」による所定部分の一致検索に相当する。所定部分は、意味最小単位を構成するノード1とノード2とアークの要素のうち、(ノード1,アーク)及び(アーク,ノード2)のように所定の要素の組み合わせを意味する。   A search using “divided minimum semantic unit” corresponds to a matching search for a predetermined portion using “minimum semantic unit”. The predetermined part means a combination of predetermined elements such as (node 1, arc) and (arc, node 2) among the elements of node 1, node 2, and arc constituting the minimum semantic unit.

情報検索装置の機能は、1台のコンピュータではなく複数台のコンピュータで実現するようにしてもよい。   The function of the information retrieval apparatus may be realized by a plurality of computers instead of a single computer.

また、処理フローは一例であって、処理結果が変化しない限り変更してもよい。図1の機能ブロック分けは一例であり、実際のプログラムモジュール構成と一致していない場合もある。   Further, the processing flow is an example, and may be changed as long as the processing result does not change. The functional block division of FIG. 1 is an example, and may not match the actual program module configuration.

なお、上で述べた情報検索装置は、コンピュータ装置であって、図12に示すように、メモリ1501とCPU(Central Processing Unit)1503とハードディスク・ドライブ(HDD:Hard Disk Drive)1505と表示装置1509に接続される表示制御部1507とリムーバブル・ディスク1511用のドライブ装置1513と入力装置1515とネットワークに接続するための通信制御部1517とがバス1519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD1505に格納されており、CPU1503により実行される際にはHDD1505からメモリ1501に読み出される。CPU1503は、アプリケーション・プログラムの処理内容に応じて表示制御部1507、通信制御部1517、ドライブ装置1513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ1501に格納されるが、HDD1505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク1511に格納されて頒布され、ドライブ装置1513からHDD1505にインストールされる。インターネットなどのネットワーク及び通信制御部1517を経由して、HDD1505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU1503、メモリ1501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。   The information retrieval apparatus described above is a computer apparatus, and as shown in FIG. 12, a memory 1501, a CPU (Central Processing Unit) 1503, a hard disk drive (HDD: Hard Disk Drive) 1505, and a display apparatus 1509. A display control unit 1507 connected to, a drive device 1513 for a removable disk 1511, an input device 1515, and a communication control unit 1517 for connecting to a network are connected by a bus 1519. An operating system (OS) and an application program for executing the processing in this embodiment are stored in the HDD 1505, and are read from the HDD 1505 to the memory 1501 when executed by the CPU 1503. The CPU 1503 controls the display control unit 1507, the communication control unit 1517, and the drive device 1513 according to the processing content of the application program, and performs a predetermined operation. Further, data in the middle of processing is mainly stored in the memory 1501, but may be stored in the HDD 1505. In the embodiment of the present technology, an application program for performing the above-described processing is stored in a computer-readable removable disk 1511 and distributed, and is installed from the drive device 1513 into the HDD 1505. The HDD 1505 may be installed via a network such as the Internet and the communication control unit 1517. Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 1503 and the memory 1501 described above with programs such as the OS and application programs. .

以上述べた本技術の実施の形態をまとめると、以下のようになる。   The embodiments of the present technology described above are summarized as follows.

本実施の形態に係る情報検索方法は、(A)2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理と、(B)検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部から、検索キーの意味最小単位と一致する又は部分一致する意味最小単位を含む検索対象文を特定する第2の特定処理と、(C)特定した検索対象文についての検索結果を出力する出力処理とを含む。このように、キーワード検索では抽出できないようなユーザの意図に沿った検索結果が得られる。すなわち、単語以外の意味要素も、マッチングの対象となる。   In the information search method according to the present embodiment, (A) a semantic minimum unit consisting of two words and each element of the semantic relationship between the two words or one word and each element of the role of the one word, The first specifying process specified as a search key, and (B) for each search target sentence, matches the minimum semantic unit of the search key from the data storage unit storing the minimum semantic unit included in the search target sentence. Alternatively, a second specifying process for specifying a search target sentence including a partially matching minimum meaning unit and (C) an output process for outputting a search result for the specified search target sentence. In this way, a search result according to the user's intention that cannot be extracted by keyword search is obtained. That is, semantic elements other than words are also subject to matching.

また、データ格納部は、意味最小単位に関連付けて検索対象文の識別情報を格納するようにしてもよい。この場合、出力処理は、(c1)特定した検索対象文の当該識別情報に対応する検索対象文を、検索対象文を格納したデータベースから取得するようにしてもよい。このようにすれば、検索用インデックスを小さくし、検索処理負荷を軽減するとともに、確実に抽出した文を出力することができる。   The data storage unit may store the identification information of the search target sentence in association with the smallest semantic unit. In this case, the output process may acquire (c1) a search target sentence corresponding to the identification information of the specified search target sentence from a database storing the search target sentence. In this way, the search index can be reduced, the search processing load can be reduced, and the extracted sentence can be reliably output.

また、第2の特定処理は、(b1)検索キーの意味最小単位に含まれるすべての要素が、検索対象文に含まれる意味最小単位に含まれるすべての要素と同一であるか判定する処理を含むようにしてもよい。このようにすれば、意味最小単位による概念が完全に担保されるので、検索の精度が向上する。   The second specifying process is (b1) a process for determining whether all elements included in the minimum semantic unit of the search key are the same as all elements included in the minimum semantic unit included in the search target sentence. It may be included. In this way, the concept based on the smallest semantic unit is completely secured, so that the search accuracy is improved.

また、第2の特定処理は、(b2)検索キーの意味最小単位に含まれる一部の要素が、検索対象文に含まれる意味最小単位に含まれる一部の要素と同一であるか判定する処理を含むようにしてもよい。このようにすれば、意味最小単位による概念を生かして、類似の範疇の情報を抽出できるようになる。   The second specifying process (b2) determines whether some elements included in the minimum semantic unit of the search key are the same as some elements included in the minimum semantic unit included in the search target sentence. Processing may be included. In this way, information of similar categories can be extracted using the concept based on the smallest semantic unit.

また、更に、(D)自然言語文の検索クエリーを受け付け、(E)自然言語文を意味解析し、(F)自然言語文の意味解析結果から、検索キーとなる意味最小単位を生成するようにしてもよい。このようにすれば、自然言語文に込められた検索者の意図を反映した検索結果を、効率良く抽出することができる。   Furthermore, (D) a natural language sentence search query is accepted, (E) a natural language sentence is semantically analyzed, and (F) a semantic minimum unit serving as a search key is generated from the semantic analysis result of the natural language sentence. It may be. In this way, it is possible to efficiently extract a search result reflecting the searcher's intention embedded in the natural language sentence.

また、第1の特定処理で、検索キーとなる意味最小単位が複数特定された場合に、第2の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する意味最小単位を含む検索対象文を抽出する処理を含むようにしてもよい。このようにすれば、すべての意味最小単位が一致する文以外でも、部分的に関連の強い文を柔軟に検索することができる。   In addition, when a plurality of semantic minimum units serving as search keys are specified in the first specifying process, the second specifying process includes a search including a minimum semantic unit that matches at least one of the plurality of semantic minimum units. You may make it include the process which extracts an object sentence. In this way, it is possible to flexibly search for partially strongly related sentences other than sentences that match all the smallest semantic units.

また、更に、(G)検索対象文に含まれる意味最小単位の評価値が格納されている評価値格納部から、検索キーの意味最小単位と一致した意味最小単位の評価値を取得し、当該評価値に基づいて特定した検索対象文の評価値を算出するようにしてもよい。このようにすれば、評価の高い意味最小単位を含む文を優先することができる。例えば、希少な情報が抽出されやすい。   Further, (G) the evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from the evaluation value storage unit in which the evaluation value of the minimum semantic unit included in the search target sentence is stored. The evaluation value of the search target sentence specified based on the evaluation value may be calculated. In this way, it is possible to give priority to a sentence including a highly meaningful minimum unit. For example, rare information is easily extracted.

また、算出処理は、(g1)一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数に基づいて、特定した検索対象文の評価値を算出する処理を含むようにしてもよい。このようにすれば、同一文内で繰り返される意味最小単位に着目した優先付けができる。例えば、特定のテーマに専門化した文が抽出されやすい。   In addition, the calculation process (g1) out of the minimum semantic units included in one search target sentence, based on the number of minimum semantic units that match the minimum semantic unit specified as the search key, You may make it include the process which calculates an evaluation value. In this way, prioritization focusing on the smallest semantic unit repeated in the same sentence can be performed. For example, a sentence specialized in a specific theme is easily extracted.

また、算出処理は、(g2)一つの検索対象文に含まれる意味最小単位のうちのいずれかと一致し且つ検索キーとして特定された意味最小単位の種類数に基づいて、特定した検索対象文の評価値を算出する処理を含むようにしてもよい。このようにすれば、クエリー全体としての一致度に着目した優先付けができる。例えば、同じ論調の文章を探すことに役立つ。   In addition, the calculation process (g2) is based on the number of types of the minimum semantic unit that matches one of the minimum semantic units included in one search target sentence and is specified as the search key. You may make it include the process which calculates an evaluation value. In this way, prioritization focusing on the degree of matching of the entire query can be performed. For example, it helps to find sentences with the same tone.

また、算出処理では、(g3)以下の式に従って、文の評価値を算出するようにしてもよい。   In the calculation process, (g3) The sentence evaluation value may be calculated according to the following equation.

文の評価値=[検索キーの意味最小単位(K1,K2,・・・Ki,・・・)のうち、(文に含まれる意味最小単位と一致する又は文に含まれる意味最小単位と一致し且つ所定の条件を満たす意味最小単位Kiの評価値×文における当該意味最小単位Kiの出現回数)の総和]×(文に含まれる意味最小単位と一致する意味最小単位Kiの種類数に応じた値) Sentence evaluation value = [Of the search key semantic minimum units (K1, K2,... Ki,...), The same as the semantic minimum unit included in the sentence or the same as the minimum semantic unit included in the sentence. The sum of the evaluation value of the minimum semantic unit Ki satisfying a predetermined condition × the number of occurrences of the minimum semantic unit Ki in the sentence] × (according to the number of types of the minimum semantic unit Ki that matches the minimum semantic unit included in the sentence) Value)

このようにすれば、検索対象文書全体に対する意味最小単位の評価と、意味最小単位の文中の出現態様を、総合的に加味した重み付けができる。   In this way, it is possible to perform weighting that comprehensively takes into account the evaluation of the minimum semantic unit for the entire search target document and the appearance mode in the sentence of the minimum semantic unit.

また、更に、(I)特定した検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、(J)当該検索対象文書の評価値をソートキーとして、特定した検索対象文を含む検索対象文書を順序付けるようにしてもよい。この場合、出力処理は、(c1)当該検索対象文書の順序に従って検索結果を出力する処理を含むようにしてもよい。このようにすれば、抽出された文のみならず、近傍の文も含む文書全体から所望の情報を読み取る場合に、有用性の高い文書を優先することができる。   Furthermore, (I) based on the evaluation value of the specified search target sentence, the evaluation value of the search target document including the specified search target sentence is calculated, and (J) the evaluation value of the search target document is used as a sort key. The search target documents including the specified search target sentences may be ordered. In this case, the output process may include (c1) a process of outputting search results according to the order of the search target documents. In this way, when reading desired information from the entire document including not only the extracted sentence but also the nearby sentence, a highly useful document can be prioritized.

また、(i1)検索対象文書の評価値は、特定した検索対象文の評価値の総和であるようにしてもよい。このようにすれば、全体としての適合度が高い文書を抽出することができる。   (I1) The evaluation value of the search target document may be the sum of the evaluation values of the specified search target sentences. In this way, it is possible to extract a document having a high degree of fitness as a whole.

なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。   A program for causing a computer to perform the processing according to the above method can be created. The program can be a computer-readable storage medium such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, a hard disk, or the like. It is stored in a storage device. The intermediate processing result is temporarily stored in a storage device such as a main memory.

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。   The following supplementary notes are further disclosed with respect to the embodiments including the above examples.

(付記1)
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。
(Appendix 1)
A first specifying process for specifying, as a search key, a semantic minimum unit comprising two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence Specific processing,
An information search method executed by a computer, including output processing for outputting a search result for the specified search target sentence.

(付記2)
前記データ格納部は、前記意味最小単位に関連付けて前記検索対象文の識別情報を格納しており、
前記出力処理は、特定した前記検索対象文の当該識別情報に対応する検索対象文を、前記検索対象文を格納したデータベースから取得する
処理を含む付記1記載の情報検索方法。
(Appendix 2)
The data storage unit stores identification information of the search target sentence in association with the minimum semantic unit,
The information search method according to claim 1, wherein the output process includes a process of acquiring a search target sentence corresponding to the identification information of the specified search target sentence from a database storing the search target sentence.

(付記3)
前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
付記1又は2記載の情報検索方法。
(Appendix 3)
The second specifying process includes a process of determining whether all elements included in the minimum semantic unit of the search key are the same as all elements included in the minimum semantic unit included in the search target sentence. Including the information retrieval method according to appendix 1 or 2;

(付記4)
前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
付記1又は2記載の情報検索方法。
(Appendix 4)
The second specifying process determines whether a part of elements included in the minimum semantic unit of the search key is the same as a part of elements included in the minimum semantic unit included in the search target sentence. The information search method according to appendix 1 or 2, including processing.

(付記5)
自然言語文の検索クエリーを受け付け、
前記自然言語文を意味解析し、
前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
処理を、前記コンピュータが更に実行する付記1乃至4のいずれか1つ記載の情報検索方法。
(Appendix 5)
Accept natural language search queries,
Semantic analysis of the natural language sentence,
The information search method according to any one of appendices 1 to 4, wherein the computer further executes a process of generating the minimum semantic unit serving as the search key from a semantic analysis result of the natural language sentence.

(付記6)
前記第1の特定処理で、前記検索キーとなる意味最小単位が複数特定された場合に、
前記第2の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する前記意味最小単位を含む前記検索対象文を抽出する処理を含む
付記1乃至5のいずれか1つ記載の情報検索方法。
(Appendix 6)
When a plurality of minimum semantic units serving as the search keys are specified in the first specifying process,
The information search according to any one of appendices 1 to 5, wherein the second specifying process includes a process of extracting the search target sentence including the minimum semantic unit that matches at least one of the plurality of minimum semantic units. Method.

(付記7)
前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
処理を、前記コンピュータが更に実行する付記1乃至6のいずれか1つ記載の情報検索方法。
(Appendix 7)
From the evaluation value storage unit storing the evaluation value of the minimum semantic unit included in the search target sentence, the evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired, and the evaluation value The information search method according to any one of supplementary notes 1 to 6, wherein the computer further executes a process of calculating an evaluation value of the search target sentence specified based on the search target sentence.

(付記8)
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうち、前記検索キーとして特定された前記意味最小単位と一致した前記意味最小単位の数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記7記載の情報検索方法。
(Appendix 8)
The calculation process is based on the number of the minimum semantic units that match the minimum semantic unit specified as the search key among the minimum semantic units included in one search target sentence. The information search method according to appendix 7, which is a process of calculating an evaluation value of a sentence.

(付記9)
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうちのいずれかと一致し且つ前記検索キーとして特定された前記意味最小単位の種類数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記7記載の情報検索方法。
(Appendix 9)
The calculation process is based on the number of types of the minimum semantic unit that matches one of the minimum semantic units included in one search target sentence and is specified as the search key. The information search method according to appendix 7, which is a process of calculating an evaluation value.

(付記10)
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
付記7記載の情報検索方法。
(Appendix 10)
The calculation process is a process of calculating an evaluation value of a sentence according to the following formula: evaluation value of the sentence = [the minimum semantic unit (K1, K2,... Ki,...) Of the search key. (Evaluation value of the minimum semantic unit Ki that matches the minimum semantic unit included in the sentence or that matches the minimum semantic unit included in the sentence and satisfies a predetermined condition × the minimum semantic unit in the sentence) Sum of the number of occurrences of Ki) × (value corresponding to the number of types of minimum semantic unit Ki matching the minimum semantic unit included in the sentence)
The information search method according to appendix 7.

(付記11)
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
処理を、前記コンピュータが更に実行し、
前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
付記1乃至10のいずれか1つ記載の情報検索方法。
(Appendix 11)
Based on the evaluation value of the specified search target sentence, the evaluation value of the search target document including the specified search target sentence is calculated,
The computer further executes a process of ordering search target documents including the specified search target sentence using the evaluation value of the search target document as a sort key,
The information search method according to any one of appendices 1 to 10, wherein the output process includes a process of outputting a search result according to an order of the search target document.

(付記12)
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
付記11記載の情報検索方法。
(Appendix 12)
The information search method according to claim 11, wherein the evaluation value of the search target document is a sum of evaluation values of the specified search target sentences.

(付記13)
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータに実行させるためのプログラム。
(Appendix 13)
A first specifying process for specifying, as a search key, a semantic minimum unit comprising two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence Specific processing,
A program for causing a computer to execute an output process including outputting a search result for the specified search target sentence.

(付記14)
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。
(Appendix 14)
A first specifying unit that specifies, as a search key, a semantic minimum unit composed of two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence A specific part,
An output unit for outputting a search result for the specified search target sentence;
An information retrieval apparatus having

11 検索対象文書データベース
13 検索用インデックス
15 評価値テーブル
31 入力部
33 意味解析部
35 意味最小単位生成部
37 検索部
39 評価値計算部
41 ランキング部
43 出力部
1501 メモリ
1503 CPU(Central Processing Unit)
1505 ハードディスク・ドライブ(HDD:Hard Disk Drive)
1507 表示制御部
1509 表示装置
1511 リムーバブル・ディスク
1513 ドライブ装置
1515 入力装置
1517 通信制御部
1519 バス
11 Search Target Document Database 13 Search Index 15 Evaluation Value Table 31 Input Unit 33 Semantic Analysis Unit 35 Meaning Minimum Unit Generation Unit 37 Search Unit 39 Evaluation Value Calculation Unit 41 Ranking Unit 43 Output Unit 1501 Memory 1503 CPU (Central Processing Unit)
1505 Hard Disk Drive (HDD)
1507 Display control unit 1509 Display device 1511 Removable disk 1513 Drive device 1515 Input device 1517 Communication control unit 1519 Bus

Claims (9)

2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
前記検索対象文に含まれる前記意味最小単位毎の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて、特定した前記検索対象文の評価値を算出する算出処理、
前記検索対象文の評価値に基づいて、特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法であって、
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
情報検索方法
A first specifying process for specifying, as a search key, a semantic minimum unit comprising two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence Specific processing,
An evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from an evaluation value storage unit in which an evaluation value for each minimum semantic unit included in the search target sentence is stored, and the evaluation value A calculation process for calculating an evaluation value of the specified search target sentence based on
An output process for outputting a search result for the specified search target sentence based on an evaluation value of the search target sentence, and an information search method executed by a computer ,
The calculation process is a process for calculating an evaluation value of a sentence according to the following formula.
Evaluation value of the sentence = [Of the minimum semantic units (K1, K2,... Ki,...) Of the search key (matches the minimum semantic unit included in the sentence or is included in the sentence. The sum of the evaluation value of the minimum semantic unit Ki that satisfies the predetermined minimum unit and satisfying a predetermined condition × the number of occurrences of the minimum semantic unit Ki in the sentence] × (the minimum semantic unit included in the sentence) The value according to the number of types of matching semantic minimum unit Ki)
Information retrieval method .
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
前記検索対象文に含まれる前記意味最小単位毎の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて、特定した前記検索対象文の評価値を算出する算出処理、
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算する処理、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける処理、
前記検索対象文の評価値に基づく前記検索対象文書の順序に従って、特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。
A first specifying process for specifying, as a search key, a semantic minimum unit comprising two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence Specific processing,
An evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from an evaluation value storage unit in which an evaluation value for each minimum semantic unit included in the search target sentence is stored, and the evaluation value A calculation process for calculating an evaluation value of the specified search target sentence based on
A process for calculating an evaluation value of a search target document including the specified search target sentence based on the specified evaluation value of the search target sentence;
A process for ordering search target documents including the specified search target sentence using the evaluation value of the search target document as a sort key;
According to the order of based rather the target document on the evaluation value of the search subject sentence includes an output process of outputting the search result for the specified the search subject sentence, information search method executed by a computer.
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
請求項記載の情報検索方法。
The information search method according to claim 2 , wherein the evaluation value of the search target document is a sum of evaluation values of the specified search target sentences.
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
前記検索対象文に含まれる前記意味最小単位毎の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて、特定した前記検索対象文の評価値を算出する算出処理、
前記検索対象文の評価値に基づいて、特定した前記検索対象文についての検索結果を出力する出力処理
をコンピュータに実行させるためのプログラムであって、
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
プログラム
A first specifying process for specifying, as a search key, a semantic minimum unit comprising two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence Specific processing,
An evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from an evaluation value storage unit in which an evaluation value for each minimum semantic unit included in the search target sentence is stored, and the evaluation value A calculation process for calculating an evaluation value of the specified search target sentence based on
Output processing for outputting a search result for the specified search target sentence based on the evaluation value of the search target sentence
The A program to be executed by a computer,
The calculation process is a process for calculating an evaluation value of a sentence according to the following formula.
Evaluation value of the sentence = [Of the minimum semantic units (K1, K2,... Ki,...) Of the search key (matches the minimum semantic unit included in the sentence or is included in the sentence. The sum of the evaluation value of the minimum semantic unit Ki that satisfies the predetermined minimum unit and satisfying a predetermined condition × the number of occurrences of the minimum semantic unit Ki in the sentence] × (the minimum semantic unit included in the sentence) The value according to the number of types of matching semantic minimum unit Ki)
Program .
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
前記検索対象文に含まれる前記意味最小単位毎の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて、特定した前記検索対象文の評価値を算出する算出処理、
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算する処理、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける処理、
前記検索対象文の評価値に基づく前記検索対象文書の順序に従って、特定した前記検索対象文についての検索結果を出力する出力処理
をコンピュータに実行させるためのプログラム。
A first specifying process for specifying, as a search key, a semantic minimum unit comprising two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence Specific processing,
An evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from an evaluation value storage unit in which an evaluation value for each minimum semantic unit included in the search target sentence is stored, and the evaluation value A calculation process for calculating an evaluation value of the specified search target sentence based on
A process for calculating an evaluation value of a search target document including the specified search target sentence based on the specified evaluation value of the search target sentence;
A process for ordering search target documents including the specified search target sentence using the evaluation value of the search target document as a sort key;
The search according to the order of based rather the target document on the evaluation value of the subject statement, the output process of outputting the search result for the specified the search subject sentence
Program for executing the the computer.
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
請求項記載のプログラム。
The program according to claim 5 , wherein the evaluation value of the search target document is a sum of evaluation values of the specified search target sentences.
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
前記検索対象文に含まれる前記意味最小単位毎の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて、特定した前記検索対象文の評価値を算出する算出部と、
前記検索対象文の評価値に基づいて、特定した前記検索対象文についての検索結果を出力する出力部と、
を有し、
前記算出部は、以下の式に従って、文の評価値を算出する
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
情報検索装置。
A first specifying unit that specifies, as a search key, a semantic minimum unit composed of two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence A specific part,
An evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from an evaluation value storage unit in which an evaluation value for each minimum semantic unit included in the search target sentence is stored, and the evaluation value A calculation unit that calculates an evaluation value of the specified sentence to be searched based on
Based on the evaluation value of the search target sentence, an output unit that outputs a search result for the specified search target sentence;
I have a,
The calculation unit calculates an evaluation value of a sentence according to the following formula:
Evaluation value of the sentence = [Of the minimum semantic units (K1, K2,... Ki,...) Of the search key (matches the minimum semantic unit included in the sentence or is included in the sentence. The sum of the evaluation value of the minimum semantic unit Ki that satisfies the predetermined minimum unit and satisfying a predetermined condition × the number of occurrences of the minimum semantic unit Ki in the sentence] × (the minimum semantic unit included in the sentence) The value according to the number of types of matching semantic minimum unit Ki)
Information retrieval device.
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
前記検索対象文に含まれる前記意味最小単位毎の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて、特定した前記検索対象文の評価値を算出する算出部と、
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算する計算部と、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける順序付け部と、
前記検索対象文の評価値に基づく前記検索対象文書の順序に従って、特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。
A first specifying unit that specifies, as a search key, a semantic minimum unit composed of two words and each element of a semantic relationship between the two words or one word and each element of the role of the one word;
A second target for specifying a search target sentence including a minimum semantic unit that matches the minimum semantic unit of the search key in a data storage unit storing the minimum semantic unit included in the search target sentence for each search target sentence A specific part,
An evaluation value of the minimum semantic unit that matches the minimum semantic unit of the search key is acquired from an evaluation value storage unit in which an evaluation value for each minimum semantic unit included in the search target sentence is stored, and the evaluation value A calculation unit that calculates an evaluation value of the specified sentence to be searched based on
A calculation unit that calculates an evaluation value of a search target document including the specified search target sentence based on the specified evaluation value of the search target sentence;
An ordering unit that orders the search target documents including the specified search target sentence using the evaluation value of the search target document as a sort key;
According to the order of based rather the target document on the evaluation value of the search subject sentence, and an output unit for outputting a search result for the specified the search subject sentence,
An information retrieval apparatus having
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
請求項記載の情報検索装置。
The information search apparatus according to claim 8 , wherein the evaluation value of the search target document is a sum of evaluation values of the specified search target sentences.
JP2012052465A 2012-03-09 2012-03-09 Information search method, program, and information search apparatus Active JP5915274B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012052465A JP5915274B2 (en) 2012-03-09 2012-03-09 Information search method, program, and information search apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012052465A JP5915274B2 (en) 2012-03-09 2012-03-09 Information search method, program, and information search apparatus

Publications (2)

Publication Number Publication Date
JP2013186766A JP2013186766A (en) 2013-09-19
JP5915274B2 true JP5915274B2 (en) 2016-05-11

Family

ID=49388113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012052465A Active JP5915274B2 (en) 2012-03-09 2012-03-09 Information search method, program, and information search apparatus

Country Status (1)

Country Link
JP (1) JP5915274B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6260294B2 (en) * 2014-01-21 2018-01-17 富士通株式会社 Information search device, information search method, and information search program
JP6447161B2 (en) * 2015-01-20 2019-01-09 富士通株式会社 Semantic structure search program, semantic structure search apparatus, and semantic structure search method
JP6638480B2 (en) * 2016-03-09 2020-01-29 富士通株式会社 Similar document search program, similar document search device, and similar document search method
JP6737025B2 (en) 2016-07-19 2020-08-05 富士通株式会社 Encoding program, retrieval program, encoding device, retrieval device, encoding method, and retrieval method
CN108170689A (en) * 2016-12-07 2018-06-15 富士通株式会社 The information processing unit and information processing method of semantization are carried out to entity
KR102353381B1 (en) * 2019-04-30 2022-01-19 정철환 Electronic device, method, and computer program for supporting naming process

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3363501B2 (en) * 1993-01-18 2003-01-08 三洋電機株式会社 Text search device
JP3202381B2 (en) * 1993-01-28 2001-08-27 株式会社東芝 Document search device and document search method
JP4602388B2 (en) * 2007-09-19 2010-12-22 株式会社東芝 Similar sentence search system and program
JP2009199280A (en) * 2008-02-21 2009-09-03 Hitachi Ltd Similarity retrieval system using partial syntax tree profile
JP2009271659A (en) * 2008-05-02 2009-11-19 Ricoh Co Ltd Information processing apparatus, information processing method, information processing program and recording medium
JP5302614B2 (en) * 2008-10-09 2013-10-02 株式会社インテック Facility related information search database formation method and facility related information search system
JP5493779B2 (en) * 2009-11-30 2014-05-14 富士ゼロックス株式会社 Information search program and information search apparatus

Also Published As

Publication number Publication date
JP2013186766A (en) 2013-09-19

Similar Documents

Publication Publication Date Title
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
US7814099B2 (en) Method for ranking and sorting electronic documents in a search result list based on relevance
JP5597255B2 (en) Ranking search results based on word weights
JP5915274B2 (en) Information search method, program, and information search apparatus
US10108699B2 (en) Adaptive query suggestion
EP2192503A1 (en) Optimised tag based searching
US20150081654A1 (en) Techniques for Entity-Level Technology Recommendation
JP2009193219A (en) Indexing apparatus, method thereof, program, and recording medium
CN116738065B (en) Enterprise searching method, device, equipment and storage medium
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
JP2009122807A (en) Associative retrieval system
Kantorski et al. Automatic filling of hidden web forms: A survey
US9940408B2 (en) Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium
JP6639040B2 (en) Information retrieval device and program
JP2012104051A (en) Document index creating device
JP5450135B2 (en) Retrieval modeling system and method using relevance dictionary
US8117205B2 (en) Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric
JP3558267B2 (en) Document search device
Schedl et al. Automatically detecting members and instrumentation of music bands via web content mining
JP2009271671A (en) Information processor, information processing method, program, and recording medium
JP4208402B2 (en) Document search apparatus, document search method, and recording medium
Iyad et al. Towards supporting exploratory search over the Arabic web content: The case of ArabXplore
Kern et al. Model selection strategies for author disambiguation
JP5193952B2 (en) Document search apparatus and document search program
JP2006277061A (en) Knowledge retrieval system, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160321

R150 Certificate of patent or registration of utility model

Ref document number: 5915274

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150