Nothing Special   »   [go: up one dir, main page]

JP2019082931A - Retrieval device, similarity calculation method, and program - Google Patents

Retrieval device, similarity calculation method, and program Download PDF

Info

Publication number
JP2019082931A
JP2019082931A JP2017210819A JP2017210819A JP2019082931A JP 2019082931 A JP2019082931 A JP 2019082931A JP 2017210819 A JP2017210819 A JP 2017210819A JP 2017210819 A JP2017210819 A JP 2017210819A JP 2019082931 A JP2019082931 A JP 2019082931A
Authority
JP
Japan
Prior art keywords
sentence
similarity
word
inter
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017210819A
Other languages
Japanese (ja)
Other versions
JP6955963B2 (en
Inventor
中島 章
Akira Nakajima
章 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2017210819A priority Critical patent/JP6955963B2/en
Publication of JP2019082931A publication Critical patent/JP2019082931A/en
Application granted granted Critical
Publication of JP6955963B2 publication Critical patent/JP6955963B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To calculate the degree of similarity taking the roles of words appearing in two sentences into consideration.SOLUTION: A feature quantity specification unit specifies a feature quantity for each of words constituting first and second sentences. A role specification unit specifies a grammatical role of each of the words constituting the first and second sentences. An inter-word similarity specification unit specifies an inter-word similarity that is the similarity between the feature quantity of words constituting the first sentence and a feature quantity relating to words having a role common to the words constituting the first sentence among the words constituting the second sentence. An inter-sentence similarity specification unit specifies an inter-sentence similarity that is the similarity between the first and second sentence on the basis of the inter-word similarities between words.SELECTED DRAWING: Figure 4

Description

本発明は、検索装置、類似度算出方法、およびプログラムに関する。   The present invention relates to a search device, a similarity calculation method, and a program.

特許文献1には、2つの文をそれぞれ特徴ベクトルに変換して類似度を計算し、その後、構文解析を用いて係り受け関係等が一致する単語を除くことで、2つの文の差異を抽出する技術が開示されている。   In Patent Document 1, two sentences are respectively converted into feature vectors to calculate the degree of similarity, and then, by using syntactic analysis, the difference between the two sentences is extracted by excluding words having the same dependency relation. Technology is disclosed.

特許第5367099号公報Patent No. 5367099 gazette

2つの文を比較する際、特許文献1に記載されたように文の特徴ベクトルどうしの類似度を計算すると、2つの文に共通して互いに類似する語が出現する場合に、類似度が高くなる。しかしながら、互いに類似する語が、2つの文において必ずしも同じ役割を担っているとは限らない。例えば、第1の文“A boy has a small dictionary”と、第2の文“A small boy has a dictionary”とでは、第1の文では語“small”が“dictionary”を修飾しているのに対し、第2の文では語“small”が“boy”を修飾している。一方で、2つの文に出現する語は一致しているので、文の特徴ベクトルの類似度は高く評価されてしまう。
本発明の目的は、2つの文に出現する語の役割を加味して類似度を算出する検索装置、類似度算出方法、およびプログラムを提供することにある。
When comparing the two sentences, if the similarity between the feature vectors of the sentences is calculated as described in Patent Document 1, the similarity is high when words similar to each other appear in common between the two sentences. Become. However, words that are similar to one another do not always play the same role in the two sentences. For example, in the first sentence "A boy has a small dictionary" and the second sentence "A small boy has a dictionary", in the first sentence, the word "small" modifies "dictionary" On the other hand, in the second sentence, the word "small" modifies "boy". On the other hand, since the words appearing in the two sentences match, the similarity of the feature vectors of the sentences is highly evaluated.
An object of the present invention is to provide a search device, a similarity calculation method, and a program that calculate similarity by taking into consideration the role of words appearing in two sentences.

本発明の第1の態様によれば、類似度特定装置(100)は、第1の文および第2の文を構成する語別に特徴量を特定する特徴量特定部(105)と、前記第1の文および前記第2の文を構成する前記語毎の文法的な役割を特定する役割特定部(106)と、前記第1の文を構成する語の特徴量と、前記第2の文を構成する語のうち前記第1の文を構成する前記語と共通する役割の語に係る特徴量との類似度である語間類似度を特定する語間類似度特定部(108)と、前記語別の前記語間類似度に基づいて前記第1の文と前記第2の文との類似度である文間類似度を特定する文間類似度特定部(109)とを備える。これにより、類似度特定装置は、2つの文に出現する語の役割を加味して類似度を特定することができる。   According to the first aspect of the present invention, the similarity specifying device (100) comprises: a feature identifying unit (105) for identifying a feature according to words constituting the first sentence and the second sentence; A role specification unit (106) for specifying a grammatical role of each of the words constituting the first sentence and the second sentence; feature quantities of the words constituting the first sentence; and the second sentence An inter-word similarity specifying unit (108) for specifying an inter-word similarity, which is a similarity between feature words related to a word having a role common to the word constituting the first sentence among words constituting the word; An inter-situment similarity specifying unit (109) for specifying an inter-sentence similarity which is a similarity between the first sentence and the second sentence based on the inter-word similarity according to the words. Thereby, the similarity specifying device can specify the similarity in consideration of the role of the words appearing in the two sentences.

本発明の第2の態様によれば、第1の態様に係る類似度特定装置における前記文間類似度特定部は、前記語の役割に応じた重み係数を用いた前記語間類似度の荷重和を計算することで、文間類似度を特定するものであってよい。これにより、類似度特定装置は、文を構成する語ごとの文における重要性を加味して2つの文の間の類似度を特定することができる。   According to a second aspect of the present invention, in the similarity specifying device according to the first aspect, the inter-word similarity specifying unit is configured to calculate the weight of the inter-word similarity using a weighting factor according to the role of the word. Inter-sentence similarity may be specified by calculating the sum. Thus, the similarity specifying device can specify the similarity between the two sentences in consideration of the importance of each word constituting the sentence.

本発明の第3の態様によれば、第1または第2の態様に係る類似度特定装置における前記語間類似度特定部は、前記第1の文を構成する前記語と同じ役割の語が前記第2の文にない場合に、語間類似度を所定のペナルティ値に特定するものであってよい。これにより、類似度特定装置は、構造が異なる文どうしの比較において文間類似度を低く算出することができる。   According to a third aspect of the present invention, in the similarity specifying device according to the first or second aspect, the inter-word similarity specifying unit has a word having the same role as the word constituting the first sentence. In the case where the second sentence is not present, the inter-word similarity may be specified to a predetermined penalty value. Thus, the similarity specifying device can calculate the similarity between sentences low in comparison between sentences having different structures.

本発明の第4の態様によれば、第1から第3の何れかの態様に係る類似度特定装置における前記特徴量は、前記語数より少ない次元数のベクトルであるものであってよい。これにより類似度特定装置は、表記の異なる語どうしの類似度を算出することができる。   According to the fourth aspect of the present invention, the feature amount in the similarity specifying device according to any one of the first to third aspects may be a vector having a dimension number smaller than the number of words. Thus, the similarity specifying device can calculate the similarity between words having different notations.

本発明の第5の態様によれば、第1から第4の何れかの態様に係る類似度特定装置における前記役割特定部は、句構造解析処理により、前記語別に役割を特定するものであってよい。   According to a fifth aspect of the present invention, the role specifying unit in the similarity specifying device according to any one of the first to fourth aspects specifies a role according to the word by phrase structure analysis processing. You may

本発明の第6の態様によれば、類似度特定方法は、第1の文および第2の文を構成する語別に特徴量を特定するステップと、前記第1の文および前記第2の文を構成する前記語毎の文法的な役割を特定するステップと、前記第1の文を構成する語の特徴量と、前記第2の文を構成する語のうち前記第1の文を構成する前記語と同じ役割の語に係る特徴量との類似度である語間類似度を特定するステップと、前記語別の前記語間類似度に基づいて前記第1の文と前記第2の文との類似度である文間類似度を特定するステップとを含む。   According to a sixth aspect of the present invention, there is provided a similarity degree specifying method comprising the steps of: identifying a feature amount according to words constituting a first sentence and a second sentence; and the first sentence and the second sentence Identifying a grammatical role of each of the words constituting the word, feature quantities of the words constituting the first sentence, and the first sentence among the words constituting the second sentence Identifying an inter-word similarity, which is a similarity between the word and the feature associated with the word having the same role, and the first sentence and the second sentence based on the inter-word similarity for each word And (d) identifying an inter-sentence similarity that is a similarity to

本発明の第7の態様によれば、プログラムは、コンピュータに、第1の文および第2の文を構成する語別に特徴量を特定するステップと、前記第1の文および前記第2の文を構成する前記語別に前記語毎の文法的な役割を特定するステップと、前記第1の文を構成する語の特徴量と、前記第2の文を構成する語のうち前記第1の文を構成する前記語と同じ役割の語に係る特徴量との類似度である語間類似度を特定するステップと、前記語別の前記語間類似度に基づいて前記第1の文と前記第2の文との類似度である文間類似度を特定するステップとを実行させる。   According to a seventh aspect of the present invention, a program includes the steps of: specifying, on a computer, a feature amount for each word constituting a first sentence and a second sentence, the first sentence and the second sentence Identifying the grammatical role of each word according to the words constituting the word, the feature amount of the words constituting the first sentence, and the first sentence among the words constituting the second sentence Specifying an inter-word similarity, which is a similarity between the word forming the word and a feature associated with the word having the same role, and based on the inter-word similarity between the words, the first sentence and the Specifying an inter-sentence similarity that is a similarity to two sentences.

上記態様のうち少なくとも1つの態様によれば、類似度特定装置は、2つの文に出現する語の役割を加味して類似度を算出することができる。   According to at least one of the above aspects, the similarity specifying device can calculate the similarity taking into consideration the roles of words appearing in two sentences.

第1の実施形態に係る検索装置の構成を示す概略ブロック図である。It is a schematic block diagram showing composition of a search device concerning a 1st embodiment. 句構造解析による文法機能の特定方法の例を示す図である。It is a figure which shows the example of the identification method of the grammar function by phrase structure analysis. 係り受け解析による文法機能の特定方法の例を示す図である。It is a figure which shows the example of the identification method of the grammar function by dependency analysis. 2つの文の対応箇所の特定方法の例を示す図である。It is a figure which shows the example of the identification method of the corresponding part of two sentences. 第1の実施形態に係る検索装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the search device which concerns on 1st Embodiment. 第2の実施形態に係る検索装置の構成を示す概略ブロック図である。It is a schematic block diagram which shows the structure of the search device which concerns on 2nd Embodiment. 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。It is a schematic block diagram showing composition of a computer concerning at least one embodiment.

〈第1の実施形態〉
《検索装置の構成》
図1は、第1の実施形態に係る検索装置の構成を示す概略ブロック図である。
第1の実施形態に係る検索装置100は、文の入力を受け付け、複数の文の中から入力された文と類似するものを検索する。検索装置100は、2つの文の類似度を特定する類似度特定装置の一例である。
検索装置100は、変換モデル生成部101、変換モデル記憶部102、文記憶部103、文取得部104、特徴量特定部105、文法機能特定部106、対応箇所特定部107、語間類似度特定部108、文間類似度特定部109、検索結果出力部110を備える。
First Embodiment
<< Configuration of Search Device >>
FIG. 1 is a schematic block diagram showing the configuration of a search device according to the first embodiment.
The search device 100 according to the first embodiment receives an input of a sentence, and searches a plurality of sentences that are similar to the input sentence. The search device 100 is an example of a similarity specifying device that specifies the similarity of two sentences.
The search device 100 includes a conversion model generation unit 101, a conversion model storage unit 102, a sentence storage unit 103, a sentence acquisition unit 104, a feature amount specification unit 105, a grammar function specification unit 106, a corresponding part specification unit 107, inter-word similarity specification A section 108, an inter-sentence similarity specification section 109, and a search result output section 110 are provided.

変換モデル生成部101は、複数の学習用文それぞれから、語彙数の次元数を有する文ベクトルを生成し、当該文ベクトルに基づいて、語の特徴を表す特徴ベクトルを生成するための変換モデルを生成する。語は、単語に限られず複合語や句を含むものであってもよい。学習用文は、文記憶部103が記憶する検索対象文であってもよいし、他の文であってもよい。なお、学習用文に検索対象文を用いる場合、変換モデル生成部101は、検索対象文で用いられる表現に特化した変換モデルを作成することができる。また学習用文に検索対象文以外の文を含める場合、変換モデル生成部101は、検索対象文で用いられない表現にも対応した変換モデルを作成することができる。   The conversion model generation unit 101 generates a sentence vector having the dimensionality of the vocabulary number from each of the plurality of learning sentences, and a conversion model for generating a feature vector representing the feature of the word based on the sentence vector. Generate The words are not limited to words but may include compound words and phrases. The learning sentence may be a search target sentence stored in the sentence storage unit 103 or may be another sentence. When a search target sentence is used as a learning sentence, the conversion model generation unit 101 can create a conversion model specialized for the expression used in the search target sentence. Further, when a sentence other than the search target sentence is included in the learning sentence, the conversion model generation unit 101 can create a conversion model corresponding to an expression not used in the search target sentence.

例えば、変換モデル生成部101は、オートエンコーダを用いて変換モデルを生成することができる。オートエンコーダは、入力層と出力層のノード数が等しく、中間層のノード数が入力層および出力層より少ないニューラルネットワークである。変換モデル生成部101は、各文ベクトルをオートエンコーダに入力し、入力と出力とが等しくなるようにオートエンコーダを学習させる。そして、変換モデル生成部101は、オートエンコーダの入力層と中間層を取り出すことで、中間層の出力を特徴ベクトルとする変換モデルを生成する。オートエンコーダを用いた変換モデルの作成には、例えばWord2Vec(https://code.google.com/archive/p/word2vec/)を用いることができる。
また、変換モデル生成部101は、tf(Term Frequency)−idf(Inverse Document Frequency)、潜在的意味解析、主成分分析に基づいて変換モデルを作成してもよい。
For example, the conversion model generation unit 101 can generate a conversion model using an auto encoder. The auto encoder is a neural network in which the number of nodes in the input layer and the number in the output layer are equal and the number of nodes in the middle layer is smaller than that in the input layer and the output layer. The conversion model generation unit 101 inputs each sentence vector to the auto encoder, and learns the auto encoder so that the input and the output become equal. Then, the conversion model generation unit 101 generates a conversion model having the output of the intermediate layer as a feature vector by extracting the input layer and the intermediate layer of the auto encoder. For example, Word2Vec (https://code.google.com/archive/p/word2vec/) can be used to create a conversion model using an auto encoder.
Further, the conversion model generation unit 101 may create a conversion model based on tf (Term Frequency) -idf (Inverse Document Frequency), latent semantic analysis, and principal component analysis.

変換モデル記憶部102は、変換モデル生成部101が生成した変換モデルを記憶する。   The conversion model storage unit 102 stores the conversion model generated by the conversion model generation unit 101.

文記憶部103は、複数の検索対象文を記憶する。
文取得部104は、利用者によって入力されたクエリ文、および文記憶部103が記憶する検索対象文を取得する。
The sentence storage unit 103 stores a plurality of search target sentences.
The sentence acquisition unit 104 acquires a query sentence input by the user and a search target sentence stored in the sentence storage unit 103.

特徴量特定部105は、文取得部104が取得した文を構成する複数の語それぞれについて、変換モデル記憶部102が記憶する変換モデルを用いて特徴ベクトルを生成する。例えば、特徴量特定部105は、以下の処理により特徴ベクトルを生成することができる。特徴量特定部105は、文取得部104が取得した文を複数の語に分割する。文の分割には形態素解析を用いることができる。特徴量特定部105は、分割した語それぞれから、語彙数に等しい次元数を有する語ベクトルを生成する。特徴量特定部105は、語ベクトルを変換モデルに入力することで、特徴ベクトルを得る。   The feature amount specifying unit 105 generates a feature vector using the conversion model stored in the conversion model storage unit 102 for each of a plurality of words constituting the sentence acquired by the sentence acquisition unit 104. For example, the feature amount specifying unit 105 can generate a feature vector by the following process. The feature amount identifying unit 105 divides the sentence acquired by the sentence acquiring unit 104 into a plurality of words. Morphological analysis can be used to divide sentences. The feature amount specifying unit 105 generates a word vector having a dimension number equal to the vocabulary number from each of the divided words. The feature amount specifying unit 105 obtains a feature vector by inputting a word vector to the conversion model.

文法機能特定部106は、文取得部104が取得した文を構文解析し、文を構成する複数の語それぞれの役割である文法機能を特定する。文法機能とは、文を構成する要素(例えば、語、句、節)が他の要素に対して持つ関係による分類をいう。文法機能の例としては、名詞句(NP:noun phrase)、動詞句(VP:verb phrase)および形容詞句の区分(句構造)、主語、述語、目的語、補語および修飾語の区分(係り受け関係)、品詞の区分などが挙げられる。構文解析の例としては、句構造解析および係り受け解析が挙げられる。なお、文法機能特定部106は、役割特定部の一例である。なお、他の実施形態においては、文を構成する語毎の文法的な役割は、文法機能以外の情報であってもよい。   The grammar function specification unit 106 parses the sentence acquired by the sentence acquisition unit 104, and specifies a grammar function that is the role of each of a plurality of words constituting the sentence. The grammatical function is a classification based on the relation of elements (eg, words, phrases, clauses) constituting a sentence to other elements. Examples of grammatical functions include noun phrases (NP), verb phrases (VP: verb phrase) and adjective phrases (phrase structure), subjects, predicates, objects, complements and modifiers (dependencies) Relationship), classification of parts of speech, etc. Examples of syntactic analysis include phrase structure analysis and dependency analysis. The grammar function specification unit 106 is an example of a role specification unit. In another embodiment, the grammatical role of each word constituting the sentence may be information other than the grammatical function.

図2は、句構造解析による文法機能の特定方法の例を示す図である。
例えば、文法機能特定部106は、文取得部104が取得した文を句構造解析し、文を構成する複数の語を要素とする句構造木を生成する。句構造木は、文を根ノードとし、節または句を内部ノードとし、複数の語それぞれを葉ノードとする木構造データである。句構造解析により、各ノードには当該ノードの句構造に係る文法機能を示すタグが付される。文法機能特定部106は、句構造木の各葉ノードについて、当該葉ノードと根ノードとを結ぶ経路に付されたすべてのタグの順列を、当該葉ノードに係る語の文法機能として特定する。
FIG. 2 is a diagram showing an example of a method of specifying a grammar function by phrase structure analysis.
For example, the grammar function identification unit 106 analyzes the phrase structure of the sentence acquired by the sentence acquisition unit 104, and generates a phrase structure tree having a plurality of words constituting the sentence as elements. The phrase structure tree is tree structure data having a sentence as a root node, a clause or a phrase as an internal node, and a plurality of words as leaf nodes. By the phrase structure analysis, each node is tagged with a grammar function related to the phrase structure of the node. The grammar function specifying unit 106 specifies, for each leaf node of the phrase structure tree, a permutation of all tags attached to a route connecting the leaf node and the root node as a grammar function of a word related to the leaf node.

図3は、係り受け解析による文法機能の特定方法の例を示す図である。
また例えば、文法機能特定部106は、文取得部104が取得した文を係り受け解析し、文を構成する複数の語を要素とする依存構造木を生成する。依存構造木は、各語をノードとし、係り元の語(depender)のノードを係り先の語(dependee)のノードの子ノードとする木構造データである。依存構造木は、ノード間を結ぶ枝に係り受け関係を示すタグが付されていてもよい。文法機能特定部106は、依存構造木に基づいて各語の係り先(例えば、句構造解析によって特定された係り先の文法機能)、または係り受け関係を文法機能として特定する。係り受け関係の例としては、決定詞の付与を示すdet、述語に係る主語を示すnsubj、述語に係る目的語を示すdobj、名詞を修飾する修飾語を示すamodなどが挙げられる。
FIG. 3 is a diagram showing an example of a method of specifying a grammar function by dependency analysis.
Further, for example, the grammar function identification unit 106 performs dependency analysis on the sentence acquired by the sentence acquisition unit 104, and generates a dependency structure tree having a plurality of words constituting the sentence as elements. The dependency structure tree is tree structure data in which each word is a node and a node of a dependency source word (depender) is a child node of a dependency destination node (dependee). In the dependency structure tree, the branches connecting nodes may be tagged with a dependency relation. The grammar function specification unit 106 specifies, as a grammar function, a dependency destination of each word (for example, a grammar function of a dependency destination identified by phrase structure analysis) or a dependency relationship based on the dependency structure tree. Examples of the dependency relationship include det indicating assignment of a determinate, nsubj indicating a subject related to a predicate, dobj indicating an object related to a predicate, and amod indicating a modifier modifying a noun.

図4は、2つの文の対応箇所の特定方法の例を示す図である。
対応箇所特定部107は、クエリ文の語と検索対象文の語のペアであって、文法機能が共通するペアを特定する。すなわち、対応箇所特定部107は、クエリ文の各語について、当該語と文法機能が共通する語を、検索対象文から特定することで、語のペアを特定する。例えば、図4に示すように、クエリ文が“A boy has a small dictionary”であり、検索対象文が“A small boy has a dictionary”である場合、対応箇所特定部107は、以下のように語のペアを特定する。クエリ文の語である“A”は、句構造が「S(sentence)−NP−DT(determiner:決定詞)」であり、係り受け関係が「det」の語であるという文法機能を有する。対応箇所特定部107は、検索対象文から、句構造が「S−NP−DT」であり、係り受け関係が「det」の語であるという文法機能を有する語を特定する。図4に示すように、クエリ文の“A”は検索対象文の“A”と共通する文法機能を有する。対応箇所特定部107は、これを各語について実行し、図4に示すように、クエリ文の“A”と検索対象文の“A”のペア、クエリ文の“boy”と検索対象文の“boy”のペア、クエリ文の“has”と検索対象文の“has”のペア、クエリ文の“a”と検索対象文の“a”のペア、クエリ文の“dictionary”と検索対象文の“dictionary”のペア、をそれぞれ語のペアとして抽出する。また、対応箇所特定部107は、図4に示すように、クエリ文の“small”と文法機能が共通する語が検索対象文に存在せず、検索対象文の“small”と文法機能が共通する語がクエリ文に存在しないことを特定する。
FIG. 4 is a diagram showing an example of a method of specifying corresponding portions of two sentences.
The corresponding part specifying unit 107 specifies a pair of words of the query sentence and words of the search target sentence, which have a common grammatical function. That is, for each word of the query sentence, the corresponding part specifying unit 107 specifies a word having a common grammatical function with the word from the search target sentence, thereby specifying the word pair. For example, as shown in FIG. 4, when the query statement is “A boy has a small dictionary” and the search target statement is “A small boy has a dictionary”, the corresponding part identifying unit 107 Identify word pairs. The word “A” which is the word of the query sentence has a grammatical function that the phrase structure is “S (sentence) −NP−DT (determiner)” and the dependency relationship is the word “det”. The corresponding part specifying unit 107 specifies, from the search target sentence, a word having a grammatical function that the phrase structure is “S-NP-DT” and the dependency relation is “det”. As shown in FIG. 4, the query sentence "A" has a grammatical function in common with the search target sentence "A". The corresponding part specifying unit 107 executes this for each word, and as shown in FIG. 4, a pair of “A” in the query sentence and “A” in the search target sentence, “boy” in the query sentence and the search target sentence Pair of "boy", pair of "has" of query sentence and search target sentence "has", pair of query sentence "a" and search target sentence "a", query sentence "dictionary" and search target sentence The "dictionary" pairs of are extracted as word pairs respectively. Further, as shown in FIG. 4, the corresponding part specifying unit 107 does not have a word having a grammatical function in common with “small” in the query sentence in the search target sentence, and has a common grammatical function with “small” in the search target sentence. Specify that the target word is not present in the query statement.

語間類似度特定部108は、対応箇所特定部107が特定したペア別に、特徴ベクトルどうしの類似度である語間類似度を特定する。語間類似度の例としては、特徴ベクトルのコサイン類似度、ユークリッド距離、レーベンシュタイン距離などが挙げられる。語間類似度特定部108は、対応箇所特定部107がペアを特定しなかった語について、所定のペナルティ値を語間類似度とする。ペナルティ値は、例えば0以下の値に設定される。   The inter-word similarity identification unit 108 identifies inter-word similarity, which is the similarity between feature vectors, for each pair identified by the corresponding part identification unit 107. Examples of inter-word similarity include cosine similarity of a feature vector, Euclidean distance, Levenshtein distance, and the like. The inter-word similarity specifying unit 108 sets a predetermined penalty value to the inter-word similarity as to the word for which the corresponding part specifying unit 107 has not specified a pair. The penalty value is set to, for example, a value of 0 or less.

文間類似度特定部109は、各語のペアの語間類似度に基づいて、クエリ文と検索対象文との類似度である文間類似度を特定する。例えば文間類似度特定部109は、語間類似度の平均値または総和を文間類似度とする。   The inter-statement similarity specification unit 109 specifies inter-state similarity, which is the similarity between the query sentence and the search target sentence, based on the inter-word similarity of each word pair. For example, the inter-sentence similarity specifying unit 109 sets the average value or the sum of inter-word similarity as the inter-sentence similarity.

検索結果出力部110は、クエリ文との文間類似度が高い検索対象文を、検索結果として出力する。例えば、検索結果出力部110は、クエリ文との文間類似度が最も高い検索対象文を、検索結果として出力する。なお、他の実施形態においては、検索結果出力部110は、例えば文間類似度が所定の閾値以上の複数の検索対象文を出力してもよいし、文間類似度の降順に並べた複数の検索対象文を出力してもよい。検索結果の出力は、例えばディスプレイへの表示、記憶媒体への記録、外部装置への送信などによってなされる。   The search result output unit 110 outputs a search target sentence having a high degree of similarity between the query sentence and the sentence as a search result. For example, the search result output unit 110 outputs a search target sentence having the highest degree of similarity between the query sentence and the sentence as a search result. In another embodiment, the search result output unit 110 may output, for example, a plurality of search target sentences whose inter-statement similarity is equal to or greater than a predetermined threshold, or a plurality of search target sentences arranged in descending order of inter-state similarity. The search target sentence of may be output. The output of the search result is performed, for example, by display on a display, recording on a storage medium, transmission to an external device, or the like.

《検索装置の動作》
検索装置100の変換モデル生成部101は、文の検索処理を実行する前に、予め複数の学習用文から変換モデルを生成し、変換モデル記憶部102に記録しておく。
<< Operation of search device >>
The transformation model generation unit 101 of the retrieval device 100 generates transformation models from a plurality of learning sentences in advance and records the transformation models in the transformation model storage unit 102 before executing the sentence retrieval process.

図5は、第1の実施形態に係る検索装置の動作を示すフローチャートである。
検索装置100は、利用者からクエリ文の入力を受け付ける。文取得部104は、入力されたクエリ文を取得する(ステップS1)。次に、特徴量特定部105は、クエリ文を構成する複数の語それぞれについて、変換モデル記憶部102が記憶する変換モデルを用いて特徴ベクトルを生成する(ステップS2)。次に、文法機能特定部106は、クエリ文を構文解析し、クエリ文を構成する複数の語それぞれの文法機能を特定する(ステップS3)。
FIG. 5 is a flowchart showing the operation of the search device according to the first embodiment.
The search device 100 receives an input of a query sentence from the user. The sentence acquisition unit 104 acquires the input query sentence (step S1). Next, the feature amount specifying unit 105 generates a feature vector using the conversion model stored in the conversion model storage unit 102 for each of a plurality of words constituting the query sentence (step S2). Next, the grammar function specification unit 106 parses the query sentence, and specifies the grammar function of each of a plurality of words constituting the query sentence (step S3).

次に、検索装置100は、文記憶部103が記憶する検索対象文を1つずつ選択し、以下に示すステップS5からステップS11の処理を実行する(ステップS4)。
文取得部104は、文記憶部103から選択された検索対象文を取得する(ステップS5)。次に、特徴量特定部105は、検索対象文を構成する複数の語それぞれについて、変換モデル記憶部102が記憶する変換モデルを用いて特徴ベクトルを生成する(ステップS6)。次に、文法機能特定部106は、検索対象文を構文解析し、検索対象文を構成する複数の語それぞれの文法機能を特定する(ステップS7)。
Next, the search device 100 selects the search target sentences stored in the sentence storage unit 103 one by one, and executes the processing from step S5 to step S11 described below (step S4).
The sentence acquisition unit 104 acquires the search target sentence selected from the sentence storage unit 103 (step S5). Next, the feature amount specifying unit 105 generates a feature vector using the conversion model stored in the conversion model storage unit 102 for each of a plurality of words constituting the search target sentence (step S6). Next, the grammar function identification unit 106 parses the search target sentence, and specifies the grammar function of each of a plurality of words constituting the search target sentence (step S7).

次に、対応箇所特定部107は、ステップS3で特定したクエリ文の語の文法機能と、ステップS7で特定した検索対象文の語の文法機能とに基づいて、文法機能が共通する語のペアを特定する(ステップS8)。語間類似度特定部108は、対応箇所特定部107が特定したペア別に語間類似度を特定する(ステップS9)。また語間類似度特定部108は、対応箇所特定部107がペアを特定しなかった語について、所定のペナルティ値を語間類似度とする(ステップS10)。文間類似度特定部109は、ステップS9およびステップS10で特定した語間類似度の平均値を計算することで、クエリ文と検索対象文との文間類似度を特定する(ステップS11)。   Next, based on the grammatical function of the word of the query sentence specified in step S3 and the grammatical function of the word of the search target sentence specified in step S7, the corresponding part specification unit 107 pairs words having common grammatical functions. Are identified (step S8). The inter-word similarity identification unit 108 identifies inter-word similarity for each pair identified by the corresponding part identification unit 107 (step S9). The inter-word similarity specifying unit 108 sets a predetermined penalty value to the inter-word similarity as to the word for which the corresponding part specifying unit 107 has not specified a pair (step S10). The inter-statement similarity specifying unit 109 specifies an inter-state similarity between the query sentence and the search target sentence by calculating the average value of the inter-word similarity specified in step S9 and step S10 (step S11).

文記憶部103が記憶するすべての検索対象文について文間類似度が算出されると、検索結果出力部110は、クエリ文との文間類似度が最も高い検索対象文を、検索結果として出力する(ステップS12)。   When the inter-statement similarity is calculated for all search target sentences stored in the sentence storage unit 103, the search result output unit 110 outputs the search target sentence having the highest inter-state similarity with the query sentence as the search result. (Step S12).

《作用・効果》
このように、第1の実施形態に係る検索装置100は、クエリ文を構成する語の特徴ベクトルと、検索対象文を構成する語のうちクエリ文を構成する語と共通する文法機能の語に係る特徴ベクトルとを比較することで語間類似度を特定し、各語間類似度から文間類似度を特定する。これにより、検索装置100は、2つの文に出現する語の役割を加味して類似する文を検索することができる。
<< Operation / Effect >>
As described above, the search device 100 according to the first embodiment uses the feature vector of the word forming the query sentence and the word having the grammatical function common to the word forming the query sentence among the words forming the search target sentence. Inter-word similarity is identified by comparing with such a feature vector, and inter-sentence similarity is identified from each inter-word similarity. Thus, the search device 100 can search for similar sentences in consideration of the role of words appearing in two sentences.

ここで、クエリ文“A boy has a small dictionary”と、検索対象文“A small boy has a dictionary”との比較を例に説明する。単純なベクトル空間モデルに係る比較では、クエリ文の語“small”と検索対象文の語“small”とが区別されずに類似度が算出されるため、類似度が高く評価される。これに対し、第1の実施形態に係る検索装置100は、図4に示すように、クエリ文の語“small”と検索対象文の語“small”とが文法機能が異なるために区別して評価される。これにより、第1の実施形態に係る検索装置100は、文間類似度を単純なベクトル空間モデルの例と比較して低く評価することができる。このように、第1の実施形態に係る検索装置100は、同じ表記の語であってもその文における役割が異なる場合に、これを区別して類似度を算出することができる。   Here, the comparison between the query sentence “A boy has a small dictionary” and the search target sentence “A small boy has a dictionary” will be described as an example. In the comparison relating to the simple vector space model, the similarity is evaluated high because the similarity is calculated without distinction between the word “small” of the query sentence and the word “small” of the search target sentence. On the other hand, as shown in FIG. 4, the search device 100 according to the first embodiment distinguishes and evaluates the word "small" of the query sentence and the word "small" of the search target sentence because the grammatical functions are different. Be done. Thereby, the search device 100 according to the first embodiment can evaluate the similarity between sentences lower than the example of the simple vector space model. As described above, the search device 100 according to the first embodiment can calculate the similarity by distinguishing the words in the same written word if the roles in the sentences are different.

また、第1の実施形態に係る検索装置100は、一方の文を構成する語と文法機能が共通する語が他方の文にない場合に、所定のペナルティ値を語間類似度に設定する。これにより、検索装置100は、構造が異なる文どうしの比較において文間類似度を低く算出することができる。   In addition, the search device 100 according to the first embodiment sets a predetermined penalty value as the inter-word similarity, when there is no word in the other sentence in which the word constituting the one sentence and the grammatical function are common. Accordingly, the search device 100 can calculate the inter-sentence similarity low in comparison between sentences having different structures.

また、第1の実施形態に係る特徴ベクトルは、語彙数より少ない次元数のベクトルである。つまり、特徴ベクトルは、語彙数と等しい次元数のベクトルである語ベクトルの次元を削減したベクトルである。これにより検索装置100は、表記の異なる語どうしの類似度を算出することができる。   Also, the feature vector according to the first embodiment is a vector with a dimension number smaller than the number of words. That is, the feature vector is a vector obtained by reducing the dimension of the word vector, which is a vector of the number of dimensions equal to the vocabulary number. Thus, the search device 100 can calculate the degree of similarity between words having different notations.

〈第2の実施形態〉
第1の実施形態に係る検索装置100の文間類似度特定部109は、各語のペアの語間類似度の平均値または総和に基づいて文間類似度を算出する。
一方で、文を構成する語ごとに、文の意味に対する重要性が異なる。例えば、語が単数形であるか複数形であるかによって冠詞“a”の有無が変わることがあるが、文において当該冠詞の有無は多くの場合重要な意味を持たない。他方、副詞“not”の有無は文において重要な意味を持つことが多い。そこで、第2の実施形態に係る検索装置100は、語間類似度の加重平均または荷重和に基づいて文間類似度を算出する。なお、加重平均は、荷重和を要素数で除算したものであるため、語間類似度の荷重和の計算によって文間類似度を特定することは、検索装置100が語間類似度の加重平均を文間類似度とすることを含む。
Second Embodiment
The inter-text similarity specifying unit 109 of the search device 100 according to the first embodiment calculates the inter-text similarity based on the average value or the sum of the inter-word similarity of each pair of words.
On the other hand, the importance of the meaning of a sentence is different for each word constituting the sentence. For example, the presence or absence of the article "a" may change depending on whether the word is a singular form or a plural form, but the presence or absence of the article in a sentence often has no significant meaning. On the other hand, the presence or absence of the adverb "not" often has an important meaning in sentences. Therefore, the search device 100 according to the second embodiment calculates the inter-sentence similarity based on the weighted average or the weighted sum of inter-word similarity. Note that, since the weighted average is obtained by dividing the weighted sum by the number of elements, specifying the inter-symbol similarity by calculating the weighted sum of the inter-word similarity means that the search device 100 calculates the weighted average of inter-word similarity. Including making inter-statement similarity.

《検索装置の構成》
図6は、第2の実施形態に係る検索装置の構成を示す概略ブロック図である。
第2の実施形態に係る検索装置100は、第1の実施形態の構成に加え、さらに係数特定部111を備える。
係数特定部111は、対応箇所特定部107が特定した語のペア別に、当該語の文法機能に応じた重み係数を特定する。重み係数は、例えば語の品詞別に決定されてもよいし、名詞句および動詞句の区分別に決定されてもよいし、係り先の語の品詞別に決定されてもよい。
<< Configuration of Search Device >>
FIG. 6 is a schematic block diagram showing the configuration of a search device according to the second embodiment.
The search device 100 according to the second embodiment further includes a coefficient identification unit 111 in addition to the configuration of the first embodiment.
The coefficient specifying unit 111 specifies a weight coefficient according to the grammatical function of the word for each word pair specified by the corresponding part specifying unit 107. The weighting factor may be determined, for example, according to the part of speech of the word, may be determined according to the classification of the noun phrase and the verb phrase, or may be determined according to the part of speech of the corresponding word.

文間類似度特定部109は、語間類似度特定部108が特定した各語のペアの語間類似度のそれぞれに、係数特定部111が特定した当該語のペアに係る重み係数を乗算し、平均値を求めることで、文間類似度を算出する。   The inter-speech similarity specifying unit 109 multiplies each of the inter-word similarity of each pair of words specified by the inter-word similarity specifying unit 108 by the weighting factor relating to the word pair specified by the coefficient specifying unit 111. By calculating an average value, inter-statement similarity is calculated.

このように、第2の実施形態によれば、検索装置100は、文を構成する語ごとの文における重要性を加味して2つの文の間の類似度を特定することができる。   As described above, according to the second embodiment, the search device 100 can specify the degree of similarity between two sentences in consideration of the importance in the sentence for each word constituting the sentence.

〈他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。
例えば、上述した実施形態に係る検索装置100は、文法機能が一致する語のペアを特定するが、これに限られない。例えば、他の実施形態に係る検索装置100は、語の品詞や活用形の相違を無視してもよいし、文法機能が一定の割合で部分一致する語のペアを特定してもよいし、文法機能の類似度が所定の閾値以上のペアを特定してもよい。なお、文法機能が一致する語のペア、文法機能が部分一致する語のペア、および文法機能の類似度が所定の閾値以上の語のペアは、いずれも文法機能が共通する語のペアの一例である。
Other Embodiments
As mentioned above, although one embodiment was described in detail with reference to drawings, a concrete configuration is not restricted to the above-mentioned thing, It is possible to do various design changes etc.
For example, although search device 100 concerning an embodiment mentioned above specifies a word pair in which a grammar function corresponds, it is not restricted to this. For example, the search device 100 according to another embodiment may ignore the difference in part of speech or inflected form of a word, or may specify a pair of words that partially match in grammatical function, It is also possible to specify a pair whose grammatical function similarity is equal to or higher than a predetermined threshold. It should be noted that a pair of words whose grammatical functions match, a pair of words whose partial grammatical functions match, and a pair of words whose grammatical function similarity is greater than or equal to a predetermined threshold are all examples of word pairs having common grammatical functions. It is.

また、上述した実施形態に係る検索装置100は、各検索対象文について特徴ベクトルの生成および構文解析を行うが、これに限られない。例えば、他の実施形態に係る検索装置100は、予め文記憶部103において検索対象文に関連付けて、当該文に含まれる各語の特徴ベクトルと文法機能とが記憶されていてもよい。すなわち、他の実施形態においては、クエリ文について特徴ベクトルの生成および構文解析を行い、検索対象文の特徴ベクトルおよび文法機能は、検索時に文記憶部103から読み出されるものであってよい。   Moreover, although the search device 100 which concerns on embodiment mentioned above performs the production | generation and syntactic analysis of a feature vector about each search object sentence, it is not restricted to this. For example, the search device 100 according to another embodiment may store the feature vector of each word included in the sentence and the grammatical function in advance in the sentence storage unit 103 in association with the search target sentence. That is, in another embodiment, a feature vector may be generated and syntactic analysis is performed on the query sentence, and the feature vector and the grammatical function of the search target sentence may be read from the sentence storage unit 103 at the time of the search.

また、上述した実施形態に係る検索装置100は、句構造解析結果および係り受け解析結果の両方を用いて語の文法機能を特定するが、これに限られない。例えば、他の実施形態に係る検索装置100は、句構造解析結果のみを用いて文法機能を特定してもよいし、係り受け解析結果のみを用いて文法機能を特定してもよい。   Moreover, although the search device 100 which concerns on embodiment mentioned above specifies the grammatical function of a word using both a phrase structure analysis result and a dependency analysis result, it is not restricted to this. For example, the search device 100 according to another embodiment may specify the grammar function using only the phrase structure analysis result, or may specify the grammar function using only the dependency analysis result.

また、上述した実施形態に係る検索装置100は、文を構成する単語別に語間類似度を算出するが、他の実施形態においてはこれに限られない。例えば、他の実施形態に係る検索装置100は、文を構成する句別に語間類似度を算出してもよい。   In addition, although the search device 100 according to the above-described embodiment calculates the inter-word similarity for each word constituting a sentence, the present invention is not limited to this. For example, the search device 100 according to another embodiment may calculate the inter-word similarity for each phrase constituting a sentence.

また、上述した実施形態においては、類似度特定装置が複数の文の中からクエリ文に類似する文を検索する検索装置100に適用されるが、他の実施形態においてはこれに限られない。例えば、他の実施形態に係る類似度特定装置は、入力された2つの文どうしの類似度を算出するものであってもよい。   In the above-described embodiment, the similarity specifying device is applied to the search device 100 that searches for a sentence similar to a query sentence among a plurality of sentences, but the embodiment is not limited to this. For example, the similarity specifying device according to another embodiment may calculate the similarity between two input sentences.

〈コンピュータ構成〉
図7は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ90は、CPU91、主記憶装置92、補助記憶装置93、インタフェース94を備える。
上述の検索装置100は、コンピュータ90に実装される。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置93に記憶されている。CPU91は、プログラムを補助記憶装置93から読み出して主記憶装置92に展開し、当該プログラムに従って上記処理を実行する。
<Computer configuration>
FIG. 7 is a schematic block diagram showing the configuration of a computer according to at least one embodiment.
The computer 90 includes a CPU 91, a main storage 92, an auxiliary storage 93, and an interface 94.
The above-described search device 100 is implemented in the computer 90. The operation of each processing unit described above is stored in the auxiliary storage device 93 in the form of a program. The CPU 91 reads a program from the auxiliary storage device 93, expands it in the main storage device 92, and executes the above processing according to the program.

補助記憶装置93の例としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、磁気ディスク、光磁気ディスク、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)、半導体メモリ等が挙げられる。補助記憶装置93は、コンピュータ90のバスに直接接続された内部メディアであってもよいし、インタフェース94または通信回線を介してコンピュータ90に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ90に配信される場合、配信を受けたコンピュータ90が当該プログラムを主記憶装置92に展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、補助記憶装置93は、一時的でない有形の記憶媒体である。   Examples of the auxiliary storage device 93 include a hard disk drive (HDD), a solid state drive (SSD), a magnetic disk, a magneto-optical disk, a compact disc read only memory (CD-ROM), and a digital versatile disc read only (DVD-ROM) Memory, semiconductor memory, and the like. The auxiliary storage device 93 may be internal media directly connected to the bus of the computer 90, or may be external media connected to the computer 90 via the interface 94 or a communication line. When the program is distributed to the computer 90 by a communication line, the computer 90 that has received the distribution may deploy the program in the main storage device 92 and execute the above processing. In at least one embodiment, secondary storage 93 is a non-transitory tangible storage medium.

また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能を補助記憶装置93に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。   Further, the program may be for realizing a part of the functions described above. Furthermore, the program may be a so-called difference file (difference program) that realizes the above-described function in combination with other programs already stored in the auxiliary storage device 93.

100 検索装置
101 変換モデル生成部
102 変換モデル記憶部
103 文記憶部
104 文取得部
105 特徴量特定部
106 文法機能特定部
107 対応箇所特定部
108 語間類似度特定部
109 文間類似度特定部
110 検索結果出力部
111 係数特定部
100 search device 101 conversion model generation unit 102 conversion model storage unit 103 sentence storage unit 104 sentence acquisition unit 105 feature quantity specification unit 106 grammar function specification unit 107 correspondence location specification unit 108 inter-word similarity specification unit 109 inter-sentence similarity specification unit 110 Search result output unit 111 Coefficient identification unit

Claims (7)

第1の文および第2の文を構成する語別に特徴量を特定する特徴量特定部と、
前記第1の文および前記第2の文を構成する前記語毎の文法的な役割を特定する役割特定部と、
前記第1の文を構成する語の特徴量と、前記第2の文を構成する語のうち前記第1の文を構成する前記語と共通する役割の語に係る特徴量との類似度である語間類似度を特定する語間類似度特定部と、
前記語別の前記語間類似度に基づいて前記第1の文と前記第2の文との類似度である文間類似度を特定する文間類似度特定部と
を備える類似度特定装置。
A feature amount identification unit that identifies a feature amount according to words constituting the first sentence and the second sentence;
A role identification unit that identifies grammatical roles of the words that make up the first sentence and the second sentence;
The similarity between the feature quantity of the word that constitutes the first sentence and the feature quantity according to the word of the role in common with the word that constitutes the first sentence among the words that constitute the second sentence An inter-word similarity specifying unit for specifying an inter-word similarity;
An inter-sentence similarity specification unit which specifies inter-sentence similarity, which is the similarity between the first sentence and the second sentence, based on the inter-word similarity according to the words.
前記文間類似度特定部は、前記語の役割に応じた重み係数を用いた前記語間類似度の荷重和を計算することで、文間類似度を特定する
請求項1に記載の類似度特定装置。
The inter-sentence similarity specifying unit specifies an inter-sentence similarity by calculating a weighted sum of the inter-word similarity using a weighting factor according to the role of the words. Specific device.
前記語間類似度特定部は、前記第1の文を構成する前記語と同じ役割の語が前記第2の文にない場合に、語間類似度を所定のペナルティ値に特定する
請求項1または請求項2に記載の類似度特定装置。
The inter-word similarity specifying unit specifies an inter-word similarity to a predetermined penalty value when the second sentence does not have a word having the same role as that of the words constituting the first sentence. Or the similarity identification apparatus of Claim 2.
前記特徴量は、語彙数より少ない次元数のベクトルである
請求項1から請求項3のいずれか1項に記載の類似度特定装置。
The similarity specifying device according to any one of claims 1 to 3, wherein the feature amount is a vector of a dimension number smaller than a vocabulary number.
前記役割特定部は、構文解析処理結果に基づいて前記語別に役割を特定する
請求項1から請求項4のいずれか1項に記載の類似度特定装置。
The similarity specifying device according to any one of claims 1 to 4, wherein the role specifying unit specifies a role for each of the words based on a syntactic analysis processing result.
第1の文および第2の文を構成する語別に特徴量を特定するステップと、
前記第1の文および前記第2の文を構成する前記語毎の文法的な役割を特定するステップと、
前記第1の文を構成する語の特徴量と、前記第2の文を構成する語のうち前記第1の文を構成する前記語と同じ役割の語に係る特徴量との類似度である語間類似度を特定するステップと、
前記語別の前記語間類似度に基づいて前記第1の文と前記第2の文との類似度である文間類似度を特定するステップと
を含む類似度特定方法。
Identifying a feature amount according to words constituting the first sentence and the second sentence;
Identifying a grammatical role for each of the words that make up the first sentence and the second sentence;
The similarity between the feature of the word constituting the first sentence and the feature of the word having the same role as the word constituting the first sentence among the words constituting the second sentence Identifying inter-word similarity;
Identifying an inter-sentence similarity that is the similarity between the first sentence and the second sentence based on the inter-word similarity according to the words.
コンピュータに、
第1の文および第2の文を構成する語別に特徴量を特定するステップと、
前記第1の文および前記第2の文を構成する前記語毎の文法的な役割を特定するステップと、
前記第1の文を構成する語の特徴量と、前記第2の文を構成する語のうち前記第1の文を構成する前記語と同じ役割の語に係る特徴量との類似度である語間類似度を特定するステップと、
前記語別の前記語間類似度に基づいて前記第1の文と前記第2の文との類似度である文間類似度を特定するステップと
を実行させるためのプログラム。
On the computer
Identifying a feature amount according to words constituting the first sentence and the second sentence;
Identifying a grammatical role for each of the words that make up the first sentence and the second sentence;
The similarity between the feature of the word constituting the first sentence and the feature of the word having the same role as the word constituting the first sentence among the words constituting the second sentence Identifying inter-word similarity;
A program for causing an inter-sentence similarity, which is a similarity between the first sentence and the second sentence, to be identified based on the inter-word similarity according to the words.
JP2017210819A 2017-10-31 2017-10-31 Search device, similarity calculation method, and program Active JP6955963B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017210819A JP6955963B2 (en) 2017-10-31 2017-10-31 Search device, similarity calculation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017210819A JP6955963B2 (en) 2017-10-31 2017-10-31 Search device, similarity calculation method, and program

Publications (2)

Publication Number Publication Date
JP2019082931A true JP2019082931A (en) 2019-05-30
JP6955963B2 JP6955963B2 (en) 2021-10-27

Family

ID=66670476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017210819A Active JP6955963B2 (en) 2017-10-31 2017-10-31 Search device, similarity calculation method, and program

Country Status (1)

Country Link
JP (1) JP6955963B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666755A (en) * 2020-06-24 2020-09-15 深圳前海微众银行股份有限公司 Method and device for recognizing repeated sentences
WO2021005433A1 (en) * 2019-07-05 2021-01-14 株式会社半導体エネルギー研究所 Reading comprehension assistance system and reading comprehension assistance method
JPWO2021044519A1 (en) * 2019-09-03 2021-03-11
CN112507688A (en) * 2020-12-16 2021-03-16 咪咕数字传媒有限公司 Text similarity analysis method and device, electronic equipment and readable storage medium
WO2021064510A1 (en) * 2019-10-03 2021-04-08 株式会社半導体エネルギー研究所 Document data processing method and document data processing system
CN113312908A (en) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 Sentence similarity calculation method, system and computer readable storage medium
JP2022046759A (en) * 2021-06-30 2022-03-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Retrieval method, device, electronic apparatus and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038606A (en) * 2002-07-04 2004-02-05 Hewlett Packard Co <Hp> Method for evaluating specificity of document
JP2007241908A (en) * 2006-03-11 2007-09-20 Univ Nagoya Method, program, and apparatus for retrieving example sentence based on dependence structure, and recording medium for recording example sentence retrieval program
JP2008152641A (en) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc Similar example sentence retrieving device
JP2009199280A (en) * 2008-02-21 2009-09-03 Hitachi Ltd Similarity retrieval system using partial syntax tree profile

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038606A (en) * 2002-07-04 2004-02-05 Hewlett Packard Co <Hp> Method for evaluating specificity of document
JP2007241908A (en) * 2006-03-11 2007-09-20 Univ Nagoya Method, program, and apparatus for retrieving example sentence based on dependence structure, and recording medium for recording example sentence retrieval program
JP2008152641A (en) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc Similar example sentence retrieving device
JP2009199280A (en) * 2008-02-21 2009-09-03 Hitachi Ltd Similarity retrieval system using partial syntax tree profile

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005433A1 (en) * 2019-07-05 2021-01-14 株式会社半導体エネルギー研究所 Reading comprehension assistance system and reading comprehension assistance method
JP7058807B2 (en) 2019-09-03 2022-04-22 三菱電機株式会社 Information processing equipment, programs and information processing methods
JPWO2021044519A1 (en) * 2019-09-03 2021-03-11
WO2021044519A1 (en) * 2019-09-03 2021-03-11 三菱電機株式会社 Information processing device, program, and information processing method
KR20220027273A (en) * 2019-09-03 2022-03-07 미쓰비시덴키 가부시키가이샤 Information processing apparatus, computer readable recording medium and information processing method
TWI770477B (en) * 2019-09-03 2022-07-11 日商三菱電機股份有限公司 Information processing device, storage medium, program product and information processing method
KR102473788B1 (en) 2019-09-03 2022-12-02 미쓰비시덴키 가부시키가이샤 Information processing device, computer readable recording medium and information processing method
WO2021064510A1 (en) * 2019-10-03 2021-04-08 株式会社半導体エネルギー研究所 Document data processing method and document data processing system
JP7453987B2 (en) 2019-10-03 2024-03-21 株式会社半導体エネルギー研究所 Document data processing method and document data processing system
CN111666755A (en) * 2020-06-24 2020-09-15 深圳前海微众银行股份有限公司 Method and device for recognizing repeated sentences
CN112507688A (en) * 2020-12-16 2021-03-16 咪咕数字传媒有限公司 Text similarity analysis method and device, electronic equipment and readable storage medium
CN113312908A (en) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 Sentence similarity calculation method, system and computer readable storage medium
CN113312908B (en) * 2021-01-26 2024-02-06 北京新方通信技术有限公司 Sentence similarity calculation method, sentence similarity calculation system and computer-readable storage medium
JP2022046759A (en) * 2021-06-30 2022-03-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Retrieval method, device, electronic apparatus and storage medium

Also Published As

Publication number Publication date
JP6955963B2 (en) 2021-10-27

Similar Documents

Publication Publication Date Title
JP6955963B2 (en) Search device, similarity calculation method, and program
JP6310150B2 (en) Intent understanding device, method and program
WO2018049960A1 (en) Method and apparatus for matching resource for text information
CN105095204B (en) The acquisition methods and device of synonym
US9280967B2 (en) Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof
WO2020062770A1 (en) Method and apparatus for constructing domain dictionary, and device and storage medium
TWI512507B (en) A method and apparatus for providing multi-granularity word segmentation results
JP6175900B2 (en) Translation apparatus, method, and program
JP6466952B2 (en) Sentence generation system
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP2006065387A (en) Text sentence search device, method, and program
CN117076636A (en) Information query method, system and equipment for intelligent customer service
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP4325370B2 (en) Document-related vocabulary acquisition device and program
JP5355483B2 (en) Abbreviation Complete Word Restoration Device, Method and Program
JP6867963B2 (en) Summary Evaluation device, method, program, and storage medium
JP2001331515A (en) Word thesaurus structuring method and computer software program product for making computer system structure word thesaurus
JP4073015B2 (en) Similarity calculation method, apparatus, program, and recording medium storing the program
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP6232358B2 (en) Next utterance candidate ranking apparatus, method, and program
JP6805927B2 (en) Index generator, data search program, index generator, data search device, index generation method, and data search method
JP2013222418A (en) Passage division method, device and program
JP6574469B2 (en) Next utterance candidate ranking apparatus, method, and program
JP2011243166A (en) Text summary device, text summary method and text summary program
JP4314271B2 (en) Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211004

R150 Certificate of patent or registration of utility model

Ref document number: 6955963

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150