JP5245291B2 - Document analysis apparatus, document analysis method, and computer program - Google Patents
Document analysis apparatus, document analysis method, and computer program Download PDFInfo
- Publication number
- JP5245291B2 JP5245291B2 JP2007138379A JP2007138379A JP5245291B2 JP 5245291 B2 JP5245291 B2 JP 5245291B2 JP 2007138379 A JP2007138379 A JP 2007138379A JP 2007138379 A JP2007138379 A JP 2007138379A JP 5245291 B2 JP5245291 B2 JP 5245291B2
- Authority
- JP
- Japan
- Prior art keywords
- formal
- noun
- unit
- role
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。さらに詳細には、日本語の文書データを入力して、各単語の意味などを正しく解析する処理を実行する文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。 The present invention relates to a document analysis apparatus, a document analysis method, and a computer program. More specifically, the present invention relates to a document analysis apparatus, a document analysis method, and a computer program that execute processing for inputting Japanese document data and correctly analyzing the meaning of each word.
本発明は、具体的には例えば自動翻訳処理システムに適用可能であり、正しい翻訳を行なうために日本語を構成する文字列の意味を正確に把握して正確な翻訳を可能とした文書解析を行なう文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。 Specifically, the present invention is applicable to, for example, an automatic translation processing system, and performs document analysis that enables accurate translation by accurately grasping the meaning of character strings constituting Japanese in order to perform correct translation. The present invention relates to a document analysis apparatus, a document analysis method, and a computer program.
例えば日本語を外国語に翻訳する自動翻訳システムでは、入力する日本語データを解析して、各文字列(単語など)の意味を正しく認識して対応する外国語、例えば英語などに翻訳する処理が必要となる。 For example, an automatic translation system that translates Japanese into a foreign language analyzes input Japanese data and correctly recognizes the meaning of each character string (word, etc.) and translates it into the corresponding foreign language, such as English. Is required.
しかしながら、日本語には、文字列のみからは複数の意味に解釈できるあいまいな表現が含まれる。日本語を構成する名詞の中には普通の体言として働くものも一部存在し、その結果、係り受け関係に曖昧性が生じる。例えば、形式名詞は、他の語や句に接続することによって自立することが可能な名詞群であり、例えば、「こと」、「の」、「際」、「みぎり」、「ところ」などがある。 However, Japanese includes ambiguous expressions that can be interpreted as multiple meanings from the character string alone. Some of the nouns that make up Japanese also work as ordinary expressions, resulting in ambiguity in dependency relationships. For example, formal nouns are a group of nouns that can stand on their own by connecting to other words and phrases, for example, “Koto”, “No”, “When”, “Migiri”, “Place”, etc. There is.
具体的な例として、「ところ」を用いた文について説明する。
(1)その建物は彼が調査したところに欠陥があった。
(2)彼が調査したところ、その建物には欠陥があった。
(1)における「ところ」は「彼が調査した」の先行詞としてあらわれているが、(2)における「ところ」は「彼が調査した」に接続して、句をまとめ上げ、副詞句相当の連用修飾成分を形成する形成子としてあらわれている。この係り受け関係はそのまま語義の差異にも反映される。例えば、(1)の「ところ」は場所を意味しているが、(2)の「ところは」状況を意味している。従って、例えば自動翻訳処理において、上記の日本文を解釈する場合、この曖昧性を解消しなければ、正しい翻訳ができないことになる。
As a specific example, a sentence using “place” will be described.
(1) The building was defective when he investigated.
(2) When he investigated, the building was defective.
“Place” in (1) appears as an antecedent of “He surveyed”, but “Place” in (2) is connected to “He surveyed” to summarize the phrases and correspond to adverb phrases It appears as a former that forms a continuous modifying component. This dependency relationship is directly reflected in the difference in meaning. For example, “Place” in (1) means a place, but “Place” in (2) means a situation. Therefore, for example, when interpreting the above Japanese sentence in automatic translation processing, correct translation cannot be performed unless this ambiguity is resolved.
日本語の語義や構文の曖昧性を解消するための処理を開示した従来技術としては、下記のような例えば以下のような文献がある。特許文献1(特開平5−298349)は、係り受けの曖昧性解消を行うため、共起事例の統計情報(共起関係の出現頻度、それぞれの語の出現頻度、それぞれの語にとっての共起語の異なり語数)および共起事例の重み付け(共起関係の強さ、名詞の係り自由度、述語の受け自由度)を共起関係辞書に記憶し、その結果を基に共起事例の重み付けを計算し、係り受け解析においては、共起事例の重み付けに基づいて、共起事例と一致する係り受け候補の尤もらしさを評価する構成について開示している。 For example, the following documents include the following as conventional techniques disclosing processing for solving the ambiguity of Japanese meaning and syntax. Patent Document 1 (Japanese Patent Laid-Open No. 5-298349) discloses co-occurrence example statistical information (co-occurrence relationship appearance frequency, appearance frequency of each word, co-occurrence for each word in order to resolve dependency ambiguity. (Number of different words) and weight of co-occurrence cases (strength of co-occurrence relations, degree of freedom of nouns, degree of freedom of predicate) are stored in the co-occurrence relation dictionary, and weights of co-occurrence cases are based on the results In the dependency analysis, a configuration is disclosed in which the likelihood of a dependency candidate matching the co-occurrence case is evaluated based on the weight of the co-occurrence case.
また、特許文献2(特開平6−301716)は、確率モデルにしたがった尤度付けを用いて、複数個の解から適切な解を選択する形態素解析の尤度付け手法において、入力文字列に照らした各解の条件付き確率を尤度に加味することにより、きめ細かい尤度付けを可能にし、曖昧性を低減する構成を開示している。 Further, Patent Document 2 (Japanese Patent Laid-Open No. 6-301716) uses a likelihood model according to a probability model to select an appropriate solution from a plurality of solutions. A configuration is disclosed that enables fine likelihooding and reduces ambiguity by adding the conditional probability of each illuminated solution to the likelihood.
さらに、特許文献3(特開2000−330987)は、句構造解析結果を入力し、この句構造解析結果から二つの名詞の確実な係り受け関係を抽出し、これに基づいて、各名詞の修飾・被修飾の出現頻度の値を格納する。それ以外の係り受け関係を、出現頻度の値に基づいて修飾語・被修飾語を推定することによって、曖昧性を低減する構成を開示している。 Furthermore, Patent Document 3 (Japanese Patent Laid-Open No. 2000-330987) inputs a phrase structure analysis result, extracts a reliable dependency relationship between two nouns from the phrase structure analysis result, and modifies each noun based on this. Stores the value of the appearance frequency of the decoration. A configuration that reduces ambiguity by estimating modifiers / modifiers based on the appearance frequency values of other dependency relationships is disclosed.
しかし、先に説明した、「こと」、「の」、「際」、「みぎり」、「ところ」などの係り受け関係に曖昧性が生じる、例えば、形式名詞のような曖昧性は、出現頻度や確率モデルなどでは解消できない。なぜなら、前述した2つの文、すなわち、
(1)その建物は彼が調査したところに欠陥があった。
(2)彼が調査したところ、その建物には欠陥があった。
ひれらの(1)(2)の文において出現する単語は完全に同じであるため、従来技術に開示されたような出現頻度や確率モデルなどの手法では優先順位付けや絞込みが困難だからである。
(1) The building was defective when he investigated.
(2) When he investigated, the building was defective.
This is because the words appearing in the sentences of (1) and (2) are completely the same, and it is difficult to prioritize and narrow down with the methods such as the appearance frequency and probability model disclosed in the prior art. .
本発明は、上述の問題点に鑑みてなされたものであり、「こと」、「の」、「際」、「みぎり」、「ところ」などの係り受け関係に曖昧性が生じる形式名詞と呼ばれる名詞群について、所定の分類ルールと処理ルールを適用することによって構文意味解析結果の曖昧性を減少させ、正確な意味の把握を行なう文書解析装置、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。 The present invention has been made in view of the above-described problems, and is a formal noun that causes ambiguity in the dependency relationship such as “to”, “no”, “boom”, “migiri”, “place”, and the like. Provides a document analysis device, document analysis method, and computer program that reduce the ambiguity of syntactic and semantic analysis results by applying predetermined classification rules and processing rules to the noun group called, and grasp the correct meaning The purpose is to do.
本発明の第1の側面は、
入力文の構文意味解析処理を実行する構文意味解析部と、
入力文の構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行する役割判別部と、
前記役割判別部の判別結果を入力し、判別結果に従った構文意味解析結果を出力する判別結果出力部と、
を有することを特徴とする文書解析装置にある。
The first aspect of the present invention is:
A syntactic and semantic analysis unit for executing syntactic and semantic analysis processing of an input sentence;
A role discriminator for executing a discriminating process of whether the role of the formal noun included in the syntactic and semantic analysis result of the input sentence is an antecedent or an antecedent;
A discrimination result output unit for inputting the discrimination result of the role discrimination unit and outputting a syntax-semantic analysis result according to the discrimination result;
The document analysis apparatus is characterized by comprising:
さらに、本発明の文書解析装置の一実施例において、前記役割判別部は、形式名詞が独立語としての性質が強いか機能語としての性質が強いかによって分類した分類情報を有する形式名詞辞書に基づいて、前記構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行する構成であることを特徴とする。 Further, in one embodiment of the document analysis apparatus of the present invention, the role discriminating unit is a formal noun dictionary having classification information classified according to whether the formal noun has a strong property as an independent word or a strong property as a functional word. On the basis of the above, it is characterized in that the process of determining whether the role of the formal noun included in the result of the syntactic and semantic analysis is an antecedent or a constructor is executed.
さらに、本発明の文書解析装置の一実施例において、前記役割判別部は、形式名詞が、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられて登録されている場合、または、形式名詞が前記構文意味解析結果において単独で係り先と格関係にある場合は、該形式名詞は形成子であると判断し、上記以外の場合は先行詞であると判断する処理を実行する構成であることを特徴とする。 Furthermore, in an embodiment of the document analysis apparatus of the present invention, the role determination unit associates formal nouns with meaning sentences including words of place, space, part, direction, or direction in a national language dictionary. If the formal noun has a case relationship with the destination in the result of syntactic and semantic analysis, it is determined that the formal noun is a former, otherwise it is an antecedent. It is the structure which performs the process which judges that it is.
さらに、本発明の文書解析装置の一実施例において、前記文書解析装置は、さらに、形式名詞が独立語としての性質が強いか機能語としての性質が強いかによって分類した分類情報を有する形式名詞辞書を作成する辞書作成部を有し、前記辞書作成部は、形式名詞を登録した国語辞書の形式名詞に対応する品詞情報および語義文情報に基づいて形式名詞の分類を行い、形式名詞辞書の作成を行なう構成であることを特徴とする。 Furthermore, in an embodiment of the document analysis apparatus of the present invention, the document analysis apparatus further includes a formal noun having classification information classified according to whether the formal noun is strong as an independent word or strong as a function word. A dictionary creation unit that creates a dictionary, the dictionary creation unit classifies formal nouns based on part-of-speech information and word-sentence information corresponding to formal nouns of a national language dictionary in which formal nouns are registered; It is the structure which performs creation.
さらに、本発明の文書解析装置の一実施例において、前記文書解析装置は、さらに、前記役割判別部の判別結果を入力し、判別結果に従った翻訳処理を実行する翻訳処理部を有することを特徴とする。 Furthermore, in an embodiment of the document analysis apparatus of the present invention, the document analysis apparatus further includes a translation processing unit that inputs a discrimination result of the role discrimination unit and executes a translation process according to the discrimination result. Features.
さらに、本発明の第2の側面は、
文書解析装置における文書解析方法であり、
構文意味解析部が、入力文の構文意味解析処理を実行する構文意味解析ステップと、
役割判別部が、入力文の構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行する役割判別ステップと、
判別結果出力部が、前記役割判別部の判別結果を入力し、判別結果に従った構文意味解析結果を出力する判別結果出力ステップと、
を有することを特徴とする文書解析方法にある。
Furthermore, the second aspect of the present invention provides
A document analysis method in a document analysis device,
A syntax and semantic analysis step in which the syntax and semantic analysis unit executes a syntax and semantic analysis process of the input sentence;
A role discriminating step in which the role discriminating unit executes a discriminating process of whether the role of the formal noun included in the syntactic and semantic analysis result of the input sentence is an antecedent or a constructor;
A discrimination result output unit that inputs a discrimination result of the role discrimination unit and outputs a syntactic and semantic analysis result according to the discrimination result; and
The document analysis method is characterized by comprising:
さらに、本発明の文書解析方法の一実施例において、前記役割判別ステップは、形式名詞が独立語としての性質が強いか機能語としての性質が強いかによって分類した分類情報を有する形式名詞辞書に基づいて、前記構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行するステップであることを特徴とする。 Furthermore, in one embodiment of the document analysis method of the present invention, the role determining step is performed on the formal noun dictionary having classification information classified according to whether the formal noun is strong as an independent word or strong as a function word. On the basis of this, it is a step of executing a process of discriminating whether the role of the formal noun included in the result of the syntactic and semantic analysis is an antecedent or a constructor.
さらに、本発明の文書解析方法の一実施例において、前記役割判別ステップは、形式名詞が、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられて登録されている場合、または、形式名詞が前記構文意味解析結果において単独で係り先と格関係にある場合は、該形式名詞は形成子であると判断し、上記以外の場合は先行詞であると判断する処理を実行するステップであることを特徴とする。 Furthermore, in one embodiment of the document analysis method of the present invention, the role determination step associates formal nouns with meaning sentences including words of place, space, part, direction, or direction in the national language dictionary. If the formal noun has a case relationship with the destination in the result of syntactic and semantic analysis, it is determined that the formal noun is a former, otherwise it is an antecedent. It is the step which performs the process which judges that it is.
さらに、本発明の文書解析方法の一実施例において、前記文書解析方法は、さらに、辞書作成部が、形式名詞が独立語としての性質が強いか機能語としての性質が強いかによって分類した分類情報を有する形式名詞辞書を作成する辞書作成ステップを有し、前記辞書作成ステップは、形式名詞を登録した国語辞書の形式名詞に対応する品詞情報および語義文情報に基づいて形式名詞の分類を行い、形式名詞辞書の作成を行なうステップであることを特徴とする。 Furthermore, in one embodiment of the document analysis method of the present invention, the document analysis method is further classified by the dictionary creation unit according to whether the formal noun is strong as an independent word or as a function word. A dictionary creating step for creating a formal noun dictionary having information, wherein the dictionary creating step classifies formal nouns based on part-of-speech information and semantic text information corresponding to formal nouns in a national language dictionary in which formal nouns are registered. This is a step of creating a formal noun dictionary.
さらに、本発明の文書解析方法の一実施例において、前記文書解析方法は、さらに、翻訳処理部が、前記役割判別部の判別結果を入力し、判別結果に従った翻訳処理を実行する翻訳処理ステップを有することを特徴とする。 Furthermore, in an embodiment of the document analysis method of the present invention, the document analysis method further includes a translation process in which a translation processing unit inputs a discrimination result of the role discrimination unit and executes a translation process according to the discrimination result It has a step.
さらに、本発明の第3の側面は、
文書解析装置において文書解析処理を実行させるコンピュータ・プログラムであり、
構文意味解析部に、入力文の構文意味解析処理を実行させる構文意味解析ステップと、
役割判別部に、入力文の構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行させる役割判別ステップと、
判別結果出力部に、前記役割判別部の判別結果を入力し、判別結果に従った構文意味解析結果を出力させる判別結果出力ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
Furthermore, the third aspect of the present invention provides
A computer program for executing document analysis processing in a document analysis device;
A syntax and semantic analysis step for causing the syntax and semantic analysis unit to execute a syntax and semantic analysis process of the input sentence;
A role determination step for causing the role determination unit to execute a determination process as to whether the role of the formal noun included in the syntactic and semantic analysis result of the input sentence is an antecedent or a predecessor;
A discrimination result output step for inputting a discrimination result of the role discrimination unit to a discrimination result output unit and outputting a syntax-semantic analysis result according to the discrimination result;
There is a computer program characterized by comprising:
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムにおいてコンピュータ可読な形式で提供する記憶媒体などによって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。 The computer program of the present invention is a computer program that can be provided by, for example, a storage medium provided in a computer-readable format in a general-purpose computer system that can execute various program codes. By providing such a program in a computer-readable format, processing corresponding to the program is realized on the computer system.
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 Other objects, features, and advantages of the present invention will become apparent from a more detailed description based on embodiments of the present invention described later and the accompanying drawings. In this specification, the system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
本発明の構成によれば、入力文の構文意味解析処理を実行し、構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行して、判別結果に従った構文意味解析結果を出力する。形式名詞の役割が先行詞であるか形成子であるかの判別処理においては、形式名詞が独立語としての性質が強いか機能語としての性質が強いかによって分類した分類情報を有する形式名詞辞書に基づいて判別する。具体的には、形式名詞が、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられて登録されている場合、または、形式名詞が前記構文意味解析結果において単独で係り先と格関係にある場合は、形式名詞は形成子であると判断し、上記以外の場合は先行詞であると判断する。この判断結果に基づいてより精度の高い構文意味解析結果や、あるいはこの構文意味解析結果に基づく精度の高い翻訳結果を得ることが可能となる。 According to the configuration of the present invention, the syntactic / semantic analysis process of the input sentence is executed, the determination process is executed to determine whether the role of the formal noun included in the syntactic / semantic analysis result is an antecedent or a predecessor. Outputs the semantic analysis result according to the result. In the process of discriminating whether the role of a formal noun is an antecedent or a former, a formal noun dictionary having classification information classified according to whether the formal noun is strong as an independent word or strong as a function word Determine based on. Specifically, when a formal noun is registered in the Japanese language dictionary in association with a word meaning sentence including any word of place, space, part, direction, or direction, or If the semantic analysis result alone has a case relationship with the destination, the formal noun is determined to be a former, and otherwise, it is determined to be an antecedent. Based on this determination result, it is possible to obtain a more accurate syntactic and semantic analysis result or a highly accurate translation result based on this syntactic and semantic analysis result.
以下、図面を参照しながら本発明の実施形態に係る文書解析装置、および文書解析方法、並びにコンピュータ・プログラムの詳細について説明する。 Details of a document analysis apparatus, a document analysis method, and a computer program according to embodiments of the present invention will be described below with reference to the drawings.
図1に本発明の一実施例に係る文書解析装置の構成を示す。文書解析装置100は、図1に示すように、文入力部101、構文意味解析部102、辞書作成部103、国語辞書格納部104、形式名詞辞書格納部105、役割判別部106、判別結果出力部107を有する。本発明の文書解析装置100は、複数の異なる意味に解釈される可能性のあるあいまいな表現を含む文を入力した場合においても、正しい構文意味解析結果を出力する装置である。以下、各構成部の詳細および実行する処理について説明する。
FIG. 1 shows the configuration of a document analysis apparatus according to an embodiment of the present invention. As shown in FIG. 1, the
[文入力部]
文入力部101は、構文意味解析処理対象となる文を入力する。例えば、データベース中に記録された文、あるいは、ユーザによる入力文など入力形態は様々である。以下、具体的な処理例として、下記の文が入力されたものとして説明をする。
(入力文)「その建物は彼が調査したところに欠陥があった。」
[Sentence input part]
The
(Input sentence) “The building was flawed where he investigated.”
上述の文は、文字列のみからは複数の意味に解釈できるあいまいな表現が含まれる。すなわち、「ところ」は、他の語や句に接続することによって自立することが可能な形式名詞であり、「ところ」は、場所を意味している場合や、状況を意味している場合がある。 The above sentence includes ambiguous expressions that can be interpreted from a character string alone into a plurality of meanings. In other words, "Place" is a formal noun that can stand on its own by connecting to other words and phrases, and "Place" may mean a place or a situation. is there.
[構文意味解析部]
次に構文意味解析部102は、入力された文の構文意味解析を行う。構文意味解析処理について説明する。日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、文書解析装置など、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
[Syntax / Semantic Analysis]
Next, the syntax and
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。 In morpheme analysis, a sentence is segmented into morphemes which are the smallest semantic units, and part-of-speech recognition processing is performed. In syntax analysis, sentence structure such as phrase structure is analyzed based on grammatical rules. Since the grammatical rule is a tree structure, the parsing result generally has a tree structure in which individual morphemes are joined based on a dependency relationship. In semantic analysis, a semantic structure that expresses the meaning conveyed by a sentence is obtained based on the meaning (concept) of the words in the sentence and the semantic relationship between words, and the semantic structure is synthesized. In context analysis, a sentence series (discourse) is regarded as a basic unit of analysis, and a discourse structure is constructed by obtaining a semantic group between sentences.
構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援、文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。 In the field of natural language processing, syntactic analysis and semantic analysis are considered to be indispensable techniques for realizing applications such as dialog systems, machine translation, document proofreading, and document summarization.
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語(SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制や様相、話法などを判定する処理を意味解析が含む場合もある。 In the syntax analysis, a natural language sentence is received, and a dependency relationship between words (sentences) is determined based on grammatical rules. The parsing result can be expressed in the form of a tree structure (dependency tree) called a dependency structure. In the semantic analysis, it is possible to perform a process of determining a case relationship in a sentence based on a dependency relationship between words (sentences). The case relationship here refers to a grammatical role such as a subject (SUBJ) and an object (OBJ) possessed by each element constituting a sentence. In addition, semantic analysis may include processing for determining sentence tense, appearance, speech, and the like.
構文意味解析システム例については、例えば、非特許文献「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109(2003)」に詳細が記述されているLFGシステムがある。本発明の文書解析装置100の構文意味解析部102は、例えばこのLFGに基づく自然言語処理システムを適用することが可能である。
For examples of syntactic and semantic analysis systems, see, for example, non-patent literature “Masuichi, Okuma,“ Construction of a practical Japanese analysis system based on Lexical Functional Grammar ”, Natural Language Processing, Vol. 79-109 (2003) "is an LFG system. The syntactic and
図2に、Lexical Functional Grammar (LFG)LFGに基づく自然言語処理を実行する構文意味解析システム300の構成を示す。形態素解析部302は、日本語など特定の言語に関する形態素ルール302Aと形態素辞書302Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行なう。例えば、「私の娘は英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun} の{up} 娘{Noun} は{up} 英語{Noun} を{up} 話す{Verb1}{tr} ます{jp} 。{pt}」が出力される。
FIG. 2 shows a configuration of a syntax and
このような形態素解析結果は、次いで、構文・意味解析部303に入力される。構文・意味解析部303は、文法ルール303Aや結合価辞書303Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行なう(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した"c−structure(constituent structure)"と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として"f−structure(functional structure)"を出力する。
Such a morphological analysis result is then input to the syntax /
すなわち、c−structureは、自然言語文の構造を、文の形態素を上位のフレーズへとまとめあげることによって木構造として表現するものであり、f−structureは、文法機能の概念に基づき、文の格構造、時制、様相、話法などの意味情報を属性―属性値のマトリックス構造で表現するものである。 In other words, c-structure expresses the structure of a natural language sentence as a tree structure by collecting sentence morphemes into upper phrases, and f-structure is based on the concept of grammatical functions. Semantic information such as structure, tense, aspect, and speech is expressed in a matrix structure of attribute-attribute value.
例えば、本例では、文入力部101において入力された入力文は、
(入力文)「その建物は彼が調査したところに欠陥があった。」
である。この入力文の構文意味解析結果としてのf−structureを図3、図4に示す。f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、木構造として示されるc−structureの各節点に付随する素性の集合であり、図3、図4に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
For example, in this example, the input sentence input in the
(Input sentence) “The building was flawed where he investigated.”
It is. FIG. 3 and FIG. 4 show the f-structure as a result of syntactic and semantic analysis of this input sentence. The f-structure clearly expresses a grammatical function, and includes a grammatical function name, a semantic form, and a feature symbol. By referring to f-structure, it is possible to obtain an understanding of the meaning of a subject, an object, an complement, a modifier, and so on. The f-structure is a set of features attached to each node of the c-structure shown as a tree structure, and is expressed in the form of an attribute-attribute value matrix as shown in FIGS. That is, the left side in [] is a feature (attribute) name, and the right side is a feature value (attribute value).
(入力文)「その建物は彼が調査したところに欠陥があった。」
に対する構文意味解析結果としてのf−structureは図3または図4に示す構成となる。
(Input sentence) “The building was flawed where he investigated.”
The f-structure as the result of the syntactic and semantic analysis for is configured as shown in FIG.
図3、図4とも、
(入力文)「その建物は彼が調査したところに欠陥があった。」
上記の同じ入力文に対応する構文意味解析結果としてのf−structureであるが、形式名詞である「ところ」について、異なる解析を行った結果を示している。
図3の解析結果は「ところ」が先行詞であるため、埋め込み句内の動詞「調査する」の目的語である解釈を示している。
図4の解析結果は「ところ」は形成子であるため、埋め込み句内の動詞「調査する」の目的語はこの文において省略されていることを示している。
Both FIG. 3 and FIG.
(Input sentence) “The building was flawed where he investigated.”
Although it is f-structure as a syntactic and semantic analysis result corresponding to the same input sentence, it shows the result of performing different analysis on “place” which is a formal noun.
The analysis result of FIG. 3 shows the interpretation that is the object of the verb “investigate” in the embedded phrase because “place” is an antecedent.
The analysis result of FIG. 4 indicates that the object “verb” in the embedded phrase is omitted in this sentence because “place” is a constructor.
[辞書作成部]
辞書作成部103は、形式名詞と呼ばれる名詞を分類して形式名詞辞書格納部105に格納する。一般に、形式名詞とは文法的な役割を担う助詞、助動詞などの機能語と、何かを指し示す役割を持つ独立語の中間にあるような働きをする語であるといわれている。本発明の文書解析装置100の辞書作成部103は、形式名詞を独立語としての性質が強いか、機能語としての性質が強いかによって分類する。
[Dictionary creation part]
The
ここで形式名詞群は非特許文献「水谷、"稿本 国文法体系",東京女子大学日本文学科(1991)」p.104に挙げられている下記の語を想定する。
「場合」,「時」,「挙げ句」,「際」,「みぎり」,「限り」,「あいだ」,「ところ」,「うち」,「うえ」
但し、上記に含まれていない語でも、本手法を用いれば形式名詞辞書への追加は可能である。
Here, the formal noun group is a non-patent document “Mizutani,“ The Manuscript Grammar System ”, Tokyo Women's University, Department of Japanese Literature (1991)” p. Assume the following words listed in 104:
“Case”, “Time”, “Claim”, “When”, “Migiri”, “Limit”, “Aida”, “Place”, “House”, “Up”
However, words that are not included above can be added to the formal noun dictionary using this method.
「場合」を例にして図5に示すフローチャートと図6に示す国語辞書を参照して語の分類手順の説明を行う。まず、S101において、図6に示すような国語辞書を格納した国語辞書格納部104に、ここで対象とする語である「場合」を問い合わせる。国語辞書には、図6に示すように、様々な語を「見出し語」として、「見出し語」に対応する品詞情報や語義文、用例などが記述されている。辞書作成部103は、国語辞書から、品詞情報と語義文を取得する。ステップS101では、例えば[場合]に対応する品詞情報と語義文を取得する。
Taking the “case” as an example, the word classification procedure will be described with reference to the flowchart shown in FIG. 5 and the national language dictionary shown in FIG. First, in S101, an inquiry is made to the national language
次にステップS102で、品詞部分に「指示詞」もしくは「代名詞」が含まれるかどうかを調べる。ここで、「場合」の品詞は「名詞」のみであるため、ステップS102の条件は満たされず、ステップS103に進む。 Next, in step S102, it is checked whether or not “participant” or “pronoun” is included in the part of speech. Here, since the part of speech of “case” is only “noun”, the condition of step S102 is not satisfied, and the process proceeds to step S103.
ステップS103においては、語義部分に「場所」、「空間」、「部分」、「方向」、「方角」などの単語が含まれているかを調べる。ここで、「場合」の語義文は「物事が行われているときの、事情や状況。」であるため、語義部分に「場所」、「空間」、「部分」、「方向」、「方角」などの単語が含まれていないと判定する。従って、ステップS103の判定はNoとなり、その結果、「場合」はA群に分類される。 In step S103, it is checked whether words such as “place”, “space”, “part”, “direction”, and “direction” are included in the meaning part. Here, the meaning of the word “case” is “the situation and the situation when things are being done.” Therefore, the word “part”, “space”, “part”, “direction”, “direction” It is determined that a word such as “is not included. Accordingly, the determination in step S103 is No, and as a result, the “case” is classified into the A group.
次に「あいだ」を例にして、図5に示すフローチャートと図6に示す国語辞書を参照して語の分類手順の説明を行う。まず、S101において、図6に示す国語辞書を格納した国語辞書格納部104に、ここで対象とする語である「あいだ」を問い合わせる。辞書作成部103は、ステップS101で、[あいだ]に対応する品詞情報と語義文を取得する。
Next, the word classification procedure will be described with reference to the flowchart shown in FIG. 5 and the national language dictionary shown in FIG. First, in step S101, the language
次にステップS102で、品詞部分に「指示詞」もしくは「代名詞」が含まれるかどうかを調べる。ここで、「あいだ」は指示詞にも代名詞にも該当しないため、条件は満たされない。従って、ステップS103に移る。ステップS103では、語義部分に「場所」、「空間」、「部分」、「方向」、「方角」などの単語が含まれているかを調べる。 Next, in step S102, it is checked whether or not “participant” or “pronoun” is included in the part of speech. Here, “Aida” is neither a directive nor a pronoun, so the condition is not satisfied. Accordingly, the process proceeds to step S103. In step S103, it is checked whether words such as “place”, “space”, “part”, “direction”, and “direction” are included in the meaning part.
ステップS103において「あいだ」の語義分を調べる。ここで、「あいだ」の語義文は「二つのものにはさまれた、あいている部分」であるため、「部分」という単語が含まれている。従って、ステップS103の判定はYesとなり、その結果、「あいだ」はB群に分類される。 In step S103, the meaning of “between” is checked. Here, since the meaning sentence of “Aida” is “the part that is sandwiched between two things”, the word “part” is included. Accordingly, the determination in step S103 is Yes, and as a result, “Ama” is classified into the B group.
次に「ほか」を例にして、図5に示すフローチャートと図6に示す国語辞書を参照して語の分類手順の説明を行う。まず、S101において、図6に示す国語辞書を格納した国語辞書格納部104に、ここで対象とする語である「ほか」を問い合わせる。辞書作成部103は、ステップS101で、[ほか]に対応する品詞情報と語義文を取得する。
Next, taking “other” as an example, a word classification procedure will be described with reference to the flowchart shown in FIG. 5 and the national language dictionary shown in FIG. First, in step S101, the language
ステップS102において、品詞部分に「指示詞」もしくは「代名詞」が含まれるかどうかを調べる。ここで、「ほか」の品詞は「名詞」と「代名詞」であるため、ステップS102の条件は満たされ、Yesの判定となり、「ほか」はC群に分類される。以上のようなプロセスによってすべての語を分類して、図7に示す形式名詞辞書を得る。形式名詞辞書は、図7に示すように、形式名詞を3つのカテゴリ(A〜C群)に分類した辞書である。分類基準は、形式名詞が、独立語としての性質が強いか、機能語としての性質が強いかによる分類であり、具体的には、図5に示すフローに従って、各形式名詞に対応する国語字処理の登録情報である品詞情報と語義文とに基づいて分類される。 In step S102, it is checked whether or not “indicator” or “pronoun” is included in the part of speech. Here, since the part of speech of “other” is “noun” and “pronoun”, the condition of step S102 is satisfied, and the determination is Yes, and “other” is classified into the group C. All words are classified by the process as described above to obtain a formal noun dictionary shown in FIG. As shown in FIG. 7, the formal noun dictionary is a dictionary in which formal nouns are classified into three categories (groups A to C). The classification standard is a classification based on whether the formal noun has a strong characteristic as an independent word or a strong characteristic as a functional word. Specifically, according to the flow shown in FIG. 5, Japanese characters corresponding to each formal noun are classified. Classification is based on part-of-speech information, which is registration information for processing, and a word meaning sentence.
辞書作成部103は、このように、文法的な役割を担う助詞、助動詞などの機能語と、何かを指し示す役割を持つ独立語の中間にあるような働きをする形式名詞と呼ばれる名詞を3つのカテゴリ(A〜C群)に分類して形式名詞辞書を生成して、形式名詞辞書格納部105に格納する。本発明の文書解析装置100の辞書作成部103は、形式名詞を独立語としての性質が強いか、機能語としての性質が強いかによって分類する。
In this way, the
[役割判別部]
次に、役割判別部106は、構文意味解析部102が、入力文に基づいて生成した構文意味解析結果(図3、図4)を入力し、構文意味解析結果(図3、図4)に含まれる形式名詞「ところ」が「先行詞」であるか「形成子」であるかを判別する。
[Role discrimination part]
Next, the
役割判別部106における処理シーケンスを図8のフローチャートを参照して説明する。役割判別部106は、まず、ステップS201で着目する名詞がA群に属するかどうかを、形式名詞辞書105(図7参照)を参照して調べる。形式名詞「ところ」は、図7の形式名詞辞書に示すように[B群]に属する。
A processing sequence in the
従って、ステップS201の判定はNoとなり、ステップS202に進む。ステップS202では、着目する形式名詞と動詞が格関係にあるかどうかをチェックする。図3、図4に示す構文意味解析結果としてのf−structureを参照すると、「ところ」は動詞「ある」のOBL(必須格)になっているので、このステップS202の条件に該当し、ステップS202の判定はYesとなり、「ところ」は[先行詞]であると判断され、図4の解析結果は破棄され、図3の解析結果が最終的に採用される。 Accordingly, the determination in step S201 is No, and the process proceeds to step S202. In step S202, it is checked whether or not the formal noun and verb concerned are in a case relationship. Referring to the f-structure as the result of the syntactic and semantic analysis shown in FIG. 3 and FIG. 4, “Place” is the OBL (essential case) of the verb “A”. The determination in S202 is Yes, it is determined that “Place” is [preceding], the analysis result of FIG. 4 is discarded, and the analysis result of FIG. 3 is finally adopted.
つまり、
(入力文)「その建物は彼が調査したところに欠陥があった。」
上記の同じ入力文に対応する構文意味解析結果としてのf−structureである図3、図4の解析結果は、先に説明したように、図3の解析結果は「ところ」を先行詞とし、埋め込み句内の動詞「調査する」の目的語である解釈を示し、図4は、「ところ」を形成子とし、埋め込み句内の動詞「調査する」の目的語はこの文において省略されているという解釈であったが、役割判別部106における図8に示す役割判別処理シーケンスにおいて、[ところ]の役割が[先行詞]であると判定され、図4の解析結果は破棄され、図3の解析結果が最終的に採用される。
That means
(Input sentence) “The building was flawed where he investigated.”
The analysis results of FIG. 3 and FIG. 4 which are f-structures as the result of syntactic and semantic analysis corresponding to the same input sentence as described above, the analysis result of FIG. FIG. 4 shows the interpretation that is the object of the verb “investigate” in the embedded phrase, and FIG. 4 has “place” as a constructor, and the object of the verb “investigate” in the embedded phrase is omitted in this sentence. However, in the role determination processing sequence shown in FIG. 8 in the
なお、役割判別部106は、構文意味解析結果に含まれる形式名詞が先行詞であるか、形成子であるかの判別処理を図8に示すフローに従って実行する。図8および、図5に示すフローから理解されるように、役割判別部106は、構文意味解析結果に含まれる形式名詞について、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられて登録されている場合、または、形式名詞がそのようなものとして登録されておらず、かつ、その形式名詞が、単独で係り先と格関係にない場合は、その形式名詞は形成子であると判断し、上記以外の場合は先行詞であると判断する処理を実行する。
Note that the
(処理例2)
次に、文入力部101において、下記の文が入力された場合の処理について説明する。
(入力文) 彼が調査したところ、その建物には欠陥があった。
上記入力文には、前述した処理例と同様、他の語や句に接続することによって自立することが可能な形式名詞である「ところ」が含まれており、「ところ」は、場所を意味している場合や、状況を意味している場合がある。
(Processing example 2)
Next, processing when the following sentence is input in the
(Input sentence) When he investigated, the building was defective.
In the above input sentence, as in the example of processing described above, “where” is a formal noun that can stand on its own by connecting to another word or phrase, and “where” means place. Or it may mean a situation.
[構文意味解析部]
構文意味解析部102は、入力文の構文意味解析を行う。構文意味解析処理は、先に図2を参照して説明したLexical Functional Grammar (LFG)LFGに基づく自然言語処理を実行する構文意味解析システム300を適用した処理として実行される。
[Syntax / Semantic Analysis]
The syntax and
(入力文) 彼が調査したところ、その建物には欠陥があった。
に対する構文意味解析結果としてのf−structureは図9または図10に示す構成となる。
図9の解析結果は「ところ」が先行詞であるため、埋め込み句内の動詞「調査する」の目的語である解釈を示している。
図10の解析結果は「ところ」は形成子であるため、埋め込み句内の動詞「調査する」の目的語はこの文において省略されていることを示している。
(Input sentence) When he investigated, the building was defective.
The f-structure as the result of the syntactic and semantic analysis for is configured as shown in FIG. 9 or FIG.
The analysis result of FIG. 9 shows the interpretation that is the object of the verb “investigate” in the embedded phrase because “place” is an antecedent.
The analysis result of FIG. 10 indicates that the object “verb” in the embedded phrase is omitted in this sentence because “Place” is a constructor.
[役割判別部]
次に、役割判別部105は、構文意味解析部102が、入力文に基づいて生成した構文意味解析結果(図9、図10)を入力し、構文意味解析結果(図9、図10)に含まれる形式名詞「ところ」が「先行詞」であるか「形成子」であるかを判別する。
[Role discrimination part]
Next, the
役割判別部106における処理シーケンスを図8のフローチャートを参照して説明する。役割判別部106は、まず、ステップS201で着目する名詞がA群に属するかどうかを、形式名詞辞書105(図7参照)を参照して調べる。形式名詞「ところ」は、図7の形式名詞辞書に示すように[B群]に属する。
A processing sequence in the
従って、ステップS201の判定はNoとなり、ステップS202に進む。ステップS202では、着目する形式名詞と動詞が格関係にあるかどうかをチェックする。図9、図10に示す構文意味解析結果としてのf−structureを参照すると、「ところ」は動詞「ある」のADJUNCT(副詞相当の連用修飾成分)になっているので、このステップS202の条件に該当しない。 Accordingly, the determination in step S201 is No, and the process proceeds to step S202. In step S202, it is checked whether or not the formal noun and verb concerned are in a case relationship. Referring to the f-structure as the syntactic and semantic analysis results shown in FIG. 9 and FIG. 10, “Place” is an ADJUNCT (adverb equivalent modification component) of the verb “A”. Not applicable.
従って、ステップS202の判定はNoとなり、「ところ」は[形成子]であると判断され、図9の解析結果は破棄され、図10の解析結果が最終的に採用される。 Accordingly, the determination in step S202 is No, it is determined that “Place” is “former”, the analysis result of FIG. 9 is discarded, and the analysis result of FIG. 10 is finally adopted.
つまり、
(入力文) 「彼が調査したところ、その建物には欠陥があった。」
上記の同じ入力文に対応する構文意味解析結果としてのf−structureである図9、図10の解析結果は、先に説明したように、図9の解析結果は「ところ」を先行詞とし、埋め込み句内の動詞「調査する」の目的語である解釈を示し、図10は、「ところ」を形成子とし、埋め込み句内の動詞「調査する」の目的語はこの文において省略されているという解釈であったが、役割判別部106における図8に示す役割判別処理シーケンスにおいて、[ところ]の役割が[形成子]であると判定され、図9の解析結果は破棄され、図10の解析結果が最終的に採用される。
That means
(Input sentence) “When he investigated, the building was defective.”
The analysis results of FIG. 9 and FIG. 10, which are f-structures as the result of the syntactic and semantic analysis corresponding to the same input sentence, as described above, the analysis result of FIG. FIG. 10 shows an interpretation that is an object of the verb “investigate” in the embedded phrase, and FIG. 10 has “place” as a constructor, and the object of the verb “investigate” in the embedded phrase is omitted in this sentence. However, in the role determination processing sequence shown in FIG. 8 in the
[翻訳処理を実行する文書解析装置例]
例えば日本語を外国語に翻訳する自動翻訳システムでは、入力する日本語データを解析して、各文字列(単語など)の意味を正しく認識して対応する外国語、例えば英語などに翻訳する処理が必要となる。しかしながら、先に説明したように、日本語には、文字列のみからは複数の意味に解釈できるあいまいな表現が含まれる。例えば、上述した「こと」、「の」、「際」、「みぎり」、「ところ」などの形式名詞である。
[Example of document analysis device that executes translation processing]
For example, an automatic translation system that translates Japanese into a foreign language analyzes input Japanese data and correctly recognizes the meaning of each character string (word, etc.) and translates it into the corresponding foreign language, such as English. Is required. However, as explained above, Japanese includes ambiguous expressions that can be interpreted into a plurality of meanings only from a character string. For example, it is a formal noun such as “Koto”, “No”, “When”, “Migiri”, and “Place”.
図1〜図10を参照して説明した文書解析装置による解析処理を行なうことで、形式名詞が形成子であるか、先行詞であるかを判別することが可能であり、この解析結果を用いて翻訳を行なうことで正しい翻訳処理が可能となる。以下、上述した文書解析処理によって得られる解析結果に基づいて翻訳処理を実行する文書解析装置の構成、および処理について説明する。 By performing the analysis processing by the document analysis apparatus described with reference to FIGS. 1 to 10, it is possible to determine whether a formal noun is a constructor or an antecedent, and using this analysis result The correct translation process becomes possible by translating. Hereinafter, the configuration and processing of a document analysis apparatus that executes translation processing based on the analysis result obtained by the document analysis processing described above will be described.
図11に、翻訳処理を実行する文書解析装置の構成を示す。本実施例における文書解析装置400は、図11に示すように、文入力部401、構文意味解析部402、役割判別部403、形式名詞辞書格納部404、翻訳処理部405、対訳辞書格納部406、翻訳結果出力部407を有する。本実施例の文書解析装置400は、複数の異なる意味に解釈される可能性のあるあいまいな表現を含む文を入力した場合においても、正しい構文意味解析結果に基づいて正しい翻訳結果を出力する装置である。
FIG. 11 shows the configuration of a document analysis apparatus that executes translation processing. As shown in FIG. 11, the
図11に示す構成中、文入力部401、構文意味解析部402、役割判別部403、形式名詞辞書格納部404は、図1に示す構成と同様の構成であり、同様の処理を実行する。
In the configuration shown in FIG. 11, the
すなわち、文入力部401は解析および翻訳対象となる文を入力し、構文意味解析部402は、入力文の構文意味解析を行う。構文意味解析処理は、先に図2を参照して説明したLexical Functional Grammar (LFG)LFGに基づく自然言語処理を実行する構文意味解析システム300を適用した処理として実行される。役割判別部403は、構文意味解析部402が、入力文に基づいて生成した構文意味解析結果を入力し、構文意味解析結果に含まれる形式名詞が「先行詞」であるか「形成子」であるかを判別する。以下、
入力文が、
(入力文)「その建物は彼が調査したところに欠陥があった。」
上記文である場合の処理について説明する。翻訳部405以下の構成および処理について説明する。
That is, the
The input sentence is
(Input sentence) “The building was flawed where he investigated.”
Processing for the above sentence will be described. The configuration and processing after the
[翻訳部]
翻訳部405は、
(入力文)「その建物は彼が調査したところに欠陥があった。」
上記入力文とともに、役割判別部403から、構文意味解析部402が、入力文に基づいて生成した構文意味解析結果(図3、図4)に含まれる形式名詞「ところ」が「先行詞」であるか「形成子」であるかの判別結果を入力する。すなわち、先に説明したように、
(入力文)「その建物は彼が調査したところに欠陥があった。」
における形式名詞「ところ」は、「先行詞」であるとの判別結果を受け取る。
[Translation Department]
The
(Input sentence) “The building was flawed where he investigated.”
Along with the above input sentence, the formal noun “Place” included in the syntax semantic analysis result (FIG. 3 and FIG. 4) generated by the syntax
(Input sentence) “The building was flawed where he investigated.”
The formal noun “Tokoro” in is received the discrimination result that it is “preceding”.
翻訳部405は、対訳辞書格納部406に格納された対訳辞書を参照して、入力文に対する対訳を生成する。図12に対訳辞書の例を示す。対訳辞書は、図12に示すように、名詞に対応する対訳、本例では英語訳を、
(a)名詞が「先行詞」である場合の対訳、
(b)名詞が「形成子」である場合の対訳、
上記(a),(b)の場合の対訳を登録した辞書として構成される。
The
(A) a parallel translation when the noun is an antecedent;
(B) a parallel translation when the noun is “former”;
It is configured as a dictionary in which parallel translations in the cases (a) and (b) are registered.
辞書によれば、
「ところ」が「先行詞」である場合の対訳は「place」
「ところ」が「形成子」である場合の対訳は「when」
として登録されている。
According to the dictionary
If "Place" is an antecedent, the translation is "place"
If "Place" is "Former", the parallel translation is "when"
It is registered as.
翻訳部405は、役割判別部403から、
(入力文)「その建物は彼が調査したところに欠陥があった。」
における形式名詞「ところ」は、「先行詞」であるとの判別結果を受け取っており、この判別結果に従って、「ところ」は、「先行詞」であると判断して、対訳辞書から、「ところ」の訳語として「place」を得る。このようにした実行された翻訳結果が、翻訳結果出力部407を介して出力される。
The
(Input sentence) “The building was flawed where he investigated.”
The formal noun “Tokoro” has received the discriminant result that it is “preceding”, and according to this discriminating result, “Tokoro” is judged to be “preceding”, "Place" is obtained as a translation of "." The translation result thus executed is output via the translation
本実施例の文書解析装置400では、あいまいで複数の解釈が可能な形式名詞についての解析を行い、形式名詞が「先行詞」であるか「形成子」であるかの判別を実行して、その判別結果に基づいて翻訳を行なう構成であるので、正しい翻訳が可能となり高精度なし角高い翻訳結果を出力することが可能となる。
In the
最後に、上述した処理を実行する文書解析装置を構成する情報処理装置のハードウェア構成例について、図13を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した入力文に基づく構文意味解析処理、形式名詞辞書作成処理、形式名詞が先行詞であるか形成子であるかの判別処理を実行する役割判別処理、翻訳処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。 Finally, an example of the hardware configuration of the information processing apparatus constituting the document analysis apparatus that executes the above-described processing will be described with reference to FIG. A CPU (Central Processing Unit) 501 performs processing corresponding to an OS (Operating System), syntactic and semantic analysis processing based on the input sentence described in the above-described embodiment, formal noun dictionary creation processing, and whether the formal noun is an antecedent. A role discrimination process, a translation process, and the like are executed to execute a discrimination process as to whether it is a creator. These processes are executed according to a computer program stored in a data storage unit such as a ROM or a hard disk of each information processing apparatus.
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
A ROM (Read Only Memory) 502 stores programs used by the
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
The
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
A
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば、国語辞書、形式名詞辞書、対訳辞書など、各種辞書データの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
An HDD (Hard Disk Drive) 511 includes a hard disk, drives the hard disk, and records or reproduces a program executed by the
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
The
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、クライアントやネットワーク接続サーバとの通信を実行する。
The
なお、図13に示す文書解析装置として適用される情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の文書解析装置は、図13に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。 Note that the hardware configuration example of the information processing apparatus applied as the document analysis apparatus illustrated in FIG. 13 is an example of an apparatus configured by applying a PC, and the document analysis apparatus of the present invention has the configuration illustrated in FIG. The configuration is not limited as long as the processing described in the above-described embodiments can be executed.
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。 The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiments without departing from the gist of the present invention. In other words, the present invention has been disclosed in the form of exemplification, and should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims should be taken into consideration.
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。 The series of processing described in the specification can be executed by hardware, software, or a combined configuration of both. When executing processing by software, the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run. For example, the program can be recorded in advance on a recording medium. In addition to being installed on a computer from a recording medium, the program can be received via a network such as a LAN (Local Area Network) or the Internet and can be installed on a recording medium such as a built-in hard disk.
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 Note that the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Further, in this specification, the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
以上、説明したように、本発明の構成によれば、入力文の構文意味解析処理を実行し、構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行して、判別結果に従った構文意味解析結果を出力する。形式名詞の役割が先行詞であるか形成子であるかの判別処理においては、形式名詞が独立語としての性質が強いか機能語としての性質が強いかによって分類した分類情報を有する形式名詞辞書に基づいて判別する。具体的には、形式名詞が、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられて登録されている場合、または、形式名詞が前記構文意味解析結果において単独で係り先と格関係にある場合は、形式名詞は形成子であると判断し、上記以外の場合は先行詞であると判断する。この判断結果に基づいてより精度の高い構文意味解析結果や、あるいはこの構文意味解析結果に基づく精度の高い翻訳結果を得ることが可能となる。 As described above, according to the configuration of the present invention, the syntax / semantic analysis processing of the input sentence is executed, and it is determined whether the role of the formal noun included in the syntax / semantic analysis result is an antecedent or a predecessor. Execute the process and output the syntax and semantic analysis result according to the discrimination result. In the process of discriminating whether the role of a formal noun is an antecedent or a former, a formal noun dictionary having classification information classified according to whether the formal noun is strong as an independent word or strong as a function word Determine based on. Specifically, when a formal noun is registered in the Japanese language dictionary in association with a word meaning sentence including any word of place, space, part, direction, or direction, or If the semantic analysis result alone has a case relationship with the destination, the formal noun is determined to be a former, and otherwise, it is determined to be an antecedent. Based on this determination result, it is possible to obtain a more accurate syntactic and semantic analysis result or a highly accurate translation result based on this syntactic and semantic analysis result.
100 文書解析装置
101 文入力部
102 構文意味解析部
103 辞書作成部
104 国語辞書格納部
105 形式名詞辞書格納部
106 役割判別部
107 判別結果出力部
300 構文意味解析システム
302 形態素解析部
302A 形態素ルール
302B 形態素辞書
303 構文意味解析部
303A 文法ルール
303B 結合価辞書
400 文書解析装置
401 文入力部
402 構文意味解析部
403 役割判別部
404 形式名詞辞書格納部
405 翻訳処理部
406 対訳辞書格納部
407 翻訳結果出力部
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
DESCRIPTION OF
502 ROM (Read-Only-Memory)
503 RAM (Random Access Memory)
504
512
Claims (7)
入力文の構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行する役割判別部と、
前記役割判別部の判別結果を入力し、判別結果に従った構文意味解析結果を出力する判別結果出力部と、
を有し、
前記役割判別部は、機能語としての性質が強くそのまま形成子として判別されるべき一群の形式名詞を第1の群の形式名詞として他の形式名詞と区別可能に登録している形式名詞辞書を参照し、当該一群の形式名詞を形成子と判別し、当該一群の形式名詞でない形式名詞については、当該形式名詞が単独で係り先と格関係にない場合に形成子と判別し、当該形式名詞が単独で係り先と格関係にある場合に先行詞と判別することを特徴とする文書解析装置。 A syntactic and semantic analysis unit for executing syntactic and semantic analysis processing of an input sentence;
A role discriminator for executing a discriminating process of whether the role of the formal noun included in the syntactic and semantic analysis result of the input sentence is an antecedent or an antecedent;
A discrimination result output unit for inputting the discrimination result of the role discrimination unit and outputting a syntax-semantic analysis result according to the discrimination result;
I have a,
The role discriminating unit is a formal noun dictionary in which a group of formal nouns that have strong properties as function words and are to be discriminated as they are are registered as distinctive nouns of the first group so that they can be distinguished from other formal nouns. The group of formal nouns is identified as a generator, and the formal nouns that are not the group of formal nouns are identified as a constructor when the formal noun is not in a case-related relationship. A document analyzing apparatus characterized by discriminating an antecedent when a character is in a case relationship with a destination .
前記形式名詞辞書を作成する辞書作成部を有し、
前記辞書作成部は、
形式名詞が、国語辞書に品詞分類として代名詞または指示詞を含まず、かつ、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられることなく登録されている場合、当該形式名詞を前記第1の群の形式名詞として前記形成名詞辞書に登録することを特徴とする請求項1に記載の文書解析装置。 The document analysis device further includes:
Has a dictionary creation unit that creates the form noun dictionary,
The dictionary creation unit
A formal noun is registered in the national language dictionary without a synonym sentence that does not include a pronoun or indicator as part of speech classification, and the national language dictionary contains a word in place, space, part, direction, or direction. 2. The document analysis apparatus according to claim 1, wherein the formal noun is registered in the formed noun dictionary as the formal noun of the first group .
前記役割判別部の判別結果を入力し、判別結果に従った翻訳処理を実行する翻訳処理部を有することを特徴とする請求項1に記載の文書解析装置。 The document analysis device further includes:
The document analysis apparatus according to claim 1, further comprising a translation processing unit that inputs a discrimination result of the role discrimination unit and executes a translation process according to the discrimination result.
構文意味解析部が、入力文の構文意味解析処理を実行する構文意味解析ステップと、
役割判別部が、入力文の構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行する役割判別ステップと、
判別結果出力部が、前記役割判別部の判別結果を入力し、判別結果に従った構文意味解析結果を出力する判別結果出力ステップと、
を有し、
前記役割判別ステップは、機能語としての性質が強くそのまま形成子として判別されるべき一群の形式名詞を第1の群の形式名詞として他の形式名詞と区別可能に登録している形式名詞辞書を参照し、当該一群の形式名詞を形成子と判別し、当該一群の形式名詞でない形式名詞については、当該形式名詞が単独で係り先と格関係にない場合に形成子と判別し、当該形式名詞が単独で係り先と格関係にある場合に先行詞と判別することを特徴とする文書解析方法。 A document analysis method in a document analysis device,
A syntax and semantic analysis step in which the syntax and semantic analysis unit executes a syntax and semantic analysis process of the input sentence;
A role discriminating step in which the role discriminating unit executes a discriminating process of whether the role of the formal noun included in the syntactic and semantic analysis result of the input sentence is an antecedent or a constructor;
A discrimination result output unit that inputs a discrimination result of the role discrimination unit and outputs a syntactic and semantic analysis result according to the discrimination result; and
I have a,
The role discrimination step includes a formal noun dictionary in which a group of formal nouns that have strong properties as function words and are to be discriminated as they are are registered as distinctive nouns of the first group so that they can be distinguished from other formal nouns. The group of formal nouns is identified as a generator, and the formal nouns that are not the group of formal nouns are identified as a constructor when the formal noun is not in a case-related relationship. A document analysis method characterized by discriminating an antecedent when the character is in a case relationship with the relationship .
辞書作成部が、前記形式名詞辞書を作成する辞書作成ステップを有し、
前記辞書作成部は、
形式名詞が、国語辞書に品詞分類として代名詞または指示詞を含まず、かつ、国語辞書に場所、空間、部分、方向、方角のいずれかの単語が含まれた語義文が対応付けられることなく登録されている場合、当該形式名詞を前記第1の群の形式名詞として前記形成名詞辞書に登録することを特徴とする請求項4に記載の文書解析方法。 The document analysis method further includes:
Dictionary creation unit has a dictionary generating step of generating the form noun dictionary,
The dictionary creation unit
A formal noun is registered in the national language dictionary without a synonym sentence that does not include a pronoun or indicator as part of speech classification, and the national language dictionary contains a word in place, space, part, direction, or direction. 5. The document analysis method according to claim 4 , wherein the formal noun is registered in the formed noun dictionary as the formal noun of the first group .
翻訳処理部が、前記役割判別部の判別結果を入力し、判別結果に従った翻訳処理を実行する翻訳処理ステップを有することを特徴とする請求項4に記載の文書解析方法。 The document analysis method further includes:
5. The document analysis method according to claim 4 , further comprising: a translation processing step in which a translation processing unit inputs a discrimination result of the role discrimination unit and executes a translation process according to the discrimination result.
構文意味解析部に、入力文の構文意味解析処理を実行させる構文意味解析ステップと、
役割判別部に、入力文の構文意味解析結果に含まれる形式名詞の役割が先行詞であるか形成子であるかの判別処理を実行させる役割判別ステップと、
判別結果出力部に、前記役割判別部の判別結果を入力し、判別結果に従った構文意味解析結果を出力させる判別結果出力ステップと、
を有し、
前記役割判別ステップは、機能語としての性質が強くそのまま形成子として判別されるべき一群の形式名詞を第1の群の形式名詞として他の形式名詞と区別可能に登録している形式名詞辞書を参照し、当該一群の形式名詞を形成子と判別し、当該一群の形式名詞でない形式名詞については、当該形式名詞が単独で係り先と格関係にない場合に形成子と判別し、当該形式名詞が単独で係り先と格関係にある場合に先行詞と判別することを特徴とするコンピュータ・プログラム。 A computer program for executing document analysis processing in a document analysis device;
A syntax and semantic analysis step for causing the syntax and semantic analysis unit to execute a syntax and semantic analysis process of the input sentence;
A role determination step for causing the role determination unit to execute a determination process as to whether the role of the formal noun included in the syntactic and semantic analysis result of the input sentence is an antecedent or a predecessor;
A discrimination result output step for inputting a discrimination result of the role discrimination unit to a discrimination result output unit and outputting a syntax-semantic analysis result according to the discrimination result;
I have a,
The role discrimination step includes a formal noun dictionary in which a group of formal nouns that have strong properties as function words and are to be discriminated as they are are registered as distinctive nouns of the first group so that they can be distinguished from other formal nouns. The group of formal nouns is identified as a generator, and the formal nouns that are not the group of formal nouns are identified as a constructor when the formal noun is not in a case-related relationship. A computer program characterized by discriminating it as an antecedent when it is in a case relationship with a destination .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007138379A JP5245291B2 (en) | 2007-05-24 | 2007-05-24 | Document analysis apparatus, document analysis method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007138379A JP5245291B2 (en) | 2007-05-24 | 2007-05-24 | Document analysis apparatus, document analysis method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008293295A JP2008293295A (en) | 2008-12-04 |
JP5245291B2 true JP5245291B2 (en) | 2013-07-24 |
Family
ID=40167949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007138379A Expired - Fee Related JP5245291B2 (en) | 2007-05-24 | 2007-05-24 | Document analysis apparatus, document analysis method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5245291B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5419906B2 (en) * | 2011-02-17 | 2014-02-19 | 日本電信電話株式会社 | Subject extraction apparatus, method, and program |
JP6332035B2 (en) * | 2012-11-27 | 2018-05-30 | 日本電気株式会社 | Document analysis apparatus, document analysis method, and document analysis program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007011775A (en) * | 2005-06-30 | 2007-01-18 | Nippon Telegr & Teleph Corp <Ntt> | Dictionary creating device, dictionary creation method, program, and recording medium |
-
2007
- 2007-05-24 JP JP2007138379A patent/JP5245291B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008293295A (en) | 2008-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8185377B2 (en) | Diagnostic evaluation of machine translators | |
JP4554273B2 (en) | Method and system for training a mechanical translator | |
JP4494706B2 (en) | Automatic extraction program for conversion mapping from bilingual corpus | |
JP4714400B2 (en) | Scalable machine translation system | |
JP4654745B2 (en) | Question answering system, data retrieval method, and computer program | |
US9098489B2 (en) | Method and system for semantic searching | |
JP3906356B2 (en) | Syntax analysis method and apparatus | |
JP4940325B2 (en) | Document proofreading support apparatus, method and program | |
US20050171757A1 (en) | Machine translation | |
WO2010046782A2 (en) | Hybrid machine translation | |
KR20040044176A (en) | Statistical method and apparatus for learning translation relationships among phrases | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
Guarasci et al. | Assessing BERT’s ability to learn Italian syntax: A study on null-subject and agreement phenomena | |
JP2007241764A (en) | Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program | |
Reshadat et al. | A new open information extraction system using sentence difficulty estimation | |
JP2010244385A (en) | Machine translation device, machine translation method, and program | |
JP5245291B2 (en) | Document analysis apparatus, document analysis method, and computer program | |
JP4401269B2 (en) | Parallel translation judgment device and program | |
JP2008077512A (en) | Document analysis device, document analysis method and computer program | |
JP4007413B2 (en) | Natural language processing system, natural language processing method, and computer program | |
JP2007011775A (en) | Dictionary creating device, dictionary creation method, program, and recording medium | |
Jusoh et al. | Automated translation machines: Challenges and a proposed solution | |
JP3825645B2 (en) | Expression conversion method and expression conversion apparatus | |
Kakum et al. | Phrase-Based English–Nyishi Machine Translation | |
Gavhal et al. | Sentence Compression Using Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5245291 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |