Nothing Special   »   [go: up one dir, main page]

JP2007011774A - 文章解析装置、文章解析方法、プログラムおよび記憶媒体 - Google Patents

文章解析装置、文章解析方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2007011774A
JP2007011774A JP2005192893A JP2005192893A JP2007011774A JP 2007011774 A JP2007011774 A JP 2007011774A JP 2005192893 A JP2005192893 A JP 2005192893A JP 2005192893 A JP2005192893 A JP 2005192893A JP 2007011774 A JP2007011774 A JP 2007011774A
Authority
JP
Japan
Prior art keywords
analysis
sentence
candidate
language
familiarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005192893A
Other languages
English (en)
Other versions
JP4034797B2 (ja
Inventor
Hiromi Nakaiwa
浩巳 中岩
Bond Francis
フランシス・ボンド
Takaaki Tanaka
貴秋 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005192893A priority Critical patent/JP4034797B2/ja
Publication of JP2007011774A publication Critical patent/JP2007011774A/ja
Application granted granted Critical
Publication of JP4034797B2 publication Critical patent/JP4034797B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】人間にとって理解しやすい解析結果を出力することができる文章解析装置、文章解析方法、プログラムおよび記憶媒体を提供する。
【解決手段】分割部13aは、入力された文章を単語単位で分割する。言語解析部13dは、単語単位に分割された分割候補に対して構文解析、意味解析、構文意味解析等の言語解析を行い、複数の異なる解析構造を有する解析候補を生成する。親密度算出部13cは、言語解析部13dにより生成された各解析候補に含まれる各単語の親密度を単語記憶部11から抽出し、文中に含まれる単語の親密度の平均を解析候補毎に算出する。選択部13dは、言語解析部13bにより生成された複数の解析候補の中から、文中に含まれる単語の親密度の平均が最も高い解析構造を抽出する。これにより、人間にとって理解しやすい解析結果が出力される。
【選択図】 図1

Description

本発明は、外部より入力された文章に対して言語解析を行う文章解析装置、文章解析方法、文章解析装置のプログラムおよびこのプログラムを記憶した記憶媒体に関するものである。
従来より、自然言語処理の分野では、入力された文章の意味や構造を解析する言語解析技術について、数多くの提案がなされている。例えば、非特許文献1,2には、入力された文章に対して意味解析や構文解析などを行った結果、複数の解析候補が生成された場合、共起情報を用いて解析構造中に含まれる単語の出現頻度の統計をとり、出現頻度の高い単語を多く含む解析候補を解析結果として出力することが開示されている。
Christopher D. Manning著、Hinrich Schutze著、「Foundations of Statistical Natural Language Processing」、Mit Pr、1999年6月18日 北 研二、中村 哲、長田昌明、「音声言語処理 コーパスに基づくアプローチ」、森北出版 天野 成昭、近藤 公久、「NTTデータベースシリーズ『日本語の語彙特性』 第1巻 単語親密度」、三省堂、1999年 田中 穂積、「自然言語処理−基礎と応用−」、社団法人 電子情報通信学会、1999年3月25日、p.15-85 乾健太郎他、「言い換え技術に関する研究動向」、自然言語処理、Vol.11,No.5,2004,p.151-198 黒橋、長尾、「京都大学テキストコーパス・プロジェクト」、言語処理学会第3回年次大会発表論文集、1997年、p.115-118
しかしながら、従来の方法では、単語の出現頻度など統計的処理の結果に基づいて解析結果を出力するため、意味をなさない解析結果や人間にとって理解しにくい解析結果が出力される場合があり、使い勝手が悪かった。
そこで、本願発明は、人間にとって理解しやすい解析結果を出力することができる文章解析装置、文章解析方法、プログラムおよび記憶媒体を提供することを目的とする。
上述したような課題を解決するために、本発明にかかる文章解析装置は、外部から文章を受け付ける受付手段と、この受付手段が受け付けた文章に対して言語解析を行う解析手段と、この解析手段による解析候補の中から、各解析候補に含まれる単語の主観的ななじみの程度を示す値である親密度に基づいて解析結果を選択する選択手段とを備えたことを特徴とする。
上記文章解析装置において、解析手段は、選択手段は、各解析候補に含まれる単語の親密度と解析候補に含まれる各単語の出現の度合いを示す頻度情報とに基づいて、解析結果を選択するようにしてもよい。
上記文章解析装置において、受付手段が受け付けた文章を、意味が略等しい異形の文章に変換する換言処理を行う換言手段をさらに備え、解析手段は、受付手段が受け付けた文章および換言手段により換言処理が行われた文章のうち少なくとも一方に対して言語解析を行うようにしてもよい。
上記文章解析装置において、解析手段は、言語解析として構文解析を行うようにしてもよい。また、解析手段は、言語解析として意味解析を行うようにしてもよい。
本発明によれば、受け付けた文章に対して言語解析した解析候補の中から、各解析候補に含まれる単語の親密度に基づいて解析結果を選択することにより、人間にとって理解しやすい解析結果を出力することができる。
[第1の実施の形態]
以下、図面を参照して、本発明の第1の実施の形態について詳細に説明する。図1は、本実施の形態にかかる文章解析装置の構成を示すブロック図である。文章解析装置1は、単語記憶部11と、受付部12と、解析部13と、出力部14とからなる。このような文章解析装置1は、CPU等の演算装置と、メモリ、HDD(Hard Disc Drive)等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した単語記憶部11、受付部12、解析部13および出力部14が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供されるようにしてもよい。
単語記憶部11は、複数の単語と、各単語の親密度とを記憶したデータベースである。ここで、親密度とは、単語の主観的ななじみの程度を表す数値であり、例えば1から7の範囲の実数値で表した場合、1に近いほどなじみがなく、7に近いほどなじみがあることを意味する。例えば、「会」や「本」という漢字の親密度は6.5以上であり、「魑」や「龠」という単語の親密度は2.0以下である。また、例えば「太陽」や「父親」という単語の親密度は6.5以上であり、「刮目」や「撒播」という単語の親密度は2.0以下である。このような親密度は、各漢字のなじみの程度を1,2,3,4,5,6,7の数値で多人数に評価させ、この評価値を平均することにより求められる。このような方法で日本語における漢字6300字について求められた親密度はデータベース化されている(例えば、非特許文献3参照。)。親密度は、信頼性の高い科学的な数値であり、言語に関わる学術研究に利用されるばかりではなく、語彙数推定装置等の応用技術にも広く利用されている。
受付部12は、外部から文章のデータを受け付けるインターフェース装置である。
解析部13は、受付部12から受け付けた文章に対して、言語解析を行う演算処理部である。このような解析部13は、入力された文章を単語単位に分割する分割部13aと、この分割部13aにより単語単位に分割された分割候補に対して構文解析や意味解析などの公知の言語解析(例えば、非特許文献4参照。)を行って新たな解析構造を有する1または複数の解析候補(以下、「解析候補(群)」と呼ぶ)を生成する言語解析部13bと、この言語解析部13bにより生成された解析候補(群)それぞれの親密度を算出する親密度算出部13cと、この親密度算出部13cにより親密度が算出された解析候補(群)の中から最も親密度が高い解析構造を有する解析候補を選択する選択部13dとから構成される。選択部13dにより選択された解析候補の解析構造は、出力部14に送出される。
出力部14は、解析部13から受け付けた解析構造を外部に出力するインターフェース装置である。
次に、図2を参照して、本実施の形態にかかる文章解析装置1の動作について説明する。まず、公知の通信回線、記憶媒体、キーボードやマウス等の公知の入力装置など、外部から入力された文章を、受付部12を介して解析部13に入力する(ステップS201)。
次いで、解析部13は、受付部12から受け付けた文章に対して言語解析を行い、解析候補(群)を生成する(ステップS202)。具体的には、まず、分割部13aにより文章を単語単位に分割し、言語解析部13dにより単語単位に分割された分割候補に対して構文解析、意味解析、構文意味解析等の言語解析を行う。
ここで、分割部13aは、文章を単語に分割する位置を変えることにより、意味の異なる複数の分割候補を生成する場合がある。一例として、「カーテン」という単語の語義文である「ある物事を隠す物」という文章を分割する場合について説明する。この語義文は、「ある/物事/を/隠す/物」と分割するのが正解であるが、「ある/物/事/を/隠す/物」と分割される場合もありうる。このように、同じ文章であっても、単語に分割する位置によって、意味の異なる複数の分割候補が生成される。なお、本実施の形態では、各単語を「/」で区切って記載している。
また、言語解析部13bは、構文解析を行う場合、1つの単語に複数の品詞があると解釈することがある。例えば、「ある物事を隠す物」という文章を単語単位に分割すると「ある/物事/を/隠す/物」となるが、ここで「ある」という単語は、動詞と連体詞という2つの異なる品詞に解釈される。このように同じ文字からなる単語であっても、品詞が異なると意味も異なるので、構文解析を行うことにより解析構造の異なる複数の解析候補が生成されることとなる。また、上述したように、文章を単語単位に分割する際にも意味の異なる複数の分割候補が生成されることがあるため、これらの複数の分割候補にさらに構文解析を行うことにより、さらに多数の解析構造が異なる解析候補が生成されることとなる。
また、言語解析部13bは、意味解析を行う場合、曖昧で多様な言語表現から体系的に記述された概念表現へ変換する際に、解析構造の異なる複数の解析候補を生成することがある。例えば、「ある物事を隠す物」という文章を単語単位に分割した「ある/物事/を/隠す/物」という分割候補に対して意味解析を行う場合について、図3を参照して説明する。図3は、上記分割候補に対して意味解析した結果得られた意味表現を示す図である。
ここで、「ある」という単語は、動詞と連体詞という2つの異なる品詞に解釈される。また、「隠す」と「物」という単語の関係は、「物」が「隠す」の主語である場合と、「隠す」と「物」との間に明示的な関係がない場合とが想定される。したがって、上記分割候補に対して意味解析を行うと、「ある」が動詞で「物」が「隠す」の主語である場合(図3(a)に対応)と、「ある」が連体詞で「物」と「隠す」との間に明示的な関係がない場合(図3(b)に対応)と、「ある」が連体詞で「物」が「隠す」の主語である場合(図3(c)に対応)という3つの解析候補が生成されることとなる。このように、意味解析を行うことにより異なる複数の解析候補が生成される場合がある。また、上述したように、文章を単語単位に分割する際に意味の異なる複数の分割候補が生成されることがあるため、これらの複数の分割候補にさらに意味解析を行うことにより、さらに多数の解析構造が異なる解析候補がさらに生成されることとなる。
次いで、解析部13は、言語解析部13bにより生成された解析候補毎に親密度を算出する(ステップS203)。具体的には、親密度算出部13cは、各解析候補の解析構造に含まれる各単語の親密度を単語記憶部11から抽出し、解析構造中に含まれる単語の親密度の平均を解析候補毎に算出する。
例えば、「神戸車両規制を実施する」という文章に対して、「神/戸車/両/規制/を/実施/する」という第1の解析候補と、「神戸/車両/規制/を/実施/する」という第2の解析候補とが生成された場合、それぞれに含まれる各単語の親密度は、以下の通りとなる。なお、本実施の形態では、各単語の親密度を「[]」の中に記載している。
第1の解析候補:神[7]/戸車[3]/両[6]/規制[6]/を/実施[6]/する[7]
第2の解析候補:神戸[7]/車両[6]/規制[6]/を/実施[6]/する[7]
ここで、解析候補毎に親密度の平均を算出すると、第1の解析候補は5.8、第2の解析候補は6.4となる。このように、単語を分割する位置が異なると、同じ文章から生成した解析候補であっても、それぞれに含まれる単語の親密度が異なるので、各解析候補に含まれる各単語の親密度の平均も異なることとなる。
また、例えば、「そのしゅだんはごうほうだ」という文章に対して、「その/しゅだん(手段)/は/ごうほう(合法)/だ」という第1の解析候補と、「その/しゅだん(手段)/は/ごうほう(号報)/だ」という第2の解析候補とが生成された場合、それぞれに含まれる各単語の親密度は、以下の通りとなる。
第1の解析候補:その[7]/しゅだん(手段)[6]/は/ごうほう(合法)[6]/だ
第2の解析候補:その[7]/しゅだん(手段)[6]/は/ごうほう(号報)[2]/だ
ここで、解析候補毎に親密度の平均を算出すると、第1の解析候補は6.3、第2の解析候補は5となる。このように、単語を分割する位置が異なると、同じひらがなの文章から生成した解析候補であっても、それぞれに含まれる単語の親密度が異なるので、各解析候補に含まれる各単語の親密度の平均も異なることとなる。
また、例えば、「皮を剥ぐ」という文章に対して意味解析を行った結果、「皮」という単語を、「動植物の皮」という意味に解釈する第1の解析候補と、「鼓や三味線のこと」という意味に解釈する第2の解析候補とが生成された場合、それぞれに含まれる単語の親密度は以下の通りとなる。
第1の解析候補:皮(動植物の皮)[7]/を/剥ぐ[6]
第2の解析候補:皮(鼓や三味線のこと)[2]/を/剥ぐ[6]
ここで、解析候補毎に親密度の平均を算出すると、第1の解析候補は6.5、第2の解析候補は4となる。このように、単語の意味の解釈が異なると、同じ文章から生成した解析候補であっても、それぞれに含まれる単語の親密度が異なるので、各解析候補に含まれる各単語の親密度の平均も異なることとなる。
次いで、解析部13の選択部13dは、言語解析部13bにより生成された解析候補の中から、解析構造中に含まれる単語の親密度の平均が最も高い解析候補の解析構造を解析結果として抽出する(ステップS204)。なお、解析結果として抽出する解析構造の数量は、少なくとも1つであり、複数であってもよい。
抽出された解析構造は、解析結果として出力部14によって出力される(ステップS205)。ここで、出力部14は、解析部13から入力された解析構造を表示画面に表示したり、紙面にプリントアウトしたりすることにより、文章解析装置1のユーザに提示する。なお、出力部14は、解析部13から入力された解析構造を、例えば機械翻訳や質問の応答など他の自然言語アプリーケーションへ入力するようにしてもよい。
このように、本実施の形態によれば、言語解析による解析候補の中から、文中の単語の親密度の値が最も高い解析構造を解析結果として出力することにより、人間にとって理解しやすい解析構造が出力される。これにより、人間の感性あった解析結果に基づくヒューマンインターフェースを実現することができる。
また、本実施の形態にかかる文章解析装置1に換言技術(例えば、非特許文献5参照。)を適用することにより、同じ意味を有する様々な文章を生成することが可能となるので、読む人間の知的水準に応じて文章の難しさを制御した解析結果を出力することが可能となる。
例えば、「首相/は/運輸/行政/について/言及/した」という文章に対して上記換言技術により「総理大臣/は/人/や/貨物/を/運ぶ/こと/について/話した」という文章を生成した場合、それぞれの文章に含まれる単語の親密度は以下の通りとなる。
換言前:首相[5]/は/運輸[6]/行政[5]/について/言及[5]/した
換言後:総理大臣[6]/は/人[7]/や/貨物[6]/を/運ぶ[7]/こと[7]/について/話した[7]
ここで、各文章における各単語の親密度の平均は、換言前が5.25、換言後が6.66となっており、上記換言技術を適用することにより親密度が高い単語が多く用いられた文章が生成されたことがわかる。このように、換言技術を本実施の形態の文章解析装置1に適用することにより、読む人間の知的水準に応じて文章の難しさを制御した解析結果を出力することが可能となる。
なお、上記換言技術による換言処理は、例えば、受付部12により受け付けられた文章、言語解析部13bにより言語解析が行われた解析候補などに対して行うようにしてもよい。
[第2の実施の形態]
次に、本発明の第2の実施の形態について図4を参照して説明する。なお、本実施の形態にかかる言語学習装置2は、上述した第1の実施の形態にかかる言語学習装置1と解析部13の構成および動作が異なるもののその他は同一である。したがって、本実施の形態において、第1の実施の形態と同等の構成要素については、同じ名称および符号を付し適宜その説明を省略する。
解析部13は、分割部13aと、言語解析部13bと、親密度算出部13cと、選択部13dと、頻度情報算出部13eとから構成される演算処理部である。
頻度情報算出部13eは、過去に入力された文章や既存の文書データからこれらのデータ中に出現する各単語の頻度を予め算出しておき、この算出された頻度に基づいて、言語解析部13bにより生成された各解析候補の中に含まれる各単語の頻度を抽出し、これを頻度情報として選択部13dに送出する。なお、既存の文書データとしては、例えば非特許文献6に開示されている文書データを用いることができる。
次に、図5を参照して、本実施の形態にかかる文章解析装置2の動作について説明する。まず、外部から文章が入力された文章を、受付部12を介して解析部13に入力する(ステップS201)。
次いで、解析部13は、受付部12から受け付けた文章に対して分割部13aにより文章を単語単位で分割し、この単語単位に分割された分割候補に対して言語解析部13dにより構文解析、意味解析、構文意味解析等の言語解析を行い、解析候補(群)を生成する(ステップS202)。
次いで、解析部13の頻度算出部13eは、言語解析部13bにより生成された解析候補(群)から頻度情報を生成する(ステップS501)。ここで、頻度情報とは、既存の文書データや以前に入力された文章中に含まれる各単語の出現頻度を表す値であり、例えば、全ての文章中に含まれる各単語の数量を数え上げることにより生成される。なお、頻度算出部13eは、助詞や助動詞ではなく、名詞、動詞、形容詞、形容動詞などの文章の内容に深く関連する単語の頻度情報を生成する。このとき、頻度情報を生成する単語の選択は、共に出現する単語の頻度を示す共起情報などに基づいて行うようにしてもよい。また、頻度情報とともに共起情報も生成するようにしてもよい。
次いで、解析部13の親密度算出部13cは、言語解析部13bにより生成された解析候補毎に親密度を算出する(ステップS203)。
次いで、解析部13の選択部13dは、言語解析部13bにより生成された複数の解析候補の中から、親密度の平均が高く、かつ、頻度情報の値が高い単語が含まれている解析候補の解析構造を解析結果として抽出する(ステップS502)。具体的には、まず、選択部13dは、言語解析部13bにより生成された複数の解析候補の中から、解析構造中に含まれる単語の親密度の平均が所定の値以上の解析構造を有する解析候補を抽出する。次に、選択部13dは、抽出した解析候補の中から、解析構造中に含まれる単語の頻度の平均が最も高い解析候補を抽出する。抽出された解析候補の解析構造は、出力部14に送出される。
例えば、「神戸車両規制を実施する」という文章に対して言語解析を行った結果、「神/戸車/両/規制/を/実施/する」という第1の解析候補と、「神戸/車両/規制/を/実施/する」という第2の解析候補とが生成された場合における選択部13dの動作について図6を参照して説明する。図6は、上記文章に対して構文意味解析した結果得られた第1,2の解析候補の解析木、各単語の親密度、解析候補毎の親密度の平均、各単語の頻度、解析候補毎の頻度の平均、解析候補に含まれる共起、解析候補毎の共起の平均を示す図である。なお、図6(a),(b)において、Nは名詞、Pは助詞、VNはサ変名詞、Vは動詞、PPは前置詞句、VPは動詞句、NPは名詞句、NVはサ変動詞を表す。
ここで、第1の解析候補に含まれる「戸車」に対して親密度が付与されていないものとする。このため、図6に示す第1の解析候補と第2の解析候補の親密度の平均は、それぞれ6.4であり、同じ値となっている。しかしながら、頻度の平均は、第1の解析候補が896.5、第2の解析候補が1098.4となっており、第2の解析候補の方によく用いられる単語が多く含まれていることがわかる。また、共起の平均は、第1の解析候補が184.8、第2の解析候補が261.5となっており、第2の解析候補の方に共起する単語が多く含まれていることがわかる。したがって、選択部13dは、第2の解析候補の解析構造を解析結果として出力する。
次いで、出力部14は、受け付けた解析構造を解析結果として出力する(ステップS205)。
このように、本実施の形態によれば、親密度のみならず頻度情報も用いて解析結果を抽出することにより、入力された文章と相関が高く、かつ、より人間に理解しやすい解析構造を出力することができる。
また、頻度情報を用いることにより、例えば固有名詞など親密度が付与されていない単語が解析候補に含まれる場合であっても、適切な解析構造を出力することができる。また、頻度情報を生成する文書データを特定の分野に限定することにより、その特定の分野向けの解析結果を抽出することが可能となる。これにより、読む人間の知的分野に応じて文章の内容を制御した解析結果を出力することが可能となる。
また、共起情報を用いることにより、頻度は高くても同時には現れない単語が多く含まれる解析候補を除外することができるので、結果として、より人間に理解しやすい解析構造を出力することができる。
上述した第1,2の実施の形態にかかる文章解析装置1,2は、入力された文章に対して言語解析を行って解析候補(群)を生成し、この解析候補(群)の中から最適な解析構造を有する解析候補を抽出するものである。したがって、文章解析装置1,2は、解析候補(群)の中から人間が理解しやすい解析構造を抽出する装置であるならば、各種装置に適用することができる。
例えば、文章校正システムに適用した場合、解析結果として文中の単語の親密度が低い解析構造が生成されたときに、その解析構造を人間にとって理解しやすい解析構造へ修正を行わせるトリガを文章解析装置1が生成することにより、文章構成システムに理解しやすい解析構造を生成させるきっかけを与えることが可能となる。
なお、本実施の形態において、選択部13dは、親密度と共に頻度情報および共起情報を用いて解析候補(群)の中から最適な解析構造を有する解析候補を選択するようにしたが、親密度と共に用いる情報は、頻度情報および共起情報のうち少なくとも一方が用いられればよい。例えば、親密度と頻度情報、または、親密度と共起情報に基づいて解析候補を選択するようにしてもよい。
また、上述した第1,2の実施の形態において、言語解析装置1,2は、単語記憶部11を備えるように説明したが、例えば、通信回線を介して取得するなど、文章中に含まれる各単語の親密度を取得できるのであれば、単語記憶部11を備えないようにしてもよい。
また、上述した第1,2の実施の形態において、解析部13は、解析候補(群)の中から、各解析候補の解析構造中に含まれる単語の親密度の平均に基づいて解析構造を抽出するようにしたが、各解析候補の解析構造中に含まれる単語の親密度を用いて解析候補(群)から解析構造を抽出するのであれば、各種方法を用いることができる。例えば、解析構造中に含まれる単語の親密度の和に基づいて、解析候補(群)から解析構造を抽出するようにしてもよい。
本発明の第1の実施の形態の言語解析装置の構成を示すブロック図である。 図1の言語解析装置の動作を示すフローチャートである。 意味解析による解析候補の生成動作を説明する図である。 本発明の第2の実施の形態の言語解析装置の構成を示すブロック図である。 図4の言語解析装置の動作を示すフローチャートである。 頻度情報を用いた解析候補の選択動作を説明する図である。
符号の説明
1,2…言語解析装置、11…単語記憶部、12…受付部、13…解析部、13a…分割部、13b…言語解析部、13c…親密度算出部、13d…選択部、13e…頻度算出部、14…出力部。

Claims (8)

  1. 外部から文章を受け付ける受付手段と、
    この受付手段が受け付けた文章に対して言語解析を行う解析手段と、
    この解析手段による解析候補の中から、各解析候補に含まれる単語の主観的ななじみの程度を示す値である親密度に基づいて解析結果を選択する選択手段と
    を備えたことを特徴とする文章解析装置。
  2. 前記選択手段は、各解析候補に含まれる単語の親密度と前記解析候補に含まれる各単語の出現の度合いを示す頻度情報とに基づいて、解析結果を選択する
    ことを特徴とする請求項1記載の文章解析装置。
  3. 前記受付手段が受け付けた文章を、意味が略等しい異形の文章に変換する換言処理を行う換言手段をさらに備え、
    前記解析手段は、前記受付手段が受け付けた文章および前記換言手段により換言処理が行われた文章のうち少なくとも一方に対して言語解析を行う
    ことを特徴とする請求項1または2記載の文章解析装置。
  4. 前記解析手段は、前記言語解析として構文解析を行う
    ことを特徴とする請求項1乃至3の何れか1項に記載の文章解析装置。
  5. 前記解析手段は、前記言語解析として意味解析を行う
    ことを特徴とする請求項1乃至3の何れか1項に記載の文章解析装置。
  6. 外部から文章を受け付ける受付ステップと、
    この受付手段が受け付けた文章に対して言語解析を行う解析ステップと、
    この解析手段による解析候補の中から、各解析候補に含まれる単語の主観的ななじみの程度を示す値である親密度に基づいて解析結果を選択する選択ステップと
    を備えたことを特徴とする文章解析方法。
  7. コンピュータに、
    外部から文章を受け付ける受付ステップと、
    この受付手段が受け付けた文章に対して言語解析を行う解析ステップと、
    この解析手段による解析候補の中から、各解析候補に含まれる単語の主観的ななじみの程度を示す値である親密度に基づいて解析結果を選択する選択ステップと
    を実行させることを特徴とするプログラム。
  8. 請求項7に記載されたプログラムを記憶した記憶媒体。
JP2005192893A 2005-06-30 2005-06-30 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体 Expired - Fee Related JP4034797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005192893A JP4034797B2 (ja) 2005-06-30 2005-06-30 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005192893A JP4034797B2 (ja) 2005-06-30 2005-06-30 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2007011774A true JP2007011774A (ja) 2007-01-18
JP4034797B2 JP4034797B2 (ja) 2008-01-16

Family

ID=37750168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005192893A Expired - Fee Related JP4034797B2 (ja) 2005-06-30 2005-06-30 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4034797B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009154241A1 (ja) * 2008-06-18 2009-12-23 日本電気株式会社 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
CN103645986A (zh) * 2013-11-29 2014-03-19 北京广利核系统工程有限公司 一种编译器的可视化语法树的生成方法和重构方法
CN105357586A (zh) * 2015-09-28 2016-02-24 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
JP2017010107A (ja) * 2015-06-17 2017-01-12 大日本印刷株式会社 情報処理装置、情報処理システム及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009154241A1 (ja) * 2008-06-18 2009-12-23 日本電気株式会社 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
JP5429165B2 (ja) * 2008-06-18 2014-02-26 日本電気株式会社 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
CN103645986A (zh) * 2013-11-29 2014-03-19 北京广利核系统工程有限公司 一种编译器的可视化语法树的生成方法和重构方法
JP2017010107A (ja) * 2015-06-17 2017-01-12 大日本印刷株式会社 情報処理装置、情報処理システム及びプログラム
CN105357586A (zh) * 2015-09-28 2016-02-24 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN105357586B (zh) * 2015-09-28 2018-12-14 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置

Also Published As

Publication number Publication date
JP4034797B2 (ja) 2008-01-16

Similar Documents

Publication Publication Date Title
US8812296B2 (en) Method and system for natural language dictionary generation
CN103678285A (zh) 机器翻译方法和机器翻译系统
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
Wang et al. Automatic paper writing based on a RNN and the TextRank algorithm
Suszczańska et al. Translating Polish texts into sign language in the TGT system
JP2944346B2 (ja) 文書要約装置
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
US20030061031A1 (en) Japanese virtual dictionary
Langlais et al. Unit completion for a computer-aided translation typing system
Qudar et al. A survey on language models
Al-Gaphari et al. A method to convert Sana’ani accent to Modern Standard Arabic
JP4034797B2 (ja) 文章解析装置、文章解析方法、文章解析プログラムおよび記録媒体
Ni et al. Masked siamese prompt tuning for few-shot natural language understanding
Sharma et al. Word prediction system for text entry in Hindi
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
KR20230080849A (ko) 실시간 온라인 전문 강의용 주제 친화적 자막 생성 방법 및 시스템
JP2014191484A (ja) 文末表現変換装置、方法、及びプログラム
Zeng et al. Lexicon expansion for latent variable grammars
Guo et al. A machine-generated text detection model based on text multi-feature fusion
Moisio et al. On using distribution-based compositionality assessment to evaluate compositional generalisation in machine translation
JP2008140204A (ja) データ検索システム及びプログラム
JP4054035B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体
Chou et al. Chinese font recommendation based on emotional adjectives
JP7301938B2 (ja) 文書作成システム、文書作成方法及び文書作成プログラム
JP2019087058A (ja) 文章中の省略を特定する人工知能装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees