JP2009015795A - Text segmentation apparatus, text segmentation method, program, and recording medium - Google Patents
Text segmentation apparatus, text segmentation method, program, and recording medium Download PDFInfo
- Publication number
- JP2009015795A JP2009015795A JP2007180311A JP2007180311A JP2009015795A JP 2009015795 A JP2009015795 A JP 2009015795A JP 2007180311 A JP2007180311 A JP 2007180311A JP 2007180311 A JP2007180311 A JP 2007180311A JP 2009015795 A JP2009015795 A JP 2009015795A
- Authority
- JP
- Japan
- Prior art keywords
- search
- text
- word
- sentence
- connectivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、テキストを計算機上で利用する分野において、テキストに記述されている複数の内容に応じて、テキスト内の文章を自動的に分割する技術に関する。
The present invention relates to a technique for automatically dividing a sentence in a text according to a plurality of contents described in the text in a field where the text is used on a computer.
近年、急速な計算機の性能向上に伴い、莫大なテキスト(ここでは、文字列だけで構成される文の集合)を蓄積し、データベースを構築することが可能である。 In recent years, with the rapid improvement in computer performance, it is possible to accumulate a huge amount of text (here, a set of sentences composed only of character strings) and construct a database.
しかし、保存されているテキストを、人手で整理・管理することは、一般的に困難である。そこで、蓄積されたテキストデータベースを解析し、入力したテキストを、内容に応じて意味段落に分割する「テキストセグメンテーション」と呼ばれる技術が開発されている。テキストデータベースの分類や整理を、計算機が行う場合、上記テキストセグメンテーションが応用されつつある。テキストセグメンテーションの1つの代表的な方法として、概念ベースと呼ばれる情報を用いて、テキストセグメンテーションを行う技術が提案されている(たとえば、特許文献1参照)。 However, it is generally difficult to manually organize and manage stored text. Therefore, a technique called “text segmentation” has been developed in which the stored text database is analyzed and the inputted text is divided into semantic paragraphs according to the contents. When a computer performs classification and organization of a text database, the above text segmentation is being applied. As one typical method of text segmentation, a technique for performing text segmentation using information called a concept base has been proposed (for example, see Patent Document 1).
この提案技術では、ある単語と、それに共起するパターンとを数値ベクトル化した概念ベクトルを、予め蓄積されている学習データから、複数作成する。そして、概念ベクトルの集まりである概念ベースを利用し、テキストセグメンテーションを行う。学習データは、1つの分野に関するテキスト(たとえば、「政治」の分野だけに関するテキスト)が、数多く蓄積されている。 In this proposed technique, a plurality of concept vectors obtained by converting a certain word and a co-occurrence pattern into numerical vectors are created from previously stored learning data. Then, text segmentation is performed using a concept base which is a collection of concept vectors. In the learning data, many texts related to one field (for example, text related only to the field of “politics”) are accumulated.
また、1種類の長さのブロックに対する連結度に基づいて、文間の意味的連続性を評価することが知られている(たとえば、非特許文献1参照)。この従来例では、ブロックの長さが短い場合、局所的な意味内容の変化に追従し易い代わりに、過剰に意味段落を推定する可能性が高い。反対に、ブロックの長さが長い場合、大域的な意味内容の変化を捉え易い代わりに、緩やかに意味内容が変化するテキストに対処できない。
しかし、従来のテキストセグメンテーション手法の精度を高めるためには、大規模な学習データを用意しなくてはならない。よって、学習データが小規模である場合、概念ベースを適切に作成することができず、テキストセグメンテーションの精度が低下するという問題がある。 However, in order to improve the accuracy of the conventional text segmentation technique, large-scale learning data must be prepared. Therefore, when the learning data is small, the concept base cannot be appropriately created, and there is a problem that the accuracy of text segmentation is lowered.
また、事前に用意した学習データに含まれている分野に対応しているので、異なる分野のテキストについて、テキストセグメンテーションを行うことができない。たとえば、「政治」や「経済」に関する情報だけが、学習データに蓄積されている場合、「スポーツ」の分野のテキストをテキストセグメンテーションすることは困難である。 Moreover, since it corresponds to the field | area contained in the learning data prepared beforehand, text segmentation cannot be performed about the text of a different field | area. For example, if only information related to “politics” and “economy” is accumulated in the learning data, it is difficult to text segment the text in the field of “sports”.
本発明は、学習データを必要としないテキストセグメンテーション方法、その装置、プログラム、および記録媒体を提供することを目的とする。
An object of the present invention is to provide a text segmentation method that does not require learning data, an apparatus thereof, a program, and a recording medium.
本発明は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部とを有することを特徴とするテキストセグメンテーション装置である。
The present invention provides a text decomposition unit that decomposes input text into sentence units, a morphological analysis of a sentence decomposed by the text decomposition unit, and a search word extraction that extracts a noun as a search word from the analyzed morphemes And a web search using the search terms extracted by the search term extraction unit, morphological analysis of the searched text, and among the analyzed morphemes, a related word acquisition unit that acquires nouns as related terms, and Meaning that, by using a keyword set that is a combination of a search term and the related word, the connectivity between the plurality of sentences obtained by decomposing the input text is determined, and sentences having a connectivity higher than a predetermined threshold value. A text segmentation apparatus comprising: a connectivity determination unit that divides the input text by extracting a paragraph.
本発明によれば、テキストセグメンテーションする場合、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がないという効果を奏する。
According to the present invention, when text segmentation is performed, the concept of searching on the web is used, so that it is not necessary to prepare learning data in advance.
発明を実施するための最良の形態は、以下の実施例である。 The best mode for carrying out the invention is the following examples.
図1は、本発明の実施例1であるテキストセグメンテーション装置100を示すブロック図である。
FIG. 1 is a block diagram showing a text segmentation apparatus 100 that is
テキストセグメンテーション装置100は、学習データを使用せずに、入力したテキストをテキストセグメンテーションする装置であり、上記入力したテキストに基づいてウェブ検索し、このウェブ検索されたテキストを解析し、この解析されたテキストの内容に応じて、上記入力したテキストを分割する装置であり、コンピュータで構成されている。 The text segmentation device 100 is a device that performs text segmentation on input text without using learning data. The text segmentation device 100 performs a web search based on the input text, analyzes the web searched text, and analyzes the analyzed text. A device that divides the input text according to the content of the text, and is configured by a computer.
テキストセグメンテーション装置100は、テキスト分解部1と、検索語抽出部2と、関連語取得部3と、連結性判定部4と、分解文章記憶部M1と、検索語記憶部M2と、関連語記憶部M3と、意味段落記憶部M4と、入力部5と、制御部6と、出力部7とを有する。
The text segmentation device 100 includes a
テキスト分解部1は、入力したテキストT1を、文単位に分解する。
The
検索語抽出部2は、テキスト分解部1が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する。
The search
関連語取得部3は、検索語抽出部2が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する。
The related
連結性判定部4は、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、入力したテキストT1を分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、入力したテキストT1を分割する。
The
入力部5は、テキストT1を入力する。制御部6は、テキストセグメンテーション装置100の全体を制御する。
The
出力部7は、連結性判定部4が分割したテキストを出力する。
The
分解文章記憶部M1は、テキスト分割部1が分割した文を記憶する。
The decomposed sentence storage unit M1 stores the sentence divided by the
検索語記憶部M2は、検索語抽出部2が抽出した検索語を記憶する。
The search term storage unit M2 stores the search terms extracted by the search
関連語記憶部M3は、関連語取得部3が取得した関連語を記憶する。
The related word storage unit M3 stores the related words acquired by the related
意味段落記憶部M4は、連結性判定部4が抽出した意味段落を格納する。
The semantic paragraph storage unit M4 stores the semantic paragraph extracted by the
テキストセグメンテーション装置100に、ネットワークNW1が接続され、ウェブW1に、アクセスすることができる。ウェブW1は、テキストセグメンテーション装置100の入力部5に、検索結果として入力されるテキストである。表示部D1は、出力部7を介して、制御部6が出力し結果を表示する装置である。
A network NW1 is connected to the text segmentation device 100, and the web W1 can be accessed. The web W1 is text that is input as a search result to the
次に、テキストセグメンテーション装置100の動作について説明する。 Next, the operation of the text segmentation device 100 will be described.
図2は、テキストセグメンテーション装置100における処理手順の概要を示す図である。 FIG. 2 is a diagram showing an outline of a processing procedure in the text segmentation apparatus 100.
S1で、テキストセグメンテーションする対象であるテキストT1を入力する。このテキストが「入力したテキスト」T1である。S2で、テキスト分解部1が、入力したテキストT1を、文単位に分割する。S3で、分割された文から、名詞を抽出し、この抽出された名詞を検索語として使用する。S4で、検索語を用いて、ウェブ上で検索し、この検索されたテキストT2に含まれている名詞を関連語として使用する。S5で、検索語と関連語とを組にしてキーワード集合を作り、このキーワード集合に基づいて、入力したテキストT1を分解した複数の文のうちで、互いに内容的にまとまりがある文を、意味段落として抽出する。S6で、テキストセグメンテーション結果を出力する。
In S1, the text T1 to be text segmented is input. This text is “input text” T1. In S2, the
次に、テキストセグメンテーションの処理手順を、より具体的に説明する。 Next, the text segmentation processing procedure will be described more specifically.
まず、入力部5を通じて、テキストT1を入力すると、制御部6が、テキスト分解部1を呼び出し、テキスト分解部1が、テキストT1を1文字ずつ読み込み、文単位で切り出し、N個の文を得る。そして、切り出されたN個の文を、制御部6が、分解文章記憶部M1に格納する。ここで、「文」は、句点「。」で区切られている一文である。
First, when the text T1 is input through the
図3は、本発明の実施例1において、入力したテキストT1の一例を示す図である。 FIG. 3 is a diagram illustrating an example of the input text T1 in the first embodiment of the present invention.
図4は、実施例1における分解文章記憶部M1に格納されている文の一例を示す図である。 FIG. 4 is a diagram illustrating an example of sentences stored in the decomposed sentence storage unit M1 according to the first embodiment.
テキストT1は、1番目の文11と、2番目の文12と、3番目の文13と、4番目の文14と、5番目の文15と、6番目の文16と、7番目の文17と、8番目の文18と、9番目の文19とを有する。
The text T1 includes the first sentence 11, the second sentence 12, the third sentence 13, the fourth sentence 14, the fifth sentence 15, the sixth sentence 16, and the seventh sentence. 17, an
図3に示すテキストT1を、テキスト分解部1が分解し、図4に示すように、文単位に分解された9つの文11〜19が生成され、分解文章記憶部M1に格納される。
The
テキスト分解部1が生成した文の個数は、入力したテキストT1によって異なる。また、意味的に複数に続く文である(句点「。」を使用せずに、複数の文が続く)場合や、句点「。」の入力ミスがある場合には、複数の文が1つの文として扱われる。
The number of sentences generated by the
次に、制御部6が、分解文章記憶部M1に格納されている各文から、検索語抽出部2に検索語を抽出させる。ここで、「検索語」は、ウェブ上で検索を行う際に入力する1つまたは複数の名詞である。検索語抽出部2は、最初に入力された文に、形態素解析を行う。そして、形態素解析によって名詞に分類された複数の単語を、検索語として取り出す。この取り出された検索語を、制御部6が、検索語記憶部M2に格納する。ただし、名詞を取り出すだけでは、「年」や「時」のように、一般的に使用される単語(検索語として意味がない単語)も抽出される。そこで、「年」や「時」等の不要語からなるリストである不要語リストL1を予め作成し、不要語リストL1に登録されていない名詞を検索語として扱う。
Next, the
図5は、実施例1における不要語リストL1の一例を示す図である。 FIG. 5 is a diagram illustrating an example of the unnecessary word list L1 according to the first embodiment.
不要語リストL1には、不要単語が登録されている。 Unnecessary words are registered in the unnecessary word list L1.
検索語記憶部M2に格納されている検索語は、不要語リストL1によって変わる。 The search terms stored in the search term storage unit M2 vary depending on the unnecessary word list L1.
また、ウェブ検索を行う際、適切な個数の単語でAND検索をすることが好ましい。そこで、名詞として抽出された単語の個数が、閾値ST未満である場合、検索語抽出部2は、検索語を抽出せず、検索語記憶部M2には、何も単語を格納しない。
Further, when performing a web search, it is preferable to perform an AND search with an appropriate number of words. Therefore, the number of words extracted as noun, is less than the threshold value S T, the search
逆に、名詞の個数Sが閾値T以上である場合、S個の検索語からT個の検索語をランダムに選択し、検索語記憶部M2に格納する。T=10、ST=2である場合、検索語抽出部2が検索語を抽出すると、検索語が、検索語記憶部M2に格納される。
Conversely, when the number S of nouns is equal to or greater than the threshold T, T search terms are randomly selected from the S search terms and stored in the search term storage unit M2. When T = 10 and S T = 2, when the search
図6は、実施例1において、検索語記憶部M2に格納されている検索語の一例を示す図である。 FIG. 6 is a diagram illustrating an example of search terms stored in the search term storage unit M2 in the first embodiment.
検索語記憶部M2に格納されている検索語は、文11に対応する検索語21と、文12に対応する検索語22と、文13に対応する検索語23と、文14に対応する検索語24と、文15に対応する検索語25と、文16に対応する検索語26と、文17に対応する検索語27と、文18に対応する検索語28と、文19に対応する検索語29とである。
The search terms stored in the search term storage unit M2 are a
文11〜18に対応する検索語21〜29を作成した後に、制御部6が、関連語取得部3を呼び出す。制御部6を介して、検索語抽出部2が抽出した検索語を、検索語記憶部M2から取り出し、関連語取得部3に入力する。
After creating the
関連語取得部3に入力された検索語を用い、ネットワークNW1を介して接続されているウェブW1上でAND検索する。AND検索することによって、検索語が全て含まれているテキストをウェブW1で検索することができる。ここで、ウェブW1で検索を行う際、検索結果は、検索語が入力された順序に影響しない。
An AND search is performed on the web W1 connected via the network NW1, using the search word input to the related
そして、検索されたテキストが作成された時期と、入力したテキストT1が作成された時期との差が少ない順に、検索されたテキストの中から、P個のテキストT2を取得する。ウェブW1に存在しているテキストには、通常、それが作成された日付が記録されているので、テキストT1が作成された日付との時間的な差を求めることができる。この時間的な差が少ないテキストを取得することによって、テキストT1との間で、より強く関連する記事(テキスト)を、ウェブW1から収集することができる。 Then, P pieces of text T2 are acquired from the searched texts in the order of small difference between the time when the searched text was created and the time when the input text T1 was created. Since the date on which the text W1 is created is normally recorded in the text existing on the web W1, a time difference from the date on which the text T1 is created can be obtained. By acquiring the text with a small time difference, articles (text) more strongly related to the text T1 can be collected from the web W1.
ここで、検索語記憶部M2に、検索語が存在しなければ、関連語取得部3がウェブ検索をせず、関連語記憶部M3に、何も格納しない。また、検索語の個数SがTと同じである場合、ウェブ検索を行わず、関連語記憶部M3に関連語を格納しない。
Here, if the search word does not exist in the search word storage unit M2, the related
次に、時間順に収集されたP個のテキストT2から、本文のテキストを抽出する。そして、時間順に収集されたP個のテキストT2から、本文のテキストを抽出する。テキストT2はHTMLやXML等の構造化言語で記述されているので、テキストT2内において本文の場所を示すタグ(タグは、「<」と、「>」と、これらによって囲まれている文字列とで構成されている)が付与されている。したがって、得られたテキストT2について、タグを解析することによって、テキストT2から本文のテキストを抽出することができる。 Next, body text is extracted from the P texts T2 collected in time order. Then, the body text is extracted from the P texts T2 collected in time order. Since the text T2 is described in a structured language such as HTML or XML, a tag indicating the location of the body in the text T2 (the tags are “<”, “>”, and a character string surrounded by these. Is made up of). Therefore, the text of the body can be extracted from the text T2 by analyzing the tag for the obtained text T2.
そして、抽出された本文のテキストに、関連語取得部3が、形態素解析し、名詞を抽出する。ウェブ検索されたテキストT2に含まれている名詞が、関連語である。関連語の個数は、ウェブ検索した場合における検索語や、収集されたテキストT2の個数によって変わる。
Then, the related
また、形態素解析によって抽出された名詞を全て関連語として使用すると、検索語抽出部2が抽出した場合と同様に、「年」や「月」等、普遍的に使用される単語が関連語として扱われる場合がある。そこで、関連語取得部3では、検索語抽出部2における処理と同様に、不要語リストL1を参照し、不要語を除く。そして、検索語がS個である場合、P個の本文のテキストから抽出した単語のうちで、出現頻度の高い順に、T−S個の単語を関連語とする。
Moreover, when all the nouns extracted by morphological analysis are used as related words, as in the case where the search
なお、Tは、予め与えられている数である。Sは、検索語の数である。上記T−S個の関連語を、制御部6を介して、関連語記憶部M3に格納する。つまり、各文において抽出された検索語と関連語との合計個数は、予め与えられた値Tになるようにする。このように、各文において抽出された検索語と関連語との合計個数を予め与えられた値Tになるようにするのは、どの文についても、連結性を平等に評価するためである。
T is a number given in advance. S is the number of search terms. The TS related words are stored in the related word storage unit M3 via the
適切な関連語を得るためには、ウェブ検索で得られたテキストT2の数が、できるだけ多いことが望ましい。そこで、ウェブ検索によって得られたテキストT2の個数Pが、目標の個数であるPT未満であれば、検索語を修正し、ウェブ上で再びAND検索し、テキストT2を収集する。 In order to obtain appropriate related terms, it is desirable that the number of texts T2 obtained by web search is as large as possible. Therefore, if the number P of the texts T2 obtained by the web search is less than the target number P T , the search word is corrected, the AND search is performed again on the web, and the text T2 is collected.
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、再びテキストT2をP個検索し、収集する。たとえば、検索語が「富士山」、「ドライブ」、「スポーツ」である場合、S=3であり、S−1=2個の検索語を選ぶと、「ドライブ」、「スポーツ」の組み合わせ、「富士山」、「スポーツ」の組み合わせ、「富士山」、「ドライブ」の組み合わせができ、合計、3つの組み合わせができる。この3つの組み合わせで検索件数が最も多いものを使って、ウェブW1上で再びAND検索を行う。 If there are S search terms, a combination of S-1 search terms is made, search is performed with the search terms of each combination, and P texts T2 are searched again with the search term combination with the largest number of searches, collect. For example, if the search terms are “Mount Fuji”, “Drive”, and “Sports”, S = 3, and if S−1 = 2 search terms are selected, a combination of “Drive” and “Sports” A combination of “Mt. Fuji”, “Sport”, “Mt. Fuji”, and “Drive” can be combined, for a total of three combinations. An AND search is performed again on the web W1 using the combination of these three that has the largest number of searches.
そして、テキストT2の個数PがPT以上になるまで、検索語の修正とウェブ検索とを繰り返し、P≧PTになれば、テキストT2からT−S個の関連語を抽出する。 Then, the correction of the search word and the web search are repeated until the number P of the text T2 becomes equal to or greater than PT , and when P ≧ P T , TS related words are extracted from the text T2.
検索語を修正しても、収集されるテキストT2の個数がPT以上にならなければ、元のS個の検索語を、検索語記憶部M2に残し、関連語記憶部M3には、関連語として何も格納しない。 If the number of collected texts T2 does not exceed P T even if the search terms are corrected, the original S search terms are left in the search term storage unit M2, and the related term storage unit M3 contains related items. Do not store anything as a word.
図6に示す検索語21〜29について、予め与えられた値T=10、検索されたテキストT2の個数P=20、ウェブ検索によるテキストT2の目標検索件数PT=20であるとした場合、関連語取得部3が関連語を取得する。
For the
図7は、実施例1において、関連語記憶部M3に格納されている関連語の一例を示す図である。 FIG. 7 is a diagram illustrating an example of related words stored in the related word storage unit M3 in the first embodiment.
図7に示す関連語記憶部M3に格納されている関連語は、検索語21に対応する関連語31と、検索語22に対応する関連語32と、検索語23に対応する関連語33と、検索語24に対応する関連語34と、検索語25に対応する関連語35と、検索語26に対応する関連語36と、検索語27に対応する関連語37と、検索語28に対応する関連語38と、検索語29に対応する関連語39とである。
The related words stored in the related word storage unit M3 shown in FIG. 7 are related words 31 corresponding to the
そして、分解文章記憶部M1に格納されている全ての文に対して、検索語抽出部2による検索語抽出と、関連語取得部3による関連語取得とが終了すると、制御部6は、連結性判定部4に、分割された文同士の連結性を判定させる。つまり、連結性判定部4は、検索語記憶部M2に格納されている検索語と、関連語記憶部M3に格納されている関連語とを、制御部6を介して、読み出し、これらを組み合わせて、キーワード集合を作成する。つまり、上記キーワード集合は、検索語と関連語との組み合わせである。
When the search word extraction by the search
図8は、実施例1において、連結性判定部4が作成したキーワード集合の一例を示す図である。
FIG. 8 is a diagram illustrating an example of a keyword set created by the
図8に示すキーワード集合は、キーワード集合51、52、53、54、55、56、57、58、59である。キーワード集合51は、検索語21と関連語31との組によって生成されたキーワード集合である。キーワード集合52は、検索語22と関連語32との組によって生成されたキーワード集合である。キーワード集合53は、検索語23と関連語33との組によって生成されたキーワード集合である。
The keyword sets shown in FIG. 8 are keyword sets 51, 52, 53, 54, 55, 56, 57, 58, 59. The keyword set 51 is a keyword set generated by a set of the
キーワード集合54は、検索語24と関連語34との組によって生成されたキーワード集合である。キーワード集合55は、検索語25と関連語35との組によって生成されたキーワード集合である。キーワード集合56は、検索語26と関連語36との組によって生成されたキーワード集合である。キーワード集合57は、検索語27と関連語37との組によって生成されたキーワード集合である。キーワード集合58は、検索語28と関連語38との組によって生成されたキーワード集合である。キーワード集合59は、検索語29と関連語39との組によって生成されたキーワード集合である。
The keyword set 54 is a keyword set generated by a set of the
検索語がなければ、検索語に対応する関連語も存在しないので、連結性判定部4は、キーワード集合を作成しない。また、検索語が存在するが、関連語が存在しない場合、検索語のみによって、キーワード集合を作成する。
If there is no search word, there is no related word corresponding to the search word, so the
キーワード集合は、本文の内容を反映する単語である。テキストT1のうちで、最初の文11から、文12、13、…………と進むに従って、各キーワード集合に含まれている単語が変化し、この単語を調べることによって、テキストT1の本文における内容の変化を捉えることができる。 The keyword set is a word that reflects the content of the text. In the text T1, the words included in each keyword set change from the first sentence 11 to the sentences 12, 13,..., And by examining these words, Capturing changes in content.
そこで、連結性判定部4は、生成された複数のキーワード集合を、互いに比較し、内容的にまとまっている(類似している)一文または複数の文を検出し、つまり、これら検出された内容的にまとまっている一文または複数の文によって構成されている意味段落を抽出する。この抽出された意味段落は、制御部6を通じて、意味段落記憶部M4に格納される。
Therefore, the
キーワード集合を互いに比較する場合、テキストは先頭から順に書かれていることが一般的であるので、テキストの先頭から順に、複数のキーワード集合を互いに比較する。具体的には、i番目のキーワード集合を基準にし、i+1−b番目(1≦b)からi番目までのキーワード集合が含まれているブロックB1と、i+1番目からi+b番目までのキーワード集合が含まれているブロックB2を作成する。ここで、bは、ブロック(少なくとも1つの文を有する塊)に含まれているキーワード集合の個数であり、つまり、ブロックの幅である。 When comparing keyword sets with each other, it is common for text to be written in order from the beginning, so a plurality of keyword sets are compared with each other in order from the beginning of the text. Specifically, with reference to the i-th keyword set, the block B1 including the i + 1-b-th (1 ≦ b) to i-th keyword sets and the i + 1-th to i + b-th keyword sets are included. Block B2 is created. Here, b is the number of keyword sets included in a block (a block having at least one sentence), that is, the width of the block.
すなわち、基準の文であるi番目の文の前後の複数の文に対応するキーワード集合を見ることによって、本文の内容を解析する。 That is, the contents of the body are analyzed by looking at a keyword set corresponding to a plurality of sentences before and after the i-th sentence that is a reference sentence.
ここで、ブロックB1とB2とを作成する際に、単語が存在しないキーワード集合は、ブロックに含めない。このようにする代わりに、空のキーワード集合の情報を保存する変数Hに文の番号を追加する。たとえば、図8において、2番目の文に対するキーワード集合は空であるので、変数Hに2番目の文の番号を代入し、H={2}になる。 Here, when the blocks B1 and B2 are created, a keyword set in which no word exists is not included in the block. Instead of doing this, a sentence number is added to a variable H that stores information on an empty keyword set. For example, in FIG. 8, since the keyword set for the second sentence is empty, the number of the second sentence is substituted into the variable H, so that H = {2}.
2つのブロックB1とB2とを作成した後に、各ブロックについて、キーワード集合に含まれている単語tの頻度wtを計算する。そして、2つのブロックに含まれている全ての単語の頻度を求めた後に、i番目の文とi+1番目の文との連結度(類似している度合)Ci bを、単語tの頻度wtを用い、以下の式(1)で評価する。 After creating the two blocks B1 and B2, the frequency w t of the word t included in the keyword set is calculated for each block. Then, after obtaining the frequencies of all the words included in the two blocks, the degree of connectivity (degree of similarity) C i b between the i-th sentence and the i + 1-th sentence is expressed as the frequency w of the word t. Evaluation is made by the following formula (1) using t .
ここで、ブロックB1とB2とのそれぞれにおいて、ブロックに含まれている空ではないキーワード集合の個数が、bに満たない場合、重み(b/fB)によって、頻度wt Bが調整される。具体的には、たとえばi=1、b=2であるときに、ブロックB1には、空でないキーワード集合が1つしか含まれないので、単語の頻度が2倍される。 Here, in each of the blocks B1 and B2, when the number of non-empty keyword sets included in the block is less than b, the frequency w t B is adjusted by the weight (b / f B ). . Specifically, for example, when i = 1 and b = 2, the block B1 includes only one non-empty keyword set, so the word frequency is doubled.
平均連結度Ci(但し、i={1,2,…,N})を用い、C1から順に、平均連結度が閾値CTを超えるかどうかを調べることによって、入力したテキストT1に記載されている内容の変化を解析する。具体的には、平均連結度Ciが、閾値CT以上であれば、i番目の文と、i+1番目の文との内容は同じであると判断し、変数Gに文の番号iを追加する。一方で、閾値CT未満であれば、i番目の文と、i+1番目の文とで、内容が変化したと判断する。 The average connectivity C i (where i = {1, 2,..., N}) is used to check whether or not the average connectivity exceeds the threshold C T in order from C 1 and is described in the input text T1. Analyze changes in the contents. Specifically, if the average connectivity C i is equal to or greater than the threshold C T , it is determined that the contents of the i-th sentence and the i + 1-th sentence are the same, and the sentence number i is added to the variable G. To do. On the other hand, if it is less than the threshold value C T, in the i-th sentence, the i + 1 th sentence, it is determined that the content has changed.
その際に、変数Gに保存されている文番号を、j番目の意味段落に属する文であるとして、制御部6を介して、意味段落記憶部M4に格納する。また、変数Hに含まれている文番号の中で、j番目の意味段落の範囲内に含まれるものが存在する場合には、その文の番号も、j番目の意味段落として割り当て、意味段落記憶部M4に格納する。
At that time, the sentence number stored in the variable G is stored in the semantic paragraph storage unit M4 via the
そして、変数Gの内容を、初期化し、j=j+1としてi+1番目の平均連結度から、上記処理を再び開始し、平均連結度CNの値まで調べ、意味段落の情報を、意味段落記憶部M4に格納した時点で、連結性判定部4は、比較処理を終了する。
Then, the contents of the variable G, initializing, the i + 1 th average connectivity as j = j + 1, again starts the processing, examined until the value of the average connectivity C N, the information meaning paragraph, means paragraph storage unit When stored in M4, the
ここで、意味段落の番号jと、変数Gと、変数Hとは、連結性判定部4を実行する際に初期化される。
Here, the semantic paragraph number j, the variable G, and the variable H are initialized when the
図9は、実施例1において、意味段落記憶部M4に格納されている意味段落の一例を示す図である。 FIG. 9 is a diagram illustrating an example of semantic paragraphs stored in the semantic paragraph storage unit M4 in the first embodiment.
つまり、図9は、CT=0.1とし、図8に示すキーワード集合51〜59に、連結性判定部4が連結性を判定した結果を示す図である。図9において、符号41が示すものは、連結性判定部4が検出した1つ目の意味段落(段落番号1の意味段落)に属する文の番号である。符号42が示すものは、連結性判定部4が検出した2つ目の意味段落(段落番号2の意味段落)に属する文の番号である。ここで、2番目のキーワード集合は空であるが、2番目の文は1つ目の意味段落の範囲内にあるので、1つ目の意味段落に追加されている。一方、どの意味段落にも割り当てられなかった変数Hにある文は、それぞれの文が1つの意味段落として扱う。
That is, FIG. 9 is a diagram illustrating a result of the
連結性判定部4が処理を終了すると、制御部6が出力部7を呼び出し、テキストT1についてテキストセグメンテーションした結果を、表示部D1に表示する。具体的には、意味段落記憶部M4を参照し、意味段落記憶部M4に格納されている文番号を表示する。たとえば、符号41と42とが示す文番号を表示するようにしてもよく、段落番号とともに、符号41と42とが示す文番号を同時に表示するようにしてもよい。
When the
パラメータT、ST、P、PT、CTを変化することによって、上記実施例における計算時間や精度を調整することができる。つまり、パラメータTと、ST、PT、Pとを調整すれば、ウェブ検索で得られた関連語の抽出精度や計算時間を調整することができる。また、パラメータCTによって、本文における内容の変化を捉える敏感さを、調整することができる。 Parameter T, S T, P, P T, by changing the C T, it is possible to adjust the calculation time and accuracy in the above embodiment. That is, by adjusting the parameter T and S T , P T , and P, it is possible to adjust the extraction accuracy and calculation time of the related words obtained by the web search. Further, the parameter C T, the susceptibility to capture changes in the contents of text, can be adjusted.
また、変数Hに代入されている文番号に対応する文は、意味的な内容が把握しにくい場合がある。そこで、変数Hに代入されている文番号を無視することによって、内容的に明確な文のみを対象とするテキストセグメンテーションを行うこともできる。 In addition, it may be difficult to grasp the semantic content of the sentence corresponding to the sentence number assigned to the variable H. Thus, by ignoring the sentence number assigned to the variable H, it is possible to perform text segmentation for only sentences that are clear in terms of content.
上記実施例において、ウェブ検索する際に、入力したテキストT1の作成時期との差が少ない順に、テキストを収集するので、入力したテキストT1の内容に関連性の高い単語を収集することができる。なお、時間的な差を考慮せずに、得られた検索結果で、参照されているP個のテキストT2を使用すれば、ある程度の精度で関連語を収集することができる。 In the above embodiment, when web search is performed, the texts are collected in the order of little difference from the creation time of the input text T1, so that words that are highly relevant to the contents of the input text T1 can be collected. It should be noted that related words can be collected with a certain degree of accuracy by using the P texts T2 referred to in the obtained search results without considering the time difference.
また、ウェブ検索で得られたテキストT2の個数PがPT未満である場合、検索語を修正し、再検索を行うので、各文に検索語と関連語との組からなるキーワード集合を割り当てることができる。 If the number P of texts T2 obtained by web search is less than P T , the search term is corrected and re-search is performed, so a keyword set consisting of a combination of the search term and the related term is assigned to each sentence. be able to.
さらに、上記実施例によれば、ウェブ検索で得られたテキストT2の個数PがPT未満である場合、再検索を行わず検索語だけを用いてキーワード集合を作成するようにしてもよい。この場合、基準となる文に対して、前後に所定の複数のキーワード集合を考慮しているので、少ない計算時間で、実用的な精度で、本文の内容を解析し、テキストセグメンテーションすることができる。 Further, according to the above embodiment, when the number P of the texts T2 obtained by the web search is less than PT , the keyword set may be created using only the search words without performing the re-search. In this case, since a plurality of predetermined keyword sets are taken into consideration before and after the reference sentence, the contents of the body can be analyzed and text segmented with practical accuracy in a short calculation time. .
上記実施例によれば、テキストセグメンテーションにおいて、ウェブで検索する概念を利用するので、学習データを事前に用意する必要がない。 According to the above embodiment, since the concept of searching on the web is used in text segmentation, it is not necessary to prepare learning data in advance.
また、上記実施例は、莫大なテキストデータを扱う分野やニュース記事を配信する分野において、データベースの管理・更新を自動的に行う支援策として応用できる。 Further, the above embodiment can be applied as a support measure for automatically managing / updating a database in the field of handling enormous text data and the field of distributing news articles.
また、上記実施例は、解析対象となるテキストに関して、学習データを使用せずに、ウェブ検索によって、幅広い分野における関連語を収集できるので、記述内容や作成時期に制約が少ないという利点がある。 In addition, the above-described embodiment has an advantage that there are few restrictions on description contents and creation time because related words in a wide range of fields can be collected by web search without using learning data for the text to be analyzed.
さらに、上記実施例は、内容的なまとまりに分割されているので、所定のキーワードを含み、内容的に関連のある文章だけを、収集する技術に利用することができる。 Further, since the above embodiment is divided into contents, it can be used for a technique for collecting only sentences that include predetermined keywords and are related in contents.
ここで、ウェブは、インターネット等のネットワークを介して、アクセスできるHTMLやXML等の構造化言語で記述されているテキストの集合である。現在、ウェブ上には、膨大な情報が蓄積され、最新の話題も常に提供されている。つまり、ウェブは、様々な情報を持つ辞書として捉えることができる。実際、我々は、ある事に関して調べる際、検索サイトで検索語を入力し、ウェブ上で検索し、単語の意味や物事の内容を調べている。この観点から、学習データを使用しなくても、ウェブ上にある情報を適切に利用すれば、「サッカー」や「野球」に対応する概念は、「スポーツ」や「ボール」であることを取得できると言える。 Here, the web is a set of texts described in a structured language such as HTML or XML that can be accessed via a network such as the Internet. Currently, a huge amount of information is accumulated on the web, and the latest topics are always provided. In other words, the web can be understood as a dictionary having various information. In fact, when we look into a certain thing, we enter a search word on a search site, search the web, and look up the meaning of the word and the contents of things. From this point of view, the concept corresponding to “soccer” and “baseball” is “sports” and “ball” if the information on the web is used appropriately without using learning data. I can say that.
この結果、ウェブ上に存在している様々な情報から、着目しているテキストの記述内容に応じた単語を取得することができ、文同士の関連性を幅広く比較し、文の内容を追跡し、内容的なまとまり(上記実施例では、「意味段落」と呼ぶ)で分割することができる。したがって、事前に学習データを用意する必要がなく、様々な分野に対応するテキストセグメンテーションを実現することができる。 As a result, it is possible to acquire words according to the description content of the text of interest from various information existing on the web, and compare the relevance of sentences widely and track the contents of the sentences. The contents can be divided into content groups (referred to as “meaning paragraphs” in the above embodiment). Therefore, it is not necessary to prepare learning data in advance, and text segmentation corresponding to various fields can be realized.
つまり、上記実施例は、入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部を有する。 In other words, in the above embodiment, a text decomposition unit that decomposes input text into sentence units, and a morphological analysis of a sentence decomposed by the text decomposition unit, and a noun is extracted as a search word from the analyzed morphemes. A search word extraction unit and a related word acquisition unit that performs a web search using the search words extracted by the search word extraction unit, analyzes the searched text, and acquires a noun as a related word among the analyzed morphemes And using a keyword set that is a combination of the search word and the related word, the connectivity of the plurality of sentences obtained by decomposing the input text is determined, and sentences whose connectivity is higher than a predetermined threshold A connectivity determination unit that divides the input text by extracting the meaning paragraph.
この場合、入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション装置である。 In this case, the text segmentation apparatus is characterized in that the texts are collected in the order of small difference from the input text creation time.
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。 When the number of search terms is S, a combination of S-1 search terms is created, the search is performed using the search terms of each combination, and the text is searched and collected by the combination of search terms having the largest number of searches.
また、上記テキストセグメンテーション装置は、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する手段とを有する。 In addition, the text segmentation device excludes the search unnecessary word list and the same search word candidate as the term included in the search unnecessary word list from the search word, and is included in the search unnecessary word list. Means for excluding the same related word candidate as the term from the related word.
さらに、入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストセグメンテーション方法であって、上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と、上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と、上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、連結性判定部が、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定工程とを有するテキストセグメンテーション方法である。 Further, a web segmentation method for performing a web search on the input text and dividing the input text according to a result of the web search, wherein the text decomposition unit decomposes the input text into sentence units, The text decomposition process stored in the storage device and the sentence decomposed in the text decomposition process are subjected to morphological analysis, and a noun is extracted as a search word from the analyzed morphemes and stored in the storage device. In accordance with the search word extraction process to be stored and the search word extracted in the search word extraction process, the related word acquisition unit performs a web search, analyzes the searched text, and among the analyzed morphemes , Using a keyword collection that is a combination of a related word acquisition step of acquiring a noun as a related word and storing it in a storage device, and the search word and the related word, The result determination unit determines connectivity between a plurality of the sentences obtained by decomposing the input text, and extracts a semantic paragraph that is a sentence having a connectivity higher than a predetermined threshold, thereby inputting the input text. Is a text segmentation method including a connectivity determination step of dividing.
入力したテキストの作成時期との差が少ない順に、テキストを収集する。 Text is collected in ascending order of difference from the input text creation time.
しかも、検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集する。 In addition, when there are S search terms, a combination of S-1 search terms is created, the search is performed using the search terms of each combination, and the text is searched and collected by the search term combination having the largest number of searches. .
そして、検索不要語リストと、上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外する。 Then, the search term candidates and the same search term candidates as the terms included in the search unnecessary word list are excluded from the search terms, and the same related word candidates as the terms included in the search unnecessary word list Are excluded from related terms.
また、上記実施例は、請求項5〜請求項7記載のいずれか1つの方法をコンピュータに実行させるプログラムである。 Moreover, the said Example is a program which makes a computer perform any one method of Claims 5-7.
さらに、上記実施例は、請求項8記載のプログラムを記録したコンピュータ読取可能な記録媒体である。
Furthermore, the said Example is a computer-readable recording medium which recorded the program of
100…テキストセグメンテーション装置、
1…テキスト分解部、
2…検索語抽出部、
3…関連語取得部、
4…連結性判定部、
M1…分解文章記憶部、
M2…検索語記憶部、
M3…関連語記憶部、
M4…意味段落記憶部、
5…入力部、
6…制御部、
7…出力部、
NW1…ネットワーク、
W1…ウェブ、
T1…入力部から入力されるテキスト、
T2…ウェブ検索して得たテキスト、
L1…不要語リスト、
T…予め与えられている数、
S…検索語の数。
100 ... text segmentation device,
1 ... Text decomposition part,
2 ... Search term extraction unit,
3 ... related word acquisition part,
4 ... connectivity determination unit,
M1 ... decomposition sentence storage part,
M2 ... Search word storage unit,
M3 ... related word storage unit,
M4 ... semantic paragraph storage unit,
5 ... Input section,
6 ... control part,
7 ... Output section,
NW1 ... Network,
W1 ... Web,
T1 ... text input from the input unit,
T2: Text obtained from web search,
L1 ... unnecessary word list,
T ... Number given in advance,
S: Number of search terms.
Claims (10)
上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と;
上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と;
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士であるブロックを抽出することによって、上記入力したテキストを分割する連結性判定部と;
を有することを特徴とするテキストセグメンテーション装置。 A text decomposition unit that decomposes the input text into sentence units;
A search word extraction unit that performs morphological analysis on the sentence decomposed by the text decomposition unit and extracts a noun as a search word from the analyzed morphemes;
A related word acquisition unit that performs a web search using the search terms extracted by the search term extraction unit, performs a morphological analysis on the searched text, and acquires a noun as a related word among the analyzed morphemes;
Using a keyword set that is a combination of the search word and the related word, the connectivity of the plurality of sentences obtained by decomposing the input text is determined, and the sentences having a connectivity higher than a predetermined threshold value. A connectivity determination unit that divides the input text by extracting a block;
A text segmentation device comprising:
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション装置。 In claim 1,
A text segmentation device that collects text in the order of little difference from the input text creation time.
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストセグメンテーション装置。 In claim 1,
When there are S search terms, a combination of S-1 search terms is created, search is performed with the search terms of each combination, and text is searched and collected with the search term combination with the largest number of searches. Feature text segmentation device.
検索不要語リストと;
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストセグメンテーション装置。 In claim 1,
Search unnecessary word list;
The same search term candidate as the term included in the search unnecessary word list is excluded from the search term, and the same related word candidate as the term included in the search unnecessary word list is excluded from the related word. A text segmentation device.
上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と;
上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と;
上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と;
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、連結性判定部が、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士であるブロックを抽出することによって、上記入力したテキストを分割する連結性判定工程と;
を有することを特徴とするテキストセグメンテーション方法。 A text segmentation method that performs a web search on input text and divides the input text according to the result of the web search,
A text decomposition process in which the text decomposition unit decomposes the input text into sentence units and stores them in a storage device;
A search word extraction step in which a search word extraction unit analyzes the sentence decomposed in the text decomposition step, extracts a noun as a search word from the analyzed morphemes, and stores it in a storage device;
In accordance with the search word extracted in the search word extraction step, the related word acquisition unit performs a web search, analyzes the searched text, and acquires a noun as a related word from the analyzed morphemes. A related word acquisition step of storing in the storage device;
Using the keyword set that is a combination of the search term and the related word, the connectivity determination unit determines connectivity between the plurality of sentences obtained by decomposing the input text, and the connectivity is more than a predetermined threshold. A connectivity determination step of dividing the input text by extracting blocks that are higher sentences;
A text segmentation method characterized by comprising:
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストセグメンテーション方法。 In claim 5,
A text segmentation method characterized by collecting texts in the order of little difference from the input text creation time.
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストセグメンテーション方法。 In claim 5,
When there are S search terms, a combination of S-1 search terms is created, search is performed with the search terms of each combination, and text is searched and collected with the search term combination with the largest number of searches. A featured text segmentation method.
検索不要語リストと;
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストセグメンテーション方法。 In claim 5,
Search unnecessary word list;
The same search term candidate as the term included in the search unnecessary word list is excluded from the search term, and the same related word candidate as the term included in the search unnecessary word list is excluded from the related word. A text segmentation method characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007180311A JP4873738B2 (en) | 2007-07-09 | 2007-07-09 | Text segmentation device, text segmentation method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007180311A JP4873738B2 (en) | 2007-07-09 | 2007-07-09 | Text segmentation device, text segmentation method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009015795A true JP2009015795A (en) | 2009-01-22 |
JP4873738B2 JP4873738B2 (en) | 2012-02-08 |
Family
ID=40356592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007180311A Expired - Fee Related JP4873738B2 (en) | 2007-07-09 | 2007-07-09 | Text segmentation device, text segmentation method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4873738B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010231352A (en) * | 2009-03-26 | 2010-10-14 | Kddi Corp | Display information forming apparatus and system |
KR101630436B1 (en) * | 2015-04-01 | 2016-06-15 | 한국과학기술원 | Method for extracting independent feature of language |
JP2016538616A (en) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | Knowledge extraction method and system |
JP2020154661A (en) * | 2019-03-19 | 2020-09-24 | 株式会社リコー | Text segmentation device, text segmentation method, text segmentation program, and text segmentation system |
US10817551B2 (en) | 2017-04-25 | 2020-10-27 | Panasonic Intellectual Property Management Co., Ltd. | Method for expanding word, word expanding apparatus, and non-transitory computer-readable recording medium |
CN114328389A (en) * | 2021-12-31 | 2022-04-12 | 浙江汇鼎华链科技有限公司 | Big data file analysis processing system and method under cloud computing environment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934905A (en) * | 1995-07-19 | 1997-02-07 | Ricoh Co Ltd | Key sentence extraction system, selection system and sentence retrieval system |
JP2002342324A (en) * | 2001-05-16 | 2002-11-29 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for dividing text, text dividing program and storage medium with t he program stored therein |
JP2006350656A (en) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | Time-series document grouping method, device, and program, and recording medium storing program |
-
2007
- 2007-07-09 JP JP2007180311A patent/JP4873738B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934905A (en) * | 1995-07-19 | 1997-02-07 | Ricoh Co Ltd | Key sentence extraction system, selection system and sentence retrieval system |
JP2002342324A (en) * | 2001-05-16 | 2002-11-29 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for dividing text, text dividing program and storage medium with t he program stored therein |
JP2006350656A (en) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | Time-series document grouping method, device, and program, and recording medium storing program |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010231352A (en) * | 2009-03-26 | 2010-10-14 | Kddi Corp | Display information forming apparatus and system |
JP2016538616A (en) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | Knowledge extraction method and system |
KR101630436B1 (en) * | 2015-04-01 | 2016-06-15 | 한국과학기술원 | Method for extracting independent feature of language |
US10817551B2 (en) | 2017-04-25 | 2020-10-27 | Panasonic Intellectual Property Management Co., Ltd. | Method for expanding word, word expanding apparatus, and non-transitory computer-readable recording medium |
JP2020154661A (en) * | 2019-03-19 | 2020-09-24 | 株式会社リコー | Text segmentation device, text segmentation method, text segmentation program, and text segmentation system |
JP7293767B2 (en) | 2019-03-19 | 2023-06-20 | 株式会社リコー | Text segmentation device, text segmentation method, text segmentation program, and text segmentation system |
CN114328389A (en) * | 2021-12-31 | 2022-04-12 | 浙江汇鼎华链科技有限公司 | Big data file analysis processing system and method under cloud computing environment |
CN114328389B (en) * | 2021-12-31 | 2022-06-17 | 浙江汇鼎华链科技有限公司 | Big data file analysis processing system and method under cloud computing environment |
Also Published As
Publication number | Publication date |
---|---|
JP4873738B2 (en) | 2012-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
JP4873739B2 (en) | Text multiple topic extraction apparatus, text multiple topic extraction method, program, and recording medium | |
KR100816923B1 (en) | System and method for classifying document | |
US20110231347A1 (en) | Named Entity Recognition in Query | |
US20090192954A1 (en) | Semantic Relationship Extraction, Text Categorization and Hypothesis Generation | |
EP1736901A2 (en) | Method for classifying sub-trees in semi-structured documents | |
JP5216063B2 (en) | Method and apparatus for determining categories of unregistered words | |
JP4873738B2 (en) | Text segmentation device, text segmentation method, program, and recording medium | |
US10810266B2 (en) | Document search using grammatical units | |
CN111027306A (en) | Intellectual property matching technology based on keyword extraction and word shifting distance | |
JP2022513353A (en) | Use of training methods, search systems and responses to natural language search systems | |
Nualart et al. | How we draw texts: a review of approaches to text visualization and exploration | |
CN108228612B (en) | Method and device for extracting network event keywords and emotional tendency | |
Gentile et al. | Explore and exploit. Dictionary expansion with human-in-the-loop | |
JP2008210024A (en) | Apparatus for analyzing set of documents, method for analyzing set of documents, program implementing this method, and recording medium storing this program | |
JP5215051B2 (en) | Text segmentation apparatus and method, program, and computer-readable recording medium | |
Akther et al. | Compilation, analysis and application of a comprehensive Bangla Corpus KUMono | |
JP2013101679A (en) | Text segmentation device, method, program, and computer-readable recording medium | |
Xie et al. | Joint entity linking for web tables with hybrid semantic matching | |
JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
JP2008065468A (en) | Device for multiple-classifying text, method for multiple-classifying text, program and storage medium | |
Sweidan et al. | Autoregressive Feature Extraction with Topic Modeling for Aspect-based Sentiment Analysis of Arabic as a Low-resource Language | |
JP2008197952A (en) | Text segmentation method, its device, its program and computer readable recording medium | |
JP5214985B2 (en) | Text segmentation apparatus and method, program, and computer-readable recording medium | |
Kuş et al. | An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |