JP2008197952A - Text segmentation method, its device, its program and computer readable recording medium - Google Patents
Text segmentation method, its device, its program and computer readable recording medium Download PDFInfo
- Publication number
- JP2008197952A JP2008197952A JP2007033077A JP2007033077A JP2008197952A JP 2008197952 A JP2008197952 A JP 2008197952A JP 2007033077 A JP2007033077 A JP 2007033077A JP 2007033077 A JP2007033077 A JP 2007033077A JP 2008197952 A JP2008197952 A JP 2008197952A
- Authority
- JP
- Japan
- Prior art keywords
- text
- search
- sentence
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は,テキストをパソコン等の計算機で扱う分野において,テキストの記述内容に応じてテキスト内の文章を一文,あるいは複数の文のまとまりで分割を行う方法に関し,特に,ウェブ(Web)検索を利用することにより学習用データベースを使用しないテキストセグメンテーション方法に関するものである。 The present invention relates to a method for dividing a sentence in a text into a sentence or a group of sentences according to the description content of the text in a field where the text is handled by a computer such as a personal computer. The present invention relates to a text segmentation method that does not use a learning database.
近年,急速な計算機の性能向上に伴い莫大なテキスト(ここでは,文字列だけで構成される文の集合)を蓄積しデータベースを構築することが可能になった。しかし,保存されたテキストを人手で整理・管理することは一般的に困難となってきている。与えられたテキストを内容に応じて分割する技術をテキストセグメンテーションと呼び,テキストデータベースの分類や整理を計算機で自動的に行うことに応用されつつある。例えば,以下の特許文献1(トピック境界決定方法及び装置及びトピック境界決定プログラム)では,概念ベースと呼ばれる情報を用いてテキストセグメンテーションを行う技術が提案されている。 In recent years, with the rapid performance improvement of computers, it has become possible to build a database by accumulating enormous text (here, a set of sentences consisting only of character strings). However, it is generally difficult to manually organize and manage stored text. The technique of dividing a given text according to its content is called text segmentation, and it is being applied to automatically classify and organize text databases with a computer. For example, in the following Patent Document 1 (topic boundary determination method and apparatus and topic boundary determination program), a technique for performing text segmentation using information called a concept base is proposed.
この技術では,ある単語とそれに共起するパターンを数値ベクトル化した概念ベクトルを,あらかじめ蓄積した学習用データベースから複数作成する。そして,概念ベクトルの集まりである概念ベースを利用してテキストセグメンテーションを行う。学習用データベースには,一つの分野に関するテキスト(例えば「政治」の分野だけに関するテキスト)が数多く蓄積されている。
しかし,従来のテキストセグメンテーション手法の精度を高めるためには,大規模な学習用データベースを用意しなくてはならず,その学習用データベースを用意するのに莫大な労力を必要とする。学習用データベースが小規模な場合,概念ベースを適切に作成できないため,テキストセグメンテーションの精度が低下する。また,事前に用意した学習用データベースは特定の分野だけに対応しているため,異なる分野のテキストに対してテキストセグメンテーションを行うことができない。 However, in order to increase the accuracy of the conventional text segmentation method, a large-scale learning database must be prepared, and enormous effort is required to prepare the learning database. If the learning database is small, the concept base cannot be created properly, which reduces the accuracy of text segmentation. In addition, since the learning database prepared in advance supports only a specific field, text segmentation cannot be performed on texts in different fields.
本発明の目的は,学習用データベースを必要とせず,様々な分野のテキストに対応するテキストセグメンテーションの技術を提供することにある。 An object of the present invention is to provide a text segmentation technique that does not require a learning database and can handle texts in various fields.
一般的には,学習用のデータベースを用意しなくてもテキストセグメンテーションを行うことができることが望ましい。そのために,本発明は,ウェブで検索を行う概念に着目した新しいテキストセグメンテーション技術を創案することにより,上記の課題を解決するものである。 In general, it is desirable to be able to perform text segmentation without preparing a learning database. Therefore, the present invention solves the above-mentioned problems by creating a new text segmentation technique that focuses on the concept of searching on the web.
本発明では,例えば1つのテキストをまとまりのある内容で分割するために,まず処理対象文書のテキストを文に分割し,各文の名詞を検索語とする。なお,名詞を検索語とする際に,必要に応じて不要名詞を事前に検索語の候補から取り除く。次に,検索語によってウェブ検索を行う。ウェブ検索により検索されたテキストから出現頻度の高い名詞を抽出して関連語とする。検索語+関連語をその文のキーワード集合とし,隣り合う文同士でキーワードが所定の個数以上,重複していなければ,文章の区切りとする。 In the present invention, for example, in order to divide a single text into coherent contents, first, the text of the document to be processed is divided into sentences, and nouns in each sentence are used as search words. When nouns are used as search terms, unnecessary nouns are removed in advance from search term candidates as necessary. Next, a web search is performed using the search terms. A noun with high appearance frequency is extracted from the text searched by the web search and used as a related word. The search word + related word is set as a keyword set of the sentence, and if there are no more than a predetermined number of keywords between adjacent sentences, the sentence is separated.
ここで,ウェブとはインターネット等のネットワークを介してアクセスできるHTMLやXMLなどの構造化言語で記述されたテキストの集合を意味する。現在,ウェブ上には膨大な情報が蓄積されており,最新の話題も常に提供されている。つまり,ウェブは様々な情報をもつ辞書として捉えることができる。実際,我々はある事に関して調べる際,検索サイトで検索語を入力してウェブ上で検索を行い,単語の意味や物事の内容を調べている。その観点から,学習用データベースを使用しなくてもウェブ上にある情報を適切に利用すれば,「サッカー」や「野球」に対応するのは「スポーツ」や「ボール」という概念を取得できると言える。その結果,ウェブ上にある様々な情報からテキストの記述内容に応じた単語を取得することができ,文同士の関連性を幅広く比較し文の内容を追跡することができる。従って,事前に学習用データベースを用意することや維持・管理の必要がなく,様々な分野に対応するテキストセグメンテーションが実現できる。 Here, the web means a set of texts described in a structured language such as HTML or XML that can be accessed via a network such as the Internet. Currently, a huge amount of information is accumulated on the web, and the latest topics are always provided. In other words, the web can be understood as a dictionary with various information. In fact, when we look into a certain thing, we enter a search word on a search site and search the web to find out the meaning of the word and the contents of things. From that point of view, if the information on the web is used appropriately without using a learning database, the concept of "sports" and "balls" can be obtained for "soccer" and "baseball". I can say that. As a result, words corresponding to the description contents of the text can be acquired from various information on the web, and the contents of sentences can be tracked by comparing the relevance of sentences widely. Therefore, it is not necessary to prepare a learning database in advance or to maintain and manage it, and text segmentation corresponding to various fields can be realized.
以上のように,本発明では,検索語を用いてウェブ検索を行うことで,テキストの記述内容に関連する複数の構造化言語で記述されたテキストを取得し,記述内容に関係の高い複数の単語を抽出できる点に着目している。その結果,本発明の目的である学習用データベースを必要とせず,様々な分野に対応できるテキストセグメンテーションが可能になる。 As described above, in the present invention, by performing a web search using a search term, text described in a plurality of structured languages related to the description content of the text is acquired, and a plurality of items highly related to the description content are acquired. The focus is on the ability to extract words. As a result, it is possible to perform text segmentation that can deal with various fields without requiring the learning database that is the object of the present invention.
具体的には,本発明は,電子情報化された文の集合であるテキストを,コンピュータによって1または複数の文からなるブロックに分割するテキストセグメンテーション方法において,分割対象となるテキストを入力し,その入力されたテキストを文単位に分割し,分割された各文に対して形態素解析を行い,各文ごとに検索語を抽出し,各文に対して抽出された検索語を用いてウェブ上で検索を行い,得られた検索結果から関連語を取得し,各文における検索語と関連語の組であるキーワード集合を作成し,隣り合う各文ごとにそれらのキーワード集合を比較し,共通するキーワードの個数によって比較対象となったキーワード集合の文を一つのブロックにまとめるか否かを決定してブロックを生成し,生成されたブロックをテキストの分割結果として出力する。 Specifically, the present invention is a text segmentation method in which a text, which is a set of electronically converted sentences, is divided into blocks made up of one or more sentences by a computer, and the text to be divided is input. The input text is divided into sentence units, morphological analysis is performed on each divided sentence, a search word is extracted for each sentence, and the search word extracted for each sentence is used on the web. Perform a search, obtain related words from the obtained search results, create keyword sets that are pairs of search words and related words in each sentence, compare those keyword sets for each adjacent sentence, and share them Based on the number of keywords, a decision is made as to whether or not the sentences in the keyword set to be compared are combined into a single block, and a block is generated. It is output as a result.
これにより,学習用データベースを用いずに,入力テキストを意味的にまとまった文集合または同じ内容に言及している文集合のブロックに,精度良く分割することができる。 Thereby, without using a learning database, the input text can be accurately divided into a sentence group that is semantically grouped or a sentence group block that refers to the same content.
また,ウェブ検索で得られた検索結果からの関連語の取得では,検索結果である構造化言語で記述された複数のテキストから名詞の単語を抽出し,抽出した単語の出現頻度を算出し,出現頻度の高い順にある定められた個数の単語を関連語として選択する。関連語の個数は,例えば一つの文における検索語と関連語の合計数が一定値となるように選んでもよい。これにより,関連語として検索語に関係の深い可能性がある単語を選択することができ,また,テキストを分割した各ブロックの意味的なまとまりの強弱に関する均一性を,ある程度保証することもできるようになる。 In addition, in the acquisition of related words from the search results obtained by web search, the noun word is extracted from the multiple texts described in the structured language that is the search result, the appearance frequency of the extracted word is calculated, A predetermined number of words in descending order of appearance frequency are selected as related words. The number of related words may be selected so that the total number of search words and related words in one sentence becomes a constant value, for example. This makes it possible to select words that are closely related to the search word as related words, and to guarantee a certain degree of uniformity regarding the strength of the semantic unit of each block into which the text is divided. It becomes like this.
また,各文からの検索語の抽出またはウェブ検索で得られた検索結果からの関連語の取得では,前記各文または前記検索結果に含まれる名詞の単語のうち,あらかじめ不要語リストに登録された単語を除いたものを,検索語または関連語とする。これにより,意味的な内容が乏しい単語によって分割できないようなことを避けることができる。 In addition, when extracting a search word from each sentence or acquiring a related word from a search result obtained by web search, a noun word included in each sentence or the search result is registered in an unnecessary word list in advance. Search words or related words are excluded. As a result, it is possible to avoid the case where words cannot be divided by words having poor semantic content.
本発明により,ウェブで検索する概念を利用することで学習用データベースを事前に用意する必要がないテキストセグメンテーション技術が実現できる。また,ウェブ上に蓄積されている様々な情報を利用しているという点から,テキストセグメンテーションを行う対象テキストに対して記述内容の分野に制約がないという利点がある。 According to the present invention, it is possible to realize a text segmentation technique that does not require a learning database to be prepared in advance by using the concept of searching on the web. In addition, there is an advantage that there is no restriction in the field of description content for the target text for text segmentation because various information accumulated on the web is used.
本発明は莫大なテキストデータを扱う分野やニュース記事を配信する分野において,テキストデータの整理・更新を自動的に行う支援技術として応用できる。 The present invention can be applied as support technology for automatically organizing and updating text data in the field of handling enormous text data and the field of distributing news articles.
図1に本発明の処理手順の概要を示す。図1において,ステップS1では,テキストを入力する処理を実行する。ステップS2では,入力されたテキストを文単位に分割する処理を実行する。ステップS3では,文から検索語を抽出する処理を実行する。ステップS4では,検索語を利用してウェブ上で検索を行い,検索結果から関連語を取得する処理を実行する。ステップS5では,検索語と関連語の組からなるキーワード集合を用いてテキストを分割する処理を実行する。ステップS6では,ステップS5で分割したテキストのテキストセグメンテーション結果を出力する処理を実行する。 FIG. 1 shows an outline of the processing procedure of the present invention. In FIG. 1, in step S1, a process for inputting text is executed. In step S2, a process of dividing the input text into sentence units is executed. In step S3, a process for extracting a search term from the sentence is executed. In step S4, a search is performed on the web using the search word, and a process of acquiring a related word from the search result is executed. In step S5, a process of dividing the text using a keyword set made up of a set of search terms and related terms is executed. In step S6, a process for outputting the text segmentation result of the text divided in step S5 is executed.
図2に,本発明の実施形態におけるウェブ検索を利用した学習用データベースを使用しないテキストセグメンテーション処理装置の構成図を示す。図2において,コンピュータ1は,ソフトウェアプログラムや記憶装置等によって構成されるテキスト分解処理部11と,検索語抽出処理部12と,関連語取得処理部13と,テキスト分割処理部14と,制御部15と,入力部16と,出力部17と,分解文章記憶部20と,検索語記憶部30と,関連語記憶部40と,分割ブロック記憶部50とを有する。
FIG. 2 shows a configuration diagram of a text segmentation processing apparatus that does not use a learning database using web search in the embodiment of the present invention. In FIG. 2, a
また,コンピュータ1には,ネットワーク3が接続されており,ウェブ4にアクセスできる。ウェブ4には,HTMLやXMLなどの構造化言語で記述された複数のテキスト5が蓄積されている。テキスト6は,コンピュータ1の入力部16に入力されるテキストである。表示部2は,制御部15から出力部17を通じて出力された結果を表示するための装置である。
The
図3に,本発明の実施形態におけるテキスト6の一例を示す。図3に示すテキスト6は,本発明の実施例を説明するためのセグメンテーションの対象となる入力部16が入力するテキストの例である。
FIG. 3 shows an example of the
図4に,本発明の実施形態における分解文章記憶部20に格納された文の一例を示す。図4において,21はテキスト6の1番目の文,22はテキスト6の2番目の文,23はテキスト6の3番目の文,24はテキスト6の4番目の文,25はテキスト6の5番目の文,26はテキスト6の6番目の文,27はテキスト6の7番目の文,28はテキスト6の8番目の文,29はテキスト6の9番目の文をそれぞれ表す。
FIG. 4 shows an example of sentences stored in the decomposed
図5に,本発明の実施形態における不要語リストの一例を示す。図5において,60は不要語リストであり,不要語リスト60には,あらかじめセグメンテーションの処理において無視する単語が記憶部(図示省略)に登録されている。
FIG. 5 shows an example of an unnecessary word list in the embodiment of the present invention. In FIG. 5,
図6に,本発明の実施形態における検索語記憶部30に格納された検索語の一例を示す。図6において,31は文21に対応する検索語,32は文22に対応する検索語,33は文23に対応する検索語,34は文24に対応する検索語,35は文25に対応する検索語,36は文26に対応する検索語,37は文27に対応する検索語,38は文28に対応する検索語,39は文29に対応する検索語を表す。
FIG. 6 shows an example of a search word stored in the search
図7に,本発明の実施形態における関連語記憶部40に格納された関連語の一例を示す。図7において,41は検索語31に対応する関連語,42は検索語32に対応する関連語,43は検索語33に対応する関連語,44は検索語34に対応する関連語,45は検索語35に対応する関連語,46は検索語36に対応する関連語,47は検索語37に対応する関連語,48は検索語38に対応する関連語,49は検索語39に対応する関連語を表す。
In FIG. 7, an example of the related word stored in the related word memory |
図8に,本発明の実施形態におけるテキスト分割処理部14で作成されるキーワード集合の一例を示す。図8において,71は検索語31と関連語41の組から生成されたキーワード集合,72は検索語32と関連語42の組から生成されたキーワード集合,73は検索語33と関連語43の組から生成されたキーワード集合,74は検索語34と関連語44の組から生成されたキーワード集合,75は検索語35と関連語45の組から生成されたキーワード集合,76は検索語36と関連語46の組から生成されたキーワード集合,77は検索語37と関連語47の組から生成されたキーワード集合,78は検索語38と関連語48の組から生成されたキーワード集合,79は検索語39と関連語49の組から生成されたキーワード集合を表す。
FIG. 8 shows an example of a keyword set created by the text
図9に,本発明の実施形態における分割ブロック記憶部に格納された各ブロックに属する文番号の一例を示す。図9において,51は1番目のブロックに属する文番号,52は2番目のブロックに属する文番号を表す。 FIG. 9 shows an example of sentence numbers belonging to each block stored in the divided block storage unit in the embodiment of the present invention. In FIG. 9, 51 represents a sentence number belonging to the first block, and 52 represents a sentence number belonging to the second block.
本発明の実施形態によるテキストセグメンテーションの処理手順を具体例と共に詳細に説明する。まず,テキスト6が入力部16を通じて入力されると,制御部15からテキスト分解処理部11が呼び出される。
A text segmentation processing procedure according to an embodiment of the present invention will be described in detail with specific examples. First, when the
テキスト分解処理部11では,テキスト6を一文字ずつ読み込み,文単位で切り出す。そして,切り出された複数の文を,制御部15を介して分解文章記憶部20に格納する処理を行う。ここで,文とは句点「。」で区切られる一文を指す。ここで,例えば“「”や“」”等の括弧記号で囲まれる会話文中に現れる句点は無視する。入力されるテキスト6に応じて,生成される文の個数は変化する。テキスト6の一例として,図3に示すテキスト6に対してテキスト分解処理部11を実行すると,図4のように,文単位に分解された9つの文21から文29が生成され,制御部15を介して分解文章記憶部20に格納される。
The text
次に,分解文章記憶部20に格納されたそれぞれの文に対して,制御部15により検索語抽出処理部12による処理が実行される。ここで,検索語とは,ウェブ上で検索を行う際に入力する一つまたは複数の単語のことを指す。最初に検索語抽出処理部12では,入力された各文に対して形態素解析を行う。そして,名詞と判定された複数の単語を検索語として取り出し,制御部15を介して検索語記憶部30に格納する。
Next, the control unit 15 executes processing by the search word
ただし,名詞の単語を取り出すだけでは,「月」や「日」のような一般的に使用される単語も抽出される。そこで,「月」や「日」などの不要語リスト60をあらかじめ作成しておき,不要語リスト60に登録されていない名詞の単語を検索語として扱う。図5は,このような不要語リスト60の一例を示している。
However, by simply extracting the noun word, commonly used words such as “month” and “day” are also extracted. Therefore, an
一方,文27のように名詞として抽出された単語が全て不要語である場合や,文23のように名詞となる単語が文中に存在しない場合には,検索語抽出処理部12では検索語は抽出されない。その場合,検索語抽出処理部12において,図6の検索語33のように検索語記憶部30に単語を格納しない。
On the other hand, when all the words extracted as nouns such as
また,抽出される検索語が少ない場合もある。しかし,そのような文は特に意味的な内容が無いとしても問題ない。そこで,検索語抽出処理部12において,抽出した検索語の個数が所定の閾値ST 以下の場合には,検索語が無い文として扱い,検索語記憶部30に単語を格納しない。例えばST =1とすれば,文22において抽出された名詞は「久里浜」と一つであるため,検索語が無い文として扱い,検索語記憶部30における検索語32のように検索語を格納しない。図6では,ST =1のときの文21から文29までの検索語の例を,検索語31から検索語39として示している。
In addition, there are cases where a small number of search terms are extracted. However, there is no problem even if such a sentence does not have any particularly meaningful content. Therefore, in the search word
文21から文29に対応する検索語31から検索語39が作成された後,制御部15から関連語取得処理部13が呼び出される。関連語取得処理部13では,初めに検索語抽出処理部12で抽出された検索語を,制御部15を介して検索語記憶部30から取り出し入力する。次に,入力された検索語を用いてネットワーク3で接続されているウェブ4上で検索を行う。そして,検索結果で参照されているHTMLやXMLなどの構造化言語で記述された複数のテキスト5を,ネットワーク3を介してウェブ4から予め定められたP個だけ取得し,取得したテキストから本文の内容を抽出する。
After the
なお,関連語を取得するためのウェブ検索では,複数の検索語をand条件で検索することを基本とする。すなわち,基本的に検索語が全て現れるウェブページを探す。その理由は,複数の検索語をor条件で検索した場合,一部の検索語だけが現れるウェブページが検索結果に現れ,全体の検索語に関係の弱い単語が関連語として抽出される可能性が高いからである。 Note that the web search for acquiring related terms is based on searching for a plurality of search terms under the and condition. In other words, a web page where all search terms appear is basically searched. The reason is that when multiple search terms are searched using the or condition, a web page in which only some of the search terms appear appears in the search results, and words that are weakly related to the entire search terms may be extracted as related terms. Because it is expensive.
構造化言語で記述されたテキストにおいて,“<”と“>”で囲まれた文字列から構成されるタグを解析することで,本文の内容が記述されたP個の本文テキストが得られる。P個の本文テキストを抽出した後,それらに対して関連語取得処理部13は形態素解析を行い,名詞の単語を抽出する。そして,抽出された名詞の単語の出現頻度を調べ,頻度の高い順に複数個の単語を関連語として関連語記憶部40に格納する。
By analyzing a tag composed of a character string surrounded by “<” and “>” in a text described in a structured language, P body texts describing the content of the body text are obtained. After extracting P body texts, the related word
しかし,名詞の単語を直接的に関連語として使用すると,検索語抽出処理部12と同様に「月」や「日」といった,普遍的に使用される単語が関連語として扱われる場合がある。そこで,関連語取得処理部13においても,検索語抽出処理部12と同様に,図5に示すような不要語リスト60を参照し,不要語リスト60に登録されていない単語だけを関連語として関連語記憶部40に格納する。
However, if a noun word is directly used as a related word, a universally used word such as “month” or “day” may be treated as a related word, as in the search word
関連語の一つの例として,検索語31を入力したときの関連語41を図7に示す。このとき,関連語取得処理部13においては,入力する検索語によって得られる関連語の個数が異なる。そこで,取得する関連語の個数を調整するために,検索語と関連語の合計個数の閾値Tを用いて,収集する関連語の個数を設定する。具体的には,ある文に対して検索語抽出処理部12でS個の検索語が抽出されたとすると,関連語取得処理部13において関連語はT−S個だけウェブ検索で得られた本文テキストから抽出する。検索語の個数が合計個数Tを超える場合には関連語を取得せず,検索語はランダムに選択したT個だけ残す。
As an example of the related word, a
さらに,関連語取得処理部13において,入力される検索語によって得られるウェブページ数は異なるが,本発明においてウェブページはできるだけ多く取得できることが望ましい。そこで,ウェブ検索により得られたウェブページ数に対して,閾値PT を設定する。得られたウェブページ数が閾値PT を超えない場合には,検索が十分に行えないと判断し,関連語を抽出するのを止め,関連語記憶部40には単語を格納しない。例えば,文28に対する検索語38を用いてウェブ検索を行うと検索件数は4件であるとする。そこで,閾値PT をPT =5とすれば,検索語38に対して関連語取得処理部13にて取得したウェブページから関連語を抽出せず,関連語48のように関連語記憶部40には単語は格納されない。他,PT =5のときの文21から文29に対応する関連語41から関連語49の例を,図7に示す。
Furthermore, in the related word
最後に,分解文章記憶部20に格納されている全ての文に対して,検索語抽出処理部12と関連語取得処理部13による処理が終了すると,制御部15により,テキスト分割処理部14による処理が実行される。テキスト分割処理部14において,最初に制御部15を介して検索語記憶部30と関連語記憶部40に格納されている検索語と関連語を順に取り出し,それらを要素とするキーワード集合を作成することを,各文に対して繰り返し行う。
Finally, when the processing by the search word
例えば,文21に対しては,検索語31と関連語41から,図8のキーワード集合71が作成される。ここで,文22のように検索語が無い場合(図6の32)には,対応する関連語も無いため,該当するキーワード集合はない。一方,文28のように検索語があり,関連語が無い場合には,キーワード集合は検索語38だけを用いて作成する。
For example, for the sentence 21, the keyword set 71 of FIG. 8 is created from the
キーワード集合の作成が終了すると,次にテキスト分割処理部14では,生成された各文のキーワード集合を先頭から順に二つずつ比較し,共通する単語の有無を調べることによって与えられたテキスト6の分割を行う。一般的に,文章は先頭から順に書かれることが多い。そこで,本発明では先頭から順に二つの文に対するキーワード集合を解析し,共通単語の個数が所定の閾値CT 以上であれば分割を行わず,CT 未満であれば分割を行う。この比較処理をテキストの最後の二つの組を比較するまで繰り返す。そして,テキスト分割処理部14によって得られる複数または一つの文からなるブロックを,制御部15を通じて分割ブロック記憶部50に格納する。
When the creation of the keyword set is completed, the text
ここで,テキスト分割処理部14において,二つのキーワード集合を比較する際,それぞれに必ず単語が含まれているものを使用する。具体的な処理手順を図8のキーワード集合とCT =1と設定した例を用いて説明する。
Here, when the two keyword sets are compared in the text
初めに,図8のキーワード集合71とキーワード集合72の比較を試みる。しかし,キーワード集合72には単語が存在しないため比較処理を行わず,単語が存在するキーワード集合を見つける。その結果,キーワード集合に単語が存在するキーワード集合71とキーワード集合74が最初に比較対象となる。キーワード集合71とキーワード集合74にある共通単語を調べると,「旅行」という1個の共通単語が抽出される。この個数は閾値CT =1以上であるため,文21から文24までは一つのブロックとする。 First, comparison between the keyword set 71 and the keyword set 72 in FIG. 8 is attempted. However, since there is no word in the keyword set 72, the comparison process is not performed and the keyword set in which the word exists is found. As a result, the keyword set 71 and the keyword set 74 having words in the keyword set are first compared. When the common words in the keyword set 71 and the keyword set 74 are examined, one common word “travel” is extracted. Since this number is equal to or greater than the threshold C T = 1, sentences 21 through 24 are set as one block.
次に,キーワード集合74とキーワード集合75を比較する。その結果,「温泉」と「旅行」の二つの共通単語が抽出されるため,文21から文25までは一つのブロックとする。そして,キーワード集合75とキーワード集合76を比較すると共通単語が存在しないため,一つ目のブロックは文21と文25までと判定し,一つ目のブロックに属する文の番号を制御部15を介し,図9の文番号51のように分割ブロック記憶部50に格納する。
Next, the keyword set 74 and the keyword set 75 are compared. As a result, since two common words “hot spring” and “travel” are extracted, sentences 21 to 25 are assumed to be one block. Then, since there is no common word when comparing the keyword set 75 and the keyword set 76, the first block is determined to be the sentence 21 and the sentence 25, and the control unit 15 determines the number of the sentence belonging to the first block. Thus, the data is stored in the divided
同様の処理をキーワード集合76以降のキーワード集合に対して繰り返し行うと,二つ目のブロックは文26から文29までとなり,二つ目のブロックに属する文の番号を,図9の文番号52のように分割ブロック記憶部50に格納する。図9の結果から,与えられたテキスト6は二つに分割され,一つ目のブロックには1番目から5番目の文が属し,二つ目のブロックは6番目から9番目の文が属することが分かる。
When the same processing is repeated for the keyword sets subsequent to the keyword set 76, the second block becomes
一方,i番目とj番目(ただし,i<j)のキーワード集合に共通する単語が存在せず,i+1番目からj−1番目までのキーワード集合に単語が存在しない場合,i+1番目からj−1番目はどのブロックにも割り当てられない。この場合,i番目までの文で分割を行い,さらにi+1番目からj−1番目の文をそれぞれの文が一つのブロック(本発明では空ブロックと呼ぶ)として分割し,分割ブロック記憶部50に格納する。
On the other hand, when there is no common word in the i-th and j-th (where i <j) keyword sets, and there are no words in the i + 1-th to j-1-th keyword sets, the i + 1-th to j-1 The second is not assigned to any block. In this case, the i-th sentence is divided into the i-th sentence, the i + 1-th sentence to the j-1-th sentence are divided into one block (referred to as an empty block in the present invention), and the divided
最後に,制御部15を通じて分割ブロック記憶部50に格納された各ブロックの文番号を出力部17に出力する。例えば,図9のように各ブロックの番号とそれに属する文の番号を組にして出力する方法がある。
Finally, the sentence number of each block stored in the divided
以上の実施形態において,テキストセグメンテーションを行う計算時間や分割の細かさに関しては,外部からパラメータST ,PT ,CT ,T,Pを指定する手段を設けることにより,これらのパラメータによって任意に調整することができる。キーワード集合の比較方法については,分野毎によく使用される単語に重みをつけて共通単語を抽出する方法などが考えられる。また,出力部17において,検索語記憶部30と関連語記憶部40を参照し,図8のようなキーワード集合に単語が存在しないという情報を利用して,空ブロックに割り当てられた文を除くように出力することもできる。
In the above embodiments, with respect to fineness of computation time or divided to perform text segmentation, the parameter S T from the outside, P T, C T, T, by providing a means for specifying a P, optionally by these parameters Can be adjusted. As a method of comparing keyword sets, a method of extracting common words by weighting frequently used words for each field can be considered. Further, the
以上のテキストセグメンテーションの処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。 The above text segmentation processing can be realized by a computer and a software program. The program can be provided by being recorded on a computer-readable recording medium or provided through a network.
S1 テキストを入力する処理
S2 テキストを文単位に分割する処理
S3 各文に対して検索語となる単語を抽出する処理
S4 検索語を利用して関連語を取得する処理
S5 キーワード集合(検索語と関連語の組)によってテキストを分割する処理
S6 分割結果を出力する処理
1 コンピュータ
2 表示部
3 ネットワーク
4 ウェブ
5 構造化言語で記述された複数のテキスト
6 入力するテキスト
11 テキスト分解処理部
12 検索語抽出処理部
13 関連語取得処理部
14 テキスト分割処理部
15 制御部
16 入力部
17 出力部
20 分解文章記憶部
21〜29 分解文章記憶部に格納されている1〜9番目の文
30 検索語記憶部
31〜39 分解文章記憶部に登録されている1〜9番目の文に対応する検索語記憶部に格納されている単語
40 関連語記憶部
41〜49 検索語記憶部に登録されている1〜9番目の単語に対応する関連語記憶部に格納されている単語
50 分割ブロック記憶部
51,52 分割ブロック記憶部に格納されている1,2番目のブロックに属する文番号
60 不要語リスト
71〜79 検索語記憶部に登録されている1〜9番目の単語と関連語記憶部に格納されている1〜9番目の単語を組にして作成したキーワード集合
S1 Process for inputting text S2 Process for dividing text into sentences S3 Process for extracting words as search terms for each sentence S4 Process for acquiring related terms using search terms S5 Keyword set (with search terms and S6 Process for Dividing Text by Set of Related Words S6 Process for
Claims (6)
前記コンピュータが,
分割対象となるテキストを入力する過程と,
入力されたテキストを文単位に分割する過程と,
分割された各文に対して形態素解析を行い,各文ごとに検索語を抽出して,検索語記憶手段に記憶する過程と,
前記各文に対して抽出された検索語を用いてウェブ上で検索を行い,得られた検索結果から関連語を取得し,関連語記憶手段に記憶する過程と,
前記検索語記憶手段と前記関連語記憶手段とを参照することにより,前記各文における検索語と関連語の組であるキーワード集合を作成し,隣り合う各文ごとにそれらのキーワード集合を比較し,共通するキーワードの個数によって比較対象となったキーワード集合の文を一つのブロックにまとめるか否かを決定し,ブロックを生成する過程と,
生成されたブロックをテキストの分割結果として出力する過程とを実行する
ことを特徴とするテキストセグメンテーション方法。 In a text segmentation method for dividing text, which is a set of electronic information sentences, into blocks consisting of one or more sentences by a computer,
The computer is
The process of entering the text to be split,
The process of dividing the input text into sentences,
A process of performing morphological analysis on each divided sentence, extracting a search word for each sentence, and storing it in the search word storage means;
Performing a search on the web using the search terms extracted for each sentence, obtaining related terms from the obtained search results, and storing them in the related term storage means;
By referring to the search word storage means and the related word storage means, a keyword set which is a set of search words and related words in each sentence is created, and the keyword sets are compared for each adjacent sentence. The process of generating a block by deciding whether or not to combine the sentences of the keyword set to be compared into one block according to the number of common keywords,
A text segmentation method, comprising: outputting a generated block as a result of text division.
前記ウェブ検索で得られた検索結果からの関連語の取得では,検索結果である構造化言語で記述された複数のテキストから名詞の単語を抽出し,抽出した単語の出現頻度を算出し,出現頻度の高い順にある定められた個数の単語を関連語として選択する
ことを特徴とするテキストセグメンテーション方法。 The text segmentation method of claim 1,
In the acquisition of related words from the search results obtained by the web search, the words of nouns are extracted from a plurality of texts described in the structured language as the search results, and the appearance frequency of the extracted words is calculated. A text segmentation method, wherein a predetermined number of words in order of frequency are selected as related words.
前記各文からの検索語の抽出または前記ウェブ検索で得られた検索結果からの関連語の取得では,前記各文または前記検索結果に含まれる名詞の単語のうち,あらかじめ不要語リストに登録された単語を除いたものを,検索語または関連語とする
ことを特徴とするテキストセグメンテーション方法。 The text segmentation method according to claim 1 or 2,
In the extraction of search terms from each sentence or the acquisition of related words from the search results obtained by the web search, the noun words included in the respective sentences or the search results are registered in the unnecessary word list in advance. A text segmentation method characterized in that a search word or related word is excluded from a word.
分割対象となるテキストを入力する入力手段と,
入力されたテキストを文単位に分割するテキスト分解処理手段と,
分割された各文に対して形態素解析を行い,各文ごとに検索語を抽出する検索語抽出処理手段と,
抽出された検索語を記憶する検索語記憶手段と,
前記各文に対して抽出された検索語を用いてウェブ上で検索を行い,得られた検索結果から関連語を取得する関連語取得処理手段と,
取得された関連語を記憶する関連語記憶手段と,
前記検索語記憶手段と前記関連語記憶手段とを参照することにより,前記各文における検索語と関連語の組であるキーワード集合を作成し,隣り合う各文ごとにそれらのキーワード集合を比較し,共通するキーワードの個数によって比較対象となったキーワード集合の文を一つのブロックにまとめるか否かを決定し,ブロックを生成するテキスト分割処理手段と,
生成されたブロックをテキストの分割結果として出力する出力手段とを備える
ことを特徴とするテキストセグメンテーション処理装置。 In a text segmentation processing apparatus that divides text, which is a set of electronically converted sentences, into blocks consisting of one or more sentences,
An input means for inputting the text to be divided;
Text decomposition processing means for dividing input text into sentence units;
Search word extraction processing means for performing morphological analysis on each divided sentence and extracting a search word for each sentence;
Search term storage means for storing the extracted search terms;
A related word acquisition processing means for performing a search on the web using the search word extracted for each sentence, and acquiring a related word from the obtained search result;
A related word storage means for storing the acquired related words;
By referring to the search word storage means and the related word storage means, a keyword set which is a set of search words and related words in each sentence is created, and the keyword sets are compared for each adjacent sentence. , A text division processing means for determining whether or not to combine the sentences of the keyword set to be compared into one block according to the number of common keywords, and generating a block;
An output means for outputting the generated block as a result of text division. A text segmentation processing apparatus, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007033077A JP2008197952A (en) | 2007-02-14 | 2007-02-14 | Text segmentation method, its device, its program and computer readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007033077A JP2008197952A (en) | 2007-02-14 | 2007-02-14 | Text segmentation method, its device, its program and computer readable recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008197952A true JP2008197952A (en) | 2008-08-28 |
Family
ID=39756830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007033077A Pending JP2008197952A (en) | 2007-02-14 | 2007-02-14 | Text segmentation method, its device, its program and computer readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008197952A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010257425A (en) * | 2009-04-28 | 2010-11-11 | Nippon Hoso Kyokai <Nhk> | Topic boundary detection device and computer program |
CN103123624A (en) * | 2011-11-18 | 2013-05-29 | 阿里巴巴集团控股有限公司 | Method of confirming head word, device of confirming head word, searching method and device |
WO2016085409A1 (en) * | 2014-11-24 | 2016-06-02 | Agency For Science, Technology And Research | A method and system for sentiment classification and emotion classification |
CN110245344A (en) * | 2018-03-08 | 2019-09-17 | 云拓科技有限公司 | The automatic destructing processing unit of claims |
-
2007
- 2007-02-14 JP JP2007033077A patent/JP2008197952A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010257425A (en) * | 2009-04-28 | 2010-11-11 | Nippon Hoso Kyokai <Nhk> | Topic boundary detection device and computer program |
CN103123624A (en) * | 2011-11-18 | 2013-05-29 | 阿里巴巴集团控股有限公司 | Method of confirming head word, device of confirming head word, searching method and device |
CN103123624B (en) * | 2011-11-18 | 2015-12-02 | 阿里巴巴集团控股有限公司 | Determine method and device, searching method and the device of centre word |
WO2016085409A1 (en) * | 2014-11-24 | 2016-06-02 | Agency For Science, Technology And Research | A method and system for sentiment classification and emotion classification |
CN110245344A (en) * | 2018-03-08 | 2019-09-17 | 云拓科技有限公司 | The automatic destructing processing unit of claims |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431549B1 (en) | Causality recognition device and computer program therefor | |
CN106844658B (en) | Automatic construction method and system of Chinese text knowledge graph | |
CN107180045B (en) | Method for extracting geographic entity relation contained in internet text | |
Zhang et al. | An empirical study of TextRank for keyword extraction | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JP2005122295A (en) | Relationship figure creation program, relationship figure creation method, and relationship figure generation device | |
JP4873739B2 (en) | Text multiple topic extraction apparatus, text multiple topic extraction method, program, and recording medium | |
CN107679035A (en) | A kind of information intent detection method, device, equipment and storage medium | |
CN106844482B (en) | Search engine-based retrieval information matching method and device | |
CN107168953A (en) | The new word discovery method and system that word-based vector is characterized in mass text | |
Darmawiguna et al. | The development of integrated Bali tourism information portal using web scrapping and clustering methods | |
JP5215051B2 (en) | Text segmentation apparatus and method, program, and computer-readable recording medium | |
JP4873738B2 (en) | Text segmentation device, text segmentation method, program, and recording medium | |
JP2013101679A (en) | Text segmentation device, method, program, and computer-readable recording medium | |
JP2008197952A (en) | Text segmentation method, its device, its program and computer readable recording medium | |
JP2008065468A (en) | Device for multiple-classifying text, method for multiple-classifying text, program and storage medium | |
CN112115269A (en) | Webpage automatic classification method based on crawler | |
Zhang et al. | Boilerplate detection via semantic classification of TextBlocks | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP2012104051A (en) | Document index creating device | |
JP2017068742A (en) | Relevant document retrieval device, model creation device, method and program therefor | |
JP5491446B2 (en) | Topic word acquisition apparatus, method, and program | |
CN112949287B (en) | Hot word mining method, system, computer equipment and storage medium | |
JP2009271819A (en) | Document search system, document search method and document search program | |
Ung et al. | Combination of features for vietnamese news multi-document summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080529 |