Nothing Special   »   [go: up one dir, main page]

JP2012221431A - 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム - Google Patents

関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム Download PDF

Info

Publication number
JP2012221431A
JP2012221431A JP2011089567A JP2011089567A JP2012221431A JP 2012221431 A JP2012221431 A JP 2012221431A JP 2011089567 A JP2011089567 A JP 2011089567A JP 2011089567 A JP2011089567 A JP 2011089567A JP 2012221431 A JP2012221431 A JP 2012221431A
Authority
JP
Japan
Prior art keywords
word
support
occurrence
group
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011089567A
Other languages
English (en)
Other versions
JP5542729B2 (ja
Inventor
Takayuki Adachi
貴行 足立
Toshiro Uchiyama
俊郎 内山
Takashi Fujimura
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011089567A priority Critical patent/JP5542729B2/ja
Publication of JP2012221431A publication Critical patent/JP2012221431A/ja
Application granted granted Critical
Publication of JP5542729B2 publication Critical patent/JP5542729B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】意味の曖昧性のある対象語から特定の意味の関連語を抽出する。
【解決手段】関連語抽出装置100が、テキスト集合から共起単語データを作成し、共起単語データを用いて、所定の各単語について、その単語と共起する単語を求めてグループ化し、単語グループデータから、対象語400に対するグループデータを抽出し、単語グループデータから、支持語リスト500に記載の支持語毎にグループデータを抽出し、支持語リスト500と、支持語グループデータから、支持語との関係の深いグループに属する共起語(支持共起語)と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、支持共起語データとし、関連語グループデータと支持共起語データから、対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択する。
【選択図】図1

Description

本発明は、ある単語に対する関連語の抽出を行う関連語抽出技術に関するものである。
世の中には様々な内容の電子テキストが大量に存在している。その中から欲しい情報を探すため、情報検索システムが利用されている。このシステムでは、ユーザは欲しい情報に関する検索語を入力すれば、その検索語に関する電子テキストの情報を得ることができる。その検索語の集合を考えた場合、多くの人々の検索意図が反映されているので、システム提供者は検索語集合を分析することで、人々が必要としている検索対象の拡充や、情報へのアクセス方法の改善に役立てることができる。また、人々に共通する関心が反映されたものだと捉えることができるので、マーケティング分析にも役立つ。
従来技術として、情報検索システムにおいて、所定期間内に使用された検索語同士の関連度の強さを求めて、互いに強い関連を持つ語は同一の情報を得るために使用された語であるとみなすことで、例えば、年始における"年賀状"と"当選番号"のように一時的に関連の強くなった検索語同士の関連付けを行う情報関連づけ装置が開示されている(特許文献1参照)。
また、情報検索システムのクエリログからクエリ内の単語の共起頻度を基に関連付けを行う従来技術がある。例えば、"銀座"と同時に出現する単語(共起語)の共起頻度の高い順に単語を並べると "ランチ"や"映画館"などの関連語を得ることができる。
特許第3547069号
しかしながら、例えば、"ワンピース"の意味が服の種類やアニメのタイトルのように、利用する背景によって同じ表記の単語が異なる意味として扱われることがある。このような単語に対する関連語を抽出した場合、従来技術では異なる意味の関連語を区別できない。
また、例えば、"ワンピース"を服の意味に限定するため"ワンピース"に"洋服"を追加して、いずれの単語とも共起した単語を関連語とする方法が考えられる。しかしながら、いずれの単語とも共起しなければならないため、"ワンピース"のみに共起する服の意味を持った単語があっても関連語として抽出できない。
また、逆に、例えば、"ワンピース"を服の意味に限定するため"ワンピース"に"−アニメ"を追加して、"ワンピース"と共起したもののうち、"アニメ"とは共起しない単語を関連語とする方法が考えられる。しかしながら、"ワンピース"のみに共起するアニメの意味を持った単語があっても関連語から除くことができない。
本発明は上記のような課題を解決するものであり、意味の曖昧性のある対象語から特定の意味の関連語を抽出するため、対象語の共起語をグループ化し、他の語と関係の深い共起語の共起頻度を用いて、対象語の共起語の支持度を加算や減算して集計し、支持度の高いグループを選択して、そのグループに属する共起語を対象語の関連語とすることで、他の語と関係の深い特定の意味の関連語を出力する関連語抽出技術を提供することを目的とする。
上記の課題を解決するために、本発明は、単語に対する関連語を抽出する関連語抽出装置であって、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と、を備えたことを特徴とする関連語抽出装置として構成される。
また、本発明は、単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
前記外部装置は、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成手段を備え、
前記関連語抽出装置は、
前記外部装置により作成された共起単語データを格納する共起単語データ記憶手段と、
当該共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と、を備えることを特徴とする関連語抽出装置として構成することもできる。
また、本発明は、単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
前記外部装置は、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成手段と、を備え、
前記関連語抽出装置は、
前記外部装置により作成された単語グループデータを格納する単語グループ記憶手段と、
当該単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と、を備えることを特徴とする関連語抽出装置として構成してもよい。
前記支持共起語抽出手段において、前記支持語リストの支持語に対して選択か除外かの支持方法を判断する情報が記されており、その情報に基づいて、全ての支持語に対してその共起頻度を集計する際に、選択する支持方法では加算を行い、除外する支持方法では減算を行って集計するようにしてもよい。
また、前記対象語は例えば検索式の形式で入力され、その場合、前記関連語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを抽出し、前記関連語グループデータ記憶手段へ出力し、また、前記関連語抽出手段において、前記検索式に含まれる各単語に対して各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を抽出して、前記検索式の条件を満たした共起語を関連語として選択する。
また、前記支持語リストは例えば検索式の形式で入力され、その場合、前記支持語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを探し、前記支持語グループデータ記憶手段へ出力し、また、前記支持共起語抽出手段において、前記検索式の条件を満たした共起語を支持共起語として選択する。
また、関連語抽出装置において、前記単語グループ作成手段の処理を関連語グループ抽出手段及び/又は支持語グループ抽出手段の中で行うことで、前記対象語や前記支持語リストの入力後に逐次的に処理を行って、前記対象語や前記支持語の単語グループデータを作成するように構成してもよい。
また、本発明は、前記関連語抽出装置が実行する関連語抽出方法として構成してもよい。更に、本発明は、コンピュータを、前記関連語抽出装置における各手段として機能させるための関連語抽出プログラムとして構成してもよい。
本発明によれば、意味の曖昧性のある対象語から特定の意味の関連語を抽出するため、対象語の共起語をグループ化し、他の語と関係の深い共起語の共起頻度を用いて、対象語の共起語の支持度を加算や減算して集計し、支持度の高いグループを選択して、そのグループに属する共起語を対象語の関連語とすることで、他の語と関係の深い特定の意味の関連語を高精度で抽出できる。
本発明の一実施形態に係る関連語抽出装置の構成図である。 図1に示す関連語抽出装置の処理の流れを表すフローチャートである。 各種データの一例(1)である。 各種データの一例(2)である。 各種データの一例(3)である。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態に限定されるものではない。
(装置構成、動作概要)
図1は本発明の一実施形態の関連語抽出装置100の構成図、図2は図1の関連語抽出装置100の処理の流れを表すフローチャートである。図2のS100〜S150は各処理のステップを各々示している。
図1に示すように、本実施形態の関連語抽出装置100は、共起単語データ作成部110、単語グループ作成部120、関連語グループ抽出部130、支持語グループ抽出部140、支持共起語抽出部150、関連語抽出部160、共起単語データベース170、単語グループデータベース180、関連語グループデータベース190、支持語グループデータベース200、支持共起語データベース210を備える。関連語抽出装置100は、テキスト集合300、対象語400、及び支持語リスト500を入力とし、関連語抽出部160により抽出された関連語を関連語データベース600に出力する。
関連語抽出装置100は、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、関連語抽出装置100の全機能部もしくは一部の機能部ついて、各部が有する機能は、当該装置を構成するコンピュータに内蔵されるCPUやメモリなどのハードウェア資源を用いて、各部で実施される処理に対応するプログラムを実行することによって実現することが可能である。また、関連語抽出装置100における各データベースは、メモリなどの記憶手段により実現される。また、上記プログラムは、コンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、BD(Blu−ray Disk)−ROM、CD−R、CD−RW、DVD−R、DVD−RW、BD−R、BD−RE、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
次に、図2のフローチャートを参照して、関連語抽出装置100の動作概要を説明する。
ステップ100)共起単語データ作成部110は、テキスト集合300を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データベース170へ出力する。
ステップ110)単語グループ作成部120は、共起単語データベース170に格納された共起単語を用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータベース180へ出力する。
ステップ120)関連語グループ抽出部130は、単語グループデータベース180から、対象語400に対するグループデータを探し、関連語グループデータベース190へ出力する。
ステップ130)支持語グループ抽出部140は、単語グループデータベース180から、支持語リスト400に記載の支持語毎にグループデータを探し、支持語グループデータベース200へ出力する。
ステップ140)支持共起語抽出部150は、支持語リスト500と、支持語グループデータベース200から、支持語との関係の深いグループに属する共起語(支持共起語)と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、支持共起語データベース210へ出力する。
ステップ150)関連語抽出部160は、関連語グループデータベース190と支持共起語データベース210に格納されたデータを用いて、対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、関連語データベース600へ出力する。
(動作詳細)
次に、本実施形態における関連語抽出装置100の一連の動作をより詳細に、具体例を用いながら説明する。なお、以下で説明に用いる具体例は一例に過ぎない。
共起単語データ作成部110は、テキスト集合300を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データベース170へ出力する。例えば、情報検索システムの検索クエリログをテキスト集合とした場合のテキスト集合を図3(A)に示す。図3(A)のテキスト集合は1行が1つのクエリを表すテキストとなっている。このテキスト集合から、テキスト中のある単語と共起する単語の組を求めて、その組の数(共起頻度)を集計し、高頻度順に並べたデータを作成したものが図3(B)の共起単語データとなる。なお、テキスト集合が通常の文章でも、形態素解析によって自立語を取り出して1文もしくは1文節を1つのテキストと扱うことで、同様に処理できる。
単語グループ作成部120は、共起単語データベース170に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータベース180へ出力する。
例えば、まず、所定の単語集合については、図3(B)の共起単語データの各単語について共起語の数の多い順に並べた図3(C)の共起単語数データの上位N件と定める。なお、別の方法として、テキスト集合中の単語の頻度に基づく関数によって計算された値の大きなものから上位N件と定めたり、事前準備した単語リストに記載の単語集合を所定の単語集合と定めてもよい。
次に、所定の単語集合の単語毎の処理について説明する。例えば、所定の単語が"ワンピース"であれば、"ワンピース"の共起語を図3(B)の共起単語データから求めて、図3(D)の共起語データを抽出する。その際"ワンピース"と共起する単語との共起頻度も図3(B)から分かるので、共起頻度が所定の閾値未満のものは抽出しない。
次に、図3(D)の共起語データの各共起語の特徴を表すため、各共起語に対して共起した語と共起頻度を図3(B)の共起単語データから求め、得られた単語に対する共起頻度を要素とする図3(E)の特徴ベクトルデータを作成する。なお、特徴ベクトルは共起頻度を基にして単語の特徴が表せられれば良いので、共起頻度の代わりにその値に任意の関数を適用した値を用いてもよい。最後に、作成された特徴ベクトルを用いて"ワンピース"の共起語をクラスタリングした結果、図3(F)のように4つのグループからなるグループデータが得られ、単語グループデータベース170へ出力する。なお、クラスタリング手法は、特徴ベクトルを用いるものであればその手法は問わない。また、クラスタ数はあらかじめ定めた数とする。例えば、図3(F)では、クラスタ数を4として処理した結果である。以上が、所定の単語集合の単語毎の処理であり、所定の単語集合の全ての単語について同様に処理される。
関連語グループ抽出部130は、単語グループデータベース180から、対象語400に対するグループデータを探し、関連語グループデータベース190へ出力する。例えば、対象語が"ワンピース"であった場合、単語グループデータから、グループデータ名が"ワンピース"である図3(F)のグループデータを探し、関連語グループデータベース180へ出力する。
支持語グループ抽出部140は、単語グループデータベース180から、支持語リスト400に記載の支持語毎にグループデータを探し、支持語グループデータベース200へ出力する。例えば、支持語リストが図4(G)に示すものであるとした場合、この支持語リストは、"洋服"と関連の深い共起語を選択することを意図し、単語の前に"−"が付いている"−アニメ"は"アニメ"と関連の深い共起語を除外することを意図している。この場合、単語グループデータベースから、支持語"洋服"と"アニメ"のグループデータである図4(H)と図4(I)に示すグループデータがグループデータ名から見つかるので、これらを支持語グループデータベース200へ出力する。
支持共起語抽出部150は、支持語リスト500と、支持語グループデータベース200から、支持語との関係の深いグループに属する共起語(支持共起語)と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、支持共起語データベース210へ出力する。例えば、図4(G)に示す支持語リストに記載の"洋服"に対しては、支持語グループデータベース200には、図4(H)の"洋服"のグループデータがあるので、その中から"洋服"との関係の深い共起語のグループのみを抽出する。抽出方法は、各グループに対し、グループに含まれている共起語と支持語との共起頻度を集計し、各グループの共起頻度が高い順に全体割合の累積値を求めたときに、所定の閾値に初めて達したときの該当グループとする。
例えば、図4(H)の各グループの共起語の後述された括弧内の数値が支持語"洋服"と各単語との共起頻度であるので、当該共起頻度をグループ毎に集計(加算)し、全体割合とその累積値を求めると、図4(J)の"洋服"のグループ集計データとなる。なお、図4(H)と図4(J)のグループ番号は対応している。所定の閾値が0.9であった場合、各グループの共起頻度の全体割合の累積が0.99となった時に初めて閾値以上となるので、グループ番号1〜3が該当グループとなる。そして、グループ番号1〜3に属する共起語と支持語との共起頻度を図4(H)のグループデータの共起語に後述された括弧内の数値から求めると、図4(K)が"洋服"との関連が深い単語データとなる。同様に、支持語リストに記載の"−アニメ"に対しては、"−"を除いた支持語"アニメ"のグループデータとして図4(I)があり、グループ毎に集計した図5(L)の"アニメ"のグループ集計データから、"アニメ"との関係の深い共起語グループは、各グループの共起頻度の全体割合の累積が閾値0.94となった時に初めて閾値以上となるので、グループ番号1が該当グループとなる。そして、グループ番号1に属する共起語と支持語との共起頻度を図4(I)のグループデータから求めると図5(M)が"アニメ"との関連が深い単語データとなる。なお、支持語との関係の深いグループに属する共起語を、各グループの共起頻度の全体割合の累積が初めて閾値に達する時の該当グループに属する共起語から求めたが、同様な結果が得られるのであればこの方法に限定されない。
支持語リストに記載されている全ての単語に対して同様の処理を行い、最後に、支持語との関連が深い単語データを集計して、支持語グループデータベース210へ出力する。例えば、支持語リストに記載の"洋服"は、支持語と関連の深い単語の選択に使われるので、対応する図4(K)を加算し、支持語リストに記載の"−アニメ"は先頭の"−"があることから、支持語と関連の深い単語の除外に使われるので、"−"を除いた"アニメ"に対応する図5(M)を減算し、集計した図5(N)の支持語との関連が深い単語データを支持共起語グループデータベース210へ出力する。
関連語抽出部160は、関連語グループデータベース190と支持共起語データベース210から、対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持語との関係の深い共起語を関連語として選択し、関連語データベース600へ出力する。
例えば、関連語グループデータベース180にある図3(F)の"ワンピース"のグループデータのグループ番号4の共起語"通販"に対し、支持共起語データベース210にある図5(N)の支持語との関係が深い単語データには、"通販"の共起頻度が1200である事が分かる。その共起頻度を図3(F)のグループ番号4に加算する。図3(F)の"ワンピース"のグループデータの全ての共起語に対して図5(N)から共起頻度を求め、図3(F)のグループ毎に集計し、支持度の高い順に並べた結果、図5(O)の結果が得られる。次に、図5(O)の支持度の高い順に求めた全体割合の累積から、閾値が所定の値以上に初めて達した際の該当グループを選択する。なお、支持度が負の値のときの全体割合は0としている。所定の閾値が0.9であった場合、図5(O)の全体割合の累積値は1.0の時に初めて閾値以上になるので、グループ番号3と4が該当グループとなり、そのグループに含まれる単語を関連語データとして関連語データベース600へ出力する。
この出力された単語は、支持語との関係の深いものに意味が特定化された対象語の関連語となる。なお、支持語との関係の深いグループに属する共起語を、各グループの共起頻度の全体割合の累積が初めて閾値に達する時の該当グループに属する共起語から求めたが、同様な結果が得られるのであればこの方法に限定されない。
本実施の形態では、例えば、対象語である"ワンピース"から服に関係する関連語のみを抽出したい際に、"ワンピース"の共起語である「服の意味でのワンピースのブランド名」があった場合、共起語をグループ化することで、その単語が服に関係するグループに含まれる。一方、選択対象とする支持語である"洋服"と「服の意味でのワンピースのブランド名」が共起していない場合でも、"洋服"と関連の深い共起語が"ワンピース"の服に関係するグループを支持するので、「服の意味でのワンピースのブランド名」が関連語として抽出できる。
また、本実施の形態では、例えば、対象語である"ワンピース"から服に関係する関連語のみを抽出したい際に、"ワンピース"の共起語である「アニメでの登場人物名」があった場合、共起語をグループ化することで、その単語がアニメに関係するグループに含まれる。一方、除外対象とする支持語である"アニメ"と「アニメでの登場人物名」が共起していない場合でも、"アニメ"と関連の深い共起語が"ワンピース"のアニメに関係するグループを支持しないようにするので、「アニメでの登場人物名」が関連語から除外される。
本実施の形態とは別の方法として、図1の関連グループ抽出部130によって作成された関連語グループデータベース190に対して、選択対象である支持語を含むクラスタを直接求めて、そのクラスタに属する検索語を関連語として選択する方法が考えられる。この方法では、例えば、支持語が"洋服"である場合、図3(F)のワンピースのグループデータのグループ番号4に"洋服"が含まれているとすると、グループ番号4の共起語が関連語として抽出できるが、グループ番号3にも"ファッション"といった洋服と関係のある共起語が抽出できない。一方、本実施の形態では支持語を直接含むか含まないかではなく、支持語の共起語を用いることで、グループ番号3も4も抽出可能な方法となっている。
なお、上記の実施形態では、図1の関連語抽出装置100において、対象語400が1つの単語であったが、対象語400を検索式で表現してもよく、例えば"(ワンピース OR スーツ) AND NOT 春物"というように指定すれば、"ワンピース"の共起語または"スーツ"の共起語であり、"春物"の共起語を除外したものが関連語として抽出される。具体的には、図1の関連語グループ抽出部130で、単語グループデータベース180から"ワンピース"、"スーツ"、"春物"のグループデータを探して、関連語グループデータ190に格納し、関連語抽出部160において、"ワンピース"、"スーツ"、"春物"のグループ集計データを作成し、全体割合の累積が初めて閾値を超えた際の該当グループの共起語をそれぞれ抽出し、最後に"ワンピース"と"スーツ"のいずれかに含まれており、"春物"に含まれているものを除いた共起語を関連語として抽出すればよい。
また、上記の実施形態では、図1の関連語抽出装置100において、支持語リスト500が単語のリストであるが、支持語リスト500を検索式で表現してもよい。例えば"(洋服 OR 服) AND NOT アニメ"というように指定すれば、"洋服"または"服"の共起語であり、"アニメ"の共起語を除外したものが支持共起語として抽出される。具体的には図1の支持語グループ抽出部140で、単語グループデータベース180から"服"、"洋服"、"アニメ"のグループデータを探して、支持語グループデータ200に格納し、支持共起語抽出部150において、"服"、"洋服"、"アニメ"のグループ集計データを作成し、全体割合の累積が初めて閾値を超えた際の該当グループの共起語をそれぞれ抽出し、最後に"服"と"洋服"のいずれかに含まれており、かつ"アニメ"に含まれているものを除いた共起語を支持語として処理すればよい。
また、上記の実施形態では、図1の単語グループ作成部120は、共起単語データベース170を用いて、あらかじめ任意の単語に対する単語グループデータを作成するものであるが、単語グループ作成部120の処理を関連語グループ抽出部130及び支持語グループ抽出部140(もしくは、関連語グループ抽出部130及び支持語グループ抽出部140のいずれか)の中で行うことで、対象語400や支持語リスト500の入力後に逐次的に処理して対象語や支持語の単語グループデータを作成することも可能である。このとき、対象語や支持語の違いもしくは単語毎にクラスタリングの際のクラスタ数を変えてもよい。
また、上記の実施形態では、図1の関連語抽出装置100において、テキスト集合300を入力して処理が行われているが、共起単語データ作成部110や単語グループ作成部120を外部装置の機能として実現し、共起単語データベース170のデータや単語グループデータベース180のデータを外部装置の処理によって作成しておき、それを入力として処理してもよい。
すなわち、例えば、コンピュータにより実現される外部装置が、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成部110を備える。そして、関連語抽出装置100が、外部装置により作成された共起単語データを格納する共起単語データ記憶手段(データベース)と、当該共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成部120と、前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出部130と、前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出部140と、前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出部150と、前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出部160とを備える。
また、他の例として、外部装置が、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成部110と、前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成部120とを備える。そして、関連語抽出装置100が、前記単語グループデータを格納する単語グループ記憶手段と、当該単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出部130と、前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出部140と、前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出部150と、前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出部160とを備える。
なお、これらの場合において、例えば、外部装置と関連語抽出装置100とを通信ネットワークで接続し、当該外部装置で作成されたデータを関連語抽出装置100に通信ネットワークを介して入力する構成をとるようにしてもよい。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100…関連語抽出装置
110…共起単語データ作成部
120…単語グループ作成部
130…関連語グループ抽出部
140…支持語グループ抽出部
150…関連語抽出部
160…共起単語データベース
170…単語グループデータベース
180…関連語グループデータベース
190…支持語グループデータベース
300…テキスト集合
400…対象語
500…支持語リスト
600…関連語データベース

Claims (15)

  1. 単語に対する関連語を抽出する関連語抽出装置であって、
    テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
    前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
    前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
    前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
    前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
    前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と
    を備えたことを特徴とする関連語抽出装置。
  2. 単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
    前記外部装置は、
    テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成手段を備え、
    前記関連語抽出装置は、
    前記外部装置により作成された共起単語データを格納する共起単語データ記憶手段と、
    当該共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
    前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
    前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
    前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
    前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と
    を備えることを特徴とする関連語抽出装置。
  3. 単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
    前記外部装置は、
    テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
    前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成手段と、を備え、
    前記関連語抽出装置は、
    前記外部装置により作成された単語グループデータを格納する単語グループ記憶手段と、
    当該単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
    前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
    前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
    前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と
    を備えることを特徴とする関連語抽出装置。
  4. 前記支持共起語抽出手段において、前記支持語リストの支持語に対して選択か除外かの支持方法を判断する情報が記されており、その情報に基づいて、全ての支持語に対してその共起頻度を集計する際に、選択する支持方法では加算を行い、除外する支持方法では減算を行って集計する
    ことを特徴とする請求項1ないし3のうちいずれか1項に記載の関連語抽出装置。
  5. 前記対象語は検索式の形式で入力され、前記関連語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを抽出し、前記関連語グループデータ記憶手段へ出力し、また、前記関連語抽出手段において、前記検索式に含まれる各単語に対して各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を抽出して、前記検索式の条件を満たした共起語を関連語として選択する
    ことを特徴とする請求項1ないし4のうちいずれか1項に記載の関連語抽出装置。
  6. 前記支持語リストは検索式の形式で入力され、前記支持語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを探し、前記支持語グループデータ記憶手段へ出力し、また、前記支持共起語抽出手段において、前記検索式の条件を満たした共起語を支持共起語として選択する
    ことを特徴とする請求項1ないし5のうちいずれか1項に記載の関連語抽出装置。
  7. 前記単語グループ作成手段の処理を関連語グループ抽出手段及び/又は支持語グループ抽出手段の中で行うことで、前記対象語や前記支持語リストの入力後に逐次的に処理を行って、前記対象語や前記支持語の単語グループデータを作成する
    ことを特徴とする請求項1ないし6のうちいずれか1項に記載の関連語抽出装置。
  8. 単語に対する関連語を抽出する関連語抽出装置が実行する関連語抽出方法であって、
    テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成ステップと、
    前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成ステップと、
    前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出ステップと、
    前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出ステップと、
    前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出ステップと、
    前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出ステップと
    を備えたことを特徴とする関連語抽出方法。
  9. 単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置が実行する関連語抽出方法であって、
    前記外部装置は、
    テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成手段を備え、
    前記関連語抽出方法は、
    前記外部装置により作成された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成ステップと、
    前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出ステップと、
    前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出ステップと、
    前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出ステップと、
    前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出ステップと
    を備えることを特徴とする関連語抽出方法。
  10. 単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置が実行する関連語抽出方法であって、
    前記外部装置は、
    テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
    前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成手段と、を備え、
    前記関連語抽出方法は、
    前記外部装置により作成された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出ステップと、
    前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出ステップと、
    前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出ステップと、
    前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出ステップと
    を備えることを特徴とする関連語抽出方法。
  11. 前記支持共起語抽出ステップにおいて、前記支持語リストの支持語に対して選択か除外かの支持方法を判断する情報が記されており、前記関連語抽出装置は、その情報に基づいて、全ての支持語に対してその共起頻度を集計する際に、選択する支持方法では加算を行い、除外する支持方法では減算を行って集計する
    ことを特徴とする請求項8ないし10のうちいずれか1項に記載の関連語抽出方法。
  12. 前記対象語は検索式の形式で入力され、前記関連語グループ抽出ステップにおいて、前記関連語抽出装置は、当該検索式に含まれる各単語に対するグループデータを抽出し、前記関連語グループデータ記憶手段へ出力し、また、前記関連語抽出ステップにおいて、前記関連語抽出装置は、前記検索式に含まれる各単語に対して各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を抽出して、前記検索式の条件を満たした共起語を関連語として選択する
    ことを特徴とする請求項8ないし11のうちいずれか1項に記載の関連語抽出方法。
  13. 前記支持語リストは検索式の形式で入力され、前記支持語グループ抽出ステップにおいて、前記関連語抽出装置は、当該検索式に含まれる各単語に対するグループデータを探し、前記支持語グループデータ記憶手段へ出力し、また、前記支持共起語抽出ステップにおいて、前記関連語抽出装置は、前記検索式の条件を満たした共起語を支持共起語として選択する
    ことを特徴とする請求項8ないし12のうちいずれか1項に記載の関連語抽出方法。
  14. 前記単語グループ作成の処理を関連語グループ抽出ステップ及び/又は支持語グループ抽出ステップの中で行うことで、前記対象語や前記支持語リストの入力後に逐次的に処理を行って、前記対象語や前記支持語の単語グループデータを作成する
    ことを特徴とする請求項8ないし13のうちいずれか1項に記載の関連語抽出方法。
  15. コンピュータを、請求項1ないし7のうちいずれか1項に記載の関連語抽出装置の各手段として機能させるための関連語抽出プログラム。
JP2011089567A 2011-04-13 2011-04-13 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム Expired - Fee Related JP5542729B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011089567A JP5542729B2 (ja) 2011-04-13 2011-04-13 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011089567A JP5542729B2 (ja) 2011-04-13 2011-04-13 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム

Publications (2)

Publication Number Publication Date
JP2012221431A true JP2012221431A (ja) 2012-11-12
JP5542729B2 JP5542729B2 (ja) 2014-07-09

Family

ID=47272815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011089567A Expired - Fee Related JP5542729B2 (ja) 2011-04-13 2011-04-13 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム

Country Status (1)

Country Link
JP (1) JP5542729B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170177A (ja) * 2014-03-07 2015-09-28 クラリオン株式会社 関連データ生成装置、関連データ生成方法およびプログラム
JP2016133833A (ja) * 2015-01-15 2016-07-25 Kddi株式会社 語義判定装置及びプログラム
JP2019046414A (ja) * 2017-09-07 2019-03-22 日本電信電話株式会社 データ処理装置、データ処理方法及びデータ処理プログラム
JPWO2020235135A1 (ja) * 2019-05-20 2020-11-26
JP7357830B1 (ja) * 2021-11-18 2023-10-06 三菱電機株式会社 文書検索装置、文書検索方法及び文書検索プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306182A (ja) * 1998-04-24 1999-11-05 Fujitsu Ltd 関連語の処理方法及び記録媒体
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2008070991A (ja) * 2006-09-12 2008-03-27 Sanyo Electric Co Ltd 情報検索装置及び情報検索プログラム
JP2009086772A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306182A (ja) * 1998-04-24 1999-11-05 Fujitsu Ltd 関連語の処理方法及び記録媒体
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2008070991A (ja) * 2006-09-12 2008-03-27 Sanyo Electric Co Ltd 情報検索装置及び情報検索プログラム
JP2009086772A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170177A (ja) * 2014-03-07 2015-09-28 クラリオン株式会社 関連データ生成装置、関連データ生成方法およびプログラム
JP2016133833A (ja) * 2015-01-15 2016-07-25 Kddi株式会社 語義判定装置及びプログラム
JP2019046414A (ja) * 2017-09-07 2019-03-22 日本電信電話株式会社 データ処理装置、データ処理方法及びデータ処理プログラム
JPWO2020235135A1 (ja) * 2019-05-20 2020-11-26
JP7320058B2 (ja) 2019-05-20 2023-08-02 株式会社Nttドコモ 対話システム
JP7357830B1 (ja) * 2021-11-18 2023-10-06 三菱電機株式会社 文書検索装置、文書検索方法及び文書検索プログラム

Also Published As

Publication number Publication date
JP5542729B2 (ja) 2014-07-09

Similar Documents

Publication Publication Date Title
Deveaud et al. Accurate and effective latent concept modeling for ad hoc information retrieval
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
US9542477B2 (en) Method of automated discovery of topics relatedness
Muthu et al. A framework for extractive text summarization based on deep learning modified neural network classifier
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN108763496B (zh) 一种基于网格和密度的动静态数据融合客户分类方法
CN105723402A (zh) 用于确定社交数据网络中的影响者的系统和方法
JP5391632B2 (ja) ワードと文書の深さの決定
JP2009093655A (ja) 単語親和度による単語クラスタの識別
Ahmed et al. A literature review on NoSQL database for big data processing
JP5542729B2 (ja) 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
Jovanovic et al. Automated semantic tagging of textual content
CN108241613A (zh) 一种提取关键词的方法及设备
JP4750832B2 (ja) 情報検索方法およびそのシステム
Pablos et al. V3: Unsupervised generation of domain aspect terms for aspect based sentiment analysis
CN117668205B (zh) 智慧物流客服处理方法、系统、设备及存储介质
CN106372122A (zh) 一种基于维基语义匹配的文档分类方法及系统
JP2007219929A (ja) 感性評価システム及び方法
Aletras et al. Labeling topics with images using a neural network
Zada et al. Performance Evaluation of Simple K‐Mean and Parallel K‐Mean Clustering Algorithms: Big Data Business Process Management Concept
Younis et al. Applying machine learning techniques for performing comparative opinion mining
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
Chowdhury et al. Incremental extractive opinion summarization using cover trees
Homocianu et al. An Analysis of Scientific Publications on'Decision Support Systems' and'Business Intelligence'Regarding Related Concepts Using Natural Language Processing Tools

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130924

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140507

R150 Certificate of patent or registration of utility model

Ref document number: 5542729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees