JP7389330B2 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents
情報処理プログラム、情報処理方法および情報処理装置 Download PDFInfo
- Publication number
- JP7389330B2 JP7389330B2 JP2019195288A JP2019195288A JP7389330B2 JP 7389330 B2 JP7389330 B2 JP 7389330B2 JP 2019195288 A JP2019195288 A JP 2019195288A JP 2019195288 A JP2019195288 A JP 2019195288A JP 7389330 B2 JP7389330 B2 JP 7389330B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- numerical
- unit
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 40
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000012545 processing Methods 0.000 claims description 58
- 238000004458 analytical method Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 description 51
- 230000006870 function Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 29
- 239000000284 extract Substances 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 19
- 239000002131 composite material Substances 0.000 description 19
- 238000007781 pre-processing Methods 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000012041 food component Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、1つの態様では、情報処理装置が提供される。
[第1の実施の形態]
第1の実施の形態を説明する。
情報処理装置10は、ユーザにより入力された入力情報20に応じたデータの検索を行う。検索対象のデータは、情報処理装置10によりアクセス可能な所定の記憶装置(図示を省略している)に格納される。当該記憶装置は、情報処理装置10に内蔵されてもよいし、情報処理装置10の外部に、ネットワークなどを介して接続されてもよい。
ここで、データの検索を行う装置において、位置や量などを表す大体の数値条件を含む自然文が検索クエリとして使用され得る。しかし、自然文解析では、自然文に含まれる数値が特定の文字に置換されたり、単純に固有名詞として扱われたりして、自然文に含まれる数値条件の量的な特徴が検索に反映されないことが多い。このため、入力された自然文内の数値に対してある程度の量の相違を許容するなど、数値条件に対するあいまいさを持たせた検索を行うことが難しい。
次に、第2の実施の形態を説明する。
図2は、第2の実施の形態の情報処理システムの例を示す図である。
サーバ100は、CPU101、RAM102、HDD103、画像信号処理部104、入力信号処理部105、媒体リーダ106およびNIC(Network Interface Card)107を有する。なお、CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。
図4は、サーバの機能例を示す図である。
サーバ100は、記憶部120、学習部130および検索部140を有する。記憶部120としては、RAM102やHDD103の記憶領域が用いられる。学習部130および検索部140は、プログラムにより実現される。
前処理部141は、検索文を受け付けると、検索文に対する前処理を行う。前処理部141は、例えば、正規表現を用いて検索文から数値を抽出し、当該数値を0に置換して、形態素解析により分ち書きを行う。前処理部141は、分ち書きを行うことで、検索文に含まれる名詞や動詞などの単語を抽出する。また、前処理部141は、記憶部120に記憶された単位リスト情報に基づいて、数値と単位とが結合した文字列を1つの単語として検索文から抽出する。
検索画面150は、検索文の入力および検索結果の出力に用いられるGUI(Graphical User Interface)である。検索画面150は、クライアント200のディスプレイまたはサーバ100に接続されたディスプレイ111に表示される。検索画面150は、検索文入力フォーム151および検索ボタン152を有する。
検索結果表示欄153は、サーバ100による検索結果を表示する欄である。例えば、検索結果表示欄153には、検索文入力フォーム151の検索文に対して、中国自動車道の70KPに近い位置に存在する施設の画面に関する文章データへのリンク情報が表示される。
文章データ群121は、記憶部120に記憶される。文章データ群121は、複数の文章データを含む。各文章データは、文章ID(IDentifier)に対応付けられる。各文章データは、画面名、文字情報および数値情報を含む。
サーバ100は、検索文60に対して、文章データ121a~121nとの類似度を算出する。サーバ100は、検索文60と文章データ121a~121nそれぞれとの類似度を、文章類似度および数値類似度に基づいて算出する。
また、サーバ100は、検索文60と文章データ121bとの文章類似度と数値類似度とに基づいて、検索文60と文章データ121bとの類似度Z2を算出する。
図8は、数値類似度の算出例を示す図である。
パラメータAは、同程度とする範囲を表す。例えば、KP単位に対して、検索文の数値の前後20KP程度まで探したい場合には、A=20とする。パラメータAは、標準偏差σが比較的小さい場合に、標準偏差σの代わりに使用される。すなわち、数値類似度算出部144は、式(1)における正規分布曲線の標準偏差σが、該当の単位に対して予め定められた閾値Aよりも小さい場合、当該標準偏差σを、標準偏差σよりも大きい値に補正する。例えば、数値類似度算出部144は、σ<Aのとき、式(1)において、σ=Aとする。パラメータAを用いることで、該当の文章データに含まれる該当の単位の数値が例えば1つの場合でも、ある程度の幅をもたせることができる。
図9は、数値類似度関数の例を示す図である。
図9(A)は、数値類似度関数71を示す。数値類似度関数71は、ある文章データに含まれるある単位の数値が単一の場合を例示する。数値が単一の場合、数値類似度関数71の標準偏差σ1=0<Aとなる。この場合、数値類似度算出部144は、σ1=Aに補正することで、数値類似度関数71で表される分布の幅をσ1=0の場合よりも広げる。
パラメータテーブル122は、記憶部120に記憶される。パラメータテーブル122は、文章ID、単位、平均、標準偏差、パラメータAおよびパラメータBの項目を含む。
図11では、中国自動車道における施設の検索を行う場合を想定する。検索文は、例えば、「中国自動車道の70KP付近のSA/PAはどこか?」である。図11に示されるグラフの横軸は、検索文および文章データにおける文章に含まれるKP単位の数値であり、縦軸は類似度である。
(S10)学習部130は、HDD103またはネットワークなどを介して接続された外部ストレージから文章データを取得し、RAM102の所定の記憶領域にロードする。
次に、検索部140による処理の手順を説明する。
(S20)検索部140は、サーバ100のOSなどによる検索サービスの起動命令に応じて起動する。検索部140は、学習部130により処理済みである全ての文章データのインデックス情報、辞書情報、機械学習モデル、および、数値情報関連パラメータをRAM102の所定の記憶領域にロードする。そして、ステップS21以降の検索部140の各部の処理が開始される。
(S23)前処理部141は、検索要求に含まれる検索文の前処理を行う。前処理部141は、前処理では、例えば、正規表現を用いて検索文から数値を抽出し、当該数値を0に置換して、形態素解析により分ち書きを行う。前処理部141は、分ち書きを行うことで、検索文に含まれる名詞や動詞などの単語を抽出する。また、前処理部141は、記憶部120に記憶された単位リスト情報に基づいて、検索文から数値と単位とが結合した単語を抽出する。前処理のロジックの詳細は、後述される。そして、候補抽出部142は、検索文に対応するインデックス情報と、文章データに対応するインデックス情報とに基づいて、RAM102にロードされた文章データ群から、検索対象の文章データの候補を抽出する。これにより、候補抽出部142は、前処理部141が抽出した単位を含む文章データを候補として抽出する。候補抽出部142は、抽出した文章データの候補を、文章類似度算出部143および数値類似度算出部144に入力する。
ステップS23では、前処理部141は、検索文における単位に関する情報を特定する際に、第1の数値条件に対応付けられた第1の単位および第2の数値条件に対応付けられた第2の単位を特定する。すると、候補抽出部142は、記憶部120に記憶された文章データ群の中から、第1の単位および第2の単位を含む文章データを抽出し得る。
ロジック160は、数値と単位との組を単語化するロジックの例である。ロジック160は、前処理部141の処理の一部に相当する。
例えば、「広島自動車道の11.23KPあたりの施設を見せて」という検索文に対して、ロジック160は、「広島自動車道」、「11.23KP」、「あたり」、「施設」、「見せる」という単語を含む単語リストを応答する。このうち、数値情報「11.23KP」は数値「11.23」と単位「KP」とを結合した単語である。
ロジック170は、数値情報関連パラメータの計算ロジックの例である。ロジック170は、学習部130の処理の一部に相当する。
ロジック170の2行目は、ロジック160により数値情報を含む単語リストを生成する処理を示す。
ロジック170の12行目~13行目は、記憶部120に予め記憶された設定ファイルからパラメータA,Bの値を取得する処理を示す。ここで、図中、パラメータAを変数paで表し、パラメータBを変数pbで表すことがある。
図16は、数値類似度の算出ロジックの例を示す図である。
ロジック180の14行目~17行目は、数値と単位との組み合わせを検索文から検索し、当該組み合わせがあれば、「num_list」に数値情報として追加する処理を示す。
ロジック180の23行目~38行目は、正規分布曲線を利用して、数値情報に基づく数値類似度を算出する処理を示す。特に、ロジック180の36行目は、式(1)に相当する。
ロジック190は、文章類似度と数値類似度との合成ロジックの例である。ロジック190は類似度合成部145の処理の一部に相当する。
ロジック190の3行目~6行目は、自然言語処理による検索文と文章データとの文章類似度を算出する処理を示す。文章類似度を算出する処理には、既存の自然文解析技術を使用できるため、ロジックの記述例の図示を省略する。ロジック190では、文章類似度の計算結果は、変数「dist」に代入される。
検索画面150bは、検索文入力フォーム151a、検索ボタン152および検索結果表示欄153aを有する。
検索画面150cは、検索文入力フォーム151b、検索ボタン152および検索結果表示欄153bを有する。
また、検索文に含まれる数値と文章データに含まれる数値との差の大小に拘わらず、文章データ毎に、数値類似度を算出可能である。
例えば、サーバ100は、位置情報による施設などの検索において、「経度」、「緯度」および「標高」などの複数の種類の単位で表される数値に関するあいまい検索を行うことが考えられる。この場合、サーバ100は、例えば検索文と文章データとの「経度」に関する数値類似度、「緯度」に関する数値類度、および、「標高」に関する数値類度を求め、これら3つの数値類似度から検索文と文章データとの数値類似度を総合評価する。そして、サーバ100は、検索文と文章データとの自然文解析による文章類似度と数値類似度とを合成して、文章データをランキングし、検索結果を出力する。
11 記憶部
12 処理部
20 入力情報
30a1,…,30an 検索対象データ
31a1,…,31an 正規分布曲線
40 検索結果データ
Claims (7)
- 第1の数値と前記第1の数値に関連付けられた単位とを含む検索クエリを受け付けると、前記検索クエリに含まれる前記単位を特定し、
記憶装置に記憶された複数のデータのうち、特定した前記単位を文字列として含む複数の第1データを抽出し、
抽出した前記複数の第1データそれぞれに含まれる、前記単位に関連付けられた数値に基づいて算出した第1データ毎の正規分布曲線から求められる前記第1データ毎の数値類似度関数に前記第1の数値を入力することによって、前記検索クエリと前記第1データとの第1の類似度を前記第1データ毎に算出し、
算出した前記第1の類似度と、自然文解析に基づいて算出した前記検索クエリと前記複数の第1データそれぞれとの間の第2の類似度と、に基づいて、前記検索クエリと前記第1データとの第3の類似度を前記第1データ毎に算出し、前記第1データ毎に算出した前記第3の類似度に基づいて、前記複数の第1データのうちの少なくとも何れかの前記第1データを示す情報を前記検索クエリに対する検索結果として出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。 - 前記コンピュータに更に、前記複数の第1データそれぞれに含まれる前記単位の複数の数値に基づいて、前記第1データ毎に前記正規分布曲線を算出する、
処理を実行させることを特徴とする請求項1記載の情報処理プログラム。 - 前記正規分布曲線の算出では、前記正規分布曲線の標準偏差が、前記単位に対して予め定められた閾値よりも小さい場合、前記標準偏差を、前記閾値以上の所定の値に補正する、
ことを特徴とする請求項2記載の情報処理プログラム。 - 前記単位の特定では、前記単位に加えて、第2の数値に関連付けられた他の単位を前記検索クエリから特定し、
前記複数の第1データの抽出では、前記記憶装置に記憶された複数のデータのうち、特定した前記単位および前記他の単位を文字列として含む前記複数の第1データを抽出し、
前記第1の類似度の算出では、前記第1データ毎の前記数値類似度関数に前記第1の数値を入力することによって得られる、前記第1データ毎の値と、前記複数の第1データそれぞれに含まれる前記他の単位に関連付けられた数値に基づいて算出した前記第1データ毎の他の正規分布曲線から求められる前記第1データ毎の他の数値類似度関数に前記第2の数値を入力することによって得られる、前記第1データ毎の他の値とに基づいて、前記第1の類似度を前記第1データ毎に算出する、
ことを特徴とする請求項1乃至3の何れか一項に記載の情報処理プログラム。 - 前記数値類似度関数は、前記正規分布曲線に予め定められた係数を乗じた関数である、
ことを特徴とする請求項1乃至4の何れか一項に記載の情報処理プログラム。 - コンピュータが、
第1の数値と前記第1の数値に関連付けられた単位とを含む検索クエリを受け付けると、前記検索クエリに含まれる前記単位を特定し、
記憶装置に記憶された複数のデータのうち、特定した前記単位を文字列として含む複数の第1データを抽出し、
抽出した前記複数の第1データそれぞれに含まれる、前記単位に関連付けられた数値に基づいて算出した第1データ毎の正規分布曲線から求められる前記第1データ毎の数値類似度関数に前記第1の数値を入力することによって、前記検索クエリと前記第1データとの第1の類似度を前記第1データ毎に算出し、
算出した前記第1の類似度と、自然文解析に基づいて算出した前記検索クエリと前記複数の第1データそれぞれとの間の第2の類似度と、に基づいて、前記検索クエリと前記第1データとの第3の類似度を前記第1データ毎に算出し、前記第1データ毎に算出した前記第3の類似度に基づいて、前記複数の第1データのうちの少なくとも何れかの前記第1データを示す情報を前記検索クエリに対する検索結果として出力する、
ことを特徴とする情報処理方法。 - 検索対象とする複数のデータを記憶する記憶部と、
第1の数値と前記第1の数値に関連付けられた単位とを含む検索クエリを受け付けると、前記検索クエリに含まれる前記単位を特定し、前記記憶部に記憶された前記複数のデータのうち、特定した前記単位を文字列として含む複数の第1データを抽出し、抽出した前記複数の第1データそれぞれに含まれる、前記単位に関連付けられた数値に基づいて算出した第1データ毎の正規分布曲線から求められる前記第1データ毎の数値類似度関数に前記第1の数値を入力することによって、前記検索クエリと前記第1データとの第1の類似度を前記第1データ毎に算出し、算出した前記第1の類似度と、自然文解析に基づいて算出した前記検索クエリと前記複数の第1データそれぞれとの間の第2の類似度と、に基づいて、前記検索クエリと前記第1データとの第3の類似度を前記第1データ毎に算出し、前記第1データ毎に算出した前記第3の類似度に基づいて、前記複数の第1データのうちの少なくとも何れかの前記第1データを示す情報を前記検索クエリに対する検索結果として出力する処理部と、
を有することを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019195288A JP7389330B2 (ja) | 2019-10-28 | 2019-10-28 | 情報処理プログラム、情報処理方法および情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019195288A JP7389330B2 (ja) | 2019-10-28 | 2019-10-28 | 情報処理プログラム、情報処理方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021068376A JP2021068376A (ja) | 2021-04-30 |
JP7389330B2 true JP7389330B2 (ja) | 2023-11-30 |
Family
ID=75638508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019195288A Active JP7389330B2 (ja) | 2019-10-28 | 2019-10-28 | 情報処理プログラム、情報処理方法および情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7389330B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11705157B2 (en) | 2020-12-28 | 2023-07-18 | Resonac Corporation | Ferroelectric recording medium and ferroelectric storage apparatus |
DE112021007611T5 (de) * | 2021-07-08 | 2024-02-29 | Mitsubishi Electric Corporation | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm |
WO2023188234A1 (ja) * | 2022-03-31 | 2023-10-05 | 日本電気株式会社 | 文書検索システム、文書検索方法および記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067056A (ja) | 1998-08-18 | 2000-03-03 | Nec Corp | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
JP2006323575A (ja) | 2005-05-18 | 2006-11-30 | Oki Electric Ind Co Ltd | 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 |
JP2012146205A (ja) | 2011-01-13 | 2012-08-02 | Nippon Steel Corp | 品質予測装置、操業条件決定方法、品質予測方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06271824A (ja) * | 1993-03-19 | 1994-09-27 | Sekisui Chem Co Ltd | 品種検索システム |
-
2019
- 2019-10-28 JP JP2019195288A patent/JP7389330B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067056A (ja) | 1998-08-18 | 2000-03-03 | Nec Corp | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
JP2006323575A (ja) | 2005-05-18 | 2006-11-30 | Oki Electric Ind Co Ltd | 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 |
JP2012146205A (ja) | 2011-01-13 | 2012-08-02 | Nippon Steel Corp | 品質予測装置、操業条件決定方法、品質予測方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2021068376A (ja) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8903794B2 (en) | Generating and presenting lateral concepts | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP7389330B2 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
US20160098403A1 (en) | Document ranking apparatus, method and computer program | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
CN111611452A (zh) | 搜索文本的歧义识别方法、系统、设备及存储介质 | |
US20190155913A1 (en) | Document search using grammatical units | |
KR20190118744A (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
Shah et al. | Literature study on multi-document text summarization techniques | |
JP5226241B2 (ja) | タグを付与する方法 | |
WO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
CN110851560A (zh) | 信息检索方法、装置及设备 | |
JP6555810B2 (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
JP2020071678A (ja) | 情報処理装置、制御方法、プログラム | |
JP2015036892A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP2009146013A (ja) | コンテンツ検索方法及び装置並びにプログラム | |
CN112650951A (zh) | 一种企业相似度匹配方法、系统和计算装置 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
CN114930316A (zh) | 透明迭代多概念语义搜索 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7389330 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |