JP2015106361A - Data retrieval system and data retrieval method - Google Patents
Data retrieval system and data retrieval method Download PDFInfo
- Publication number
- JP2015106361A JP2015106361A JP2013249341A JP2013249341A JP2015106361A JP 2015106361 A JP2015106361 A JP 2015106361A JP 2013249341 A JP2013249341 A JP 2013249341A JP 2013249341 A JP2013249341 A JP 2013249341A JP 2015106361 A JP2015106361 A JP 2015106361A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- partial
- notation
- partial character
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、データ検索システムおよびデータ検索方法に関するものであり、具体的には、表記ゆれを含むデータに対する検索処理の網羅性を向上可能とする技術に関する。 The present invention relates to a data search system and a data search method, and more specifically, to a technique that can improve the comprehensiveness of search processing for data including notation fluctuation.
医療情報の電子化が進む中で、蓄積した医療情報を活用し、医療の質の向上や経営改善に役立てる動きが増加している。一方、こうした医療情報を所定の管理システムに登録する際、担当者個人の認識や思考、スキルなど様々な要因により、同じ事象についても異なる表記での登録処理、いわゆる表記ゆれが頻繁に発生している。こうした表記ゆれは、該当医療情報を検索する際の障害となり、医療情報の効率的な二次利用を困難にしている。 With the progress of computerization of medical information, there is an increasing trend to use the accumulated medical information to improve medical quality and improve management. On the other hand, when registering such medical information in a prescribed management system, registration processes with different notation for the same event, so-called notation fluctuations, frequently occur due to various factors such as the individual's personal recognition, thoughts, and skills. Yes. Such notation fluctuation is an obstacle when searching for the corresponding medical information, and makes it difficult to efficiently use the medical information.
上述した表記ゆれに対応して医療情報の利用を行う際の対処方法としては、表記ゆれが生じている各事象について類義語たる各語彙間の対応関係を定義した同義語辞書を利用する方法がある。そうした類義語辞書に関する従来技術としては、例えば以下のような技術が提案されている。すなわち、既存の複数の同義語に共通する文字列パターンを同義語ルールとして抽出し、そのルールとデータベース内の文字列情報を用いて同義語を自動生成する技術(特許文献1参照)である。 As a coping method when using medical information corresponding to the above-mentioned notation fluctuation, there is a method of using a synonym dictionary that defines a correspondence relationship between each vocabulary as synonyms for each event in which the notation fluctuation occurs. . For example, the following techniques have been proposed as conventional techniques related to such a synonym dictionary. That is, this is a technique for extracting a character string pattern common to a plurality of existing synonyms as a synonym rule and automatically generating a synonym using the rule and character string information in a database (see Patent Document 1).
従来技術においては、同義語辞書に既存の同義語間に存在する共通パターンを同義語ルールとして抽出しており、確度の高い同義語を生成している。しかしながら、抽出したルールに基づいて同義語生成を行う手法のため、同義語辞書に1度しか現れない文字列など、共通パターン自体がそもそも存在し得ない文字列については同義語ルールの抽出対象とさえならない。つまり、そうした文字列が、或る事象の語彙に関する同義語として適切であったとしても、該当文字列に紐尽く医療情報は検索対象から排除されることになる。 In the prior art, a common pattern existing between synonyms existing in the synonym dictionary is extracted as a synonym rule, and a synonym with high accuracy is generated. However, since the synonym generation is based on the extracted rule, the synonym rule extraction target is used for a character string that cannot have a common pattern itself, such as a character string that appears only once in the synonym dictionary. I can't even do that. That is, even if such a character string is appropriate as a synonym for the vocabulary of a certain event, the medical information tied to the character string is excluded from the search target.
一方、医薬品の有効性評価や副作用調査など、医学分野のデータ分析を実行する場合、該当する医療情報をデータベースから漏れなく網羅的に抽出することは、分析結果の精度を良好に保つ面で特に重要となる。他方、上述したように表記ゆれの医療情報を抽出できずに評価対象に含めることが出来ない状況となれば、分析結果の精度は自ずと低下せざるをえない。 On the other hand, when performing data analysis in the medical field, such as drug efficacy assessment and side effect investigation, comprehensively extracting relevant medical information from the database without omission is particularly important in terms of maintaining the accuracy of the analysis results. It becomes important. On the other hand, as described above, the accuracy of the analysis result is inevitably lowered if the medical information with the shaking cannot be extracted and cannot be included in the evaluation target.
そこで本発明は上記課題に鑑みて発明されたものであって、表記ゆれを含むデータに対する検索処理の網羅性を向上可能とする技術を提供することにある。 Accordingly, the present invention has been invented in view of the above problems, and it is an object of the present invention to provide a technique capable of improving the comprehensiveness of search processing for data including notation fluctuation.
上記課題を解決する本発明のデータ検索システムは、同一事象を示す複数の表記を対応付けたマスタ情報を、事象毎に記憶した記憶装置と、各事象の前記マスタ情報を記憶装置より読み出し、マスタ情報が含む各表記を構成する文字列を単語に分割して、各事象における各表記の部分文字列を特定する処理と、前記特定した部分文字列の各間について、同一事象に関する各表記での位置に応じて同義関係を判定し、当該判定により同義関係があるとした部分文字列同士を対応付けて記憶装置に格納し部分表記ゆれ辞書を生成する処理と、前記表記の文字列を構成する各部分文字列を前記部分表記ゆれ辞書に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、前記表記の各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、各パターンが示す文字列を前記表記が示す該当事象に対応付けて記憶装置に格納し、表記ゆれ辞書を生成する処理と、入力装置ないし所定端末より検索要求を受け付けて、当該検索要求が示す検索ワードを前記表記ゆれ辞書に照合して、前記検索ワードに対応した事象について登録されたパターンを特定し、当該特定したパターンが示す文字列で所定データベースを検索して、当該検索で抽出した情報を出力装置ないし前記所定端末に出力する処理を実行する演算装置とを備えることを特徴とする。 The data search system of the present invention that solves the above problems includes a storage device that stores, for each event, master information in which a plurality of notations indicating the same event are associated, and reads the master information of each event from the storage device. The character string constituting each notation included in the information is divided into words, the process of specifying the partial character string of each notation in each event, and between each of the specified partial character strings, The synonym relation is determined according to the position, the partial character strings determined to have the synonymous relation are stored in the storage device in association with each other and the partial notation fluctuation dictionary is generated, and the character string of the notation is configured Each partial character string is collated with the partial notation fluctuation dictionary, the other partial character string associated with the corresponding partial character string is specified, and each partial character string obtained with respect to each partial character string of the notation and the corresponding partial character string A combination pattern is generated, a character string indicated by each pattern is stored in a storage device in association with a corresponding event indicated by the notation, a notation fluctuation dictionary is generated, and a search request is accepted from the input device or a predetermined terminal The search word indicated by the search request is collated with the notation fluctuation dictionary, the pattern registered for the event corresponding to the search word is specified, and the predetermined database is searched with the character string indicated by the specified pattern. And an arithmetic unit that executes processing for outputting the information extracted in the search to an output device or the predetermined terminal.
また、本発明のデータ検索方法は、同一事象を示す複数の表記を対応付けたマスタ情報を、事象毎に記憶した記憶装置を備えた情報処理装置が、各事象の前記マスタ情報を記憶装置より読み出し、マスタ情報が含む各表記を構成する文字列を単語に分割して、各事象における各表記の部分文字列を特定する処理と、前記特定した部分文字列の各間について、同一事象に関する各表記での位置に応じて同義関係を判定し、当該判定により同義関係があるとした部分文字列同士を対応付けて記憶装置に格納し部分表記ゆれ辞書を生成する処理と、前記表記の文字列を構成する各部分文字列を前記部分表記ゆれ辞書に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、前記表記の各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、各パターンが示す文字列を前記表記が示す該当事象に対応付けて記憶装置に格納し、表記ゆれ辞書を生成する処理と、入力装置ないし所定端末より検索要求を受け付けて、当該検索要求が示す検索ワードを前記表記ゆれ辞書に照合して、前記検索ワードに対応した事象について登録されたパターンを特定し、当該特定したパターンが示す文字列で所定データベースを検索して、当該検索で抽出した情報を出力装置ないし前記所定端末に出力する処理と、を実行することを特徴とする。 Further, according to the data search method of the present invention, an information processing device including a storage device that stores, for each event, master information in which a plurality of notations indicating the same event are associated is stored in the storage device. Reading, dividing the character string constituting each notation included in the master information into words, specifying the partial character string of each notation in each event, and between each of the specified partial character strings, A process of determining a synonym relationship according to a position in the notation, associating partial character strings that are determined to have a synonym relationship by the determination, storing them in a storage device, and generating a partial notation fluctuation dictionary; and a character string of the notation Are compared with the partial notation fluctuation dictionary, the other partial character strings associated with the corresponding partial character strings are specified, and each partial character string of the notation and each of the obtained partial character strings are obtained. Other parts A combination pattern relating to a character string is generated, a character string indicated by each pattern is stored in a storage device in association with a corresponding event indicated by the notation, and a notation fluctuation dictionary is generated, and a search request is made from an input device or a predetermined terminal The search word indicated by the search request is collated with the notation fluctuation dictionary, the registered pattern for the event corresponding to the search word is specified, and the predetermined database is searched with the character string indicated by the specified pattern. And the process which outputs the information extracted by the said search to an output device thru | or the said predetermined terminal is performed, It is characterized by the above-mentioned.
本発明によれば、表記ゆれを含むデータに対する検索処理の網羅性が向上する。 According to the present invention, the comprehensiveness of search processing for data including notation fluctuation is improved.
−−−システム構成−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態のデータ検索システム100を含むネットワーク構成図である。図1に示すデータ検索システム100は、表記ゆれを含むデータに対する検索処理の網羅性を向上可能とするコンピュータシステムである。このデータ検索システム100は、ネットワーク20を介してユーザ端末200らと結ばれており、ユーザ端末200から送信されてくる検索ワード107を含む検索要求を受信し、これに応じて臨床データ105から抽出したデータを検索結果106として返信する情報処理装置となっている。
--- System configuration ---
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a network configuration diagram including a
本実施形態のデータ検索システム100が検索対象とするのは、一例として医療機関において蓄積された臨床データ105をあげる。ただし、こうした臨床データの他、医療情報全般(例:医療に関する各種検査データ、医療研究機関での実験データ、公的機関等が集計した統計データなど)など、データ数が膨大で、なおかつ同一事象(例:疾病名や検査名、薬名など)について表記ゆれ(例:がん、ガン、癌)が生じやすい様々なデータ群も本実施形態の検索システム100における検索対象となる。
The
ところで医療機関では、検査や疾病といった各事象を示す用語の標準マスタが存在し、電子カルテへの記録やその後の情報活用時などに参照されているが、そのほかにも各医療機関で独自に使用する用語、すなわち表記ゆれと上述の標準マスタとの対応関係をテーブル等で規定している場合が多い。そこで本実施形態においては、医療機関等で用いられる標準マスタや医療機関が独自に作成した上述の対応テーブルにおいて、互いに同義語関係にあると規定された各用語の表記ゆれの情報を活用することで、表記ゆれのパターンを効率的に拡充し、対応する臨床データ105の検索処理における網羅性を向上させるものとする。
By the way, in medical institutions, there is a standard master of terms indicating each event such as examinations and diseases, and it is referred to when recording in electronic medical records and subsequent use of information. In many cases, a table or the like defines the correspondence between the term to be used, that is, the notation fluctuation and the standard master. Therefore, in the present embodiment, in the above-described correspondence table created independently by the standard master used by medical institutions or the like or by the medical institution, information on the notation of each term defined as having a synonym relationship with each other is used. Therefore, it is assumed that the notation fluctuation pattern is efficiently expanded and the comprehensiveness in the search processing of the corresponding
こうしたデータ検索システム100の構成について説明する。図2は本実施形態におけるデータ検索システム100のハードウェア構成例を示す図である。まず、データ検索システム100におけるハードウェア構成は以下の如くとなる。データ検索システム100は、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶装置11、RAMなど揮発性記憶装置で構成されるメモリ13、記憶装置11に保持されるプログラム12をメモリ13に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置14、ネットワーク20と接続し他装置との通信処理を担う通信装置17、を備える。
The configuration of such a
なお、記憶装置11内には、本実施形態のデータ検索システム100として必要な機能を実装する為のプログラム12と、同一事象を示す複数の表記を対応付けたマスタ情報を事象毎に記憶したマスタ情報テーブル101、文字列を成す文字を規定文字種に変換するための変換規則たる正規化ルール104、が少なくとも記憶されている。但し、後述する部分表記ゆれ辞書102および表記ゆれ辞書103が、当該データ検索システム100により生成された以降は、記憶装置11内に部分表記ゆれ辞書102および表記ゆれ辞書103が格納された状態となる。
In the
また、検索対象となる臨床データ105は、データ検索システム100が記憶装置11にて保持するとしてもよいし(必須ではない意味で図2中では破線で示している)、図1に例示するようにネットワーク20を介して接続される他装置においてデータ検索可能に保持されているとしてもよい。また、本実施形態におけるマスタ情報テーブル101としては、医療検査コードに対応する検査名称を規定したマスタ情報を想定するが、これに限定されるものではなく、傷病マスタや薬品マスタなど任意のマスタ情報を想定出来る。
Further, the
図3に、こうしたマスタ情報テーブル101の一例を示す。マスタ情報テーブル101は、複数のレコードからなり、1レコードは1つの検査事象に関する情報を格納している。各レコードは、1つの検査コードと、当該検査コードの検査を示す少なくとも1つの検査名称を格納する。検査名称が複数存在する場合すなわち1つの検査コードに関して複数の同義語が存在する場合、該当検査コードに対応した1レコードにおいては、複数の検査名称が格納される。例えば、図3におけるマスタ情報テーブル101のうちレコード201は、検査コード「1000」に該当する検査名称として「β‐TG」と「b−トロンボグロブリン」の2つの表記が格納されている。なお、マスタ情報テーブル101における各レコードは、上述の項目(検査コード、検査名称)のみ含む場合のみならず、その他の任意の属性に応じた項目(表記ゆれが生じるもの)を含むとしてもよい。
FIG. 3 shows an example of such a master information table 101. The master information table 101 includes a plurality of records, and one record stores information related to one inspection event. Each record stores one inspection code and at least one inspection name indicating the inspection of the inspection code. When a plurality of examination names exist, that is, when a plurality of synonyms exist for one examination code, a plurality of examination names are stored in one record corresponding to the examination code. For example, the
なお、データ検索システム100は、当該データ検索システム100に対する検索要求を、ネットワーク20および通信装置17を介してユーザ端末200から受けるのではなく、当該データ検索システム100がユーザからの検索要求を直接受け付けるとしてもよい。その場合、データ検索システム100は、ユーザからのキー入力や音声入力を受け付ける入力装置15、処理データの表示を行うディスプレイ等の出力装置16を備える(必須ではない意味で図2中では破線で示している)。
The
一方、ユーザ端末200は、図4にて例示するように、データ検索システム100と同様、一般的な情報処理装置としてのハードウェア構成を備えており、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶装置21、RAMなど揮発性記憶装置で構成されるメモリ23、記憶装置21に保持されるプログラム22をメモリ23に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置24、ユーザからのキー入力や音声入力を受け付ける入力装置25、処理データの表示を行うディスプレイ等の出力装置26を備える。このユーザ端末200は、臨床データ105から所望のデータを検索して利用することを望むユーザが操作する端末となる。
On the other hand, as illustrated in FIG. 4, the
続いて、本実施形態のデータ検索システム100が備える機能について説明する。上述したように、以下に説明する機能は、例えばデータ検索システム100が備えるプログラム12を実行することで実装される機能と言える。図2の例では、演算装置14によるプログラム12の実行により、マスタ情報読み込み部111、文字列正規化部112、文字列分割部113、部分表記ゆれ辞書生成部114、表記ゆれ辞書生成部115、表記ゆれパターン生成部116、データ抽出部117が実装された状態となっている。
Next, functions provided in the
データ検索システム100は、各事象のマスタ情報を記憶装置11のマスタ情報テーブル101より読み出し(マスタ情報読み込み部111の機能)、マスタ情報が含む各表記を構成する文字列を単語に分割して、各事象における各表記の部分文字列を特定する機能(文字列分割部113の機能)を備えている。
The
また、データ検索システム100は、上述で特定した部分文字列の各間について、同一事象に関する各表記での位置に応じて同義関係を判定し、当該判定により同義関係があるとした部分文字列同士を対応付けて記憶装置11に格納し部分表記ゆれ辞書102を生成する機能(部分表記ゆれ辞書生成部114の機能)を備えている。
In addition, the
また、データ検索システム100は、上述の表記の文字列を構成する各部分文字列を部分表記ゆれ辞書102に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、上述の表記の各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、各パターンが示す文字列を上述の表記が示す該当事象に対応付けて記憶装置11に格納し、表記ゆれ辞書103を生成する機能(表記ゆれ辞書生成部115の機能)を備えている。
Further, the
また、データ検索システム100は、入力装置15ないしユーザ端末200(所定端末)より検索要求を受け付けて、当該検索要求が示す検索ワードを表記ゆれ辞書103に照合して、検索ワードに対応した事象について登録されたパターンを特定し、当該特定したパターンが示す文字列で臨床データ(所定データベース)105を検索して、当該検索で抽出した情報を出力装置16ないしユーザ端末200に出力する機能(データ抽出部117の機能)を備えている。
Further, the
また、データ検索システム100は、上述の部分文字列を特定する処理に際し、各事象のマスタ情報を記憶装置11のマスタ情報テーブル101より読み出し、マスタ情報が含む各表記を構成する文字列に所定の変換規則たる正規化ルール104を適用し、該当文字列を成す文字を以降の処理に適した規定文字種に変換する正規化処理を実行し(文字列正規化部112の機能)、当該正規化処理後の文字列を単語に分割して、各事象における各表記の部分文字列を特定する機能を備えている。
Further, in the process of specifying the partial character string described above, the
また、データ検索システム100は、表記ゆれ辞書103を生成する処理に際し、上述で生成したパターンが示す、部分文字列と他部分文字列、部分文字列と部分文字列、他部分文字列と他部分文字列、のいずれかの組について、マスタ情報テーブル101での該当文字列の登録状況ないしパターン間での共通性に応じて、該当パターンの信頼性指標となる確度レベルを判定し、当該確度レベルの値を該当パターンに対応付けて表記ゆれ辞書103に登録する機能(表記ゆれ辞書生成部115の機能)を備えている。
In addition, when the
また、データ検索システム100は、上述の検索要求に応じて臨床データ105を検索して情報を出力する処理において、上述の検索要求が示す検索ワードを単語に分割して、部分文字列を特定し、ここで特定した部分文字列を部分表記ゆれ辞書102に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、上述の検索ワードの各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し(表記ゆれパターン生成部116の機能)、当該各パターンが示す文字列で臨床データ105を検索して、当該検索で抽出した情報を出力装置15ないしユーザ端末200に出力する機能を備えている。
Further, in the process of searching the
−−−処理手順例1−−−
以下、本実施形態におけるデータ検索方法の実際手順について図に基づき説明する。以下で説明するデータ検索方法に対応する各種動作は、データ検索システム100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
--- Example of
Hereinafter, the actual procedure of the data search method in the present embodiment will be described with reference to the drawings. Various operations corresponding to the data search method described below are realized by a program that the
図5は、本実施形態におけるデータ検索方法の処理手順例1を示すフロー図である。ここではまず、データ検索システム100が部分表記ゆれ辞書102および表記ゆれ辞書103を生成する処理について説明する。この場合、データ検索システム100におけるマスタ情報読み込み部111は、記憶装置11におけるマスタ情報テーブル101の各レコードをメモリ13に読み込み(s100)、各レコードが含む検査コードと検査名称の各値を抽出する(s101)。図2の例であれば、例えば検査コード「1000」について、検査名称1「β−TG」、および検査名称2「b−トロンボグロブリン」の各値を抽出し、検査コード「1001」について、検査名称1「CKアイソ」、および検査名称2「CKアイソザイム」の各値を抽出する、といった抽出処理をレコード毎に順次実行することになる。
FIG. 5 is a flowchart showing a processing procedure example 1 of the data search method in the present embodiment. Here, first, a process in which the
続いてデータ検索システム100における文字列正規化部112は、上述のステップ100で各レコードから抽出した検査名称の値すなわち文字列に対して、正規化ルール104に基づく文字の変換を実行する(s102)。正規化ルール104の例としては、小文字を大文字に変換、半角文字を全角文字に変換、「」を()に変換、といった文字種の統一化を図るルールを想定する。
Subsequently, the character
次にデータ検索システム100における文字列分割部113は、上述のステップs102で正規化ルール104に沿って文字変換を行った文字列、すなわち検査コードに対応した検査名称を示す各文字列を部分文字列たる要素(以下、要素)に分割する(s103)。本実施形態においては、文字種の違いや所定辞書を利用した既存の形態素解析技術を利用し、文字列を要素ごとに分割することとする。
Next, the character
続いてデータ検索システム100における部分表記ゆれ辞書生成部133は、上述までのステップでの処理対象となっているレコードにおいて、1つの検査事象に対応付けされていた複数の検査名称らを同義語として特定し、該当各検査名称を選出する(s104)。また、部分表記ゆれ辞書生成部113は、上述のステップs104で選出した複数の検査名称間で、該当検査名称に関してステップs103で得ている要素を比較し、一致する要素の有無を判定する(s105)。
Subsequently, the partial notation fluctuation dictionary generation unit 133 in the
例えば、検査名称1「β‐TG」と検査名称2「b‐トロンボグロブリン」がステップs104で選出された場合、部分表記ゆれ辞書生成部113は、各検査名称が含む要素「β」、「‐」、「TG」、「b」、「‐」、「トロンボグロブリン」(これらはステップs103で得ている)のうち一致するものとして「‐」の存在を特定する。
For example, when
こうした判定の結果、複数の検査名称間で一致する要素が存在すると判明した場合(s105:Y)、部分表記ゆれ辞書生成部113は、該当検査名称の文字列のうち、検査名称間で一致する要素の前方の要素集合、および、一致する要素の後方の要素集合をそれぞれ特定する(s106)。上述の例であれば、部分表記ゆれ辞書生成部113は、検査名称1「β‐TG」と検査名称2「b‐トロンボグロブリン」の2つの検査名称に共通する要素「‐」より、検査名称1「β‐TG」については前方の要素たる文字列「β」を、検査名称2「b‐トロンボグロブリン」については前方の要素たる文字列「b」を特定する。また同様に、検査名称1「β‐TG」については後方の文字列「TG」を、検査名称2「b‐トロンボグロブリン」については後方の文字列「トロンボグロブリン」をそれぞれ特定することとなる。なお、少なくとも一方の検査名称における(共通の要素から前方ないし後方の)要素数が0の場合は、該当検査名称に関して以降の処理対象から除外する。
As a result of such determination, when it is found that there is a matching element between a plurality of examination names (s105: Y), the partial notation fluctuation
続いて部分表記ゆれ辞書生成部113は、上述のステップs106で要素集合を特定した各検査名称に関して、その要素数を比較し、検査名称間で要素数が等しくない場合(s107:N)、要素(部分文字列)の統合処理を行って、要素数が多い要素集合(上述の共通の要素より前方ないし後方の要素集合)の要素数を低減することで、上述の検査名称間で要素数を統一する(s108)。部分表記ゆれ辞書生成部113は、どの要素を統合するかを、各要素や、各要素を組み合わせた文字列が部分表記ゆれ辞書102に存在するか否か等により判定する。例えば、「A、B、C」の3つの要素を統合処理によって2つの要素とする場合、各要素「A」、「B」、「C」が部分表記ゆれ辞書102に存在するか、また、要素同士を連結させ、文字列としての連続性を損なわない形とした文字列、例えば、「AB」、「BC」が部分表記ゆれ辞書102に存在するか否か判定する。
Subsequently, the partial notation fluctuation
要素(部分文字列)、あるいは、要素を統合した文字列が部分表記ゆれ辞書102に存在する場合、部分表記ゆれ辞書生成部113は、部分表記ゆれ辞書102に存在する表記を優先する形で要素の統合処理を行う。例えば、文字列「AB」なる表記が部分表記ゆれ辞書102に存在する場合、要素「A」、「B」、「C」のうち要素「A」と要素「B」を統合して「AB」を生成し、この要素「AB」と残りの要素「C」の2つの要素とする。他方、要素や、要素を結合した文字列が部分表記ゆれ辞書102に存在しない場合、部分表記ゆれ辞書生成部113は、要素を連結させた場合に文字列としての連続性を損なわないように、複数の統合パターンを生成する。例えば、「A」、「B」、「C」、「AB」、「BC」、「ABC」がどれも部分表記ゆれ辞書102に存在しない場合、部分表記ゆれ辞書生成部113は、「AB、C」、「A、BC」の2つのパターンを生成し、以降の処理を行う。
When an element (partial character string) or a character string in which elements are integrated exists in the partial
次に部分表記ゆれ辞書生成部113は、上述のステップs108まで得ている各検査名称における要素の位置関係、すなわち、同義語として選出し要素数を統一した各検査名称の間における要素の位置関係を利用して部分表記ゆれを判定し、当該判定により同義関係があるとした要素(共通する要素の前方ないし後方の部分文字列)同士を対応付けて記憶装置11に格納し部分表記ゆれ辞書102を生成する(s109)。当該ステップs109の具体的な説明を行う前に、部分表記ゆれ辞書102について説明する。
Next, the partial notation fluctuation
図6に部分表記ゆれ辞書102の一例を示す。部分表記ゆれ辞書102は、上述の要素に対応する部分文字列と、当該部分文字列のIDと、部分文字列の同義語と判定された他部分文字列(同義部分文字列)の部分文字列IDとを格納している。同義部分文字列の部分文字列IDは、1レコードに少なくとも1つ格納される。例えば、レコード301は、部分文字列「β」に対して、「b」(部分文字列ID「0002」と、「ベータ」(部分文字列ID「0015」)が同義語として判定されたことを意味する。なお、部分表記ゆれ辞書102には、他のマスタ情報を用いて本実施形態のデータ検索方法を実行した結果得られた部分表記ゆれ情報を含んでもよい。
FIG. 6 shows an example of the partial
ステップs109における処理をステップs108で2つの要素集合「AB、C」と「D、E」が得られた場合を例として説明する。この場合、部分表記ゆれ辞書生成部113は、要素集合における各要素の位置関係(例:要素集合中すなわち文字列中における先頭要素同士、あるいは後端要素同士)から「AB」と「D」、「C」と「E」をそれぞれ同義語であると判定し、該当要素に応じた文字列を部分表記ゆれ辞書102に追加する。
The process in step s109 will be described by taking as an example the case where two element sets “AB, C” and “D, E” are obtained in step s108. In this case, the partial notation fluctuation
この時、部分表記ゆれ辞書生成部113は、要素たる部分文字列「AB」ならびに「D」が部分表記ゆれ辞書102に登録されているか判定する。部分表記ゆれ辞書102に当該部分文字列が登録されていない場合、部分表記ゆれ辞書生成部113は、部分表記ゆれ辞書102に当該文字列を登録する。他方、部分表記ゆれ辞書102に当該部分文字列が登録されている場合、部分表記ゆれ辞書生成部113は、同義語関係があると判定した要素たる部分文字列が同義語として登録されているかを判定して、登録処理を行う。例えば、部分表記ゆれ辞書102において、文字列「D」の部分文字列IDが、文字列「AB」の同義語IDとして登録されているかを判定し、登録されていない場合、部分表記ゆれ辞書生成部113は、部分文字列「AB」の同義語IDに文字列「D」の部分文字列IDを追加する。同時に、文字列「AB」の部分文字列IDが文字列「D」の同義語IDとして部分表記ゆれ辞書102にて登録されているかを判定し、登録されていない場合、部分表記ゆれ辞書生成部113は、文字列「D」の同義語IDに文字列「AB」の部分文字列IDを追加する。部分表記ゆれ辞書生成部113は、以上の処理を、同義であると判定された文字列「C」と「E」に対しても行う。
At this time, the partial notation fluctuation
部分表記ゆれ辞書生成部113は、以上のs104〜s109の処理を全ての同義語の組み合わせに対して行う。例えば、同じ検査コードを持つ検査名称が3つ以上の場合は、当該検査名称の集合から2つ選択することで成り立つすべての組み合わせに対して、上述のs104〜s109の処理を実行する。例えば、1レコード中から「TG」、「トリグリセリド」、「中性脂肪」の同じ意味を持つ3つの検査名称が得られる場合、部分表記ゆれ辞書生成部113は、「TG」と「トリグリセリド」、「トリグリセリド」と「中性脂肪」、「TG」と「中性脂肪」の3通りの組み合わせに対してs104〜s109の処理を行う。
The partial notation fluctuation
続いて、データ検索システム100の表記ゆれ辞書生成部115による表記ゆれ辞書103の生成処理について説明する。表記ゆれ辞書生成部115は、部分表記ゆれ辞書102に登録した各要素、すなわち検査名称の文字列を構成する各部分文字列(要素)を、部分表記ゆれ辞書102に照合し、該当部分文字列に対応付けされた他部分文字列、すなわち同義部分文字列IDに対応する要素を特定し、検査名称の各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、各パターンが示す文字列を、該当検査名称に対応する検査コードに対応付けて格納し、表記ゆれ辞書103を生成する。
Next, generation processing of the
ここでは、一例としてマスタ情報テーブル101において同義語とされている「β−TG」と「b−トロンボグロブリン」(以降、これらを対象用語とする)の表記ゆれについてパターン生成を行う例について説明するものとする。表記ゆれ辞書生成部115は、上述の対象用語を構成する部分文字列のIDを部分表記ゆれ辞書102に照合し、対象用語を構成する部分文字列のIDに対応付けられている、同義部分文字列IDを取得する(s110)。例えば、対象用語「β−TG」の部分文字列「β」に着目すると、部分表記ゆれ辞書102にて取得するIDは、「β」の部分文字列IDである「0001」と、この「β」に対応付けされている同義部分文字列IDである「0002」、「0015」、の計3つとなる。同様に、部分文字列「TG」に着目して部分表記ゆれ辞書102にて得られるIDは、「0003」、「0004」、「0039」となる。
Here, as an example, an example will be described in which pattern generation is performed for fluctuations in notation of “β-TG” and “b-thromboglobulin” (hereinafter referred to as target terms) that are synonymous in the master information table 101. Shall. The notation fluctuation
次に、表記ゆれ辞書生成部115は、表記ゆれ辞書103に登録する表記ゆれパターンを生成する(s111)。具体的には、上述の対象用語に関してステップs110で得た、部分文字列IDおよび同義部分文字列IDを可能なだけ組み合わせることで、すべての表記ゆれパターンを作成する。この表記ゆれパターンは、組み合わせた部分文字列IDおよび同義部分文字列IDにそれぞれ対応した各文字列が連結された検査名称となる。すなわち、マスタ情報テーブル101に登録されている既存の検査名称から派生する可能性のある検査名称、をデータ検索システム100において生成することになる。
Next, the notation fluctuation
従って、上述の表記ゆれパターンは、対象用語の各部分文字列に基づいて部分表記ゆれ辞書102から取得した部分文字列IDおよび同義部分文字列IDの数の積だけ作成される。例えば、対象用語を成す部分文字列「β」と部分文字列「TG」に基づいて部分表記ゆれ辞書102にて取得されるIDが、それぞれ3つであった場合、作成される表記ゆれパターンは図8における表601のように「3×3」で9つとなる。対象用語「β−TG」と同義語とされている「b‐トロンボグロブリン」にも同様の処理を行うと、図9の表602のように6つの表記ゆれパターンが作成される。
Therefore, the above-described notation fluctuation pattern is created by the product of the number of partial character string IDs and synonymous partial character string IDs acquired from the partial
続いて表記ゆれ辞書生成部115は、上述のステップ111で得られた表記ゆれパターンの確度レベルを判定し、表記ゆれ辞書103に登録する(s112)。この場合、表記ゆれ辞書生成部115は、上述のステップs111で得た各表記ゆれパターンが示す、対象用語を成す部分文字列とこれの同義部分文字列、対象用語を成す部分文字列同士、対象用語を成す部分文字列に関する同義部分文字列同士、の各組について、マスタ情報テーブル101における登録状況ないし表記ゆれパターン間での共通性に応じて、該当パターンの信頼性指標となる確度レベルを判定し、当該確度レベルの値を該当パターンに対応付けて表記ゆれ辞書103に登録する。
Subsequently, the notation fluctuation
例えば、表記ゆれパターンのうち表601における「0001、0003」に該当する「β‐TG」、同様に、表602における「0002、0004」に該当する「b‐トロンボグロブリン」について、表記ゆれ辞書生成部115は、いずれもマスタ情報テーブル101のレコード中に含まれる名称であることを認識し、表記ゆれ辞書103における該当表記ゆれパターンのレコードにて確度レベル「1」の値を設定する。図10にて、この確度レベル「1」の表記ゆれパターンについて集約した表603を例示している。
For example, a notation fluctuation dictionary is generated for “β-TG” corresponding to “0001, 0003” in Table 601 and “b-thromboglobulin” corresponding to “0002, 0004” in Table 602 among the notation fluctuation patterns. The
また表記ゆれ辞書生成部115は、上述の対象用語に基づいて作成した各表記ゆれパターンのいずれにも存在する表記ゆれパターンについては、表記ゆれ辞書103における該当表記ゆれパターンのレコードにて確度レベル「2」の値を設定する。例えば、「β‐TG」から作成した表記ゆれパターンと、「b‐トロンボグロブリン」から作成した表記ゆれパターンのどちらにも存在する文字列、すなわち「β‐トロンボグロブリン」、「b‐TG」については、確度レベル「2」の値が表記ゆれ辞書103に登録される。図10にて、この確度レベル「2」の表記ゆれパターンについて集約した表604を例示している。
In addition, the notation fluctuation
また、表記ゆれ辞書生成部115は、上述の対象用語に基づいて作成した各表記ゆれパターンのいずれか1つのみに存在する表記ゆれパターンについては、表記ゆれ辞書103における該当表記ゆれパターンのレコードにて確度レベル「3」の値を設定する。例えば、対象用語「β‐TG」と「b‐トロンボグロブリン」から作成した表記ゆれパターンのうち、表601、602にて示すように、「β‐トリグリセリド」や「b‐トリグリセリド」「ベータ‐TG」等、7つの表記ゆれパターンは、対象用語の一方のみについての表記ゆれパターン中にしか存在しないものであるため、それらは、確度レベル「3」となる。図10にて、この確度レベル「3」の表記ゆれパターンについて集約した表605を例示している。
In addition, the notation fluctuation
こうして生成される表記ゆれ辞書103の具体例について図7に示す。図7で例示する本実施形態の表記ゆれ辞書103は、検査コード、検査名称、および確度レベルの3つの属性値を含むレコードの集合体となっている。各レコードは、検査コードと検査名称と確度レベルを1つずつ格納する。上述した確度レベルは、上述のごとく作成した表記ゆれパターンのもっともらしさを示す指標である。本実施形態では、確度として、該当検査名称がマスタ情報テーブル101のレコード中に含まれている(確度レベル1)、マスタ情報テーブル101にて同義語とされている各対象用語から作成した表記ゆれパターンのいずれにも存在する表記ゆれパターン(確度レベル2)、同義語となる対象用語から作成した表記ゆれパターンのいずれか一つにのみ存在する表記ゆれパターン(確度レベル3)の3つの確度レベルを設定している。なお、表記ゆれ辞書103には、他のマスタ情報を用いて本実施形態のデータ検索方法を実行した結果得られた表記ゆれ情報を含んでもよい。また、本実施形態のデータ検索方法以外の手段、例えば、特許文献1の手段を用いて取得した同義語情報を含んでもよい。
A specific example of the
−−−処理手順例2−−−
上記では、部分表記ゆれ辞書102と表記ゆれ辞書103の生成を行う処理までについて説明した。以降では、これら部分表記ゆれ辞書102や表記ゆれ辞書103を適宜利用し、ユーザからの検索要求に応じて網羅的な検索を実行する検索処理、すなわち、臨床データ105から検索ワードに合致するデータだけでなく、検索ワードと同義の用語すなわち表記ゆれに合致するデータをも出力する処理について説明する。図11は、本実施形態におけるデータ検索方法の処理手順例2を示すフロー図である。ここでは、臨床データ105から、「β‐TG」の検査を行った患者の情報を抽出するという検索課題を例として説明する。
--- Processing procedure example 2 ---
The process up to the generation of the partial
この場合、データ検索システム100における文字列正規化部112は、例えばユーザ端末200から受信した検索要求から検索ワード107を取得し、当該検索ワード107に対して正規化ルール104を適用して、上述のステップs102と同様の文字変換処理を行う(s200)。上述の処理手順例1と同様の処理については説明の重複を避けるため詳細は省略する(以下同様)。また、データ検索システム100における文字列分割部113は、上述のステップs200にて文字列正規化部112が正規化した検索ワードに対して、上述のステップs103と同様の文字列分割の処理を行う(s201)。
In this case, the character
また、データ検索システム100における表記ゆれパターン生成部116は、検索ワード107を分割し特定した部分文字列を部分表記ゆれ辞書102に照合し、該当部分文字列に対応付けされた同義部分文字列を特定し、検索ワード107の各部分文字列と該当部分文字列に関して得た同義部分文字列とに関する組み合わせパターンを生成する(s202)。なお、この処理フローにおいて、文字列分割部113と表記ゆれパターン生成部116の各処理は、文字列正規化部112で正規化された検索ワードが表記ゆれ辞書103に含まれる用語であった場合は省略可能である。
Further, the notation fluctuation
続いてデータ検索システム100におけるデータ抽出部117は、上述のステップs200で正規化された検索ワード、ならびに、ステップs202で表記ゆれパターン生成部116で生成された表記ゆれパターンが示す同義語(検索ワード107の同義語)、のそれぞれに基づき、臨床データ105で検索を実行してデータを抽出し、該当データを検索結果としてユーザ端末200に出力する(s203)。例えば、検索ワード107が「β‐TG」であった場合、「β‐TG」そのものと、表記ゆれ辞書103で「β‐TG」をキーに検索して当該「β‐TG」と同じ検査コード「1000」を持つ他の検査名称と、上述のステップs202で得た表記ゆれパターンが示す用語とをそれぞれ検索キーとして臨床データ105にて検索を行い、この検索結果を出力する。
Subsequently, the
なお、上述のデータ抽出部117は、ステップs203の実行に際し、検索ワード107とその同義語の一覧(表記ゆれ辞書103から得たものと、検索ワード107から得たもの)を確度レベルの高い順に検索候補としてユーザ端末200に返し、これを閲覧した検索者に実際に抽出する用語を選択させるとしてもよい。この場合、検索ワード107とその同義語の表示順序や表示範囲は、データ検索システム100側で事前設定するとしてもよいし、検索者がユーザ端末200を介してデータ検索システム100にアクセスして設定するとしてもよい。例えば、マスタ情報テーブル101に登録された用語のみ、マスタ情報テーブル101に登録された用語と高確度の表記ゆれのみ、というように検索候補の表示範囲を設定することで、検索者の希望に合致した効率的な検索を行うことが可能になる。
The above-described
また、データ検索システム100は、検索ワード107として、スペース記号をはさんで複数の検索ワードの組みを受け付けた場合、複数の検索ワードに対してAND検索を行うものとする。例えば、「トリグリセリド LDLコレステロール」なる検索ワード107をユーザ端末200から受信した場合、「トリグリセリド」と「LDLコレステロール」の各ワードについて上述の各ステップs200〜s203を実行し、各ワードのどちらも含むデータを検索結果としてユーザ端末200に返す。
Further, when the
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 Although the best mode for carrying out the present invention has been specifically described above, the present invention is not limited to this, and various modifications can be made without departing from the scope of the invention.
こうした本実施形態によれば、表記ゆれを含む医療情報から分析対象の情報を精度良く抽出する際に効果的な、網羅的な同義語辞書を効率よく構築出来る。また、同義語辞書に登録した同義語の確度(同義語としての確からしさ、妥当性)をユーザに提示することも可能である。こうした同義語辞書を検索処理時に活用できることで、ユーザが指定した検索ワードに基づく同義語を踏まえた検索を実行し、検索結果の網羅性が向上することとなる。なお、同義語辞書に登録した語句であるが実際には存在しない同義語で上述の検索を実行しても、そもそも検索対象となるデータベースには含まれない語句のため、抽出されることがなく、検索結果の正しさに影響を与えない。 According to the present embodiment, it is possible to efficiently construct an exhaustive synonym dictionary that is effective in accurately extracting information to be analyzed from medical information including notation fluctuation. It is also possible to present to the user the accuracy of the synonyms registered in the synonym dictionary (probability and validity as synonyms). Since such a synonym dictionary can be used at the time of search processing, a search based on a synonym based on a search word designated by the user is executed, and the completeness of the search result is improved. Note that even if the above search is performed with synonyms that are registered in the synonym dictionary but do not actually exist, they are not extracted because they are not included in the search target database. , Does not affect the correctness of search results.
したがって本実施形態によれば、表記ゆれを含むデータに対する検索処理の網羅性が向上する。 Therefore, according to the present embodiment, the completeness of search processing for data including notation fluctuation is improved.
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、前記演算装置は、前記部分文字列を特定する処理に際し、各事象の前記マスタ情報を記憶装置より読み出し、マスタ情報が含む各表記を構成する文字列に所定の変換規則を適用し、該当文字列を成す文字を以降の処理に適した規定文字種に変換する正規化処理を実行し、当該正規化処理後の文字列を単語に分割して、各事象における各表記の部分文字列を特定するものである、としてもよい。 At least the following will be clarified by the description of the present specification. That is, in the process of specifying the partial character string, the arithmetic device reads the master information of each event from the storage device, applies a predetermined conversion rule to the character string constituting each notation included in the master information, Executes a normalization process that converts the characters that make up the character string into a standard character type suitable for the subsequent processing, divides the character string after the normalization process into words, and identifies the partial character string of each notation in each event It is good also as what to do.
これによれば、マスタ情報が含む文字列において、大文字と小文字、半角と全角などといった文字種のゆれについて事前に統一すなわち正規化し、以降の部分文字列の特定や、部分表記ゆれ辞書および表記ゆれ辞書の生成等の各処理の精度や効率を向上させることが可能となる。 According to this, in the character string included in the master information, the character type fluctuations such as uppercase and lowercase letters, half-width and full-width are unified in advance, that is, normalized, and the subsequent partial character string identification, partial notation fluctuation dictionary and notation fluctuation dictionary It is possible to improve the accuracy and efficiency of each process such as generation.
また、本実施形態のデータ検索システムにおいて、前記演算装置は、前記ゆれ辞書を生成する処理に際し、前記生成したパターンが示す、部分文字列と他部分文字列、部分文字列と部分文字列、他部分文字列と他部分文字列、のいずれかの組について、前記マスタ情報での登録状況ないしパターン間での共通性に応じて、該当パターンの信頼性指標となる確度レベルを判定し、当該確度レベルの値を該当パターンに対応付けて前記表記ゆれ辞書に登録する処理を更に実行するものである、としてもよい。 Further, in the data search system of the present embodiment, the arithmetic unit, in the process of generating the fluctuation dictionary, shows a partial character string and another partial character string, a partial character string and a partial character string, etc. indicated by the generated pattern. For any pair of partial character string and other partial character string, the accuracy level that is a reliability index of the corresponding pattern is determined according to the registration status in the master information or the commonality between the patterns, and the accuracy It is also possible to further execute a process of associating the level value with the corresponding pattern and registering it in the notation fluctuation dictionary.
これによれば、表記ゆれの中でもその信頼性に差異がある点をユーザに明示し、各検索時の検索結果について確からしさを提示することが出来る。 According to this, it is possible to clearly indicate to the user that there is a difference in reliability among the notation fluctuations, and it is possible to present the certainty about the search results at the time of each search.
また、本実施形態のデータ検索システムにおいて、前記演算装置は、前記検索要求に応じて前記所定データベースを検索して情報を出力する処理において、前記検索要求が示す検索ワードを単語に分割して、部分文字列を特定し、前記特定した部分文字列を前記部分表記ゆれ辞書に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、前記検索ワードの各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、当該各パターンが示す文字列で所定データベースを検索して、当該検索で抽出した情報を出力装置ないし前記所定端末に出力する処理を実行するものである、としてもよい。 Further, in the data search system of the present embodiment, in the process of searching the predetermined database in response to the search request and outputting information, the arithmetic device divides the search word indicated by the search request into words, A partial character string is identified, the identified partial character string is checked against the partial notation fluctuation dictionary, another partial character string associated with the corresponding partial character string is identified, and each partial character string of the search word corresponds to A combination pattern related to each other partial character string obtained with respect to the partial character string is generated, a predetermined database is searched with the character string indicated by each pattern, and information extracted by the search is output to the output device or the predetermined terminal. The process may be executed.
これによれば、検索ワードに関しても表記のゆれを考慮して同義語を生成し、検索ワードのみならずその同義語に関しても検索を実行することが可能となり、検索精度が更に高まることとなる。なお、検索ワードから得た同義語が、検索対象のデータベース中に存在しないものであっても、そうした同義語でデータベースの検索を行った場合、そもそもデータベースには含まれない語句のため、データ抽出がされず、検索結果の正しさに影響が生じることがない。 According to this, it is possible to generate a synonym for the search word in consideration of the fluctuation of the notation, and to execute the search not only for the search word but also for the synonym, and the search accuracy is further improved. Even if the synonym obtained from the search word does not exist in the database to be searched, if the database is searched with such a synonym, the data is extracted because it is not included in the database in the first place. Will not affect the correctness of the search results.
11 記憶装置
12 プログラム
13 メモリ
14 演算装置
17 通信装置
20 ネットワーク
100 データ検索システム
101 マスタ情報テーブル
102 部分表記ゆれ辞書
103 表記ゆれ辞書
104 正規化ルール
105 臨床データ
111 マスタ情報読み込み部
112 文字列正規化部
113 文字列分割部
114 部分表記ゆれ辞書生成部
115 表記ゆれ辞書生成部
116 表記ゆれパターン生成部
117 データ抽出部
200 ユーザ端末
21 記憶装置
22 プログラム
23 メモリ
24 演算装置
25 入力装置
26 出力装置
27 通信装置
DESCRIPTION OF
Claims (5)
各事象の前記マスタ情報を記憶装置より読み出し、マスタ情報が含む各表記を構成する文字列を単語に分割して、各事象における各表記の部分文字列を特定する処理と、
前記特定した部分文字列の各間について、同一事象に関する各表記での位置に応じて同義関係を判定し、当該判定により同義関係があるとした部分文字列同士を対応付けて記憶装置に格納し部分表記ゆれ辞書を生成する処理と、
前記表記の文字列を構成する各部分文字列を前記部分表記ゆれ辞書に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、前記表記の各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、各パターンが示す文字列を前記表記が示す該当事象に対応付けて記憶装置に格納し、表記ゆれ辞書を生成する処理と、
入力装置ないし所定端末より検索要求を受け付けて、当該検索要求が示す検索ワードを前記表記ゆれ辞書に照合して、前記検索ワードに対応した事象について登録されたパターンを特定し、当該特定したパターンが示す文字列で所定データベースを検索して、当該検索で抽出した情報を出力装置ないし前記所定端末に出力する処理を実行する演算装置と、
を備えることを特徴とするデータ検索システム。 A storage device that stores, for each event, master information in which a plurality of notations indicating the same event are associated,
Reading the master information of each event from the storage device, dividing a character string constituting each notation included in the master information into words, and specifying a partial character string of each notation in each event;
For each of the identified partial character strings, a synonym relationship is determined according to the position in each notation relating to the same event, and the partial character strings that are determined to have a synonym relationship are associated with each other and stored in the storage device. Processing to generate a partial notation fluctuation dictionary;
Each partial character string constituting the character string of the notation is collated with the partial notation fluctuation dictionary, the other partial character string associated with the corresponding partial character string is specified, and each partial character string and the corresponding partial character of the notation are specified. Generating a combination pattern related to each other partial character string obtained with respect to the column, storing the character string indicated by each pattern in a storage device in association with the corresponding event indicated by the notation, and generating a notation fluctuation dictionary;
A search request is received from an input device or a predetermined terminal, a search word indicated by the search request is collated with the notation fluctuation dictionary, a pattern registered for an event corresponding to the search word is specified, and the specified pattern is An arithmetic device that executes a process of searching a predetermined database with a character string indicating, and outputting information extracted by the search to an output device or the predetermined terminal;
A data retrieval system comprising:
前記部分文字列を特定する処理に際し、
各事象の前記マスタ情報を記憶装置より読み出し、マスタ情報が含む各表記を構成する文字列に所定の変換規則を適用し、該当文字列を成す文字を以降の処理に適した規定文字種に変換する正規化処理を実行し、当該正規化処理後の文字列を単語に分割して、各事象における各表記の部分文字列を特定するものである、
ことを特徴とする請求項1に記載のデータ検索システム。 The arithmetic unit is:
In the process of specifying the partial character string,
The master information of each event is read from the storage device, and a predetermined conversion rule is applied to a character string constituting each notation included in the master information, and characters constituting the corresponding character string are converted into a prescribed character type suitable for subsequent processing. The normalization process is executed, the character string after the normalization process is divided into words, and the partial character string of each notation in each event is specified.
The data search system according to claim 1.
表記ゆれ辞書を生成する処理に際し、
前記生成したパターンが示す、部分文字列と他部分文字列、部分文字列と部分文字列、他部分文字列と他部分文字列、のいずれかの組について、前記マスタ情報での登録状況ないしパターン間での共通性に応じて、該当パターンの信頼性指標となる確度レベルを判定し、当該確度レベルの値を該当パターンに対応付けて前記表記ゆれ辞書に登録する処理を更に実行するものである、
ことを特徴とする請求項2に記載のデータ検索システム The arithmetic unit is:
In the process of generating the notation fluctuation dictionary,
The registration status or pattern in the master information for any combination of partial character string and other partial character string, partial character string and partial character string, other partial character string and other partial character string, indicated by the generated pattern In accordance with the commonality between them, the accuracy level that becomes the reliability index of the corresponding pattern is determined, and the processing of registering the accuracy level value in the notation fluctuation dictionary in association with the corresponding pattern is further executed. ,
The data search system according to claim 2,
前記検索要求に応じて前記所定データベースを検索して情報を出力する処理において、
前記検索要求が示す検索ワードを単語に分割して、部分文字列を特定し、前記特定した部分文字列を前記部分表記ゆれ辞書に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、前記検索ワードの各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、当該各パターンが示す文字列で所定データベースを検索して、当該検索で抽出した情報を出力装置ないし前記所定端末に出力する処理を実行するものである、
ことを特徴とする請求項3に記載のデータ検索システム。 The arithmetic unit is:
In the process of searching the predetermined database in response to the search request and outputting information,
The search word indicated by the search request is divided into words, a partial character string is specified, the specified partial character string is checked against the partial notation fluctuation dictionary, and another partial character string associated with the corresponding partial character string And generating a combination pattern relating to each partial character string of the search word and each other partial character string obtained with respect to the corresponding partial character string, searching a predetermined database with the character string indicated by each pattern, and performing the search The process of outputting the information extracted in the output device or the predetermined terminal is executed.
The data search system according to claim 3.
各事象の前記マスタ情報を記憶装置より読み出し、マスタ情報が含む各表記を構成する文字列を単語に分割して、各事象における各表記の部分文字列を特定する処理と、
前記特定した部分文字列の各間について、同一事象に関する各表記での位置に応じて同義関係を判定し、当該判定により同義関係があるとした部分文字列同士を対応付けて記憶装置に格納し部分表記ゆれ辞書を生成する処理と、
前記表記の文字列を構成する各部分文字列を前記部分表記ゆれ辞書に照合し、該当部分文字列に対応付けされた他部分文字列を特定し、前記表記の各部分文字列と該当部分文字列に関して得た各他部分文字列とに関する組み合わせパターンを生成し、各パターンが示す文字列を前記表記が示す該当事象に対応付けて記憶装置に格納し、表記ゆれ辞書を生成する処理と、
入力装置ないし所定端末より検索要求を受け付けて、当該検索要求が示す検索ワードを前記表記ゆれ辞書に照合して、前記検索ワードに対応した事象について登録されたパターンを特定し、当該特定したパターンが示す文字列で所定データベースを検索して、当該検索で抽出した情報を出力装置ないし前記所定端末に出力する処理と、
を実行することを特徴とするデータ検索方法。 An information processing apparatus provided with a storage device that stores, for each event, master information in which a plurality of notations indicating the same event are associated,
Reading the master information of each event from the storage device, dividing a character string constituting each notation included in the master information into words, and specifying a partial character string of each notation in each event;
For each of the identified partial character strings, a synonym relationship is determined according to the position in each notation relating to the same event, and the partial character strings that are determined to have a synonym relationship are associated with each other and stored in the storage device. Processing to generate a partial notation fluctuation dictionary;
Each partial character string constituting the character string of the notation is collated with the partial notation fluctuation dictionary, the other partial character string associated with the corresponding partial character string is specified, and each partial character string and the corresponding partial character of the notation are specified. Generating a combination pattern related to each other partial character string obtained with respect to the column, storing the character string indicated by each pattern in a storage device in association with the corresponding event indicated by the notation, and generating a notation fluctuation dictionary;
A search request is received from an input device or a predetermined terminal, a search word indicated by the search request is collated with the notation fluctuation dictionary, a pattern registered for an event corresponding to the search word is specified, and the specified pattern is A process of searching a predetermined database with a character string indicating, and outputting information extracted by the search to an output device or the predetermined terminal;
The data search method characterized by performing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013249341A JP6210865B2 (en) | 2013-12-02 | 2013-12-02 | Data search system and data search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013249341A JP6210865B2 (en) | 2013-12-02 | 2013-12-02 | Data search system and data search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015106361A true JP2015106361A (en) | 2015-06-08 |
JP6210865B2 JP6210865B2 (en) | 2017-10-11 |
Family
ID=53436401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013249341A Expired - Fee Related JP6210865B2 (en) | 2013-12-02 | 2013-12-02 | Data search system and data search method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6210865B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6026036B1 (en) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM |
CN107832442A (en) * | 2017-11-17 | 2018-03-23 | 陆光辉 | A kind of traditional Chinese medicine information query system and method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7031132B2 (en) | 2017-03-27 | 2022-03-08 | ブラザー工業株式会社 | Liquid cartridges and systems |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06162098A (en) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | Near-synonym generation processing method |
JPH06259480A (en) * | 1993-03-10 | 1994-09-16 | Hitachi Ltd | Document retrieving method |
JPH08263508A (en) * | 1995-03-24 | 1996-10-11 | Hitachi Ltd | Document retrieving method |
JPH0999039A (en) * | 1995-10-06 | 1997-04-15 | Hitachi Ltd | Medicine interaction check method |
JP2001125916A (en) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | Information processor |
JP2004133003A (en) * | 2002-10-08 | 2004-04-30 | Mitsubishi Electric Corp | Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus |
JP2006107070A (en) * | 2004-10-05 | 2006-04-20 | Hitachi Ltd | Different notation word generation program and device |
JP2006163710A (en) * | 2004-12-06 | 2006-06-22 | Nec Corp | Program information storage device and method and program information storage program |
JP2008293070A (en) * | 2007-05-22 | 2008-12-04 | Fuji Xerox Co Ltd | Document analysis system, document analysis method and computer program |
JP2008299675A (en) * | 2007-05-31 | 2008-12-11 | Yahoo Japan Corp | Kana mixture notation extracting device, method and program |
JP2009223463A (en) * | 2008-03-14 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | Synonymy determination apparatus, method therefor, program, and recording medium |
JP2010257329A (en) * | 2009-04-27 | 2010-11-11 | Trans Cosmos Inc | Code converting device, code converting method, code converting program, code conversion supporting device, code conversion supporting method, and code conversion supporting program |
JP2012108570A (en) * | 2010-11-15 | 2012-06-07 | Hitachi Ltd | Device and method for extraction of word semantic relation |
-
2013
- 2013-12-02 JP JP2013249341A patent/JP6210865B2/en not_active Expired - Fee Related
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06162098A (en) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | Near-synonym generation processing method |
US5469355A (en) * | 1992-11-24 | 1995-11-21 | Fujitsu Limited | Near-synonym generating method |
JPH06259480A (en) * | 1993-03-10 | 1994-09-16 | Hitachi Ltd | Document retrieving method |
JPH08263508A (en) * | 1995-03-24 | 1996-10-11 | Hitachi Ltd | Document retrieving method |
JPH0999039A (en) * | 1995-10-06 | 1997-04-15 | Hitachi Ltd | Medicine interaction check method |
JP2001125916A (en) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | Information processor |
JP2004133003A (en) * | 2002-10-08 | 2004-04-30 | Mitsubishi Electric Corp | Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus |
JP2006107070A (en) * | 2004-10-05 | 2006-04-20 | Hitachi Ltd | Different notation word generation program and device |
JP2006163710A (en) * | 2004-12-06 | 2006-06-22 | Nec Corp | Program information storage device and method and program information storage program |
JP2008293070A (en) * | 2007-05-22 | 2008-12-04 | Fuji Xerox Co Ltd | Document analysis system, document analysis method and computer program |
JP2008299675A (en) * | 2007-05-31 | 2008-12-11 | Yahoo Japan Corp | Kana mixture notation extracting device, method and program |
JP2009223463A (en) * | 2008-03-14 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | Synonymy determination apparatus, method therefor, program, and recording medium |
JP2010257329A (en) * | 2009-04-27 | 2010-11-11 | Trans Cosmos Inc | Code converting device, code converting method, code converting program, code conversion supporting device, code conversion supporting method, and code conversion supporting program |
JP2012108570A (en) * | 2010-11-15 | 2012-06-07 | Hitachi Ltd | Device and method for extraction of word semantic relation |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6026036B1 (en) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM |
JP2017188025A (en) * | 2016-04-08 | 2017-10-12 | 株式会社Ubic | Data analysis system, control method thereof, program, and recording medium |
CN107832442A (en) * | 2017-11-17 | 2018-03-23 | 陆光辉 | A kind of traditional Chinese medicine information query system and method |
Also Published As
Publication number | Publication date |
---|---|
JP6210865B2 (en) | 2017-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
CN108027823B (en) | Information processing device, information processing method, and computer-readable storage medium | |
US20140344274A1 (en) | Information structuring system | |
EP2523126A2 (en) | Information processing apparatus, information processing method, program, and information processing system | |
US20110040576A1 (en) | Converting arbitrary text to formal medical code | |
CN111401066A (en) | Artificial intelligence-based word classification model training method, word processing method and device | |
US20210183526A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
US10157176B2 (en) | Information processing apparatus and display method | |
JP2010287020A (en) | Synonym translation system and synonym translation method | |
JP2019032704A (en) | Table data structuring system and table data structuring method | |
JP6210865B2 (en) | Data search system and data search method | |
JP5392120B2 (en) | Information processing apparatus, determination program, and determination method | |
US10521507B2 (en) | Information processing apparatus and registration method | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
Varol et al. | Detecting near-duplicate text documents with a hybrid approach | |
Lin et al. | Evaluating Cross-lingual Semantic Annotation for Medical Forms. | |
US11269937B2 (en) | System and method of presenting information related to search query | |
JP2005128961A (en) | Database retrieval device, data retrieval method and program | |
Sondhi et al. | Question processing and clustering in INDOC: a biomedical question answering system | |
JP5630353B2 (en) | Program and information processing apparatus | |
JP2009003731A (en) | Patent retrieval system | |
CN116127053B (en) | Entity word disambiguation, knowledge graph generation and knowledge recommendation methods and devices | |
JP4983397B2 (en) | Document search apparatus, document search method, and computer program | |
US20220382753A1 (en) | Narrowing synonym dictionary results using document attributes | |
JP2011244849A (en) | Similar case search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6210865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |