JP5398663B2 - データ処理装置及びデータ処理方法及びプログラム - Google Patents
データ処理装置及びデータ処理方法及びプログラム Download PDFInfo
- Publication number
- JP5398663B2 JP5398663B2 JP2010177296A JP2010177296A JP5398663B2 JP 5398663 B2 JP5398663 B2 JP 5398663B2 JP 2010177296 A JP2010177296 A JP 2010177296A JP 2010177296 A JP2010177296 A JP 2010177296A JP 5398663 B2 JP5398663 B2 JP 5398663B2
- Authority
- JP
- Japan
- Prior art keywords
- column pair
- analysis target
- target column
- analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ここで、データ統合とは、移行元データベースと移行先データベースにおける、カラム名やデータの配置といった設計情報の差異を解消し、データの移行を実現することである。
このとき、システム間の類似したテーブルや、カラムの対応関係を判別する技術は、スキーママッチング技術と呼ばれる。
スキーママッチング技術の基本的な手法としては、スキーマ情報(カラム名称、型など)・インスタンス情報(単語や値の出現パターンなど)を利用した分析方法がある。
さらに応用的な手法として、複数カラム組間の対応関係を判別することが挙げられる。
ここで、複数カラム組間の対応関係とは、あるカラムの組と、別のカラムの組に対する対応関係を意味する。
上記複数カラム組間の対応関係の1つとして、システム統合の移行元におけるカラム内容(データ)を、ある特定の位置で分割した後、移行先の複数カラムに対応を取る場合が挙げられる。
具体例としては、移行元で電話番号を1つのカラムで取り扱っていたものを、移行先では局番で分割し3つのカラムで扱うといった例、移行元で氏名として1つのカラムで扱っていたものを、移行先で姓と名に分割し2カラムで扱うといった例、等が挙げられる。
相関ルールとは、ある対象Aと対象Bの間の相関関係を示す次の2つの値である。
確信度とは、A選択者がBを選ぶ確率である。
支持度とは、関係の全体においてAとBが同時に出現する確率である。
換言すると、確信度は、対象Aが含まれるレコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
また、支持度は、全レコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
特許文献1による、複数カラム組間の対応判定方法を説明する。
同一テーブル内の2つのカラムに注目したとき、あるカラムを指定した際に、同一テーブル内に存在する別カラムとの間で、相関ルール計算を実施することで、両者の対応関係を判定する。
特許文献1の技術では、例えば、市場調査の目的等のために、相互に別個のカラムであるワインの購入に関するカラムとチーズの購入に関するカラムの支持度及び確信度を計算し、ワインを購入する人がチーズを購入する確率が高い等の相関を抽出している。
しかし、データ統合の場合は、移行元と移行先が存在し、通常対応をとるべきカラム組が別々のテーブルに配置される。
このとき、レコード数は同一であると仮定しても、従来手法では移行元と移行先で、レコードの並び順に関連が無く、独立しているため、相関関係の発見はできない。
例えば、移行元にて「姓」に対応するカラムと、移行先の「名」に対応するカラムを結合して、相関ルール計算を実施したとしても、この結合されたデータは、別々のテーブルに存在していたデータを結合した内容であり、同一レコードに存在するデータではないので特定の関連が必ずしもあるわけではなく、相関ルール計算にて高い値は算出できない可能性が高く、判断は不可能である。
また、特許文献1を用いれば、移行元データの姓:「佐藤」に対しては移行先データの名「一郎」が出現する可能性が高いとの結論が得られるのみであり、移行元データのカラムに対応する移行先データのカラムを抽出することはできない。
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理を実行するカラム対選択処理実行部と、
第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理を実行する第1の出現傾向解析処理実行部と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理を実行する第2の出現傾向解析処理実行部と、
第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理を実行する近似度算出処理実行部とを有することを特徴とする。
図1は、本実施の形態に係るテーブル統合装置の構成例を示す。
図1に示すように、テーブル統合装置1は移行元システム501の移行元データベース502と移行先システム601の移行先データベース602に接続される。
本実施の形態では、移行元データベース502と移行先データベース602はリレーショナルデータベースである。
本実施の形態に係るテーブル統合装置1は、移行元データベース502内の2次元データ(以下、移行元データという)の特定のカラムが、移行先データベース602内の2次元データ(以下、移行先データという)の複数カラムのうちのいずれのカラムと対応関係にあるのかを判定する。
より具体的には、本実施の形態に係るテーブル統合装置1は、移行元データの特定のカラムが保持するデータを分割した内容が、移行先データの複数カラムのうちのいずれのカラムと対応関係にあるのかを判定する。
図14(a)は移行元データを示し、図14(b)は移行先データを示す。
移行元データ、移行先データともに、複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元のデータである。
本実施の形態では、移行元データのシステム管理者のカラムが解析対象となる。
また、移行先データでは、利用者、利用申請者、利用許諾者の各カラムにおいて個人名が示されている。
このため、移行元のシステム管理者のカラムと対応関係にあるカラムが利用者、利用申請者、利用許諾者のいずれであるかを特定する必要がある。
なお、移行先データにおいて、利用者とは、利用申請を行って利用申請が許諾された場合にのみ利用が認められる所定のシステムを実際に利用する者を表す。
利用申請者とは、利用者のために当該システムの利用申請を行った者を表す。利用者本人であってもよい。
利用許諾者とは、当該システムの利用申請に対して利用を許諾した者を表す。
なお、移行元データではシステム管理者の「姓」と「名」が1つのカラムに収容されているが、移行先データでは個人名が「姓」と「名」の異なるカラムに収容されている。
このため、移行先データとの照合のために、移行元データのシステム管理者のカラムは、「姓」を表すカラムと「名」を表すカラムに分割する必要がある。
ここで、カラムとカラムのフィールド値を行単位で連結したものを連結フィールド値という。
例えば、移行元データにおいて分割された後の「姓」を表すカラムと「名」を表すカラムのフィールド値を行単位で連結したもの(例えば、「佐藤」+「一郎」)を連結フィールド値という。
同様に、移行先データの「姓」を表すカラムと「名」を表すカラムのフィールド値を行単位で連結したもの(例えば、「山本」+「一郎」)も連結フィールド値という。
本実施の形態では、移行元データは第1のデータの例であり、移行先データは第2のデータの例である。
データベース接続部20は、図2に示すように、記憶領域16内の接続情報保持部21から接続情報をロードし、移行元システム501における移行元データベース502に接続し、移行先システム601における移行先データベース602に接続する。
そして、データベース定義情報101、インスタンスデータ102、区切り情報103を取得し、取得したデータベース定義情報101を定義情報取得部17に出力し、インスタンスデータ102をデータ取得部18に出力し、区切り情報103を区切り情報取得部19に出力する。
データベース定義情報101は、移行元データ及び移行先データの各々について、例えばカラムの個数、各カラムの属性、各カラムのデータ型等が示されている。
定義情報取得部17がデータベース定義情報101を取得する対象のシステムは、単一システムが複数のデータベースを備える構成であってもよい。
インスタンスデータ102は、移行元データのテーブルに格納されるフィールド値、移行先データのテーブルに格納されるフィールド値である。
なお、データベース接続部20が移行元データベース502、移行先データベース602とネットワークを介して接続していないなどの場合は、インスタンスデータを記録媒体を介してオフラインにて取得してもよい。
本実施の形態では、移行元データのカラムのデータ値を2つに分割する例を説明するので、区切り情報103には、移行元データのカラムのデータ値を2つに分割する際に目印となる区切り文字が示されている。
分割対象のカラムは、例えば、ユーザI/F22を通じてユーザから指定される。
区切り分割部11により分割データ保持部164に格納されるカラム対(2つの仮想カラム)は、移行元データにおいて解析の対象となるカラム対であり、第1の解析対象カラム対の例である。なお、カラム対はカラム組ともいう。
そして、区切り分割部11は、第1の解析対象カラム対を選択する処理を行っており、カラム対選択処理実行部の例である。
より具体的には、相関ルール計算部12は、移行元データの解析対象のカラム対(第1の解析対象カラム対)のインスタンス、すなわち、解析対象のカラム対の各カラムのフィールド値を行単位で連結した連結フィールド値ごとに支持度と確信度を算出する。
支持度及び確信度は、連結フィールド値ごとの出現傾向を表す。
支持度及び確信度をまとめて相関ルールともいう。
また、相関ルール計算部12は、移行先データにおいて解析の対象となるカラム対を1対以上選択する。
本実施の形態では、移行先データに含まれるカラムにおける全種類のカラムの組合せを解析の対象とする。
移行先データにおいて解析の対象となるカラム対は、第2の解析対象カラム対の例である。
そして、相関ルール計算部12は、移行先データの解析対象のカラム対(第2の解析対象カラム対)のインスタンス、すなわち、解析対象のカラム対の各カラムのフィールド値を行単位で連結した連結フィールド値ごとに支持度と確信度を算出する。
移行先データにおける支持度と確信度の算出は、カラム対ごとに行う。
相関ルール計算部12は、第1の出現傾向解析処理実行部と第2の出現傾向解析処理実行部の例である。
より具体的には、相関差分値計算部13は、移行元データのカラム対における連結フィールド値間の支持度の差分を算出する。なお、この移行元データのカラム対における支持度の差分は、第1の支持度1次差分値に相当する。
また、相関差分値計算部13は、移行元データのカラム対における連結フィールド値間の確信度の差分を算出する。なお、この移行元データのカラム対における確信度の差分は、第1の確信度1次差分値に相当する。
相関差分値計算部13は、移行先データについても同様の計算を行う。
つまり、相関差分値計算部13は、移行先データのカラム対ごとに、カラム対における連結フィールド値間の支持度の差分を算出する。なお、この移行先データのカラム対における支持度の差分は、第2の支持度1次差分値に相当する。
また、相関差分値計算部13は、移行先データのカラム対ごとに、カラム対における連結フィールド値間の確信度の差分を算出する。なお、この移行先データのカラム対における確信度の差分は、第2の確信度1次差分値に相当する。
そして、相関差分値計算部13は、このようにして得られた移行元データにおける支持度の差分値(第1の支持度1次差分値)と確信度の差分値(第1の確信度1次差分値)、移行先データにおける支持度の差分値(第2の支持度1次差分値)と確信度の差分値(第2の確信度1次差分値)を相関差分計算結果保持部166に格納する。
相関差分値計算部13は、後述の比較計算部14とともに、近似度算出処理実行部の例である。
より具体的には、比較計算部14は、移行先データのカラム対ごとに、同じ連結フィールド値の組合せから算出された移行元データの支持度の差分値(第1の支持度1次差分値)と移行先データの支持度の差分値(第2の支持度1次差分値)との差分を算出する。なお、この移行元データの支持度の差分値と移行先データの支持度の差分値との差分値は、支持度2次差分値に相当する。
比較計算部14は、確信度についても同様の計算を行う。
つまり、比較計算部14は、移行先データのカラム対ごとに、同じ連結フィールド値の組合せから算出された移行元データの確信度の差分値(第1の確信度1次差分値)と移行先データの確信度の差分値(第2の確信度1次差分値)との差分を算出する。なお、この移行元データの確信度の差分値と移行先データの確信度の差分値との差分値は、確信度2次差分値に相当する。
その後、比較計算部14は、算出した支持度の差分値に対する合算及び商計算、算出した確信度の差分値に対する合算及び商計算を行った後、商計算後の支持度の差分値と商計算後の確信度の差分値を統合する計算を行い、統合結果を比較計算結果保持部167に格納する。
統合結果は、移行先データのカラム対ごとに、移行元データのカラム対における連結フィールド値の出現傾向との近似度を表す。
比較計算部14は、前述の相関差分値計算部13とともに、近似度算出処理実行部の例である。
判定部15は、対応候補抽出処理実行部の例である。
各要素をプログラムとした場合は、図示していないCPU(Central Processing Unit)が各要素のプログラムを実行して、上述の処理が実施される。
図3は、図1に示したテーブル統合装置1の処理概要を示すフローチャートである。
最初に、図3に示すフローチャートに沿ってテーブル統合装置1の処理概要を説明する。
また、データ取得部18は、データベース接続部20を介して、移行元データベース502及び移行先データベース602のデータを取得し、取得データ保持部162に記憶する。
また、区切り情報取得部19は、ユーザI/F22を介してユーザより解析の対象となるカラムの指定を受け、また、データベース接続部20を介して区切り文字の情報を取得し、区切り文字情報保持部163に記憶する。
続いて、区切り分割部11は、取得データ保持部162から移行元データを取得し、ユーザから指定された解析対象のカラム内の文字列(フィールド値)に関して、取得した区切り文字情報の部分で分割し、分割部分を含まない前方部分と後方部分を別々に分割データ保持部164に保存する(カラム対選択処理)。
前述したように、区切り分割部11により分割された後の2つのカラムが第1の解析対象カラム対に相当する。
次に、ステップS4において、比較計算部14は前記の相関差分値計算結果を利用し、移行元と移行先の比較計算を実施する(近似度算出処理)。
出力の方法としては、ファイル出力、モジュールの出力、インタフェース等が想定される。
定義情報取得部17は、データベース接続部20を介して、対象となる表のカラム名・カラム順番を取得し、定義情報保持部161に保存する。
また、データ取得部18は、データベース接続部20を介して、移行元データベース502から移行元データを取得し、また、移行先データベース602から移行先データを取得し、取得データ保持部162に記憶する。
また、区切り情報取得部19は、ユーザI/F22を介してユーザより解析の対象となるカラムの指定を受け、また、データベース接続部20を介して区切り文字の情報を取得する。
続いて、区切り分割部11は、取得データ保持部162から移行元データを取得し、ユーザから指定された解析対象のカラム内の文字列(フィールド値)に関して、取得した区切り文字情報の部分で分割し、分割部分を含まない前方部分と後方部分を別々に分割データ保持部164に保存する。
区切り分割の具体例として、図4に示すように、“ ”(全角スペース)が区切り文字として与えられた場合を考える。
このとき、移行元データ中の「氏名」カラム内に関して、最初に一致する全角スペースを区切りとして、一致した部分の前後部分が、それぞれ別の仮想的なカラムとして保持される。
ここで、相関ルールとは、ある対象Aと対象Bの間の相関関係を次の2つの値にて示す。
確信度:A選択者がBを選ぶ確率
支持度:関係の全体に占める割合(AとBが同時に出現する割合)
前述したように、確信度は、対象Aが含まれるレコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
また、支持度は、全レコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
図中の「佐藤→一郎」という連結フィールド値に対し、カラム全体数5に対し、「佐藤一郎」の組が2つ存在するため、支持度2/5=0.4と算出される。
また、「佐藤→一郎」という連結フィールド値について、「佐藤」の全数4に対し、「一郎」は2つ存在するため、確信度は2/4=0.5と算出される。
相関ルール計算部12は、移行元データについては、解析対象のカラムについてのみ支持度と確信度を計算する。
例えば、図14(a)の移行元データの場合は、システム管理者の氏名を分割した後の2つのカラムにおいて同じ行にあるフィールド値の連結の各々について、支持度と確信度を計算する。
図14(a)の例では、「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」、「鈴木→一郎」の各々について支持度と確信度を計算する。
一方、移行先データについては、相関ルール計算部12は、全ての種類のカラムの組合せについて、同じ行にあるフィールド値の連結の各々について、支持度と確信度を計算する。
例えば、図14(b)の移行元データの場合は、利用者の「姓」のカラムと「名」のカラムの組合せ(「山本→一郎」、「渡辺→三郎」等)、利用申請者の「姓」のカラムと「名」のカラムの組合せ(「太田→実」、「鈴木→順子」等)、利用許諾者の「姓」のカラムと「名」のカラムの組合せ(「佐藤→一郎」、「鈴木→四朗」等)の他、利用者の「姓」のカラムと利用申請者の「名」のカラムの組合せ(「山本→実」、「渡辺→順子」等)、利用者の「姓」のカラムと利用許諾者の「名」のカラムの組合せ(「山本→一郎」、「渡辺→一郎」等)、利用申請者の「姓」のカラムと利用者の「名」のカラムの組合せ(「太田→一郎」、「鈴木→三郎」等)、利用申請者の「姓」のカラムと利用許諾者の「名」のカラムの組合せ(「太田→一郎」、「鈴木→一郎」等)、利用許諾者の「姓」のカラムと利用者の「名」のカラムの組合せ(「佐藤→一郎」、「佐藤→三郎」等)、利用許諾者の「姓」のカラムと利用申請者の「名」のカラムの組合せ(「佐藤→実」、「佐藤→順子」等)についても支持度と確信度を計算する。
図14(b)の移行先データに、例えば、利用日時等のカラムがあれば、利用者の姓と利用日時の値の組合せ(例えば、「山本→2010年7月10日」等)についても支持度と確信度を計算する。
なお、このような組合せは、移行元データの解析対象のカラム(「姓」と「名」の組合せ)と対応関係にないことが明らかなので、移行先データにおいて「姓」と「名」の組合せのみを支持度と確信度の計算の対象とする設定を行ってもよい。
続いて、ステップS202において、分割された前方部分に対応するインスタンスが読み込まれる。
これは、図5(図14(a))の例では「姓」カラムのデータに相当する。
続いてステップS203において、記憶領域との比較が開始され、記憶領域に現時点で読み込んだデータが存在するか確認する。
ステップS205において、読み込んだデータが存在する場合、内部の管理変数を1カウントアップする。
読み込んだデータが存在しない場合、ステップS206において、データを内部記憶領域に登録する。
ここで、データ登録とは、内部記憶領域にデータを登録すると共に、索引となる数を対応させることで、移行のステップにおける検索性能向上につなげるものである。
続いてステップS207〜S211において、後方部分のインスタンスが読み込まれ、前方部分と同様の処理が実施される。
続いて、ステップS212において、全てのインスタンスを読み込んだか判定が成される。全て読み込んでいない場合は、図5(図14(a))での次のレコードにおける読込みが実施される。
具体的には、ステップS202〜S211に対応する、前部分の読み込み、後部分の読み込みが実施される。
分割されたデータの、分割データ保持部164への読込みが完了した場合は、ステップS213〜ステップS217において、読み込んだデータに対する支持度計算・ソートが実施され、続いて相関表形式(図8)にて、相関ルール計算結果保持部165への書出しが実施される。
移行先データについての相関ルール計算は、移行先データに含まれるカラムの組合せごとに、図6に示すフローが実施される。
移行先データについては、作図上の理由から、利用者の「姓」のカラムと「名」のカラムの組合せ(図8の(A))、利用申請者の「姓」のカラムと「名」のカラムの組合せ(図8の(B))、利用許諾者の「姓」のカラムと「名」のカラムの組合せ(図8の(C))のみを表記しているが、実際には、すべてのカラムの組合せについての支持度が含まれる。
また、確信度も図8と同様の形式で管理される。
ステップS3とステップS4では、上記ステップ2において求めた相関ルール計算結果に対し以下の式(1)の演算を実施し、相関比較中間結果を算出する。
なお、以下の式(1)にて、aiは移行元データの相関表のi番目の数値(例:「姓→名」の支持度を降順に並べた際のi番目の支持度の数値)である。
biは、移行先データにおいて、aiに対応する文字列(姓と名の組合せ)と同じ文字列に対する数値である。
例えば、図8の場合は、i=1の場合は、aiは「佐藤→一郎」についての値であり、0.2であり、移行先データについては、1つ目の「姓→名」のカラム対には「佐藤→一郎」は存在せず、biは0であり、2つ目の「姓→名」のカラム対にも「佐藤→一郎」は存在せず、biは0であり、3つ目の「姓→名」のカラム対には「佐藤→一郎」は存在し、biは0.2である。
図7のフローを実行すると、上記の式(1)の演算が行われたことになる。
ステップS301において、相関差分値計算部13は、移行元データの相関計算結果の全体を相関ルール計算結果保持部165より計算可能な形で準備する。
続いて、相関差分値計算部13は、ステップS302において、相関値の組合せに対し、移行元データにおいて差分計算を実施する。
差分計算は、移行元データの行ごとに、他の行との差分値を得る。
例えば、移行元データの相関表が図8の「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」の3行で構成されていると仮定すると、1行目(「佐藤→一郎」)の支持度と2行目(「佐藤→二郎」)の支持度との差分値、2行目(「佐藤→二郎」)の支持度と3行目(「佐藤→三郎」)の支持度との差分値、1行目(「佐藤→一郎」)の支持度と3行目(「佐藤→三郎」)の支持度との差分値が計算される。
また、1行目(「佐藤→一郎」)の確信度と2行目(「佐藤→二郎」)の確信度との差分値、2行目(「佐藤→二郎」)の確信度と3行目(「佐藤→三郎」)の確信度との差分値、1行目(「佐藤→一郎」)の確信度と3行目(「佐藤→三郎」)の確信度との差分値が計算される。
次に、相関差分値計算部13は、ステップS305、S306において、S303で読み出した移行先データの相関表のカラム組の各行において、ステップS304で読み込まれた行の組合せ(例えば、図8の「佐藤→一郎」と「佐藤→二郎」の組合せ)と同じ組合せがあるかどうかを探索し、同じ行の組合せがある場合は、移行先データ側で移行元データと同一の組合せに対し、相関差分値同士の減算を実施する(ステップS307)。
このとき、移行元データについて差分値計算に用いられた行(例えば、図8の「佐藤→一郎」)がS303で読み出された移行先データの相関表には登場しない場合は、当該行については支持度・確信度ともに0を割り当てて差分値計算を行う。
S309の比較計算の詳細は後述する。
ステップS310では、移行先データ側の相関表中のカラム組の全パターンに対し、S303〜S309の読み込み・計算が完了したか判定し、そうでない場合は、別の候補カラム組(例えば、図8の(B):「太田→実」で開始しているカラムと「0.2」で開始しているカラムの組)の各行を読み込む。
全て読み終わった場合は、処理を完了する。
ここでは、図8の相関表が3行で構成されていると仮定して説明を行う。
また、以下では、支持度について説明を行うが、確信度についても同様である。
1番目と2番目の差(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0.1
2番目と3番目の差(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0.05
1番目と3番目の差(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0.15
(A)図8の移行先データにおける(A)のカラム
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0
(B)図8の移行先データにおける(B)のカラム
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0
(C)図8の移行先データにおける(C)のカラム
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0.15
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0.05
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0.2
なお、移行先側計算の(A)及び(B)において、各カラムには「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」のいずれも存在しないので、各々の支持度を0とみなして差分計算を行う。
また、移行先側計算の(C)において、カラムには「佐藤→三郎」は存在しないので、「佐藤→三郎」の支持度を0とみなして差分計算を行う。
すなわち、移行元に存在し移行先に存在しない文字列の値は、0とみなし計算する。
上記の例の具体的な計算結果を示すと以下のようになる。
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=−0.1
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=−0.05
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=−0.15
合計値の絶対値=0.3
商計算値=0.1
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0.05
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0.05
合計値の絶対値=0.1
商計算値≒0.03
さらに支持度、確信度の相関比較中間結果は、比較計算部14により、指定可能な変数αを利用して以下の式により統合される。
統合結果
=α×(支持度の相関比較中間結果)+(1−α)×(確信度の相関比較中間結果)
ただし、統合結果を求める式は別の形式でも良い。
統合結果は、比較計算結果保持部167に保存される。
判定の方法は、例えば、統合結果の算出結果が最も小さい値となった移行先のカラム組を抽出する等がある。
このとき、出力の形態は限定されるものではなく、記憶領域への出力、ファイル出力、画面出力等を想定する。
複数存在する2次元の表集合における、ある一つの注目する第1の表中の1カラムに対して、
指定可能な箇所でカラム内データを分割する区切り分割手段と、
前記分割データ間の相関値として相関ルールを計算する相関ルール計算手段と、
前記相関値集合の、2つの組合せ間で差分値計算を実施する相関差分値計算手段と、
別の注目する第2の表におけるカラム組に対し、カラムが保持するデータ間の相関ルール計算を実施し、さらに相関値集合の2つの組合せ間で相関差分値計算を実施し、上記の相関差分値計算結果を第1の表における結果と比較する比較計算手段と、
上記比較結果を持って、注目カラムが複数カラムに対応するか否かを判定する、複数カラム間の対応判定手段と
を備える、テーブル統合装置を説明した。
前記の表内差分値計算は、前記表1に存在するデータ組と同じ組合せを持つ、前記表2に存在するデータ組合せを比較対象とし、
かつ、表2に存在しないデータは相関値0として差分値計算を実現する相関差分値計算手段
を備えるテーブル統合装置を説明した。
表1と表2の間での表内相関差分値計算の結果を比較する方法として、一方の相関差分値集合から、データ組が同一であるもう一方の相関差分値の差を取り、相関差分値間の差の合計の絶対値を取り、
表1の持つデータ組と表2の持つデータ組の一致した個数で割った値(相関比較中間結果)を比較に利用する比較計算手段
を備えるテーブル統合装置を説明した。
表1と表2の間での相関比較中間結果を利用し、相関値として与えられる支持度と確信度に対し、指定可能な変数αを利用した次の式によって与えられる、
α×(支持度の相関比較中間結果)+(1−α)×(確信度の相関比較中間結果)
を、複数カラム組間対応判定に利用する比較計算手段
を備えるテーブル統合装置を説明した。
上記表2中のカラム組を入力とし、表1中に存在する複数カラムデータを分割した内容と対応するか否かを判定する区切り分割手段と、相関ルール計算手段と、相関差分値計算手段と、比較計算手段と、判定手段を持つテーブル統合装置を説明した。
複数存在する2次元の表集合における、ある一つの注目する第1の表中の1カラムに対して、
指定可能な箇所でカラム内データを分割する区切り分割ステップと、
前記分割データ間の相関値として相関ルールを計算する相関ルール計算ステップと、
前記相関値集合の、2つの組合せ間で差分値計算を実施する相関差分値計算ステップと、
別の注目する第2の表におけるカラム組に対し、カラムが保持するデータ間の相関ルール計算を実施し、さらに相関値集合の2つの組合せ間で相関差分値計算を実施し、上記の相関差分値計算結果を第1の表における結果と比較する比較計算ステップと、
上記比較結果を持って、注目カラムが複数カラムに対応するか否かを判定する、複数カラム間の対応判定ステップと
を備える、テーブル統合方法を説明した。
しかし、移行元データの解析対象のカラムが移行先のカラムと同じ構成である場合、例えば、移行元データ、移行先データのいずれにおいても、「姓」カラムと「名」カラムという構成になっている場合は、移行元データのカラムを分割する必要はない。
図9は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、図1に示す構成に加え、図9に示すように、閾値取得部31、計算対象指定変数取得部32、閾値保持部168、相関差分計算対象指定変数保持部169を持つ。
図9において、図1と同じ符号が用いられている要素は実施の形態1で説明したものと同様であり、説明を省略する。
なお、図9では、図1に示した移行元システム501、移行元データベース502、移行先システム601、移行先データベース602の図示は省略している。
実施の形態1では、判定部15は、統合結果が最も小さい数値となったカラム対が、移行元データのカラムに対応するカラム対の候補として抽出している。
これに対して、本実施の形態では、閾値mの値を可変とし、閾値取得部31がユーザやアプリケーションプログラム等から閾値mの値を取得する。
そして、判定部15は、統合結果の値が取得されたmの値以下の対応候補のカラム対を最小値の統合結果から順に抽出する。
実施の形態1では、移行元データ、移行先データのそれぞれにおいて、全ての行の組合せについて支持度及び確信度の差分値の計算が行われる。
例えば、移行元データ、移行先データともに相関表(図8)に100行あれば、各行について他の99行の各々と支持度及び確信度の差分値の計算が行われる。
これに対して、本実施の形態では、計算対象指定変数取得部32がユーザやアプリケーションプログラム等から変数kの値を取得し、相関差分値計算部13は、取得されたkの値に対応する行数において差分計算を行う。
例えば、k=10であれば、移行元データ、移行先データともに、相関表の1行目については、2〜11行目の各行との間で支持度及び確信度の差分計算が行われ、支持度、確信度のそれぞれに対して10個の差分値が得られる。
同様に、相関表の2行目については、3〜12行目の各行との間で支持度及び確信度の差分計算が行われ、支持度、確信度のそれぞれに対して10個の差分値が得られる。
支持度に対する相関比較中間結果と確信度に対する相関比較中間結果とに対して変数αを用いた計算結果に対し、指定可能な閾値mにより、候補を絞り込む比較計算手段を備えるテーブル統合装置を説明した。
指定可能な変数kを用い、相関値の上位k位までの集合から2つを選ぶ組合せを対象とし、表内相関差分値計算を実施する相関差分値計算手段を備えるテーブル統合装置を説明した。
図11は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、図1に示す構成に加え、図11に示すように、スキーマ情報分析部41とスキーマ情報分析結果保持部170を持つ。
スキーマ情報分析部41では、実施の形態1におけるステップS4の結果に対し、スキーマ情報を用い、カラム名の順序を考慮することで、判定を絞り込む。
つまり、移行先データにおけるカラム対ごとの統合結果の値とともに、移行先データにおけるカラムの配列順序を参照して、対応候補のカラム対を抽出する。
なお、本実施の形態では、判定部15とともに、スキーマ情報分析部41も対応候補抽出処理実行部の例となる。
また、図11において、図1と同じ符号が用いられている要素は実施の形態1で説明したものと同様であり、説明を省略する。
なお、図11では、図1に示した移行元システム501、移行元データベース502、移行先システム601、移行先データベース602の図示は省略している。
つまり、前半部分は「姓」であり、後半部分が「名」であることが定義情報保持部161にて保持される。
図10に、実施の形態3の具体例を示す。
移行元データの「管理者」カラムを分割した「姓」部分と「名」部分のそれぞれにつき、移行先データのカラムA・カラムB・カラムCの中から対応するカラムを決定する必要がある。
ステップS4までの結果から、「管理者」カラムの「姓」部分はカラムBに対応することが判明しているが、「管理者」カラムの「名」部分への対応は判明しなかったとする。
このとき、スキーマ情報分析部41では、「管理者」カラムの分割部分の順番関係を定義情報保持部161から取得し、「姓」「名」の順番関係を把握する。
また、移行先データの順番情報を定義情報保持部161より取得し、比較することで、対応関係を把握する。
図10に示す例では、「姓」が1番目に登場し、「名」が2番目に登場するという情報に基づき、「姓」−「名」の対応は「カラムB」−「カラムC」の対応関係に決定する。
本スキーマ情報分析部41による結果はスキーマ情報分析結果保持部170に格納されると共に、判定部15の入力となる。
判定手段より出力された、複数カラム組間の対応候補の集合を入力とし、
データベース定義情報からカラムの順番情報を取得する定義情報取得手段と、
同カラムの順番情報を利用して、前記複数カラム組間の対応候補集合から、対応候補を一つに決定する、もしくは対応する候補は存在しないことを分析するスキーマ情報分析手段と
を備えるテーブル統合装置を説明した。
図11は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、図11に示すように、単独カラムデータ分析部42と単独カラムデータ分析結果保持部171を持つ。
また、図11において、図1と同じ符号が用いられている要素は実施の形態1で説明したものと同様であり、説明を省略する。
なお、図11では、図1に示した移行元システム501、移行元データベース502、移行先システム601、移行先データベース602の図示は省略している。
本実施の形態では、相関ルール計算部12ととともに、単独カラムデータ分析部42が、第2の出現傾向解析処理実行部の例となる。
図12を元に、具体例を説明する。
単独カラムデータ分析部42は、移行元データのカラムに対し、区切り文字で分割された「姓」カラムに注目する。
そして、単独カラムデータ分析部42は、「姓」カラムに出現するフィールド値のインスタンスごとに出現回数をカウントし、佐藤というインスタンスが10回、田中というインスタンスが9回、というように、出現回数の降順に整理(ソート)する。
続いて、移行先の全カラムに対しても同様に出現回数のカウントとソートが実施される。
最後に、相関ルール計算部12が、上位N個に対し、移行元データと移行先データの登場インスタンス数が一定数以上一致していたら、該当する移行先データのカラムを解析対象として選択する。
図12の例では、移行先データのカラムAとカラムBは解析対象とする一方で、カラムCは解析対象としない。
この後、相関ルール計算部12は、移行先データについて、「姓」のカラムであるカラムAに不図示の「名」のカラムを組み合わせて支持度及び確信度を計算し、また、「姓」のカラムであるカラムBに不図示の「名」のカラムを組み合わせて支持度及び確信度を計算する。
以降の処理手順は、実施の形態1に示した通りであり、説明を省略する。
注目テーブルのカラムに対して、別テーブルのカラムとの対応を、データ内容を比較することによって推測する単独カラムデータ分析手段と、
上記結果を、相関ルール計算にて、相関値計算の対象として利用する相関ルール計算手段と
を備えるテーブル統合装置を説明した。
図13は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、移行先の注目データとして1つのカラム組を入力とし、移行元のデータとして複数のカラムを判定対象とし、移行元のカラム組のデータ内容を結合したものが移行先に存在するか判断するために、図13に示すように、区切り分割部11b、相関ルール計算部12b、相関差分値計算部13b、比較計算部14b、判定部15bを持ち、それぞれの部分にて、移行先の情報1つに対し移行元の複数カラム組を読み込むような機能を備えた機構である。
つまり、実施の形態1では、移行元データには「氏名」のカラムが存在し、移行先データには「姓」カラムと「名」カラムが複数存在している場合に、移行元データの「氏名」カラムを「姓」カラムと「名」カラムに分割し、分割した「姓」カラムと「名」カラムの対に対応する「姓」カラムと「名」カラムの対の候補を移行先データから抽出することを内容としている。
これに対して、実施の形態5では、移行先データには「氏名」のカラムが存在し、移行元データには「姓」カラムと「名」カラムが複数存在している場合に、移行先データの「氏名」カラムを「姓」カラムと「名」カラムに分割し、分割した「姓」カラムと「名」カラムの対に対応する「姓」カラムと「名」カラムの対の候補を移行元データから抽出することを内容としている。
図15は、実施の形態1〜5に示すテーブル統合装置1のハードウェア資源の一例を示す図である。
なお、図15の構成は、あくまでもテーブル統合装置1のハードウェア構成の一例を示すものであり、テーブル統合装置1のハードウェア構成は図15に記載の構成に限らず、他の構成であってもよい。
CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。
更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、SSD(Solid State Drive)、光ディスク装置、メモリカード(登録商標)読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
実施の形態1〜5で説明した「記憶領域16」は、RAM914、磁気ディスク装置920等により実現される。
通信ボード915、キーボード902、マウス903、スキャナ装置907、FDD904などは、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。
プログラム群923のプログラムは、CPU911がオペレーティングシステム921、ウィンドウシステム922を利用しながら実行する。
また、RAM914には、CPU911による処理に必要な各種データが格納される。
テーブル統合装置1の起動時には、ROM913のBIOSプログラム及び磁気ディスク装置920のブートプログラムが実行され、BIOSプログラム及びブートプログラムによりオペレーティングシステム921が起動される。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。
ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出される。
そして、読み出された情報やデータや信号値や変数値やパラメータは、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1〜5で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示す。
データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。
また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
すなわち、実施の形態1〜5で説明したフローチャートに示すステップ、手順、処理により、本発明に係るデータ処理方法を実現することができる。
また、「〜部」、「〜手段」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。
或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。
プログラムはCPU911により読み出され、CPU911により実行される。
すなわち、プログラムは、実施の形態1〜5の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、実施の形態1〜5の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。
そして、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
Claims (14)
- 複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理を実行するカラム対選択処理実行部と、
第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理を実行する第1の出現傾向解析処理実行部と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理を実行する第2の出現傾向解析処理実行部と、
第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理を実行する近似度算出処理実行部とを有することを特徴とするデータ処理装置。 - 前記第1の出現傾向解析処理実行部は、
第1の解析対象カラム対における連結フィールド値ごとに、出現頻度を算出し、
前記第2の出現傾向解析処理実行部は、
第2の解析対象カラム対の各々に対して、第2の解析対象カラム対における連結フィールド値ごとに、出現頻度を算出し、
前記近似度算出処理実行部は、
第1の解析対象カラム対における連結フィールド値ごとの出現頻度の算出値と、第2の解析対象カラム対の各々における連結フィールド値ごとの出現頻度の算出値とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項1に記載のデータ処理装置。 - 前記第1の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第1の解析対象カラム対における連結フィールド値ごとに、支持度及び確信度の少なくともいずれかを算出し、
前記第2の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第2の解析対象カラム対の各々に対して、第2の解析対象カラム対における連結フィールド値ごとに、支持度及び確信度の少なくともいずれかを算出することを特徴とする請求項2に記載のデータ処理装置。 - 前記近似度算出処理実行部は、
第1の解析対象カラム対における連結フィールド値間の算出値の差分を第1の1次差分値として算出し、第1の解析対象カラム対において複数の第1の1次差分値を取得し、
第2の解析対象カラム対ごとに、第2の解析対象カラム対における連結フィールド値間の算出値の差分を第2の1次差分値として算出し、第2の解析対象カラム対ごとに複数の第2の1次差分値を取得し、
第2の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第1の1次差分値と第2の1次差分値との差分を2次差分値として算出し、第2の解析対象カラム対ごとに2次差分値を取得し、
第2の解析対象カラム対ごとに、2次差分値を用いて、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項2又は3に記載のデータ処理装置。 - 前記近似度算出処理実行部は、
第1の解析対象カラム対に存在する連結フィールド値が第2の解析対象カラム対に存在しない場合に、第2の解析対象カラム対における当該連結フィールド値の算出値を0として第2の1次差分値を算出することを特徴とする請求項4に記載のデータ処理装置。 - 前記第1の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第1の解析対象カラム対における連結フィールド値ごとに支持度及び確信度を算出し、
前記第2の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第2の解析対象カラム対の各々に対して、第2の解析対象カラム対における連結フィールド値ごとに支持度及び確信度を算出し、
前記近似度算出処理実行部は、
第1の解析対象カラム対における連結フィールド値間の支持度の差分を第1の支持度1次差分値として算出し、第1の解析対象カラム対において複数の第1の支持度1次差分値を取得し、
第2の解析対象カラム対ごとに、第2の解析対象カラム対における連結フィールド値間の支持度の差分を第2の支持度1次差分値として算出し、第2の解析対象カラム対ごとに複数の第2の支持度1次差分値を取得し、
第2の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第1の支持度1次差分値と第2の支持度1次差分値との差分を支持度2次差分値として算出し、
第1の解析対象カラム対における連結フィールド値間の確信度の差分を第1の確信度1次差分値として算出し、第1の解析対象カラム対において複数の第1の確信度1次差分値を取得し、
第2の解析対象カラム対ごとに、第2の解析対象カラム対における連結フィールド値間の確信度の差分を第2の確信度1次差分値として算出し、第2の解析対象カラム対ごとに複数の第2の確信度1次差分値を取得し、
第2の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第1の確信度1次差分値と第2の確信度1次差分値との差分を確信度2次差分値として算出し、
支持度2次差分値と確信度2次差分値とを用いて、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項4又は5に記載のデータ処理装置。 - 前記近似度算出処理実行部は、
第1の解析対象カラム対において、連結フィールド値ごとに、k(k>1)個の他の連結フィールド値との間でk個の第1の1次差分値を算出し、
第2の解析対象カラム対において、連結フィールド値ごとに、k個の他の連結フィールド値との間でのk個の第2の1次差分値を算出することを特徴とする請求項4〜6のいずれかに記載のデータ処理装置。 - 前記第2の出現傾向解析処理実行部は、
第2のデータに含まれる複数のカラム対における全ての組合せのカラム対を第2の解析対象カラム対として選択することを特徴とする請求項1〜7のいずれかに記載のデータ処理装置。 - 前記第2の出現傾向解析処理実行部は、
第2のデータに含まれる各カラムにおけるフィールド値を解析し、解析結果に基づいて特定数のカラム対を第2の解析対象カラム対として選択することを特徴とする請求項1〜8のいずれかに記載のデータ処理装置。 - 前記カラム対選択処理実行部は、
第1のデータに含まれる特定のカラムを2つに分割し、分割後の2つのカラムを第1の解析対象カラム対として選択することを特徴とする請求項1〜9のいずれかに記載のデータ処理装置。 - 前記データ処理装置は、更に、
前記近似度算出処理実行部により算出された第2の解析対象カラム対ごとの近似度に基づき、第1の解析対象カラム対と対応する関係にある第2の解析対象カラム対の候補の中から指定可能な変数m以下の近似度を持つものを対応候補カラム対として抽出する対応候補抽出処理を実行する対応候補抽出処理実行部を有することを特徴とする請求項1〜10に記載のデータ処理装置。 - 前記対応候補抽出処理実行部は、
第2の解析対象カラム対ごとの近似度とともに、第2のデータにおけるカラムの配列順序を参照して、対応候補カラム対を抽出することを特徴とする請求項11に記載のデータ処理装置。 - 複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、コンピュータが、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理と、
前記コンピュータが、第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、前記コンピュータが、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理と、
前記コンピュータが、第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理とを有することを特徴とするデータ処理方法。 - 複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理と、
第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理と、
第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理とをコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010177296A JP5398663B2 (ja) | 2010-08-06 | 2010-08-06 | データ処理装置及びデータ処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010177296A JP5398663B2 (ja) | 2010-08-06 | 2010-08-06 | データ処理装置及びデータ処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012038066A JP2012038066A (ja) | 2012-02-23 |
JP5398663B2 true JP5398663B2 (ja) | 2014-01-29 |
Family
ID=45850013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010177296A Expired - Fee Related JP5398663B2 (ja) | 2010-08-06 | 2010-08-06 | データ処理装置及びデータ処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5398663B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013128611A1 (ja) * | 2012-03-01 | 2013-09-06 | 株式会社日立製作所 | データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体 |
EP2909746B1 (en) * | 2012-10-22 | 2019-12-18 | Ab Initio Technology LLC | Profiling data with source tracking |
EP3114578A1 (en) | 2014-03-07 | 2017-01-11 | AB Initio Technology LLC | Managing data profiling operations related to data type |
JP6572795B2 (ja) | 2016-02-16 | 2019-09-11 | 富士通株式会社 | 解析装置及び解析プログラム |
US11068540B2 (en) | 2018-01-25 | 2021-07-20 | Ab Initio Technology Llc | Techniques for integrating validation results in data profiling and related systems and methods |
US20240296173A1 (en) * | 2021-01-25 | 2024-09-05 | Nec Corporation | Information processing device, control method, and storage medium |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000353163A (ja) * | 1999-06-11 | 2000-12-19 | Just Syst Corp | データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体 |
JP2002099561A (ja) * | 2000-09-21 | 2002-04-05 | Toshiba Corp | データ変換方法およびデータ変換システム並びに記憶媒体 |
CA2438997A1 (en) * | 2003-08-28 | 2005-02-28 | Ibm Canada Limited - Ibm Canada Limitee | System and method for carrying out legacy application transitions |
JP2006099236A (ja) * | 2004-09-28 | 2006-04-13 | Toshiba Corp | 分類支援装置、分類支援方法及び分類支援プログラム |
JP2006227896A (ja) * | 2005-02-17 | 2006-08-31 | Fuji Xerox Co Ltd | 情報分析装置、情報分析方法およびプログラム |
US8122045B2 (en) * | 2007-02-27 | 2012-02-21 | International Business Machines Corporation | Method for mapping a data source to a data target |
EP1990740A1 (en) * | 2007-05-08 | 2008-11-12 | Sap Ag | Schema matching for data migration |
JP5241370B2 (ja) * | 2008-08-01 | 2013-07-17 | 三菱電機株式会社 | テーブル分類装置、テーブル分類方法及びテーブル分類プログラム |
-
2010
- 2010-08-06 JP JP2010177296A patent/JP5398663B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012038066A (ja) | 2012-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5398663B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
JP4930153B2 (ja) | 文書検索システム、文書番号部分列取得装置、および文書検索方法 | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
JP6042974B2 (ja) | データ管理装置、データ管理方法及び非一時的な記録媒体 | |
MX2012011923A (es) | Asignacion de atributis aplicables para datos que describen la identidad personal. | |
TW200424882A (en) | Database system, terminal device, search database server, search key input support method, and program product | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
JP4832952B2 (ja) | データベース解析システム及びデータベース解析方法及びプログラム | |
JP6242540B1 (ja) | データ変換システム及びデータ変換方法 | |
JP4973503B2 (ja) | ファイル検索プログラム、方法及び装置 | |
US10216792B2 (en) | Automated join detection | |
JP2010507857A (ja) | 高速データベースマッチング | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP5647509B2 (ja) | 重複画像除去時の代表画像の選択方法及びシステム | |
JP2019148859A (ja) | フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法 | |
JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
JP7101946B2 (ja) | 検索システム | |
JP2012043258A (ja) | 検索システム、検索装置、検索プログラム、記録媒体及び検索方法 | |
JP5826148B2 (ja) | 図面管理サーバ及びこれを用いた図面管理システム | |
JP6646699B2 (ja) | 検索装置及び検索方法 | |
WO2020039730A1 (ja) | 検索装置、検索方法及び検索プログラム | |
JP2017207799A (ja) | 検索プログラム、検索方法、検索装置、及び検索システム | |
JP2009146013A (ja) | コンテンツ検索方法及び装置並びにプログラム | |
JP5108642B2 (ja) | ユースケースシナリオ作成支援システム、ユースケースシナリオ作成支援方法、およびユースケースシナリオ作成支援プログラム | |
JP6677624B2 (ja) | 分析装置、分析方法、および分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131022 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |