JP4247108B2 - 構造化文書検索方法、構造化文書検索装置、及びプログラム - Google Patents
構造化文書検索方法、構造化文書検索装置、及びプログラム Download PDFInfo
- Publication number
- JP4247108B2 JP4247108B2 JP2003430598A JP2003430598A JP4247108B2 JP 4247108 B2 JP4247108 B2 JP 4247108B2 JP 2003430598 A JP2003430598 A JP 2003430598A JP 2003430598 A JP2003430598 A JP 2003430598A JP 4247108 B2 JP4247108 B2 JP 4247108B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- document
- template
- text
- tag name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
Claims (9)
- (a)ドキュメントノード、該ドキュメントノードに含まれる要素ノード、及び要素ノードの値であるテキストを含むテキストノードを含む複数のノードからなる階層構造と、(b)各ノードに対し、ドキュメントノード、要素ノード、及びテキストノードのうち該ノードに対応する種別、及び前記階層構造中での該ノードの位置を示すテンプレートIDと、(c)前記複数のノードのうちドキュメントノード、及び要素ノードには、そのタグ名と、を記憶する第1の記憶手段と、
前記階層構造中のドキュメントノード、要素ノード、及びテキストノードのうちのいずれか1つにそれぞれ対応する複数の構成要素を含む構造化文書であって、各構成要素は、前記階層構造中での該構成要素に対応する前記テンプレートIDと、該構成要素を含む構造化文書を識別するための文書IDと、該構成要素を含む構造化文書中の該構成要素を識別するための要素IDとを含むオブジェクトIDをもつ複数の前記構造化文書を記憶する第2の記憶手段と、
文字列と、該文字列を含むテキストノードである構成要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記階層構造中の前記複数のノードのうちの少なくとも1つのノードのタグ名と、該ノードに含まれる文字列とを含む問い合わせデータを入力する入力手段と、
前記問い合わせデータを基に、前記第2の記憶手段から構造化文書を検索する検索手段と、
を含む構造化文書検索装置における構造化文書検索方法であって、
前記入力手段が、前記階層構造中の前記複数のノードのうちの1つである第1ノードのタグ名と、前記第1ノードに含まれる第2ノードのタグ名と、前記第2ノードに含まれる文字列とを含む問い合わせデータを入力する入力ステップと、
前記検索手段が、前記第1の記憶手段に記憶されている前記階層構造から、前記問い合わせデータ中の前記第2ノードのタグ名と同じタグ名のノードに含まれる前記テキストノードに対応する第1テンプレートIDと、前記問い合わせデータ中の前記第1ノードのタグ名と同じタグ名のノードに対応する第2テンプレートIDを得る照合ステップと、
前記検索手段が、前記索引データ記憶手段から、前記問い合わせデータ中の前記文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDを検索する第1検索ステップと、
前記検索手段が、前記第2テンプレートIDの種別が前記ドキュメントノードであるとき、前記第1オブジェクトIDに含まれている前記第1テンプレートIDを、前記第2テンプレートIDに変換し、前記第1オブジェクトIDに含まれる要素IDを前記ドキュメントノードに対し予め定められている要素IDに変換することにより、前記第1オブジェクトIDに含まれる文書IDと、前記ドキュメントノードに対し予め定められている要素IDと、前記第2テンプレートIDとを含む第2オブジェクトIDを求める第2検索ステップと、
を含む構造化文書検索方法。 - 前記第2検索ステップは、
前記第2テンプレートIDの種別が前記要素ノードであるとき、前記検索手段が、前記第2の記憶手段に記憶されている前記複数の構造化文書のうち、前記第1オブジェクトIDに含まれている前記文書IDをもつ構造化文書中から、前記第1オブジェクトIDをもつ構成要素の上流にあり、かつ前記第2テンプレートIDを含む第2オブジェクトIDをもつ構成要素を検索する請求項1記載の構造化文書検索方法。 - (a)ドキュメントノード、該ドキュメントノードに含まれる要素ノード、及び要素ノードの値であるテキストを含むテキストノードを含む複数のノードからなる階層構造と、(b)各ノードに対し、ドキュメントノード、要素ノード、及びテキストノードのうち該ノードに対応する種別、及び前記階層構造中での該ノードの位置を示すテンプレートIDと、(c)前記複数のノードのうちドキュメントノード、及び要素ノードには、そのタグ名と、を記憶する第1の記憶手段と、
前記階層構造中のドキュメントノード、要素ノード、及びテキストノードのうちのいずれか1つにそれぞれ対応する複数の構成要素を含む構造化文書であって、各構成要素は、前記階層構造中での該構成要素に対応する前記テンプレートIDと、該構成要素を含む構造化文書を識別するための文書IDと、該構成要素を含む構造化文書中の該構成要素を識別するための要素IDとを含むオブジェクトIDをもつ複数の前記構造化文書を記憶する第2の記憶手段と、
文字列と、該文字列を含むテキストノードである構成要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記階層構造中の前記複数のノードのうちの少なくとも1つのノードのタグ名と、該ノードに含まれる文字列とを含む問い合わせデータを入力する入力手段と、
前記問い合わせデータを基に、前記第2の記憶手段から構造化文書を検索する検索手段と、
を含む構造化文書検索装置における構造化文書検索方法であって、
前記入力手段が、前記階層構造中の検索対象のドキュメントノードのタグ名と、前記検索対象のドキュメントノードに含まれる要素ノードである第1要素ノード及び第2要素ノードのそれぞれのタグ名と、前記第1要素ノードに含まれる第1文字列と、前記第2要素ノードに含まれる第2文字列と、を含む問い合わせデータを入力する入力ステップと、
前記検索手段が、前記第1の記憶手段に記憶されている前記階層構造から、前記問い合わせデータ中の前記第1要素ノードのタグ名と同じタグ名のノードに含まれるテキストノードに対応する第1テンプレートIDと、前記第2要素ノードのタグ名と同じタグ名のノードに含まれるテキストノードに対応する第2テンプレートIDと、前記問い合わせデータ中の前記検索対象のドキュメントノードのタグ名と同じタグ名のノードに対応する第3テンプレートIDを得る照合ステップと、
前記検索手段が、前記索引データ記憶手段から、前記問い合わせデータ中の前記第1文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDと、前記問い合わせデータ中の前記第2文字列にリンクされ、かつ前記第2テンプレートIDを含むオブジェクトIDである第2オブジェクトIDとを検索する第1検索ステップと、
前記検索手段が、前記第1オブジェクトID及び前記第2オブジェクトIDに含まれる共通の文書IDと、前記ドキュメントノードに対し予め定められている要素IDと、前記第3テンプレートIDとを含む第3オブジェクトIDを求める第2検索ステップと、
前記検索手段が、前記複数の構造化文書のうち、前記第1オブジェクトID、前記第2オブジェクトID及び前記第3オブジェクトIDに含まれる前記共通の文書IDを有する構造化文書を出力する出力ステップと、
を含む構造化文書検索方法。 - (a)ドキュメントノード、該ドキュメントノードに含まれる要素ノード、及び要素ノードの値であるテキストを含むテキストノードを含む複数のノードからなる階層構造と、(b)各ノードに対し、ドキュメントノード、要素ノード、及びテキストノードのうち該ノードに対応する種別、及び前記階層構造中での該ノードの位置を示すテンプレートIDと、(c)前記複数のノードのうちドキュメントノード、及び要素ノードには、そのタグ名と、を記憶する第1の記憶手段と、
前記階層構造中のドキュメントノード、要素ノード、及びテキストノードのうちのいずれか1つにそれぞれ対応する複数の構成要素を含む構造化文書であって、各構成要素は、前記階層構造中での該構成要素に対応する前記テンプレートIDと、該構成要素を含む構造化文書を識別するための文書IDと、該構成要素を含む構造化文書中の該構成要素を識別するための要素IDとを含むオブジェクトIDをもつ複数の前記構造化文書を記憶する第2の記憶手段と、
文字列と、該文字列を含むテキストノードである構成要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記階層構造中の前記複数のノードのうちの1つである第1ノードのタグ名と、前記第1ノードに含まれる第2ノードのタグ名と、前記第2ノードに含まれる文字列とを含む問い合わせデータを入力する入力手段と、
前記第1の記憶手段に記憶されている前記階層構造から、前記問い合わせデータ中の前記第2ノードのタグ名と同じタグ名のノードに含まれる前記テキストノードに対応する第1テンプレートIDと、前記問い合わせデータ中の前記第1ノードのタグ名と同じタグ名のノードに対応する第2テンプレートIDを得る照合手段と、
前記索引データ記憶手段から、前記問い合わせデータ中の前記文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDを検索する第1検索手段と、
前記第2テンプレートIDの種別が前記ドキュメントノードであるとき、前記第1オブジェクトIDに含まれている前記第1テンプレートIDを、前記第2テンプレートIDに変換し、前記第1オブジェクトIDに含まれる要素IDを前記ドキュメントノードに対し予め定められている要素IDに変換することにより、前記第1オブジェクトIDに含まれる文書IDと、前記ドキュメントノードに対し予め定められている要素IDと、前記第2テンプレートIDとを含む第2オブジェクトIDを求める第2検索手段と、
を含む構造化文書検索装置。 - 前記第2検索手段は、
前記第2テンプレートIDの種別が前記要素ノードであるとき、前記第2の記憶手段に記憶されている前記複数の構造化文書のうち、前記第1オブジェクトIDに含まれている前記文書IDをもつ構造化文書中から、前記第1オブジェクトIDをもつ構成要素の上流にあり、かつ前記第2テンプレートIDを含む第2オブジェクトIDをもつ構成要素を検索する請求項4記載の構造化文書検索装置。 - (a)ドキュメントノード、該ドキュメントノードに含まれる要素ノード、及び要素ノードの値であるテキストを含むテキストノードを含む複数のノードからなる階層構造と、(b)各ノードに対し、ドキュメントノード、要素ノード、及びテキストノードのうち該ノードに対応する種別、及び前記階層構造中での該ノードの位置を示すテンプレートIDと、(c)前記複数のノードのうちドキュメントノード、及び要素ノードには、そのタグ名と、を記憶する第1の記憶手段と、
前記階層構造中のドキュメントノード、要素ノード、及びテキストノードのうちのいずれか1つにそれぞれ対応する複数の構成要素を含む構造化文書であって、各構成要素は、前記階層構造中での該構成要素に対応する前記テンプレートIDと、該構成要素を含む構造化文書を識別するための文書IDと、該構成要素を含む構造化文書中の該構成要素を識別するための要素IDとを含むオブジェクトIDをもつ複数の前記構造化文書を記憶する第2の記憶手段と、
文字列と、該文字列を含むテキストノードである構成要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記階層構造中の検索対象のドキュメントノードのタグ名と、前記検索対象のドキュメントノードに含まれる要素ノードである第1要素ノード及び第2要素ノードのそれぞれのタグ名と、前記第1要素ノードに含まれる第1文字列と、前記第2要素ノードに含まれる第2文字列と、を含む問い合わせデータを入力する入力手段と、
前記第1の記憶手段に記憶されている前記階層構造から、前記問い合わせデータ中の前記第1要素ノードのタグ名と同じタグ名のノードに含まれるテキストノードに対応する第1テンプレートIDと、前記問い合わせデータ中の前記第2要素ノードのタグ名と同じタグ名のノードに含まれるテキストノードに対応する第2テンプレートIDと、前記問い合わせデータ中の前記検索対象のドキュメントノードのタグ名と同じタグ名のノードに対応する第3テンプレートIDを得る照合手段と、
前記索引データ記憶手段から、前記問い合わせデータ中の前記第1文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDと、前記問い合わせデータ中の前記第2文字列にリンクされ、かつ前記第2テンプレートIDを含むオブジェクトIDである第2オブジェクトIDとを検索する第1検索手段と、
前記第1オブジェクトID及び前記第2オブジェクトIDに含まれる共通の文書IDと、前記ドキュメントノードに対し予め定められている要素IDと、前記第3テンプレートIDとを含む第3オブジェクトIDを得る第2検索手段と、
前記複数の構造化文書のうち、前記第1オブジェクトID、前記第2オブジェクトID及び前記第3オブジェクトIDに含まれる前記共通の文書IDを有する構造化文書を出力する出力手段と、
を含む構造化文書検索装置。 - コンピュータを、
(a)ドキュメントノード、該ドキュメントノードに含まれる要素ノード、及び要素ノードの値であるテキストを含むテキストノードを含む複数のノードからなる階層構造と、(b)各ノードに対し、ドキュメントノード、要素ノード、及びテキストノードのうち該ノードに対応する種別、及び前記階層構造中での該ノードの位置を示すテンプレートIDと、(c)前記複数のノードのうちドキュメントノード、及び要素ノードには、そのタグ名と、を記憶する第1の記憶手段、
前記階層構造中のドキュメントノード、要素ノード、及びテキストノードのうちのいずれか1つにそれぞれ対応する複数の構成要素を含む構造化文書であって、各構成要素は、前記階層構造中での該構成要素に対応する前記テンプレートIDと、該構成要素を含む構造化文書を識別するための文書IDと、該構成要素を含む構造化文書中の該構成要素を識別するための要素IDとを含むオブジェクトIDをもつ複数の前記構造化文書を記憶する第2の記憶手段、
文字列と、該文字列を含むテキストノードである構成要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記階層構造中の前記複数のノードのうちの1つである第1ノードのタグ名と、前記第1ノードに含まれる第2ノードのタグ名と、前記第2ノードに含まれる文字列とを含む問い合わせデータを入力する入力手段、
前記第1の記憶手段に記憶されている前記階層構造から、前記問い合わせデータ中の前記第2ノードのタグ名と同じタグ名のノードに含まれる前記テキストノードに対応する第1テンプレートIDと、前記問い合わせデータ中の前記第1ノードのタグ名と同じタグ名のノードに対応する第2テンプレートIDを得る照合手段、
前記索引データ記憶手段から、問い合わせデータ中の前記文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDを検索する第1検索手段、
前記第2テンプレートIDの種別が前記ドキュメントノードであるとき、前記第1オブジェクトIDに含まれている前記第1テンプレートIDを、前記第2テンプレートIDに変換し、前記第1オブジェクトIDに含まれる要素IDを前記ドキュメントノードに対し予め定められている要素IDに変換することにより、前記第1オブジェクトIDに含まれる文書IDと、前記ドキュメントノードに対し予め定められている要素IDと、前記第2テンプレートIDとを含む第2オブジェクトIDを求める第2検索手段、
として機能させるためのプログラム。 - 前記第2検索手段は、
前記第2テンプレートIDの種別が前記要素ノードであるとき、前記第2の記憶手段に記憶されている前記複数の構造化文書のうち、前記第1オブジェクトIDに含まれている前記文書IDをもつ構造化文書中から、前記第1オブジェクトIDをもつ構成要素の上流にあり、かつ前記第2テンプレートIDを含む第2オブジェクトIDをもつ構成要素を検索する請求項7記載のプログラム。 - コンピュータを、
(a)ドキュメントノード、該ドキュメントノードに含まれる要素ノード、及び要素ノードの値であるテキストを含むテキストノードを含む複数のノードからなる階層構造と、(b)各ノードに対し、ドキュメントノード、要素ノード、及びテキストノードのうち該ノードに対応する種別、及び前記階層構造中での該ノードの位置を示すテンプレートIDと、(c)前記複数のノードのうちドキュメントノード、及び要素ノードには、そのタグ名と、を記憶する第1の記憶手段、
前記階層構造中のドキュメントノード、要素ノード、及びテキストノードのうちのいずれか1つにそれぞれ対応する複数の構成要素を含む構造化文書であって、各構成要素は、前記階層構造中での該構成要素に対応する前記テンプレートIDと、該構成要素を含む構造化文書を識別するための文書IDと、該構成要素を含む構造化文書中の該構成要素を識別するための要素IDとを含むオブジェクトIDをもつ複数の前記構造化文書を記憶する第2の記憶手段、
文字列と、該文字列を含むテキストノードである構成要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記階層構造中の検索対象のドキュメントノードのタグ名と、前記検索対象のドキュメントノードに含まれる要素ノードである第1要素ノード及び第2要素ノードのそれぞれのタグ名と、前記第1要素ノードに含まれる第1文字列と、前記第2要素ノードに含まれる第2文字列と、を含むグラフ構造を有する問い合わせデータを入力する入力手段、
前記第1の記憶手段に記憶されている前記階層構造から、前記問い合わせデータ中の前記第1要素ノードのタグ名と同じタグ名のノードに含まれるテキストノードに対応する第1テンプレートIDと、前記問い合わせデータ中の前記第2要素ノードのタグ名と同じタグ名のノードに含まれるテキストノードに対応する第2テンプレートIDと、前記問い合わせデータ中の前記検索対象のドキュメントノードのタグ名と同じタグ名のノードに対応する第3テンプレートIDを得る照合手段、
前記索引データ記憶手段から、前記問い合わせデータ中の前記第1文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDと、前記問い合わせデータ中の前記第2文字列にリンクされ、かつ前記第2テンプレートIDを含むオブジェクトIDである第2オブジェクトIDとを検索する第1検索手段、
前記第1オブジェクトID及び前記第2オブジェクトIDに含まれる共通の文書IDと、前記ドキュメントノードに対し予め定められている要素IDと、前記第3テンプレートIDとを含む第3オブジェクトIDを求める第2検索手段、
前記複数の構造化文書のうち、前記第1オブジェクトID、前記第2オブジェクトID及び前記第3オブジェクトIDに含まれる前記共通の文書IDを有する構造化文書を出力する出力手段、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430598A JP4247108B2 (ja) | 2003-12-25 | 2003-12-25 | 構造化文書検索方法、構造化文書検索装置、及びプログラム |
US10/935,627 US7401071B2 (en) | 2003-12-25 | 2004-09-08 | Structured data retrieval apparatus, method, and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430598A JP4247108B2 (ja) | 2003-12-25 | 2003-12-25 | 構造化文書検索方法、構造化文書検索装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005190163A JP2005190163A (ja) | 2005-07-14 |
JP4247108B2 true JP4247108B2 (ja) | 2009-04-02 |
Family
ID=34697619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003430598A Expired - Fee Related JP4247108B2 (ja) | 2003-12-25 | 2003-12-25 | 構造化文書検索方法、構造化文書検索装置、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7401071B2 (ja) |
JP (1) | JP4247108B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4314221B2 (ja) | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
JP5121146B2 (ja) | 2006-02-22 | 2013-01-16 | 株式会社東芝 | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 |
JP2007257369A (ja) * | 2006-03-23 | 2007-10-04 | Fujitsu Ltd | 情報検索装置 |
US7676465B2 (en) * | 2006-07-05 | 2010-03-09 | Yahoo! Inc. | Techniques for clustering structurally similar web pages based on page features |
JP4854542B2 (ja) | 2007-02-27 | 2012-01-18 | 株式会社東芝 | 文書検索システム及び文書検索方法 |
US8386923B2 (en) | 2007-05-08 | 2013-02-26 | Canon Kabushiki Kaisha | Document generation apparatus, method, and storage medium |
JP5320697B2 (ja) * | 2007-07-26 | 2013-10-23 | 富士通株式会社 | 照合処理プログラムおよび照合処理装置 |
US20090125529A1 (en) * | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
JP4719243B2 (ja) * | 2008-04-16 | 2011-07-06 | 株式会社エヌ・ティ・ティ・ドコモ | データ同期方法および通信装置 |
US8010544B2 (en) * | 2008-06-06 | 2011-08-30 | Yahoo! Inc. | Inverted indices in information extraction to improve records extracted per annotation |
US8296744B2 (en) * | 2008-10-03 | 2012-10-23 | Microsoft Corporation | Tree-based directed graph programming structures for a declarative programming language |
US20100169311A1 (en) * | 2008-12-30 | 2010-07-01 | Ashwin Tengli | Approaches for the unsupervised creation of structural templates for electronic documents |
US20100223214A1 (en) * | 2009-02-27 | 2010-09-02 | Kirpal Alok S | Automatic extraction using machine learning based robust structural extractors |
US20110040770A1 (en) * | 2009-08-13 | 2011-02-17 | Yahoo! Inc. | Robust xpaths for web information extraction |
US9747262B1 (en) * | 2013-06-03 | 2017-08-29 | Ca, Inc. | Methods, systems, and computer program products for retrieving information from a webpage and organizing the information in a table |
KR102161784B1 (ko) * | 2017-01-25 | 2020-10-05 | 한국전자통신연구원 | 영상 콘텐츠의 스토리 그래프 및 사용자 구조 질의를 이용한 콘텐츠 맵 서비스 장치 및 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057163A (ja) | 1998-08-12 | 2000-02-25 | Nec Corp | 構造化文書データベースシステム |
JP3492247B2 (ja) | 1999-07-16 | 2004-02-03 | 富士通株式会社 | Xmlデータ検索システム |
JP3492246B2 (ja) | 1999-07-16 | 2004-02-03 | 富士通株式会社 | Xmlデータ検索処理方法および検索処理システム |
JP3754253B2 (ja) | 1999-11-19 | 2006-03-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム |
JP2001167087A (ja) * | 1999-12-14 | 2001-06-22 | Fujitsu Ltd | 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法 |
JP3842573B2 (ja) * | 2001-03-30 | 2006-11-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書管理装置及びプログラム |
JP3842577B2 (ja) | 2001-03-30 | 2006-11-08 | 株式会社東芝 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
US6799184B2 (en) * | 2001-06-21 | 2004-09-28 | Sybase, Inc. | Relational database system providing XML query support |
JP2003271668A (ja) | 2002-03-15 | 2003-09-26 | Toshiba Corp | 構造化データ管理プログラム及び方法並びに装置 |
US7287023B2 (en) * | 2003-11-26 | 2007-10-23 | International Business Machines Corporation | Index structure for supporting structural XML queries |
-
2003
- 2003-12-25 JP JP2003430598A patent/JP4247108B2/ja not_active Expired - Fee Related
-
2004
- 2004-09-08 US US10/935,627 patent/US7401071B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20050144153A1 (en) | 2005-06-30 |
JP2005190163A (ja) | 2005-07-14 |
US7401071B2 (en) | 2008-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6889223B2 (en) | Apparatus, method, and program for retrieving structured documents | |
US6510425B1 (en) | Document search method for registering documents, generating a structure index with elements having position of occurrence in documents represented by meta-nodes | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
JP4247108B2 (ja) | 構造化文書検索方法、構造化文書検索装置、及びプログラム | |
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
JP2001167087A (ja) | 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法 | |
JP4309818B2 (ja) | 構造化文書管理装置、検索装置、記憶方法、検索方法及びプログラム | |
JP3914081B2 (ja) | アクセス権限設定方法および構造化文書管理システム | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JP3842576B2 (ja) | 構造化文書編集方法及び構造化文書編集システム | |
JP4724177B2 (ja) | Xmlデータにアクセスするためのインデックス | |
JP4289022B2 (ja) | 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体 | |
JP2010267081A (ja) | 情報検索方法及び装置及びプログラム | |
JP2962287B2 (ja) | 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP4334450B2 (ja) | 構造化文書検索装置及び構造化文書検索方法 | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
JP2005018811A (ja) | 文字列検索装置 | |
JP3498926B2 (ja) | 文書データベース管理システム | |
JPH01286020A (ja) | プログラム検索方式 | |
JP5225022B2 (ja) | Xmlデータ検索方法及び装置及びプログラム | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
JP4405493B2 (ja) | 構造化文書管理システム及びプログラム | |
JP2004348593A (ja) | 格納検索装置、格納検索方法、格納検索プログラム、および格納検索プログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4247108 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |