JP4247135B2 - 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 - Google Patents
構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 Download PDFInfo
- Publication number
- JP4247135B2 JP4247135B2 JP2004033493A JP2004033493A JP4247135B2 JP 4247135 B2 JP4247135 B2 JP 4247135B2 JP 2004033493 A JP2004033493 A JP 2004033493A JP 2004033493 A JP2004033493 A JP 2004033493A JP 4247135 B2 JP4247135 B2 JP 4247135B2
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- template
- storage
- data
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
標準偏差={SumOcc2/NumRegist−(SumOcc/NumRegist)2}1/2
NumSib=INT(平均−標準偏差)
標準偏差とは誤差である。分析対象となっているデータ全体のばらつきが左右対称なつりがね型の正規分布にしたがっていると仮定するならば、「平均−標準偏差」〜「平均+標準偏差」の範囲内にデータの約68%が存在することを意味する。構造の繰り返し回数がNumSib以上である確率は84%以上であることが期待される。
図36〜図37に示すフローチャートに従って、検索処理部104の処理動作について説明する。
Claims (10)
- 複数の要素を含む階層構造を有する複数の構造化文書を記憶するための複数の文書記憶エリアを含み、各文書記憶エリアは、前記複数の要素を記憶するための複数の要素記憶エリアを含み、各要素記憶エリアは、そのアドレスとしてエレメントIDが割り当てられている文書記憶手段と、
予めエレメントIDが定められている複数の固定配置要素を含む階層構造のテンプレートである第1構造テンプレートと、該第1構造テンプレート中の各要素について、前記文書記憶手段に記憶されている複数の構造化文書中での該要素の出現回数とを記憶する構造テンプレート記憶手段と、
前記階層構造を有する構造化文書を入力する入力手段と、
前記入力手段で入力された構造化文書を前記文書記憶手段に格納するための処理を行う格納処理手段と、
を含む構造化文書記憶装置における構造化文書格納方法であって、
前記入力手段が、前記階層構造を有する構造化文書を入力する第1ステップと、
前記格納処理手段が、入力された前記構造化文書から、その階層構造を抽出する第2ステップと、
前記格納処理手段が、抽出された前記階層構造には存在するが、前記第1構造テンプレートには存在しない要素を、前記第1構造テンプレートに追加する第3ステップと、
前記格納処理手段が、前記文書記憶手段の前記複数の記憶エリアのうちの1つに、前記構造化文書を記憶し、その際、該構造化文書中の各固定配置要素は、そのエレメントIDに対応する要素記憶エリアに記憶する第4ステップと、
前記格納処理手段が、前記第1構造テンプレート中の要素のうち、前記構造化文書に出現している要素の前記出現回数を1つインクリメントする第5ステップと、
前記格納処理手段が、前記文書記憶手段に予め定められた数の構造化文書が記憶されるまで、前記第1ステップから前記第5ステップを繰り返すステップと、
前記格納処理手段が、前記出現回数が予め定められた閾値以上の新たな固定配置要素と前記複数の固定配置要素とを含む第2構造テンプレートを、前記第1構造テンプレートから抽出する抽出ステップと、
を含む構造化文書記憶方法。 - 前記第1構造テンプレート中の固定配置要素は、前記記憶手段に記憶されている複数の構造化文書中で共通する要素である請求項1記載の構造化文書記憶方法。
- 前記第4のステップは、
前記構造化文書中の各固定配置要素に、該構造化文書を識別するためのドキュメントIDと、該固定配置要素の前記第1構造テンプレート中での位置を識別するためのテンプレートIDと、該固定配置要素のエレメントIDとを含むオブジェクトIDを割り当てるステップを含む請求項1記載の構造化文書記憶方法。 - 前記第4ステップは、
前記構造化文書中の前記固定配置要素以外の要素には、前記固定配置要素のエレメントID以外のエレメントIDを割り当てて、該要素をそのエレメントIDに対応する要素記憶エリアに記憶する請求項1記載の構造化文書記憶方法。 - 複数の要素を含む階層構造を有する複数の構造化文書を記憶するための複数の文書記憶エリアを含み、各文書記憶エリアは、前記複数の要素を記憶するための複数の要素記憶エリアを含み、各要素記憶エリアは、そのアドレスとしてエレメントIDが割り当てられている文書記憶手段と、
予めエレメントIDが定められている複数の固定配置要素を含む階層構造のテンプレートである第1構造テンプレートと、該第1構造テンプレート中の各要素について、前記文書記憶手段に記憶されている複数の構造化文書中での該要素の出現回数とを記憶する構造テンプレート記憶手段と、
前記階層構造を有する構造化文書を入力する入力手段と、
入力された前記構造化文書から、その階層構造を抽出する抽出手段と、
抽出された前記階層構造には存在するが、前記第1構造テンプレートには存在しない要素を、前記第1構造テンプレートに追加する更新手段と、
前記文書記憶手段の前記複数の記憶エリアのうちの1つに、前記構造化文書を格納し、その際、該構造化文書中の各固定配置要素は、そのエレメントIDに対応する要素記憶エリアに格納する格納手段と、
前記第1構造テンプレート中の要素のうち、前記構造化文書に出現している要素の前記出現回数を1つインクリメントする計算手段と、
前記文書記憶手段に予め定められた数の構造化文書が記憶されたとき、前記出現回数が予め定められた閾値以上の新たな固定配置要素と前記複数の固定配置要素とを含む第2構造テンプレートを、前記第1構造テンプレートから抽出する構造テンプレート抽出手段と、
を含む構造化文書記憶装置。 - 前記第1構造テンプレート中の固定配置要素は、前記記憶手段に記憶されている複数の構造化文書中で共通する要素である請求項5記載の構造化文書記憶装置。
- 前記格納手段は、
前記構造化文書中の各固定配置要素に、該構造化文書を識別するためのドキュメントIDと、該固定配置要素の前記第1構造テンプレート中での位置を識別するためのテンプレートIDと、該固定配置要素のエレメントIDとを含むオブジェクトIDを割り当てる手段を含む請求項5記載の構造化文書記憶装置。 - 前記格納手段は、
前記構造化文書中の前記固定配置要素以外の要素には、前記固定配置要素のエレメントID以外のエレメントIDを割り当てて、該要素をそのエレメントIDに対応する要素記憶エリアに記憶する請求項5記載の構造化文書記憶装置。 - 複数の構成要素と、構成要素がもつテキスト要素とを含む複数の要素からなる階層構造を有する複数の構造化文書を記憶するための複数の文書記憶エリアを含み、各文書記憶エリアは、前記複数の要素を記憶するための複数の要素記憶エリアを含み、各要素記憶エリアは、そのアドレスとしてエレメントIDが割り当てられている文書記憶手段と、
予めエレメントIDが定められている複数の固定配置要素を含む階層構造のテンプレートであって、各固定配置要素は、その要素名と、エレメントIDと、前記構成要素及び前記テキスト要素のうち当該固定配置要素に対応する種別及び該階層構造上での位置を示すテンプレートIDとを有する構造テンプレートを記憶する構造テンプレート記憶手段と、
入力された前記構造化文書の各要素に、該構造化文書を識別するための文書IDと、前記構造テンプレート上で該要素と同じ位置にある固定配置要素のエレメントID及びテンプレートIDとを含むオブジェクトIDを割り当てた後、該構造化文書を前記文書記憶手段の前記複数の記憶エリアのうちの1つに記憶し、その際、該構造化文書中の各固定配置要素を、そのエレメントIDに対応する要素記憶エリアに記憶する格納処理手段と、
文字列と、該文字列を含むテキスト要素の前記オブジェクトIDとがリンクされて記憶されている索引データ記憶手段と、
前記構造テンプレート上の前記複数の固定配置要素のうちの少なくとも1つの要素名と、該要素に含まれる文字列とを含む問い合わせデータを入力する入力手段と、
前記問い合わせデータを基に、前記文書記憶手段から構造化文書を検索する検索手段と、
を含む構造化文書管理システムにおける構造化文書検索方法であって、
前記入力手段が、前記複数の固定配置要素のうちの第1の固定配置要素の要素名と、該第1の固定配置要素に含まれる第2の固定配置要素と、該第2の固定配置要素に含まれる文字列とを含む問い合わせデータを入力する入力ステップと、
前記検索手段が、前記構造テンプレートから、前記第2の固定配置要素の要素名と同じ要素名の固定配置要素に含まれるテキスト要素に対応する第1テンプレートIDと、前記第1固定配置要素の要素名と同じ要素名の固定配置要素に対応する第2テンプレートIDを得る照合ステップと、
前記検索手段が、前記索引データ記憶手段から、前記問い合わせデータ中の前記文字列にリンクされ、かつ前記第1テンプレートIDを含むオブジェクトIDである第1オブジェクトIDを検索する第1検索ステップと、
前記検索手段が、前記第1オブジェクトIDに含まれている前記第1テンプレートIDを前記第2テンプレートIDに変換し、前記第1オブジェクトIDに含まれるエレメントIDを、前記構造テンプレート記憶手段に記憶されている前記第2テンプレートIDをもつ固定配置要素のエレメントIDに変換することにより、前記第1オブジェクトIDに含まれる文書IDと、前記第2テンプレートIDと、前記第2テンプレートIDに対応するエレメントIDとを含む第2オブジェクトIDを求める第2検索ステップと、
を含む構造化文書検索方法。 - 前記第2オブジェクトIDをもつ要素は、前記複数の記憶エリアのうち該第2オブジェクトID中の文書IDに対応する記憶エリア内の該第2オブジェクトID中の前記エレメントIDが割り当てられている要素記憶エリアに記憶されている請求項9記載の構造化文書検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004033493A JP4247135B2 (ja) | 2004-02-10 | 2004-02-10 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
US11/053,173 US7664773B2 (en) | 2004-02-10 | 2005-02-09 | Structured data storage method, structured data storage apparatus, and retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004033493A JP4247135B2 (ja) | 2004-02-10 | 2004-02-10 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005227851A JP2005227851A (ja) | 2005-08-25 |
JP4247135B2 true JP4247135B2 (ja) | 2009-04-02 |
Family
ID=34879214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004033493A Expired - Fee Related JP4247135B2 (ja) | 2004-02-10 | 2004-02-10 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7664773B2 (ja) |
JP (1) | JP4247135B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4314221B2 (ja) * | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
GB0612433D0 (en) * | 2006-06-23 | 2006-08-02 | Ibm | Method and system for defining a hierarchical structure |
US20080005719A1 (en) * | 2006-06-30 | 2008-01-03 | Morris Robert P | Methods, systems, and computer program products for providing a program execution environment |
JP4212615B2 (ja) * | 2006-09-28 | 2009-01-21 | 株式会社東芝 | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 |
US9697211B1 (en) * | 2006-12-01 | 2017-07-04 | Synopsys, Inc. | Techniques for creating and using a hierarchical data structure |
US20080235258A1 (en) * | 2007-03-23 | 2008-09-25 | Hyen Vui Chung | Method and Apparatus for Processing Extensible Markup Language Security Messages Using Delta Parsing Technology |
US8051372B1 (en) * | 2007-04-12 | 2011-11-01 | The New York Times Company | System and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents |
WO2009057382A1 (ja) * | 2007-10-31 | 2009-05-07 | Nec Corporation | 候補パステーブル構築装置、候補パステーブル構築方法、候補パステーブル構築プログラム |
JP5134989B2 (ja) * | 2008-01-31 | 2013-01-30 | 株式会社東芝 | サーバ、データ転送方法及びプログラム |
US8229971B2 (en) * | 2008-09-29 | 2012-07-24 | Efrem Meretab | System and method for dynamically configuring content-driven relationships among data elements |
US9626339B2 (en) * | 2009-07-20 | 2017-04-18 | Mcap Research Llc | User interface with navigation controls for the display or concealment of adjacent content |
JP5090408B2 (ja) | 2009-07-22 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ネットワーク通信において送信データの宛先を動的に制御する方法及び機器 |
JP5496853B2 (ja) | 2010-10-29 | 2014-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ |
JP5100820B2 (ja) * | 2010-11-25 | 2012-12-19 | 株式会社東芝 | 問合せ式変換装置、方法およびプログラム |
US9020947B2 (en) * | 2011-11-30 | 2015-04-28 | Microsoft Technology Licensing, Llc | Web knowledge extraction for search task simplification |
CN103516579A (zh) * | 2012-06-27 | 2014-01-15 | 腾讯科技(深圳)有限公司 | 提供离线消息的服务系统及相应的服务方法 |
US10366102B2 (en) * | 2014-02-19 | 2019-07-30 | Snowflake Inc. | Resource management systems and methods |
JP6244521B2 (ja) * | 2015-10-29 | 2017-12-13 | 株式会社ディビイ | データベース処理プログラム、データベース処理方法及びデータベース処理装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1304988C (zh) * | 1996-10-16 | 2007-03-14 | 夏普公司 | 字符输入装置 |
JP3696731B2 (ja) * | 1998-04-30 | 2005-09-21 | 株式会社日立製作所 | 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000057163A (ja) | 1998-08-12 | 2000-02-25 | Nec Corp | 構造化文書データベースシステム |
JP3492247B2 (ja) | 1999-07-16 | 2004-02-03 | 富士通株式会社 | Xmlデータ検索システム |
JP3492246B2 (ja) | 1999-07-16 | 2004-02-03 | 富士通株式会社 | Xmlデータ検索処理方法および検索処理システム |
US6754676B2 (en) * | 2001-09-13 | 2004-06-22 | International Business Machines Corporation | Apparatus and method for providing selective views of on-line surveys |
-
2004
- 2004-02-10 JP JP2004033493A patent/JP4247135B2/ja not_active Expired - Fee Related
-
2005
- 2005-02-09 US US11/053,173 patent/US7664773B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20050192983A1 (en) | 2005-09-01 |
JP2005227851A (ja) | 2005-08-25 |
US7664773B2 (en) | 2010-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
US6889223B2 (en) | Apparatus, method, and program for retrieving structured documents | |
US6510425B1 (en) | Document search method for registering documents, generating a structure index with elements having position of occurrence in documents represented by meta-nodes | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
KR101083563B1 (ko) | 데이터베이스 관리 방법 및 시스템 | |
JP2008052662A (ja) | 構造化文書管理システム及びプログラム | |
JP4247108B2 (ja) | 構造化文書検索方法、構造化文書検索装置、及びプログラム | |
JP4207438B2 (ja) | Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム | |
JP4309818B2 (ja) | 構造化文書管理装置、検索装置、記憶方法、検索方法及びプログラム | |
US8086561B2 (en) | Document searching system and document searching method | |
JP2006127235A (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP4439497B2 (ja) | 検索処理装置及びプログラム | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JP4724177B2 (ja) | Xmlデータにアクセスするためのインデックス | |
JP3709890B2 (ja) | 文字列検索装置 | |
JP2010267081A (ja) | 情報検索方法及び装置及びプログラム | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP5439606B1 (ja) | 構造化文書管理装置、方法およびプログラム | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
JP4334450B2 (ja) | 構造化文書検索装置及び構造化文書検索方法 | |
JP4866844B2 (ja) | Lobに格納されたxml内容の効率的な抽出 | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
JPH06203078A (ja) | 情報検索方法およびその装置 | |
JP5225022B2 (ja) | Xmlデータ検索方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4247135 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |