Nothing Special   »   [go: up one dir, main page]

WO2006115227A1 - 調査対象文書の索引語抽出装置 - Google Patents

調査対象文書の索引語抽出装置 Download PDF

Info

Publication number
WO2006115227A1
WO2006115227A1 PCT/JP2006/308473 JP2006308473W WO2006115227A1 WO 2006115227 A1 WO2006115227 A1 WO 2006115227A1 JP 2006308473 W JP2006308473 W JP 2006308473W WO 2006115227 A1 WO2006115227 A1 WO 2006115227A1
Authority
WO
WIPO (PCT)
Prior art keywords
index word
appearance frequency
document
function value
document group
Prior art date
Application number
PCT/JP2006/308473
Other languages
English (en)
French (fr)
Inventor
Hiroaki Masuyama
Haru-Tada Sato
Original Assignee
Intellectual Property Bank Corp.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Property Bank Corp. filed Critical Intellectual Property Bank Corp.
Priority to US11/918,793 priority Critical patent/US20090077073A1/en
Priority to EP06732231A priority patent/EP1876541A1/en
Priority to JP2007514695A priority patent/JPWO2006115227A1/ja
Publication of WO2006115227A1 publication Critical patent/WO2006115227A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Definitions

  • the present invention relates to extraction of index words in a document to be investigated, and particularly relates to an automatic index word extraction device, an extraction program, and an extraction method that make it possible to accurately analyze the assertion of a document to be investigated. is there.
  • Patent Document 1 Similar Document Retrieval Device and Similar Document Retrieval Method
  • Patent Document 2 Japanese Patent Application Laid-Open No. 11 345239 “Document Information Extraction Method and Apparatus and Storage Medium Stored Document Information Extraction Program”
  • the “target document set overall feature” that characterizes the “target document set” with respect to the “standard document set” is calculated, and each “individual document” in the “target document set” is calculated as another individual sentence.
  • the “individual document feature” that characterizes the document is calculated. Then, based on these “target document set overall feature” and “individual document feature”, the feature information of each “individual document” is output.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 11 73415 “Similar Document Retrieval Device and Similar Document Retrieval Method J”
  • Patent Document 2 Japanese Patent Application Laid-Open No. 11 345239 “Document Information Extraction Method and Apparatus, and Storage Medium Stored Document Information Extraction Program”
  • Patent Document 2 a specific theme such as “cherry blossom viewing” is determined and a “target document set” that matches this is extracted. Only when this “target document set” is extracted, each “individual document” from which feature information is to be extracted is determined. In other words, the “target document set” and the specific theme from which it is extracted are determined in advance, and the “individual document” cannot even be determined. Therefore, the technology described in this publication cannot analyze the claim when a specific document to be investigated is given.
  • An object of the present invention is to provide an index word extraction device that makes it possible to easily grasp a claim when a document to be investigated is given.
  • the index word extraction device of the present invention includes a search target document, a comparison target document group to be compared with the search target document, and a similar document similar to the search target document.
  • Input means for inputting a group
  • index word extraction means for extracting an index word in the survey target document
  • a first function for calculating a function value of an appearance frequency of the extracted index word in the comparison target document group.
  • Appearance frequency calculation means for calculating a function value of the appearance frequency of the extracted index word in the similar document group, and the calculated comparison object for each index word Function value of appearance frequency in document group and the above Output means for outputting each index word and its positioning data based on the combination with the function value of the appearance frequency in the similar document group.
  • at least one of the function value of the appearance frequency in the comparison target document group calculated by the first appearance frequency calculation means or the function value of the appearance frequency in the similar document group calculated by the second appearance frequency calculation means is A function value that includes the global frequency IDF as a variable.
  • Global frequency IDF is a given index word divided by the global frequency in a given document group divided by the document frequency in that document group. Therefore, it means the average number of times per document using a given index word. By using this global frequency IDF, it becomes possible to grasp the assertion of the document under investigation.
  • the process of extracting the index word in the investigation target document the process of calculating the function value of the appearance frequency in the comparison target document group or the similar document group, etc. are all performed by the computer. Therefore, there is no need for humans to read the document contents.
  • comparison target documents need to be searchable data, but there is no particular restriction on the contents.
  • the documents may be randomly extracted or all of them under certain conditions. It may be extracted.
  • all patent documents (such as published patent gazettes) in a certain country and period are set as comparison target documents.
  • the similar document group also needs to be searchable data.
  • the selection method of the similar document group is not particularly limited here, and may be selected by matching the classification such as IPC (International Patent Classification).
  • the survey target document may be one document or a plurality of documents. When a plurality of documents are collected as a survey target document, an assertion common to a group of documents is shown rather than an individual survey target document.
  • the survey target document may or may not be included in the comparison target document group or similar document group.
  • Index word extraction by the index word extraction means is performed by cutting out all or part of a powerful word in a document.
  • the frequency of occurrence of the index word in the document group is, for example, the number of hit documents (document frequency DF) when the document group is searched and the search is performed with a certain index word, but is not limited to this.
  • the total number of hits of the index word may be used.
  • the output of the index word by the output means may output all of the index words extracted by the index word extraction means, or may output only some index words that strongly indicate the assertion of the document.
  • the positioning data output together with the index word by the output means may output the function value of the appearance frequency in the comparison target document group and the similar document group as it is, or on the coordinates based on this. It may be output as a diagram in which index words are arranged, or may be output as a list of index words grouped based on the function value of the appearance frequency.
  • the input means includes, for each document of a selection source document group that is a selection source of a similar document group, and each index word included in each document for the search target document.
  • the degree of similarity to the vector calculated for the survey target document is calculated by calculating a vector whose component is the function value of the appearance frequency in the document or the function value of the appearance frequency in the selected source document group of each index word. It is desirable to select a document having a high vector from the selected source document group and input it as the similar document group.
  • the number of documents can be specified in the form of the number of documents in descending order of similarity. You can use the function of the product between the outer components, such as cosine or Tanimoto correlation (similarity), or the function of the difference between the vector components, such as the distance between the outer components (dissimilarity) Good.
  • the comparison source document group is preferably used as the selection source document group.
  • the output means takes a function value of the appearance frequency in the comparison target document group as a first axis of coordinates, and uses the function value of the appearance frequency in the similar document group. It is desirable to place and output the index word for the second axis of the coordinates. The two-dimensional arrangement of index terms placed on the coordinates makes it possible to visually grasp the assertion of the document.
  • the coordinate system for example, plane orthogonal coordinates are used, the X axis (horizontal axis) is used as the first axis, and the Y axis (vertical axis) is used as the second axis.
  • the present invention is not limited to this, for example, using three-dimensional coordinates.
  • Other indicators may be used for the Z axis.
  • each index word extraction device the function value of the appearance frequency in the comparison target document group calculated by the first appearance frequency calculation means and the similar document calculated by the second appearance frequency calculation means
  • both the function values of the appearance frequency in the group are function values including the global frequency IDF as a variable.
  • index words whose calculation results of the first appearance frequency calculation means are far apart from the calculation results of the second appearance frequency calculation means are eliminated as noise, making it easier to understand the claim.
  • the function value including the global frequency IDF as a variable is preferably a logarithm of the global frequency IDF.
  • the function value including the global frequency IDF as a variable includes a ratio or difference between the global frequency IDF and the index word frequency in the survey target document as a variable. It should be a function value.
  • the extraction method including the same steps as the method executed by each of the above devices, and the computer execute the same processing as the processing executed by each of the above devices. It is an extraction program that can. This program may be recorded on a recording medium such as an FD, CDROM, or DVD, or may be transmitted / received over a network. The invention's effect
  • an index word extraction device can be provided.
  • FIG. 1 is a diagram showing a hardware configuration of an index word extraction device according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining in detail the configuration and functions of the index word extraction device.
  • FIG. 3 is a flowchart showing an operation for setting conditions in the input device 2.
  • FIG. 4 is a flowchart showing the operation of the processing apparatus 1.
  • FIG. 5 is a flowchart showing map output operation in the output device 4.
  • FIG. 6 is a diagram illustrating an example of a map output by the index word extraction device according to the first embodiment.
  • FIG. 7 is a diagram showing another example of a map output by the index word extraction device of Embodiment 1.
  • FIG. 8 is a diagram illustrating an example of a map output by the index word extraction device according to the second embodiment.
  • FIG. 9 is a diagram showing another example of a map output by the index word extraction device according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of a map output by the index word extraction device according to the third embodiment.
  • FIG. 11 is a diagram showing another example of a map output by the index word extraction device according to the third embodiment.
  • FIG. 12 is a diagram illustrating an example of a map output by the index word extraction device according to the fourth embodiment.
  • FIG. 13 is a diagram showing another example of a map output by the index word extraction device of Embodiment 4.
  • FIG. 14 is a diagram illustrating an example of a map output by the index word extraction device according to the fifth embodiment.
  • FIG. 15 is a diagram showing another example of a map output by the index word extraction device according to the fifth embodiment.
  • 120 index word (d) extraction unit
  • 121 TF (d) calculation unit
  • 143 GFIDF (P) calculation unit (first appearance frequency calculation means)
  • 150 similarity calculation unit
  • 160 similar document group S selection section
  • 171 GFIDF (S) etc.
  • calculation section second appearance frequency calculation means
  • 180 feature index word extraction section
  • Document to be surveyed d A project related to the survey. For example, a document such as a patent number gazette or a collection of such documents.
  • Comparison target document group P A set of documents to be compared with the survey target document d. For example, all patent documents (such as published patent gazettes) in a certain country and period, or their power, is a collection of randomly extracted documents.
  • the survey target document d is included, it is not necessary to include it.
  • Similar document group S A set of documents similar to the document d to be investigated. Here, the case where d is included is explained, but it may not be included. In addition, when selected from the document group P to be compared, it will be explained, but it is also possible to select another source document group power.
  • D or (d), P or (P), or S or (S) attached to the component in the figure means the survey target document, comparison target document group, or similar document group, respectively.
  • components and operations are also attached for easy identification.
  • the index word (d) means the index word of the document to be investigated d.
  • N The total number of documents in the comparison target document group P.
  • DF (P) Document frequency in P by the index word of d or p (Document Frequency) 0 Document frequency is the number of hit documents when multi-document power is also searched for a certain index word.
  • IDF (P) Reciprocal of DF (P) X Logarithm of number of documents: In [N / DF (P)].
  • IDF (S) Reciprocal of DF (S) X Logarithm of document number: In [ ⁇ '/ DF (S)].
  • TFIDF product of TF and IDF. Calculated for each index word in the document.
  • GF (P) Total value of the index word frequency TF (p) in each document p constituting the comparison target document group P (Global Frequency): ⁇ TF (p).
  • Similarity The degree of similarity between the survey target document d and a certain document p belonging to the comparison target document group P.
  • the index word is a word from which all or part of the document is extracted. Words can be extracted by using methods that are well known in the past or commercially available morphological analysis software to extract meaningful nouns, excluding particles and conjunctions, and a dictionary of index words (thesaurus). It is also possible to use an index word that holds the database in advance and obtains the database power.
  • the natural logarithm is used here as the logarithm, but not limited to this, use the common logarithm.
  • FIG. 1 is a diagram showing a hardware configuration of an index word extraction device according to an embodiment of the present invention.
  • the index word extraction device of the present embodiment includes a processing device 1 that also has power such as a CPU (central processing unit) and a memory (recording device), and input means such as a keyboard (manual input device). From the input device 2, the recording device 3 as a recording means for storing document data, conditions, work results by the processing device 1, and the output device 4 as an output means for displaying index word extraction results and the like on a map Composed.
  • a processing device 1 that also has power such as a CPU (central processing unit) and a memory (recording device), and input means such as a keyboard (manual input device).
  • the recording device 3 as a recording means for storing document data, conditions, work results by the processing device 1, and the output device 4 as an output means for displaying index word extraction results and the like on a map Composed.
  • FIG. 2 is a diagram for explaining in detail the configuration and function of the index word extraction device.
  • the processing device 1 includes an investigation target document d reading unit 110, an index word (d) extraction unit 120, a TF (d) calculation unit 121, a comparison target document group P reading unit 130, and an index word (P) extraction unit. 140, TF (P) calculation unit 141, IDF (P) calculation unit 142, GFIDF (P) etc. calculation unit 143, similarity calculation unit 150, similar document group S selection unit 160, index word (S) extraction unit 170, The GFIDF (S) etc. calculation unit 171 and the feature index word extraction unit 180 are configured.
  • the input device 2 is also configured with a force such as an investigation target document d condition input unit 210, a comparison target document group P condition input unit 220, an extraction condition other input unit 230, and the like.
  • the recording device 3 includes a condition recording unit 310, a work result storage unit 320, a document storage unit 330, and the like.
  • the document storage unit 330 includes an external database and an internal database.
  • An external database means, for example, a document database such as IPDL of a patent digital library serviced by the JPO or PATOLIS serviced by Patrice Co., Ltd.!
  • the internal database is a database that stores data such as patent JP-ROMs that are sold on its own, FD (flexible disc), CDR OM (compact disc), MO (magneto-optical disc), DVD that contains documents.
  • Media power such as digital video discs
  • Read devices devices such as OCR (optical information reader) that reads documents that are output on paper or handwritten, and converts the read data into electronic data such as text It is assumed that the device to be used is included.
  • the output device 4 includes force such as a map creation condition reading unit 410, a map data capturing unit 412, and a map output unit 440.
  • USB Universal System Bus
  • a communication means for exchanging signals and data among the processing device 1, the input device 2, the recording device 3, and the output device 4 a USB (Universal System Bus) cable or the like is used. It may be connected directly, may be transmitted / received via a network such as a LAN (local area network), or may be via a medium such as FD, CDROM, MO, or DVD that stores documents. Alternatively, some or a combination of these may be used.
  • the survey target document d condition input unit 210 sets conditions for reading the survey target document d by using an input screen or the like.
  • the comparison target document group P condition input unit 220 sets conditions for reading the comparison target document group P on the input screen or the like.
  • the extraction condition and other input unit 230 displays the index word extraction condition, the TF calculation condition, the IDF calculation condition, the similarity calculation for the document to be investigated d and the comparison target document group P by an input screen.
  • the survey target document d reading unit 110 reads the survey target document from the document storage unit 330 based on the condition of the condition recording unit 310.
  • the read document d to be searched is sent to the index word (d) extraction unit 120.
  • the index word (d) extraction unit 120 extracts an index word from the document obtained by the investigation target document d reading unit 110 based on the condition of the condition recording unit 310 and stores it in the work result storage unit 320.
  • the comparison target document group P reading unit 130 reads a plurality of documents to be compared from the document storage unit 330 based on the conditions of the condition recording unit 310.
  • the read comparison target document group P is sent to the index word (P) extraction unit 140.
  • the index word (P) extraction unit 140 extracts index words from the documents obtained by the comparison target document group P reading unit 130 based on the conditions of the condition recording unit 3 10, and stores them in the work result storage unit 320. .
  • the TF (d) calculation unit 121 based on the condition of the condition recording unit 310, the index word (d) extraction unit 120 work result for the investigation target document d stored in the work result storage unit 320, Calculate TF.
  • the obtained TF (d) data is stored in the work result storage unit 320 or directly sent to the similarity calculation unit 150.
  • the TF (P) calculation unit 141 calculates the work result of the index word (P) extraction unit 140 for the comparison target document group P stored in the work result storage unit 320. , TF operation.
  • the obtained TF (P) data is stored in the work result storage unit 320 or directly sent to the similarity calculation unit 150.
  • the IDF (P) calculation unit 142 calculates the work result of the index word (P) extraction unit 140 for the comparison target document group P stored in the work result storage unit 320 based on the condition of the condition recording unit 310. , I DF operation.
  • the obtained IDF (P) data is stored in the work result storage unit 320, or sent directly to the similarity calculation unit 150 or directly to the feature index word extraction unit 180.
  • the similarity calculation unit 150 calculates the calculation results of the TF (d) calculation unit 121, the TF (P) calculation unit 141, and the IDF (P) calculation unit 142, respectively. Directly or from the work result storage unit 320 and for each of the documents in the comparison target document group P Calculate similarity to document d. The obtained similarity is attached to each document of the comparison target document group P as similarity data, and is sent to the work result storage unit 320 or directly to the similar document group S selection unit 160.
  • the similarity calculation in the similarity calculation unit 150 is performed for each index word of each document, for example, TFID F calculation, and the similarity of each document in the comparison target document group P with respect to the survey target document d. Is calculated. TFIDF calculation is the product of TF calculation result and IDF calculation result. The calculation method of similarity will be described in detail later.
  • the similar document group S selection unit 160 obtains the similarity calculation result of the comparison target document group P from the result of the work result storage unit 320 or the direct similarity calculation unit 150, and based on the condition of the condition recording unit 310. Select the similar document group S. For selecting the similar document group S, for example, the documents are sorted in descending order of similarity, and the necessary number indicated in the condition is selected. The selected similar document group S is output to the work result storage unit 320 or the direct index word (S) extraction unit 170.
  • the index word (S) extraction unit 170 obtains data input of the similar document group S from the work result storage unit 320 or the direct similar document group S selection unit 160, and from this similar document group S, the condition recording unit Index word (S) is extracted based on 310 conditions.
  • the extracted index word (S) is sent to the operation result storage unit 320 or the calculation unit 171 such as GFIDF (S) directly.
  • the GFIDF (S) computing unit 171 obtains the index word (S) from the work result storage unit 320 or the direct index word (S) extraction unit 170, and uses the index word (S) as the condition recording unit 310. Calculate GFIDF based on the above conditions. GFIDF (S) etc. GFIDF calculated by the calculation unit 171 includes In GFIDF (S), IDF (S), GFIDF (S) ⁇ TF (d), GFID F (S ) —TF (d) and the like. The obtained GFIDF (S) or the like is stored in the work result storage unit 320 or sent directly to the feature index word extraction unit 180.
  • the GFIDF (P) computing unit 143 obtains the index word (P) from the work result storage unit 320 or the direct index word (P) extraction unit 140, and uses the index word (P) as the condition recording unit 310. Calculation such as GFIDF is performed based on the above conditions. GFIDF (P) etc.
  • the GFIDF etc. calculated by the calculation unit 143 include In GFIDF (P), IDF (P), GFIDF (P) ⁇ TF (d), G FIDF (P ) —TF (d) and the like.
  • the obtained GFIDF (P) or the like is stored in the work result storage unit 320 or directly sent to the feature index word extraction unit 180.
  • the feature index word extraction unit 180 Based on the conditions of the condition recording unit 310, the feature index word extraction unit 180 directly obtains the result of the GFIDF (S) etc. computation unit 171 and the GFIDF (P) etc. computation unit 1 43 from the work result storage unit 320.
  • the index word (d) is extracted from the result of step (b) as many times as necessary according to the condition or as many as selected by the calculation result based on the condition.
  • the index words extracted here will be referred to as “feature index words”.
  • the extracted feature index word (d) is sent to the work result storage unit 320.
  • the condition recording unit 310 records information such as conditions obtained from the input device 2, and sends necessary data to each according to the request of the processing device 1 or the output device 4.
  • the work result storage unit 320 stores the work result of each component in the processing device 1 and sends necessary data based on the request of the processing device 1.
  • the document storage unit 330 stores and provides necessary document data obtained from an external database or an internal database based on a request from the input device 2 or the processing device 1.
  • the map creation condition reading unit 410 reads the map creation conditions based on the conditions of the condition recording unit 310 and sends them to the map data capturing unit 412.
  • the map data capturing unit 412 captures the work result of the feature index word extraction unit 180 from the work result storage unit 320 in accordance with the conditions of the map creation condition reading unit 410.
  • the fetched feature index word data is sent to the work result storage unit 320 or the direct map output unit 440.
  • the map output unit 440 obtains the conditions and data output from the map data acquisition unit 412 directly or from the work result storage unit 320, and creates a place for outputting the map. At the same time, the work result of the feature index word extraction unit 180 is displayed on a map, printed, or output so that it can be stored as data.
  • a characteristic example of the map output in the map output unit 440 is that the value of In GFIDF (P) is indicated on the horizontal axis for each of the feature index words of the document d to be investigated extracted in the feature index word extraction unit 180.
  • In GFIDF (S) is the value on the vertical axis, and two-dimensional In GFIDF (P) In It is a map distributed on the GFIDF (S) plane. The assertion of the document d to be investigated can be read from the distribution status of the feature index words represented on the map.
  • FIG. 3 is a flowchart showing an operation procedure for setting conditions in the input device 2.
  • the input conditions are distinguished (step S202).
  • the survey target document d condition input unit 210 receives the condition input of the survey target document d (step S210).
  • the entered condition is confirmed by the operator on a display screen (not shown), and if it is good, “Setting” on the screen is selected. Since “return” is selected, the process returns to step S210 (step S211).
  • the comparison target document group P condition input unit 220 receives the condition input for the comparison target document group P (step S202). S220). Next, the entered condition is confirmed by the operator on a display screen (not shown), and if it is good, “Setting” on the screen is selected. Therefore, the entered condition is stored in the condition recording unit 310 (step S310). Since “return” is selected, the process returns to step S220 (step S221).
  • step S230 When the operator selects an extraction condition or other input in step S202, the extraction condition or other input unit 230 accepts the extraction condition or other input (step S230). Next, the entered conditions are confirmed by the operator on a display screen (not shown), and if desired, “Setting” on the screen is selected. The entered conditions are stored in the condition recording unit 310 (step S310). Since “return” is selected, the process returns to step S230 (step S231). In step S230, both the extraction condition for the index word (d), the selection condition for the similar document group S, and the output condition for the feature index word are set.
  • FIG. 4 is a flowchart showing the operation of the processing apparatus 1.
  • a document to be read from the document storage unit 330 is read based on the conditions of the condition recording unit 310.
  • the survey target document d reading unit 110 reads the survey target document from the document storage unit 330 (step S110).
  • the index word (d) extraction unit 120 performs index word extraction of the survey target document d (step S120).
  • the TF (d) calculation unit 121 performs! /, And TF calculation (step S 121).
  • the comparison target document group P is read by the comparison target document group P reading unit 130 (step S130).
  • the index word (P) extraction unit 140 extracts index words from the comparison target document group P (step S140).
  • TF calculation is performed in the TF (P) calculation unit 141 (step S141)
  • IDF calculation is performed in the IDF (P) calculation unit 142 (step S 142).
  • the similarity calculation unit 150 calculates the similarity (step S150).
  • the similarity calculation is executed by calling a similarity calculation module for calculating the similarity from the external recording unit 310 based on the condition input from the input device 2.
  • the cosine (or distance) function between vectors d and p gives the similarity (or dissimilarity) between document vectors d and P.
  • the cosine (similarity) between the outer rules means that the larger the value, the higher the degree of similarity, and the smaller the value (dissimilarity) between the outer rules, the higher the degree of similarity. .
  • the obtained similarity is stored in the work result storage unit 320 and also sent to the similar document group S selection unit 160.
  • the similar document group S selection unit 160 sorts the documents whose similarity is calculated in step S150 in the order of similarity, and the number of similar documents according to the extraction conditions and other conditions set in the input unit 230 Group S is selected (step S 160).
  • the index word (S) extraction unit 170 of the similar document group S extracts the index word (S) of the similar document group S selected in step S160 (step S170).
  • the GFIDF (S) etc. computation unit 171 computes GFIDF etc. in the similar document group S (step S171).
  • the GFIDF (P) etc. computation unit 143 computes GFIDF etc. in the comparison target document group P (step S143).
  • FIG. 5 is a flowchart showing an operation procedure for outputting a map by the output device 4.
  • step S401 reading of map creation conditions is started from the condition recording unit 310 (step S402).
  • the map creation condition reading unit 410 of the output device performs map creation conditions from the condition recording unit 310.
  • the conditions are read (step S410)
  • map data is fetched from the work result storage unit 320 to the map data fetch unit 412 (step S412).
  • a map is created in accordance with the map creation conditions of the map creation condition reading unit 410 (step S413) and sent to the map output unit 440.
  • step S411 If it is not the condition for displaying the map in step S411, the process ends at that point, and data is not sent to the map output unit 440! /.
  • FIGS are diagrams illustrating examples of maps output by the index word extraction device according to the first embodiment.
  • Example 1 In GFIDF (P) is on the X axis and In GFIDF (S) is on the Y axis.
  • Figure 6 shows two published patent gazettes related to “antitumor agents” together as a search target document d. It is.
  • the map output unit 440 outputs the index word (feature index word) extracted by the feature index word extraction unit 180 out of the index word (d) of the survey target document d.
  • the value of Y is the same as described for the value of X except that the average number of uses in the similar document group S is a problem.
  • index words with large GFIDF (P) and GFIDF (S) are words that represent the specific structure described in the document, and index words with small GFIDF (P) and GFIDF (S) are Recorded in It can be presumed to be a word representing the posted problem.
  • GFIDF (S) is data in the similar document group S, it can be emphasized in estimation.
  • GFIDF ( ⁇ ) and GFIDF (S) in the upper right part of the map are large, and the part is called “cloud”, and GFIDF (P) and GFIDF (S) in the lower left part of the map are small. Is called “mountain”.
  • an index word group W that characterizes the cloud shape is prepared from the index word group w E d included in the document to be investigated d. That is,
  • w ⁇ claim, feature, means, method, description, apparatus, composition, agent, the relevant ⁇ n ⁇ w ed ⁇ However, when “the” exists, the “related” is not counted.
  • word group of W may be defined separately according to the type of publication (separate publication, patent publication, etc.) and IPC.
  • the height of “magma” is hZ8.
  • Cloud is represented by the above ellipse.
  • the parameter is
  • G is the genus k of the word W existing in the document d
  • Max ' is not used in the Y-axis radius to obtain dispersion in the horizontal axis direction rather than the vertical axis.
  • composition an antitumor agent comprising an inhibitor of heme acid enzyme.
  • PEG polyethylene glycol
  • Example 1 is the map proposed in the example of the international patent application number PCTZJP2004Z015082 that has not been published on the priority date of the present application (particularly IDF (P) on the X axis and IDF (S) on Y By observing it together with the map taken along the axis, the nature of the document to be investigated can be understood more accurately.
  • FIGS 8 and 9 are diagrams showing examples of maps output by the index word extraction device of the second embodiment. is there.
  • Example 2 In GFIDF (P) is on the X axis and Y—In GFIDF (S) is on the Y axis.
  • the word arrangement is reversed upside down. Note that the survey target document d in Figs. 8 and 9 is the same as that in Figs. 6 and 7, respectively.
  • the map output unit 440 outputs the index word (feature index word) extracted by the feature index word extraction unit 180 out of the index word (d) of the survey target document d.
  • the word representing the configuration is arranged near the top of the “mountain” at the lower right of the map, and the word representing the composition concept in a broad sense is arranged inside the “mountain”.
  • the word with the highest index word average frequency in the similar document group S appears, and the concept that forms the basis of the composition is shown.
  • the “cloud” part words indicating the problems solved by the configuration of the “mountain” part are arranged.
  • the second embodiment is a map that expresses what point of view has been created in the “cloud” portion, starting from the component requirements of the “mountain” portion.
  • the index word group W Max, Min, Ku>, Max
  • “Mountain” and “magma” are represented by a Gaussian curve f (X). The parameter is
  • the height of “magma” is hZ8.
  • Width ⁇ 2 X 0.6745 ⁇
  • Example 2 is combined with the map proposed in the example of the above-mentioned International Patent Application No. PCTZJP2004Z015082 (particularly the map with IDF (P) on the X axis and IDF (S) on the Y axis). By observing it, it is possible to grasp the character of the document to be investigated more accurately.
  • Example 2 allows us to search development hints from the constituent requirements of the known invention.
  • FIGS 10 and 11 are diagrams illustrating examples of maps output by the index word extraction device according to the third embodiment.
  • Example 3 In GFIDF (P) is on the X axis and IDF (S) is on the Y axis.
  • the survey target document d in Fig. 10 and Fig. 11 is the same as that in Fig. 6 and Fig. 7, respectively.
  • the map output unit 440 outputs the index word (feature index word) extracted by the feature index word extraction unit 180 out of the index word (d) of the survey target document d.
  • IDF (S) is an inverse document function (inverse document frequency) for the search hit of the index word w in the similar document group S. It can be said that the higher the IDF (S), the index word indicates the original concept that appears in the survey target document with the lower document frequency DF in the similar document.
  • the drawing method for “clouds”, “mountains”, and “magma” may be the same as in Example 2 if it is an analysis of patent documents. However, although the maximum Y-axis value used for derivation of the parameter was Y in Example 2, it was implemented.
  • Example 3 it is 1 ⁇ [ ⁇ '].
  • N ′ is the number of documents in the similar document group S.
  • Example 3 is used together with the map proposed in the example of the above-mentioned International Patent Application No. PCTZJP2004Z015082 (particularly the map with IDF (P) on the X axis and IDF (S) on the Y axis). By observing it, it is possible to grasp the character of the document to be investigated more accurately.
  • FIGS 12 and 13 are diagrams illustrating examples of maps output by the index word extraction device according to the fourth embodiment.
  • Example 4 ln ⁇ GFIDF (P) ⁇ TF (d) ⁇ is set on the X axis, and ln ⁇ GFIDF (S) ⁇ TF (d) ⁇ is set on the X axis.
  • the survey target document d in Figs. 12 and 13 is the same as that in Figs. 6 and 7, respectively.
  • the index word (feature index word) extracted by the feature index word extraction unit 180 out of the index words (d) of the survey target document d is output by the map output unit 440.
  • Example 4 takes into account the strength of the assertion in document d itself.
  • GFIDF (P) or GFIDF (S) is the average value of the index word frequency in the document group P or S. It becomes like this. If GFIDF ⁇ TF (d)> l, the index word frequency in the surveyed document d is less than the average (a conservative claim)
  • FIG. 14 and 15 are diagrams illustrating examples of maps output by the index word extraction device according to the fifth embodiment.
  • GFIDF (P) —TF (d) is attached to the X axis
  • GFIDF (S) —TF (d) is attached to the Y axis.
  • the survey target document d in Fig. 14 and Fig. 15 is the same as that in Fig. 6 and Fig. 7, respectively.
  • the map output unit 440 outputs the index word (feature index word) extracted by the feature index word extraction unit 180 out of the index word (d) of the survey target document d.
  • the strength of the assertion in the survey target document d itself is taken into consideration. That is, in Example 4, the difference between In GFIDF and In TF (d) was taken, whereas in Example 5, the difference between GFIDF and TF (d) was taken! /.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

調査対象文書d、比較対象文書群P及び類似文書群Sを入力する入力手段1と、調査対象文書d内の索引語を抽出する索引語抽出手段120と、前記抽出された索引語の、比較対象文書群Pにおける ln GFIDF(P)を算出する第1出現頻度算出手段143と、前記抽出された索引語の、類似文書群Sにおける ln GFIDF(S)を算出する第2出現頻度算出手段171と、各索引語についての、前記算出された比較対象文書群及び類似文書群における各 ln GFIDFの組合せに基づき、各索引語とその位置づけデータとを出力する出力手段4と、を備える。これにより、調査対象文書が与えられたときに、その主張を簡単に把握できるようにする。

Description

調査対象文書の索引語抽出装置
技術分野
[0001] 本発明は、調査対象文書中の索引語の抽出に係わり、特に調査対象文書の主張 を的確に分析することを可能にする索引語の自動抽出装置、抽出プログラム、抽出 方法に関するものである。
背景技術
[0002] 特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。請 求項数が数十にものぼる特許出願も珍しくなぐ大量の文書を調査するには膨大な 作業量を必要とする。近年、文書データが電子化されて流通するようになってから、 膨大な文書群から調査対象の文書に類似した文書だけを自動検索するシステムが 実用化されてきた。例えば、特開平 11 73415号公報「類似文書検索装置及び類 似文書検索方法」(特許文献 1)においては、調査対象の文書に含まれる索引語を他 の文書群に含まれる索引語と比較し、類似する索引語の種類や出現回数など力 類 似度を算出し、最も類似度の高い文書力 順に出力している。
[0003] しかし、類似文書は検索されても、それだけでは調査対象の文書が何を主張して ヽ るかを知ることはできない。調査対象の文書の主張を知るためには、調査対象の文 書を読み込んだ上で、調査対象文書の評価をしなければならな力 た。
[0004] 一方、文書の特徴そのものを自動抽出するものとして、例えば特開平 11 34523 9号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶 媒体」(特許文献 2)が存在する。この公報においては、「標準文書集合」から検索に より「対象文書集合」を抽出し、この「対象文書集合」を構成する各「個別文書」の特 徴情報を抽出している。
具体的には、「対象文書集合」を「標準文書集合」に対して特徴付ける『対象文書集 合全体特徴』を算出するとともに、「対象文書集合」中の各「個別文書」を他の個別文 書に対して特徴付ける『個別文書特徴』を算出する。そして、これら『対象文書集合全 体特徴』と『個別文書特徴』に基づいて、各「個別文書」の特徴情報を出力する。この 技術は、大量の情報の中力 ユーザが有益な情報を見つけ出して取捨選択すること を容易にする点で有益である。
特許文献 1:特開平 11 73415号公報「類似文書検索装置及び類似文書検索方法 J
特許文献 2:特開平 11 345239号公報「文書情報抽出方法及び装置及び文書情 報抽出プログラムを格納した記憶媒体」
発明の開示
発明が解決しょうとする課題
[0005] しかし、上記特開平 11— 345239号公報 (特許文献 2)に記載の技術では例えば「 桜の花見」など特定のテーマを決めて力 これに合致する「対象文書集合」を抽出す る。そしてこの「対象文書集合」が抽出されることで初めて、特徴情報の抽出対象とな る各「個別文書」が決定される。すなわち、「対象文書集合」やそれを抽出する特定の テーマが予め決まって 、な 、と「個別文書」を決定することさえできな 、。従ってこの 公報に記載の技術では、特定の調査対象文書が与えられたときにその主張を分析 することはできない。
また、「個別文書」の特徴情報を出力しても、当該「個別文書」自体に特徴が乏しい ときは十分な情報が得られず、何を主張しょうとする文書なの力も把握できない場合 がある。
[0006] 本発明の課題は、調査対象文書が与えられたときに、その主張を簡単に把握でき るようにする索引語抽出装置を提供することである。
課題を解決するための手段
[0007] (1)上記の課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前 記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似 文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語 抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の 関数値を算出する第 1出現頻度算出手段と、前記抽出された索引語の、前記類似文 書群における出現頻度の関数値を算出する第 2出現頻度算出手段と、各索引語に ついての、前記算出された前記比較対象文書群における出現頻度の関数値と前記 類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置 づけデータとを出力する出力手段と、を備えている。そして、前記第 1出現頻度算出 手段で算出する前記比較対象文書群における出現頻度の関数値又は前記第 2出現 頻度算出手段で算出する前記類似文書群における出現頻度の関数値の少なくとも 何れか一方は、大域的頻度 IDFを変数として含む関数値とする。
大域的頻度 IDFは、与えられた索引語について、与えられた文書群における大域 的頻度を、当該文書群における文書頻度で除したものである。従って、与えられた索 引語を使用する 1文書あたりの、平均使用回数を意味する。この大域的頻度 IDFを 用いることで、調査対象文書の主張を把握することが可能になる。
本発明によれば、調査対象文書内の索引語を抽出する処理、比較対象文書群又 は類似文書群における出現頻度の関数値を算出する処理等は、すべてコンピュータ で行われるので、各処理のために人間が文書内容を読む必要はまったくない。
上記比較対象文書群は、検索処理可能なデータである必要はあるが、内容につい ては格別の制約はなぐある文書群力 無作為抽出されたものでも良いし、一定条件 のもとで全件抽出されたものでもよい。典型例としては、ある国及び期間における全 特許文書 (公開特許公報など)を、比較対象文書群とする。
上記類似文書群も、検索処理可能なデータである必要がある。類似文書群の選出 方法は、ここでは特に限定されず、例えば IPC (国際特許分類)などの分類の一致に より選出してもよい。
上記調査対象文書は、 1文書でも複数の文書でもよい。複数の文書をまとめて調査 対象文書とする場合は、個々の調査対象文書の主張というよりは、文書群に共通す る主張を示すことになる。また調査対象文書は、比較対象文書群又は類似文書群に 含まれるものでも、含まれないものでもよい。
上記索引語抽出手段による索引語の抽出は、文書の全部又は一部力 単語を切り 出すことにより行う。単語の切り出し方に特段の制約はなぐ例えば日本語文書であ れば従来力 知られている方法や市販の形態素解析ソフトを活用して、助詞や接続 詞を除き、意味ある名詞を抽出する方法でも良いし、索引語の辞書 (シソーラス)のデ ータベースを事前に保持し、該データベース力 得られる索弓 I語を利用する方法で ちょい。
索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、 ある索引語で検索したときのヒット文書数 (文書頻度 DF)を用いるが、これに限られる ものではなぐ例えば当該索引語がヒットした延べ回数でもよい。
出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すベて を出力しても良いし、文書の主張を強く示す一部の索引語のみを出力しても良い。ま た、出力手段により索引語とともに出力される位置づけデータは、比較対象文書群及 び類似文書群における出現頻度の関数値をそのままの形で出力しても良いし、これ に基づいて座標上に索引語を配置した図として出力しても良いし、上記出現頻度の 関数値に基づいてグループ分けされた索引語のリストとして出力しても良い。
[0008] (2)上記索引語抽出装置において、前記入力手段は、類似文書群の選出元となる 選出源文書群の各文書と、前記調査対象文書について、各文書に含まれる各索引 語の当該文書における出現頻度の関数値又は各索引語の前記選出源文書群にお ける出現頻度の関数値を成分とするベ外ルを算出し、前記調査対象文書について 算出された前記ベクトルに対する類似度合いの高いベクトルをもつ文書を前記選出 源文書群から選出して、前記類似文書群として入力することが望まし ヽ。
類似文書群の選出を各文書のベクトルに基づいて行うので、高い信頼性を確保す ることができる。また、例えば IPC (国際特許分類)等の一致により類似文書群を選出 する場合と異なり、類似度合いの高い順に何件という形での件数指定も自在にできる 上記ベクトルの類似度合いの判定は、ベクトル間の余弦乃至 Tanimoto相関 (類似 度)などべ外ル成分間の積の関数を用いても良いし、べ外ル間の距離 (非類似度) などベクトル成分間の差の関数を用いてもよい。
上記選出源文書群としては、前記比較対象文書群を用いることとするのが好ましい
[0009] (3)上記各索引語抽出装置において、前記出力手段は、前記比較対象文書群に おける出現頻度の関数値を座標の第 1軸にとり、前記類似文書群における出現頻度 の関数値を前記座標の第 2軸にとって、前記索引語を配置し出力することが望ましい 座標上に配置された索引語の 2次元的な配置により、文書の主張を視覚的に把握 することがでさるよう〖こなる。
座標系としては例えば平面の直交座標を用い、第 1軸として X軸 (横軸)、第 2軸とし て Y軸 (縦軸)を用いるが、これに限らず例えば 3次元座標を用 、て上記以外の指標 を Z軸にとってもよい。
[0010] (4)上記各索引語抽出装置において、前記第 1出現頻度算出手段で算出する前 記比較対象文書群における出現頻度の関数値及び前記第 2出現頻度算出手段で 算出する前記類似文書群における出現頻度の関数値の両方が、大域的頻度 IDFを 変数として含む関数値であることが望まし 、。
これにより、第 1出現頻度算出手段の算出結果が、第 2出現頻度算出手段の算出 結果力 掛け離れている索引語を、雑音として排除し、主張の把握を一層容易にす ることがでさる。
[0011] (5)上記各索引語抽出装置において、前記大域的頻度 IDFを変数として含む関数 値は、大域的頻度 IDFの対数であることが望ましい。
これにより、大域的頻度 IDFの値が大きいほど分散が大きくなる傾向を相殺し、主 張の把握を一層容易にすることができる。
[0012] (6)上記各索引語抽出装置において、前記大域的頻度 IDFを変数として含む関数 値は、大域的頻度 IDFと前記調査対象文書における索引語頻度との比又は差を変 数として含む関数値であることが望ま 、。
これにより、調査対象文書自身における主張の強さを考慮することができ、主張の 把握を容易にすることができる。
[0013] (7) (8)また本発明は、上記各装置によって実行される方法と同じ工程を備えた抽 出方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実 行させることのできる抽出プログラムである。このプログラムは、 FD、 CDROM、 DVD などの記録媒体に記録されたものでもよぐネットワークで送受信されるものでもよい。 発明の効果
[0014] 本発明によれば、調査対象文書が与えられたときに、その主張を簡単に把握できる ようにする索引語抽出装置を提供することができる。
図面の簡単な説明
[0015] [図 1]本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図。
[図 2]上記索引語抽出装置における構成と機能を詳細に説明する図。
[図 3]入力装置 2における条件設定の動作を示すフローチャート。
[図 4]処理装置 1の動作を示すフローチャート。
[図 5]出力装置 4におけるマップの出力の動作を示すフローチャート。
[図 6]実施例 1の索引語抽出装置により出力したマップの例を示す図。
[図 7]実施例 1の索引語抽出装置により出力したマップの他の例を示す図。
[図 8]実施例 2の索引語抽出装置により出力したマップの例を示す図。
[図 9]実施例 2の索引語抽出装置により出力したマップの他の例を示す図。
[図 10]実施例 3の索引語抽出装置により出力したマップの例を示す図。
[図 11]実施例 3の索引語抽出装置により出力したマップの他の例を示す図。
[図 12]実施例 4の索引語抽出装置により出力したマップの例を示す図。
[図 13]実施例 4の索引語抽出装置により出力したマップの他の例を示す図。
[図 14]実施例 5の索引語抽出装置により出力したマップの例を示す図。
[図 15]実施例 5の索引語抽出装置により出力したマップの他の例を示す図。
符号の説明
[0016] 1 :処理装置、 2 :入力装置、 3 :記録装置、4 :出力装置、
120 :索引語 (d)抽出部、 121 :TF (d)演算部、 143 : GFIDF (P)等演算部 (第 1出 現頻度算出手段)、 150 :類似度演算部、 160 :類似文書群 S選出部、 171 : GFIDF (S)等演算部 (第 2出現頻度算出手段)、 180 :特徴索引語抽出部
発明を実施するための最良の形態
[0017] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。
< 1.語彙の説明等 >
本明細書の中で使用する語彙を定義或いは説明する。
調査対象文書 d:調査に係る、ある案件。例えば、特許第何号公報などの文書、或 いはその集合。 比較対象文書群 P :調査対象文書 dと比較する対象の文書の集合。例えば、ある国 及び期間における特許文書 (公開特許公報など)のすベて、又はそこ力も無作為抽 出された文書の集合である。ここでは調査対象文書 dを含む場合にっ 、て説明する が含んでいなくてもよい。
類似文書群 S :調査対象文書 dに類似な文書の集合。ここでは dを含む場合につい て説明するが含んで ヽなくてもょ ヽ。また比較対象文書群 Pの中から選出される場合 につ 、て説明するが別の選出源文書群力 選出されて 、ても良 、。
図中の構成要素に付してある、 d或いは (d)、 P或いは (P)、又は S或いは(S)は、 それぞれ調査対象文書、比較対象文書群、又は類似文書群の意味であり、以降判 別しやすいように構成要素や動作にも付する。例えば、索引語 (d)とは、調査対象文 書 dの索引語を意味する。
以降の説明を簡素にするため、略号を決める。
w. :調査対象文書 dに含まれる索引語。
P :比較対象文書群 Pに属する文書。
N :比較対象文書群 Pの全文書数。
Ν' :類似文書群 Sの文書の数。
TF (d) : dの索引語 wによる、 dの中での出現頻度(索引語頻度; Term Frequency)
TF (P): pの索引語による、 pの中での出現頻度 (索引語頻度)。
DF (P) : d又は pの索引語による、 Pの中での文書頻度(Document Frequency) 0文 書頻度とは、ある索引語で、複数文書力も検索したときのヒット文書数をいう。
DF (S) : dの索引語 wによる、 Sの中での文書頻度。
IDF (P): DF (P)の逆数 X文書数の対数: In [N/DF (P) ]。
IDF (S) : DF (S)の逆数 X文書数の対数: In [Ν' /DF (S) ]。
TFIDF:TFと IDFとの積。文書の索引語ごとに演算される。
GF (P):比較対象文書群 Pを構成する各文書 pにおける索引語頻度 TF (p)の合計 値(大域的頻度; Global Frequency):∑ TF (p)。
ep
GF (S):類似文書群 Sを構成する各文書 sにおける索引語頻度 TF (s)の合計値( 大域的頻度; Global Frequency):∑ TF (s)。
s^S
GFIDF (P)又は GFIDF (w ;P): dの索引語 wによる、 Pの中での大域的頻度 IDF : GF (P) /DF (P) 0
GFIDF (S)又は GFIDF (w ; S): dの索引語 wによる、 Sの中での大域的頻度 IDF : GF (S) /DF (S) 0
類似度 (類似率):調査対象文書 dと、比較対象文書群 Pに属する或る文書 pとの類 似の程度。
[0019] ここで、索引語とは、文書の全部或いは一部力も切り出される単語のことである。単 語の切り出し方は従来力も知られている方法や市販の形態素解析ソフトを活用して、 助詞や接続詞を除き、意味ある名詞を抽出してもよいし、又索引語の辞書 (シソーラ ス)のデータベースを事前に保持し該データベース力も得られる索引語を利用しても よい。
また、対数としてここでは自然対数を用いたが、これに限らず常用対数等を用いて ちょい。
[0020] < 2.索引語抽出装置の構成:図 1、図 2 >
図 1は本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図で ある。
同図に示すように、本実施形態の索引語抽出装置は、 CPU (中央演算装置)およ びメモリ(記録装置)など力も構成される処理装置 1、キーボード (手入力器具)などの 入力手段である入力装置 2、文書データや条件や処理装置 1による作業結果などを 格納する記録手段である記録装置 3、および索引語の抽出結果などをマップで表示 などする出力手段である出力装置 4から構成される。
[0021] 図 2は上記の索引語抽出装置における構成と機能を詳細に説明する図である。
[0022] 処理装置 1は、調査対象文書 d読み出し部 110、索引語 (d)抽出部 120、 TF (d)演 算部 121、比較対象文書群 P読み出し部 130、索引語 (P)抽出部 140、 TF (P)演算 部 141、 IDF (P)演算部 142、 GFIDF (P)等演算部 143、類似度演算部 150、類似 文書群 S選出部 160、索引語 (S)抽出部 170、 GFIDF (S)等演算部 171、特徴索 引語抽出部 180などカゝら構成される。 [0023] 入力装置 2は、調査対象文書 d条件入力部 210、比較対象文書群 P条件入力部 22 0、抽出条件その他入力部 230など力も構成される。
[0024] 記録装置 3は、条件記録部 310、作業結果格納部 320、文書格納部 330などから 構成される。文書格納部 330は外部データベースや内部データベースを含んで 、る 。外部データベースとは、例えば特許庁でサービスしている特許電子図書館の IPD Lや、株式会社パトリスでサービスして!/、る PATOLISなどの文書データベースを意 味する。又内部データベースとは、販売している例えば特許 JP— ROMなどのデータ を自前で格納したデータベース、文書を格納した FD (フレキシブルディスク)、 CDR OM (コンパクトディスク)、 MO (光磁気ディスク)、 DVD (デジタルビデオディスク)な どの媒体力 読み出す装置、紙などに出力された或いは手書きされた文書を読み込 む OCR (光学的情報読み取り装置)などの装置及び読み込んだデータをテキストな どの電子データに変換する装置などを含んでいるものとする。
[0025] 出力装置 4は、マップ作成条件読み出し部 410、マップ用データ取り込み部 412、 マップ出力部 440など力も構成される。
[0026] 図 1及び図 2において、処理装置 1、入力装置 2、記録装置 3、および出力装置 4の 間で信号やデータをやり取りする通信手段としては、 USB (ユニバーサルシステムバ ス)ケーブルなどで直接接続してもよ 、し、 LAN (ローカルエリヤネットワーク)などの ネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM、 MO、 DV Dなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたも のでもよい。
[0027] 次に、図 2により本発明に係る一実施形態の索引語抽出装置における機能を詳しく 説明する。
[0028] < 2— 1.入力装置 2の詳細 >
図 2の入力装置 2において、調査対象文書 d条件入力部 210は、入力画面などによ つて調査対象文書 dの読み出しを行なう条件を設定する。比較対象文書群 P条件入 力部 220は、入力画面などによって比較対象文書群 Pの読み出しを行なう条件を設 定する。抽出条件その他入力部 230は、入力画面などによって調査対象文書 d及び 比較対象文書群 Pの索引語抽出条件、 TF演算の条件、 IDF演算の条件、類似度演 算の条件、類似文書の選出条件、 GFIDF演算の条件、マップ作成条件などを設定 する。これら入力された条件は、記録装置 3の条件記録部 310へ送られ格納される。
[0029] < 2— 2.処理装置 1の詳細 >
図 2の処理装置 1において、調査対象文書 d読み出し部 110は、条件記録部 310 の条件に基づいて、調査対象の文書を、文書格納部 330より読み出す。読み出され た調査対象文書 dは、索引語 (d)抽出部 120に送られる。索引語 (d)抽出部 120は、 条件記録部 310の条件に基づいて、調査対象文書 d読み出し部 110で得られた文 書から索引語の抽出を行ない、作業結果格納部 320に格納する。
[0030] 比較対象文書群 P読み出し部 130は、比較対象となる複数の文書を、条件記録部 310の条件に基づいて、文書格納部 330より読み出す。読み出された比較対象文書 群 Pは、索引語 (P)抽出部 140に送られる。索引語 (P)抽出部 140は、条件記録部 3 10の条件に基づいて、比較対象文書群 P読み出し部 130で得られた文書から索引 語の抽出を行ない、作業結果格納部 320に格納する。
[0031] TF (d)演算部 121は、条件記録部 310の条件に基づいて、作業結果格納部 320 に格納された調査対象文書 dについての索引語 (d)抽出部 120の作業結果を、 TF 演算する。得られた TF (d)のデータは、作業結果格納部 320に格納され或いは直接 類似度演算部 150に送られる。
[0032] TF (P)演算部 141は、条件記録部 310の条件に基づいて、作業結果格納部 320 に格納された比較対象文書群 Pについての索引語 (P)抽出部 140の作業結果を、 T F演算する。得られた TF (P)のデータは、作業結果格納部 320に格納され或いは直 接類似度演算部 150に送られる。
[0033] IDF (P)演算部 142は、条件記録部 310の条件に基づいて、作業結果格納部 320 に格納された比較対象文書群 Pについての索引語 (P)抽出部 140の作業結果を、 I DF演算する。得られた IDF (P)のデータは、作業結果格納部 320に格納され、又は 直接類似度演算部 150に若しくは直接特徴索引語抽出部 180に送られる。
[0034] 類似度演算部 150は、条件記録部 310の条件に基づいて、 TF (d)演算部 121、 T F (P)演算部 141、及び IDF (P)演算部 142の演算結果を、それぞれから直接或い は作業結果格納部 320から得て、比較対象文書群 Pの文書それぞれの、調査対象 文書 dに対する類似度を演算する。得られた類似度は、比較対象文書群 Pのそれぞ れの文書に類似度データとして付され、作業結果格納部 320或いは直接類似文書 群 S選出部 160に送られる。
[0035] 類似度演算部 150における類似度の演算は、各文書の索引語毎に、例えば TFID F演算などの計算がなされ、比較対象文書群 Pの文書それぞれの、調査対象文書 d に対する類似度が計算される。 TFIDF演算とは、 TF演算結果と IDF演算結果の積 である。類似度の演算方法は後で詳しく述べる。
[0036] 類似文書群 S選出部 160は、作業結果格納部 320或いは直接類似度演算部 150 の結果から比較対象文書群 Pの類似度演算結果を得て、条件記録部 310の条件に 基づいて類似文書群 Sを選出する。類似文書群 Sの選出は、例えば類似度の高い順 に文書をソートし、条件に記された必要な数だけ選出する。選出された類似文書群 S は、作業結果格納部 320或いは直接索引語 (S)抽出部 170に出力される。
[0037] 索引語 (S)抽出部 170は、作業結果格納部 320或いは直接類似文書群 S選出部 1 60から類似文書群 Sのデータ入力を得て、この類似文書群 Sから、条件記録部 310 の条件に基づいて索引語 (S)を抽出する。抽出された索引語 (S)は、作業結果格納 部 320或 、は直接 GFIDF (S)等演算部 171に送られる。
[0038] GFIDF (S)等演算部 171は、作業結果格納部 320或いは直接索引語 (S)抽出部 170から索引語 (S)を得て、この索引語 (S)を、条件記録部 310の条件に基づいて GFIDF等の演算をする。 GFIDF (S)等演算部 171で算出する GFIDF等としては、 後述の実施例にあるように、 In GFIDF (S)、 IDF (S)、 GFIDF (S) ÷TF (d)、 GFID F (S)—TF (d)等が挙げられる。得られた GFIDF (S)等は、作業結果格納部 320に 格納され或 ヽは直接特徴索引語抽出部 180に送られる。
[0039] GFIDF (P)等演算部 143は、作業結果格納部 320或いは直接索引語 (P)抽出部 140から索引語 (P)を得て、この索引語 (P)を、条件記録部 310の条件に基づいて GFIDF演算等の演算をする。 GFIDF (P)等演算部 143で算出する GFIDF等として は、後述の実施例にあるように、 In GFIDF (P)、 IDF (P)、 GFIDF (P) ÷TF (d)、 G FIDF (P)—TF (d)等が挙げられる。得られた GFIDF (P)等は、作業結果格納部 32 0に格納され或 、は直接特徴索引語抽出部 180に送られる。 [0040] 特徴索引語抽出部 180は、条件記録部 310の条件に基づいて、作業結果格納部 320から、或いは直接 GFIDF (S)等演算部 171の結果及び GFIDF (P)等演算部 1 43の結果から、条件に記された必要な数だけ、或いは条件に基づいた計算結果に より選ばれた数だけ、索引語 (d)を抽出する。ここで抽出された索引語を「特徴索引 語」と称することにする。抽出された特徴索引語 (d)は、作業結果格納部 320に送ら れる。
[0041] < 2— 3.記録装置 3の詳細 >
図 2の記録装置 3において、条件記録部 310は、入力装置 2から得られた条件など の情報を記録し、処理装置 1或いは出力装置 4の要求に基づき、それぞれに必要な データを送る。作業結果格納部 320は、処理装置 1における各構成要素の作業結果 を格納し、処理装置 1の要求に基づき、必要なデータを送る。
[0042] 文書格納部 330は、入力装置 2或いは処理装置 1の要求に基づき、外部データべ ース或いは内部データベース力 得た、必要な文書データを格納し、提供する。
[0043] < 2-4.出力装置 4の詳細 >
図 2の出力装置 4において、マップ作成条件読み出し部 410は、条件記録部 310 の条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込み部 412 に送る。
[0044] マップ用データ取り込み部 412は、マップ作成条件読み出し部 410の条件に従い、 作業結果格納部 320より、特徴索引語抽出部 180の作業結果を取り込む。取り込ま れた特徴索引語データは、作業結果格納部 320或いは直接マップ出力部 440に送 られる。
[0045] マップ出力部 440は、マップ用データ取り込み部 412から出力される条件とデータ を直接或いは作業結果格納部 320より得て、マップを出力する場を作る。同時に、特 徴索引語抽出部 180の作業結果を、マップ上に表示し、或いは印刷、若しくはデー タで格納できるように出力する。
[0046] マップ出力部 440において出力するマップの特徴的な一例は、特徴索引語抽出部 180において抽出された調査対象文書 dの特徴索引語の各々について、 In GFIDF (P)を横軸の値とし、 In GFIDF (S)を縦軸の値として、二次元の In GFIDF (P) In GFIDF (S)平面上に分布させたマップである。該マップ上で表わされた特徴索引 語の分布状況から、調査対象文書 dの主張を読み取ることができる。
[0047] < 3.索引語抽出装置の動作 >
図 3、図 4、及び図 5は上記の索引語抽出装置における動作を説明する図である。
[0048] < 3— 1.入力動作:図 3 >
図 3は、入力装置 2における条件設定の動作手順を示すフローチャートである。ま ず初期化 (ステップ S201)のあと、入力する条件を区別する (ステップ S 202)。オペ レータが調査対象文書 dの条件入力を選定したときは、調査対象文書 d条件入力部 2 10において調査対象文書 dの条件入力を受けつける (ステップ S210)。次に、入力 された条件が図示しない表示画面でオペレータにより確認され、よければ画面上の「 設定」が選ばれるので、入力された条件を条件記録部 310で格納し (ステップ S310) 、悪ければ「戻る」が選ばれるので、ステップ S210に戻る(ステップ S211)。
[0049] 一方ステップ S202にお ヽてオペレータが比較対象文書群 Pの条件入力を選定し たときは、比較対象文書群 P条件入力部 220において比較対象文書群 Pの条件入 力を受けつける (ステップ S220)。次に、入力された条件が図示しない表示画面でォ ペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件 を条件記録部 310で格納し (ステップ S310)、悪ければ「戻る」が選ばれるので、ステ ップ S220に戻る(ステップ S221)。
[0050] 又、ステップ S202においてオペレータが抽出条件その他の入力を選定したときは 、抽出条件その他入力部 230において抽出条件その他の入力を受けつける (ステツ プ S230)。次に、入力された条件が図示しない表示画面でオペレータにより確認さ れ、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部 310で 格納し (ステップ S310)、悪ければ「戻る」が選ばれるので、ステップ S230に戻る(ス テツプ S231)。該ステップ S230においては、索引語 (d)の抽出条件及び類似文書 群 Sの選出条件と、特徴索引語等の出力条件との両方を設定する。
[0051] < 3— 2.特徴索引語の抽出動作:図 4>
図 4は、処理装置 1の動作を示すフローチャートである。まず初期化 (ステップ S101 )のあと、条件記録部 310の条件に基づいて、文書格納部 330から読み出す文書を 、調査対象文書 dと比較対象文書群 Pに区別する (ステップ S102)。読み出す文書が 調査対象文書 dであるとき、調査対象文書 d読み出し部 110において調査対象文書 を文書格納部 330より読み出す (ステップ S110)。次に、索引語 (d)抽出部 120にお いて調査対象文書 dの索引語抽出を行なう (ステップ S120)。引き続き、抽出された 索引語の各々につ 、て、 TF (d)演算部 121にお!/、て TF演算をする(ステップ S 121
) o
[0052] 一方ステップ S102で、読み出す文書が比較対象文書群 Pであるとき、比較対象文 書群 P読み出し部 130にお 、て比較対象文書群 Pを読み出す (ステップ S 130)。次 に、索引語 (P)抽出部 140において比較対象文書群 Pの索引語抽出を行なう (ステツ プ S140)。引き続き、抽出された索引語の各々について、 TF (P)演算部 141におい て TF演算をする(ステップ S141)とともに、 IDF (P)演算部 142において IDF演算を する(ステップ S 142)。
[0053] 次に、 TF (d)演算部 121の出力の TF (d)演算結果と、 TF (P)演算部 141の出力 の TF (P)演算結果、及び IDF (P)演算部 142の出力の IDF (P)演算結果を基に、 類似度演算部 150により、類似度の演算を行なう (ステップ S150)。この類似度の演 算は、入力装置 2から入力された条件に基づき、類似度算出のための類似度算出モ ジュールを外部記録部 310から呼び出してきて実行する。
[0054] 類似度演算の具体的な一例を説明すると以下の通りである。今、 dを調査対象文書 とし、 pを比較対象文書群 Pの個々の文書とする。これら文書 d及び pに対する演算の 結果、文書 dから切り出された索引語を「赤」「青」「黄」とする。また、文書 pから切り出 された索引語を「赤」「白」とする。その場合、文書 d中の索引語の索引語頻度を TF ( d)とし、文書 p中の索引語の索引語頻度を TF (P)とし、比較対象文書群 Pから得た 索引語の文書頻度を DF (P)とし、全文書数を 50とする。このとき、例えば、
[0055] [表 1] 索引語及び TF(d) 赤(1 ) , 青(2) , 黄(4)
索引語及び TF(P) 赤(2) , 白(1 )
索引語及び DF(P) 赤(30) ,青(20) ,黄(45) , 白(1 3) [0056] であるとする。 TF * IDF (P)を各文書の索引語毎に計算して、ベクトル表現を算出 する。この結果は文書ベクトル d及び pについて、
[0057] [表 2]
Figure imgf000017_0001
[0058] となる。このベクトル d及び p間の余弦 (又は距離)の関数を取れば、文書ベクトル d及 び P間の類似度 (又は非類似度)が得られる。なお、べ外ル間の余弦 (類似度)は値 が大きいほど類似度合いが高いことを意味し、べ外ル間の距離 (非類似度)は値が 小さいほど類似度合いが高いことを意味する。得られた類似度は、作業結果格納部 320に格納されるとともに、類似文書群 S選出部 160に送られる。
[0059] 次に、類似文書群 S選出部 160により、ステップ S150にて類似度演算した文書を 類似度の順に並べ替え、抽出条件その他入力部 230において設定した条件に沿つ た数の類似文書群 Sを選出する (ステップ S 160)。
[0060] 次に、類似文書群 Sの索引語 (S)抽出部 170により、ステップ S160にて選出した 類似文書群 Sの索引語 (S)を抽出する (ステップ S170)。
[0061] 次に、索引語 (d)の各々について、 GFIDF (S)等演算部 171により、類似文書群 S における GFIDF等の演算をする(ステップ S171)。
[0062] 一方、索引語 (d)の各々について、 GFIDF (P)等演算部 143により、比較対象文 書群 Pにおける GFIDF等の演算をする(ステップ S143)。
[0063] 次に、ステップ S171による GFIDF (S)演算の結果と、ステップ S 143による GFIDF
(P)演算の結果とから、特徴索引語を抽出する (ステップ S180)。
[0064] < 3— 3.出力動作:図 5 >
図 5は、出力装置 4による、マップの出力の動作手順を示すフローチャートである。 まず初期化 (ステップ S401)のあと、条件記録部 310から、マップ作成条件の読み出 しを開始する(ステップ S402)。
[0065] 出力装置のマップ作成条件読み出し部 410で条件記録部 310からマップ作成条 件を読み出したとき (ステップ S410)、マップを必要とする条件であったら (ステップ S 411)、作業結果格納部 320からマップ用データ取り込み部 412へのマップ用データ 取り込みを行なう(ステップ S412)。次に、マップ作成条件読み出し部 410のマップ 作成条件に沿って、マップを作成し (ステップ S413)、マップ出力部 440に送る。
[0066] ステップ S411でマップを表示する条件でなかったら、その時点で終了し、マップ出 力部 440へはデータを送らな!/、。
[0067] <4.実施例 1 :図 6、図 7>
<4 1.分布特徴 >
図 6及び図 7は、実施例 1の索引語抽出装置により出力したマップの例を示す図で ある。実施例 1では、 In GFIDF (P)を X軸に、 In GFIDF (S)を Y軸にとっている。図 6 は、「抗腫瘍剤」に関する公開特許公報 2件をまとめて調査対象文書 dとしたもので、 図 7は、「漏洩電流測定装置」に関する公開特許公報 1件を調査対象文書 dとしたも のである。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180 で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。
[0068] 図 6及び図 7において、 Xの値が高いほど比較対象文書群 Pにおける平均使用回 数が多ぐ Xの値が低いほど比較対象文書群 Pにおける平均使用回数が少ない。 Y の値についても類似文書群 Sにおける平均使用回数を問題とするほかは Xの値につ いて述べたと同様である。比較対象文書群 Pから選ばれる類似文書群 Sの文書数に 依存せず、一様に含まれる索引語の場合は、 Y=Xの比例関係が成立するが、実際 には雑音が入り、原点力 右上に向力つて吹き出すような分布になる。
[0069] 例えば特許文書などの技術文書では、解決しょうとする課題に関する記載と、これ を解決するための具体的構成に関する記載がなされる。 1つの文書において、課題 に関する記載が何度も繰り返しなされることはあまりない。これに対し、構成に関する 記載は様々な角度からの検討結果として詳細に記載されるので、 1つの文書におい て構成に関する同一の用語が繰り返し用いられることが多 、。
[0070] 従って、 GFIDF (P)及び GFIDF (S)が大きい索引語は、文書に記載された具体 的構成を表す語であり、 GFIDF (P)及び GFIDF (S)が小さい索引語は、文書に記 載された課題を表す語であると推定できる。特に、 GFIDF (S)は類似文書群 Sにお けるデータであるので、推定にあたって重視することができる。これに対し、例えば G FIDF (P)が高くても GFIDF (S)が高くはな 、語は、 Y=Xの比例関係力 大きく外 れており、雑音とみなすことができる。また、類似文書群 Sにおいて 1文書あたり 1回し か使用されていない語 (Υ=0)は、独特な着眼点を表す語であることが多い。
[0071] 以上のことから、マップ右上部の GFIDF (Ρ)及び GFIDF (S)が大き 、部分を仮に 「雲」と称し、マップ左下部の GFIDF (P)及び GFIDF (S)が小さ 、部分を仮に「山」と 称する。「山」のうち特に Y=0付近の領域は、火山の下部になぞらえて仮に「マグマ」 と称する。
すると、独特の着眼点を示す「マグマ」を含む「山」の領域を課題とし、火山が爆発し て噴煙が飛散し、構成を表す「雲」が形成されたという解釈が可能となる。ちょうど、 G FIDF (Ρ)及び GFIDF (S)が大きくもなく小さくもな 、部分、特に GFIDF (P)が大き くても GFIDF (S)が大きくな 、部分は、「雲」及び「山」から除外され雑音として解釈 できる。
[0072] <4- 2.描画法 >
「雲」「山」「マグマ」の描画法として、特許文書の解析に好適な一例を示すと次の通 りである。
まず、調査対象文書 dに含まれる索引語群 w E dのうち、雲の形状を特徴付ける索 引語群 Wを準備する。すなわち、
w= {請求、特徴、手段、方法、前記、記載、装置、組成、剤、該、当該 } n {w e d} 但し、「該」が存在するときは、「当該」を勘定しない。また公報種別 (公開公報、特許 掲載公報などの別)や IPC別に応じて、 Wの語群を別途定義しても良い。
[0073] 以下、 Wを変域とする最大、最小、平均の各演算をそれぞれ Max 、 Min 、 < >
W W W
と表し、 Max ' は「前記」が存在するなら Max を、「前記」が存在しないなら調査対象
W W
文書 dの全索引語における最大値を取得する演算を表すものとする。
[0074] これらの演算から得られる分布パラメータ群を用いて、上記「山」及び「マグマ」(これ らは Gauss曲線を用いて表す)、更に「雲」(これは楕円で表す)に対する曲線の描画 ノ ラメータを指定する。ここで Gauss曲線と楕円の一般式は次の通りである。 Gauss曲線: f(X)= hExp[ — π {(Χ— Χ )/σ } ]
o
楕円: {(X— ) Zr }2 +{(Y— v)Zr }2 = 1
1 2
[0075] 「山」及び「マグマ」は、 X*f (X)で表す。パラメータは、
「山」の高さ h=Min In GFIDF(w;S)
W i
なお、「マグマ」の高さは hZ8 とする。
幅 Δ = 2 X 0.6745 σ =Min In GFIDF (w; P)
W i
中心値 X =ΔΖ2
o
とする。
[0076] 「雲」は、上記の楕円で表す。パラメータは、
中心( , ν) = «Χ> , <Υ> )
w w
X軸半径 r = (Max ' X— Min X) p /2
1 w w
Y軸半径 r = (Max Y Min Y) p /2
2 W W
とする。ここで倍率 は、
Figure imgf000020_0001
であり、 gは、調査対象文書 d内に存在する Wの語の種数 kを用いて、
g = Max(Min(k, b) , a)
k=∑ 0 (TF(d))
w
で与えられる数である。すなわち、種数 k力 より小なら aで置換、 bより大なら bで置換 する。例えば、 a = 3、 b = 10とすると pは区間 [1.10, 1.333]の値をとる。 a=b = 10なら 常に p =1.10である。なお、 Θ (A)は、 Aが正なら 1、それ以外なら 0を返す関数であ る。
Y軸半径において Max 'を用いていないのは、縦軸よりも横軸方向の分散取得に
W
重点を置いたためである。
[0077] <4 3.解析結果 >
図 6の調査対象文書である「抗腫瘍剤」に関する公開特許公報 2件を予め通読し、 人力で要約した結果は次の通りである。
課題:臓器への副作用が低く、腫瘍のストレス抵抗作用を抑制する新たな抗腫瘍剤 を提供する。 構成:ヘム酸ィ匕酵素の阻害剤からなる抗腫瘍剤。 PEG (ポリエチレングリコール)で 化学修飾する。
[0078] 図 6のマップでは、課題の「山」の領域に「臓器」「副作用」「ストレス」「抑制」「新た」「 制癌剤」「提供」などの語が見られる。したがって、調査対象文書を直接読まなくても、 マップを見るだけでこれらの語から課題を窺い知ることができる。
また図 6のマップでは、構成の「雲」の領域に「ヘム」「酸化」「酵素」「阻害」「剤」 ΓΡΕ Gj「修飾」などの語が見られる。したがって、調査対象文書を直接読まなくても、マツ プを見るだけでこれらの語から構成を窺い知ることができる。
[0079] 図 7の調査対象文書である「漏洩電流測定装置」に関する公開特許公報 1件を予 め通読し、人力で要約した結果は次の通りである。
課題:規定値以下で絶縁状態の良否を判定する。
構成:乗算回路の高周波成分を除去するローパスフィルタの出力信号を検出する。
[0080] 図 7のマップでは、課題の「山」の領域に「規定」「以下」「良否」「漏洩」などの語が見 られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの 語から課題を窺 、知ることができる。
また図 7のマップでは、構成の「雲」の領域に「乗算」「高調」「波」「成分」「ロー」「パ ス」「フィルタ」などの語が見られる。したがって、調査対象文書を直接読まなくても、 マップを見るだけでこれらの語から構成を窺い知ることができる。
[0081] また、実施例 1のマップを、本出願の優先日において未公開の国際特許出願番号 PCTZJP2004Z015082の実施例で提案したマップ(特に IDF (P)を X軸に、 IDF (S)を Y軸にとったマップ)と併せて観察することで、調査対象文書の性格をより的確 に把握することができる。
更に、実施例 1のマップによって、着眼点から導かれる構成要件や技術要素を把握 することで、派生要素や応用を探ることもできるようになる。
[0082] < 5.実施例 2 :図 8、図 9 >
< 5- 1.分布特徴 >
図 8及び図 9は、実施例 2の索引語抽出装置により出力したマップの例を示す図で ある。実施例 2では、 In GFIDF (P)を X軸に、 Y—In GFIDF (S)を Y軸にとっている
0
。ここで、 Y =Max In GFIDF (S)である。すなわち、実施例 1のマップにおける索引
0
語配置を上下反転した配置になっている。なお、図 8及び図 9の調査対象文書 dは、 それぞれ図 6及び図 7のものと同一である。このマップは、調査対象文書 dの索引語( d)のうち特徴索引語抽出部 180で抽出された索引語 (特徴索引語)を、マップ出力 部 440で出力する。
[0083] 図 8及び図 9においては、マップ右下部の「山」の頂上付近に構成を表す語が配置 され、「山」の内部により広義の構成概念を表す語が配置される。「マグマ」部には類 似文書群 Sにおける索引語平均頻度が最高の語が出現し、構成の土台となる概念を 示す。そして、「雲」部には「山」部の構成により解決された課題を示す語が配置され る。
すなわち、実施例 1とは逆に、実施例 2では、「山」部の構成要件から出発し、「雲」 部にどんな観点を捻出したかを表現するマップとなる。
[0084] < 5— 2.描画法 >
「雲」「山」「マグマ」の描画法として、特許文書の解析に好適な一例を示すと次の通 りである。
まず、実施例 1と同様に索引語群 W、 Max 、 Min 、く > 、 Max
W W W W ' を定義する。
[0085] 「山」及び「マグマ」は、 Gauss曲線 f (X)で表す。パラメータは、
「山」の高さ h= (lZ2)Y
0
なお、「マグマ」の高さは hZ8 とする。
幅 Δ = 2 X 0.6745 σ
= Max ' In GFIDF (w; P) Min In GFIDF (w; P)
W i W i
中心値 X = <ln GFIDF (w; P) >
0 i W
とする。
[0086] 「雲」は、楕円で表す。パラメータは、
中心 , v ) = (X /2, (7/8)Y )
0 0
X軸半径 r =X /2
1 0
Y軸半径 r =Y /4 とする。
[0087] < 5— 3.解析結果 >
図 8のマップでは、課題の「雲」の領域に「臓器」「副作用」「ストレス」「抑制」「新た」「 制癌剤」「提供」などの語が見られる。したがって、調査対象文書を直接読まなくても、 マップを見るだけでこれらの語から課題を窺い知ることができる。
また図 8のマップでは、構成の「山」の領域に「ヘム」「酸化」「酵素」「阻害」「剤」「PE Gj「修飾」などの語が見られる。したがって、調査対象文書を直接読まなくても、マツ プを見るだけでこれらの語から構成を窺い知ることができる。
[0088] 図 9のマップでは、課題の「雲」の領域に「規定」「以下」「良否」「漏洩」などの語が見 られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの 語から課題を窺 、知ることができる。
また図 9のマップでは、構成の「山」の領域に「乗算」「回路」「高調」「波」「成分」「口 一」「パス」「フィルタ」「出力」「信号」「検出」などの語が見られる。したがって、調査対 象文書を直接読まなくても、マップを見るだけでこれらの語から構成を窺い知ることが できる。
[0089] また、実施例 2のマップを、上記国際特許出願番号 PCTZJP2004Z015082の 実施例で提案したマップ (特に IDF (P)を X軸に、 IDF (S)を Y軸にとったマップ)と併 せて観察することで、調査対象文書の性格をより的確に把握することができる。
更に、実施例 2のマップによって、既知の発明の構成要件から、開発のヒントを探る ことちでさるようになる。
[0090] < 6.実施例 3 :図 10、図 11 >
< 6- 1.分布特徴 >
図 10及び図 11は、実施例 3の索引語抽出装置により出力したマップの例を示す図 である。実施例 3では、 In GFIDF (P)を X軸に、 IDF (S)を Y軸にとっている。なお、 図 10及び図 11の調査対象文書 dは、それぞれ図 6及び図 7のものと同一である。こ のマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180で抽出され た索引語 (特徴索引語)を、マップ出力部 440で出力する。 [0091] 実施例 1のマップの分布傾向は Y=X、実施例 2では Υ— Υ=Χの直線関係にある
0
ので、主張の把握を X軸又は Υ軸の何れか一方の値だけで満足することにすれば、 他方の座標軸に他の値を使うことができる。 IDF (S)は、類似文書群 Sにおいて索引 語 wが検索ヒットする文書数逆冪関数 (逆文書頻度)である。 IDF (S)が高いほど、類 似文書の中で文書頻度 DFが低ぐ調査対象文書に表れた独創的な概念を示す索 引語ということができる。
[0092] 図 10及び図 11においては、 In GFIDF (P)を X軸に、 IDF (S)を Y軸にとったので 、 X軸の値力も主張を、 Y軸の値力も独創度を読み取ることができる。
[0093] 索引語平均頻度と文書頻度は本来無関係であるが、使用必然性の弱い語に限定 すれば、 1文書あたりの使用回数が少ない語は文書頻度も小さいと言える。従って、 X軸値の低いものほど、文書頻度も落ちて Y軸値が増加し、実施例 2の索引語分布と 類似した分布が得られる。
DF値が高 、ものは Y軸値が下がるので、実施例 2では課題を示す「雲」部の中にあ つた語でも、必然的に使用せざるを得な!、ルーチン的な語 (独創性の低!、語)などは 「雲」部の下に押し下げられる。
「山」部においても、ルーチン的な語は「マグマ」部にまで押し下げられ、逆に独創 性を示す語が上がってくる。
[0094] < 6— 2.描画法 >
「雲」「山」「マグマ」の描画法としては、特許文書の解析なら実施例 2と同様でよい。 但し、ノ ラメータの導出に用いる Y軸値の最大値は、実施例 2では Yだったが実施
0
例 3では 1η[Ν' ]である。ここで、 N' は類似文書群 Sの文書数である。
[0095] < 6— 3.解析結果 >
図 10のマップでは、課題の「雲」の領域に「臓器」「ストレス」「新た」「制癌剤」などの 語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこ れらの語から課題を窺い知ることができる。但し、「副作用」「抑制」「提供」の語は「雲」 の領域よりかなり下に下がっている。
また図 10のマップでは、構成の「山」の領域に「酸化」「酵素」「阻害」「剤」「修飾」な どの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけ でこれらの語から構成を窺い知ることができる。但し、「ヘム」「PEG」の語は「山」の領 域よりかなり上に上がっている。
[0096] 図 11のマップでは、課題の「雲」の領域に「規定」「良否」「漏洩」などの語が見られ る。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語か ら課題を窺い知ることができる。但し、「以下」の語は「雲」の領域よりかなり下に下がつ ている。
また図 11のマップでは、構成の「山」の領域に「乗算」「回路」「高調」「波」「成分」「口 一」「パス」「フィルタ」「出力」「信号」「検出」などの語が見られる。したがって、調査対 象文書を直接読まなくても、マップを見るだけでこれらの語から構成を窺い知ることが できる。
[0097] また、実施例 3のマップを、上記国際特許出願番号 PCTZJP2004Z015082の 実施例で提案したマップ (特に IDF (P)を X軸に、 IDF (S)を Y軸にとったマップ)と併 せて観察することで、調査対象文書の性格をより的確に把握することができる。
[0098] < 6— 4.変形例 >
例えば IDF (P)を X軸に、 In GFIDF (S)を Y軸にとっても、直線 Y=Xに関する鏡 像をとれば同様な傾向が観測されるので、これを用いても良 、。
[0099] < 7.実施例 4 :図 12、図 13 >
< 7- 1.分布特徴 >
図 12及び図 13は、実施例 4の索引語抽出装置により出力したマップの例を示す図 である。実施例 4では、 ln{GFIDF (P) ÷TF (d) }を X軸に、 ln{GFIDF (S) ÷TF (d) }を丫軸にとっている。なお、図 12及び図 13の調査対象文書 dは、それぞれ図 6及び 図 7のものと同一である。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引 語抽出部 180で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。
[0100] 実施例 4では、調査対象文書 d自身における主張の強さを考慮に入れている。すな わち、 GFIDF (P)或いは GFIDF (S)は、文書群 P或いは Sにおける索引語頻度の 平均値であるから、これを調査対象文書 d自身における索引語頻度で除算すれば、 次のようになる。 GFIDF÷TF(d)>l なら、調査対象文書 dでの索引語頻度は平均より少ない (控 えめな主張)
GFIDF÷TF(d)=l なら、調査対象文書 dでの索引語頻度は平均と同じ (普通 の主張)
GFIDF÷TF(d) < 1 なら、調査対象文書 dでの索引語頻度は平均よりも多い (強 い主張)
[0101] GFIDF(P) ÷TF(d)を X軸に、 GFIDF(S) ÷TF(d)を Y軸にとったマップでは、 判別境界点 (X, Y) = (1, 1)より右上領域の面積が圧倒的に広いので、マップが見 難い。そこでこれらの対数をとれば、この問題は解決される。すなわち、判別境界点 は(0, 0)となり、対数関数の真数部が 1より小の場合、対数値は勾配がきついので、 負のマップエリアが拡大される。
[0102] < 7— 2.描画法 >
原点を中心とする半径 1.0の大円及び半径 0.4の小円を考え、この大円乃至小円で 与えられる任意の円内を「普通の主張」の領域とし、これより右上部を「控えめな主張 」、左下部を「強い主張」の領域とする。なお、
-1.0 < ln{GFIDF÷TF(d)}< 1.0 は、
1/3 < GFIDF÷TF(d)< 2.7 に、
-0.4 < ln{GFIDF÷TF(d)}< 0.4 は、
2/3 < GFIDF÷TF(d)< 1.5 に、
それぞれ相当する。
これらの図を実施例 1乃至実施例 3の何れかと併せて観察することで、文書の主張 をより的確に把握することができる。
<7-3.解析結果 >
図 12のマップでは、「強い主張」の領域に「腫瘍」「剤」「提供」の語が見られ、「普通 の主張」の領域に「作用」「酸素」「活性」「ZnPP」「プロトポルフィリン」等の語が見られ る。これにより、調査対象文書の主張を、その強さとともに窺い知ることができる。 図 13のマップでは、「強い主張」の領域に「回路」「漏れ」の語が見られ、「普通の主 張」の領域に「規定」「判定」「結果」等の語が見られる。これにより、調査対象文書の 主張を、その強さとともに窺い知ることができる。
[0103] < 8.実施例 5 :図 14、図 15 >
< 8- 1.分布特徴 >
図 14及び図 15は、実施例 5の索引語抽出装置により出力したマップの例を示す図 である。実施例 5では、 GFIDF (P)— TF (d)を X軸に、 GFIDF (S)— TF (d)を Y軸 にとつている。なお、図 14及び図 15の調査対象文書 dは、それぞれ図 6及び図 7のも のと同一である。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出 部 180で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。
[0104] 実施例 5では、実施例 4と同様、調査対象文書 d自身における主張の強さを考慮に 入れている。すなわち、実施例 4では、 In GFIDFと In TF (d)の差をとつたのに対し、 実施例 5では、 GFIDFと TF (d)の差をとつて!/、る。
[0105] < 8— 2.描画法 >
X= 1、 Υ= 1より右上部を「控えめな主張」、左下部を「強!/、主張」の領域とし、 (X, Υ) = (1, 1)を中心とする適当な円内を「普通の主張」の領域とする。
これらの図を実施例 1乃至実施例 3の何れかと併せて観察することで、文書の主張 をより的確に把握することができる。
< 8— 3.解析結果 >
図 14のマップでは、「強い主張」の領域に「腫瘍」「剤」「提供」「作用」の語が見られ 、「普通の主張」の領域に「活性」「酸素」「破綻」「ΖηΡΡ」「プロトポルフィリン」「副作用 」等の語が見られる。これにより、調査対象文書の主張を、その強さとともに窺い知る ことができる。
図 15のマップでは、「強い主張」の領域に「増幅」「回路」「判定」の語が見られ、「普 通の主張」の領域に「規定」「信号」「結果」「カレントトランスセンサ」等の語が見られる 。これにより、調査対象文書の主張を、その強さとともに窺い知ることができる。

Claims

請求の範囲
[1] 調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象 文書に類似する類似文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語とその位置づけデータとを出力する出力手段と、
を備え、
前記第 1出現頻度算出手段で算出する前記比較対象文書群における出現頻度の 関数値又は前記第 2出現頻度算出手段で算出する前記類似文書群における出現 頻度の関数値の少なくとも何れか一方が、大域的頻度 IDFを変数として含む関数値 である、索引語抽出装置。
[2] 請求項 1において、
前記入力手段は、
類似文書群の選出元となる選出源文書群の各文書と、前記調査対象文書にっ 、 て、各文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引 語の前記選出源文書群における出現頻度の関数値を成分とするベ外ルを算出し、 前記調査対象文書につ!ヽて算出された前記ベクトルに対する類似度合!ヽの高 ヽ ベクトルをもつ文書を前記選出源文書群から選出して、前記類似文書群として入力 する、索引語抽出装置。
[3] 請求項 1又は請求項 2において、
前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第 1軸にとり、 前記類似文書群における出現頻度の関数値を前記座標の第 2軸にとって、前記索 引語を配置し出力する、索引語抽出装置。
[4] 請求項 1乃至請求項 3の何れか一項において、
前記第 1出現頻度算出手段で算出する前記比較対象文書群における出現頻度の 関数値及び前記第 2出現頻度算出手段で算出する前記類似文書群における出現 頻度の関数値の両方が、大域的頻度 IDFを変数として含む関数値である、索引語抽 出装置。
[5] 請求項 1乃至請求項 4の何れか一項において、
前記大域的頻度 IDFを変数として含む関数値は、大域的頻度 IDFの対数である、 索引語抽出装置。
[6] 請求項 1乃至請求項 4の何れか一項において、
前記大域的頻度 IDFを変数として含む関数値は、大域的頻度 IDFと前記調査対象 文書における索引語頻度との比又は差を変数として含む関数値である、索引語抽出 装置。
[7] 調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象 文書に類似する類似文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語とその位置づけデータとを出力する出力ステップと、
を備え、
前記第 1出現頻度算出ステップで算出する前記比較対象文書群における出現頻 度の関数値又は前記第 2出現頻度算出ステップで算出する前記類似文書群におけ る出現頻度の関数値の少なくとも何れか一方が、大域的頻度 IDFを変数として含む 関数値である、索引語抽出方法。 調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象 文書に類似する類似文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語とその位置づけデータとを出力する出力ステップと、
をコンピュータに実行させる索引語抽出プログラムであって、
前記第 1出現頻度算出ステップで算出する前記比較対象文書群における出現頻 度の関数値又は前記第 2出現頻度算出ステップで算出する前記類似文書群におけ る出現頻度の関数値の少なくとも何れか一方が、大域的頻度 IDFを変数として含む 関数値である、索引語抽出プログラム。
PCT/JP2006/308473 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置 WO2006115227A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/918,793 US20090077073A1 (en) 2005-04-21 2006-04-21 Index term extraction device for document-to-be-surveyed
EP06732231A EP1876541A1 (en) 2005-04-21 2006-04-21 Device for extracting index word in document to be examined
JP2007514695A JPWO2006115227A1 (ja) 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005124325 2005-04-21
JP2005-124325 2005-04-21

Publications (1)

Publication Number Publication Date
WO2006115227A1 true WO2006115227A1 (ja) 2006-11-02

Family

ID=37214842

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/308473 WO2006115227A1 (ja) 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置

Country Status (4)

Country Link
US (1) US20090077073A1 (ja)
EP (1) EP1876541A1 (ja)
JP (1) JPWO2006115227A1 (ja)
WO (1) WO2006115227A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
JP5458880B2 (ja) * 2009-03-02 2014-04-02 富士通株式会社 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
KR101247252B1 (ko) * 2011-05-09 2013-03-25 한국생산기술연구원 융합 지수 서비스 시스템
KR101247250B1 (ko) * 2011-05-09 2013-03-25 한국생산기술연구원 융합 지수 산출 방법
KR101425816B1 (ko) 2013-10-29 2014-08-05 네이버 주식회사 실시간 검색 구현 방법 및 그 시스템
US9529860B2 (en) * 2014-12-01 2016-12-27 Bank Of America Corporation Keyword frequency analysis system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835126A (en) * 1996-03-15 1998-11-10 Multimedia Systems Corporation Interactive system for a closed cable network which includes facsimiles and voice mail on a display
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US6243725B1 (en) * 1997-05-21 2001-06-05 Premier International, Ltd. List building system
US6118450A (en) * 1998-04-03 2000-09-12 Sony Corporation Graphic user interface that is usable as a PC interface and an A/V interface
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7231175B2 (en) * 1998-06-16 2007-06-12 United Video Properties, Inc. Music information system for obtaining information on a second music program while a first music program is played
CN1867068A (zh) * 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
AR020608A1 (es) * 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
US6498784B1 (en) * 1998-10-20 2002-12-24 Interdigital Technology Corporation Cancellation of pilot and traffic signals
US6408128B1 (en) * 1998-11-12 2002-06-18 Max Abecassis Replaying with supplementary information a segment of a video
US6356971B1 (en) * 1999-03-04 2002-03-12 Sony Corporation System for managing multimedia discs, tracks and files on a standalone computer
US6263503B1 (en) * 1999-05-26 2001-07-17 Neal Margulis Method for effectively implementing a wireless television system
EP1197075A1 (en) * 1999-06-28 2002-04-17 United Video Properties, Inc. Interactive television program guide system and method with niche hubs
US20010042107A1 (en) * 2000-01-06 2001-11-15 Palm Stephen R. Networked audio player transport protocol and architecture
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US6952737B1 (en) * 2000-03-03 2005-10-04 Intel Corporation Method and apparatus for accessing remote storage in a distributed storage cluster architecture
US20020059616A1 (en) * 2000-03-31 2002-05-16 Ucentric Holdings, Inc. System and method for providing video programming information to television receivers over a unitary set of channels
US6931593B1 (en) * 2000-05-22 2005-08-16 Gateway Inc. Automatic channel generation for home network systems
US20020010652A1 (en) * 2000-07-14 2002-01-24 Sony Corporation Vendor ID tracking for e-marker
EP1314083A2 (en) * 2000-08-04 2003-05-28 Copan Inc. Method and system for presenting digital media
US20020059588A1 (en) * 2000-08-25 2002-05-16 Thomas Huber Personalized remote control
JP2002118451A (ja) * 2000-10-10 2002-04-19 Fujitsu Ltd 定電流ドライバ回路
CA2428946C (en) * 2000-11-14 2010-06-22 Scientific-Atlanta, Inc. Networked subscriber television distribution
US20020180803A1 (en) * 2001-03-29 2002-12-05 Smartdisk Corporation Systems, methods and computer program products for managing multimedia content
US8601519B1 (en) * 2000-12-28 2013-12-03 At&T Intellectual Property I, L.P. Digital residential entertainment system
US20020166123A1 (en) * 2001-03-02 2002-11-07 Microsoft Corporation Enhanced television services for digital video recording and playback
US7346917B2 (en) * 2001-05-21 2008-03-18 Cyberview Technology, Inc. Trusted transactional set-top box
US8291457B2 (en) * 2001-05-24 2012-10-16 Vixs Systems, Inc. Channel selection in a multimedia system
US6901603B2 (en) * 2001-07-10 2005-05-31 General Instrument Corportion Methods and apparatus for advanced recording options on a personal versatile recorder
US20050039208A1 (en) * 2001-10-12 2005-02-17 General Dynamics Ots (Aerospace), Inc. Wireless data communications system for a transportation vehicle
US20030110272A1 (en) * 2001-12-11 2003-06-12 Du Castel Bertrand System and method for filtering content
NL1020670C2 (nl) * 2002-05-24 2003-11-25 Oce Tech Bv Het bepalen van een semantische afbeelding.
US7464110B2 (en) * 2004-06-30 2008-12-09 Nokia Corporation Automated grouping of image and other user data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AIZAWA A.: "Go to Bunsho no Kyoki ni Motozuku 'Tokuchoryo' no Teigi to Tekiyo. (A Quantitative Repesentation of Features based on Words and Documents Co-occurences)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2000, no. 29, 22 March 2000 (2000-03-22), pages 25 - 32, 2000-FI-57-4, XP003004658 *
ISHIDA K. ET AL.: "Yogokan Kankei ni Chakumoku shita Bunshokan Kankei ni Kansuru Tokeiteki Bunseki to Bunseki Shien System no Kaihatsu. (On a satistical analysis of relation among documents in terms of terminology and a development of system to support the analysis)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 99, no. 57, pages 49 - 56, 99-FI-55-7, XP003004659 *

Also Published As

Publication number Publication date
JPWO2006115227A1 (ja) 2008-12-18
EP1876541A1 (en) 2008-01-09
US20090077073A1 (en) 2009-03-19

Similar Documents

Publication Publication Date Title
CN103329126B (zh) 利用联合图像-音频查询的搜索
US9077949B2 (en) Content search device and program that computes correlations among different features
US11461386B2 (en) Visual recognition using user tap locations
WO2006115227A1 (ja) 調査対象文書の索引語抽出装置
Strobelt et al. Document cards: A top trumps visualization for documents
CN108416028B (zh) 一种搜索内容资源的方法、装置及服务器
WO2017045443A1 (zh) 一种图像检索方法及系统
US20110078176A1 (en) Image search apparatus and method
KR20140093957A (ko) 상호작용 멀티-모달 이미지 검색 기법
EP3144823A1 (en) Presenting translations of text depicted in images
WO2005038672A1 (ja) 調査対象文書の文書特徴分析装置
CN109918513A (zh) 图像处理方法、装置、服务器及存储介质
GB2569833A (en) Shape-based graphics search
JP2012079186A (ja) 画像検索装置、画像検索方法及びプログラム
CN111859970B (zh) 用于处理信息的方法、装置、设备和介质
Cordeiro et al. mwetoolkit+ sem: Integrating word embeddings in the mwetoolkit for semantic MWE processing
JP2010020530A (ja) 文書分類付与装置、文書分類付与方法およびプログラム
Manishina et al. Tag thunder: Towards non-visual web page skimming
JP2005128978A (ja) 情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法
Han et al. Learning to describe multimodally from parallel unimodal data? A pilot study on verbal and sketched object descriptions
CN107391510A (zh) 一种网络视频事件挖掘方法及系统
Kim et al. Generating affective music icons in the emotion plane
Mansoori et al. Self-Prompting Polyp Segmentation in Colonoscopy using Hybrid Yolo-SAM 2 Model
CN116720974A (zh) 一种社会网络关键人物分析方法、终端设备及存储介质
JP2021192158A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 11918793

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2007514695

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2006732231

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: RU

WWP Wipo information: published in national office

Ref document number: 2006732231

Country of ref document: EP