CN101061479A - 基于文档结构的搜索结果的呈现 - Google Patents
基于文档结构的搜索结果的呈现 Download PDFInfo
- Publication number
- CN101061479A CN101061479A CNA2005800399646A CN200580039964A CN101061479A CN 101061479 A CN101061479 A CN 101061479A CN A2005800399646 A CNA2005800399646 A CN A2005800399646A CN 200580039964 A CN200580039964 A CN 200580039964A CN 101061479 A CN101061479 A CN 101061479A
- Authority
- CN
- China
- Prior art keywords
- document
- node
- search item
- appearance
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种系统识别与搜索项目相关的文档,其中该文档包括一组结构单元。该系统确定搜索项目在文档中的出现的分布,根据搜索项目在文档中的出现的分布识别结构单元之一,和呈现与识别的结构单元相关的信息。
Description
技术领域
与本发明的原理一致的系统和方法通常涉及信息检索,更具体地,涉及基于文档结构的作为搜索结果的文档的呈现。
背景技术
万维网(“web”)包括大量信息。然而,定位期望部分的信息可能是富有挑战性的。这个问题很复杂,因为web上的信息量和web检索不熟练的新用户数量在迅速增长。
搜索引擎试图将超链接返回给用户感兴趣的web文档。通常,搜索引擎将它们关于用户兴趣的确定基于用户输入的搜索项(称作搜索查询)。搜索引擎的目标是根据搜索查询将高质量的相关结果提供给用户。通常,通过匹配搜索查询中的项目与预先存储的web文档的集合(corpus),搜索引擎实现这一目标。包含用户搜索项目的web文档是“命中”(hit),并被返回给用户。现有的搜索引擎通常将命中呈现为web文档的摘录。这些摘录可以显示在作为搜索结果页面的单个web页面中。
发明中容
根据一个方面,一种方法可以包括识别与搜索项目相关的文档,其中该文档包括一组结构单元(structural element)。该方法还可以包括确定搜索项目在文档中的出现的分布,根据搜索项目在文档中的出现的分布识别结构单元之一,和呈现(present)与识别的结构单元相关的信息。
根据另一个方面,一种方法可以包括识别与搜索项目相关的文档,其中该文档包括一组结构单元。该方法还可以包括确定搜索项目在文档中的出现,根据搜索项目的出现的物理邻近性将搜索项目的出现组成群集,确定包括每个群集的结构单元之一,和提供与所确定的结构单元相关的信息。
根据又一个方面,一种方法可以包括识别与搜索项目相关的文档,其中该文档包括一组结构单元,其中结构单元包括文档、一组文档部分和一组文档页面。该方法还包括识别文档的树型表示(representation),其中文档的页面对应于叶节点,文档部分对应于更高级别的节点,和该文档对应于根节点。该方法还可以包括根据叶节点是否包含搜索项目的出现将得分分配给叶节点,根据相关叶节点的得分确定更高级别的节点的得分,根据更高级别的节点的得分确定根节点的得分,根据得分选择叶节点之一、更高级别的节点之一或根节点作为选定节点,和提供与选定节点相关的信息。
附图说明
包含在本说明书中并构成其一部分的附图说明本发明的实施例,并和说明书一起,解释本发明。在附图中:
图1是文档的解释图;
图2是文档的示例性结构单元的图;
图3是示例性信息检索网络的图,其中可以实施与本发明的原理一致的系统和方法;
图4是根据与本发明原理一致的实施方式的客户机或服务器的示例图;
图5是根据与本发明原理一致的实施方式的图4的搜索引擎的示例性功能方框图;
图6A和6B提供文档中的示例性命中分布以说明如何可以标识结构单元用于包括在搜索结果中;
图7-9B是根据与本发明原理一致的实施方式的用于呈现搜索结果的示例性处理的流程图;和
图10A-10D图示用于示例性书的示例性搜索结果。
具体实施方式
本发明的下述详细描述参考附图。在不同附图中相同的参考标号可以标识相同或类似的单元。而且,下述详细描述并不限制本发明。
概述
越来越多种类的文档正在变得可以通过搜索引擎进行搜索。一些类型的文档在它们包括一组结构单元(例如部分、章节、段落、页面等)的意义上被结构化。这些类型的文档例子可以包括书、web站点、杂志、报纸、文章、专利和目录。可以扫描这些文档和通过光学字符识别(OCR)识别它们的文本。
图1是结构化文档的示例图。在这个示例的实施方式中,文档采取书的形式。可以扫描该书或者通过其他方式以电子形式获取。典型的书可以包括多个结构单元。可以通过由出版商提供的OCR确定书的特定结构单元,或者以其它方式获取。
图2是文档的示例性结构单元的图。如图2所示,可以以分层方式设置结构单元。图2中的结构单元可以设置成四个级别。在其它的实施方式中,可以将结构单元设置成任意数量的级别,多于或少于四个。
如图2所示,在最高级别上的结构单元可以包括文档本身。在次高级别上的结构单元可以包括文档部分。在书的情况下,部分可以对应于书的章节。在web站点的情况下,部分可以对应于web站点的部分。在文章的情况下,部分可以对应于web站点的段落。
在次高级别上的结构单元可以包括文档的子部分。在书的情况下,子部分可以对应于书的子章节或书的段落。在web站点的情况下,子部分可以对应于web站点的子部分。在文章的情况下,子部分可以对应于web站点的子段落。在分层结构中次高级别上的结构单元可以包括文档的页面。
与本发明原理一致的系统和方法可以基于与底层文档相关的结构单元和命中在文档中的分布呈现检索结果。
示例性信息检索网络
图3是网络300的示例图,其中可以实施与本发明原理一致的系统和方法。网络300可以包括经网络350连接到多个服务器320-340的多个客户机310。网络350可以包括局域网(LAN)、广域网(WAN)、诸如公共交换电话网(PSTN)等的电话网络、中联网、因特网、存储器设备或网络组合。为了简化,将两个客户机310和三个服务器320-340示为连接到网络350。实际上,可以存在更多或更少的客户机和服务器。而且,在一些例子中,客户机可以执行服务器的功能和/或服务器可以执行客户机的功能。
客户机310可以包括客户机实体。可以将实体定义为设备,例如个人计算机、无线电话、个人数字助理(PDA)、笔记本或另一类型的计算或通信设备、在这些设备之一上运行的线程或过程和/或由这些设备之一可执行的目标。服务器320-340可以包括服务器实体,其以与本发明原理一致的方式收集、处理、搜索和/或保存文档。客户机310和服务器320-340可以经有线、无线和/或光连接而连接到网络350。
在与本发明原理一致的实施方式中,服务器320可以包括可由客户机310使用的搜索引擎325。服务器320可以识别文档集合(例如通过扫描或爬行)、索引文档和将与文档相关的信息存储在文档库中。服务器330和340可以存储或保存文档,例如web页面或web站点。虽然将服务器320-340图示为分立实体,但是一个或多个服务器320-340可以执行另一个或多个服务器320-340的一个或多个功能。例如,可以将两个或多个服务器320-340实施为单个服务器。还可以将单个服务器320-340实施为两个或多个分立(或者可能分布式的)设备。
示例性的客户机/服务器结构
图4是根据与本发明原理一致的实施方式的可对应于一个或多个客户机310和服务器320-340的客户机或服务器实体(在下文中称作“客户机/服务器实体”)的示例图。客户机/服务器实体可以包括总线410、处理器420、主存储器430、只读存储器(ROM)440、存储设备450、输入设备460、输出设备470和通信接口480。总线410可以包括允许在客户机/服务器实体的单元之间的通信。
处理器420可以包括常规处理器、微处理器或解释和执行指令的处理逻辑。主存储器430可以包括存储由处理器420执行的信息和指令的随机访问存储器(RAM)或另一类型的动态存储设备。ROM 440可以包括存储由处理器420使用的静态信息和指令的常规ROM设备或另一类型的静态存储设备。存储设备450可以包括磁和/或光记录介质及其对应驱动器。
输入设备460可以包括允许操作者将信息输入给客户机/服务器实体的常规机制,例如键盘、鼠标、笔、语音识别和/或生物测定机制等。输出设备470可以包括将信息输出给操作者的常规机制,包括显示器、打印机、扬声器等。通信接口480可以包括任一收发信机类似机制,支持客户机/服务器实体与其它设备和/或系统通信。例如,通信接口480可以包括用于通过诸如网络350等网络与另一个设备或系统通信的机制。
如下文将要详细描述的,与本发明原理一致的客户机/服务器实体可以执行某些搜索相关操作。响应于处理器420执行在诸如存储器430等计算机可读介质中包含的软件指令,客户机/服务器实体可以执行这些操作。可以将计算机可读介质定义为物理或逻辑存储设备和/或载波。
可以将软件指令从诸如数据存储设备450等另一个计算机可读介质或者经通信接口480从另一个设备读入到存储器430中。在存储器430中包含的软件指令可以使处理器420执行随后将要描述的处理。可替代地,可以替代软件指令或者与之组合地使用硬线电路以执行与本发明原理一致的处理。因而,与本发明原理一致的实施方式并不限制于硬件电路和软件的任何特定组合。
示例性搜索引擎
图5是根据与本发明原理一致的实施方式的诸如搜索引擎325的搜索引擎的示例性方框图。根据一种实施方式,在下文中描述的一个或多个功能可以由服务器320的另一部分或者与服务器320分离的实体执行,例如与服务器320或服务器330或340之一相关联的计算机。
搜索引擎325可以包括信息检索单元510和连接到存储库530的呈现单元520。存储库530可以包括物理或逻辑存储设备,它存储与由例如服务器320(图3)或与服务器320分离的实体爬行和索引的文档相关联的信息。文档信息可以包括文档中容和相关元数据。在与本发明原理一致的实施方式中,与文档相关联的元数据可以包括关于与文档相关结构单元的信息。与文档相关的特定结构单元可以由出版商提供的OCR确定,或者以其它方式获得。
信息检索单元510可以操作用户搜索项目以识别与项目相关的文档。存在多种技术使信息检索单元510可以用于识别与一组搜索项目相关的文档。例如,当该组搜索项目包括单个搜索项目时,信息检索单元510可以识别包含该搜索项目的文档。当该组搜索项目包括多个搜索项目时,信息检索单元510可以识别包含搜索项目作为短语的文档。可替代地或者附加地,信息检索单元510可以识别包含搜索项目但是不必需在一起的文档。可替代地或者附加地,信息检索单元510可以识别包含少于全部搜索项目或者搜索项目同义词的文档。识别相关文档的其它技术是本领域技术人员公知的。
呈现单元520可以将由信息检索单元510识别出的文档分析为与一组搜索项目相关的。例如,呈现单元520可以从与存储库530中的文档相关的元数据识别出与这些文档相关的结构单元。呈现单元520还可以确定与文档相关的命中。例如,呈现单元520可以确定该组搜索项目出现在文档中容中的位置,可能与该文档的结构单元相关地。
在一种实施方式中,呈现单元520可以根据其物理邻近性将这些命中群集。可以根据对邻近性阈值进行群集确定物理邻近性。阈值可以表示两个命中必须距离多近(在物理位置方面)方被群集。该阈值可以是固定的。可替代地,可以将阈值设置得与文档中的页面、文档部分和文档子部分等的数量成正比。在这种情况下,当出现命中的页面数量大于该部分中页面总数的某个百分比时,如用阈值所表示的,可以将位于文档同一部分中的页面上的命中群集在一起。此外,可以使群集相对于位于多个结构单元中的群集而更加倾向于位于单个结构单元中的群集。对于每个群集,呈现单元520可以确定包含整个群集的最小结构单元和呈现该结构单元作为搜索结果。
图6A图示文档中的示例性命中分布以说明可以如何识别结构单元以包括在搜索结果中。如图6A所示,命中出现在页面10、12、15、16、18、139和211上。如图6A进一步图示的,页面10、12、15、16和18位于第1章中,页面139位于第5章中,和页面211位于第9章中。根据包含命中的页面的物理邻近性,可以形成三个群集:{10,12,15,16,18}、{139}和{211}。假设设置阈值以便包含整个第一群集的最小结构单元是第1章,包含整个第二群集的最小结构单元是页139,包含整个第三群集的最小结构单元是页211。因此,可以提供涉及第1章、页139和页211的信息作为搜索结果。
在另一个实施方式中,呈现单元520可以识别文档分层结构的树型表示,其中叶节点可以代表页面,更高级别的节点可以代表部分(例如章)和根节点可以代表整个文档。呈现单元520可以识别包含命中作为可能结果的页节点。呈现单元520可以将得分1分配给包含一个命中的每个叶节点,并将得分0分配给不包含命中的每个叶节点。可替代地,分配给包含命中的叶节点的得分可以大于1。例如,得分可以是命中重要性的函数。根据在特定页面上命中的数量和/或命中在页面上出现的位置(例如在粗体文本上的命中、在较大字体文本上的命中和/或在标题相关文本上的命中可以得分更高)可以确定重要性。
随后,得分可以在树上向上传播,其中每个节点的得分可以包括其子节点的得分之和。如果节点得分超过阈值,则可以选择该节点作为将要提供的可能的结果,先前选择的任一子节点可能被删除,并且可以将得分0传播给其父节点。另一方面,节点可以将其全部得分向上传播给其父节点(如果存在一个的话)。阈值可以是固定的、级别特定的或者与节点相关的页面数量的函数。
图6B图示文档中的示例性命中分布以说明可以如何识别结构单元以包括在搜索结果中。如图6B所示,命中出现在页10、12、15、20、56和100上。如图6B进一步图示的,页10、12、15和20位于第1章中,页56位于第2章中,和页100位于第3章中。每个页面将其得分向上传播给其父节点。父节点(即,章)的得分是其页面的得分之和。在这种情况下,第1章得分为4,第2章得分为1,第3章得分为1,和第N章得分为0。
假设将阈值设置为3。在这种情况下,第1章的得分超过阈值,则选择其作为可能的结果。此后,不再包括页10、12、15和20作为可能的结果。因为已经选择第1章作为可能的结果,它将得分0传播给其父节点(即整个文档)。第2、3和N章分别具有低于阈值的得分,因此,将其得分传播给其父节点。父节点(即文档)的得分是其章节得分之和。在这种情况下,文档具有得分2,其小于阈值。因此,可以提供与第1章、页56和页100相关的信息作为搜索结果。
示例性处理
图7-9B是根据与本发明原理一致的实施方式的用于呈现搜索结果的示例性处理的流程图。处理可以开始于用户提供搜索项目作为搜索文档集合的搜索查询。在一种实施方式中,文档集合包括可以从因特网获得的文档,用于搜索该集合的工具是搜索引擎,例如搜索引擎325(图3)。用户可以通过在客户机,例如客户机310(图3)上的web浏览器软件提供搜索查询。
搜索查询可以由搜索引擎接收并用于识别与搜索查询相关的文档(例如书、web站点、报纸、文章、专利或其它类型的结构文档)(动作710和720)(图7)。存在多种技术用于识别与搜索查询相关的文档。这样的一种技术可以包括识别包含搜索项目作为短语的文档。另一种技术可以包括识别包含搜索项目但是并不必然在一起的文档。一种技术可以包括识别包含少于全部搜索项目或搜索项目同义词的文档。其它的技术是本领域的技术人员公知的。
可以确定命中(在文档中容中搜索项目的出现)(动作730)。例如,可以搜索文档中容以与文档结构单元相关地识别搜索项目在文档中出现的位置。例如,可以确定搜索项目出现的部分、子部分和/或页面。
随后,可以识别要呈现的结构单元(动作740)。根据一种实施方式,根据命中出现的页面的邻近性,可以群集命中(动作810)(图8)。如上面解释的,根据对邻近性阈值群集可以确定邻近性,所述阈值例如规定将要群集的两个页面必需相邻的距离和/或是否将群集偏向结构单元(例如是否相对于位于多个结构单元中的群集更加倾向于位于单个结构单元中的群集)。对于每个群集,可以识别包含整个群集的最小结构单元,无论该结构单元是整个文档、部分、子部分或页面。
根据另一种实施方式,可以确定文档分层结构的树型表示,其中叶节点可以代表页面,更高级别的节点可以代表部分、子部分等,和根节点可以代表整个文档(动作905)(图9A)。可以选择包含命中的叶节点作为可能的结果(动作910)。
随后,可以将得分分配给每个叶节点(动作915)。在一种实施方式中,可以给包含命中的叶节点分配得分1,和给不包含命中的叶节点分配得分0。在另一种实施方式中,分配给包含命中的叶节点的得分可以是命中重要性的函数,如上所述。
随后,可以将得分沿着树向上传播给父节点(动作920)。可以确定父节点的得分(动作925)。在一种实施方式中,父节点的得分可以包括其子节点的得分之和。可以比较父节点的得分与阈值。如果父节点的得分不超过阈值(动作930),则可以确定父节点本身是否具有父节点(动作935)。如果存在这样一个父节点,则该处理可以返回动作920,其中节点将其得分向上传播给其父节点。
如果父节点的得分超过阈值(动作930),则可以选择该节点作为可能的结果(动作940)(图9B)。随后,可以从该组可能的结果中删除任一先前选择的子节点(动作945)。随后,可以确定父节点自身是否具有父节点(动作950)。如果存在这样一个父节点,则该节点可以将得分0传播给其父节点(动作955)。随后,该处理返回到动作925,其中确定父节点的得分。如果不存在其它父节点(动作935或950),则可以识别出与选定为可能的结果的节点对应的结构单元(动作960)。
随后,可以根据每个文档的所识别的结构单元,形成搜索结果(动作750)(图7)。换句话说,与文档相关的搜索结果在一些情况下可以包括与整个文档、部分文档、文档子部分或文档中的页面相关的信息。与整个文档相关的信息可以包括文档的标题页面(或者封面)(即使在标题页面上未出现搜索项目)。与文档部分或子部分相关的信息可以包括部分或子部分的第一页面(即使在部分或子部分的第一页面上未出现搜索项目)。与文档中页面相关联的信息可以包括页面自身(或者页面的某个部分)。
搜索结果可以被打分和根据它们的分数进行排序。可以提供搜索结果作为HTML文档,类似于由常规搜索引擎提供的搜索结果。可替代地,可以根据由搜索引擎和客户机协定的格式提供搜索结果(例如可扩展置标语言(XML))。
图10A-10D图示对于示例性书的示例性搜索结果。图10A图示该书的封面。可以呈现该书的封面以表示确定整个书与搜索查询相关(例如“存储器”)。图10B图示该书第3章的第一页面。可以呈现该章的第一页以表示确定整章与搜索查询相关,即使如图10B所示,搜索项目“存储器”并未出现在该页面上。图10C图示该书第4章第一节。在这种情况下,搜索项目出现在该页面上。图10D图示该书的页面52。可选择地,可以以某种方式高亮显示该搜索项目以允许用户轻易地在页面文本中识别出项目。
结论
与本发明原理一致的系统和方法可以根据与底层文档相关的结构单元和命中在文档中的分布生成搜索结果。
本发明优选实施例的上述描述提供说明和描述,但是并非穷举的,也不是将本发明限制为所公开的具体格式。鉴于上述教导,可以进行修改和变化,或者可以根据实施本发明获得所述修改和变化。
例如,虽然已经参考图7-9B描述了一系列动作,在与本发明原理一致的其它实施方式中可以修改动作顺序。此外,可以并行执行非相关的动作。
在一种实施方式中,服务器120可以执行与图7-9B的处理相关地描述的大部分动作,如果并非全部动作的话。在与本发明原理一致的另一种实施方式中,可以由另一个实体执行一个或多个或者全部动作,例如另一个服务器330和/或340或客户机。
对于本领域的普通技术人员而言,如上所述本发明的多个方面显然可以通过在附图中图示的实施方式中软件、固件和硬件的多种不同形式来实施。用于实施与本发明原理一致的方面的实际软件代码或专用控制硬件并不限制本发明。因而,在未参考具体软件编码的情况下描述了这些方面的操作和行为,将理解本领域的普通技术人员将能够设计软件和控制硬件以执行基于在此描述的方面。
在本发明中使用的单元、动作或指令不应当解释为本发明关键或必需的,除非具体描述如此。而且,如在此使用的,冠词“一个”将包括一个或多个项目。在期望仅一个项目的情况下,使用术语“一个”或类似语言。此外,短语“基于”将指“至少部分地基于”,除非另有明确陈述。
Claims (42)
1.一种方法,包括:
识别与搜索项目相关的文档,该文档包括多个结构单元;
确定搜索项目在文档中的出现的分布;
根据搜索项目在文档中的出现的分布识别结构单元之一;和
呈现与识别的结构单元相关的信息。
2.权利要求1的方法,其中识别文档包括:
搜索文档的集合以识别与搜索项目相关的文档。
3.权利要求1的方法,其中该文档包括书、web站点、报纸、文章或专利之一。
4.权利要求1的方法,其中确定搜索项目在文档中的出现的分布包括:
搜索文档的内容,以相对于文档的结构单元识别搜索项目的出现。
5.权利要求4的方法,其中识别结构单元之一包括:
根据搜索项目的出现的物理邻近性,将搜索项目的出现组成群集;和
确定包含每个群集的最小一个结构单元。
6.权利要求1的方法,其中识别结构单元之一包括:
根据搜索项目的出现的物理邻近性,将文档中搜索项目的出现组成群集;和
确定包含每个群集的最小一个结构单元。
7.权利要求6的方法,其中呈现信息包括:
根据与最小一个结构单元相关的信息,生成搜索结果。
8.权利要求6的方法,还包括:
提供规定搜索项目的两次出现在物理上需要有多近才被群集的阈值;和
其中将搜索项目的出现组成群集基于该阈值。
9.权利要求8的方法,其中该阈值与文档中的页面数量成比例。
10.权利要求6的方法,其中将搜索项目的出现组成群集使位于一个结构单元中的群集优先于位于多个结构单元中的群集。
11.权利要求1的方法,其中该文档是书,结构单元包括书、书的一组章节和书的一组页面。
12.权利要求1的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中当文档是识别的结构单元时,与识别的结构单元相关的信息是文档的标题页面。
13.权利要求1的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中当该部分是识别的结构单元时,与识别的结构单元相关的信息是该部分的第一页面。
14.权利要求1的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中当该页面是识别的结构单元时,与识别的结构单元相关的信息是该文档的页面。
15.权利要求1的方法,其中与识别的结构单元相关的信息包括包含搜索项目的出现的一部分文档。
16.权利要求1的方法,其中与识别的结构单元相关的信息包括并不包含搜索项目的出现的一部分文档。
17.权利要求1的方法,其中所述呈现与识别的结构单元相关的信息包括:
在与识别的结构单元相关的信息中可视地区别搜索项目。
18.权利要求1的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中所述识别结构单元之一包括:
识别文档的树型表示,其中文档的页面对应于叶节点,文档部分对应于更高级别的节点,并且文档对应于根节点,
根据叶节点是否包含搜索项目的出现将得分分配给叶节点,
根据相关的一个叶节点的得分确定更高级别的节点的得分;和
根据更高级别的节点的得分确定根节点的得分。
19.权利要求18的方法,其中所述识别结构单元之一还包括:
设置阈值;
选择包含搜索项目出现的叶节点之一作为可能的结果;
当一个更高级别的节点的得分大于阈值时,选择所述一个更高级别的节点作为可能的结果;和
当根节点的得分大于阈值时,选择根节点作为可能的结果。
20.权利要求19的方法,其中所述识别结构单元之一还包括:
当选择更高级别的节点作为可能的结果时,删除与更高级别的节点相关的叶节点的选择;和
当选择根节点作为可能的结果时,删除叶节点和更高级别的节点的选择。
21.权利要求20的方法,其中识别结构单元之一还包括:
识别选定的叶节点、更高级别的节点或根节点作为识别的结构单元。
22.权利要求18的方法,其中将得分分配给叶节点包括:
将得分0分配给不包含搜索项目的出现的叶节点;和
将得分1分配给包含搜索项目出现的叶节点。
23.权利要求18的方法,其中将得分分配给叶节点包括:
将得分0分配给不包含搜索项目的出现的叶节点;和
将作为搜索项目出现的重要性的函数的得分分配给包含搜索项目出现的叶节点。
24.一种系统,包括:
用于获取与搜索项目相关的文档的装置,该文档包括多个结构单元;
用于相对于结构单元识别搜索项目在文档中的出现的分布的装置;
用于根据搜索项目在文档中的出现的分布,关联搜索项目的每次出现与结构单元之一的装置;和
用于呈现与和搜索项目出现之一相关的结构单元有关的信息的装置。
25.一种系统,包括:
存储文档集合的存储器,至少一些文档包括多个结构单元;和
用于执行下述操作的处理器:
接收包括搜索项目的搜索查询;
识别文档集合中与搜索项目相关的文档;
根据结构单元确定搜索项目在文档中的出现;
根据搜索项目在文档中的出现选择结构单元之一;和
提供与选定结构单元相关的信息作为搜索查询的结果。
26.一种方法,包括:
识别与搜索项目相关的文档,该文档包括多个结构单元;
确定搜索项目在文档中的出现;
根据搜索项目的出现的物理邻近性,将搜索项目的出现组成群集;
确定包括每个群集的结构单元之一;和
提供与确定的结构单元相关的信息。
27.权利要求26的方法,还包括:
提供规定搜索项目的两次出现在物理上需要有多近才被群集的阈值;和
其中将搜索项目的出现组成群集基于该阈值。
28.权利要求27的方法,其中该阈值与文档中的页面数量成比例。
29.权利要求26的方法,其中将搜索项目的出现组成群集使位于一个结构单元中的群集优先于位于多个结构单元中的群集。
30.一种系统,包括:
用于识别与搜索项目相关的文档的装置,该文档包括多个结构单元;
用于识别搜索项目在文档中的出现的装置;
用于根据规定搜索项目的两次出现在物理上需要有多近才被群集的阈值,将搜索项目的出现组成群集的装置;
用于确定包含每个群集的最小一个结构单元的装置;和
用于呈现与最小结构单元相关的信息的装置。
31.一种方法,包括:
识别与搜索项目相关的文档,该文档包括多个结构单元,其中结构单元包括文档、一组文档部分和一组文档页面;
识别文档的树型表示,其中文档页面对应于叶节点,文档部分对应于更高级别的节点,文档对应于根节点;
根据叶节点是否包含搜索项目的出现,将得分分配给叶节点;
根据相关叶节点的得分,确定更高级别的节点的得分;
根据更高级别的节点的得分,确定根节点的得分;
根据得分选择叶节点之一、更高级别的节点之一或根节点作为选定节点;和
提供与选定节点相关的信息。
32.权利要求31的方法,还包括:
提供阈值;和
其中选择叶节点之一、更高级别的节点之一或根节点包括:
选择包含搜索项目的出现的叶节点之一作为可能的结果;
当一个更高级别的节点的得分大于阈值时,选择所述一个更高级别的节点作为可能的结果;和
当根节点的得分大于阈值时,选择根节点作为可能的结果。
33.权利要求32的方法,其中根据该阈值是与叶节点、更高级别的节点还是根节点相关来设置阈值。
34.权利要求32的方法,其中根据与叶节点之一、更高级别的节点之一或根节点相关的页面数量设置阈值。
35.权利要求32的方法,其中选择叶节点之一、更高级别的节点之一或根节点还包括:
当选择更高级别的节点作为可能的结果时,删除与更高级别的节点相关的叶节点的选择;和
当选择根节点作为可能的结果时,删除叶节点和更高级别的节点的选择。
36.权利要求31的方法,其中将得分分配给叶节点包括:
将得分0分配给不包含搜索项目的出现的叶节点;和
将得分1分配给包含搜索项目的出现的叶节点。
37.权利要求31的方法,其中将得分分配给叶节点包括:
将得分0分配给不包含搜索项目的出现的叶节点;和
将作为搜索项目出现的重要性的函数的得分分配给包含搜索项目的出现的叶节点。
38.权利要求31的方法,其中当文档是选定节点时,与选定节点相关的信息是文档的标题页面。
39.权利要求31的方法,其中当部分是选定节点时,与选定节点相关的信息是该部分的第一页面。
40.权利要求31的方法,其中当页面是选定节点时,与选定节点相关的信息是该文档的页面。
41.一种系统,包括:
用于识别与搜索项目相关的文档的装置;
用于识别文档的树型表示的装置,其中文档页面对应于叶节点,文档部分对应于更高级别的节点,并且文档对应于根节点;
用于根据叶节点是否包含搜索项目的出现将得分分配给叶节点的装置;
用于根据相关叶节点的得分确定更高级别的节点的得分的装置;
用于根据更高级别的节点的得分确定根节点的得分的装置;
用于提供阈值的装置;
用于根据得分和阈值选择叶节点之一、更高级别的节点之一或根节点作为选定节点的装置;和
用于提供与选定节点相关的信息的装置。
42.一种包含计算机可执行指令的计算机可读介质,包括:
用于确定与搜索项目相关的文档的指令,该文档包括多个结构单元;
用于确定搜索项目在文档中的出现的指令;
用于根据搜索项目的出现的物理邻近性,将搜索项目的出现组成群集的指令;
用于确定包括每个群集的结构单元之一的指令;和
用于呈现与至少一个确定的结构单元相关的信息的指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/949,708 US9031898B2 (en) | 2004-09-27 | 2004-09-27 | Presentation of search results based on document structure |
US10/949,708 | 2004-09-27 | ||
PCT/US2005/029691 WO2006036376A1 (en) | 2004-09-27 | 2005-08-19 | Presentation of search results based on document structure |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101061479A true CN101061479A (zh) | 2007-10-24 |
CN101061479B CN101061479B (zh) | 2011-06-15 |
Family
ID=35414787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800399646A Active CN101061479B (zh) | 2004-09-27 | 2005-08-19 | 基于文档结构的搜索结果的呈现方法和系统 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9031898B2 (zh) |
EP (1) | EP1800226A1 (zh) |
JP (1) | JP4637181B2 (zh) |
KR (1) | KR100957080B1 (zh) |
CN (1) | CN101061479B (zh) |
AU (1) | AU2005290154B2 (zh) |
BR (1) | BRPI0517356B1 (zh) |
CA (1) | CA2581713C (zh) |
WO (1) | WO2006036376A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005562A (zh) * | 2014-04-15 | 2015-10-28 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590657B1 (en) * | 2005-06-10 | 2009-09-15 | At&T Corp. | System and method for identifying hierarchical heavy hitters in a multidimensional environment |
US7475071B1 (en) * | 2005-11-12 | 2009-01-06 | Google Inc. | Performing a parallel nearest-neighbor matching operation using a parallel hybrid spill tree |
US7506011B2 (en) * | 2006-07-26 | 2009-03-17 | International Business Machines Corporation | System and apparatus for optimally trading off the replication overhead and consistency level in distributed applications |
US7660804B2 (en) | 2006-08-16 | 2010-02-09 | Microsoft Corporation | Joint optimization of wrapper generation and template detection |
JP4801555B2 (ja) * | 2006-09-29 | 2011-10-26 | 株式会社ジャストシステム | 文書処理装置、文書処理方法および文書処理プログラム |
JP2008146209A (ja) * | 2006-12-07 | 2008-06-26 | Just Syst Corp | 文書検索装置、文書検索方法および文書検索プログラム |
US20080270381A1 (en) * | 2007-04-24 | 2008-10-30 | Interse A/S | Enterprise-Wide Information Management System for Enhancing Search Queries to Improve Search Result Quality |
US9239835B1 (en) * | 2007-04-24 | 2016-01-19 | Wal-Mart Stores, Inc. | Providing information to modules |
JP2009129013A (ja) * | 2007-11-20 | 2009-06-11 | Just Syst Corp | 文書検索方法、文書検索装置および文書検索プログラム |
JP2009129280A (ja) * | 2007-11-26 | 2009-06-11 | Just Syst Corp | 文書検索方法、文書検索装置および文書検索プログラム |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
CN102105875B (zh) | 2009-07-15 | 2013-05-01 | 呢哦派豆株式会社 | 用于提供全面主页服务的系统和方法 |
US8364679B2 (en) * | 2009-09-17 | 2013-01-29 | Cpa Global Patent Research Limited | Method, system, and apparatus for delivering query results from an electronic document collection |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
US20110119250A1 (en) * | 2009-11-16 | 2011-05-19 | Cpa Global Patent Research Limited | Forward Progress Search Platform |
CN102279856B (zh) * | 2010-06-09 | 2013-10-02 | 阿里巴巴集团控股有限公司 | 一种网站导航实现方法及系统 |
EP2599011A4 (en) * | 2010-07-30 | 2017-04-26 | Hewlett-Packard Development Company, L.P. | Selection of main content in web pages |
CN102143142A (zh) * | 2010-09-30 | 2011-08-03 | 华为软件技术有限公司 | Ip多媒体子系统业务中订阅处理方法和资源列表服务器 |
CN103218719B (zh) | 2012-01-19 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种电子商务网站导航方法及系统 |
WO2014107809A1 (en) * | 2013-01-11 | 2014-07-17 | La Presse, Ltée | Device, method and system for displaying digital editions |
WO2014146265A1 (en) * | 2013-03-20 | 2014-09-25 | Nokia Corporation | Method and apparatus for personalized resource recommendations |
US9858251B2 (en) | 2014-08-14 | 2018-01-02 | Rakuten Kobo Inc. | Automatically generating customized annotation document from query search results and user interface thereof |
US20160239161A1 (en) * | 2015-02-12 | 2016-08-18 | Kobo Incorporated | Method and system for term-occurrence-based navigation of apportioned e-book content |
TW201832105A (zh) * | 2017-02-17 | 2018-09-01 | 雲拓科技有限公司 | 專利檢索之檢索關鍵字建議方法 |
US20190130027A1 (en) | 2017-11-02 | 2019-05-02 | International Business Machines Corporation | Data classification |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2048039A1 (en) * | 1991-07-19 | 1993-01-20 | Steven Derose | Data processing system and method for generating a representation for and random access rendering of electronic documents |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5694594A (en) * | 1994-11-14 | 1997-12-02 | Chang; Daniel | System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms |
JP3598742B2 (ja) | 1996-11-25 | 2004-12-08 | 富士ゼロックス株式会社 | 文書検索装置及び文書検索方法 |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US6167397A (en) * | 1997-09-23 | 2000-12-26 | At&T Corporation | Method of clustering electronic documents in response to a search query |
US6363378B1 (en) * | 1998-10-13 | 2002-03-26 | Oracle Corporation | Ranking of query feedback terms in an information retrieval system |
WO2000046701A1 (en) * | 1999-02-08 | 2000-08-10 | Huntsman Ici Chemicals Llc | Method for retrieving semantically distant analogies |
US6718363B1 (en) * | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
US20030050927A1 (en) * | 2001-09-07 | 2003-03-13 | Araha, Inc. | System and method for location, understanding and assimilation of digital documents through abstract indicia |
US6819339B1 (en) * | 2000-02-24 | 2004-11-16 | Eric Morgan Dowling | Web browser with multilevel functions |
US6678692B1 (en) * | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
JP2002108710A (ja) * | 2000-07-24 | 2002-04-12 | Sony Corp | 情報処理システム、情報処理方法、および情報処理装置、並びにプログラム提供媒体 |
US6678679B1 (en) | 2000-10-10 | 2004-01-13 | Science Applications International Corporation | Method and system for facilitating the refinement of data queries |
US20070226640A1 (en) * | 2000-11-15 | 2007-09-27 | Holbrook David M | Apparatus and methods for organizing and/or presenting data |
JP3907161B2 (ja) | 2001-06-29 | 2007-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワード検索方法、キーワード検索端末、コンピュータプログラム |
CA2358048A1 (en) * | 2001-09-25 | 2003-03-25 | Luis Rueda | A cryptosystem for data security |
US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
DE60332315D1 (de) * | 2002-01-16 | 2010-06-10 | Elucidon Group Ltd | Abruf von informationsdaten, wobei daten in bedingungen, dokumenten und dokument-corpora organisiert sind |
WO2003098466A1 (en) | 2002-05-14 | 2003-11-27 | Verity, Inc. | Apparatus and method for region sensitive dynamically configurable document relevance ranking |
US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
WO2003107174A1 (en) * | 2002-06-13 | 2003-12-24 | Cerisent Corporation | Xml database mixed structural-textual classification system |
US7171404B2 (en) * | 2002-06-13 | 2007-01-30 | Mark Logic Corporation | Parent-child query indexing for XML databases |
US7383258B2 (en) * | 2002-10-03 | 2008-06-03 | Google, Inc. | Method and apparatus for characterizing documents based on clusters of related words |
JP2004157628A (ja) | 2002-11-05 | 2004-06-03 | Mitsubishi Electric Corp | 文書検索方法及びその装置及びそのプログラム |
US7320000B2 (en) * | 2002-12-04 | 2008-01-15 | International Business Machines Corporation | Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US7512615B2 (en) * | 2003-11-07 | 2009-03-31 | International Business Machines Corporation | Single pass workload directed clustering of XML documents |
US7523109B2 (en) * | 2003-12-24 | 2009-04-21 | Microsoft Corporation | Dynamic grouping of content including captive data |
US7165216B2 (en) * | 2004-01-14 | 2007-01-16 | Xerox Corporation | Systems and methods for converting legacy and proprietary documents into extended mark-up language format |
US20050177555A1 (en) * | 2004-02-11 | 2005-08-11 | Alpert Sherman R. | System and method for providing information on a set of search returned documents |
WO2006012487A1 (en) * | 2004-07-22 | 2006-02-02 | Genometric Systems Llc | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
-
2004
- 2004-09-27 US US10/949,708 patent/US9031898B2/en active Active
-
2005
- 2005-08-19 BR BRPI0517356-6A patent/BRPI0517356B1/pt active Search and Examination
- 2005-08-19 WO PCT/US2005/029691 patent/WO2006036376A1/en active Application Filing
- 2005-08-19 CN CN2005800399646A patent/CN101061479B/zh active Active
- 2005-08-19 JP JP2007533473A patent/JP4637181B2/ja not_active Expired - Fee Related
- 2005-08-19 AU AU2005290154A patent/AU2005290154B2/en active Active
- 2005-08-19 KR KR1020077009771A patent/KR100957080B1/ko active IP Right Grant
- 2005-08-19 EP EP05792767A patent/EP1800226A1/en not_active Withdrawn
- 2005-08-19 CA CA2581713A patent/CA2581713C/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005562A (zh) * | 2014-04-15 | 2015-10-28 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
CN105005562B (zh) * | 2014-04-15 | 2018-09-21 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008515049A (ja) | 2008-05-08 |
BRPI0517356B1 (pt) | 2019-09-24 |
KR20070058685A (ko) | 2007-06-08 |
CA2581713A1 (en) | 2006-04-06 |
WO2006036376A1 (en) | 2006-04-06 |
CA2581713C (en) | 2015-12-29 |
KR100957080B1 (ko) | 2010-05-13 |
AU2005290154A1 (en) | 2006-04-06 |
BRPI0517356A (pt) | 2008-10-07 |
JP4637181B2 (ja) | 2011-02-23 |
EP1800226A1 (en) | 2007-06-27 |
CN101061479B (zh) | 2011-06-15 |
US9031898B2 (en) | 2015-05-12 |
US20060074907A1 (en) | 2006-04-06 |
AU2005290154B2 (en) | 2010-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101061479A (zh) | 基于文档结构的搜索结果的呈现 | |
AU2010202012B2 (en) | Associative memory | |
US7788261B2 (en) | Interactive web information retrieval using graphical word indicators | |
JP4881322B2 (ja) | 多重索引に基づく情報検索システム | |
JP4814575B2 (ja) | 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法 | |
KR101190230B1 (ko) | 정보 검색 시스템에서의 문구 식별 | |
US8375036B1 (en) | Book content item search | |
US6499030B1 (en) | Apparatus and method for information retrieval, and storage medium storing program therefor | |
US6725217B2 (en) | Method and system for knowledge repository exploration and visualization | |
US9043338B1 (en) | Book content item search | |
CN1871605A (zh) | 问答式文献检索系统和方法 | |
KR20060048778A (ko) | 정보 검색 시스템에서의 문구 기반 서치 | |
KR20060048777A (ko) | 문서 설명의 문구 기반 생성 | |
CN101019119A (zh) | 基于名称的url输入 | |
KR20060048780A (ko) | 정보 검색 시스템에서의 문구 기반 인덱싱 | |
AU2001282106A1 (en) | Associative memory | |
JPH0675265B2 (ja) | 情報検索方法及びシステム | |
US10282358B2 (en) | Methods of furnishing search results to a plurality of client devices via a search engine system | |
JP2000090111A (ja) | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5538185B2 (ja) | テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム | |
US20080189264A1 (en) | Cherry picking search terms | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP5178347B2 (ja) | 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム | |
Hegde et al. | Devising a Methodology for Link Analysis by Reducing Noise | |
Freitas | Web-Based Emergent Manuscript Transcriptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: GOOGLE Inc. |
|
CP01 | Change in the name or title of a patent holder |