CN103034633A - 生成扩展的搜索结果页面摘要的方法及装置 - Google Patents
生成扩展的搜索结果页面摘要的方法及装置 Download PDFInfo
- Publication number
- CN103034633A CN103034633A CN2011102946724A CN201110294672A CN103034633A CN 103034633 A CN103034633 A CN 103034633A CN 2011102946724 A CN2011102946724 A CN 2011102946724A CN 201110294672 A CN201110294672 A CN 201110294672A CN 103034633 A CN103034633 A CN 103034633A
- Authority
- CN
- China
- Prior art keywords
- row
- webpage
- association table
- analysis result
- relevant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims description 44
- 239000000284 extract Substances 0.000 claims description 20
- 241000239290 Araneae Species 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 25
- 230000008878 coupling Effects 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 11
- 238000005859 coupling reaction Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提出了一种用于在搜索引擎中生成扩展的搜索结果页面摘要的方法及装置,包括:检索并返回具有与查询关键词相关的表格的关联表格网页;获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例;确定与所述查询关键词相关的行实例;根据所述列名及相关的行实例生成表格式页面摘要。采用本发明的方案可以生成表格式的页面摘要。
Description
技术领域
本发明涉及搜索引擎中生成扩展的搜索结果页面摘要的技术领域,特别涉及生成表格式页面摘要的方法和系统。
背景技术
随着互联网业务的不断发展,各种现有的搜索引擎成为人们发现感兴趣的网络资源(例如网页)所不可缺少的工具。
搜索引擎通常以下述方式工作:一旦用户通过客户端提交了查询,搜索引擎将通过搜索结果页向用户返回搜索到的网页。搜索引擎的一个重要目标是针对用户特定的搜索查询提供用户所期望的链接集,另外一个目标是需要清楚并且快速地向用户通知与每个链接相关联的内容。因此,在返回搜索结果页时,除了网页的标题和统一资源标识符(URL)之外,搜索结果页还包含与网页相关的短文本描述。这种短文本描述通常被称为页面摘要(Snippet)。搜索引擎通常通过提取和组合包含查询所涉及的关键词的文本段从网页中提取页面摘要。在搜索结果页中,搜索引擎可以通过诸如高亮显示、加下划线、不同字体等等的各种手段使页面摘要中的查询关键词的显示区别于其它文本,以吸引用户的注意力并利于用户决定是否点击该网页。虽然现有技术中的页面摘要可一定程度上反映网页与查询的相关性,但由于目前的页面摘要由包含查询关键词的文本段构成,文本段的选择并未考虑文本段中除关键词之外的内容,特别是考虑文本段的表格格式信息。
而表格是一种重要的数据源,下面列出一些适合用表格展现的已经大量应用的数据类型:传统的Web Table类型数据,比如人员、公司、地点、商品、电影、音乐等信息,既包括有边框的表格,也包括无边框的表格;商业智能(BI)的应用使企业数据大量的以报表的形式生成(Web报表、PDF、Excel、Word等格式),很多企业级的BI分析和展现工具如IBM Cognos等会生成大量报表并进行发布,如此海量的数据在企业或互联网上有很强的搜索需求,使该发明有很大的应用前景,而且基于文件解析工具,各家主流的搜索引擎都已经把Excel Word等文档纳入检索。
为了提高用户的体验,现有技术中还提供有搜索结果预览功能,可以图片的方式预览到网页的信息,在日渐成熟的搜索引擎技术领域,改动的空间越来越小,也增加了对搜索引擎进行改进和创新的难度,因此,微小的改动也可能意味着用户体验的极大提升。然而,摘要(snippet)与预览(preview)是有区别的,预览并没有基于查询生成相关的片段供最终用户快速理解,而是简单的输出了原网页的内容。而摘要是供用户快速判断与查询词的相关性的,预览是在通过摘要判断完了之后,再进一步判断其相关性的。也就是说,二者使用的阶段不同。特别是摘要的显示空间很狭小,而预览的显示空间很大。摘要是默认显示的,而预览是默认不显示的,需要把鼠标移到特定位置(包括题目、摘要、网址等)上触发后才会显示,并且其显示需要一定的时间(依据显示内容和网络速度而定)。因此,对于所属领域技术人员来说,摘要和预览是完全不同的技术方案。
因此,对于表格这种数据源,其表格格式信息也是便于用户通过网页摘要快速理解搜索结果的极为重要的一部分,故需要进一步改进搜索技术,以至少在某种程度上在页面摘要中展示表格的格式信息。
发明内容
根据本发明的第一个方面,提供一种用于在搜索引擎中生成扩展的页面摘要的方法,包括:检索并返回具有与查询关键词相关的表格的关联表格网页;获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例;确定与所述查询关键词相关的行实例;根据所述列名及相关的行实例生成表格式页面摘要。
根据本发明的第二个方面,提供一种用于在搜索引擎中生成扩展的页面摘要的装置,包括:用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件;用于获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例的部件;用于确定与所述查询关键词相关的行实例的部件;用于根据所述列名及相关的行实例生成表格式页面摘要的部件。。
采用本申请的技术方案,提供了一种扩展的页面摘要生成方案,可在在某种程度上在页面摘要中展示表格的格式信息。
附图说明
所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是,通过参照附图阅读下面对说明性的实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
图1示出了用来实现本发明实施方式的示例性计算系统。
图2示出了本申请生成扩展的搜索结果摘要的方法流程图。
图3示出了本申请生成扩展的搜索结果摘要的装置示意图。
图4示出了在一个实施方式中网页1的示意图。
图5示出了在一个实施方式中网页2的示意图。
图6示出了在一个实施方式中网页3的示意图。
具体实施方式
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质,计算机可读存储介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式,包括-但不限于-电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的任何一种计算机可读介质。
包含在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括-但不限于-无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
现参看图1,示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如所示,计算机系统100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中,与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。
参看图2,示出了在一个实施例中生成扩展的搜索结果摘要的方法流程图,包括以下步骤:
步骤201,检索并返回具有与查询关键词相关的表格的关联表格网页。
在一个实施例中,可检索并返回与查询关键词相关的网页序列,所述网页序列中至少包括一个具有与所述查询关键词相关的表格的关联表格网页。查询关键词可以包括一个或多个关键词,其个数取决与用户输入。可采用现有搜索引擎中的技术来确定与查询相关的网页序列。在所述关联表格网页中,与所述查询关键词相关的表格是指在该表格中匹配所述查询关键词中的部分或全部关键词。
表格通常是由行、列、单元格三个部分组成,其中第一行单元格是表头信息,第一行中各个单元格的内容是各列的列名,表格中每一行单元格中的数据是一行实例。表格通常采用HTML、Excel、Word、PDF等格式。
步骤202,获得所述关联表格网页中表格的解析结果,从中抽取列名及各行实例。
现有的搜索引擎根据搜索结果来源可分为两类:一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用。第二类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果。
因此,所述表格的解析结果也可通过多种途径获得。在以第一类搜索引擎为背景的实施例中,可在所述检索步骤201之前,在用蜘蛛程序抓取网页时解析所有网页中的表格并在自建网页数据库中存储该解析结果,然后在步骤201中返回所述网页序列时返回所述表格解析结果。而对于第二类搜索引擎为背景的实施例中,可采用实时的方式对关联表格网页中的表格进行解析从而获得解析结果。
现有技术中提供了多种解析器可用于对各种格式的表格进行解析:
其中,Apache的办公文档解析器(POI)是Apache软件基金会的开放源码函式库,提供API给Java程式对微软办公格式档案读和写的功能,ApachePOI也是多种搜索软件中都有使用的开源软件,可用于对网页中各种Office格式的表格进行解析。例如,对于Word格式的表格,通过POI中的Table,TableCell,TableRow,和TableIterator等类别,可对Word中的表格进行读取解析,具体举例如下:
对于Excel格式的表格而言,可通过POI中的HSSFWorkbook,HSSFSheet,HSSFRow,HSSFCell等元素,可对Excel的内容进行解析,具体举例如下:
现有技术中还有用于HTML网页的解析器(HTML Parser),主要用于改造或提取HTML,提供了接口,支持线性和嵌套HTML文本,相关介绍可参见http://htmlparser.sourceforge.net。
在表格的解析结果中抽取出所述列名及实例也包括多种实施方式:在一个实施例中,可根据列名标记抽取列名信息,根据实例标记抽取实例信息。例如,对HTML的表格进行解析后,可通过<TH>标记抽取列名关系,通过<TD>标记抽取各行的实例信息。而在另一个实施例中,例如,对于通过POI获得的表格,可能并没有明确的表征列名的标记位,这可对表格的第一个非空行进行校验,由于表头的数据格式通常不同于表格中各行内容的数据格式,如果该行的元素格式明显有别于剩下的所有行,则该行可以作为列名行使用。
步骤203,确定与所述查询关键词相关的行实例。
根据查询关键词在表格中的位置确定出所覆盖的列,进而选择列名,根据查询关键词的位置选择实例行。对于Snippet而言,可供显示空间有限,特别是仅能显示有限的行数,如何选择出相关的实例行就显得特别重要。相对而言,由于Snippet在宽度方面要求不严格,只要不超过屏幕显示的宽度即可,故所覆盖的列名基本都可以进行显示。
作为可选的方式,还可考虑查询关键词的权重信息,据此可以辅助相关实例与相关列名的选择,还可用于调整实例与列名显示的内容及顺序,使得最相关的实例放在前面。查询词权重是用于确定Snippet显示顺序调整时需要考虑的一个因素,通常是搜索引擎提供者跟据统计所提供的信息,例如,可以根据查询词被搜索的频率赋予不同的权重,这属于已有的技术。
步骤204,根据所述列名及相关的行实例生成所述表格式页面摘要。
在一个实施例中,如果在步骤201中的查询关键词为多个,该步骤可以包括:统计所述相关行实例中所述查询关键词的权重得到行实例的相关度;根据所述列名以及至少一个相关度排在前列的相关行实例生成所述表格式页面摘要。在摘要中可按照表格中原顺序呈现所选择的行实例,也可根据相关度的高低顺序呈现相关实例以及对应的相关列名。此外,表格式页面摘要中的表格形式既可显示边框,也可以不显示边框,但至少需要表格中的列名与实例的位置相互对应。
现结合图2进一步说明跨页面表格式摘要生成的流程,在图2所示的步骤201中返回多个关联表格网页。作为可选的步骤,在一个实施例中,根据查询关键词以及搜索引擎返回的网页序列,通过网页聚类将有相似性的页面聚合在一起,所述多个关联表格网页均在同一个聚类中。网页聚类可采用公知的技术手段,在此不进行过多的陈述。在一个改进的实施例中,对所述网页序列中来自同一网站域名下的网页进行聚类,在所述聚类结果中包括所述多个关联表格网页。之所以对来自同一网站的网页进行网页聚合,是因为相关性较大的表格通常出现在同一网站域名下的网页中,故可以提高聚合的相关性。举例而言,公司网站中所公布的信息中,对于同一个员工,可能用多个不同的表格公开该员的不同信息,通过对同属于该公司网站的网页聚合更加准确的发现可进行跨页面摘要的网页。
进而,通过以下两种实施方式可生成跨页面的表格式页面摘要。所述跨页面表格式页面摘要合并了所述多个关联表格网页中与所述查询关键词相关联的列名与实例。
在第一个实施例中,在图2所示的步骤201中返回多个关联表格网页之后,通过步骤202至步骤204为每个所述关联表格网页生成表格式摘要,之后进一步包括:合并所述多个关联表格网页的表格式摘要得到合并后的摘要;根据所述查询关键词在所述合并后的摘要中确定相关行实例与列名;根据所述相关行实例以及列名输出跨页面的表格式页面摘要。参看表1,对该实施例进行说明,表1中所示的页面P1和P3的表格式摘要匹配了全部查询关键词KEY1、KEY2和KEY3,页面P2的表格式摘要匹配的是部分的查询关键词KEY1。
表1
P1 | T1 | T4 | T2 | T5 | T3 |
KEY1 | KEY2 | KEY3 | |||
P2 | T1 | T6 | T7 | T8 | |
KEY1 | |||||
P3 | T1 | T2 | T3 | T5 | T9 |
KEY1 | KEY2 | KEY3 |
合并所述多个页面的表格摘要后生成合并的表格式摘要。在表格摘要的合并中会出现列名与实例的融合与连接,即,对具有相同的列名及单元格数据的部分可进行融合,对于不同的列名及单元格数据的部分可进行连接。如表2所示,是合并后的表格式摘要:
表2
T1 | T2 | T3 | T5 | T4 | T9 | T6 | T7 | T8 |
KEY1 | KEY2 | KEY2 |
根据所述查询关键词在所述合并的表格式摘要中选择新相关实例与新相关列名。对多个表格式摘要进行融合后,其大小可能不再适合作为Snippet进行显示,故有必要进一步选择相关实例与相关列名。进而,根据所述新相关实例以及所述新相关列名输出最终表格式的摘要,产生包含所述网页序列和所述页面摘要的查询结果。
在另一个实施例中,在获得所述关联表格网页中表格的解析结果后,合并所述多个关联表格网页的表格解析结果得到为合并的表格解析结果,在所述合并的表格解析结果中抽取行实例与列名。之后,通过步骤202至步骤204生成所述跨页面的表格式页面摘要。这种将所述多个关联表格网页的解析结果合并为新的解析结果,进而选择与所述查询关键词相关的实例与列名,故仅需要一次实例的选择即可。
通过在图1所示的计算机系统中实现图2前述公开的方法流程,本申请还可体现为一种在搜索引擎中生成表格式页面摘要的装置,图3示出了该装置的框架示意图,主要包括:用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件301;用于获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例的部件302;用于确定与所述查询关键词相关的行实例的部件303;用于根据所述列名及相关的行实例生成表格式页面摘要的部件304。
在一个改进的实施例中,所述用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件返回多个所述关联表格网页。
进而,在一个实施例中,所述用于获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例的部件包括:用于在获得所述关联表格网页中表格的解析结果后,合并所述多个关联表格网页的表格解析结果得到为合并的表格解析结果,基于所述合并的表格解析结果抽取列名及各行实例的部件;所述用于根据所述列名及相关的行实例生成表格式页面摘要的部件中生成的是跨页面的表格式页面摘要。
在一个实施例中可进一步包括,用于合并所述多个关联表格网页的表格式页面摘要的部件;用于在所述合并的表格式页摘要中确定与所述查询关键词相关的行实例的部件;用于根据所述列名及相关行实例生成跨页面的表格式页面摘要的部件。
在令一个改进的实施例中,所述用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件是对来自同一网站域名下的网页进行聚类,并在所述聚类中确定出所述多个关联表格网页。
在一个实施例中,在所述跨页面的表格式页面摘要中从视觉上区分来自不同网页的列名与实例。
在一个实施例中,在所述用于检索并返回部件中的查询关键词为多个,所述用于根据所述列名及相关的行实例生成所述表格式页面摘要的部件包括:用于统计所述相关行实例中所述查询关键词的权重得到行实例的相关度的部件;用于根据所述列名以及至少一个相关度排在前列的相关行实例生成所述表格式页面摘要的部件。
在一个实施例中,所述表格的解析结果是在蜘蛛程序抓取网页时解析所有网页中的表格所获得并保存的结果。
在一个实施例中,所述表格的解析结果是通过实时解析所述关联表格网页中的表格获得的。
通过前述方案,在通过解各种格式文档中的表格信息的基础上理解查询,进而生成保留表格格式信息的表格式页面摘要,因此不同于现有技术,改善了现有技术中仅仅对搜索结果中的关键词进行提取,不保留表格格式信息的缺陷。
接下来在一个完整的针对webpage的实施例对本申请的技术方案进行示范性的说明:假设查询关键词为:a2,b2,b9,Page1是所返回的网页序列中的一个网页,图4所示的页面1(Page1)包括与所述查询关键词相关的表格。
经过HTML Parser解析后结果为:
从上述解析后的结构中通过<Table>标记定位得到表格的位置,并通过<TH>标记抽取列名信息如下:
同时,通过<TD>标记抽取各行实例信息:比如
通过关键词a2,b2,b9的匹配可以确定第2行和第9行的实例和查询存在匹配。假设每个关键词都同样重要,可以得出第2行的相关度为:2/3,第9行的相关度为1/3。同时可以确定第2行覆盖列a和列b,第9行覆盖列b。据此,可以确定第2行实例和第9行实例为相关实例,HeaderA和HeaderB为相关列名。参看表3,是最后生成表格摘要的示意。
表3
HeaderA | HeaderB | HeaderC | HeaderD | HeaderE | HeaderF |
a2 | b2 | c2 | d2 | e2 | f2 |
a9 | b9 | c9 | d9 | e9 | f9 |
如果列空间的约束,在一个实施例中,还可以略去最后不相关的部分表格列,表格摘要示范请参看表4。
表4
He aderA | HeaderB | HeaderC | HeaderD |
a2 | b2 | c2 | d2 |
a9 | b9 | c9 | d9 |
接下来给出跨页面摘要生成的示例:
图5、图6分别示出了在同一网站内具有包括如下表格信息网页2(Page2)和网页3(Page3)。假设检索关键词为:a2,b2,b9,h2,j9,通过匹配可以确定:网页1中具有匹配了部分关键词a2,b2,b9的表格;网页2中具有匹配了部分关键词a2h2的表格;网页3中具有匹配了部分关键词b2,b9,j9的表格。其中任何一个页面均没法满足查询关键词中所有的关键词匹配需求,参看表5,示范出通过本申请提供方法得到的跨页面表格式摘要。
表5
HeaderA | HeaderB | HeaderC | HeaderD | HeaderE | HeaderF | HeaderG | HeaderH | HeaderI | HeaderJ |
a2 | b2 | c2 | d2 | e2 | f2 | g2 | h2 | i2 | j2 |
a9 | b9 | c9 | d9 | e9 | f9 | g9 | h9 | i9 | j9 |
如果列空间也受到约束,参看表6,是略去最后不相关的部分表格列的示意。
表6
HeaderA | HeaderB | HeaderC | HeaderH | HeaderI | HeaderJ |
a2 | b2 | c2 | h2 | i2 | j2 |
a9 | b9 | c9 | h9 | i9 | j9 |
在一个实施例中,可在视觉上用不同的格式信息在生成的表格摘要中区分来自不同网页的部分,用户可通过点击相应的部分,转到源网页进行信息的浏览。
应指出的是,以上描述仅为示例,而不是对本发明的限制。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (18)
1.一种用于在搜索引擎中生成扩展的页面摘要的方法,包括:
检索并返回具有与查询关键词相关的表格的关联表格网页;
获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例;
确定与所述查询关键词相关的行实例;
根据所述列名及相关的行实例生成表格式页面摘要。
2.如权利要求1所述的方法,其特征在于,
在所述检索并返回具有与查询关键词相关的表格的关联表格网页步骤中返回多个所述关联表格网页。
3.如权利要求2所述的方法,其特征在于,
在获得所述关联表格网页中表格的解析结果后,合并所述多个关联表格网页的表格解析结果得到为合并的表格解析结果,基于所述合并的表格解析结果抽取列名及各行实例;
在根据所述列名及相关的行实例生成所述表格式页面摘要的步骤中生成的是跨页面的表格式页面摘要。
4.如权利要求2所述的方法,进一步包括,
合并所述多个关联表格网页的表格式页面摘要;
在所述合并的表格式页摘要中确定与所述查询关键词相关的行实例;
根据所述列名及相关行实例生成跨页面的表格式页面摘要。
5.如权利要求2所述的方法,其特征在于,在所述检索并返回具有与查询关键词相关的表格的关联表格网页步骤中,对来自同一网站域名下的网页进行聚类,在所述聚类结果中确定出所述多个关联表格网页。
6.如权利要求3或4所示的方法,其特征在于,在所述跨页面的表格式页面摘要中从视觉上区分来自不同网页的列名与行实例。
7.如权利要求1所述的方法,其特征在于,在所述检索并返回步骤中的查询关键词为多个,所述根据所述列名及相关的行实例生成所述表格式页面摘要的步骤包括:
统计所述相关行实例中所述查询关键词的权重得到行实例的相关度;
根据所述列名以及至少一个相关度排在前列的相关行实例生成所述表格式页面摘要。
8.如权利要求1所述的方法,其特征在于,所述表格的解析结果是在蜘蛛程序抓取网页时解析所有网页中的表格所获得并保存的结果。
9.如权利要求1所述的方法,其特征在于,所述表格的解析结果是通过实时解析所述关联表格网页中的表格获得的。
10.一种用于在搜索引擎中生成扩展的页面摘要的装置,包括:
用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件;
用于获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例的部件;
用于确定与所述查询关键词相关的行实例的部件;
用于根据所述列名及相关的行实例生成表格式页面摘要的部件。
11.如权利要求10所述的装置,其特征在于,所述用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件返回多个所述关联表格网页。
12.如权利要求11所述的装置,其特征在于,所述用于获得所述关联表格网页中表格的解析结果,基于所述解析结果抽取列名及各行实例的部件包括:用于在获得所述关联表格网页中表格的解析结果后,合并所述多个关联表格网页的表格解析结果得到为合并的表格解析结果,基于所述合并的表格解析结果抽取列名及各行实例的部件;
所述用于根据所述列名及相关的行实例生成表格式页面摘要的部件中生成的是跨页面的表格式页面摘要。
13.如权利要求11所述的装置,进一步包括,
用于合并所述多个关联表格网页的表格式页面摘要的部件;
用于在所述合并的表格式页摘要中确定与所述查询关键词相关的行实例的部件;
用于根据所述列名及相关行实例生成跨页面的表格式页面摘要的部件。
14.如权利要求11所述的装置,其特征在于,所述用于检索并返回具有与查询关键词相关的表格的关联表格网页的部件是对来自同一网站域名下的网页进行聚类,并在所述聚类中确定出所述多个关联表格网页。
15.如权利要求12或13所示的装置,其特征在于,在所述跨页面的表格式页面摘要中从视觉上区分来自不同网页的列名与实例。
16.如权利要求9所述的装置,其特征在于,在所述用于检索并返回部件中的查询关键词为多个,所述用于根据所述列名及相关的行实例生成所述表格式页面摘要的部件包括:
用于统计所述相关行实例中所述查询关键词的权重得到行实例的相关度的部件;
用于根据所述列名以及至少一个相关度排在前列的相关行实例生成所述表格式页面摘要的部件。
17.如权利要求9所述的装置,其特征在于,所述表格的解析结果是在蜘蛛程序抓取网页时解析所有网页中的表格所获得并保存的结果。
18.如权利要求9所述的装置,其特征在于,所述表格的解析结果是通过实时解析所述关联表格网页中的表格获得的。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110294672.4A CN103034633B (zh) | 2011-09-30 | 2011-09-30 | 生成扩展的搜索结果页面摘要的方法及装置 |
US13/628,077 US8977606B2 (en) | 2011-09-30 | 2012-09-27 | Method and apparatus for generating extended page snippet of search result |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110294672.4A CN103034633B (zh) | 2011-09-30 | 2011-09-30 | 生成扩展的搜索结果页面摘要的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103034633A true CN103034633A (zh) | 2013-04-10 |
CN103034633B CN103034633B (zh) | 2016-08-03 |
Family
ID=47993600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110294672.4A Expired - Fee Related CN103034633B (zh) | 2011-09-30 | 2011-09-30 | 生成扩展的搜索结果页面摘要的方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8977606B2 (zh) |
CN (1) | CN103034633B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105487746A (zh) * | 2015-08-28 | 2016-04-13 | 小米科技有限责任公司 | 搜索结果的呈现方法和装置 |
CN105808562A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于权值提取网页摘要的方法和装置 |
CN105808561A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种从网页中提取摘要的方法和装置 |
CN105930471A (zh) * | 2016-04-25 | 2016-09-07 | 上海交通大学 | 演讲摘要生成方法及装置 |
CN106095948A (zh) * | 2016-06-13 | 2016-11-09 | 网易(杭州)网络有限公司 | 表格的查询方法、装置和设备 |
CN106126561A (zh) * | 2016-06-16 | 2016-11-16 | 北京百度网讯科技有限公司 | 搜索结果摘要的生成方法及装置 |
CN109670028A (zh) * | 2018-12-27 | 2019-04-23 | 天津字节跳动科技有限公司 | 在线文档中表格检索方法及装置 |
CN109783612A (zh) * | 2018-12-29 | 2019-05-21 | 上海智臻智能网络科技股份有限公司 | 报表数据定位方法及装置、存储介质、终端 |
CN110334331A (zh) * | 2019-05-30 | 2019-10-15 | 重庆金融资产交易所有限责任公司 | 基于排序模型筛选表格的方法、装置和计算机设备 |
CN110516048A (zh) * | 2019-09-02 | 2019-11-29 | 苏州朗动网络科技有限公司 | pdf文档中表格数据的提取方法、设备和存储介质 |
CN113094444A (zh) * | 2020-01-09 | 2021-07-09 | 北京沃东天骏信息技术有限公司 | 数据处理方法、数据处理装置、计算机设备和介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636400A (zh) * | 2013-11-15 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 浏览器网页生成方法、浏览器及系统 |
CN104182549A (zh) * | 2014-09-15 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种电子邮件摘要生成方法及装置 |
EP3220284A4 (en) * | 2014-11-14 | 2017-09-20 | Fujitsu Limited | Data acquisition program, data acquisition method and data acquisition device |
US10140880B2 (en) * | 2015-07-10 | 2018-11-27 | Fujitsu Limited | Ranking of segments of learning materials |
CN105447191B (zh) * | 2015-12-21 | 2019-12-31 | 北京奇虎科技有限公司 | 提供图文引导步骤的智能摘要方法及相应装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030226147A1 (en) * | 2002-05-31 | 2003-12-04 | Richmond Michael S. | Associating an electronic program guide (EPG) data base entry and a related internet website |
CN101576891A (zh) * | 2008-05-05 | 2009-11-11 | 北京瑞佳晨科技有限公司 | 一种解析网页表格对象节点的方法 |
CN101615193A (zh) * | 2009-07-07 | 2009-12-30 | 北京大学 | 一种基于百科数据提取集成的查询系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240067B2 (en) * | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US7617176B2 (en) | 2004-07-13 | 2009-11-10 | Microsoft Corporation | Query-based snippet clustering for search result grouping |
US7917480B2 (en) | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
CA2577841A1 (en) | 2004-08-19 | 2006-03-02 | Claria Corporation | Method and apparatus for responding to end-user request for information |
US7725813B2 (en) * | 2005-03-30 | 2010-05-25 | Arizan Corporation | Method for requesting and viewing a preview of a table attachment on a mobile communication device |
US7313772B2 (en) | 2005-05-24 | 2007-12-25 | International Business Machines Corporation | Systems, methods, and media for block-based assertion generation, qualification and analysis |
US8533761B1 (en) * | 2007-04-30 | 2013-09-10 | Google Inc. | Aggregating media information |
US8250053B2 (en) | 2009-02-24 | 2012-08-21 | Microsoft Corporation | Intelligent enhancement of a search result snippet |
-
2011
- 2011-09-30 CN CN201110294672.4A patent/CN103034633B/zh not_active Expired - Fee Related
-
2012
- 2012-09-27 US US13/628,077 patent/US8977606B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030226147A1 (en) * | 2002-05-31 | 2003-12-04 | Richmond Michael S. | Associating an electronic program guide (EPG) data base entry and a related internet website |
CN101576891A (zh) * | 2008-05-05 | 2009-11-11 | 北京瑞佳晨科技有限公司 | 一种解析网页表格对象节点的方法 |
CN101615193A (zh) * | 2009-07-07 | 2009-12-30 | 北京大学 | 一种基于百科数据提取集成的查询系统 |
Non-Patent Citations (1)
Title |
---|
KRISHNAN: ""New snippets for list pages"", 《HTTP://INSIDESEARCH.BLOGSPOT.COM/2011/08/NEW-SNIPPETS-FOR-LIST-PAGES.HTML ON 5/9/14》, 26 August 2011 (2011-08-26), pages 1 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808562A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于权值提取网页摘要的方法和装置 |
CN105808561A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种从网页中提取摘要的方法和装置 |
CN105487746A (zh) * | 2015-08-28 | 2016-04-13 | 小米科技有限责任公司 | 搜索结果的呈现方法和装置 |
CN105930471A (zh) * | 2016-04-25 | 2016-09-07 | 上海交通大学 | 演讲摘要生成方法及装置 |
CN106095948A (zh) * | 2016-06-13 | 2016-11-09 | 网易(杭州)网络有限公司 | 表格的查询方法、装置和设备 |
CN106126561A (zh) * | 2016-06-16 | 2016-11-16 | 北京百度网讯科技有限公司 | 搜索结果摘要的生成方法及装置 |
CN109670028A (zh) * | 2018-12-27 | 2019-04-23 | 天津字节跳动科技有限公司 | 在线文档中表格检索方法及装置 |
CN109783612A (zh) * | 2018-12-29 | 2019-05-21 | 上海智臻智能网络科技股份有限公司 | 报表数据定位方法及装置、存储介质、终端 |
CN109783612B (zh) * | 2018-12-29 | 2020-12-29 | 上海智臻智能网络科技股份有限公司 | 报表数据定位方法及装置、存储介质、终端 |
CN110334331A (zh) * | 2019-05-30 | 2019-10-15 | 重庆金融资产交易所有限责任公司 | 基于排序模型筛选表格的方法、装置和计算机设备 |
CN110516048A (zh) * | 2019-09-02 | 2019-11-29 | 苏州朗动网络科技有限公司 | pdf文档中表格数据的提取方法、设备和存储介质 |
CN113094444A (zh) * | 2020-01-09 | 2021-07-09 | 北京沃东天骏信息技术有限公司 | 数据处理方法、数据处理装置、计算机设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103034633B (zh) | 2016-08-03 |
US8977606B2 (en) | 2015-03-10 |
US20130086035A1 (en) | 2013-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103034633A (zh) | 生成扩展的搜索结果页面摘要的方法及装置 | |
US9639631B2 (en) | Converting XML to JSON with configurable output | |
Kaur et al. | Modeling and querying data in NoSQL databases | |
KR101114023B1 (ko) | 확장형 문서 검색을 위한 콘텐츠 전파 | |
Zheng et al. | A Study of Web Information Extraction Technology Based on Beautiful Soup. | |
US20110119262A1 (en) | Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
US10713291B2 (en) | Electronic document generation using data from disparate sources | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
US12056197B2 (en) | Identifying information using referenced text | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN102955810B (zh) | 一种网页分类方法和设备 | |
US20180096067A1 (en) | Creation and optimization of resource contents | |
CN105824872B (zh) | 基于搜索的数据的检测、链接和获取的方法和系统 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN103838798A (zh) | 页面分类系统及页面分类方法 | |
CN102760150A (zh) | 基于属性重现和标签路径的网页抽取方法 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
US20180357278A1 (en) | Processing aggregate queries in a graph database | |
CN101517572A (zh) | Xml文档的语义感知处理 | |
Fan et al. | Detecting difference between process models based on the refined process structure tree | |
JP5462591B2 (ja) | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 | |
Mitchell | Metadata standards and web services in libraries, archives, and museums | |
WO2010147453A1 (en) | System and method for designing a gui for an application program | |
CN1326078C (zh) | 包装器的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160803 Termination date: 20200930 |
|
CF01 | Termination of patent right due to non-payment of annual fee |