CN1858733B - 信息检索系统和检索方法 - Google Patents
信息检索系统和检索方法 Download PDFInfo
- Publication number
- CN1858733B CN1858733B CN200510117147XA CN200510117147A CN1858733B CN 1858733 B CN1858733 B CN 1858733B CN 200510117147X A CN200510117147X A CN 200510117147XA CN 200510117147 A CN200510117147 A CN 200510117147A CN 1858733 B CN1858733 B CN 1858733B
- Authority
- CN
- China
- Prior art keywords
- retrieval
- user
- search
- search engine
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000003542 behavioural effect Effects 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 16
- 238000012731 temporal analysis Methods 0.000 claims description 14
- 238000000700 time series analysis Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 6
- 230000013011 mating Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000239290 Araneae Species 0.000 description 1
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种信息检索系统,包括:搜索引擎、提供给搜索引擎进行搜索的内容索引数据库,用户特征数据库、内容分析系统。还相应提供了一种信息检索方法,包括以下步骤:根据用户输入的检索关键词进行检索获得原始检索结果;根据用户标识和当前时间获得对应的用户的特征行为信息,所述特征行为信息包括至少一个特征行为关键字;根据所述特征行为关键词对原始检索结果进行二次检索,将二次检索结果显示给用户。使用本发明,能够根据用户在不同时间段所表现出的不同特征行为对用户的搜索进行过滤,提高用户搜索相关信息的准确性和搜索效率。
Description
技术领域
本发明涉及信息检索技术领域,特别是指一种信息检索系统和检索方法。
背景技术
搜索引擎是指能够获得网站网页资料,能够建立数据库并提供查询的系统。按照工作原理的不同,可以将搜索引擎分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。
全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。通常将对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,如Google的全文搜索(http://www.google.com/intl/zh-CN/)。
分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,如“网址之家”(http://www.hao123.com/)。通常将对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,如“新浪搜索”(http://dir.sina.com.cn/)和“雅虎中国搜索”(http://cn.search.yahoo.com/dirsrch/)。
全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询。对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有以下两类:
1、元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。
2、集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,如“网际瑞士军刀”(http://free.okey.net/%7Efree/searchl.htm)。
这里再介绍一下搜索引擎的工作原理,全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才添加到内容索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当输入关键词进行查询时,搜索引擎会从庞大的内容索引数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,内容索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
现在常规搜索引擎通过由软件实施的自动地访问网站和依次地跟踪其中的超文本连接并通过所谓的“关键词”提取在其中遇到的每一个文件并在一个大的数据库中标志每个文件以备随后访问。
具体地,通过这类提取,这类文件都减缩了,都被抽调所有语义和句法信息,但还包含文件中具有地有内容的词。这些内容词可能存在文件本身内或只在该文件的超文本标记语言(HTML)的描述段内。在以上任何一种情况下,该引擎为每个这类文件建立一个条目即一个文件记录。对于每个文件,其内容词都在一个可搜索数据结构中加以标志,并带有一个往回指向文件记录的连接。该文件记录通常包含:a、一个网址,即一个URL(统一资源定位器,一个网络浏览器可通过它访问相应的文件);b、该文件中的不同内容词以及在某些引擎中与该文件的其他内容词有关的每个这类内容词的相对地址;c、该文件的一个段摘要,通常只有几行或该文件的前几行;d、可能会有在其HTML描述段中提供的对文件的描述。
用户在使用搜索引擎时,向引擎提供一个基于关键词的查询,该搜索引擎试图查找包含尽可能多的关键词的文件,以及在请求时根据运算符或其他规定(例如是逻辑运算,如:与/或/非)的范围来查找。对于每一个它查找的这类文件,该引擎检索它的文件记录及按照该文件中相对与其他这类文件而言的关键词匹配数目来排序以向用户提供该记录。
目前,搜索引擎只是对用户提供的关键词查询做出简单的响应,而用户在不同的时间可能会有不同的行为习惯,从而有不同的需求,希望检索的内容信息可能有所不同,但现有的检索方法不会考虑这些情况对搜索引擎的搜索结果进行分类。
发明内容
有鉴于此,本发明的主要目的在于提供了一种基于时间的用户特征行为搜索的系统和方法,使能够根据用户在不同时间段所表现出的不同特征行为对用户的搜索进行过滤,达到不同用户用同一关键词搜索得到的结果不同,同一用户在不同的时间段用同一关键词搜索得到的结果也不同,从而提高用户搜索相关信息的准确性和搜索效率。
本发明提供了一种信息检索系统,包括:搜索引擎(12)、提供给搜索引擎进行搜索的内容索引数据库(11),还包括:
用户特征数据库(14),保存有用户在不同时间段内所具有的特征行为信息;
内容分析系统(13),用于获得用户终端输入的搜索关键词,同时获得用户标识,根据获得的用户标识和当前的搜索时间查询用户特征数据库(14)获得与所述用户标识和所述当前的搜索时间匹配的特征行为信息;以及将搜索关键词发送至搜索引擎(12)并保存搜索引擎(12)搜索出来的检索结果信息,根据获得的所述特征行为信息对保存的检索结果信息进行再次检索排序,将再次检索排序后的检索结果发送给用户终端显示,包括:
数据收发单元(131),用于实现与用户终端的交互,接收用户终端输入的搜索关键词并发送给搜索引擎接口(132),以及将用户标识发送给时间分析单元(133);
搜索引擎接口(132),用于将数据收发单元(131)发送过来的搜索关键词发送给搜索引擎(12),以及接收搜索引擎(12)的搜索结果发送给检索数据存储单元(135);
检索数据存储单元(135),用于保存搜索引擎接口(132)发送过来的搜索引擎(12)的搜索结果,以提供给检索分析单元(134);
时间分析单元(133),用于接收数据收发单元(131)发送过来的用户标识和确定当前的搜索时间,并据此检索用户特征数据库(14),获得所述用户标识和当前的搜索时间对应的特征行为信息,提供给检索分析单元(134);
检索分析单元(134),用于接收时间分析单元(133)发送过来的特征行为信息,并据此对检索数据存储单元(135)中存储的所述搜索结果进行二次检索过滤和/或排序,并将过滤和/或排序后的检索结果发送给数据收发单元(131)以返回给用户终端。
其中,所述用户特征数据库(14)包括:
时间段信息表,用于存储不同时间段对应的不同时间段编号;
特征行为表,用于存储用户的不同特征行为编号对应的不同的特征行为的关键字和/或特征行为的从属关键字信息;
匹配表,用于存储用户的不同时间段编号所对应的特征行为编号。
其中,所述用户特征数据库(14)进一步包括:个人用户信息表,用于存储用户的个人信息。
本发明还提供了一种信息检索方法,预先保存用户标识在不同时间段对应的特征行为信息,还包括以下步骤:
A、数据收发单元(131)获得用户输入的检索关键词,同时获取用户标识,将用户终端输入的搜索关键词发送给搜索引擎接口(132),将用户标识发送给时间分析单元(133);
搜索引擎接口(132)将数据收发单元(131)发送过来的搜索关键词发送给搜索引擎(12),搜索引擎(12)根据检索关键词在内容索引数据库(11)中进行检索获得原始检索结果,发送给搜索引擎接口(132),搜索引擎接口(132)将接收的原始检索结果发送给检索数据存储单元(135)进行保存;
B、时间分析单元(133)根据获得的用户标识和当前的搜索时间,并据此检索用户特征数据库(14),检索到与所述用户标识和所述当前的搜索时间对应的特征行为信息,提供给检索分析单元(134);
C、检索分析单元(134)接收时间分析单元(133)发送过来的特征行为信息,根据所述特征行为信息对检索数据存储单元(135)中存储的搜索引擎(12)搜索出的原始检索结果进行再次检索,将包含所述特征行为信息的检索结果发送给数据收发单元(131),数据收发单元(131)将接收的检索结果优先显示给用户。
其中,所述获取用户标识的步骤包括:接收用户通过用户终端输入的用户标识;或,接收用户登陆系统时录入的用户标识。
其中,所述获取当前的搜索时间的步骤包括:从本地服务器或网络上任一台计算机设备上获取提供的当前的搜索时间。
其中,不同特征行为信息设置有不同的优先级,步骤C进行再次检索时,进一步包括:分别根据所述不同特征行为信息对搜索引擎搜索出的原始检索结果的再次检索;根据所述特征行为信息的优先级将对应的再次检索后的检索结果进行排序。
其中,所述的特征行为信息包括:特征行为关键字和/或特征行为从属关键字。
由上述方法可以看出,本发明提供的方案可以根据时间特性对应的用户的个性化的特征行为,对搜索引擎根据用户输入的关键词所搜索到的原始搜集结果记录进行二次筛选过滤,将用户真正感兴趣的文件记录信息优先显示给用户,提高了用户检索相关信息的准确性和搜索效率。
附图说明
图1为本发明信息检索系统的系统框架图。
图2为用户特征数据库的框架图。
图3为内容分析系统的框架图。
图4为本发明实现检索过程的流程图。
具体实施方式
本发明考虑到用户在不同的时间段会有不同的特征行为信息,因此,在搜索引擎得到检索结果后,根据当前时间段所对应的用户的特征行为信息处理检索的结果,将符合所述用户特征行为信息的检索结果优先显示给用户,从而改进搜索引擎检索的精度,使提供给用户的检索结果更贴近用户的需求。
下面参考附图对本发明进行详细说明。
首先图1示出了本发明的信息检索系统,包括内容分析系统13、用户特征数据库14、搜索引擎12和内容索引数据库11,其中:
内容分析系统13,用于接收用户终端传送过来的用户标识、输入的搜索关键字和获得本地服务器的当前时间,并据此查询用户特征数据库14匹配出该时段用户的特征行为,对通过搜索引擎12搜索出来的页面进行再次检索和过滤,使检索的页面按用户在该时间段中表现出的特征行为偏好优先级的顺序呈现给用户。
用户特征数据库14,用于保存用户的特征行为信息,尤其是用户在不同时间段内所具有的特征行为信息,后面对该数据库进行了详细的说明,此处不再赘述。
搜索引擎12,是基于文本和关键词的搜索工具,在已有内容索引数据库11中搜索之后,返回所需文件指针清单,并带有文件标题,以及通常还有一些从文件正文中摘录下来的描述性文字。
内容索引数据库11,通过激活由软件实施的自动程序(如“网络蜘蛛”)自动地访问网站和依次地跟踪其中的超文本连接并通过所谓“关键词”提取在其中遇到的每个文件,并保存在该数据库中,提供给搜索引擎12进行访问。
其中,图2为所述用户特征数据库14的一个实施例,可以通过但不限于下面的几个表来实现用户的不同时间段内所具有的特征行为信息的保存。下面对给出的个人用户信息表、时间段信息表、特征行为表、匹配表进行详细描述。
个人用户信息表用于存储用户的个人信息,可以是用户注册时输入的信息。如下表1示出了一个用户信息表:
用户编号 | 用户姓名 | 用户性别 | ...... |
U001 | 张三 | 男 | ...... |
...... | ...... | ...... | ...... |
表1
时间段信息表用于存储了不同时间段对应的不同时间段编号,将时间段编号是为了便于数据库的检索方便,同时对时间段的设置更加灵活。如下表2示出了一个时间段信息表:
时间段编号 | 时间段 |
T001 | 0:00-1:00 |
...... | ...... |
表2
特征行为表用于存储用户的不同的特征行为关键字所对应的不同特征行为编号,其中,一个特征行为关键字还可以有从属关键字,这些都属于特征行为信息。如下表3示出了的一个特征行为表:
用户编号 | 特征行为编号 | 特征行为关键字 | 特征行为从属关键字 | ...... |
U001 | C001 | 游戏 | 电子游戏、电脑游戏...... | ...... |
U001 | C002 | 音乐 | 古典、管弦...... | ...... |
...... | ...... | ...... | ...... | ...... |
表3
匹配表用于存储用户的不同时间段编号所对应的特征行为编号。通过该表,建立了表1、表2和表3之间的关系,即建立了不同时间段和特征行为关键字/特征行为从属关键字的关系。如下表4示出了一个匹配表:
用户编号 | 时间段编号 | 特征行为编号 | 特征优先级 | ...... |
U001 | T001 | C001 | 9 | ...... |
U001 | T001 | C002 | 8 | ...... |
...... | ...... | ...... | ...... | ...... |
表4
上述表4中还包括了特征优先级项,用来标识在一定时间段内,该用户的不同特征行为的优先级。如表4示出的例子表示:用户U001在时间段T001中,特征行为编号为C001的特征优先级为9高于特征行为编号为C002的特征优先级为8,表示该用户U001在时间段T001中更偏向于表现出特征行为编号为C001的特征行为。
对于用户特征数据库14所存储的数据,可以是由用户业务行为特征采集的系统提供,关于用户业务行为特征采集的系统的实现,可参见本申请人申请的“用户业务行为特征采集的系统及方法”发明。
图3示出了所述内容分析系统13的框架图,包括数据收发单元131、搜索引擎接口132、时间分析单元133、检索分析单元134、检索数据存储单元135。其中:
数据收发单元131,用于实现与用户终端的交互,接收用户通过用户终端输入的搜索关键词并发送给搜索引擎接口132,以及将获得的用户标识发送给时间分析单元133。
搜索引擎接口132,用于实现与搜索引擎12的交互,将数据收发单元131发送过来的搜索关键词发送给搜索引擎12,以及接收搜索引擎12的搜索结果发送给检索数据存储单元135。
检索数据存储单元135:将搜索引擎接口132发送过来的搜索引擎12的搜索结果进行保存,以提供给检索分析单元134进行分析。
时间分析单元133,用于接收数据收发单元131发送过来的用户标识和获得当前的搜索时间,并据此检索用户特征数据库14,获得所述用户标识和搜索时间对应的特征行为关键词信息,并提供给检索分析单元134。所述行为特征关键词信息可以包括但不限于特征行为关键字和特征行为从属关键字。
检索分析单元134,用于接收时间分析单元133发送过来的特征行为关键词信息,并据此对检索数据存储单元135中存储的所述搜索结果进行二次检索过滤和/或排序,并将过滤和/或排序后的检索结果发送给数据收发单元131以返回给用户终端显示给用户。
下面参见图3,同时参见图4示出的本发明信息检索系统实现检索过程的流程图,对本发明检索方法进行详细说明,包括以下部分:
步骤401:首先用户根据要查询的信息在用户终端提供的搜索引擎中输入检索关键词,在输入时可能带有一个位于连续关键词之间的布尔型(例如“and”或“or”)或其他搜索引擎可以识别的运算符。
假设本例中用户在用户终端输入一个检索关键字“游戏”,请求查询相关信息。
步骤402:这些信息通过网络传送到内容分析系统13中,由内容分析系统13的数据收发单元131获得用户查询的关键词信息;同时数据收发单元131还获得该用户的标识,用户标识的获取可以是用户通过用户终端输入的,也可以是用户使用本发明信息检索系统时登陆时录入的。
步骤403:数据收发单元131将获得的关键词发送给搜索引擎接口132,将用户标识信息发送给时间分析单元133。
本例中数据收发单元131将用户输入的关键词“游戏”发送到搜索引擎接口132;将获得的该用户的标识U001发送给时间分析单元133。
步骤404:搜索引擎接口132将获得的用户查询的关键词发送给搜索引擎12,搜索引擎12根据关键词在内容索引数据库11中检索相关信息,将检索的结果返回给搜索引擎接口132,再发送给检索数据存储单元135中进行保存。
步骤405:时间分析单元133根据获得的用户标识和当前时间信息从用户特征数据库14中找到匹配的相关特征行为数据,再发送给检索分析单元134。时间信息可以是由装载内容分析系统的本地服务器提供或网络内任一台计算机设备提供,这里优选本地服务器提供。
本例中,根据时间信息获得对应的时间段编号T001;再根据用户标识U001、时间段编号从用户特征数据库14的上述表4中检索到该用户在此刻的用户行为偏好和优先级为(C001,9),(C002,8),......;根据上述表3获得该用户在此刻的特征行为关键字及特征行为从属关键字为:游戏,电子游戏、电脑游戏,......;音乐,古典、管弦、,......;将用户的这些特征行为关键词和相关特征优先级发送给检索分析单元134。
步骤406:检索分析单元134通过用户标识从检索数据存储单元135获得该用户已搜索出的相关检索结果(如页面信息),再通过接收的特征行为关键词和相关特征优先级,二次对检索结果信息进行检索重新排序,使用户真正相关的页面信息最先显示给用户。
本例中,对所述检索结果进行二次检索排序时,首先使用优先级高的特征行为关键词(游戏,电子游戏、电脑游戏,......)进行检索,将检索得出的文件信息列在最前面;然后对优先级低的特征行为关键词(音乐,古典、管弦、,......)进行检索,将检索得出的文件信息列在后面;然后将二次检索时不包括所述特征行为关键词的原检索结果的信息列在最后。本发明中对这些关键词的检索过程不做详细描述,这些技术在每个文本检索系统中都包括了。
步骤407:检索分析单元134将二次检索排序后的检索结果发送给数据收发单元131,由数据收发单元131将二次检索排序的结果(如页面信息)发给用户终端显示给用户。
上述检索方案可以用于几乎任何信息检索系统以增加其中搜索引擎的搜索准确度,而不论该引擎是否为一个常规引擎。此外,本发明还提高了从海量数据库中检索信息的准确度,而不论文字信息采用何种语言,例如中文,英文,法文,德文等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种信息检索系统,包括:搜索引擎(12)、提供给搜索引擎进行搜索的内容索引数据库(11),其特征在于,还包括:
用户特征数据库(14),保存有用户在不同时间段内所具有的特征行为信息;
内容分析系统(13),用于获得用户终端输入的搜索关键词,同时获得用户标识,根据获得的用户标识和当前的搜索时间查询用户特征数据库(14)获得与所述用户标识和所述当前的搜索时间匹配的特征行为信息;以及将搜索关键词发送至搜索引擎(12)并保存搜索引擎(12)搜索出来的检索结果信息,根据获得的所述特征行为信息对保存的检索结果信息进行再次检索排序,将再次检索排序后的检索结果发送给用户终端显示,包括:
数据收发单元(131),用于实现与用户终端的交互,接收用户终端输入的搜索关键词并发送给搜索引擎接口(132),以及将用户标识发送给时间分析单元(133);
搜索引擎接口(132),用于将数据收发单元(131)发送过来的搜索关键词发送给搜索引擎(12),以及接收搜索引擎(12)的搜索结果发送给检索数据存储单元(135);
检索数据存储单元(135),用于保存搜索引擎接口(132)发送过来的搜索引擎(12)的搜索结果,以提供给检索分析单元(134);
时间分析单元(133),用于接收数据收发单元(131)发送过来的用户标识和确定当前的搜索时间,并据此检索用户特征数据库(14),获得所述用户标识和当前的搜索时间对应的特征行为信息,提供给检索分析单元(134);
检索分析单元(134),用于接收时间分析单元(133)发送过来的特征行为信息,并据此对检索数据存储单元(135)中存储的所述搜索结果进行二次检索过滤和/或排序,并将过滤和/或排序后的检索结果发送给数据收发单元(131)以返回给用户终端。
2.根据权利要求1所述的系统,其特征在于,所述用户特征数据库(14)包括:
时间段信息表,用于存储不同时间段对应的不同时间段编号;
特征行为表,用于存储用户的不同特征行为编号对应的不同的特征行为的关键字和/或特征行为的从属关键字信息;
匹配表,用于存储用户的不同时间段编号所对应的特征行为编号。
3.根据权利要求2所述的系统,其特征在于,所述用户特征数据库(14)进一步包括:个人用户信息表,用于存储用户的个人信息。
4.一种信息检索方法,其特征在于,预先保存用户标识在不同时间段对应的特征行为信息,还包括以下步骤:
A、数据收发单元(131)获得用户输入的检索关键词,同时获取用户标识,将用户终端输入的搜索关键词发送给搜索引擎接口(132),将用户标识发送给时间分析单元(133);
搜索引擎接口(132)将数据收发单元(131)发送过来的搜索关键词发送给搜索引擎(12),搜索引擎(12)根据检索关键词在内容索引数据库(11)中进行检索获得原始检索结果,发送给搜索引擎接口(132),搜索引擎接口(132)将接收的原始检索结果发送给检索数据存储单元(135)进行保存;
B、时间分析单元(133)根据获得的用户标识和当前的搜索时间,并据此检索用户特征数据库(14),检索到与所述用户标识和所述当前的搜索时间对应的特征行为信息,提供给检索分析单元(134);
C、检索分析单元(134)接收时间分析单元(133)发送过来的特征行为信息,根据所述特征行为信息对检索数据存储单元(135)中存储的搜索引擎(12)搜索出的原始检索结果进行再次检索,将包含所述特征行为信息的检索结果发送给数据收发单元(131),数据收发单元(131)将接收的检索结果优先显示给用户。
5.根据权利要求4所述的方法,其特征在于,所述获取用户标识的步骤包括:接收用户通过用户终端输入的用户标识;或,
接收用户登陆系统时录入的用户标识。
6.根据权利要求4所述的方法,其特征在于,所述获取当前的搜索时间的步骤包括:从本地服务器或网络上任一台计算机设备上获取提供的当前的搜索时间。
7.根据权利要求4所述的方法,其特征在于,不同特征行为信息设置有不同的优先级,步骤C进行再次检索时,进一步包括:
分别根据所述不同特征行为信息对搜索引擎搜索出的原始检索结果的再次检索;
根据所述特征行为信息的优先级将对应的再次检索后的检索结果进行排序。
8.根据权利要求4所述的方法,其特征在于,所述的特征行为信息包括:特征行为关键字和/或特征行为从属关键字。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510117147XA CN1858733B (zh) | 2005-11-01 | 2005-11-01 | 信息检索系统和检索方法 |
PCT/CN2006/002804 WO2007051397A1 (fr) | 2005-11-01 | 2006-10-20 | Systeme d’extraction d’informations et procede d’extraction d’informations |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510117147XA CN1858733B (zh) | 2005-11-01 | 2005-11-01 | 信息检索系统和检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1858733A CN1858733A (zh) | 2006-11-08 |
CN1858733B true CN1858733B (zh) | 2012-04-04 |
Family
ID=37297642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200510117147XA Expired - Fee Related CN1858733B (zh) | 2005-11-01 | 2005-11-01 | 信息检索系统和检索方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN1858733B (zh) |
WO (1) | WO2007051397A1 (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100555283C (zh) * | 2006-12-12 | 2009-10-28 | 北京搜狗科技发展有限公司 | 一种直接针对用户的相关信息的发布方法和系统 |
CN101374044B (zh) * | 2007-08-21 | 2010-12-15 | 中国电信股份有限公司 | 一种使业务引擎获得用户标识的方法和系统 |
CN101996200B (zh) * | 2009-08-19 | 2014-03-12 | 华为技术有限公司 | 一种搜索文档的方法和装置 |
US20110225139A1 (en) * | 2010-03-11 | 2011-09-15 | Microsoft Corporation | User role based customizable semantic search |
CN102207942A (zh) * | 2010-03-29 | 2011-10-05 | 上海博泰悦臻电子设备制造有限公司 | 基于标识信息匹配的搜索方法及搜索装置 |
CN102207943A (zh) * | 2010-03-29 | 2011-10-05 | 上海博泰悦臻电子设备制造有限公司 | 基于标识信息匹配的搜索方法及搜索装置 |
CN102253936B (zh) * | 2010-05-18 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
TWI547888B (zh) * | 2010-08-27 | 2016-09-01 | Alibaba Group Holding Ltd | A method of recording user information and a search method and a server |
CN101916295B (zh) * | 2010-08-27 | 2011-12-14 | 董方 | 基于点对点网络的互联网搜索系统和方法 |
CN101996246B (zh) * | 2010-11-09 | 2012-11-14 | 中国电信股份有限公司 | 即时索引方法及系统 |
CN102117332A (zh) * | 2011-03-10 | 2011-07-06 | 辜进荣 | 基于特定时间的搜索方法 |
CN102184224A (zh) * | 2011-05-09 | 2011-09-14 | 李郁文 | 一种筛选搜索结果的系统和方法 |
CN102902695A (zh) * | 2011-07-29 | 2013-01-30 | 上海博泰悦臻电子设备制造有限公司 | 导航系统及兴趣点搜索方法和装置 |
CN102270243A (zh) * | 2011-08-25 | 2011-12-07 | 北京思博途信息技术有限公司 | 信息搜索方法和系统 |
CN102385636A (zh) * | 2011-12-22 | 2012-03-21 | 陈伟 | 一种智能搜索方法和装置 |
CN103368986B (zh) | 2012-03-27 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种信息推荐方法及信息推荐装置 |
CN102663048B (zh) * | 2012-03-29 | 2017-04-12 | 天津奇思科技有限公司 | 一种搜索结果提供方法及装置 |
CN102779193B (zh) * | 2012-07-16 | 2015-05-13 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
CN103577049B (zh) * | 2012-07-24 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 一种用于提供下载建议对象的方法、装置与设备 |
CN102880633A (zh) * | 2012-07-27 | 2013-01-16 | 四川长虹电器股份有限公司 | 基于特征词的内容推送方法 |
CN103324675A (zh) * | 2013-05-24 | 2013-09-25 | 崔吉平 | 互联网个性化精确信息搜索及算法 |
CN103970848B (zh) * | 2014-05-01 | 2016-05-11 | 刘莎 | 一种通用型互联网信息数据挖掘方法 |
CN104036003B (zh) * | 2014-06-16 | 2018-12-14 | 北京奇虎科技有限公司 | 搜索结果整合方法和装置 |
CN104765867A (zh) * | 2015-04-23 | 2015-07-08 | 宁波市科技信息研究院 | 一种协同制造信息共享系统 |
CN105045883B (zh) * | 2015-07-21 | 2020-12-25 | 惠州Tcl移动通信有限公司 | 一种移动终端及其搜索方法 |
CN107885889A (zh) * | 2017-12-13 | 2018-04-06 | 聚好看科技股份有限公司 | 搜索结果的反馈方法、展示方法及装置 |
CN108073726B (zh) * | 2018-01-29 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 信息检索推送的方法、装置、存储介质及终端设备 |
CN109271577A (zh) * | 2018-09-13 | 2019-01-25 | 江苏站企动网络科技有限公司 | 一种基于网络的信息检索方法 |
CN110502692B (zh) * | 2019-07-10 | 2023-02-03 | 平安普惠企业管理有限公司 | 基于搜索引擎的信息检索方法、装置、设备和存储介质 |
CN111143460A (zh) * | 2019-12-30 | 2020-05-12 | 智慧神州(北京)科技有限公司 | 基于大数据的经济领域的数据的检索方法、装置与处理器 |
CN111444377A (zh) * | 2020-04-15 | 2020-07-24 | 厦门快商通科技股份有限公司 | 一种声纹识别的认证方法和装置以及设备 |
CN111914142B (zh) * | 2020-07-30 | 2023-07-04 | 重庆电子工程职业学院 | 分时段记忆信息检索系统 |
CN112104910B (zh) * | 2020-08-05 | 2023-02-03 | 苏宁智能终端有限公司 | 一种视频搜索方法、装置及系统 |
CN112445830B (zh) * | 2020-11-26 | 2024-05-14 | 湖南智慧政务区块链科技有限公司 | 一种基于区块链技术的数据分析系统 |
CN114647618A (zh) * | 2020-12-18 | 2022-06-21 | 南京中兴新软件有限责任公司 | 信令数据查询方法、信令数据索引库的构建方法及服务器 |
CN116186078A (zh) * | 2023-03-15 | 2023-05-30 | 中国华能集团有限公司北京招标分公司 | 一种数据检索方法及系统 |
CN116578677B (zh) * | 2023-07-14 | 2023-09-15 | 高密市中医院 | 一种针对医疗检验信息的检索系统和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1319815A (zh) * | 1999-09-22 | 2001-10-31 | Lg电子株式会社 | 使用多媒体用户简档信息结构的多媒体检索和浏览方法 |
CN1460373A (zh) * | 2001-04-03 | 2003-12-03 | 皇家菲利浦电子有限公司 | 用于生成基于用户偏好和环境特点的推荐的方法和装置 |
WO2004090755A2 (en) * | 2003-03-31 | 2004-10-21 | Google Inc. | System and method for providing preferred language ordering of search results |
-
2005
- 2005-11-01 CN CN200510117147XA patent/CN1858733B/zh not_active Expired - Fee Related
-
2006
- 2006-10-20 WO PCT/CN2006/002804 patent/WO2007051397A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1319815A (zh) * | 1999-09-22 | 2001-10-31 | Lg电子株式会社 | 使用多媒体用户简档信息结构的多媒体检索和浏览方法 |
CN1460373A (zh) * | 2001-04-03 | 2003-12-03 | 皇家菲利浦电子有限公司 | 用于生成基于用户偏好和环境特点的推荐的方法和装置 |
WO2004090755A2 (en) * | 2003-03-31 | 2004-10-21 | Google Inc. | System and method for providing preferred language ordering of search results |
Also Published As
Publication number | Publication date |
---|---|
CN1858733A (zh) | 2006-11-08 |
WO2007051397A1 (fr) | 2007-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1858733B (zh) | 信息检索系统和检索方法 | |
JP5632124B2 (ja) | 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム | |
CN101882149B (zh) | 重排序和提高搜索结果的相关性 | |
US6718365B1 (en) | Method, system, and program for ordering search results using an importance weighting | |
US8166013B2 (en) | Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis | |
US7383299B1 (en) | System and method for providing service for searching web site addresses | |
US6665658B1 (en) | System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information | |
KR101361182B1 (ko) | 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법 | |
KR100645608B1 (ko) | 사용자 방문 유알엘 로그를 이용한 정보 검색 서비스 제공 서버 및 그 방법 | |
US20010049674A1 (en) | Methods and systems for enabling efficient employment recruiting | |
US20070271255A1 (en) | Reverse search-engine | |
US7499965B1 (en) | Software agent for locating and analyzing virtual communities on the world wide web | |
US8180751B2 (en) | Using an encyclopedia to build user profiles | |
WO2001009747A2 (en) | Apparatus and methods for collaboratively searching knowledge databases | |
CN1703696A (zh) | 用于基于知识的数据挖掘系统的数据存储库 | |
CN101382954A (zh) | 提供网址收藏名称的方法及系统 | |
EP1975816A1 (en) | Electronic document retrieval system | |
JP4875911B2 (ja) | コンテンツ特定方法及び装置 | |
US8166028B1 (en) | Method, system, and graphical user interface for improved searching via user-specified annotations | |
CN101661490B (zh) | 搜索引擎、其客户端及搜索网页的方法 | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
JP2000348061A (ja) | 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体 | |
CA2713932A1 (en) | Automated boolean expression generation for computerized search and indexing | |
US6711569B1 (en) | Method for automatic selection of databases for searching | |
KR20000063422A (ko) | 인터넷 정보 검색 시 개인의 북마크 파일 데이터를기반으로 필터링하여 개인 맞춤 검색 결과를 도출하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120404 |
|
CF01 | Termination of patent right due to non-payment of annual fee |