Nothing Special   »   [go: up one dir, main page]

CN101146058A - 互联网即时信息的共享订阅系统及共享订阅方法 - Google Patents

互联网即时信息的共享订阅系统及共享订阅方法 Download PDF

Info

Publication number
CN101146058A
CN101146058A CNA2007101661726A CN200710166172A CN101146058A CN 101146058 A CN101146058 A CN 101146058A CN A2007101661726 A CNA2007101661726 A CN A2007101661726A CN 200710166172 A CN200710166172 A CN 200710166172A CN 101146058 A CN101146058 A CN 101146058A
Authority
CN
China
Prior art keywords
subscription
server
user side
data
subscription data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101661726A
Other languages
English (en)
Inventor
陈沛
郭永福
许欢庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou On-Line Software Coltd
Original Assignee
Beijing Zhongsou On-Line Software Coltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou On-Line Software Coltd filed Critical Beijing Zhongsou On-Line Software Coltd
Priority to CNA2007101661726A priority Critical patent/CN101146058A/zh
Publication of CN101146058A publication Critical patent/CN101146058A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

互联网即时信息的共享订阅系统及共享订阅方法,该系统包括用户端、共享订阅数据处理模块、内容服务模块和调度服务模块。该方法包括:用户从服务器端下载用户端,用户端根据订阅任务完成订阅数据的收集、分析和过滤,主动呈现给客户;同时用户端将订阅数据上传给服务器端,服务器端向所有具有相同订阅任务的用户端分发,实现订阅数据的共享。本发明充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅方法,它满足用户实时性的信息需求,并实现了对同类信息需求的共享,同时降低了对数据源网站的过度压力。

Description

互联网即时信息的共享订阅系统及共享订阅方法
技术领域
木发明属于计算机网络技和信息处理技术,具体的涉及一种能够满足信息订阅需求的互联网上即时信息的共享订阅系统及共享订阅方法。
背景技术
随着网络技术的发展,互联网上的信息日趋丰富,甚至可以说是爆炸式增长,人们对互联网上信息的需求也越来越大。搜索引擎公司正是捕捉到了人们在这一方面的需求应运而生,并且取得了令人瞩目的成绩。但是,目前的实际状况是互联网上的信息不是太少了,而是太多了,从搜索引擎返回的信息中包含了大量重复、过时的信息,用户淹没在信息的海洋中。及时准确的信息获取技术和有价值的资料已成信息获取技术的研究重点。即时信息订阅为人们及时获取信息提供了很好的模式,用户通过提交信息需求,订阅服务完成信息获取、分析、过滤,并主动呈现给用户,很好的满足了对信息的准确、及时的需求。近两年,在用户需求驱动下,信息订阅技术得到广泛地研究和应用。
目前订阅系统可以大概分为两类,一类是基于客户端方式,如RSS订阅;一类基于服务器方式,例如一些垂直搜索中的新闻搜索。
基于服务器端订阅方式中,如图1所示,服务器3提供信息订阅入口,一用户1、另一用户2和其它用户4和按照服务器提供的信息订阅格式,填写信息需求和信息来源网站。服务器3根据注册的用户需求,对其内置的索引数据库5进行检索,并通过下载服务器组6从源数据服务器7进行原始信息的采集,提取和过滤,并根据某一用户选定的方式提交给该用户,其中包括E-mail提醒、Rss(Really Simple Syndication,是某一站点用来和其它站点之间共享内容的一种简易方式,也叫聚合内容。)查询方式、约定协议提示客户端下载等。该订阅方式中服务器3和下载服务器组6承担了数据的下载、分析和过滤,以及实时更新的全部工作。随着订阅数量的增加,服务器将承担更大量的下载和计算工作,服务器将成为资源瓶颈,同时,服务器端IP资源有限,为了保证订阅信息的时效性,服务器需要集中、频繁地访问信息源服务器7,致使信息源所在的防火墙或者服务器拒绝访问,使信息订阅服务无法完成或者导致订阅信息的时效性下降。
基于用户端订阅方式中,用户通过安装用户端来完成信息的订阅服务。用户端承担所有信息订阅的逻辑,包括数据下载、分析过滤、汇总、主动呈现等工作。订阅信息源包括RSS信息源、各搜索引擎检索入口或者网页信息。根据用户设定的更新周期,用户端定期扫描数据源网站,并根据用户需求对数据进行分析过滤。这些工作将耗费大量用户机器的带宽和CPU资源。该订阅方式区别于服务器方式订阅,用户访问分散在不同的用户机器上完成,避免信息源服务器屏蔽的问题。但随着订阅用户的增加,信息源服务器将承受大量来自用户端的访问,致使服务器访问压力过大,服务性能恶化。
发明内容
本发明的目的是提供一种结构设计合理,充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅系统,
本发明的另一目的是提供一种充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅方法,它满足用户实时性的信息需求,并实现了对同类信息需求的共享,同时降低了对数据源网站的过度压力。
为实现上述发明目的,本发明采用的技术方案如下:一种互联网即时信息的共享订阅系统,包括用户端,其特征在于该共享订阅系统还包括:
共享订阅数据处理模块,用户端通过该模块进行订阅信息的发送,订阅数据的收集、分析、排重和上传;
内容服务模块,负责订阅数据的接收、存储、检索及推送,并与调度服务模块通信;
调度服务模块,该模块与用户端通信,调配用户端的资源,分配订阅数据下载任务。
具体的讲,所述共享订阅系统还包括一下载服务器组模块,在用户端资源有限时,进行订阅数据的抓取、处理和上传,所述下载服务器组模块与用户端和调度服务模块通信,调度服务模块调配用户端和下载服务器组模块的资源,分配订阅数据下载任务。
该共享订阅系统的包括用户端、内容服务器、调度服务器和下载服务器组,其中:
用户端和下载服务器组内配置有共享订阅数据处理模块,用户通过用户端订阅信息,用户端根据订阅任务完成订阅数据的收集和分析,并主动呈现给用户,同时将订阅数据上传给内容服务器,内容服务器向所有具有相同订阅信息的用户端分发,实现订阅数据的共享;
内容服务器为配置内容服务器模块,具有多阵列的硬盘存储数据及其容错处理能力的数据存储发送服务器,内容服务器接收用户端的订阅信息,通过其配置的索引数据库检索订阅信息,检索到结果时,向用户端推送订阅数据;没有检索到结果时,向调度服务器发送订阅数据缺失并要求提供订阅数据。
调度服务器为配置调度服务模块的通用服务器,在订阅数据缺失或需定时更新订阅信息时,调度服务器发出指令,向用户端或者下载服务器组分配数据处理任务,当用户端或下载服务器组完成数据处理任务后,将数据处理结果发送至内容服务器,由内容服务器推送至用户端;
下载服务器组为配置下载服务器组模块的普通PC机,在用户端资源有限时进行订阅数据的抓取、处理和上传。
所述用户端、内容服务器、调度服务器、下载服务器组间通过http协议建立通信联系。
一种互联网即时信息的共享订阅方法,其特征在于所述共享订阅方法包括:
用户从服务器端下载用户端实现信息的订阅任务设定,用户端承担服务器端的部分功能,根据订阅任务完成订阅数据的收集、分析和过滤,主动呈现给客户;同时用户端将订阅数据上传给服务器端,服务器端向所有具有相同订阅任务的用户端分发,实现订阅数据的共享。
该共享订阅方法中,所述服务器端对用户端的计算资源进行协调,在计算资源紧张的情况下,参与完成订阅数据的收集、分析和过滤,并存储订阅数据,向所有具有相同订阅任务的用户端分发。
所述共享订阅方法中,用户端和服务器端配置有共享订阅数据处理模块、内容服务模块、调度服务模块和下载服务组模块,所述共享订阅方法包括:
用户从用户端发起订阅信息,所述订阅信息分为新订阅和已有订阅信息,新订阅信息时,用户端会向调度服务模块发送消息,注册该用户的订阅,并为调度服务模块调度时参考;
内容服务模块接收订阅信息,然后从其后台的索引数据库检索订阅信息,检索有结果则将订阅数据推送至用户端,否则,给调度服务器发送消息,请求订阅信息;
调度服务模块接收到订阅信息请求后,分析用户端和下载服务器组模块的计算资源,找到最合适的计算资源,然后通知用户端,将订阅任务分配至共享订阅数据处理模块;
共享订阅数据处理模块接收到订阅任务后执行,进行订阅数据的收集、分析和排重,并将订阅数据上传至内容服务器;
内容服务器接收到订阅数据后,存储索引结果供其它订阅该信息的用户共享,同时推送该订阅数据至订阅用户端;
用户端呈现订阅数据。
更近一步的讲,所述服务器端包括内容服务器、调度服务器和下载服务器组,所述共享订阅方法具体包括:
一用户通过用户端发起一新的订阅信息,用户端向内容服务器发送该订阅信息,同时向调度服务器发送消息,注册该订阅信息;
内容服务器接收到该订阅信息,如果检索到已存储的相应订阅数据,则把订阅数据向该用户发送,如果没有检索到订阅数据,则向调度服务器发送请求;
调度服务器接收请求后,进行订阅任务分配调度,如果发现其它客户端满足条件,则向该客户端发送指令,该客户端执行调度服务器分配的订阅任务,进行订阅数据的收集、分析和排重,并将订阅数据上传至内容服务器;如果其它客户端计算资源不足,则向下载服务器组发送指令;
下载服务器组接收到调度服务器的工作指令后,进行订阅数据的抓取与分析,排重,并将订阅数据上传至内容服务器;
内容服务器将订阅数据推送至所有订阅信息的客户端,实现共享订阅。
所述共享订阅数据处理模块内设有一数据收集下载子模块,所述数据收集下载子模块包括立即更新和普通更新两个URL队列,
所述立即更新URL队列对应用户端添加的一个新订阅信息,此时无论内容服务模块是否存储有该订阅数据都要立即响应用户端的新订阅信息;当内容服务模块存储有所需订阅数据时,由内容服务模块推送该订阅数据,共享订阅数据处理模块不启动;当内容服务模块没有所需订阅数据时,由内容服务模块请求调度模块,调度模块选择用户端或下载服务器组模块的共享数据处理模块启动,添加立即更新URL队列去下载数据;
所述普通更新URL队列对应用户端已经存在的订阅信息,  内容服务模块定时的收集源数据内容,分析处理后推送给用户端。
该互联网即时信息的共享订阅系统和共享订阅方法结合用户端和服务器端二种订阅方式的优点,借鉴网格计算技术,吸收网格计算中资源协同共享观点,把具有相同订阅的用户看作一个虚拟组织,虚拟组织内部共享计算资源、存储资源及其信息资源等。
在上述共享订阅系统和共享订阅方法中,用户端可以是搜索引擎的个人门户平台,它包含了一个共享订阅数据处理模块,共享订阅数据处理模块扮演执行者角色,能够完成订阅数据的收集、分析、排重及其上传工作。个人门户平台是一个通信纽带,把共享订阅数据处理模块和内容服务器及调度服务器有效的链接起来。完成共享订阅的数据处理模块和调度服务器及内容服务器之间的通信。因为用户端的机器配置情况因用户不同差异很大,而且其网络状况也不尽相同,因此对用户的硬件配置不应要求过高,普通低配置的用户同样能满足其需求。
内容服务器作为一台数据存储发送服务器,负责用户订阅信息的存储、检索、接收和推送等工作,是订阅信息共享的发布源,担当传球手的角色。它接受用户端发送过来的订阅信息,得知用户的订阅需求后,通过检索索引数据库检索用户订阅信息。当检索到结果时,向用户推送订阅数据;当没有检索到结果时,向调度服务器反映订阅信息缺失情况,积极要求提供订阅信息。该服务器要求要有多阵列的硬盘存储数据及其容错处理,同时要求一定的计算能力。同时,对带宽的要求也比较高,以便能够在短时间完成集中度很高的响应要求。
调度服务器是一台监督服务器,担当任务分配者角色。它时刻观察订阅信息的缺失情况和资源情况,综合调配资源进行订阅数据处理。当有订阅信息缺失发生或者需要定时更新订阅信息时,调度服务器发出指令,向用户端或者下载服务器组分配订阅数据处理的任务。当用户端或者下载服务器组完成数据处理任务后,将结果发送至内容服务器,由内容服务器推送至订阅用户。调度服务器需要普通服务器的配置即可。
下载服务器组可由一组主要用来下载数据的普通PC机组成,担当替补和支持的角色,是对用户端资源的有益补充。下载服务器组内机器通过预装用户端完成数据处理的所有功能。该组内的机器要求也比较低,类似用户端机器的配置即可。
通过上述四部分的紧密配合,使得用户端或者下载服务器组能够及时抓取时间性比较强的订阅信息,并通过内容服务器及时的推送给每个相关的订阅用户,实现了订阅信息和订阅数据据快速共享的目的。
数据源和数据源服务器是指用户所需数据的提供网站,用户端就是向其抓取数据然后处理的。数据源服务器多是一些互联网上的专门的信息门户或者垂直搜索引擎。一些信息提供门户网站,例如火车票网,本身提供站内搜索,有些不提供站内搜索的功能。通过站内搜索,得到一个检索结果页,抓取每个检索结果页,提取该页的内容得到用户所需的信息。该类网站若短时间内有集中式的访问,可能对其造成巨大的流量压力。对垂直搜索而言,它们已经提前向一些专业信息网站抓取数据并分析索引,用户查询便可得到所需的信息。垂直搜索一般可以接收较高的请求压力,但是频繁的软件抓取方式也不是其能够接受的。因此必须改变这种一人的集中频繁式请求为多人分散的频繁请求。
本发明的有益效果在于,该互联网即时信息的共享订阅系统和共享订阅方法充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅方法,它满足用户实时性的信息需求,并实现了对同类信息需求的共享,同时降低了对数据源网站的过度压力。
附图说明
图1是本发明中现有服务器端订阅方式的系统构架图;
图2是本发明具体实施方式的共享订阅系统构架图;
图3是本发明具体实施方式的共享订阅方法的处理方式示意图。
具体实施方式
如图1,基于系统架构分析和硬件需求分析,该互联网即时信息的共享订阅系统共有四部分组成,分别是用户端、内容服务器9、调度服务器8和下载服务器组6,其中用户端为多个用户端,包括用户端1、用户端2和其它用户端4,另外图中还示出用户所需数据的提供网站—数据源服务器7。这里采用的用户端为中搜的IG用户端。
用户端和调度服务器8内配置有共享订阅数据处理模块,用户通过用户端订阅信息,用户端根据订阅任务完成订阅数据的收集和分析,主动呈现在用户端,同时将订阅数据上传给内容服务器9,内容服务器向所有具有相同订阅信息的用户端分发,实现订阅数据的共享;
内容服务器9为配置内容服务器模块,具有多阵列的硬盘存储数据及其容错处理能力的数据存储发送服务器,内容服务器接收用户端的订阅信息,通过其配置的索引数据库检索订阅信息,检索到结果时,向用户端推送订阅数据;没有检索到结果时,向调度服务器8发送订阅数据缺失并要求提供订阅数据。
调度服务器8为配置调度服务模块和共享订阅数据处理模块的通用服务器,在订阅数据缺失或需定时更新订阅信息时,调度服务器发出指令,向用户端或者下载服务器组分配数据处理任务,当用户端或下载服务器组完成数据处理任务后,将数据处理结果发送至内容服务器,由内容服务器推送至用户端;
下载服务器组6为配置下载服务器组模块的普通PC机,在用户端资源有限时进行订阅数据的抓取、处理和上传。
组成该共享订阅系统的四个模块分别为共享订阅数据处理模块、内容服务模块、调度服务模块和下载服务器组模块。各个模块间按照如下流程进行工作:
100:一用户从用户端1发起订阅。订阅分为新订阅和已有订阅,新订阅时,用户端1会向调度服务模块发消息,注册该用户的订阅,供调度服务模块调度时参考。
200:内容服务模块接收订阅,然后从后台数据库检索订阅,检索有结果则推送给用户,结束。否则,给调度服务模块发送消息,请求订阅信息。
300:调度服务模块接到调度请求,分析用户端2、3和下载服务器组的计算资源情况,找到最合适的资源,如果用户端2的资源适合,然后通知用户端2,把任务分配至用户端2的共享订阅数据处理模块。
400:共享订阅数据处理模块接到任务后执行。共享订阅数据处理模块接到有两类任务,立即执行任务和周期性任务,分别对应无数据的新订阅和已有订阅。任务完成后把结果发送至内容服务器。
500:内容服务器9接收到结果后,存储索引结果供其他订阅,同时推送结果至订阅用户端1。
600:用户端1展示结果。
以上流程中,100、600是由用户端1的共享订阅数据处理模块完成,400是由用户端2的数据处理模块完成,共享订阅数据处理模块为本架构系统的关键模块之一,200和500为内容服务模块功能,300为调度模块功能。
共享订阅模块是嵌入中搜IG用户端中的一个单独的功能模块,它只和用户下载的IG用户端通信,等待分配任务并执行如下任务:
若用户发起某个订阅,IG用户端首先判断该订阅是新订阅还是已有订阅。若为新订阅,IG用户端首先分别向调度服务器和内容服务器发送新订阅消息。然后等待消息。若直接返回订阅结果,则由IG用户端直接展示;若返回的是承担数据处理任务的消息,IG用户端把接收到的调度服务器指令传送至共享订阅数据处理模块,共享订阅数据处理模块类似一个“傻终端”,任劳任怨的完成各项指示,如:下载,分析,排重,上传等工作。任务执行完毕后把结果发送至IG用户端,由用户端把结果的订阅数据上传至内容服务器。
其数据下载方式采用分散下载源头进行,变“几点对一点方式”(几个下载服务器对应一个数据源服务器)为“多点对一点方式”(很多用户端和少数下载服务器对应一个数据源服务器)。采用几点对一点方式时,用户端向订阅服务器请求订阅数据,内容服务器检索索引数据库,没有结果时报告用户端查不到结果,若有结果则将结果返给用户端。当用户端需求的订阅信息的实时性比较高的时候,此时后台下载服务器必须得频繁访问数据源服务器才能取得更新的数据,会给源数据服务器在短时间内造成很大压力,可能被数据源服务器拒绝服务。同时服务器响应模式都采用轮循制,一个IP的N次请求响应时间肯定要比N个IP的一次请求响应时间要长得多。当采用多点对一点方式的架构时,因为用户端的数量比下载服务器组的数量要大的多,用户端在数据源服务器的请求响应更能迅速的得到满足。同时,如若查不到结果,调度服务器立即会调度资源为用户搜索其需求,并在尽可能短的时间内给用户端以回复。正是基于这些因素的考虑,可以把具有数据收集下载功能的数据收集下载子模块放在共享订阅数据处理模块里边,并打包到了用户端里。
在数据收集下载子模块中,设置了两个URL队列:立即更新URL队列和普通更新URL队列。两个队列的区别就是响应优先级不同,立即更新URL队列要求立即去响应用户的订阅需求,普通URL队列一般是周期性的下载订阅需求。
立即更新队列对应用户新添加的一个订阅需求,当用户发起此类订阅需求时候,此时无论后台索引数据库有没有数据都要立即相应用户的需求。
当后台索引数据库有用户所需订阅信息时,由内容服务模块负责返回用户所需订阅信息,共享订阅数据处理模块不会被启动。
当后台索引数据库没有用户所需订阅信息时,由内容服务模块通知调度模块处理,调度服务模块按照一定的条件选择某个端口(用户端或者下载服务器组)的共享订阅数据处理模块启动,添加立即更新URL内容去下载订阅数据。
普通更新URL队列对应用户已经存在的订阅信息需求,为了满足用户对订阅信息的实时性需求,需要定时的抓取源数据服务器内容,分析处理后推送给用户。当某个用户端的共享订阅数据处理模块被选中时,定期的抓取普通更新URL队列里的内容,供共享订阅数据处理模块的分析功能处理。
下载的订阅数据按来源可以分为两类,一类就是专业门户站点的站内检索结果页,一类就是专业垂直搜索引擎的检索结果页。专业门户站点一般专注于某一领域,力求成为关心这一领域内容的用户上网的首选站点,因此其信息比较专业丰富,是选择的主要目标之一。对于专业门户站点的站内检索结果页,首先要对检索结果页分析,找出其中每个内容页面的地址,然后按照响应优先级程度分别挂在立即更新URL队列和普通更新URL队列上,等待下载。垂直搜索引擎多是抓取专业网站的信息,分析整理后索引至自己的数据库,以便用户的查询。
这样,数据来源的不一致造成了如格式不一的诸多问题,不同数据源的同一化也是必不可少的。
下载的原始网页数据不光包含了用户所需的信息,还包含了很多其他的信息:网站导航、版权声明、广告链接等等,这些是用户不关心的。因此从原始网页分析出结构化的数据,整理出用户关心的内容是数据分析的重要职责。
对来源于专业门户的内容数据,调用分析程序分析内容页面,把页面转化为一条实际记录,发送给IG用户端。
对于垂直搜索引擎的检索结果,可以直接解析出其结果,每一条形成一个记录,发送给IG用户端。因为搜索引擎一般是实现抓取大量的相关网站的信息后,加工处理,形成自己的数据库以备用户检索,因此其结果可以直接拿来使用,这样的做法类似原搜索引擎。
在此可利用基于网页模板分析技术和正则匹配的技术来抽取结构化的记录信息,它具有很高的准确性,同时具有极高的分析速度。
从单一数据源上看,其数据是规范的,多按照某种模式自数据库中抽出展示给用户。单一数据源的规范、一致的数据集合在一起,就有了差别。多个数据源的数据差异必须经过同一化处理,处理成同一的格式,否则发送到内容服务器后,把相同的数据当成不同数据存储索引,一方面浪费了存储空间,加长了查找时间,更重要的是严重影响了用户的感受。本发明方法在数据分析的时候,把不同的数据同质化,使得数据具有可比较性。
内容页面经过数据分析,整理成统一的格式后,此时可能存在来源于不同的网站的相同数据记录,这对用户而言是多余的,此类数据记录需要排除掉,只留一份提供服务。其保留策略可分为:先到为主原则或者站点权重优先原则。先到为主原则是以先分析出的数据记录为保留条目,后面有与其相同的数据记录统统抛弃;站点权重优先原则是分析后的数据记录和其来源作为一个整体。当后续分析数据记录有与先前相同时,两者比较后,保留站点权重较大的数据。
经过下载、分析、排重后的数据,附着上其他信息形成一条记录,由共享订阅数据处理模块发送至IG用户端,再由IG用户端发送到内容服务器,共享给其他的用户。在实际情况中,发送的数据量不是很大,记录在发送时没有打包压缩处理,压缩后可以更加节省空间。
数据的存储要考虑到存储量和查询速度的需求。假设:有10万不同的订阅,每条订阅保存1000条历史记录,每条记录按1KB计算,大概有0.1M×1000×1KB为100KMB即100G的数据量,显然这么大的数据量是不能完全存储在内存中的。为此本发明借用了搜索引擎公司特有的大数据量的文件快速存取和查询技术来处理用户查询记录,典型的技术有多级缓存、倒排索引等技术。
调度服务模块与IG用户端和下载服务器组模块通信,负责调配资源,分配任务。为了降低同一个站点对数据源服务器的集中大量式请求,本发明改“儿点对一点方式”为“多点对一点方式”。在所谓的“多点”中,我们并不是调度所有的点去执行数据处理任务,而是由调度服务模块在参考用户端和下载服务器组端的计算资源情况下,选择较优的资源去执行数据处理任务。
其中用户端考虑的因素主要有:用户有该订阅的需求、用户端的主机的CPU资源、用户端的带宽资源、没有承担过多的数据处理任务。
调度模块主要体现两个原则:信息共享来自于我的奉献和以用户为本,不干扰用户正常工作。调度服务模块接收内容服务器信息需求请求,然后根据订阅信息注册情况,综合各种资源,向某一个或者一些用户端下达数据处理任务指令。
下载服务器组模块是对原有框架的一个保留补充。当目前的用户端资源有限时,调度服务模块会调度该模块控制的下载服务器组完成数据抓取、处理和上传的任务,保证订阅信息服务的有效性,再者,该模块还将分析订阅信息请求,对拥有较多订阅请求者的订阅定期更新,并做Cache处理,以便及时快速的相应用户需求。还可将下载任务分散均衡,可以在数据源服务器较空闲的时间抓取分析数据。
如图3,该共享订阅方法的具体处理方式和方法如下:
101:用户端2发起一个新订阅信息,向内容服务器9发送该订阅信息消息。
102:同时,用户端2向调度服务器8发送消息,注册该订阅信息。
201:内容服务器9检索到结果,则把结果推送给用户端2,订阅结束。
202:内容服务器9没有检索到结果,则向调度服务器8发送消息。
301:调度服务器8若发现一个用户端1满足条件,则向用户端1送指令。
401:用户端1执行调度服务器8发出指令的分配任务,其配置的共享订阅数据处理模块开始工作,从数据源服务器7收集、分析、排重订阅数据。
103:用户端1工作完成后把订阅数据上传至内容服务器9。
302:若用户端1和其它用户端4处理能力不够,则向下载服务器组6发送消息。
402:下载服务器组6接收到调度服务器8的工作指令后,其共享订阅数据处理模块开始工作,从数据源服务器7收集、分析、排重订阅数据。
403:下载服务器组工作完成后把订阅数据传送内容服务器9,由内容服务器将结果推送至所有客户端展示,订阅结束。
104:其它用户端4发起一个新订阅信息,向内容服务器9发送该订阅信息消息。
203:内容服务器9检索到结果,则把结果推送给其它用户端4,订阅结束。

Claims (9)

1.一种互联网即时信息的共享订阅系统,包括用户端,其特征在于该共享订阅系统还包括:
共享订阅数据处理模块,用户端通过该模块进行订阅信息的发送,订阅数据的收集、分析、排重和上传;
内容服务模块,负责订阅数据的接收、存储、检索及推送,并与调度服务模块通信;
调度服务模块,该模块与用户端通信,调配用户端的资源,分配订阅数据下载任务。
2.根据权利要求1所述的互联网即时信息的共享订阅系统,其特征在于所述共享订阅系统还包括一下载服务器组模块,在用户端资源有限时,进行订阅数据的抓取、处理和上传,所述下载服务器组模块与用户端和调度服务模块通信,调度服务模块调配用户端和下载服务器组模块的资源,分配订阅数据下载任务。
3.根据权利要求2所述的互联网即时信息的共享订阅系统,其特征在于该共享订阅系统的包括用户端、内容服务器、调度服务器和下载服务器组,其中:
用户端和下载服务器组内配置有共享订阅数据处理模块,用户通过用户端订阅信息,用户端根据订阅任务完成订阅数据的收集和分析,并主动呈现给用户,同时将订阅数据上传给内容服务器,内容服务器向所有具有相同订阅信息的用户端分发,实现订阅数据的共享;
内容服务器为配置内容服务器模块,具有多阵列的硬盘存储数据及其容错处理能力的数据存储发送服务器,内容服务器接收用户端的订阅信息,通过其配置的索引数据库检索订阅信息,检索到结果时,向用户端推送订阅数据;没有检索到结果时,向调度服务器发送订阅数据缺失并要求提供订阅数据。
调度服务器为配置调度服务模块的通用服务器,在订阅数据缺失或需定时更新订阅信息时,调度服务器发出指令,向用户端或者下载服务器组分配数据处理任务,当用户端或下载服务器组完成数据处理任务后,将数据处理结果发送至内容服务器,由内容服务器推送至用户端;
下载服务器组为配置下载服务器组模块的普通PC机,在用户端资源有限时进行订阅数据的抓取、处理和上传。
4.根据权利要求3所述的互联网即时信息的共享订阅系统,其特征在于所述用户端、内容服务器、调度服务器、下载服务器组间通过http协议建立通信联系。
5.一种互联网即时信息的共享订阅方法,其特征在于所述共享订阅方法包括:
用户从服务器端下载用户端实现信息的订阅任务设定,用户端承担服务器端的部分功能,根据订阅任务完成订阅数据的收集、分析和过滤,主动呈现给客户;同时用户端将订阅数据上传给服务器端,服务器端向所有具有相同订阅任务的用户端分发,实现订阅数据的共亨。
6.根据权利要求5所述的互联网即时信息的共享订阅方法,其特征在于所述服务器端对用户端的计算资源进行协调,在计算资源紧张的情况下,参与完成订阅数据的收集、分析和过滤,并存储订阅数据,向所有具有相同订阅任务的用户端分发。
7.根据权利要求5所述的互联网即时信息的共享订阅方法,其特征在于所述共享订阅方法中,用户端和服务器端配置有共享订阅数据处理模块、内容服务模块、调度服务模块和下载服务组模块,所述共享订阅方法包括:
用户从用户端发起订阅信息,所述订阅信息分为新订阅和已有订阅信息,新订阅信息时,用户端会向调度服务模块发送消息,注朋该用户的订阅,并为调度服务模块调度时参考;
内容服务模块接收订阅信息,然后从其后台的索引数据库检索订阅信息,检索有结果则将订阅数据推送至用户端,否则,给调度服务器发送消息,请求订阅信息;
调度服务模块接收到订阅信息请求后,分析用户端和下载服务器组模块的计算资源,找到最合适的计算资源,然后通知用户端,将订阅任务分配至共享订阅数据处理模块;
共享订阅数据处理模块接收到订阅任务后执行,进行订阅数据的收集、分析和排重,并将订阅数据上传至内容服务器;
内容服务器接收到订阅数据后,存储索引结果供其它订阅该信息的用户共享,同时推送该订阅数据至订阅用户端;
用户端呈现订阅数据。
8.根据权利要求5所述的互联网即时信息的共享订阅方法,其特征在于所述服务器端包括内容服务器、调度服务器和下载服务器组,所述共享订阅方法具体包括:
一用户通过用户端发起一新的订阅信息,用户端向内容服务器发送该订阅信息,同时向调度服务器发送消息,注册该订阅信息;
内容服务器接收到该订阅信息,如果检索到已存储的相应订阅数据,则把订阅数据向该用户发送,如果没有检索到订阅数据,则向调度服务器发送请求;
调度服务器接收请求后,进行订阅任务分配调度,如果发现其它客户端满足条件,则向该客户端发送指令,该客户端执行调度服务器分配的订阅任务,进行订阅数据的收集、分析和排重,并将订阅数据上传至内容服务器;如果其它客户端计算资源不足,则向下载服务器组发送指令;
下载服务器组接收到调度服务器的工作指令后,进行订阅数据的抓取与分析,排重,并将订阅数据上传至内容服务器;
内容服务器将订阅数据推送至所有订阅信息的客户端,实现共享订阅。
9.根据权利要求7所述的互联网即时信息的共享订阅方法,其特征在于所述共享订阅数据处理模块内设有一数据收集下载子模块,所述数据收集下载子模块包括立即更新和普通更新两个URL队列,
所述立即更新URL队列对应用户端添加的一个新订阅信息,此时无论内容服务模块是否存储有该订阅数据都要立即响应用户端的新订阅信息;当内容服务模块存储有所需订阅数据时,由内容服务模块推送该订阅数据,共享订阅数据处理模块不启动;当内容服务模块没有所需订阅数据时,由内容服务模块请求调度模块,调度模块选择用户端或下载服务器组模块的共享数据处理模块启动,添加立即更新URL队列去下载数据;
所述普通更新URL队列对应用户端已经存在的订阅信息,  内容服务模块定时的收集源数据内容,分析处理后推送给用户端。
CNA2007101661726A 2007-11-13 2007-11-13 互联网即时信息的共享订阅系统及共享订阅方法 Pending CN101146058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101661726A CN101146058A (zh) 2007-11-13 2007-11-13 互联网即时信息的共享订阅系统及共享订阅方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101661726A CN101146058A (zh) 2007-11-13 2007-11-13 互联网即时信息的共享订阅系统及共享订阅方法

Publications (1)

Publication Number Publication Date
CN101146058A true CN101146058A (zh) 2008-03-19

Family

ID=39208354

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101661726A Pending CN101146058A (zh) 2007-11-13 2007-11-13 互联网即时信息的共享订阅系统及共享订阅方法

Country Status (1)

Country Link
CN (1) CN101146058A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101977204A (zh) * 2010-05-05 2011-02-16 深圳市大明通信有限公司 一种基于互联网的信息微扑方法及系统
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN103853799A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 用于内容推荐的方法和设备
CN104268702A (zh) * 2014-09-29 2015-01-07 成都西山居互动娱乐科技有限公司 网站工作流中一种基于主动订阅的任务分发机制
CN104580512A (zh) * 2015-01-28 2015-04-29 华为技术有限公司 数据处理方法和装置,及分布式文件系统
US9178632B2 (en) 2008-09-02 2015-11-03 Qualcomm Incorporated Methods and apparatus for an enhanced media content rating system
CN105979498A (zh) * 2016-04-18 2016-09-28 醇钱科技发展(北京)有限公司 移动互联网大规模准实时数据分级订阅发布系统及方法
CN105974079A (zh) * 2016-06-14 2016-09-28 孙健春 一种水质在线监测方法及系统
CN106294386A (zh) * 2015-05-19 2017-01-04 北大方正集团有限公司 任务分配执行方法及系统
CN106774382A (zh) * 2016-11-30 2017-05-31 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机实时态势信息共享系统
CN108881395A (zh) * 2018-05-23 2018-11-23 北京五八信息技术有限公司 消息推送方法、设备、消息管理器及计算机可读存储介质
CN109495530A (zh) * 2017-09-13 2019-03-19 杭州海康威视系统技术有限公司 一种实时交通数据传输方法、传输装置及传输系统
CN109754330A (zh) * 2019-01-14 2019-05-14 北京天下图数据技术有限公司 基于任务订阅模式的农作物专题数据服务系统及存储介质
CN109902123A (zh) * 2019-03-01 2019-06-18 中汇信息技术(上海)有限公司 可视区域数据更新方法和系统
CN110532493A (zh) * 2019-08-29 2019-12-03 北京明略软件系统有限公司 数据的处理方法及装置、存储介质和电子装置
CN110598147A (zh) * 2019-07-30 2019-12-20 东软集团股份有限公司 一种跨域通信方法、装置及设备
CN110795310A (zh) * 2019-10-30 2020-02-14 维沃移动通信有限公司 信息提醒方法和电子设备
CN110969829A (zh) * 2019-10-18 2020-04-07 国网浙江省电力有限公司电力科学研究院 一种基于云平台计算和消息总线技术的停电数据共享方法
CN114500499A (zh) * 2021-12-29 2022-05-13 新浪网技术(中国)有限公司 一种互联网系统内的文件下载方法及系统
CN115242784A (zh) * 2022-09-23 2022-10-25 浪潮通信信息系统有限公司 具有数据校验功能的1+n文件共享装置及方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9178632B2 (en) 2008-09-02 2015-11-03 Qualcomm Incorporated Methods and apparatus for an enhanced media content rating system
CN101977204A (zh) * 2010-05-05 2011-02-16 深圳市大明通信有限公司 一种基于互联网的信息微扑方法及系统
CN103853799A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 用于内容推荐的方法和设备
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN104268702A (zh) * 2014-09-29 2015-01-07 成都西山居互动娱乐科技有限公司 网站工作流中一种基于主动订阅的任务分发机制
CN104268702B (zh) * 2014-09-29 2018-04-27 成都西山居互动娱乐科技有限公司 网站工作流中一种基于主动订阅的任务分发机制
CN104580512A (zh) * 2015-01-28 2015-04-29 华为技术有限公司 数据处理方法和装置,及分布式文件系统
CN104580512B (zh) * 2015-01-28 2019-06-18 华为技术有限公司 数据处理方法和装置,及分布式文件系统
CN106294386A (zh) * 2015-05-19 2017-01-04 北大方正集团有限公司 任务分配执行方法及系统
CN106294386B (zh) * 2015-05-19 2019-08-30 北大方正集团有限公司 任务分配执行方法及系统
CN105979498B (zh) * 2016-04-18 2019-06-04 醇钱科技发展(北京)有限公司 移动互联网大规模准实时数据分级订阅发布系统及方法
CN105979498A (zh) * 2016-04-18 2016-09-28 醇钱科技发展(北京)有限公司 移动互联网大规模准实时数据分级订阅发布系统及方法
CN105974079A (zh) * 2016-06-14 2016-09-28 孙健春 一种水质在线监测方法及系统
CN106774382A (zh) * 2016-11-30 2017-05-31 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机实时态势信息共享系统
CN109495530A (zh) * 2017-09-13 2019-03-19 杭州海康威视系统技术有限公司 一种实时交通数据传输方法、传输装置及传输系统
CN109495530B (zh) * 2017-09-13 2022-03-04 杭州海康威视系统技术有限公司 一种实时交通数据传输方法、传输装置及传输系统
CN108881395B (zh) * 2018-05-23 2021-11-23 北京五八信息技术有限公司 消息推送方法、设备、消息管理器及计算机可读存储介质
CN108881395A (zh) * 2018-05-23 2018-11-23 北京五八信息技术有限公司 消息推送方法、设备、消息管理器及计算机可读存储介质
CN109754330A (zh) * 2019-01-14 2019-05-14 北京天下图数据技术有限公司 基于任务订阅模式的农作物专题数据服务系统及存储介质
CN109902123A (zh) * 2019-03-01 2019-06-18 中汇信息技术(上海)有限公司 可视区域数据更新方法和系统
CN110598147A (zh) * 2019-07-30 2019-12-20 东软集团股份有限公司 一种跨域通信方法、装置及设备
CN110532493A (zh) * 2019-08-29 2019-12-03 北京明略软件系统有限公司 数据的处理方法及装置、存储介质和电子装置
CN110969829A (zh) * 2019-10-18 2020-04-07 国网浙江省电力有限公司电力科学研究院 一种基于云平台计算和消息总线技术的停电数据共享方法
CN110795310A (zh) * 2019-10-30 2020-02-14 维沃移动通信有限公司 信息提醒方法和电子设备
CN110795310B (zh) * 2019-10-30 2024-03-26 维沃移动通信有限公司 信息提醒方法和电子设备
CN114500499A (zh) * 2021-12-29 2022-05-13 新浪网技术(中国)有限公司 一种互联网系统内的文件下载方法及系统
CN114500499B (zh) * 2021-12-29 2024-09-17 新浪技术(中国)有限公司 一种互联网系统内的文件下载方法及系统
CN115242784A (zh) * 2022-09-23 2022-10-25 浪潮通信信息系统有限公司 具有数据校验功能的1+n文件共享装置及方法
CN115242784B (zh) * 2022-09-23 2022-12-20 浪潮通信信息系统有限公司 具有数据校验功能的1+n文件共享装置及方法

Similar Documents

Publication Publication Date Title
CN101146058A (zh) 互联网即时信息的共享订阅系统及共享订阅方法
CN101694665B (zh) 一种异构数据源数据查询方法及装置
CN107590188B (zh) 一种自动化垂直细分领域的爬虫爬取方法及其管理系统
CN102780768B (zh) 一种大并发量请求的处理方法及处理系统
CN103207882B (zh) 店铺访问数据处理方法及系统
CN100478956C (zh) 生成和获取报表的方法及相应的系统
CN105635283A (zh) 一种云制造服务的组织管理和使用方法和系统
CN102236581A (zh) 用于数据中心的映射化简方法和系统
CN101637006A (zh) 用于使用uddi来调解web服务的方法和设备
CN102957712A (zh) 网站资源加载方法和系统
CN103019651A (zh) 复杂任务的并行处理方法和装置
CN101127632A (zh) 一种服务器流量控制方法、系统以及重定向器
CN102208991A (zh) 一种日志处理方法、设备和系统
CN109151824B (zh) 一种基于5g架构的图书馆数据服务扩展系统及方法
CN103914485A (zh) 一种远程收集和检索展示应用系统日志的系统及方法
CN102222174A (zh) 一种基因计算系统和方法
CN101562664A (zh) 一种话单处理方法和系统
CN109672757A (zh) 文件访问方法及文件访问处理装置
CN103338260A (zh) 网络审计中url日志的分布式分析系统及分析方法
CN107180050A (zh) 一种数据抓取系统及方法
CN106254561A (zh) 一种网络资源文件的实时离线下载方法及系统
CN101540781A (zh) 基于匿名主题寻址的方法和设备
CN102710535A (zh) 一种数据获取方法和设备
CN113254747A (zh) 基于分布式网络爬虫的地理空间数据获取系统及方法
CN106599068A (zh) 一种创客创投空间科技文献信息检索系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080319