Nothing Special   »   [go: up one dir, main page]

CN111581480B - 新闻资讯聚合分析方法及系统、终端、存储介质 - Google Patents

新闻资讯聚合分析方法及系统、终端、存储介质 Download PDF

Info

Publication number
CN111581480B
CN111581480B CN202010397390.6A CN202010397390A CN111581480B CN 111581480 B CN111581480 B CN 111581480B CN 202010397390 A CN202010397390 A CN 202010397390A CN 111581480 B CN111581480 B CN 111581480B
Authority
CN
China
Prior art keywords
data
analysis
aggregation
interface
aggregator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010397390.6A
Other languages
English (en)
Other versions
CN111581480A (zh
Inventor
舒胜宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fengyuan Technology Co ltd
Original Assignee
Hangzhou Fengyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fengyuan Technology Co ltd filed Critical Hangzhou Fengyuan Technology Co ltd
Priority to CN202010397390.6A priority Critical patent/CN111581480B/zh
Publication of CN111581480A publication Critical patent/CN111581480A/zh
Application granted granted Critical
Publication of CN111581480B publication Critical patent/CN111581480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种新闻资讯聚合分析方法及系统、终端、存储介质,其中方法主要包括:基于标准聚合接口定义的数据采集配置采集原始数据,根据标准聚合接口定义的结构化规则进行数据聚合;根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。采用本发明,在数据采集聚合后,对数据进行去重预处理再进行分析归类,可以为大数据分析提供便捷满足特定需求的可持续化分析处理的过程,解决当下新闻源杂乱、内容结构不统一、新闻资讯量巨大的采集难题。

Description

新闻资讯聚合分析方法及系统、终端、存储介质
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种新闻资讯聚合分析方法及系统、终端、存储介质。
背景技术
随着互联网的日益普及,网络资料、新闻资讯进入大爆炸时代,越来越多的地方需要进行新闻聚合分析,从舆情分析到大众资讯阅读,目前常见的技术方案主要是rss订阅、火车头等网页抓取工具或者开源的一些python抓取脚本等,他们大都存在一些问题,rss订阅已经逐步被淘汰,火车头等抓取工具没法系统化、持续化维护运作、开源的脚本更是功能短缺,没法满足实际应用需求;同时由于采集源持续的更新,需要实施预警功能以持续维护保证系统正常运转;最后大部分方案只做到了采集聚合,没有数据处理,大量冗杂的信息散乱的堆砌,对下一步数据处理产生极大的障碍。
发明内容
本发明实施例提供一种新闻资讯聚合分析方法及系统、终端、存储介质,在数据采集聚合后,对数据进行去重预处理再进行分析归类,可以为大数据分析提供便捷满足特定需求的可持续化分析处理的过程,解决当下新闻源杂乱、内容结构不统一、新闻资讯量巨大的采集难题。
本发明实施例第一方面提供了一种新闻资讯聚合分析方法,可包括:
基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。
进一步的,所述方法还包括:
将聚合后的数据存储至数据库集群。
进一步的,根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据,包括:
根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据。
进一步的,所述归类报告的报告模板为自定义内容模板。
进一步的,所述聚合器包括标准聚合器和可扩展自定义聚合器。
进一步的,所述方法还包括:
采用可扩展自定义聚合器进行实时告警,并输出采集报告。
本发明实施例第二方面提供了一种新闻资讯聚合分析系统,可包括:
采集聚合模块,用于基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
去重预处理模块,用于根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
数据归类模块,用于根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。
进一步的,系统还包括:
数据存储模块,用于将聚合后的数据存储至数据库集群。
进一步的,去重预处理模块包括:
数据分析单元,用于根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
结构化解析单元,用于根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据。
进一步的,归类报告的报告模板为自定义内容模板。
进一步的,聚合器包括标准聚合器和可扩展自定义聚合器。
进一步的,系统还包括:
实时告警模块,用于采用可扩展自定义聚合器进行实时告警,并输出采集报告。
本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。本发明实施例第四方面提供了一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。
本发明的有益效果:通过将新闻资讯数据的聚合分析过程分为采集聚合、去重预处理和自动归类三大步骤,采用具有标准化接口且可自由扩展定义的聚合器进行数据聚合,在数据归类时采用可自由扩展归类策略以及报告内容模板。极大的解决了当下新闻源杂乱、内容结构不同意、新闻资讯量巨大的采集难题。同时,在自动去重预处理时,可以最大化的去除噪音和同质内容,极大的减轻了下一步数据处理的压力;通过结构化数据分析和存储,为进一步做大数据分析提供了规整的数据源;通过实时告警,方便了后期系统的维护和更新。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种新闻资讯聚合分析方法的流程示意图;
图2是本发明实施例提供的标准聚合接口定义参数的架构图;
图3是本发明实施例提供的去重预处理架构图;
图4是本发明实施例提供的数据归类结构示意图;
图5是本发明实施例提供的一种新闻资讯聚合分析系统的结构示意图;
图6是本发明实施例提供的去重预处理模块的结构示意图;
图7是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明实施例涉及的终端可以是大型计算机、PC机、平板电脑、掌上电脑以及移动互联网设备(MID)等其他具备数据处理能力的终端设备。
如图1所示,在该实施例中,新闻资讯聚合分析方法至少包括以下步骤:
S101,基于标准聚合接口定义的数据采集配置采集原始数据,根据标准聚合接口定义的结构化规则进行数据聚合。
具体实现中,系统可以采用接口插件化的方式搭建数据采集聚合的部分,系统不仅定义有常见的标准聚合器,如各大新闻源(网易新闻、新浪新闻、凤凰新闻、搜狐新闻、新华网、人民网等),同时还可自由扩展自定义聚合器。可选的,系统还具有实时告警以及采集报告通知等功能。
需要说明的是,标准聚合接口的实质是定义原始数据采集时的数据采集配置,以及数据聚合时的标准化结构生成规则。具体的,如图2所示,数据采集配置可以包括采集源地址、采集频率以及其他采信息,结构化规则可以包括标题规则、人物规则、时间规则、地点规则以及其他自定义结构化规则。
在一种可选的实现方式中,系统采集并聚合数据后可以将聚合后的数据存储至数据库集群中。
S102,根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据。
具体实现中,系统的数据分析处理部分首先是去重预处理。如图3所示,去重预处理的过程是通过规则分析、中文分词和语义分词技术得到结构化数据过程。具体的,可以根据聚合器接口定义的结构化规则以及中文自动分词技术,对每篇文章进行结构化分析以及智能语义分析,根据权重获取关键词,模拟人工阅读文章,推断文章表述含义,自动获得解析后的结构化数据。去重引擎最后会根据结构化数据对多篇结构数据接近的文章进行自动去重操作。
S103,根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。
可以理解的是,在去重预处理后,系统进入文章自动归类阶段。具体的,如4所示,系统可以根据得到的结构化数据如事件类别、人物名、事件名、时间、地点等各个维度定义归集方式,同时自定义报告内容模板,报告引擎进行自动归类处理,输出报告供查阅并实时通知。
在本发明实施例中,通过将新闻资讯数据的聚合分析过程分为采集聚合、去重预处理和自动归类三大步骤,采用具有标准化接口且可自由扩展定义的聚合器进行数据聚合,在数据归类时采用可自由扩展归类策略以及报告内容模板。极大的解决了当下新闻源杂乱、内容结构不同意、新闻资讯量巨大的采集难题。同时,在自动去重预处理时,可以最大化的去除噪音和同质内容,极大的减轻了下一步数据处理的压力;通过结构化数据分析和存储,为进一步做大数据分析提供了规整的数据源;通过实时告警,方便了后期系统的维护和更新。
下面将结合附图5和附图6,对本发明实施例提供的新闻资讯聚合分析系统进行详细介绍。需要说明的是,附图5和附图6所示的新闻资讯聚合分析系统,用于执行本发明图1-图4所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图4所示的实施例。
请参见图5,为本发明实施例提供了一种新闻资讯聚合分析系统的结构示意图。如图5所示,本发明实施例的所述新闻资讯聚合分析系统10可以包括:采集聚合模块101、去重预处理模块102、数据归类模块103、数据存储模块104 和实时告警模块105。其中,去重预处理模块102如图6所示,包括数据分析单元1021和结构化解析单元1022。
采集聚合模块101,用于基于标准聚合接口定义的数据采集配置采集原始数据,根据标准聚合接口定义的结构化规则进行数据聚合。
数据存储模块104,用于将聚合后的数据存储至数据库集群。
去重预处理模块102,用于根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据。
具体实现中,聚合器包括标准聚合器和可扩展自定义聚合器。
在可选实施例中,去重预处理模块102可以包括以下单元:
数据分析单元1021,用于根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析。
结构化解析单元1022,用于根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据。
数据归类模块103,用于根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。
需要说明的是,归类报告的报告模板为自定义内容模板。
实时告警模块105,用于采用可扩展自定义聚合器进行实时告警,并输出采集报告。
需要说明的是,上述系统中各单元和模块的详细执行过程可以参见上述方法实施例中的描述,处不再赘述。
在本发明实施例中,通过将新闻资讯数据的聚合分析过程分为采集聚合、去重预处理和自动归类三大步骤,采用具有标准化接口且可自由扩展定义的聚合器进行数据聚合,在数据归类时采用可自由扩展归类策略以及报告内容模板。极大的解决了当下新闻源杂乱、内容结构不同意、新闻资讯量巨大的采集难题。同时,在自动去重预处理时,可以最大化的去除噪音和同质内容,极大的减轻了下一步数据处理的压力;通过结构化数据分析和存储,为进一步做大数据分析提供了规整的数据源;通过实时告警,方便了后期系统的维护和更新。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图4所示实施例的方法步骤,具体执行过程可以参见图1-图4所示实施例的具体说明,在此不进行赘述。
请参见图7,为本发明实施例提供了一种终端的结构示意图。如图7所示,所述终端1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及新闻资讯聚合分析应用程序。
在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的新闻资讯聚合分析应用程序,并具体执行以下操作:
基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。
在一些实施例中,处理器1001,还用于执行以下操作:
将聚合后的数据存储至数据库集群。
在一些实施例中,处理器1001在根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据时,具体执行以下操作:
根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据。
在一些实施例中,所述归类报告的报告模板为自定义内容模板。
在一些实施例中,聚合器包括标准聚合器和可扩展自定义聚合器。
在一些实施例中,处理器1001还用于执行以下操作:
采用可扩展自定义聚合器进行实时告警,并输出采集报告。
在本发明实施例中,通过将新闻资讯数据的聚合分析过程分为采集聚合、去重预处理和自动归类三大步骤,采用具有标准化接口且可自由扩展定义的聚合器进行数据聚合,在数据归类时采用可自由扩展归类策略以及报告内容模板。极大的解决了当下新闻源杂乱、内容结构不同意、新闻资讯量巨大的采集难题。同时,在自动去重预处理时,可以最大化的去除噪音和同质内容,极大的减轻了下一步数据处理的压力;通过结构化数据分析和存储,为进一步做大数据分析提供了规整的数据源;通过实时告警,方便了后期系统的维护和更新。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种新闻资讯聚合分析方法,其特征在于,包括:
基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告,
所述根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据,包括:
根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据,根据结构化数据对多篇结构数据接近的文章进行自动去重操作。
2.根据权利要求1所述的聚合分析方法,其特征在于,所述方法还包括:
将聚合后的数据存储至数据库集群。
3.根据权利要求1所述的聚合分析方法,其特征在于,
所述归类报告的报告模板为自定义内容模板。
4.根据权利要求1所述的聚合分析方法,其特征在于,
所述聚合器包括标准聚合器和可扩展自定义聚合器。
5.根据权利要求4所述的聚合分析方法,其特征在于,所述方法还包括:
采用可扩展自定义聚合器进行实时告警,并输出采集报告。
6.一种新闻资讯聚合分析系统,其特征在于,包括:
采集聚合模块,用于基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定义的结构化规则进行数据聚合;
去重预处理模块,用于根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
数据归类模块,用于根据结构化数据在不同维度的定义进行数据归类,并输出归类报告,
去重预处理模块包括:
数据分析单元,用于根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
结构化解析单元,用于根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据,根据结构化数据对多篇结构数据接近的文章进行自动去重操作。
7.根据权利要求6所述的聚合分析系统,其特征在于,所述系统还包括:
数据存储模块,用于将聚合后的数据存储至数据库集群。
8.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
采集原始数据并根据标准聚合接口的标准化结构生成规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告,
所述根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据,包括:
根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据,根据结构化数据对多篇结构数据接近的文章进行自动去重操作。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
采集原始数据并根据标准聚合接口的标准化结构生成规则进行数据聚合;
根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据;
根据结构化数据在不同维度的定义进行数据归类,并输出归类报告,
所述根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到结构化数据,包括:
根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数据进行结构化分析和智能语义分析;
根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解析后的结构化数据,根据结构化数据对多篇结构数据接近的文章进行自动去重操作。
CN202010397390.6A 2020-05-12 2020-05-12 新闻资讯聚合分析方法及系统、终端、存储介质 Active CN111581480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397390.6A CN111581480B (zh) 2020-05-12 2020-05-12 新闻资讯聚合分析方法及系统、终端、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397390.6A CN111581480B (zh) 2020-05-12 2020-05-12 新闻资讯聚合分析方法及系统、终端、存储介质

Publications (2)

Publication Number Publication Date
CN111581480A CN111581480A (zh) 2020-08-25
CN111581480B true CN111581480B (zh) 2023-09-08

Family

ID=72118970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397390.6A Active CN111581480B (zh) 2020-05-12 2020-05-12 新闻资讯聚合分析方法及系统、终端、存储介质

Country Status (1)

Country Link
CN (1) CN111581480B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107656995A (zh) * 2017-09-20 2018-02-02 温州市鹿城区中津先进科技研究院 面向大数据的数据管理系统
CN109657068A (zh) * 2018-11-30 2019-04-19 北京航空航天大学 面向智慧博物馆的文物知识图谱生成与可视化方法
KR20190047941A (ko) * 2017-10-30 2019-05-09 한림대학교 산학협력단 텍스트 데이터 수집 및 분석의 통합을 위한 방법 및 장치
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质
WO2019133157A1 (en) * 2017-12-28 2019-07-04 Microsoft Technology Licensing, Llc Enhanced data aggregation techniques for anomaly detection and analysis
CN110147439A (zh) * 2018-07-18 2019-08-20 中山大学 一种基于大数据处理技术的新闻事件检测方法及系统
CN110289095A (zh) * 2019-06-28 2019-09-27 青岛百洋智能科技股份有限公司 一种股骨颈骨折临床智能辅助决策方法及系统
CN110674296A (zh) * 2019-09-17 2020-01-10 上海仪电(集团)有限公司中央研究院 一种基于关键词的资讯摘要提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165085B2 (en) * 2009-11-06 2015-10-20 Kipcast Corporation System and method for publishing aggregated content on mobile devices

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107656995A (zh) * 2017-09-20 2018-02-02 温州市鹿城区中津先进科技研究院 面向大数据的数据管理系统
KR20190047941A (ko) * 2017-10-30 2019-05-09 한림대학교 산학협력단 텍스트 데이터 수집 및 분석의 통합을 위한 방법 및 장치
WO2019133157A1 (en) * 2017-12-28 2019-07-04 Microsoft Technology Licensing, Llc Enhanced data aggregation techniques for anomaly detection and analysis
CN110147439A (zh) * 2018-07-18 2019-08-20 中山大学 一种基于大数据处理技术的新闻事件检测方法及系统
CN109657068A (zh) * 2018-11-30 2019-04-19 北京航空航天大学 面向智慧博物馆的文物知识图谱生成与可视化方法
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质
CN110289095A (zh) * 2019-06-28 2019-09-27 青岛百洋智能科技股份有限公司 一种股骨颈骨折临床智能辅助决策方法及系统
CN110674296A (zh) * 2019-09-17 2020-01-10 上海仪电(集团)有限公司中央研究院 一种基于关键词的资讯摘要提取方法及系统

Also Published As

Publication number Publication date
CN111581480A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
Chen et al. A practical guide to big data research in psychology.
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
US9454615B2 (en) System and methods for predicting user behaviors based on phrase connections
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN103294815B (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
WO2017097231A1 (zh) 话题处理方法及装置
US20130103637A1 (en) System and methods thereof for detection of user demographic information
CN104281608A (zh) 基于微博的突发事件分析方法
CN111259220A (zh) 一种基于大数据的数据采集方法和系统
CN117972067A (zh) 问答模型检索优化方法、装置、计算机设备及存储介质
CN116932906A (zh) 一种搜索词推送方法、装置、设备及存储介质
Yang et al. Topic audiolization: A model for rumor detection inspired by lie detection technology
Wei et al. Online education recommendation model based on user behavior data analysis
CN111581480B (zh) 新闻资讯聚合分析方法及系统、终端、存储介质
CN117389998B (zh) 基于大模型的数据存储方法和装置
Truskinger et al. Decision support for the efficient annotation of bioacoustic events
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
KR101880474B1 (ko) 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN116150320A (zh) 多模态数据集成管理方法、装置及介质
CN116506498A (zh) 一种基于云计算的数据精准推送方法
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
CN113239140A (zh) 复杂信息分析引擎架构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant