Nothing Special   »   [go: up one dir, main page]

CN111737553A - 企业关联词的选取方法、设备和存储介质 - Google Patents

企业关联词的选取方法、设备和存储介质 Download PDF

Info

Publication number
CN111737553A
CN111737553A CN202010547677.2A CN202010547677A CN111737553A CN 111737553 A CN111737553 A CN 111737553A CN 202010547677 A CN202010547677 A CN 202010547677A CN 111737553 A CN111737553 A CN 111737553A
Authority
CN
China
Prior art keywords
enterprise
word
news
relevant
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010547677.2A
Other languages
English (en)
Inventor
龚朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Longdong Network Technology Co ltd
Original Assignee
Suzhou Longdong Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Longdong Network Technology Co ltd filed Critical Suzhou Longdong Network Technology Co ltd
Priority to CN202010547677.2A priority Critical patent/CN111737553A/zh
Publication of CN111737553A publication Critical patent/CN111737553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种企业关联词的选取方法、设备和存储介质,所述方法包括:获取初步筛选的与某个企业相关的新闻和新闻量N1;使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2;根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。与现有技术相比,本发明企业关联词的选取方法,可以对前端录入的企业关联词进行监控和管理,选取符合要求的企业关联词对企业新闻进行关联,避免直接使用前端录入的企业关联词带来的不可控影响。

Description

企业关联词的选取方法、设备和存储介质
技术领域
本发明涉及互联网技术领域,特别是涉及一种企业关联词的选取方法、设备和存储介质。
背景技术
在大数据时代,各种各样的新闻文本不断增多。想要获取某个企业的相关新闻,一般通过选取关联词的方式,获取新闻文本与这个企业之间的关联程度,从而筛选出一批关联新闻。
因此,关联词的选取很关键,错误的关联词可能导致关联的新闻出现不可控的影响。
发明内容
本发明的目的在于提供一种企业关联词的选取方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种企业关联词的选取方法,所述方法包括:
获取初步筛选的与某个企业相关的新闻和新闻量N1;
使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2;
根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。
作为本发明一实施方式的进一步改进,所述“根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词”具体包括:
若所述待选取关联词的关联比低于预定下限阈值,则判定所述待选取关联词不可用作正式的企业关联词。
作为本发明一实施方式的进一步改进,所述预定下限阈值为0.1%。
作为本发明一实施方式的进一步改进,所述“根据所述待选取关联词的关联比,判断所述待选取关联词是否可用正式的作企业关联词”还包括:
若所述待选取关联词的关联比大于或等于预定下限阈值,则抽样查看关联处理后的新闻,若抽样查看的新闻中超过预定占比的新闻是与所述企业相关联的新闻,则判定所述待选取关联词可用作正式的企业关联词。
作为本发明一实施方式的进一步改进,所述“使用待选取关联词对所述与企业相关的新闻进行关联处理”具体包括:
使用待选取关联词作为所述企业的关联词,计算所述关联词在每篇所述与企业相关的新闻中的TFIDF值,选取TFIDF值大于设定阈值的新闻,作为与所述关联词进行关联处理后的新闻。
作为本发明一实施方式的进一步改进,ElasticSearch将包括有企业关联词的所有新闻全部召回,得到初步筛选的与企业相关的新闻,其中所述企业关联词包括正式的企业关联词和待选取关联词;
ElasticSearch使用所述待选取关联词对所述企业相关的新闻进行关联处理,得到关联日志;
通过所述关联日志计算所述待选取关联词的关联比,通过所述关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述关联日志中包括使用某个待选取关联词关联前的新闻量N1和关联后的新闻量N2,所述关联比=N2/N1。
作为本发明一实施方式的进一步改进,所述方法还包括:
将前端录入的企业关联词作为待选取关联词,加入ElasticSearch词库的黑名单中;
在判定某个待选取关联词可用作正式的企业关联词后,将所述待选取关联词从所述黑名单中移出,加入正式的企业关联词的列表中。
作为本发明一实施方式的进一步改进,所述待选取关联词为企业的产品名称、品牌名称、股票简称或企业简称。
为实现上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述企业关联词的选取方法中的步骤。
为实现上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述企业关联词的选取方法中的步骤。
与现有技术相比,本发明企业关联词的选取方法,可以对前端录入的企业关联词进行监控和管理,选取符合要求的企业关联词对企业新闻进行关联,避免直接使用前端录入的企业关联词带来的不可控影响。
附图说明
图1是本发明企业关联词的选取方法的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
企业的关联词是用于关联企业新闻用的,一般为企业的产品名称、品牌名称、股票简称或企业简称等。这些关联词一般通过前端直接录入到ElasticSearch词库中,但是大部分录入的关联词带来的影响是未知的,直接加入词库可能会带来大量的虚假关联词(所述虚假关联词是指与对应企业不具有关联关系的关联词),从而直接影响后续关联的企业新闻结果的准确性。
需要说明的是,ElasticSearch,简称ES,是一个基于全文搜索引擎Lucene的搜索服务器,提供了一个分布式多用户能力的全文搜索引擎。ElasticSearch为现有技术,在国内,很多互联网公司、电商平台等都在使用ElasticSearch做检索分析,解决很多实际的生产问题。
因此,如图1所示,本发明提供一种企业关联词的选取方法,可以对前端录入的企业关联词进行监控和管理,选取符合要求的企业关联词对企业新闻进行关联,避免直接使用前端录入的企业关联词带来的不可控影响。所述方法包括:
步骤S100:获取初步筛选的与某个企业相关的新闻和新闻量N1。
例如,可以使用ElasticSearch将包括有企业关联词的所有新闻全部召回,得到初步筛选的与企业相关的新闻和新闻量N1,其中所述企业关联词包括正式的企业关联词和待选取关联词。所述正式的企业关联词是指已经确定的与企业具有关联关系的关联词,所述待选取关联词是指通过前端录入直接得到的关联词。
步骤S200:使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2。
所述关联处理,是指通过关联算法,选取与关联词相关的新闻。在一个优选的实施方式中,所述步骤S200包括:使用待选取关联词作为所述企业的关联词,计算所述关联词在每篇所述与企业相关的新闻中的TFIDF值,选取TFIDF值大于设定阈值的新闻,作为与所述关联词进行关联处理后的新闻。
所述TFIDF值是根据TF-IDF(Term Frequency-Inverse Document Frequency)统计方法计算得到的值,TF-IDF中文称为词频-逆文件频率,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。此为现有技术,此处不在赘述。
在一个具体的实施方式中,ElasticSearch使用所述待选取关联词对所述企业相关的新闻进行关联处理,得到关联日志,所述关联日志中包括使用某个待选取关联词关联前的新闻量N1和关联后的新闻量N2。
步骤S300:根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。
所述正式的企业关联词是指已经确定的与企业具有关联关系的关联词。关联比为使用某个待选取关联词关联后的新闻量N2在关联前的新闻量N1中所占的比例。所述关联比能够反应待选取关联词与对应企业的关联程度,具体的,关联比越高,待选取关联词与企业的关联程度越高,相反,关联比越低,待选取关联词与企业的关联程度越低,当某个待选取关联词的关联比低于预定下限阈值(优选所述预定下限阈值为千分之一),则可以直接判定所述待选取关联词与对应企业无关联,即所述待选取关联词不可用作正式的企业关联词。
进一步的,为了增加准确性,对于关联比大于或等于预定下限阈值的待选取关联词,通过抽样查看关联处理后的新闻,判断待选取关联词是否可用作正式的企业关联词。具体的,若抽样查看的新闻中超过预定占比的新闻是与所述企业相关联的新闻,比如抽样6篇新闻中,超过预定占比50%的新闻是与所述企业相关联的新闻,则判定所述待选取关联词可用作正式的企业关联词。
在另一个实施方式中,直接选取关联比超过预定上限阈值的待选取关联词,作为正式的企业关联词。
如下表1所示,在一个具体的实施方式中,首先将前端录入的企业关联词作为待选取关联词,加入ElasticSearch词库的黑名单中。表1中A公司至F公司的待选取关联词分别为产品名1(A公司的产品名称)、产品名2(B公司的产品名称)、公司简称1(C公司的公司简称)、一下、当然、方法。
然后ElasticSearch将包括有某个企业的企业关联词的所有新闻全部召回,得到初步筛选的与所述企业相关的新闻,其中所述企业关联词包括正式的企业关联词和待选取关联词。
下一步,ElasticSearch使用所述待选取关联词对所述企业相关的新闻进行关联处理,得到关联日志,所述关联日志中包括使用某个待选取关联词关联前的新闻量N1和关联后的新闻量N2。从表1可以看出,A公司至F公司关联前新闻量N1分别为:38508、16711、15672、52519、49579、47683。A公司至F公司关联后新闻量N2分别为:4295、1834、4025、17、34、43。
然后通过所述关联日志计算待选取关联词的关联比,通过所述关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述关联比=N2/N1。从表1可以看出,D公司至F公司的待选取关联词的关联比都是低于千分之一的,可以直接确定这三个公司的待选取关联词与对应的公司无关联,即不能用作这三个公司的正式的企业关联词。A公司至C公司的待选取关联词的关联比比较大,通过简单的抽样检查,确定A公司至C公司的待选取关联词能够用作对应公司的正式的企业关联词。
最后,将A公司至C公司的待选取关联词从所述黑名单中移出,加入对应正式的企业关联词的列表中。
待选取关联词 公司 关联前新闻量N1 关联后新闻量N2 关联比
产品名1 A公司 38508 4295 0.111535
产品名2 B公司 16711 1834 0.109748
公司简称1 C公司 15672 4025 0.256827
一下 D公司 52519 17 0.000323692
当然 E公司 49579 34 0.000685774
方法 F公司 47683 43 0.000901789
表1
本发明还提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述企业关联词的选取方法中的任意一个步骤,也就是说,实现上述所述企业关联词的选取方法中任意一个技术方案中的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述企业关联词的选取方法中的任意一个步骤,也就是说,实现上述所述企业关联词的选取方法中的任意一个技术方案中的步骤。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种企业关联词的选取方法,其特征在于,所述方法包括:
获取初步筛选的与某个企业相关的新闻和新闻量N1;
使用待选取关联词对所述与企业相关的新闻进行关联处理,得到与所述待选取关联词相关的新闻量N2;
根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述待选取关联词的关联比=N2/N1。
2.根据权利要求1所述企业关联词的选取方法,其特征在于,所述“根据所述待选取关联词的关联比,判断所述待选取关联词是否可用作正式的企业关联词”具体包括:
若所述待选取关联词的关联比低于预定下限阈值,则判定所述待选取关联词不可用作正式的企业关联词。
3.根据权利要求2所述企业关联词的选取方法,其特征在于:
所述预定下限阈值为0.1%。
4.根据权利要求2所述企业关联词的选取方法,其特征在于,所述“根据所述待选取关联词的关联比,判断所述待选取关联词是否可用正式的作企业关联词”还包括:
若所述待选取关联词的关联比大于或等于预定下限阈值,则抽样查看关联处理后的新闻,若抽样查看的新闻中超过预定占比的新闻是与所述企业相关联的新闻,则判定所述待选取关联词可用作正式的企业关联词。
5.根据权利要求1所述企业关联词的选取方法,其特征在于,所述“使用待选取关联词对所述与企业相关的新闻进行关联处理”具体包括:
使用待选取关联词作为所述企业的关联词,计算所述关联词在每篇所述与企业相关的新闻中的TFIDF值,选取TFIDF值大于设定阈值的新闻,作为与所述关联词进行关联处理后的新闻。
6.根据权利要求1所述企业关联词的选取方法,其特征在于:
ElasticSearch将包括有企业关联词的所有新闻全部召回,得到初步筛选的与企业相关的新闻,其中所述企业关联词包括正式的企业关联词和待选取关联词;
ElasticSearch使用所述待选取关联词对所述企业相关的新闻进行关联处理,得到关联日志;
通过所述关联日志计算所述待选取关联词的关联比,通过所述关联比,判断所述待选取关联词是否可用作正式的企业关联词,其中,所述关联日志中包括使用某个待选取关联词关联前的新闻量N1和关联后的新闻量N2,所述关联比=N2/N1。
7.根据权利要求6所述企业关联词的选取方法,其特征在于,所述方法还包括:
将前端录入的企业关联词作为待选取关联词,加入ElasticSearch词库的黑名单中;
在判定某个待选取关联词可用作正式的企业关联词后,将所述待选取关联词从所述黑名单中移出,加入正式的企业关联词的列表中。
8.根据权利要求1所述企业关联词的选取方法,其特征在于:
所述待选取关联词为企业的产品名称、品牌名称、股票简称或企业简称。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述企业关联词的选取方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述企业关联词的选取方法中的步骤。
CN202010547677.2A 2020-06-16 2020-06-16 企业关联词的选取方法、设备和存储介质 Pending CN111737553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010547677.2A CN111737553A (zh) 2020-06-16 2020-06-16 企业关联词的选取方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010547677.2A CN111737553A (zh) 2020-06-16 2020-06-16 企业关联词的选取方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111737553A true CN111737553A (zh) 2020-10-02

Family

ID=72649341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010547677.2A Pending CN111737553A (zh) 2020-06-16 2020-06-16 企业关联词的选取方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111737553A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777686A (zh) * 2023-04-19 2023-09-19 深圳昊通技术有限公司 一种企业知识产权分类预警方法、系统和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
US20120117082A1 (en) * 2010-11-05 2012-05-10 Koperda Frank R Method and system for document classification or search using discrete words
CN103218368A (zh) * 2012-01-20 2013-07-24 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN103593350A (zh) * 2012-08-14 2014-02-19 阿里巴巴集团控股有限公司 一种推荐推广关键词价格参数的方法和装置
CN103942189A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN105488027A (zh) * 2015-11-30 2016-04-13 百度在线网络技术(北京)有限公司 关键词的推送方法和装置
CN106708880A (zh) * 2015-11-16 2017-05-24 北京国双科技有限公司 话题关联词的获取方法和装置
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN108710664A (zh) * 2018-05-14 2018-10-26 平安科技(深圳)有限公司 一种热词分析方法、计算机可读存储介质及终端设备
CN109634983A (zh) * 2018-12-13 2019-04-16 百度在线网络技术(北京)有限公司 召回兴趣点信息的确定方法、装置、设备和介质
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质
CN109885753A (zh) * 2019-01-16 2019-06-14 苏宁易购集团股份有限公司 一种扩大商品搜索召回的方法及装置
CN110489757A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种关键词提取方法及装置
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
US20120117082A1 (en) * 2010-11-05 2012-05-10 Koperda Frank R Method and system for document classification or search using discrete words
US20130144874A1 (en) * 2010-11-05 2013-06-06 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN103218368A (zh) * 2012-01-20 2013-07-24 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN103593350A (zh) * 2012-08-14 2014-02-19 阿里巴巴集团控股有限公司 一种推荐推广关键词价格参数的方法和装置
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN103942189A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备
CN106708880A (zh) * 2015-11-16 2017-05-24 北京国双科技有限公司 话题关联词的获取方法和装置
CN105488027A (zh) * 2015-11-30 2016-04-13 百度在线网络技术(北京)有限公司 关键词的推送方法和装置
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN108710664A (zh) * 2018-05-14 2018-10-26 平安科技(深圳)有限公司 一种热词分析方法、计算机可读存储介质及终端设备
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统
CN109634983A (zh) * 2018-12-13 2019-04-16 百度在线网络技术(北京)有限公司 召回兴趣点信息的确定方法、装置、设备和介质
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质
CN109885753A (zh) * 2019-01-16 2019-06-14 苏宁易购集团股份有限公司 一种扩大商品搜索召回的方法及装置
CN110489757A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种关键词提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRIAN GAWALT: "Discovering word associations in news media via feature selection and sparse classification", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON MULTIMEDIA INFORMATION RETRIEVAL》, pages 211 - 220 *
吴睿: "面向微博文本的热词分析技术研究", 《中国优秀硕士学位论文全文数据库 信息科技》, pages 138 - 590 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777686A (zh) * 2023-04-19 2023-09-19 深圳昊通技术有限公司 一种企业知识产权分类预警方法、系统和存储介质

Similar Documents

Publication Publication Date Title
US7895235B2 (en) Extracting semantic relations from query logs
US10489399B2 (en) Query language identification
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
US8983963B2 (en) Techniques for comparing and clustering documents
US10169449B2 (en) Method, apparatus, and server for acquiring recommended topic
US8051088B1 (en) Document analysis
US20080208840A1 (en) Diverse Topic Phrase Extraction
US8316026B2 (en) Method and system for keyword management
EP2228737A2 (en) Improving search effectiveness
CN106886512B (zh) 文章分类方法和装置
WO2014028860A2 (en) System and method for matching data using probabilistic modeling techniques
CN108363694B (zh) 关键词提取方法及装置
CN111091883B (zh) 一种医疗文本处理方法、装置、存储介质及设备
CN104361115A (zh) 一种基于共同点击的词条权重确定方法及装置
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN111737553A (zh) 企业关联词的选取方法、设备和存储介质
Pojanapunya et al. The influence of the benchmark corpus on keyword analysis
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN113743090A (zh) 一种关键词提取方法及装置
CN114175012A (zh) 基于查询令牌密度对电子文档进行排序的系统和方法
CN117076599A (zh) 一种基于知识图谱的数据搜索方法、装置及电子设备
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN116932732A (zh) 确定目标关键词的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination