CN113515589B - 数据推荐方法、装置、设备以及介质 - Google Patents
数据推荐方法、装置、设备以及介质 Download PDFInfo
- Publication number
- CN113515589B CN113515589B CN202110038819.7A CN202110038819A CN113515589B CN 113515589 B CN113515589 B CN 113515589B CN 202110038819 A CN202110038819 A CN 202110038819A CN 113515589 B CN113515589 B CN 113515589B
- Authority
- CN
- China
- Prior art keywords
- text
- initial
- node
- path
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000010586 diagram Methods 0.000 claims abstract description 97
- 239000013598 vector Substances 0.000 claims description 62
- 238000004590 computer program Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 14
- 238000005096 rolling process Methods 0.000 claims description 14
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 32
- 238000004422 calculation algorithm Methods 0.000 description 25
- 238000005516 engineering process Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 201000004624 Dermatitis Diseases 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据推荐方法、装置、设备以及介质,该方法包括:获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图;根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本;在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。采用本申请实施例,可以提高文本数据的推荐准确性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据推荐方法、装置、设备以及介质。
背景技术
随着数据信息化的发展,数据量增长快速,大数据呈现出多元化、分散化的趋势。在大规模数据的环境下,大部分数据对于用户而言都是冗余的,用户可能只对某些信息感兴趣。例如,用户在做研究时,需要从大量的文献中查找自己需要的文献来阅读。
现有技术中,用户可以在搜索引擎中输入关键词,在搜索引擎中可以计算关键词与文献主题之间的相似度,并按照相似度对文献进行排序,进而可以根据排序为用户返回文献题目包含该关键词的文献。然而,基于关键词相似性进行推荐的文献,往往只是文献题目中包含用户所输入的关键词,文献内容并不是用户想要的内容,而真正与用户意图最贴切的文献可能在题目中不包含用户输入的关键字,进而造成为用户推荐的文献准确率过低。
发明内容
本申请实施例提供一种数据推荐方法、装置、设备以及介质,可以提高文本数据的推荐准确性。
本申请实施例一方面提供了一种数据推荐方法,包括:
获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图;
根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本;
在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。
本申请实施例一方面提供了一种数据推荐装置,包括:
关系图构建模块,用于获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图;
筛选模块,用于根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本;
阅读路径确定模块,用于在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。
其中,关系图构建模块包括:
关联文本确定单元,用于根据第一初始文本对应的文本引用关系,获取第一初始文本对应的引用文本和被引用文本,将引用文本和被引用文本确定为关联文本;
构建单元,用于将第一初始文本和关联文本均确定为文本节点,根据文本节点之间的文本引用关系,构建包含文本节点的引用关系图。
其中,筛选模块包括:
文本数量获取单元,用于将第一初始文本和关联文本均确定为文本节点,在引用关系图中获取文本节点对应的被引用文本数量;
目标文本确定单元,用于若存在被引用文本数量大于数量阈值的文本节点,则将被引用文本数量大于数量阈值的文本节点,确定为第一查询信息对应的目标文本。
其中,阅读路径确定模块包括:
权重获取单元,用于获取引用关系图对应的文本推荐权重和边权重,在引用关系图中构建包含目标文本的M个初始文本阅读路径;边权重用于表征引用关系图中具有文本引用关系的两个文本之间的关联性,M为正整数;
权重累加值确定单元,用于根据M个初始文本阅读路径分别包含的文本推荐权重和边权重,确定M个初始文本阅读路径分别对应的权重累加值;
第一最短路径确定单元,用于在M个初始文本阅读路径中,将最小的权重累加值所对应的初始文本阅读路径确定为最短文本阅读路径。
其中,阅读路径确定模块包括:
权重获取单元,还用于获取引用关系图对应的文本推荐权重和边权重,在引用关系图中构建包含目标文本的第一文本子图;边权重用于表征引用关系图中具有文本引用关系的两个文本之间的关联性;
第一生成树获取单元,用于根据第一文本子图中所包含的边权重和文本推荐权重,获取第一文本子图中的第一最小生成树;第一最小生成树是指第一文本子图中具有最小权重累加值的生成树,第一最小生成树包括目标文本,第一文本子图中的最小权重累加值是指第一最小生成树中的文本推荐权重和边权重的累加值;
第二生成树构建单元,用于在引用关系图中构建包含目标文本的第二文本子图,根据第二文本子图中所包含的文本推荐权重和边权重,对第一最小生成树进行更新,生成第二文本子图中的第二最小生成树;第二最小生成树是指第二文本子图中具有最小权重累加值的生成树,第二最小生成树对应的权重累加值小于第一最小生成树对应的权重累加值,第二最小生成树包括目标文本,第二文本子图中的最小权重累加值是指第二最小生成树中的文本推荐权重和边权重的累加值;
第二最短路径确定单元,用于若第二最小生成树为引用关系图中具有最小权重累加值的生成树,则将第二最小生成树确定为最短文本阅读路径。
其中,权重获取单元包括:
第一文本权重确定子单元,用于将第一初始文本和关联文本均确定为引用关系图中的文本节点,获取文本节点对应的文本排序数值和评级特征,根据文本排序数值和评级特征,确定文本节点对应的文本推荐权重;
文本节点获取子单元,用于在引用关系图中获取具有文本引用关系的文本节点vi和文本节点vj;i和j均为小于或等于文本节点的数量的正整数;
边权重确定子单元,用于获取文本节点vi和文本节点vj之间的引用频次,根据引用频次确定文本节点vj和文本节点vi之间的边权重;引用频次是指文本节点vj在文本节点vi的文本内容中被引用的次数。
其中,权重获取单元包括:
第二文本权重确定子单元,用于将第一初始文本和关联文本均确定为引用关系图中的文本节点,将文本节点转换为文本表征向量,根据文本表征向量确定文本节点对应的文本推荐权重;
初始节点向量确定子单元,用于根据文本节点在引用关系图中的文本引用关系,生成文本节点对应的初始节点向量;
编码子单元,用于将初始节点向量输入至图卷积网络,根据图卷积网络对初始节点向量进行信息编码,生成初始节点向量对应的节点编码向量;
第二边权重确定子单元,用于根据节点编码向量,确定引用关系图中任意两个具有文本引用关系的文本节点之间的边权重。
其中,关系图构建模块包括:
查询信息确定单元,用于获取搜索引擎中所输入的一个或者多个关键词,将一个或者多个关键词确定为第一查询信息;
接口调用单元,用于调用搜索引擎中的应用程序接口,获取搜索引擎中所包含的至少两个待推荐文本;
文本相似度获取单元,用于获取第一查询信息分别与至少两个待推荐文本之间的文本相似度,根据文本相似度,在至少两个待推荐文本中确定与第一查询信息相关联的第一初始文本。
其中,阅读路径确定模块包括:
文本引用关系获取单元,用于获取最短文本阅读路径中所包含的路径文本节点和路径文本引用关系;路径文本引用关系用于指示路径文本节点的阅读顺序;
推荐内容确定单元,用于根据路径文本节点和路径文本引用关系,确定第一查询信息对应的第一推荐内容。
其中,路径文本节点包括至少两个文献;
推荐内容确定单元具体用于:
获取至少两个文献分别对应的文献摘要信息,将至少两个文献摘要信息和路径文本引用关系,确定为第一查询信息对应的第一推荐内容,在查询页面中对第一推荐内容进行展示。
其中,该装置还包括:
初始文本搜索模块,用于获取搜索引擎中所输入的第二查询信息,在搜索引擎中获取与第二查询信息相关联的第二初始文本;
推荐模块,用于若第二初始文本与第一初始文本相同,则将第一推荐内容确定为第二查询信息对应的第二推荐内容,在查询页面中对第二推荐内容进行展示。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例可以获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图,进而可以根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本;在引用关系图中可以确定包含目标文本的最短文本阅读路径,根据该最短文本阅读路径可以生成用于响应第一查询信息的第一推荐内容。可见,在获取到与第一查询信息相关联的第一初始文本后,可以引入文本引用关系对第一初始文本进行扩展,以得到引用关系图,进而可以在引用关系图中确定包含目标文本(从第一初始文本和关联文本中筛选后得到的结果)的最短文本阅读路径,最短文本阅读路径所包含的文本和文本引用关系,均可以作为第一查询信息对应的第一推荐内容,即可以通过利用文本之间的引用关系,挖掘不同文本之间的重要程度,进而确定与查询信息相关联的推荐内容,可以提高文本数据的推荐准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种文本数据推荐场景示意图;
图3是本申请实施例提供的一种数据推荐方法的流程示意图;
图4是本申请实施例提供的一种从引用关系图中筛选目标文本的示意图;
图5是本申请实施例提供的一种最短文本阅读路径的示意图;
图6是本申请实施例提供的一种数据推荐方法的流程示意图;
图7是本申请实施例提供的一种医疗文本数据的推荐场景示意图;
图8是本申请实施例提供的一种数据推荐装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请提供的数据处理方案属于人工智能领域下属的自然语言处理(NatureLanguage processing,NLP)技术。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例可以根据文本相似度以及文本相似度,为用户推荐与查询信息相关联的文本内容。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有视频/图像播放功能的智能终端。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
以用户终端10a为例,当用户需要查询文本数据时,该用户可以在用户终端10a的搜索输入框中输入查询信息,用户终端10a可以获取该用户输入的查询信息,并将该查询信息发送至服务器10d;服务器10d接收到用户终端10a发送的查询信息后,可以计算查询信息与每个待推荐文本主题之间的相似度,按照相似度的大小排列顺序,可以获取与查询信息相关联的多个初始文本,进而可以通过初始文本对应的文本引用关系,对多个初始文本进行扩展,并生成引用关系图;进而可以从引用关系图中筛选出目标文本,并确定包含目标文本的最短文本阅读路径。服务器10d可以将最短文本阅读路径所覆盖的文本以及文本引用关系,作为响应查询信息的推荐内容返回至用户终端10a,并在用户终端10a中为该用户展示最短文本阅读路径所覆盖的文本以及文本引用关系。本申请实施例中,可以利用不同文本之间的引用关系为用户确定与查询信息相关联的推荐内容,可以提高文本数据的推荐准确率,由于阅读文本路径保留了文本之间的引用关系,有利于帮助用户确定文本阅读顺序。
请一并参见图2,图2是本申请实施例提供的一种文本数据推荐场景示意图。下面以文献(可以包括论文、专利、著作等)检索场景为例,对文本数据的推荐过程进行描述。如图2所示,用户在研究过程中可能需要查询一些文献来辅助研究,该用户可以在所使用的用户终端(例如,上述图1所对应实施例中的用户终端10a)中启动浏览器,并在浏览器中启动XX学术的查询页面20a,该查询页面20a中可以包括搜索输入框20b以及搜索功能控件20f。该用户可以在搜索输入框20b中输入查询信息“图像检测”,在输入完成后还可以对查询页面20a中的搜索功能控件20f执行触发操作,此时的用户终端可以响应针对搜索功能控件20f的触发功能,获取搜索输入框20b中所输入的查询信息“图像检测”,并调用XX学术的应用程序接口,计算XX学术中的每个文献分别与查询信息“图像检测”之间的文本相似度;进而可以根据文本相似度对XX学术中所收集的文献进行排序,将排序后的前k个文献作为查询信息“图像检测”的初始搜索结果,其中,k为正整数。在本申请实施例中,可以根据实际需求确定初始搜索结果的数量k的取值,如图2所示,初始搜索结果的数量k可以设置为5,当按照文本相似度进行排序后的前5个文献为文献1、文献2、文献3、文献4以及文献5时,可以将文献1、文献2、文献3、文献4以及文献5均作为初始文献节点,即文献集合20c中所包含的文献。可以理解的是,文献集合20c中所包含的文献还只是查询信息“图像检测”对应的初始搜索结果,并不是最终确定的推荐内容,因此在查询页面20a中可以不用显示该文献集合20c中所包含的文献,即文献1、文献2、文献3、文献4以及文献5暂时均不用展示于查询页面20a中。
用户终端在获取到上述5个初始文献节点后,可以通过5个初始文献节点所对应的文献引用关系,获取5个初始文献节点分别对应的引用文献和被引用文献,进而可以将引用文献和被引用文献确定为关联文献。当然,用户终端获取到5个初始文献节点分别对应的引用文献和被引用文献,还可以再次获取引用文献对应的引用文献,引用文献对应的引用文献也可以称为初始文献节点对应的关联文本。用户终端可以根据初始文献节点和关联文献构建引用关系图,该应用关系图如区域20d所示,该区域20d中的引用关系图还可以包括5个初始文献节点以及5个初始文献节点所对应的关联文献之间的文献引用关系。
如图2所示,5个初始文献节点之间的文献引用关系分别表示为:文献1和文献3引用了文献2,文献2引用了文献4,文献4引用了文献5;用户终端获取到文献1的被引用关系为:文献6,文献3的被引用文献为:文献7,文献2的被引用文献为:文献8,文献2的引用文献为:文献9和文献10,文献4的引用文献为:文献11;进一步地,用户终端还可以获取文献9的引用文献为:文献13,文献10的引用文献为:文献13,文献11的引用文献为:文献15和文献12,且文献12引用了文献15;此时的文献7至文献15均可以称为初始文献节点对应的关联文献,初始文献节点和关联文献均可以称为引用关系图中的文献节点,引用关系图中的“箭头”可以表示为文献引用关系,也可以称为两个文献节点之间的边。用户终端可以获取引用关系图中每个文献节点分别对应的节点权重,以及存在文献引用关系的两个文献节点之间的边权重,如文献2对应的节点权重为:节点权重2,文献2和文献10之间的边权重为:边权重2-10。其中,节点权重可以根据文献的排序数值和评级所确定,边权重可以根据具有文献引用关系的两个文献相互间的引用频次所确定,如边权重2-10可以表示为文献10在文献10的文献内容中被引用的次数。
进一步地,用户终端可以获取每个文献节点分别在引用关系图中的被引用文献数量,根据被引用文献数量可以从引用关系图中筛选出目标文献,也可以理解为对初始文献节点进行筛选,得到重新筛选后的初始文献节点(即目标文献),被引用文献数量越大,表示该文献越有可能为初始文献节点共同引用的文献,文献越重要。如图2所示,引用关系图中的文献13同时被文献9和文献10引用,表示文献13为引用关系图中的重要文献,因此可以将文献13确定为目标文献;同理,用户终端可以从引用关系图中筛选出以下目标文献:文献1、文献2、文献4、文献13以及文献15。
用户终端获取到携带节点权重和边权重的引用关系图,以及目标文献后,可以采用最短路径算法从引用关系图中生成最短文献阅读路径20e,其中,最短路径算法可以为NEWST算法,NEWST算法可以用于从引用关系图中寻找最佳的树来覆盖目标文献,并使得树上的节点权重和边权重最小。换言之,最短文献阅读路径20e可以理解为采用NEWST算法所生成的最小生成树,最小生成树至少包括前述筛选出的目标文献(包括文献1、文献2、文献4、文献13以及文献15),如图2所示,最短文本阅读路径20e可以包括:文献1、文献2、文献4、文献10、文献11、文献13以及文献15之间的文献引用关系以及上述文献本身。用户终端可以将最短文献阅读路径所包含的文献以及文献引用关系作为响应查询信息“图像检测”的推荐内容,并在查询页面20a中展示最短文献阅读路径20e。
根据查询页面20a中所展示的最短文献阅读路径20e,用户可以快速确定文献的阅读顺序,如文献13和文献15可能是与“图像检测”相关的基础理论文献,其余论文均是对文献13和文献15的扩展,则用户可以优先阅读文献13和文献15,以便帮助用户更好地理解图像检测领域。本申请实施例中,利用文献引用关系、节点权重以及边权重所确定的最短文献阅读路径,可以提高文献的推荐准确率;由于最短文献阅读路径中保留了文献之间的引用关系,有利于帮助用户快速确定文献阅读顺序。
请参见图3,图3是本申请实施例提供的一种数据推荐方法的流程示意图。可以理解的是,该数据推荐方法可以由计算机设备执行,计算机设备可以为独立的服务器,或者为用户终端,或者为服务器和用户终端构成的系统,或者为多个服务器组成的服务器集群,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该数据推荐方法可以包括以下步骤:
步骤S101,获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图。
具体的,在文本检索场景中,用户可以在查询页面(如上述图2所对应实施例中的查询页面20a)中输入第一查询信息(如上述图2所对应实施例中的查询信息“图像检测”),并触发查询页面中的搜索功能(如上述图2所对应实施例中的搜索功能控件20f);计算机设备可以响应针对该搜索功能的触发操作,获取查询页面中所输入的第一查询信息,并调用搜索引擎对应的应用程序接口,在搜索引擎中获取与第一查询信息相对应的搜索结果,将该搜索结果作为第一查询信息对应的第一初始文本(如上述图2所对应实施例中的文献1、文献2等)。其中,搜索引擎可以包括但不限于:百度搜索引擎、微软搜索引擎、谷歌搜索引擎、AMiner搜索引擎(科技情报大数据挖掘与服务系统平台),第一初始文本可以是指通过现有的搜索引擎所获得的搜索结果。可选的,第一初始文本可以是指从搜索引擎的搜索结果中选取的前k个搜索结果。其中,搜索结果可以是指按照相似度从大到小进行排序的文本列表,例如,文本列表可以包括N个文本,计算机设备可以从文本列表所包含的N个文本中选择前k个文本,作为与第一查询信息相关联的第一初始文本,k为小于或等于N的正整数,k的具体数值可以根据实际需求进行人为设定,如本申请实施例可以将k设置为30。
进一步地,计算机设备可以根据第一初始文本对应的文本引用关系,获取第一初始文本对应的引用文本和被引用文本,将引用文本和被引用文本均确定为第一初始文本对应的关联文本;关联文本和第一初始文本均可以确定为文本节点,根据文本节点之间的文本引用关系,构建包含所有文本节点的引用关系图(如上述图2所对应实施例中的区域20d中的引用关系图)。其中,关联文本可以是指第一初始文本的引用文本,或者被引用文本,或者引用文本所引用的文本,或者被引用文本对应的被引用文本等。例如,第一初始文本可以包括文本1和文本2,文本1对应的引用文本为文本3,文本1对应的被引用文本为文本4,文本2对应的引用文本为文本5,文本2对应的被引用文本为文本6,文本3对应的引用文本为文本7,文本4对应的被引用文本为文本8,则计算机设备可以将文本3、文本4、文本5、文本6、文本7以及文本8均确定为第一初始文本对应的关联文本。引用关系图中的节点可以表示为文本节点,引用关系图中的边可以表示为相邻两个文本节点之间具有文本引用关系。换言之,计算机设备可以根据第一初始文本对应的文本引用关系,对第一初始文本进行二阶扩展,根据第一初始文本和扩展后的文本构建引用关系图。需要说明的是,本申请实施例中,引用关系图中的文本节点可以包括论文、专利、著作、新闻、医疗健康文章、博客、贴吧贴文等文本检索场景中的文本数据。
步骤S102,根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本。
具体的,第一初始文本的主题与第一查询信息之间具有强相关性,但是第一初始文本中却无法包含与第一查询信息相关联的预备知识,为了捕获预备知识,可以从引用关系图中重新筛选目标文本,即计算机设备可以根据引用关系图中所包含的文本引用关系,获取引用关系图中所包含的每个文本节点的重要程度,根据重要程度可以筛选得到第一查询信息对应的目标文本。其中,计算机设备在引用关系图中获取每个文本节点分别对应的被引用文本数量,若引用关系图中存在被引用文本数量大于数量阈值(可以根据实际需求进行人为设定,如数量阈值可以设置为5)的文本节点,则可以将被引用文本数量大于数量阈值的文本节点,确定为第一查询信息对应的目标文本。其中,被引用文本数量大于数量阈值时,表示该文本节点为引用关系图中的重要文本,此时可以将该文本节点确定为目标文本。从引用关系图中筛选出的目标文本均可以理解为被较多文本共同引用的文本,可以帮助用户理解第一查询信息所属领域,并且可以将其作为熟悉第一查询信息所属领域的预备知识。
请一并参见图4,图4是本申请实施例提供的一种从引用关系图中筛选目标文本的示意图。如图4所示,计算机设备获取到的第一初始文本分别为:文本1、文本2、文本3、文本4以及文本5,根据第一初始文本以及初始文本对应的关联文本可以构建如区域30a所示的引用关系图。计算机设备可以在区域30a的引用关系图中获取每个文本(也可以称为文本节点)分别对应的被引用文本数量,如文本1、文本4、文本14以及文本17所对应的被引用文本数量均为2,文本2所对应的被引用文本数量为3,文本3、文本5、文本11、文本12、文本13、文本15以及文本16所对应的被引用文本数量为1,文本6、文本7、文本8、文本9以及文本10所对应的被引用文本数量为0。
假设数量阈值为1,计算机设备可以将被引用文本数量大于1的文本均确定为目标文本,即文本1、文本2、文本4、文本14以及文本17均可以确定为目标文本,在区域30a的引用关系图中可以对筛选出的目标文本进行标记。可以理解的是,筛选出的目标文本的数量与第一初始文本的数量可以相同,也可以不同,本申请不做具体限定。
步骤S103,在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。
具体的,计算机设备在筛选出目标文本之后,可以从引用关系图中寻找包含目标文本的最短文本阅读路径,并将最短文本阅读路径所覆盖的文本以及文本引用关系,作为响应第一查询信息的第一推荐内容。
可以理解的是,计算机设备从引用关系图中寻找最短文本阅读路径之前,需要获取引用关系图中每个文本节点分别对应的文本推荐权重,以及相邻两个文本节点之间的边权重,边权重可以用于表征引用关系图中具有文本引用关系的两个文本之间的关联性。换言之,计算机设备可以获取引用关系图中所包含的文本节点所对应的文本排序数值和评级特征,进而可以根据文本排序数值和评级特征,确定文本节点对应的文本推荐权重;计算机设备可以在引用关系图中获取任意两个具有文本引用关系的文本节点vi和文本节点vj,其中,i和j均为小于或等于文本节点的数量的正整数,进而可以获取文本节点vi和文本节点vj之间的引用频次,根据引用频次可以确定文本节点vj和文本节点vi之间的边权重,其中,引用频次是指文本节点vj在文本节点vi的文本内容中被引用的次数。
其中,文本节点对应的文本排序数值可以是指page rank(网页级别)得分,pagerank是谷歌排名运算法则(排名公式)的一部分,可以用于标识网页的等级或重要性;本申请实施例中,page rank可以是指使用重要程度得分来表示一个文本节点的重要程度,因此page rank得分应该为非负数,引用该文本节点的其余文本数量越多,表示该文本节点越重要,page rank得分就越高。文本节点对应的评级特征可以是指根据文本所属发表机构对应的等级信息,通过评级特征可以计算每个文本节点分别对应的排名。例如,当文本节点为论文时,评级特征可以通过中国计算机学会(China Computer Federation,CCF)和Aminer得到文本节点的评级,并根据评级计算文本节点的排名,其中,CCF可以是指进行学术评价的评审机构。计算机设备可以根据page rank得分和评级特征,计算每个文本节点分别对应的文本推荐权重。
可选的,计算机设备还可以通过文本的词频特征(TF-IDF)、GLOVE(一种词向量模型)、Word2vec(一种词向量模型)、Bert(预训练模型)、ELMO(预训练模型)、长短时记忆网络(LSTM)、循环神经网络(RNN)、门控循环单元(GRU)以及Transformer模块(一种转换模型)等方法,将引用关系图中的每个文本节点均转换为对应的文本表征向量,进而可以文本表征向量确定每个文本节点分别对应的文本推荐权重。可选的,计算机设备在确定引用关系图中的边权重时,可以采用图卷积网络(Graph Convolutional Network,GCN)和图注意力网络(Graph Attention Network,GAN)等方法来确定。
进一步地,计算机设备获取到引用关系图中的文本推荐权重和边权重后,可以在引用关系图中寻找包含目标文本的最短文本阅读路径,即计算机设备可以在引用关系图中构建包含目标文本的第一文本子图,进而可以根据第一文本子图中所包含的边权重和文本推荐权重,获取第一文本子图中的第一最小生成树,此时的第一最小生成树可以是指第一文本子图中具有最小权重累加值的生成树,第一文本子图中的最小权重累加值是指第一最小生成树中的文本推荐权重和边权重的累加值,第一最小生成树可以包括目标文本。随后,计算机设备可以在引用关系图中构建包含目标文本的第二文本子图,进而可以根据第二文本子图中所包含的文本推荐权重和边权重,对第一最小生成树进行更新,生成第二文本子图中的第二最小生成树,此时的第二最小生成树可以是指第二文本子图中具有最小权重累加值的生成树,第二最小生成树对应的权重累加值小于第一最小生成树对应的权重累加值,第二文本子图中的最小权重累加值是指第二最小生成树中的文本推荐权重和边权重的累加值,第二最小生成树包括目标文本;若第二最小生成树为引用关系图中具有最小权重累加值的生成树,则可以将第二最小生成树确定为最短文本阅读路径。其中,寻找最短文本阅读路径的方法可以包括但不限于:Dijkstra(迪杰斯特拉)算法、Bellman-Ford算法、Floyd(弗洛伊德)算法、SPFA算法、NEWST算法。
以NEWST算法为例,采用NEWST算法从引用关系图中生成包含目标文本的最短文本阅读路径。在给定目标文本之后,NEWST算法可以在引用关系图中寻找最佳的树来覆盖目标文本,并且使得树上的文本节点和边的权重之和最小。NEWST算法可以被定义为:采用G=(V,E,S,w,c)表示连通的无向图,其中,V可以表示为引用关系图中的所有文本节点的集合,E可以表示为引用关系图中的所有边的集合,w可以是指将引用关系图中的文本节点所对应的文本推荐权重(也可以是指将引用关系图中的文本节点映射成正数权重的函数),c可以是指将引用关系图中的边所对应的边权重边(也可以是指将引用关系图中的边映射成正数权重的函数),S可以是指目标文本的集合,S可以是指V的子集,即本申请实施例中的目标文本也可以称为NEWST算法中的固定节点(sompulsory terminals)。
其中,NEWST算法的目标是寻找一个最佳的生成树T,使得该生成树T覆盖所有的目标文本,并使得生成树T中的文本推荐权重和边权重的权重累加值最小,该生成树T可以如下述公式(1)所示:
其中,VT可以表示为生成树T中所包含的文本节点的集合,ET可以表示为生成树T中所包含的边的集合。
在引用关系图中寻找最佳生成树的过程可以转换为求解最小损失函数的过程,该损失函数可以如下述公式(2)所示:
其中,边的损失函数可以定义为:
其中,i和j可以表示为具有文本引用关系的两个文本节点所对应的标号,α和β可以表示为正常数,如α可以设置为3,β可以表示为2。con(i,j)可以用于评判文本节点i和文本节点j之间的相关性,con(i,j)可以表示为文本节点j在文本节点i的文本内容中被引用的次数。类似地,文本节点的损失函数w可以定义为:
其中,γ,a,b均为超参数,本申请实施例中可以将γ设置为5,a可以设置为0.7,b可以设置为0.3,本申请实施例对γ,a,b的取值不做具体限定。pgsocre(i)可以表示为文本节点i的page rank得分。venue(i)可以表示为文本节点i的排名得分。
由于公式(2)中的损失函数存在多个未知数,因此计算机设备可以将损失函数(2)的求解问题转换为求解近似值的过程。计算机设备可以将引用关系图G=(V,E,S,w,c)、一组固定的目标节点文本节点的损失函数w(即上述公式(4))以及边的损失函数c(即上述公式(3))作为NEWST算法的输入,NEWST算法的输出结果可以为:一个最佳的生成树T=(VT,ET),该生成树T=(VT,ET)可以包含S中所有的文本节点,其中,NEWST算法的执行步骤可以包括:从引用关系图G中构造一个包含S的子图G1=(V1,E1,S,w,c),该子图G1也可以称为第一文本子图;进而可以从子图G1中寻找一个最小生成树T1(可以称为第一最小生成树),若子图G1中存在多个最小生成树,则可以从多个最小生成树中任意选取一个最小生成树作为最小生成树T1;计算机设备可以构建一个新的子图G2(可以称为第二文本子图),通过替换最小生成树T1中的边,变成G中更短的路径,若子图G2中存在多条更短的路径,则可以从多条更短的路径中任意选取一条更短的路径;随后,计算机设备可以从子图G2中寻找最小生成树T2,不断重复上述步骤,在构建的子图GS中寻找最小生成树T,若子图GS中存在多个最小生成树,则可以从多个最小生成树中任意选取一个最小生成树作为最小生成树T,此时的最小生成树T可以表示为引用关系图中包含目标文本S的最小生成树,可以将最小生成树T确定为最短文本阅读路径。
进一步地,计算机设备可以获取最短文本阅读路径中所包含的路径文本节点和路径文本引用关系,其中,路径文本引用关系可以用于指示路径文本节点的阅读顺序,进而可以根据路径文本节点和路径文本引用关系,确定第一查询信息对应的第一推荐内容。计算机设备可以在查询页面中对第一推荐内容进行展示,用户可以根据第一推荐内容中所包含的路径文本引用关系,确定第一推荐内容的阅读顺序,此时的查询页面中所展示的第一推荐内容可以包括文本节点的文本主题、文本创作者、文本创作时间等信息,用户若要阅读文本节点对应的文本内容,还需要对文本节点触发展开操作。
可选的,最短文本阅读路径中所包含的路径文本节点可以包括至少两个文献,此时的计算机设备可以获取至少两个文献分别对应的文献摘要信息,将至少两个文献摘要信息和路径文本引用关系,确定为第一查询信息对应的第一推荐内容,在查询页面中对第一推荐内容进行展示,用户可以根据第一推荐内容中所包含的路径文本引用关系,确定第一推荐内容的阅读顺序,此时的查询页面中所展示的第一推荐内容可以包括文本节点对应的摘要信息,用户可以直接在查询页面中查阅文本节点的思路,快速理解第一查询信息所属领域的知识。
可选的,为了验证本申请所提出的数据推荐方法的有效性,可以使用数据集对本申请实施例所提出的数据推荐方法(如NEWST算法)进行验证。本申请实施例中,可以使用SurveyBank数据集(该SurveyBank数据集可以包括多篇综述论文),用户可以从SurveyBank数据集中所包含的综述论文题目中提取出短语,并将提取出的短语作为查询信息,该综述论文所引用的论文可以作为查询信息对应的期望推荐论文。
在本申请实施例中,计算机设备可以将本申请实施例中所提出的数据推荐方法与现有的搜索引擎进行比较,现有的搜索引擎可以包括但不限于:谷歌学术、微软学术、Aminer、PageRank,并采用F1分数(F1 Score)和准确率(precision)两个指标来评判各方法的性能。其中F1分数可以是指统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精确率和召回率;该F1分数可以看作是模型精确率和召回率的一种加权平均,最大值可以取值为1,最小值可以取值为0。准确率可以是指采用各方法所输出的论文与期望推荐论文之间的精度;对于F1分数和准确率两个指标,均是数值越高,表示方法的性能越好。其中,上述各方法在SurveyBank数据集中的实验结果可以如下表1所示:
表1
谷歌学术 | 微软学术 | Aminer | PageRank | NEWST | |
F1分数 | 0.2143 | 0.1156 | 0.1211 | 0.0242 | 0.2345 |
准确率 | 0.3630 | 0.2117 | 0.2340 | 0.0358 | 0.4740 |
由上述表1所示,由于本申请实施例所提出的NEWST算法利用了不同论文之间的引用关系,而现有的搜索引擎仅基于关键词匹配,因此与现有的搜索引擎相比,本申请实施例中所提出的NEWST算法具有更高的F1分数和准确率。
上述实验过程中所生成的最短文本阅读路径可以如图5所示,图5是本申请实施例提供的一种最短文本阅读路径的示意图。在实验过程中的查询信息为:“automatic keyphrase extraction(自动关键短语提取)”,该查询信息对应的综述论文为“AutomaticKeyphrase Extraction:A Survey of the State of the Art(自动关键短语提取:最新技术调查)”,通过NEWST算法所生成的最短文本阅读路径如图5所示,该最短文本阅读路径可以包括17篇论文,虽然存在少数论文与期望推荐论文有所差异,但是最短文本阅读路径中所包含的论文均为“automatic key phrase extraction(自动关键短语提取)”相关联的论文。如图5所示的论文8,其主题为:latent dirichlet allocation(隐含狄利克雷分布),从主题上看,该论文8与“automatic key phrase extraction(自动关键短语提取)”之间的关联性比较小,但是论文8的数学原理可以帮助用户更加理解“自动关键短语提取”所属领域。
本申请实施例中,在获取到与第一查询信息相关联的第一初始文本后,可以引入文本引用关系对第一初始文本进行扩展,以得到引用关系图,进而可以在引用关系图中确定包含目标文本(从第一初始文本和关联文本中筛选后得到的结果)的最短文本阅读路径,最短文本阅读路径所包含的文本和文本引用关系,均可以作为第一查询信息对应的第一推荐内容,即可以通过利用文本之间的引用关系,挖掘不同文本之间的重要程度,进而确定与查询信息相关联的推荐内容,可以提高文本数据的推荐准确性;由于阅读文本路径保留了文本之间的引用关系,有利于帮助用户确定文本阅读顺序。
请参见图6,图6是本申请实施例提供的一种数据推荐方法的流程示意图。可以理解的是,该数据推荐方法可以由计算机设备执行,计算机设备可以为独立的服务器,或者为用户终端,或者为服务器和用户终端构成的系统,或者为多个服务器组成的服务器集群,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图6所示,该数据推荐方法可以包括以下步骤:
步骤S201,获取搜索引擎中所输入的一个或者多个关键词,将一个或者多个关键词确定为第一查询信息;调用搜索引擎中的应用程序接口,获取搜索引擎中所包含的至少两个待推荐文本。
具体的,在文本检索场景中,用户可以在查询页面中输入一个或者多个关键词,并触发查询页面中的搜索功能,计算机设备可以响应针对该搜索功能的触发操作,获取查询页面中所输入的一个或者多个关键词。当用户在查询页面中输入的关键词为一个时,计算机设备可以将该关键词作为第一查询信息;当用户在查询页面中输入的关键词为多个时,计算机设备可以将多个关键词进行拼接,将拼接后的关键词序列作为第一查询信息。进一步地,计算机设备可以调用搜索引擎对应的应用程序接口,获取搜索引擎中所收集的至少两个待推荐文本,即可以获取搜索引擎中的所有待推荐文本。
步骤S202,获取第一查询信息分别与至少两个待推荐文本之间的文本相似度,根据文本相似度,在至少两个待推荐文本中确定与第一查询信息相关联的第一初始文本。
具体的,计算机设备可以通过关键词匹配方法,确定第一查询信息分别与至少两个待推荐文本之间的文本相似度,进而可以根据文本相似度可以对至少两个待推荐文本进行排序,从排序后的至少两个待推荐文本中确定与第一查询信息相关联的第一初始文本。举例来说,搜索引擎中所收集的至少两个待推荐文本可以为:待推荐文本1、待推荐文本2、待推荐文本3、……、待推荐文本N,通过关键词匹配方法确定第一查询信息分别与N个待推荐文本之间的文本相似度,如第一查询信息与待推荐文本1之间的文本相似度为:相似度1,第一查询信息与待推荐文本2之间的文本相似度为:相似度2,……,第一查询信息与待推荐文本N之间的文本相似度为:相似度N,若按照从大到小的顺序对所有文本相似度进行排序,前k(此处的k可以假设为5)个相似度分别为:相似度2、相似度10、相似度15、相似度20以及相似度7,则计算机设备可以将待推荐文本2、待推荐文本10、待推荐文本15、待推荐文本20以及待推荐文本7,作为与第一查询信息相关联的第一初始文本。
步骤S203,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图。
步骤S204,根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本。
其中,步骤S203-步骤S204的具体实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S102,这里不再进行赘述。
步骤S205,将第一初始文本和关联文本均确定为引用关系图中的文本节点,将文本节点转换为文本表征向量,根据文本表征向量确定文本节点对应的文本推荐权重。
具体的,计算机设备可以将引用关系图中所包含的第一初始文本和关联文本均确定为文本节点,进而可以通过文本的词频特征(TF-IDF)、GLOVE(一种词向量模型)、Word2vec(一种词向量模型)、Bert(预训练模型)、ELMO(预训练模型)、长短时记忆网络(LSTM)、循环神经网络(RNN)、门控循环单元(GRU)以及Transformer模块(一种转换模型)等方法,将引用关系图中的每个文本节点均转换为对应的文本表征向量,进而可以将每个文本表征向量均转换为一个数值,该数值可以称为文本节点对应的文本推荐权重。
步骤S206,根据文本节点在引用关系图中的文本引用关系,生成文本节点对应的初始节点向量;将初始节点向量输入至图卷积网络,根据图卷积网络对初始节点向量进行信息编码,生成初始节点向量对应的节点编码向量。
具体的,计算机设备可以根据文本节点在引用关系图中的文本引用关系,生成文本节点对应的初始节点向量,如计算机设备可以利用图表示学习方法获取引用关系图中每个文本节点分别对应的向量表示,此时的向量表示可以称为文本节点对应的初始节点向量。其中,图表示学习方法可以为独热码方式、TransE算法等,图表示学习方法的目的是将自然语言转换为文本向量。计算机设备在确定引用关系图中的边权重时,可以采用图卷积网络(Graph Convolutional Network,GCN)和图注意力网络(Graph Attention Network,GAN)等方法来确定。
可选的,若采用图卷积网络确定引用关系图中的边权重时,计算机设备可以将初始节点向量输入至图卷积网络,根据图卷积网络中的多个网络层,对初始节点向量进行信息编码,得到初始节点向量对应的编码向量;为了缓解图卷积网络中的过渡平滑以及错误传播问题,还可以在图卷积网络的每个网络层后引入门控函数,根据门控函数对每个网络层所输出的编码向量进行处理,将图卷积网络中通过门控函数的最后一个网络层的输出结果,确定为初始节点向量对应的节点编码向量。在图卷积网络中引入门控函数,可以用于消除同一个网络层中的异常值,也可以用于消除相邻网络层中数值异常的网络层所输出的结果。
步骤S207,根据节点编码向量,确定引用关系图中任意两个具有文本引用关系的文本节点之间的边权重。
具体的,计算机设备在获取到每个文本节点分别对应的节点编码向量之后,可以通过计算具有文本引用关系的两个文本节点所对应的节点编码向量之间的相似度,确定两个文本节点之间的边权重。例如对于具有文本引用关系的文本节点vi和文本节点vj,计算机设备可以采用余弦相似度等相似度计算方法,计算文本节点vi对应的节点编码向量和文本节点vj对应的节点编码向量之间的相似度,将该相似度确定为文本节点vi和文本节点vj之间的边权重,边权重越大,表示文本节点vi和文本节点vj之间的关联性越强。因此,计算机设备可以获取引用关系图中每条边分别对应的边权重。
步骤S208,在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。
具体的,计算机设备在获取到引用关系图中的文本推荐权重和边权重后,可以在引用关系图中寻找包含目标文本的最短文本阅读路径。计算机设备可以遍历引用关系图中所包含的所有文本节点,在该引用关系图中构建包含目标文本的M个初始文本阅读路径,其中,M为正整数;计算机设备可以根据M个初始文本阅读路径分别包含的文本推荐权重和边权重,依次计算M个初始文本阅读路径分别对应的权重累加值,在M个初始文本阅读路径中,将权重累加值最小的初始文本阅读路径确定为最短文本阅读路径。
进一步地,计算机设备可以将最短文本阅读路径中所包含的文本节点以及文本引用关系,均确定为第一查询信息对应的第一推荐内容,并在查询页面中对第一推荐内容进行展示,以便于用户可以快速确定第一图件内容中的文本阅读顺序。
可选的,计算机设备可以将第一查询信息、第一初始文本、最短文本阅读路径等信息进行存储,方便后续进行数据查验。当计算机设备在搜索引擎中获取到用户输入的第二查询信息时,同样可以通过调用搜索引擎对应的应用程序接口,从该搜索引擎中获取与第二查询信息相关联的第二初始文本,若第二初始文本与上述第一查询信息对应的第一初始文本相同时,计算机设备可以将上述第一推荐内容确定为第二查询信息对应的第二推荐内容,在查询页面中对第二推荐内容进行展示,即计算机设备无需执行构建引用关系图、查找最短文本阅读路径等操作,可以直接确定第二查询信息对应的第二推荐内容,可以提高文本数据的推荐效率。当第二初始文本与第一初始文本不同时,仍然需要按照上述流程,确定第二查询信息对应的第二推荐内容。需要说明的是,搜索引擎中所收集的文本是不断进行更新的,因此,在判断第一初始文本和第二初始文本是否相同时,还可以获取第一初始文本和第二初始文本分别对应的获取时间,若两者之间的时间相差过大(如超过1个月),则仍然需要对第二初始文本执行后续操作,以确定第二查询信息对应的第二推荐内容。
可选的,本申请实施例所提出的数据推荐方法可以应用于任何与文本检索相关的场景,例如,医疗查询场景,文章检索场景、新闻分发场景、博客搜索场景、日志搜索场景等。以医疗查询场景为例,当用户在查询页面中输入医疗查询信息后,计算机设备可以获取查询页面中所输入的医疗查询信息,并在搜索引擎中获取与医疗查询信息相关联的初始医疗文章,通过初始医疗文章之间的文本引用关系(此时的文本引用关系可以包括转发、内容复制等关系)构建引用关系图,并获取引用关系图中的文本推荐权重和边权重;进而可以在引用关系图中筛选出目标医疗文章(相比于初始医疗文章,目标医疗文章可以更好地帮助用户熟悉医疗查询信息所属领域的预备知识);在引用关系图中查找包含目标医疗文章的最短文本阅读路径,并在查询页面中对最短文本阅读路径所包含的医疗文章和引用关系进行展示。
请一并参见图7,图7是本申请实施例提供的一种医疗文本数据的推荐场景示意图。如图7所示,用户可以在所使用的用户终端40a中启动即时通讯应用,并在即时通讯应用中开启支付页面,在该支付页面中可以显示该即时通讯应用所提供的服务,如生活缴费、城市服务、医疗健康、保险服务等服务,当用户对支付页面中的医疗健康服务执行触发操作时,计算机设备可以响应针对医疗健康服务的触发操作,在用户终端中显示医疗健康查询页面,该医疗查询页面中可以显示输入框40c和查询功能控件40d,用户可以在输入框40c中输入医疗查询信息“皮肤过敏应该注意什么”,用户终端40a获取到查询信息“皮肤过敏应该注意什么”后,可以在搜索引擎中获取查询信息“皮肤过敏应该注意什么”对应的初始医疗文章,进而利用初始医疗文章对应的文本引用关系,生成“皮肤过敏应该注意什么”对应的最短文本阅读路径40e,并在医疗查询页面中显示该最短文本阅读路径40e,用户可以根据该最短文本阅读路径40e,确定医疗文章的阅读顺序,快速熟悉“皮肤过敏应该注意什么”对应的医疗知识。其中,最短文本阅读路径40e的生成过程可以参见上述步骤S201-步骤S208,或者上述图3所对应的实施例,这里不再进行赘述。
本申请实施例中,在获取到与第一查询信息相关联的第一初始文本后,可以引入文本引用关系对第一初始文本进行扩展,以得到引用关系图,进而可以在引用关系图中确定包含目标文本(从第一初始文本和关联文本中筛选后得到的结果)的最短文本阅读路径,最短文本阅读路径所包含的文本和文本引用关系,均可以作为第一查询信息对应的第一推荐内容,即可以通过利用文本之间的引用关系,挖掘不同文本之间的重要程度,进而确定与查询信息相关联的推荐内容,可以提高文本数据的推荐准确性;由于阅读文本路径保留了文本之间的引用关系,有利于帮助用户确定文本阅读顺序。
请一并参见图8,图8是本申请实施例提供的一种数据推荐装置的结构示意图。如图8所示,该数据推荐装置1可以包括:关系图构建模块11,筛选模块12,阅读路径确定模块13;
关系图构建模块11,用于获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图;
筛选模块12,用于根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本;
阅读路径确定模块13,用于在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。
其中,关系图构建模块11,筛选模块12,阅读路径确定模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
在一些可行的实施方式中,关系图构建模块11可以包括:查询信息确定单元111,接口调用单元112,文本相似度获取单元113,关联文本确定单元114,构建单元115;
查询信息确定单元111,用于获取搜索引擎中所输入的一个或者多个关键词,将一个或者多个关键词确定为第一查询信息;
接口调用单元112,用于调用搜索引擎中的应用程序接口,获取搜索引擎中所包含的至少两个待推荐文本;
文本相似度获取单元113,用于获取第一查询信息分别与至少两个待推荐文本之间的文本相似度,根据文本相似度,在至少两个待推荐文本中确定与第一查询信息相关联的第一初始文本。
关联文本确定单元114,用于根据第一初始文本对应的文本引用关系,获取第一初始文本对应的引用文本和被引用文本,将引用文本和被引用文本确定为关联文本;
构建单元115,用于将第一初始文本和关联文本均确定为文本节点,根据文本节点之间的文本引用关系,构建包含文本节点的引用关系图。
其中,查询信息确定单元111,接口调用单元112,文本相似度获取单元113,关联文本确定单元114,构建单元115的具体功能实现方式可以参见上述图6所对应实施例中的步骤S201-步骤S203,这里不再进行赘述。
在一些可行的实施方式中,筛选模块12可以包括:文本数量获取单元121,目标文本确定单元122;
文本数量获取单元121,用于将第一初始文本和关联文本均确定为文本节点,在引用关系图中获取文本节点对应的被引用文本数量;
目标文本确定单元122,用于若存在被引用文本数量大于数量阈值的文本节点,则将被引用文本数量大于数量阈值的文本节点,确定为第一查询信息对应的目标文本。
其中,文本数量获取单元121,目标文本确定单元122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
在一些可行的实施方式中,阅读路径确定模块13可以包括:权重获取单元131,权重累加值确定单元132,第一最短路径确定单元133;
权重获取单元131,用于获取引用关系图对应的文本推荐权重和边权重,在引用关系图中构建包含目标文本的M个初始文本阅读路径;边权重用于表征引用关系图中具有文本引用关系的两个文本之间的关联性,M为正整数;
权重累加值确定单元132,用于根据M个初始文本阅读路径分别包含的文本推荐权重和边权重,确定M个初始文本阅读路径分别对应的权重累加值;
第一最短路径确定单元133,用于在M个初始文本阅读路径中,将最小的权重累加值所对应的初始文本阅读路径确定为最短文本阅读路径。
其中,权重获取单元131,权重累加值确定单元132,第一最短路径确定单元133的具体功能实现方式可以参见上述图6所对应实施例中的步骤S208,这里不再进行赘述。
在一些可行的实施方式中,阅读路径确定模块13可以包括:权重获取单元131,第一生成树获取单元134,第二生成树构建单元135,第二最短路径确定单元136;
权重获取单元131,还用于获取引用关系图对应的文本推荐权重和边权重,在引用关系图中构建包含目标文本的第一文本子图;边权重用于表征引用关系图中具有文本引用关系的两个文本之间的关联性;
第一生成树获取单元134,用于根据第一文本子图中所包含的边权重和文本推荐权重,获取第一文本子图中的第一最小生成树;第一最小生成树是指第一文本子图中具有最小权重累加值的生成树,第一最小生成树包括目标文本,第一文本子图中的最小权重累加值是指第一最小生成树中的文本推荐权重和边权重的累加值;
第二生成树构建单元135,用于在引用关系图中构建包含目标文本的第二文本子图,根据第二文本子图中所包含的文本推荐权重和边权重,对第一最小生成树进行更新,生成第二文本子图中的第二最小生成树;第二最小生成树是指第二文本子图中具有最小权重累加值的生成树,第二最小生成树对应的权重累加值小于第一最小生成树对应的权重累加值,第二最小生成树包括目标文本,第二文本子图中的最小权重累加值是指第二最小生成树中的文本推荐权重和边权重的累加值;
第二最短路径确定单元136,用于若第二最小生成树为引用关系图中具有最小权重累加值的生成树,则将第二最小生成树确定为最短文本阅读路径。
其中,权重获取单元131,第一生成树获取单元134,第二生成树构建单元135,第二最短路径确定单元136的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。当权重累加值确定单元132,第一最短路径确定单元133在执行相应的操作时,第一生成树获取单元134,第二生成树构建单元135,第二最短路径确定单元136均暂停执行操作;当第一生成树获取单元134,第二生成树构建单元135,第二最短路径确定单元136在执行相应的操作时,权重累加值确定单元132,第一最短路径确定单元133均暂停执行操作。
在一些可行的实施方式中,权重获取单元131可以包括:第一文本权重确定子单元1311,文本节点获取子单元1312,边权重确定子单元1313;
第一文本权重确定子单元1311,用于将第一初始文本和关联文本均确定为引用关系图中的文本节点,获取文本节点对应的文本排序数值和评级特征,根据文本排序数值和评级特征,确定文本节点对应的文本推荐权重;
文本节点获取子单元1312,用于在引用关系图中获取具有文本引用关系的文本节点vi和文本节点vj;i和j均为小于或等于文本节点的数量的正整数;
边权重确定子单元1313,用于获取文本节点vi和文本节点vj之间的引用频次,根据引用频次确定文本节点vj和文本节点vi之间的边权重;引用频次是指文本节点vj在文本节点vi的文本内容中被引用的次数。
其中,第一文本权重确定子单元1311,文本节点获取子单元1312,边权重确定子单元1313的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
在一些可行的实施方式中,权重获取单元131可以包括:第二文本权重确定子单元1314,初始节点向量确定子单元1315,编码子单元1316,第二边权重确定子单元1317;
第二文本权重确定子单元1314,用于将第一初始文本和关联文本均确定为引用关系图中的文本节点,将文本节点转换为文本表征向量,根据文本表征向量确定文本节点对应的文本推荐权重;
初始节点向量确定子单元1315,用于根据文本节点在引用关系图中的文本引用关系,生成文本节点对应的初始节点向量;
编码子单元1316,用于将初始节点向量输入至图卷积网络,根据图卷积网络对初始节点向量进行信息编码,生成初始节点向量对应的节点编码向量;
第二边权重确定子单元1317,用于根据节点编码向量,确定引用关系图中任意两个具有文本引用关系的文本节点之间的边权重。
其中,第二文本权重确定子单元1314,初始节点向量确定子单元1315,编码子单元1316,第二边权重确定子单元1317的具体功能实现方式可以参见上述图6所对应实施例中的步骤S205-步骤S207,这里不再进行赘述。其中,当第一文本权重确定子单元1311,文本节点获取子单元1312,边权重确定子单元1313在执行相应的操作时,第二文本权重确定子单元1314,初始节点向量确定子单元1315,编码子单元1316,第二边权重确定子单元1317均暂停执行操作;当第二文本权重确定子单元1314,初始节点向量确定子单元1315,编码子单元1316,第二边权重确定子单元1317在执行相应的操作时,第一文本权重确定子单元1311,文本节点获取子单元1312,边权重确定子单元1313均暂停执行操作。
在一些可行的实施方式中,阅读路径确定模块13可以包括:文本引用关系获取单元137,推荐内容确定单元138;
文本引用关系获取单元137,用于获取最短文本阅读路径中所包含的路径文本节点和路径文本引用关系;路径文本引用关系用于指示路径文本节点的阅读顺序;
推荐内容确定单元138,用于根据路径文本节点和路径文本引用关系,确定第一查询信息对应的第一推荐内容。
其中,路径文本节点包括至少两个文献;
推荐内容确定单元138具体用于:
获取至少两个文献分别对应的文献摘要信息,将至少两个文献摘要信息和路径文本引用关系,确定为第一查询信息对应的第一推荐内容,在查询页面中对第一推荐内容进行展示。
其中,文本引用关系获取单元137,推荐内容确定单元138的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
在一些可行的实施方式中,该数据处理推荐装置1还可以包括:初始文本搜索模块14,推荐模块15;
初始文本搜索模块14,用于获取搜索引擎中所输入的第二查询信息,在搜索引擎中获取与第二查询信息相关联的第二初始文本;
推荐模块15,用于若第二初始文本与第一初始文本相同,则将第一推荐内容确定为第二查询信息对应的第二推荐内容,在查询页面中对第二推荐内容进行展示。
其中,初始文本搜索模块14,推荐模块15的具体功能实现方式可以参见上述图6所对应实施例中的步骤S208,这里不再进行赘述。
本申请实施例中,在获取到与第一查询信息相关联的第一初始文本后,可以引入文本引用关系对第一初始文本进行扩展,以得到引用关系图,进而可以在引用关系图中确定包含目标文本(从第一初始文本和关联文本中筛选后得到的结果)的最短文本阅读路径,最短文本阅读路径所包含的文本和文本引用关系,均可以作为第一查询信息对应的第一推荐内容,即可以通过利用文本之间的引用关系,挖掘不同文本之间的重要程度,进而确定与查询信息相关联的推荐内容,可以提高文本数据的推荐准确性;由于阅读文本路径保留了文本之间的引用关系,有利于帮助用户确定文本阅读顺序。
请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取与第一查询信息相关联的第一初始文本,根据第一初始文本对应的文本引用关系,获取第一初始文本对应的关联文本,构建包含第一初始文本和关联文本的引用关系图;
根据引用关系图在关联文本和第一初始文本中,筛选第一查询信息对应的目标文本;
在引用关系图中确定包含目标文本的最短文本阅读路径,根据最短文本阅读路径生成用于响应第一查询信息的第一推荐内容。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图6任一项所对应实施例中对数据推荐方法的描述,也可执行前文图8所对应实施例中对数据推荐装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据推荐装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图6任一项所对应实施例中对数据推荐方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图6任一项所对应实施例中对数据推荐方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (12)
1.一种数据推荐方法,其特征在于,包括:
获取与第一查询信息相关联的第一初始文本,根据所述第一初始文本对应的文本引用关系,获取所述第一初始文本对应的关联文本,构建包含所述第一初始文本和所述关联文本的引用关系图;
将所述关联文本和所述第一初始文本确定为文本节点,在所述引用关系图中获取所述文本节点对应的被引用文本数量;
若存在所述被引用文本数量大于数量阈值的文本节点,则将被引用文本数量大于所述数量阈值的文本节点,确定为所述第一查询信息对应的目标文本;
在所述引用关系图中确定包含所述目标文本的最短文本阅读路径,根据所述最短文本阅读路径生成用于响应所述第一查询信息的第一推荐内容;
其中,所述在所述引用关系图中确定包含所述目标文本的最短文本阅读路径,包括:
获取所述引用关系图对应的文本推荐权重和边权重,在所述引用关系图中构建包含所述目标文本的M个初始文本阅读路径;所述边权重用于表征所述引用关系图中具有文本引用关系的两个文本之间的关联性,M为正整数;
根据所述M个初始文本阅读路径分别包含的文本推荐权重和边权重,确定所述M个初始文本阅读路径分别对应的权重累加值;
在所述M个初始文本阅读路径中,将最小的权重累加值所对应的初始文本阅读路径确定为所述最短文本阅读路径;
所述根据所述最短文本阅读路径生成用于响应所述第一查询信息的第一推荐内容,包括:
获取所述最短文本阅读路径中所包含的路径文本节点和路径文本引用关系;所述路径文本引用关系用于指示所述路径文本节点的阅读顺序;
根据所述路径文本节点和所述路径文本引用关系,确定所述第一查询信息对应的第一推荐内容。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一初始文本对应的文本引用关系,获取所述第一初始文本对应的关联文本,构建包含所述第一初始文本和所述关联文本的引用关系图,包括:
根据所述第一初始文本对应的文本引用关系,获取所述第一初始文本对应的引用文本和被引用文本,将所述引用文本和所述被引用文本确定为所述关联文本;
将所述第一初始文本和所述关联文本均确定为文本节点,根据所述文本节点之间的文本引用关系,构建包含所述文本节点的引用关系图。
3.根据权利要求1所述的方法,其特征在于,所述在所述引用关系图中确定包含所述目标文本的最短文本阅读路径,包括:
获取所述引用关系图对应的文本推荐权重和边权重,在所述引用关系图中构建包含所述目标文本的第一文本子图;所述边权重用于表征所述引用关系图中具有文本引用关系的两个文本之间的关联性;
根据所述第一文本子图中所包含的边权重和文本推荐权重,获取所述第一文本子图中的第一最小生成树;所述第一最小生成树是指所述第一文本子图中具有最小权重累加值的生成树,所述第一最小生成树包括所述目标文本,所述第一文本子图中的最小权重累加值是指所述第一最小生成树中的文本推荐权重和边权重的累加值;
在所述引用关系图中构建包含所述目标文本的第二文本子图,根据所述第二文本子图中所包含的文本推荐权重和边权重,对所述第一最小生成树进行更新,生成所述第二文本子图中的第二最小生成树;所述第二最小生成树是指所述第二文本子图中具有最小权重累加值的生成树,所述第二最小生成树对应的权重累加值小于所述第一最小生成树对应的权重累加值,所述第二最小生成树包括所述目标文本,所述第二文本子图中的最小权重累加值是指所述第二最小生成树中的文本推荐权重和边权重的累加值;
若所述第二最小生成树为所述引用关系图中具有最小权重累加值的生成树,则将所述第二最小生成树确定为所述最短文本阅读路径。
4.根据权利要求1或3所述的方法,其特征在于,所述获取所述引用关系图对应的文本推荐权重和边权重,包括:
将所述第一初始文本和所述关联文本均确定为所述引用关系图中的文本节点,获取所述文本节点对应的文本排序数值和评级特征,根据所述文本排序数值和所述评级特征,确定所述文本节点对应的文本推荐权重;
在所述引用关系图中获取具有文本引用关系的文本节点vi和文本节点vj;i和j均为小于或等于所述文本节点的数量的正整数;
获取所述文本节点vi和所述文本节点vj之间的引用频次,根据所述引用频次确定所述文本节点vj和所述文本节点vi之间的边权重;所述引用频次是指所述文本节点vj在所述文本节点vi的文本内容中被引用的次数。
5.根据权利要求1或3所述的方法,其特征在于,所述获取所述引用关系图对应的文本推荐权重和边权重,包括:
将所述第一初始文本和所述关联文本均确定为所述引用关系图中的文本节点,将所述文本节点转换为文本表征向量,根据所述文本表征向量确定所述文本节点对应的文本推荐权重;
根据所述文本节点在所述引用关系图中的文本引用关系,生成所述文本节点对应的初始节点向量;
将所述初始节点向量输入至图卷积网络,根据所述图卷积网络对所述初始节点向量进行信息编码,生成所述初始节点向量对应的节点编码向量;
根据所述节点编码向量,确定所述引用关系图中任意两个具有文本引用关系的文本节点之间的边权重。
6.根据权利要求1所述的方法,其特征在于,所述获取与第一查询信息相关联的第一初始文本,包括:
获取搜索引擎中所输入的一个或者多个关键词,将所述一个或者多个关键词确定为所述第一查询信息;
调用所述搜索引擎中的应用程序接口,获取所述搜索引擎中所包含的至少两个待推荐文本;
获取所述第一查询信息分别与所述至少两个待推荐文本之间的文本相似度,根据所述文本相似度,在所述至少两个待推荐文本中确定与所述第一查询信息相关联的第一初始文本。
7.根据权利要求1所述的方法,其特征在于,所述路径文本节点包括至少两个文献;
所述根据所述路径文本节点和所述路径文本引用关系,确定所述第一查询信息对应的第一推荐内容,包括:
获取所述至少两个文献分别对应的文献摘要信息,将至少两个文献摘要信息和所述路径文本引用关系,确定为所述第一查询信息对应的第一推荐内容,在查询页面中对所述第一推荐内容进行展示。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取搜索引擎中所输入的第二查询信息,在所述搜索引擎中获取与所述第二查询信息相关联的第二初始文本;
若所述第二初始文本与所述第一初始文本相同,则将所述第一推荐内容确定为所述第二查询信息对应的第二推荐内容,在查询页面中对所述第二推荐内容进行展示。
9.一种数据推荐装置,其特征在于,包括:
关系图构建模块,用于获取与第一查询信息相关联的第一初始文本,根据所述第一初始文本对应的文本引用关系,获取所述第一初始文本对应的关联文本,构建包含所述第一初始文本和所述关联文本的引用关系图;
文本数量获取单元,用于将所述关联文本和所述第一初始文本确定为文本节点,在所述引用关系图中获取所述文本节点对应的被引用文本数量;
目标文本确定单元,用于若存在所述被引用文本数量大于数量阈值的文本节点,则将被引用文本数量大于所述数量阈值的文本节点,确定为所述第一查询信息对应的目标文本;
阅读路径确定模块,用于在所述引用关系图中确定包含所述目标文本的最短文本阅读路径,根据所述最短文本阅读路径生成用于响应所述第一查询信息的第一推荐内容;
其中,所述阅读路径确定模块包括:
权重获取单元,用于获取所述引用关系图对应的文本推荐权重和边权重,在所述引用关系图中构建包含所述目标文本的M个初始文本阅读路径;所述边权重用于表征所述引用关系图中具有文本引用关系的两个文本之间的关联性,M为正整数;
权重累加值确定单元,用于根据所述M个初始文本阅读路径分别包含的文本推荐权重和边权重,确定所述M个初始文本阅读路径分别对应的权重累加值;
第一最短路径确定单元,用于在所述M个初始文本阅读路径中,将最小的权重累加值所对应的初始文本阅读路径确定为所述最短文本阅读路径;
文本引用关系获取单元,用于获取所述最短文本阅读路径中所包含的路径文本节点和路径文本引用关系;所述路径文本引用关系用于指示所述路径文本节点的阅读顺序;
推荐内容确定单元,用于根据所述路径文本节点和所述路径文本引用关系,确定所述第一查询信息对应的第一推荐内容。
10.一种计算机设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-8任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038819.7A CN113515589B (zh) | 2021-01-12 | 2021-01-12 | 数据推荐方法、装置、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038819.7A CN113515589B (zh) | 2021-01-12 | 2021-01-12 | 数据推荐方法、装置、设备以及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515589A CN113515589A (zh) | 2021-10-19 |
CN113515589B true CN113515589B (zh) | 2024-07-19 |
Family
ID=78060903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110038819.7A Active CN113515589B (zh) | 2021-01-12 | 2021-01-12 | 数据推荐方法、装置、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515589B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022782B (zh) * | 2021-11-01 | 2024-05-10 | 中国石油大学(华东) | 一种基于modis卫星数据的海雾探测方法 |
CN114401122B (zh) * | 2021-12-28 | 2024-04-05 | 中国电信股份有限公司 | 一种域名检测方法、装置、电子设备及存储介质 |
CN114691814B (zh) * | 2022-04-15 | 2023-11-10 | 北京工业大学 | 信息处理方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646099A (zh) * | 2013-12-19 | 2014-03-19 | 南京大学 | 一种基于多层图的论文推荐方法 |
CN105808729A (zh) * | 2016-03-08 | 2016-07-27 | 上海交通大学 | 基于论文间引用关系的学术大数据分析方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100736754B1 (ko) * | 2005-11-01 | 2007-07-09 | (주)윕스 | 스패닝 트리를 이용한 인용관계 조사 방법 |
US8150831B2 (en) * | 2009-04-15 | 2012-04-03 | Lexisnexis | System and method for ranking search results within citation intensive document collections |
US9547823B2 (en) * | 2014-12-31 | 2017-01-17 | Verizon Patent And Licensing Inc. | Systems and methods of using a knowledge graph to provide a media content recommendation |
CN111078859B (zh) * | 2019-11-22 | 2021-02-09 | 北京市科学技术情报研究所 | 一种基于引用次数的作者推荐方法 |
-
2021
- 2021-01-12 CN CN202110038819.7A patent/CN113515589B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646099A (zh) * | 2013-12-19 | 2014-03-19 | 南京大学 | 一种基于多层图的论文推荐方法 |
CN105808729A (zh) * | 2016-03-08 | 2016-07-27 | 上海交通大学 | 基于论文间引用关系的学术大数据分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113515589A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
CN110609902B (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
EP3929769A1 (en) | Information recommendation method and apparatus, electronic device, and readable storage medium | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
Laniado et al. | Using WordNet to turn a Folksonomy into a Hierarchy of Concepts. | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US9864803B2 (en) | Method and system for multimodal clue based personalized app function recommendation | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
US20160275196A1 (en) | Semantic search apparatus and method using mobile terminal | |
WO2018121198A1 (en) | Topic based intelligent electronic file searching | |
CN111753167A (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN114450681A (zh) | 文档间注意力机制 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN114492669A (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
CN117076658B (zh) | 基于信息熵的引文推荐方法、装置及终端 | |
CN116578729B (zh) | 内容搜索方法、装置、电子设备、存储介质和程序产品 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
CN110222156B (zh) | 发现实体的方法和装置、电子设备、计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Ou Zijing Inventor after: Zhao Ruihui Inventor after: Liu Bang Inventor before: Ou Zijing Inventor before: Zhao Ruihui |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |