CN114416995A - 信息推荐方法、装置及设备 - Google Patents
信息推荐方法、装置及设备 Download PDFInfo
- Publication number
- CN114416995A CN114416995A CN202210070050.1A CN202210070050A CN114416995A CN 114416995 A CN114416995 A CN 114416995A CN 202210070050 A CN202210070050 A CN 202210070050A CN 114416995 A CN114416995 A CN 114416995A
- Authority
- CN
- China
- Prior art keywords
- read
- knowledge point
- text
- user
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及推荐技术领域,公开了一种信息推荐方法、装置及设备,所述方法包括:获取待阅读文档;对所述待阅读文档进行文本识别,得到待阅读文本;对所述待阅读文本进行命名实体识别,确定所述待阅读文本中知识点;根据用户的长期偏好与短期偏好,确定所述待阅读文档中待推荐的知识点列表,并在所述待阅读文档中对所述知识点列表进行标注和展示;响应于用户在所述待阅读文档中目标知识点的所在位置触发的事件,向所述用户推荐与所述目标知识点列表匹配的学习内容。本申请结合用户长期偏好与短期偏好为其推荐知识点列表,并将推荐知识点在文档中的知识点进行标注,方便用户一目了然的了解文档中的知识点。
Description
技术领域
本申请涉及推荐技术领域,特别地,涉及一种信息推荐方法、装置及设备。
背景技术
保险领域,无论代理人还是客户,对于保险知识,都是有学习的需求的。现有的保险知识学习方式更多是靠用户(代理人或者客户)在app或者搜索引擎搜索产品知识进行主动学习,但是对保险领域比较陌生的用户,可能也不知道搜索什么知识,因此需要将保险知识抽取出来并向用户展示,并且不同的用户对于知识点的需求是不一样的,若随机向用户推荐知识点并不能吸引到用户,因此需要一种根据用户偏好进行知识点推荐的方法。
发明内容
本申请的目的在于提供一种信息推荐方法、装置及设备,结合用户长期偏好与短期偏好为其推荐知识点列表,并将推荐知识点在文档中的知识点进行标注,方便用户一目了然的了解文档中的知识点。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的第一方面,提供了一种数据标注方法,所述方法包括:
获取待阅读文档;
对所述待阅读文档进行文本识别,得到待阅读文本;
对所述待阅读文本进行命名实体识别,确定所述待阅读文本中知识点;
根据用户的长期偏好与短期偏好,确定所述待阅读文档中待推荐的知识点列表,并在所述待阅读文档中对所述知识点列表进行标注和展示;
响应于用户在所述待阅读文档中目标知识点的所在位置触发的事件,向所述用户推荐与所述目标知识点列表匹配的学习内容。
在本申请的一些实施例中,基于前述方案,所述对所述待阅读文档进行文本识别,得到待阅读文本,包括:
基于FPN算法,对所述待阅读文档进行特征图处理,得到概率图;
将所述概率图进行可微分二值化,得到二值图;
在所述二值图上寻找连通区域,得到文本框数据集合,所述文本框数据集合包括多个文本框的位置信息;
识别所述多个文本框内的文本信息,得到所述待阅读文本。
在本申请的一些实施例中,基于前述方案,所述对所述待阅读文本进行命名实体识别,确定所述待阅读文本中的知识点,包括:
将所述待阅读文本转换为满足预设条件的token序列;
基于SPAN-BERT模型,对所述token序列进行层级计算处理,得到编码后的上下文表示;
基于指针网络,对所述上下文表示进行处理,预测得到所述知识点的位置,确定所述待阅读文本中的知识点。
在本申请的一些实施例中,基于前述方案,所述指针网络包括第一分类器和第二分类器;所述基于指针网络,根据所述上下文表示,预测得到所述知识点的位置,包括:
通过所述第一分类器,根据所述上下文表示得到所述知识点的开始位置候选集及对应的概率;
通过所述第二分类器,根据所述上下文表示得到所述知识点的结束位置候选集以及对应的概率;
基于最大似然函数,根据所述的开始位置的概率和所述结束位置的概率,确定所述知识点的位置。
在本申请的一些实施例中,基于前述方案,所述信息推荐方法还包括:
基于span模型和二分类模型,构建实体二分类模型;
对预设的实体正样本对数据进行增强处理,得到实体负样本;
根据所述实体正样本和所述实体负样本训练所述实体二分类模型,得到训练完成的实体二分类模型;
通过所述训练完成的实体二分类模型,根据所述知识点的位置,确定所述知识点的置信度;
根据所述知识点的置信度,确定所述待阅读文档中的知识点。
在本申请的一些实施例中,基于前述方案,所述响应于用户在所述知识点的所在位置触发的事件,根据所述用户的长期偏好与短期偏好,确定待推荐的知识点列表,包括:
构建推荐模型,所述推荐模型包括嵌入层、注意力层、LSTM网络和融合层;
将所述用户历史触发的知识点序列作为长期序列,将所述用户最近触发的知识点序列作为短期序列;
通过所述嵌入层,将所述长期序列以及对应的知识点的特征信息和所述短期序列以及对应的知识点的特征信息编码转换为低维稠密向量;
通过所述注意力层,根据所述长期序列对应的低维稠密向量,得到对应的各个知识点对所述用户的权重,将所述权重与所述长期序列及对应的知识点的特征信息构成的向量相乘后累加得到所述用户的长期偏好;
通过所述LSTM网络,根据所述短期序列对应的低维稠密向量,得到所述用户的短期偏好;
通过所述融合层,将所述用户的长期偏好和所述短期偏好进行加权融合得到所述用户的最终偏好,并根据所述最终偏好确定所述用户对于各个知识点的下一次阅读概率,并根据所述阅读概率由高到低生成所述知识点列表。
在本申请的一些实施例中,基于前述方案,所述知识点的特征信息包括所述知识点的文本识别置信度、实体识别置信度、字体大小、所述知识点的所在位置、包含所述知识点的文档的数量以及所述知识点的类型。
在本申请的一些实施例中,基于前述方案,所述信息推荐方法还包括:
通过SimBERT模型,将各个知识点对应进行嵌入向量化处理,得到所述各个知识点的语义向量;
基于余弦相似度算法,根据所述各个知识点的语义向量,确定各个知识点之间的相似度;
根据所述各个知识点之间的相似度,对所述知识点进行去重。
根据本申请实施例的第二方面,提供了一种信息推荐装置,所述装置包括:
文档获取单元,用于获取待阅读文档;
文本识别单元,用于对所述待阅读文档进行文本识别,得到待阅读文本;
实体识别单元,用于对所述待阅读文本进行命名实体识别,确定所述待阅读文本中知识点,并对所述知识点进行标注和展示;
推荐单元,用于响应于用户在所述知识点的所在位置触发的事件,根据所述用户的长期偏好与短期偏好,确定待推荐的知识点列表;
所述推荐单元还用于根据所述知识点列表,向所述用户推荐与所述知识点列表匹配的学习内容。
根据本申请实施例的第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述第一方面所述的方法。
本申请实施例结合用户长期偏好与短期偏好为其推荐知识点列表,并将推荐知识点在文档中的知识点进行标注,方便用户一目了然的了解文档中的知识点,并且针对用户正在阅读的目标知识点,推荐解释视频,帮助用户快速理解学习目标知识点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例性实施例,本申请的上述和其它特征及优点将变得更加明显。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
图2示出了根据本申请一个实施例的信息推荐方法的流程图。
图3示出了根据本申请一个实施例的文本识别的方法的流程图。
图4示出了根据本申请一个实施例的命名实体识别的方法的流程图。
图5示出了根据本申请一个实施例的信息推荐的示意图。
图6示出了根据本申请一个实施例的一种信息推荐装置的结构示意图。
图7示出了根据本申请一个实施例的用于实现上述方法的程序产品示意图。
图8示出了根据本申请一个实施例的电子设备的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要注意的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。终端设备与服务器105之间通过网络104连接,网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
本申请实施例所提供的信息推荐方法可以由服务器105执行,并通过网络将待阅读文档的知识推荐的结果发送至终端设备,用户可通过终端设备阅览该待阅读文档。
还需要说明的是,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(content distribute network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等,但并不局限于此,本申请在此不做限制。
需要解释的是,如上的云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展。通过建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as aService,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
以下对本申请实施例的技术方案的实现细节执行详细阐述:
图2示出了根据本申请一个实施例的数据标注方法的流程图。如图2所示,该方法至少包括以下步骤。
步骤210:获取待阅读文档。
待阅读文档可能是包含图片的PPT或者PDF等格式的文档,例如用户查阅的保险介绍相关的PPT或者PDF文档,文档中包含很多专业的保险知识点,用户看的过程中可能会不太理解,一时又不知从何问起。
步骤220:对待阅读文档进行文本识别,得到待阅读文本。
PPT或者PDF文档等格式的待阅读文档中不仅包含正文可能还包含图片,因此需要利用文本识别技术,识别待阅读文档中正文和图片中的文本,为后续识别文本中的命名实体做准备。
步骤230:对待阅读文本进行命名实体识别,确定待阅读文本中知识点。
本申请通过命名实体识别将待阅读文本中的知识点抽取出来,需要识别的实体包括保险相关文档中的保险术语、保险产品名称以及疾病名称等知识点。
步骤240:根据用户的长期偏好与短期偏好,确定待阅读文档中待推荐的知识点列表,并在待阅读文档中对知识点列表进行标注和展示。
根据用户的长期偏好(即用户历史感兴趣的知识点,包括用户在其历史阅读过的所有文档中触发的知识点,)与短期偏好(即用户最近感兴趣的知识点,包括用户在其最近阅读的文档中的触发的预设数量的知识点),针对性地确定需要向用户进行推荐的知识点列表,并在文档对推荐列表中的知识点进行标注和展示,例如将知识点在文档进行加粗、增加下划线、改变字体颜色、标亮等差异化处理,方便用户阅读。
步骤250:响应于用户在待阅读文档中目标知识点的所在位置触发的事件,向用户推荐与目标知识点匹配的学习内容。
结合步骤220文本识别中知识点对应的文本框在屏幕的位置信息,可以确定知识点在屏幕的位置,监测用户在知识点所在位置触发的事件,例如用户将鼠标移动至目标知识点所在位置或者点击目标知识点所在位置,例如基于模糊匹配原则,从视频数据库中向用户推荐目标知识点对应的解释视频,以短视频的方式向用户解释目标知识点,方便用户快速学习。
本申请实施例结合用户长期偏好与短期偏好为其推荐知识点列表,并将推荐知识点在文档中的知识点进行标注,方便用户一目了然的了解文档中的知识点,并且针对用户正在阅读的目标知识点,推荐解释视频,帮助用户快速理解学习目标知识点。
图3示出了根据本申请一个实施例的文本识别的方法的流程图。如图3所示,该文本识别方法至少包括以下步骤。
步骤310:基于FPN算法,对待阅读文档进行特征图处理,得到概率图。
步骤320:将概率图进行可微分二值化,得到二值图。
步骤330:在二值图上寻找连通区域,得到文本框数据集合,文本框数据集合包括多个文本框的位置信息。
文本识别包括文本检测和文本识别两大部分,在具体实施中,可以采用基于DB的文本检测模型实现上述文本检测的方法,文本检测模型包括特征提取模块、概率图预测模块和二值化模块;其中,特征提取模块可以采用ResNet-18或者ResNet-50深度卷积神经网络,采用特征金字塔(FPN)的形式,将不同尺寸的特征图进行融合,从而从输入文档的分割后图像中提取特征;将提取的特征输入概率图预测模块,得到概率图;概率图预测模块可以采用一个3*3的卷积层和两个stride为2的反卷积层构成;然后将概率图输入二值化模块,得到二值图;最后对二值图找连通区域,得到文本框。
步骤340:识别多个文本框内的文本信息,得到待阅读文本。
在具体实施中,可以采用CRNN模型实现文本识别,将文档以及文档对应文本框数据集合输入到CRNN文本识别网络模型中,以确定每个文本框内的文本信息。CRNN文本识别网络的包括CNN模块、BiLSTM(Bi-directional Long Short-Term Memory)模块及CTC网络结构。CNN模块部分采取MobileNetV3-small结构,用于提取文本图像的特征;BiLSTM模块将提取所得的特征图像用于特征向量融合,进而提取字符序列的上下文特征,得到每列特征的概率分布;CTC网络结构将隐向量概率分布输入,从而预测得到文本序列。
图4示出了根据本申请一个实施例的命名实体识别的方法的流程图。如图4所示,该命名实体识别方法至少包括以下步骤。
步骤410:将待阅读文本转换为满足预设条件的token序列。
待阅读文本包含待阅读文档中的多个句子,例如一个句子为“乙方应严格按照急性病3天量,慢性病7天量,最长不超过24天量的原则给药。”,该句子中“急性病”和“慢性病”属于命名实体,需要被识别出来。在利用模型进行命名实体识别之前需要先将各个句子转化为单个字符形式的token序列。在具体实施中,将待阅读文本转换为满足预设条件的token序列,可以包括:
将文本中字符转换成数字token的形式,无法匹配的字符用<UNK>代替,完成初步的转换;
在句子token的前后加上开始和结束标记[CLS]和[SEP];
将句子token按照设定的长度进行截断和填充,填充的token为0。
将上述句子转换为“[CLS]乙方应严格按照急性病3天量,慢性病7天量,最长不超过24天量的原则给药。[SEP]”
步骤420:基于SPAN-BERT模型,对token序列进行层级计算处理,得到编码后的上下文表示。
在具体实施中,基于SPAN-BERT模型,对token序列进行层级计算处理,得到编码后的上下文表示,可以包括:
将句子token序列作为输入,通过SPAN-BERT中的双向Transformer连接,以层级的方式计算句子的上下文表示;将最后一层Transformer的输出作为的最终的上下文表示。
Transformer本身也是一个Seq2Seq的结构,利用Attention替换了以往的LSTM作为编码器实现了并行计算。编码器是由N个相同的层组成,每层包含两个子层,分别为多头自注意力机制(multi-head self-attention mechanism)和全连接前馈网络(fullyconnected feed-forward network)。每个子层还包含残差与归一化层。
步骤430:基于指针网络,对上下文表示进行处理,预测得到知识点的位置,确定待阅读文本中的知识点。
例如,对于一个句子“乙方应严格按照急性病3天量,慢性病7天量,最长不超过24天量的原则给药。”,指针网络预测得到一个实体在句子中的的开始位置为8,结束位置为10,“那么可以确定“急性病”是一个实体。
需要说明的是,在对token序列进行层级计算处理,得到编码后的上下文表示之前,还包括对SPAN-Bert模型的训练过程,模型的训练过程可以包括如下步骤:
(1)根据预设的实体类型和部分文档的人工标注结果,得到数据集;
对于保险领域文档,命名实体类型包括保险术语、产品名称、疾病名称。Bert是基于有监督的训练模型,因此在训练之前人工标注了一部分文档的文字内容,标注出了其中的知识点,得到命名实体及其对应位置,生成<文本,实体>格式的数据集。例如,将文档中的一个句子“乙方应严格按照急性病3天量,慢性病7天量,最长不超过24天量的原则给药”生成<乙方应严格按照急性病3天量,慢性病7天量,最长不超过24天量的原则给药,急性病,慢性病>格式的数据。
采用这种利用待识别文档进行训练的方式,可以让Bert模型在具有对待识别文档有较强的特征提取能力时,同时保持一定的泛化能力,能够提高Bert模型提取特征的准确度。
(2)对所得数据集进行清洗和结构化整理。
具体包括数据清洗,删除文本中的非法字符、空格、换行符;以字为粒度将文本分割,构建字典;构建实体类型字典。
在利用数据集生成训练样本之前,对数据集进行清洗,以避免后续模型训练过程中引入不必要的噪声。在此时构建字典,便于上述提到的步骤410与步骤420之间将token序列中各个字符通过字典映射成字典中的索引值,已将字符转化为SPAN-Bert可以识别的数字形式的输入参数。如前所述,对于保险领域文档,一种实体类型字典为{保险术语、产品名称、疾病名称}。
(3)根据清洗和结构化处理后的数据集,构建正样本集合和负样本集合。
使用Span格式对样本进行表示,正样本集由已标注实体数据集构成。例如上述句子中的“急性病”为一个疾病名称类型的实体,其对应的Span格式的正样本为一个三元组(8,10,3),前两位代表一个跨度,具体为实体在句子中的位置开始和结束位置,第三位代表实体的类型,具体为实体的类型在实体类型字典中的位置。
随机遮掩句子对中百分之十的字符,得到负样本集。这里采用了Bert模型训练的mask(遮掩)机制,其中,遮掩的字符具体可采用预训练的预测模型得到预测字符。采用该随机遮掩字符的方式,能够让模型在训练过程中进行判断的能力,使训练得到的模型具有更强的泛化能力,特征提取的能力更强。将样本集输入到初始Bert模型中进行训练,采用梯度下降算法可以得到Bert模型。
在本申请的一些实施例中,基于前述方案,指针网络包括第一分类器和第二分类器;基于指针网络,根据上下文表示,预测得到知识点的位置,包括:
通过第一分类器,根据上下文表示得到知识点的开始位置候选集及对应的概率;
通过第二分类器,根据上下文表示得到知识点的结束位置候选集以及对应的概率;
基于最大似然函数,根据的开始位置的概率和结束位置的概率,确定知识点的位置。
传统的Seq2Seq模型无法解决输出序列的词汇表会随着输入序列长度的改变而改变的问题,对于这类问题,输出往往是输入集合的子集。指针网络的思路是以直接操作输入序列代替设定输出词汇表,从而将指针对应到输入序列的元素。这种输出元素来自输入元素的特点使得指针网络非常适合用来直接复制输入序列中的某些元素到输出序列。这对于抽取任务是个非常有效的思路,同时只预测开始和结束位置也可以轻松解决此前序列标记任务中尽力解决的分类一致性的问题。
例如利用二进制形式的开始层标签和结束层标签对句子的开始位置和结束位置进行标记,开始层标签中token如果带有“1”标签表示该token是知识点的起始位置,结束层中token如果带有“0”标签表示该token是知识点的结束位置。通过分类器可以得到句子每个token为“1”或者“0”的概率,即得到开始位置的候选集以及候选集中每个元素的概率。
在本申请的一些实施例中,基于前述方案,信息推荐方法还包括:
基于span模型和二分类模型,构建实体二分类模型;
对预设的实体正样本对数据进行增强处理,得到实体负样本;
根据实体正样本和实体负样本训练实体二分类模型,得到训练完成的实体二分类模型;
通过训练完成的实体二分类模型,根据知识点的位置,确定知识点的置信度;
根据知识点的置信度,确定待阅读文档中的知识点。
本申请实施基于Bert模型和二分类模型构造了一个实体二分类模型,该实体二分类模型可以判断输入的实体是真实体还是假实体即输入的实体的置信度。将已有的实体数据库中的数据作为训练用的实体正样本,基于已有的实体数据库,结合数据增强技术生成大量负样例作为训练用的实体负样本,通过实体正样本和实体负样本训练该实体二分类模型,得到训练完成的实体二分类模型。
本申请实施例可以不直接将上述指针网络的输出作为最终的实体识别结果,而是将训练完成的实体二分类模型与上述指针网络的输出端连接,通过指针网络输出的知识点在句子序列中的位置可以得到知识点,实体二分类模型可以进一步得出该知识点的置信度,若该知识点的置信度大于等于预设阈值,则说明该知识点为真实体,若该知识点的置信度小于预设阈值,则说明该知识点为假实体。例如,对于上述句子,该实体二分类模型判断指针网络输出的实体“急性病”的置信度为95%,那么最终确定该实体为真实体,该实体二分类模型判断指针网络输出的实体“乙方”的置信度为30%,那么最终确定该实体为假实体。
需要说明的是,在上述SPAN-BERT模型和指针网络的训练过程中,可以结合训练完成的实体二分类模型进行多任务联合训练,通过实体二分类模型输出的实体置信度促进SPAN-BERT模型和指针网络迭代训练,提高SPAN-BERT模型和指针网络的实体识别准确率。
在本申请的一些实施例中,基于前述方案,响应于用户在知识点的所在位置触发的事件,根据用户的长期偏好与短期偏好,确定待推荐的知识点列表,包括:
构建推荐模型,推荐模型包括嵌入层、注意力层、LSTM网络和融合层;
将用户历史触发的知识点序列作为长期序列,将用户最近触发的知识点序列作为短期序列;
通过嵌入层,将长期序列以及对应的知识点的特征信息和短期序列以及对应的知识点的特征信息编码转换为低维稠密向量;
通过注意力层,根据长期序列对应的低维稠密向量,得到对应的各个知识点对用户的权重,将权重与长期序列以及对应的知识点的特征信息构成的向量相乘后累加得到用户的长期偏好;
通过LSTM网络,根据短期序列对应的低维稠密向量,得到用户的短期偏好;
通过融合层,将用户的长期偏好和短期偏好进行加权融合得到用户的最终偏好,并根据最终偏好确定用户对于各个知识点的下一次阅读概率,并根据阅读概率由高到低生成知识点列表。
将用户对文档的一次观看行为称为一个Session,而用户每次的观看行为是基于明确的需求进行的,不同的Session之间会有较大的差距。但是如果只考虑一次Session,就不能很好的利用用户的长期偏好进行推荐建模。图5示出了根据本申请实施例提出的另一种信息推荐方法的示意图。如图5所示,本申请实施例构建了一个融合了用户长期记忆和短期偏好的推荐模型,首先进行特征工程,得到长期序列和短期序列对应的特征信息,然后通过该模型的嵌入层、注意力层、LSTM网络以及融合层向用户做知识点推荐。
在本申请的一些实施例中,基于前述方案,知识点的特征信息可以包括知识点的文本识别置信度、实体识别置信度、字体大小、知识点的所在位置、包含知识点的文档的数量以及知识点的类型。
知识点包含多维特征信息,通过知识点的多维特征信息,上述推荐模型可以更好学习用户长期和短期的学习的知识点的特征,更贴近用户的真实偏好输出推荐列表。
其中,文本识别置信度即上述文本识别模型输出的结果的置信度,是影响最终用户点击知识点的因素之一,虽然影响权重并不高,本申请还是将其作为参与推荐的特征信息。
实体识别置信度是上述实体二分类模型输出的实体的置信度,其对后续用户的点击有着较大的影响,因为置信度越高的词语更有可能是个保险领域的专业术语,因此本申请将其作为参与推荐的特征信息。
字体大小可以通过上述文本检测中获取的文本框的大小确定,文档中字体比较大的部分通常是作者重点强调的内容,而那些小字体的备注内容,很有可能会被用户忽略,及时识别出来也并不吸引人,因此本申请将其作为参与推荐的特征信息。
知识点位置可以通过上述文本检测中获取的文本框的位置确定,根据观看经验,屏幕中心位置会更明显,更容易被关注,而边缘位置则打分则容易被忽略,因此本申请将其作为参与推荐的特征信息。
提及知识点的文档的数量可以根据各个文档的知识点统计结果确定,若某知识点在多个文档被提及,说明其是更常提及的知识点,若该知识点被提及次数较少,说明其是较冷门的知识点,因此本申请将其作为参与推荐的特征信息。
需要说明的是,除了以上维度的特征信息以外,还有其他维度特征信息例如知识点的类型、知识点所在的页码等特征也可以作为参与推荐的特征信息。
在本申请的一些实施例中,基于前述方案,方法还包括:
通过SimBERT模型,将各个知识点对应进行嵌入向量化处理,得到各个知识点的语义向量;
基于余弦相似度算法,根据各个知识点的语义向量,确定各个知识点之间的相似度;
根据各个知识点之间的相似度,对知识点进行去重。
将待比对的知识点导入到预先训练的Bert模型中,得到知识点的语义向量,该语义向量能够借助Bert模型提取特征的特点,动态表达知识点中字词间关系、字词位置关系和句子间关系,从字词、句等多方面体现知识点的特征,能够提高后续计算文本相似度的准确度。采用余弦相似度,能够从方向作为衡量相似度的重点,突出文本的相似度,提升文本相似度的准确度。
本申请实施例结合用户长期偏好与短期偏好为其推荐知识点列表,并将推荐知识点在文档中的知识点进行标注,并且推荐的知识点在文档中不重复,方便用户一目了然的了解文档中的知识点,并且针对用户正在阅读的目标知识点,推荐解释视频,帮助用户快速理解学习目标知识点。
以下介绍本申请的信息推荐装置的实施例,可以用于执行本申请上述实施例中的信息推荐方法。对于本申请信息推荐装置实施例中未披露的细节,请参照本申请上述的信息推荐方法的实施例。
图6示出了根据本申请一个实施例的一种信息推荐装置的结构示意图。如图6所示,信息推荐装置至少包括文档获取单元610、文本识别单元620、实体识别单元630、推荐单元640。
文档获取单元610,用于获取待阅读文档;
文本识别单元620,用于对所述待阅读文档进行文本识别,得到待阅读文本;
实体识别单元630,用于对所述待阅读文本进行命名实体识别,确定所述待阅读文本中知识点,并对所述知识点进行标注和展示;
推荐单元640,用于响应于用户在所述知识点的所在位置触发的事件,根据所述用户的长期偏好与短期偏好,确定待推荐的知识点列表;
所述推荐单元640还用于根据所述知识点列表,向所述用户推荐与所述知识点列表匹配的学习内容。
应当注意,尽管在上文详细描述中提及了信息推荐方法以及信息推荐装置的若干单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
作为另一方面,本申请还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
参考图7所示,描述了根据本申请的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
作为另一方面,本申请还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本申请的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种信息推荐方法,其特征在于,所述方法包括:
获取待阅读文档;
对所述待阅读文档进行文本识别,得到待阅读文本;
对所述待阅读文本进行命名实体识别,确定所述待阅读文本中知识点;
根据用户的长期偏好与短期偏好,确定所述待阅读文档中待推荐的知识点列表,并在所述待阅读文档中对所述知识点列表进行标注和展示;
响应于用户在所述待阅读文档中目标知识点的所在位置触发的事件,向所述用户推荐与所述目标知识点列表匹配的学习内容。
2.根据权利要求1所述的信息推荐方法,其特征在于,所述对所述待阅读文档进行文本识别,得到待阅读文本,包括:
基于FPN算法,对所述待阅读文档进行特征图处理,得到概率图;
将所述概率图进行可微分二值化,得到二值图;
在所述二值图上寻找连通区域,得到文本框数据集合,所述文本框数据集合包括多个文本框的位置信息;
识别所述多个文本框内的文本信息,得到所述待阅读文本。
3.根据权利要求1所述的信息推荐方法,其特征在于,所述对所述待阅读文本进行命名实体识别,确定所述待阅读文本中的知识点,包括:
将所述待阅读文本转换为满足预设条件的token序列;
基于SPAN-BERT模型,对所述token序列进行层级计算处理,得到编码后的上下文表示;
基于指针网络,对所述上下文表示进行处理,预测得到所述知识点的位置,确定所述待阅读文本中的知识点。
4.根据权利要求3所述的信息推荐方法,其特征在于,所述指针网络包括第一分类器和第二分类器;所述基于指针网络,根据所述上下文表示,预测得到所述知识点的位置,包括:
通过所述第一分类器,根据所述上下文表示得到所述知识点的开始位置候选集及对应的概率;
通过所述第二分类器,根据所述上下文表示得到所述知识点的结束位置候选集以及对应的概率;
基于最大似然函数,根据所述的开始位置的概率和所述结束位置的概率,确定所述知识点的位置。
5.根据权利要求3所述的信息推荐方法,其特征在于,所述信息推荐方法还包括:
基于span模型和二分类模型,构建实体二分类模型;
对预设的实体正样本对数据进行增强处理,得到实体负样本;
根据所述实体正样本和所述实体负样本训练所述实体二分类模型,得到训练完成的实体二分类模型;
通过所述训练完成的实体二分类模型,根据所述知识点的位置,确定所述知识点的置信度;
根据所述知识点的置信度,确定所述待阅读文档中的知识点。
6.根据权利要求1所述的信息推荐方法,其特征在于,所述响应于用户在所述知识点的所在位置触发的事件,根据所述用户的长期偏好与短期偏好,确定待推荐的知识点列表,包括:
构建推荐模型,所述推荐模型包括嵌入层、注意力层、LSTM网络和融合层;
将所述用户历史触发的知识点序列作为长期序列,将所述用户最近触发的知识点序列作为短期序列;
通过所述嵌入层,将所述长期序列以及对应的知识点的特征信息和所述短期序列以及对应的知识点的特征信息编码转换为低维稠密向量;
通过所述注意力层,根据所述长期序列对应的低维稠密向量,得到对应的各个知识点对所述用户的权重,将所述权重与所述长期序列以及对应的知识点的特征信息构成的向量相乘后累加得到所述用户的长期偏好;
通过所述LSTM网络,根据所述短期序列对应的低维稠密向量,得到所述用户的短期偏好;
通过所述融合层,将所述用户的长期偏好和短期偏好进行加权融合得到所述用户的最终偏好,并根据所述最终偏好确定所述用户对于各个知识点的下一次阅读概率,并根据所述阅读概率由高到低生成所述知识点列表。
7.根据权利要求6所述的信息推荐方法,其特征在于,所述知识点的特征信息包括所述知识点的文本识别置信度、实体识别置信度、字体大小、所述知识点的所在位置、包含所述知识点的文档的数量以及所述知识点的类型。
8.根据权利要求1所述的信息推荐方法,其特征在于,所述信息推荐方法还包括:
通过SimBERT模型,将各个知识点对应进行嵌入向量化处理,得到所述各个知识点的语义向量;
基于余弦相似度算法,根据所述各个知识点的语义向量,确定各个知识点之间的相似度;
根据所述各个知识点之间的相似度,对所述知识点进行去重。
9.一种信息推荐装置,其特征在于,所述装置包括:
文档获取单元,用于获取待阅读文档;
文本识别单元,用于对所述待阅读文档进行文本识别,得到待阅读文本;
实体识别单元,用于对所述待阅读文本进行命名实体识别,确定所述待阅读文本中知识点,并对所述知识点进行标注和展示;
推荐单元,用于响应于用户在所述知识点的所在位置触发的事件,根据所述用户的长期偏好与短期偏好,确定待推荐的知识点列表;
所述推荐单元还用于根据所述知识点列表,向所述用户推荐与所述知识点列表匹配的学习内容。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210070050.1A CN114416995A (zh) | 2022-01-20 | 2022-01-20 | 信息推荐方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210070050.1A CN114416995A (zh) | 2022-01-20 | 2022-01-20 | 信息推荐方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114416995A true CN114416995A (zh) | 2022-04-29 |
Family
ID=81275412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210070050.1A Pending CN114416995A (zh) | 2022-01-20 | 2022-01-20 | 信息推荐方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416995A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383372A (zh) * | 2023-04-14 | 2023-07-04 | 信域科技(沈阳)有限公司 | 基于人工智能的数据分析方法及系统 |
CN116401373A (zh) * | 2023-03-13 | 2023-07-07 | 中国科学院软件研究所 | 一种试题知识点的标注方法、存储介质及设备 |
CN117573891A (zh) * | 2023-12-08 | 2024-02-20 | 广东信聚丰科技股份有限公司 | 基于文本理解模型的知识点生成方法及系统 |
CN117807270A (zh) * | 2024-02-29 | 2024-04-02 | 中国人民解放军国防科技大学 | 基于新闻内容的视频推荐方法、装置、设备和存储介质 |
CN118446856A (zh) * | 2024-07-05 | 2024-08-06 | 广州平云信息科技有限公司 | 基于aigc的数字文化教育资源个性化匹配方法及系统 |
-
2022
- 2022-01-20 CN CN202210070050.1A patent/CN114416995A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401373A (zh) * | 2023-03-13 | 2023-07-07 | 中国科学院软件研究所 | 一种试题知识点的标注方法、存储介质及设备 |
CN116383372A (zh) * | 2023-04-14 | 2023-07-04 | 信域科技(沈阳)有限公司 | 基于人工智能的数据分析方法及系统 |
CN116383372B (zh) * | 2023-04-14 | 2023-11-24 | 北京创益互联科技有限公司 | 基于人工智能的数据分析方法及系统 |
CN117573891A (zh) * | 2023-12-08 | 2024-02-20 | 广东信聚丰科技股份有限公司 | 基于文本理解模型的知识点生成方法及系统 |
CN117573891B (zh) * | 2023-12-08 | 2024-05-10 | 广东信聚丰科技股份有限公司 | 基于文本理解模型的知识点生成方法及系统 |
CN117807270A (zh) * | 2024-02-29 | 2024-04-02 | 中国人民解放军国防科技大学 | 基于新闻内容的视频推荐方法、装置、设备和存储介质 |
CN117807270B (zh) * | 2024-02-29 | 2024-05-07 | 中国人民解放军国防科技大学 | 基于新闻内容的视频推荐方法、装置、设备和存储介质 |
CN118446856A (zh) * | 2024-07-05 | 2024-08-06 | 广州平云信息科技有限公司 | 基于aigc的数字文化教育资源个性化匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
WO2023108993A1 (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
CN114358007A (zh) | 多标签识别方法、装置、电子设备及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN114722069A (zh) | 语言转换方法和装置、电子设备及存储介质 | |
CN112188312B (zh) | 用于确定新闻的视频素材的方法和装置 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN114626097A (zh) | 脱敏方法、脱敏装置、电子设备及存储介质 | |
CN114637847A (zh) | 模型的训练方法、文本分类方法和装置、设备、介质 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN116432648A (zh) | 命名实体识别方法和识别装置、电子设备及存储介质 | |
CN114491076A (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN114579876A (zh) | 虚假信息检测方法、装置、设备及介质 | |
CN113392312A (zh) | 信息处理方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |