CN109376309A - 基于语义标签的文档推荐方法和装置 - Google Patents
基于语义标签的文档推荐方法和装置 Download PDFInfo
- Publication number
- CN109376309A CN109376309A CN201811621674.8A CN201811621674A CN109376309A CN 109376309 A CN109376309 A CN 109376309A CN 201811621674 A CN201811621674 A CN 201811621674A CN 109376309 A CN109376309 A CN 109376309A
- Authority
- CN
- China
- Prior art keywords
- document
- candidate
- semantic
- tag
- set corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010606 normalization Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000000704 physical effect Effects 0.000 claims 2
- 238000000605 extraction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 244000062793 Sorghum vulgare Species 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 235000019713 millet Nutrition 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 235000013527 bean curd Nutrition 0.000 description 5
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于语义标签的文档推荐方法和装置,其中,方法包括:通过获取每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行处理得到每一个文档对应的第二候选标签集合,接着对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,并对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,形成具有语义标签的文档库,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。
Description
技术领域
本申请涉及推荐技术领域,尤其涉及一种基于语义标签的文档推荐方法和装置。
背景技术
随着互联网技术的不断发展,信息流服务已经逐步取代传统媒体成为用户获取信息的重要手段,但是,信息流承载着太多的信息,容易造成用户信息量过载,无法及时获取用户感兴趣的信息。
相关技术中,基于内容关注点的个性化推荐技术能够实现信息的精准推送,然而,上述方式中的标签并不是语义级别的,存在比较严重的歧义问题,导致推荐精度低等问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种基于语义标签的文档推荐方法和装置,用于解决现有技术中标签并不是语义级别的,存在比较严重的歧义,导致推荐精度低的技术问题。
为达上述目的,本申请第一方面实施例提出了一种基于语义标签的文档推荐方法,包括:
通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;
对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;
通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;
通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;
通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;
获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。
本申请实施例的基于语义标签的文档推荐方法,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。
为达上述目的,本申请第二方面实施例提出了一种基于语义标签的文档推荐装置,包括:
匹配模块,用于通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;
第一扩展模块,用于对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;
归一处理模块,用于通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;
第二扩展模块,用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;
第一处理模块,用于通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;
推荐模块,用于获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。
本申请实施例的基于语义标签的文档推荐装置,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的基于语义标签的文档推荐方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的基于语义标签的文档推荐方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的基于语义标签的文档推荐方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种基于语义标签的文档推荐方法的流程示意图;
图2为本申请实施例的标签归一处理的示例图;
图3为本申请实施例的标签消歧处理的示例图;
图4为本申请实施例的建立语义匹配模型的示例图;
图5为本申请实施例所提供的一种基于语义标签的文档推荐装置的结构示意图;
图6为本申请实施例所提供的另一种基于语义标签的文档推荐装置的结构示意图;
图7为本申请实施例所提供的又一种基于语义标签的文档推荐装置的结构示意图;
图8为本申请实施例所提供的再一种基于语义标签的文档推荐装置的结构示意图;以及
图9为本申请实施例所提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于语义标签的文档推荐方法和装置。
基于上述背景技术的描述,可以了解到基于关注点的文档推荐方法中的标签并不是语义级别的,存在比较严重的歧义问题,导致推荐精度低等问题,比如一篇讲“小米手机”的文章,打上了标签“小米”,一篇讲“小米”食物的文章,也打上了标签“小米”,“小米”这个标签本身不是语义标签,依靠这个标签给看过小米手机的人推荐小米食物的文章显然会造成用户体验不佳的问题;再比如一篇标签是“C罗”的文章和一篇标签是“克里斯蒂亚诺·罗纳尔多”的文章,其实是一个人,但由于标签不同造成两篇文章不能被同时推荐,使得推荐精度低。
因此,本申请实施例提出一种基于语义标签的文档推荐方法,其语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验,比如将上述标签更改为小米_食物,小米_手机品牌;将“C罗”这个标签归一化成“克里斯蒂亚诺·罗纳尔多”这个统一的标签。具体描述如下:
图1为本申请实施例所提供的一种基于语义标签的文档推荐方法的流程示意图。
如图1所示,该基于语义标签的文档推荐方法可以包括以下步骤:
步骤101,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合。
具体地,需要对多个文档进行语义标签计算,对多个文档打上语义标签,并基于语义标签进行文档推荐。
首先,首先使用预设关注点集合对需要被打上语义标签的每一个文档做全匹配和模糊匹配得到每一个文档对应的第一候选标签集合。
其中,需要预先获取关注点集合,作为一种可能实现方式,获取多个搜索语句,通过对多个搜索语句进行过滤处理,得到的事件、话题或者是实体性质的搜索语句作为预设关注点集合。
具体地,在搜索引擎中的搜索语句种类丰富,可以对其进行黄反过滤以及问句句型过滤之后,留下的具有事件、话题或者实体性质的搜索语句作为关注点集合全集。也就是说多个搜索语句中有很多黄反内容,不利于传播正能量的,可以直接过滤掉;然后有一些问句形式,譬如:为什么1+1=2,问句不是事实、话题、实体类的关注点,也可以过滤掉等等。
举例而言,预设关注点集合有“豆腐、豆腐的做法、西红柿…”,那么对“豆腐加入这两样,鲜美入味还补钙,营养丰富易吸收,孩子要常吃”这篇文档进行全匹配和模糊匹配后,就可以得到的第一候选标签集合为:豆腐、豆腐的做法。
步骤102,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合。
具体地,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理,比如对出现在同一篇文章中的关注点进行相互预测,对每个第一候选标签做扩展和泛化,可以得到比较广泛的、有较强相关性但是在文章中没有明显出现的标签(譬如“延禧攻略”经过扩展后可以得到“宫廷剧”),融合后得到每一个文档对应的第二候选标签集合。
步骤103,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合。
其中,预先生成归一词典,作为一种可能实现方式,获取任意两个搜索语句对应的搜索结果的相似度,将相似度大于预设相似阈值的两个搜索语句作为候选归一语句,根据多个候选归一语句生成预设归一词典。
具体地,可以利用搜索引擎的用户的搜索语句(query)以及用户在搜索语句对应的搜索结果中选定的结果列表,以构建预设归一词典。比如图2所示,对于S201搜索语句集合中两个搜索语句(query):query1和query2,S202如果各自得到的文章列表之间的相似度比较高(其中,相似度可以采用结果列表中词的tf-idf(term frequency–inversedocument frequency,信息检索数据挖掘的常用加权技术)构建向量或者word2vec(一群用来产生词向量的相关模型)词向量计算余弦距离等),S203根据相似度与预设相似阈值的比较确定两个query其实指的是一个人事物,则进行归一处理。比如:搜索语句“英超”、“英格兰超级联赛”和“英超联赛”,得到的文章内容相似度比较高,可以认为是候选归一项,接着S204再经过人工校验后得到预设归一词典。
步骤104,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合。
具体地,使用预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展,这个过程并非是消歧过程,而是将所有可能的语义标签进行罗列,得到每一个文档对应的第四候选标签集合。比如:第三候选标签里有“李娜”这个标签,如果“李娜”这个标签对应了10个语义标签(李娜_中国女子网球名将,李娜_青岛籍女演员等等),会将所有的10个语义标签加入文档对应的第四候选标签集合中。
作为一种可能实现方式,在候选义项列表中查询与每一个文档对应的第三候选标签集合中的每个第三候选标签对应的义项,计算每一个文档分别与对应的义项的相似度,根据相似度大小选取目标义项对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。
作为一种示例,利用百度百科的多义词条义项可以挖掘到待消歧的候选义项列表。比如:李娜的义项有李娜_中国女子网球名将,李娜_青岛籍女演员等等,每个消歧后的义项的解释页面有相关背景、参考资料、标签以及部分网文说明等等,利用这些内容可以给对应的义项构建显示特征词向量。比如:李娜_中国女子网球名将的显示特征词向量为:网球:0.8,比赛:0.5,运动:0.3等;李娜_青岛籍女演员的显示特征词向量为:主持:0.6,艺术:0.3,演员:0.2等。利用这些特征向量可以对一个打上“李娜”的文章进行相似度计算,得到真实的标签,具体如图3所示。
步骤105,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库。
其中,预先建立匹配模型,作为一种可能实现方式,获取训练文本对应的语义标签,通过深度神经网络对训练文本和语义标签进行训练建立语义匹配模型。
具体地,主要通过训练好的语义匹配模型,对每一个文档对应的第四候选标签集合中的每个第四候选标签进行计算每个第四候选标签和文档的匹配程度,并按照得分进行排序,选取高置信的答案作为文档的语义标签。
具体地,建立语义匹配模型的问题,正样本是训练文本对应的语义标签,负样本随机负采样标签样本。可以使用深度神经网络(DNN)来对训练文本的语义和语义标签的语义进行建模,将两者分别表示成语义向量,并整体优化余弦相似度,建立语义匹配模型流程如图4所示,将训练文本doc和语义标签分别输入深度神经网络DNN进行建模,并整体优化Cosine loss余弦相似度。
由此,给每一个文档都打上对应的语义标签形成了具有语义标签的文档库。
步骤106,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。
具体地,用户历史行为信息可以是用户的点击、搜索等操作行为信息,通过对用户历史行为信息进行分析可以获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中进行匹配,获取对应的目标文档推荐给用户。
本实施例的基于语义标签的文档推荐方法,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。
为了实现上述实施例,本申请还提出一种基于语义标签的文档推荐装置。
图5为本申请实施例所提供的一种基于语义标签的文档推荐装置的结构示意图。
如图5所示,该基于语义标签的文档推荐装置50可以包括:匹配模块501、第一扩展模块502、归一处理模块503、第二扩展模块504、第一处理模块505和推荐模块506。其中,
匹配模块501,用于通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合。
第一扩展模块502,用于对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合。
归一处理模块503,用于通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合。
第二扩展模块504,用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合。
第一处理模块505,用于通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库。
推荐模块506,用于获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。
在本申请实施例一种可能的实现方式中,如图6所示,在如图5所示实施例的基础上,该基于语义标签的文档推荐装置50还包括:第一获取模块507和过滤模块508。
第一获取模块507,用于获取多个搜索语句。
过滤模块508,用于通过对多个搜索语句进行过滤处理,得到的事件、话题或者是实体性质的搜索语句作为预设关注点集合。
在本申请实施例一种可能的实现方式中,如图7所示,在如图5所示实施例的基础上,该基于语义标签的文档推荐装置50还包括:第二获取模块509、第二处理模块510和生成模块511。
第二获取模块509,用于获取任意两个搜索语句对应的搜索结果的相似度。
第二处理模块510,用于将相似度大于预设相似阈值的两个搜索语句作为候选归一语句。
生成模块511,用于根据多个候选归一语句生成预设归一词典。
在本申请实施例一种可能的实现方式中,在本申请实施例一种可能的实现方式中,第二扩展模块504,具体用于:在候选义项列表中查询与每一个文档对应的第三候选标签集合中的每个第三候选标签对应的义项,计算每一个文档分别与对应的义项的相似度,根据相似度大小选取目标义项对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。
在本申请实施例一种可能的实现方式中,在本申请实施例一种可能的实现方式中,如图8所示,在如图5所示实施例的基础上,该基于语义标签的文档推荐装置50还包括:第三获取模块512和建立模块513。
其中,第三获取模块512,用于获取训练文本对应的语义标签。
建立模块513,用于通过深度神经网络对训练文本和语义标签进行训练建立语义匹配模型。
需要说明的是,前述对基于语义标签的文档推荐方法实施例的解释说明也适用于该实施例的基于语义标签的文档推荐装置,其实现原理类似,此处不再赘述。
本申请实施例的基于语义标签的文档推荐装置,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。
通过为了实现上述实施例,本申请还提出一种计算机设备,包括:处理器和存储器。其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的基于语义标签的文档推荐方法。
图9为本申请实施例所提供的计算机设备的结构示意图,示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图9显示的计算机设备90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元906,系统存储器910,连接不同系统组件(包括系统存储器910和处理单元906)的总线908。
总线908表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统913可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
具有一组(至少一个)程序模块9140的程序/实用工具914,可以存储在例如系统存储器910中,这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该终端设备90交互的设备通信,和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且,计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白,尽管图9中未示出,可以结合计算机设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元906通过运行存储在系统存储器910中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的基于语义标签的文档推荐方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述实施例所述的基于语义标签的文档推荐方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述实施例所述的基于语义标签的文档推荐方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于语义标签的文档推荐方法,其特征在于,包括以下步骤:
通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;
对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;
通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;
通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;
通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;
获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。
2.如权利要求1所述的方法,其特征在于,在所述通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合之前,还包括:
获取多个搜索语句;
通过对所述多个搜索语句进行过滤处理,得到的事件、话题或者是实体性质的搜索语句作为所述预设关注点集合。
3.如权利要求1所述的方法,其特征在于,在所述通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合之前,还包括:
获取任意两个搜索语句对应的搜索结果的相似度;
将相似度大于预设相似阈值的两个搜索语句作为候选归一语句;
根据多个所述候选归一语句生成所述预设归一词典。
4.如权利要求1所述的方法,其特征在于,通过预设消歧词典对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,包括:
在候选义项列表中查询与每一个文档对应的所述第三候选标签集合中的每个第三候选标签对应的义项;
计算每一个文档分别与对应的义项的相似度;
根据相似度大小选取目标义项对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。
5.如权利要求1所述的方法,其特征在于,还包括:
获取训练文本对应的语义标签;
通过深度神经网络对所述训练文本和所述语义标签进行训练建立所述语义匹配模型。
6.一种基于语义标签的文档推荐装置,其特征在于,包括:
匹配模块,用于通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;
第一扩展模块,用于对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;
归一处理模块,用于通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;
第二扩展模块,用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;
第一处理模块,用于通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;
推荐模块,用于获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。
7.根据权利要求6所述的装置,其特征在于,还包括:
第一获取模块,用于获取多个搜索语句;
过滤模块,用于通过对所述多个搜索语句进行过滤处理,得到的事件、话题或者是实体性质的搜索语句作为所述预设关注点集合。
8.根据权利要求6所述的装置,其特征在于,所述提取模块,具体用于:
第二获取模块,用于获取任意两个搜索语句对应的搜索结果的相似度;
第二处理模块,用于将相似度大于预设相似阈值的两个搜索语句作为候选归一语句;
生成模块,用于根据多个所述候选归一语句生成所述预设归一词典。
9.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的基于语义标签的文档推荐方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的基于语义标签的文档推荐方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811621674.8A CN109376309B (zh) | 2018-12-28 | 2018-12-28 | 基于语义标签的文档推荐方法和装置 |
US16/705,749 US11216504B2 (en) | 2018-12-28 | 2019-12-06 | Document recommendation method and device based on semantic tag |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811621674.8A CN109376309B (zh) | 2018-12-28 | 2018-12-28 | 基于语义标签的文档推荐方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109376309A true CN109376309A (zh) | 2019-02-22 |
CN109376309B CN109376309B (zh) | 2022-05-17 |
Family
ID=65372143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811621674.8A Active CN109376309B (zh) | 2018-12-28 | 2018-12-28 | 基于语义标签的文档推荐方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11216504B2 (zh) |
CN (1) | CN109376309B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059249A (zh) * | 2019-04-03 | 2019-07-26 | 华为技术有限公司 | 个性化推荐的方法、终端设备和系统 |
CN111709247A (zh) * | 2020-05-20 | 2020-09-25 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN111767439A (zh) * | 2020-06-28 | 2020-10-13 | 百度在线网络技术(北京)有限公司 | 基于页面分类标签的推荐方法、设备和介质 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112925902A (zh) * | 2021-02-22 | 2021-06-08 | 新智认知数据服务有限公司 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
CN113505192A (zh) * | 2021-05-25 | 2021-10-15 | 平安银行股份有限公司 | 数据标签库构建方法、装置、电子设备及计算机存储介质 |
CN113822347A (zh) * | 2020-09-11 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 用于自动生成知识驱动的内容规划的系统和方法 |
CN114138755A (zh) * | 2022-02-07 | 2022-03-04 | 中国建筑第五工程局有限公司 | 一种基于人工智能的针对供方协同的物料档案检索方法 |
CN115293158A (zh) * | 2022-06-30 | 2022-11-04 | 撼地数智(重庆)科技有限公司 | 基于标签辅助的消歧方法及装置 |
CN115687579A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
CN115795023A (zh) * | 2022-11-22 | 2023-03-14 | 百度时代网络技术(北京)有限公司 | 文档推荐方法、装置、设备以及存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986765B (zh) * | 2020-09-03 | 2023-11-21 | 深圳平安智慧医健科技有限公司 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
CN112528146B (zh) * | 2020-12-09 | 2022-05-27 | 北京百度网讯科技有限公司 | 内容资源推荐方法、装置、电子设备及存储介质 |
CN112528644B (zh) * | 2020-12-24 | 2024-04-12 | 北京百度网讯科技有限公司 | 实体挂载的方法、装置、设备以及存储介质 |
CN113806558B (zh) * | 2021-09-22 | 2024-03-26 | 湖北天天数链技术有限公司 | 问题选择方法、知识图谱构建方法、装置及电子设备 |
CN113836413A (zh) * | 2021-09-24 | 2021-12-24 | 北京爱奇艺科技有限公司 | 一种推荐信息确定方法、装置、电子设备及存储介质 |
CN114036397B (zh) * | 2021-11-26 | 2023-08-01 | 北京百度网讯科技有限公司 | 数据推荐方法、装置、电子设备和介质 |
CN114637411A (zh) * | 2022-04-07 | 2022-06-17 | 科大讯飞股份有限公司 | 一种整句联想方法、装置、设备及存储介质 |
CN115470198B (zh) * | 2022-08-11 | 2023-09-22 | 北京百度网讯科技有限公司 | 数据库的信息处理方法、装置、电子设备及存储介质 |
CN115757799B (zh) * | 2022-12-02 | 2023-10-24 | 北京国联视讯信息技术股份有限公司 | 基于人工智能的数据存储方法、系统及云平台 |
CN116010588B (zh) * | 2023-03-28 | 2023-08-18 | 北京创新乐知网络技术有限公司 | 实时与离线结合的文档推荐方法、装置、设备及介质 |
CN117708340B (zh) * | 2024-02-06 | 2024-05-24 | 阿里健康科技(杭州)有限公司 | 标签文本的确定方法、模型训练及调整方法、设备和介质 |
CN118313837B (zh) * | 2024-06-07 | 2024-08-20 | 青岛云创智通科技有限公司 | 一种基于大数据的客户关系管理系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199838A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于标签消歧的用户模型建构方法 |
US8943070B2 (en) * | 2010-07-16 | 2015-01-27 | International Business Machines Corporation | Adaptive and personalized tag recommendation |
CN104615783A (zh) * | 2015-03-02 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和装置 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN106354860A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 基于标签集的信息资源自动贴标签并自动推送的方法 |
CN106776881A (zh) * | 2016-11-28 | 2017-05-31 | 中国科学院软件研究所 | 一种基于微博平台的领域信息推荐系统及方法 |
CN107122399A (zh) * | 2017-03-16 | 2017-09-01 | 中国科学院自动化研究所 | 基于公共文化知识图谱平台的综合推荐系统 |
CN107330023A (zh) * | 2017-06-21 | 2017-11-07 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN108829819A (zh) * | 2018-06-12 | 2018-11-16 | 上海智臻智能网络科技股份有限公司 | 个性化文本推荐方法及系统、服务器、可读存储介质 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN108897871A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、设备及计算机可读介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009059297A1 (en) * | 2007-11-01 | 2009-05-07 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US8805774B2 (en) * | 2008-02-19 | 2014-08-12 | International Business Machines Corporation | Method and system for role based situation aware software |
US9710437B2 (en) * | 2014-07-10 | 2017-07-18 | International Business Machines Corporation | Group tagging of documents |
US10146862B2 (en) * | 2014-08-04 | 2018-12-04 | Regents Of The University Of Minnesota | Context-based metadata generation and automatic annotation of electronic media in a computer network |
US11663254B2 (en) * | 2016-01-29 | 2023-05-30 | Thomson Reuters Enterprise Centre Gmbh | System and engine for seeded clustering of news events |
US20180300315A1 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
-
2018
- 2018-12-28 CN CN201811621674.8A patent/CN109376309B/zh active Active
-
2019
- 2019-12-06 US US16/705,749 patent/US11216504B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8943070B2 (en) * | 2010-07-16 | 2015-01-27 | International Business Machines Corporation | Adaptive and personalized tag recommendation |
CN104199838A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于标签消歧的用户模型建构方法 |
CN104615783A (zh) * | 2015-03-02 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和装置 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN106354860A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 基于标签集的信息资源自动贴标签并自动推送的方法 |
CN106776881A (zh) * | 2016-11-28 | 2017-05-31 | 中国科学院软件研究所 | 一种基于微博平台的领域信息推荐系统及方法 |
CN107122399A (zh) * | 2017-03-16 | 2017-09-01 | 中国科学院自动化研究所 | 基于公共文化知识图谱平台的综合推荐系统 |
CN107330023A (zh) * | 2017-06-21 | 2017-11-07 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN108829819A (zh) * | 2018-06-12 | 2018-11-16 | 上海智臻智能网络科技股份有限公司 | 个性化文本推荐方法及系统、服务器、可读存储介质 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN108897871A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、设备及计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
陈俊鹏: "《词义消歧中若干关键技术研究》", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020200199A1 (zh) * | 2019-04-03 | 2020-10-08 | 华为技术有限公司 | 个性化推荐的方法、终端设备和系统 |
CN110059249A (zh) * | 2019-04-03 | 2019-07-26 | 华为技术有限公司 | 个性化推荐的方法、终端设备和系统 |
US11843651B2 (en) | 2019-04-03 | 2023-12-12 | Huawei Technologies Co., Ltd. | Personalized recommendation method and system, and terminal device |
CN111709247B (zh) * | 2020-05-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN111709247A (zh) * | 2020-05-20 | 2020-09-25 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN111767439A (zh) * | 2020-06-28 | 2020-10-13 | 百度在线网络技术(北京)有限公司 | 基于页面分类标签的推荐方法、设备和介质 |
CN111767439B (zh) * | 2020-06-28 | 2023-12-15 | 百度在线网络技术(北京)有限公司 | 基于页面分类标签的推荐方法、设备和介质 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN111967262B (zh) * | 2020-06-30 | 2024-01-12 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN113822347A (zh) * | 2020-09-11 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 用于自动生成知识驱动的内容规划的系统和方法 |
CN112925902A (zh) * | 2021-02-22 | 2021-06-08 | 新智认知数据服务有限公司 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
CN112925902B (zh) * | 2021-02-22 | 2024-01-30 | 新智认知数据服务有限公司 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
CN113505192A (zh) * | 2021-05-25 | 2021-10-15 | 平安银行股份有限公司 | 数据标签库构建方法、装置、电子设备及计算机存储介质 |
CN114138755B (zh) * | 2022-02-07 | 2022-04-08 | 中国建筑第五工程局有限公司 | 一种基于人工智能的针对供方协同的物料档案检索方法 |
CN114138755A (zh) * | 2022-02-07 | 2022-03-04 | 中国建筑第五工程局有限公司 | 一种基于人工智能的针对供方协同的物料档案检索方法 |
CN115293158A (zh) * | 2022-06-30 | 2022-11-04 | 撼地数智(重庆)科技有限公司 | 基于标签辅助的消歧方法及装置 |
CN115293158B (zh) * | 2022-06-30 | 2024-02-02 | 撼地数智(重庆)科技有限公司 | 基于标签辅助的消歧方法及装置 |
CN115687579A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
CN115795023A (zh) * | 2022-11-22 | 2023-03-14 | 百度时代网络技术(北京)有限公司 | 文档推荐方法、装置、设备以及存储介质 |
CN115795023B (zh) * | 2022-11-22 | 2024-01-05 | 百度时代网络技术(北京)有限公司 | 文档推荐方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109376309B (zh) | 2022-05-17 |
US11216504B2 (en) | 2022-01-04 |
US20200210468A1 (en) | 2020-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376309B (zh) | 基于语义标签的文档推荐方法和装置 | |
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN108280061B (zh) | 基于歧义实体词的文本处理方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US10025819B2 (en) | Generating a query statement based on unstructured input | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
US10592571B1 (en) | Query modification based on non-textual resource context | |
CA3009758A1 (en) | Systems and methods for suggesting emoji | |
Chen et al. | Tracking and recognizing emotions in short text messages from online chatting services | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
US20130198192A1 (en) | Author disambiguation | |
CN109948121A (zh) | 文章相似度挖掘方法、系统、设备及存储介质 | |
CN107066589B (zh) | 一种基于综合知识的实体语义和词频的排序方法及装置 | |
CN111475603A (zh) | 企业标识识别方法、装置、计算机设备及存储介质 | |
EP3138051A1 (en) | Learning multimedia semantics from large-scale unstructured data | |
CN111539193A (zh) | 基于本体的文档分析和注释生成 | |
CN105975639B (zh) | 搜索结果排序方法和装置 | |
US20200394185A1 (en) | Intelligent knowledge-learning and question-answering | |
WO2021007159A1 (en) | Identifying entity attribute relations | |
US20200159765A1 (en) | Performing image search using content labels | |
CN104199898A (zh) | 一种属性信息的获取方法及装置、推送方法及装置 | |
CN103235773B (zh) | 基于关键词的文本的标签提取方法及装置 | |
JP2017021796A (ja) | 学習素材のセグメントのランク付け | |
Liang et al. | Probase+: Inferring missing links in conceptual taxonomies | |
KR101955920B1 (ko) | 속성 언어를 이용한 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |