CN110728144B - 一种基于上下文语义感知的抽取式文档自动摘要方法 - Google Patents
一种基于上下文语义感知的抽取式文档自动摘要方法 Download PDFInfo
- Publication number
- CN110728144B CN110728144B CN201910946636.8A CN201910946636A CN110728144B CN 110728144 B CN110728144 B CN 110728144B CN 201910946636 A CN201910946636 A CN 201910946636A CN 110728144 B CN110728144 B CN 110728144B
- Authority
- CN
- China
- Prior art keywords
- document
- sentence
- topic
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于上下文语义感知的抽取式文档自动摘要方法,该方法主要解决传统的算法缺乏对于句子在不同的语境中的辨识度的问题。本发明首先用LDA主题模型计算文档中的主题概率分布,进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征,进而计算每一个句子与特征的相似度,然后最后把每一个句子的主题相似度和特征相似度的值相加,得到最终的句子得分,按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型,确定了一种主题摘要方法,能够更加精确的分析其不同语境中的句子含义,也为其他的文档自动摘要方法提供了一种计算参考方法。
Description
技术领域
本发明属于自然语言处理领域,涉及一种基于上下文语义感知的抽取式文档自动摘要方法,是将LDA主题模型与深度学习的方法运用到自动文本摘要中,解决目前文档自动摘要缺乏对于语义信息理解的问题。
背景技术
随着现代互联网技术的持续发展,每天所产生的数据量都是十分爆炸的,如何从海量的数据中提取有效的信息已经成为迫切需求,自动文本摘要正是利用计算机对大量数据内容进行精炼,生成简洁、明了的摘要来代替整个文档内容的一项技术。根据算法类型的不同,主流的技术分为传统的基于词频统计的算法和基于中心性的算法。
其中,传统的基于词频统计的算法主要有TF-IDF和基于词汇链的方法,其本质是利用词语在文档中出现的次数来判断其所在的句子的重要程度,从而生成摘要,但是传统算法存在缺乏词语在不同语境中的辨识度,从而导致摘要的效果不是很理想。基于中心性的算法包括LexRank、TextRank等,该类算法主要是将词或句子作为图的节点,词或句子之间的相似度作为边,利用PageRank对该无向加权图进行递归计算一直到收敛。该类算法计算量比较复杂,运行效率较低,不利于工业大规模推广。
因此,现有技术中亟需一种高速有效,且对传统算法有参考意义的文档自动摘要方法。LDA是一种基于贝叶斯理论的概率生成模型,利用Gibbs抽样的方法将文档转化为“文档-主题-词语”的三层模型来表征潜在的主题信息,CNN卷积神经网络是深度学习里的一种提取特征的算法,基于此,本发明提出一种基于上下文语义感知的抽取式文档自动摘要方法,在更深层次的语义环境中寻找上下文之间的内在联系,从而改善摘要的质量。
发明内容
本发明的目的是:为了解决在文档自动摘要中缺乏对于上下文语义关系的理解,从而导致摘要的结果单一、片面,从而提出一种基于上下文语义感知的抽取式文档自动摘要方法。
本发明首先用LDA主题模型计算文档中的主题概率分布,进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征,进而计算每一个句子与特征的相似度,然后最后把每一个句子的主题相似度和特征相似度的值相加,得到最终的句子得分,按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型,确定了一种主题摘要方法,能够更加精确的分析其不同语境中的句子含义,也为其他的文档自动摘要方法提供了一种计算参考方法。
为了达到上述目的,本发明所采用的技术方案是:一种基于上下文语义感知的抽取式文档自动摘要方法,其特征在于:抽取式文档自动摘要是以句子在文档中的重要程度来打分,本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据,最终形成摘要,所述方法包含如下步骤:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
其中,zi表示经过步骤1预处理后的文档中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0<k≤K,t下标为主题词编号,0<t≤V,表示去除下标为i的词,表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数,表示第k个主题中产生的词t的个数;
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:
步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:
其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:
步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:
其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:
其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:
步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:
步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。
与现有的文档自动摘要方法对比,本发明的有益效果是:
1.本方法利用LDA主题模型深入分析文档的主题关系,得出概率主题分布,为自动摘要提供主题关系分析。
2.本方法可以直接从数据中学习得到的特征,无需人工手工标记。
3.本方法将原始的CNN改进为基于文档细粒度的特征提取方法,同时使用第一级特征与第二级特征来从低级特征到高级特征分析文档的上下文语义信息,并经过多次仿真实验证明了本发明的可用性和有效性,能够有效的改善目前文档摘要中缺乏语义信息的问题。
附图说明
图1是LDA模型的结构图。
图2是本发明的一种基于上下文语义感知的抽取式文档自动摘要方法流程图。
具体实施方式
为了更好地理解本发明,下面结合实例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实例。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样在本申请所列权利要求书限定范围之内。
本发明提出了一种基于上下文语义感知的抽取式文档自动摘要方法,方法主要引入了LDA模型来分析文档的主题概率,LDA模型的图形如图1所示,然后用CNN深度学习神经网络来分析深层次的语义特征,基于上下文语义感知的抽取式文档自动摘要方法如图2所示。
本发明主要是利用LDA主题模型以及深度神经网络来确定文档的语义特征,具体实现步骤细化如下:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
其中,zi表示经过步骤1预处理后的文档中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0<k≤K,t下标为主题词编号,0<t≤V,表示去除下标为i的词,表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数,表示第k个主题中产生的词t的个数;
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:
步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:
其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:
步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:
其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:
其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:
步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:
步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。
实施例
步骤1:选定两篇短文档:
“9月6日,在德国柏林的IFA2019大会上,华为正式发布麒麟990 5G芯片。相较而言,麒麟990芯片的主要竞争对手中,骁龙865尚未发布,表现如何有待观察。”
“5G芯片是全球首款旗舰5G SoC,也是业内最小的5G手机芯片方案。对于广大用户来说,最直观表现是速度更快、影像更美,但更重要的是,它的AI强劲算力将为更多生活场景赋予智慧,相信在今年这个5G商用元年会给大家带来最佳的应用体验。”
文档1:德国,柏林,IFA2019,大会,华为,正式,发布,麒麟,990,5G,芯片,相,而言,麒麟,990,芯片,主要,竞争对手,骁龙,865,尚未,发布,表现,有待,观察。
文档2:5G,芯片,全球,首款,旗舰,5G,SoC,业内,最小,5G,手机芯片,方案,对于,用户,直观,表现,速度,快,影像,更美,AI,强劲,算力,更多,生活,场景,赋予,智慧,5G,商用,元年,带来,最佳,体验。
表1文档分句
文档1 | 文档2 | |
句子1 | 9月6日 | 5G芯片是全球首款旗舰5G SoC |
句子2 | 在德国柏林的IFA2019大会上 | 也是业内最小的5G手机芯片方案 |
句子3 | 华为正式发布麒麟990 5G芯片 | 对于广大用户来说 |
句子4 | 相较而言 | 最直观表现是速度更快、影像更美 |
句子5 | 麒麟990芯片的主要竞争对手中 | 但更重要的是 |
句子6 | 骁龙865尚未发布 | 它的AI强劲算力将为更多生活场景赋予智慧 |
句子7 | 表现如何有待观察 | 相信在今年这个5G商用元年会给大家带来最佳的应用体验 |
表2文档主题概率
主题词1 | 概率 | 主题词2 | 概率 | 主题词3 | 概率 | |
主题1 | 芯片 | 0.042 | 990 | 0.042 | 发布 | 0.042 |
主题2 | 5G | 0.060 | 表现 | 0.020 | 更美 | 0.020 |
步骤3:将步骤1中得到的主题与分句后的每一个句子根据Bert模型分别转化为1*768维的向量,根据公式2计算文档中的每一个句子的向量与主题的向量的相似度得到的结果如下:
表3句子与主题的相似度
句子1 | 句子2 | 句子3 | 句子4 | 句子5 | 句子6 | 句子7 | |
文档1 | 291.845 | 297.524 | 309.248 | 263.979 | 300.797 | 295.856 | 290.251 |
文档2 | 277.260 | 284.996 | 309.098 | 289.204 | 293.365 | 303.775 | 295.590 |
步骤4:根据公式3和预训练好的CNN模型对文本句子进行第一级和第二级卷积池化提取其语义特征,最终得到一个1*768维的包含上下文语义的特征向量,并对步骤2中所得到的初始文档中的每个句子向量和特征向量根据步骤3中的公式2作相似度比较,得到的结果如下:
表4句子与CNN特征相似度
句子1 | 句子2 | 句子3 | 句子4 | 句子5 | 句子6 | 句子7 | |
文档1 | 712.944 | 706.102 | 704.971 | 708.670 | 709.249 | 707.448 | 707.472 |
文档2 | 707.837 | 702.316 | 710.876 | 704.087 | 701.015 | 712.373 | 697.708 |
步骤5:根据步骤3中所得到的句子与主题相似度和步骤4中所得到的基于上下文语义的文本特征相似度的得分值根据步骤5.2中的公式(6)得到最终的初始文档中每个句子的得分:
表5最终句子得分值
内容 | 得分值 | |
句子1 | 9月6日 | 1004.78 |
句子2 | 在德国柏林的IFA2019大会上 | 1003.626 |
句子3 | 华为正式发布麒麟990 5G芯片 | 1014.2199 |
句子4 | 相较而言 | 972.649 |
句子5 | 麒麟990芯片的主要竞争对手中 | 1010.046 |
句子6 | 骁龙865尚未发布 | 1003.304 |
句子7 | 表现如何有待观察 | 997.723 |
句子8 | 5G芯片是全球首款旗舰5G SoC | 985.097 |
句子9 | 也是业内最小的5G手机芯片方案 | 987.312 |
句子10 | 对于广大用户来说 | 1019.974 |
句子11 | 最直观表现是速度更快、影像更美 | 993.219 |
句子12 | 但更重要的是 | 994.38 |
句子13 | 它的AI强劲算力将为更多生活场景赋予智慧 | 1016.148 |
句子14 | 相信在今年这个5G商用元年会给大家带来最佳的应用体验 | 993.298 |
根据初始文档的长度,选取3个句子作为摘要,则最终的摘要结果如下所示:
“华为正式发布麒麟990 5G芯片,对于广大用户来说,它的AI强劲算力将为更多生活场景赋予智慧。”
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
Claims (1)
1.一种基于上下文语义感知的抽取式文档自动摘要方法,其特征在于:抽取式文档自动摘要是以句子在文档中的重要程度来打分,本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据,最终形成摘要,所述方法包含如下步骤:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
其中,zi表示经过步骤1预处理后的文档中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0<k≤K,t下标为主题词编号,0<t≤V,表示去除下标为i的词,表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数,表示第k个主题中产生的词t的个数;
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:
步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:
其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:
步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:
其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:
其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:
步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:
步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910946636.8A CN110728144B (zh) | 2019-10-06 | 2019-10-06 | 一种基于上下文语义感知的抽取式文档自动摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910946636.8A CN110728144B (zh) | 2019-10-06 | 2019-10-06 | 一种基于上下文语义感知的抽取式文档自动摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728144A CN110728144A (zh) | 2020-01-24 |
CN110728144B true CN110728144B (zh) | 2023-04-07 |
Family
ID=69220722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910946636.8A Active CN110728144B (zh) | 2019-10-06 | 2019-10-06 | 一种基于上下文语义感知的抽取式文档自动摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728144B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339287B (zh) * | 2020-02-24 | 2023-04-21 | 成都网安科技发展有限公司 | 摘要生成方法及装置 |
CN111488931B (zh) * | 2020-04-10 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN112989825B (zh) * | 2021-05-13 | 2021-08-03 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN114064885B (zh) * | 2021-11-25 | 2024-05-31 | 北京航空航天大学 | 一种无监督中文多文档抽取式摘要方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN108009149A (zh) * | 2017-11-23 | 2018-05-08 | 东软集团股份有限公司 | 一种关键词提取方法、提取装置、介质和电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158850A1 (en) * | 2010-12-21 | 2012-06-21 | Harrison Edward R | Method and apparatus for automatically creating an experiential narrative |
-
2019
- 2019-10-06 CN CN201910946636.8A patent/CN110728144B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN108009149A (zh) * | 2017-11-23 | 2018-05-08 | 东软集团股份有限公司 | 一种关键词提取方法、提取装置、介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110728144A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197111B (zh) | 一种基于融合语义聚类的文本自动摘要方法 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
JP6721179B2 (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN108710611B (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN103955453B (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN113849598B (zh) | 基于深度学习的社交媒体虚假信息检测方法及检测系统 | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN112052687A (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
CN111061873B (zh) | 一种基于Attention机制的多通道的文本分类方法 | |
CN113688621B (zh) | 一种长短不一的文本在不同粒度下的文本匹配方法及装置 | |
CN114265943A (zh) | 一种因果关系事件对提取方法及系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |