Nothing Special   »   [go: up one dir, main page]

CN110728144B - 一种基于上下文语义感知的抽取式文档自动摘要方法 - Google Patents

一种基于上下文语义感知的抽取式文档自动摘要方法 Download PDF

Info

Publication number
CN110728144B
CN110728144B CN201910946636.8A CN201910946636A CN110728144B CN 110728144 B CN110728144 B CN 110728144B CN 201910946636 A CN201910946636 A CN 201910946636A CN 110728144 B CN110728144 B CN 110728144B
Authority
CN
China
Prior art keywords
document
sentence
topic
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910946636.8A
Other languages
English (en)
Other versions
CN110728144A (zh
Inventor
熊才权
沈力
王壮
周磊
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201910946636.8A priority Critical patent/CN110728144B/zh
Publication of CN110728144A publication Critical patent/CN110728144A/zh
Application granted granted Critical
Publication of CN110728144B publication Critical patent/CN110728144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于上下文语义感知的抽取式文档自动摘要方法,该方法主要解决传统的算法缺乏对于句子在不同的语境中的辨识度的问题。本发明首先用LDA主题模型计算文档中的主题概率分布,进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征,进而计算每一个句子与特征的相似度,然后最后把每一个句子的主题相似度和特征相似度的值相加,得到最终的句子得分,按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型,确定了一种主题摘要方法,能够更加精确的分析其不同语境中的句子含义,也为其他的文档自动摘要方法提供了一种计算参考方法。

Description

一种基于上下文语义感知的抽取式文档自动摘要方法
技术领域
本发明属于自然语言处理领域,涉及一种基于上下文语义感知的抽取式文档自动摘要方法,是将LDA主题模型与深度学习的方法运用到自动文本摘要中,解决目前文档自动摘要缺乏对于语义信息理解的问题。
背景技术
随着现代互联网技术的持续发展,每天所产生的数据量都是十分爆炸的,如何从海量的数据中提取有效的信息已经成为迫切需求,自动文本摘要正是利用计算机对大量数据内容进行精炼,生成简洁、明了的摘要来代替整个文档内容的一项技术。根据算法类型的不同,主流的技术分为传统的基于词频统计的算法和基于中心性的算法。
其中,传统的基于词频统计的算法主要有TF-IDF和基于词汇链的方法,其本质是利用词语在文档中出现的次数来判断其所在的句子的重要程度,从而生成摘要,但是传统算法存在缺乏词语在不同语境中的辨识度,从而导致摘要的效果不是很理想。基于中心性的算法包括LexRank、TextRank等,该类算法主要是将词或句子作为图的节点,词或句子之间的相似度作为边,利用PageRank对该无向加权图进行递归计算一直到收敛。该类算法计算量比较复杂,运行效率较低,不利于工业大规模推广。
因此,现有技术中亟需一种高速有效,且对传统算法有参考意义的文档自动摘要方法。LDA是一种基于贝叶斯理论的概率生成模型,利用Gibbs抽样的方法将文档转化为“文档-主题-词语”的三层模型来表征潜在的主题信息,CNN卷积神经网络是深度学习里的一种提取特征的算法,基于此,本发明提出一种基于上下文语义感知的抽取式文档自动摘要方法,在更深层次的语义环境中寻找上下文之间的内在联系,从而改善摘要的质量。
发明内容
本发明的目的是:为了解决在文档自动摘要中缺乏对于上下文语义关系的理解,从而导致摘要的结果单一、片面,从而提出一种基于上下文语义感知的抽取式文档自动摘要方法。
本发明首先用LDA主题模型计算文档中的主题概率分布,进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征,进而计算每一个句子与特征的相似度,然后最后把每一个句子的主题相似度和特征相似度的值相加,得到最终的句子得分,按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型,确定了一种主题摘要方法,能够更加精确的分析其不同语境中的句子含义,也为其他的文档自动摘要方法提供了一种计算参考方法。
为了达到上述目的,本发明所采用的技术方案是:一种基于上下文语义感知的抽取式文档自动摘要方法,其特征在于:抽取式文档自动摘要是以句子在文档中的重要程度来打分,本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据,最终形成摘要,所述方法包含如下步骤:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
步骤1.4:指定超参数向量
Figure BDA0002224352990000021
的值,其中
Figure BDA0002224352990000022
的值为
Figure BDA0002224352990000023
范围中的随机值、
Figure BDA0002224352990000024
的值为
Figure BDA0002224352990000025
中的随机值,
Figure BDA0002224352990000026
为K维向量,
Figure BDA0002224352990000027
为V维向量;
步骤2:根据步骤1.2中得到的预处理后的文档和步骤1.3中得到的主题数K、词数V以及步骤1.4中得到的超参数
Figure BDA0002224352990000028
带入公式(1),得到初始文档主题以及其概率分布:
Figure BDA0002224352990000031
其中,zi表示经过步骤1预处理后的文档
Figure BDA0002224352990000032
中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0<k≤K,t下标为主题词编号,0<t≤V,
Figure BDA0002224352990000033
表示去除下标为i的词,
Figure BDA0002224352990000034
表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数,
Figure BDA0002224352990000035
表示第k个主题中产生的词t的个数;
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:
步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:
Figure BDA0002224352990000036
其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:
步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:
Figure BDA0002224352990000041
其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:
Figure BDA0002224352990000042
其中,xi,xn为Cons,Conw中的每个神经元,
Figure BDA0002224352990000043
为得到卷积的第一级特征;
步骤4.3:对
Figure BDA0002224352990000044
重复步骤4.1,4.2得到卷积的第二级特征
Figure BDA0002224352990000045
步骤4.4:将第二级特征
Figure BDA0002224352990000046
作为全连接层的输入,根据公式(5)得到最终的包含初始文档的上下文语义信息的特征向量:
Figure BDA0002224352990000047
其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:
步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:
Figure BDA0002224352990000051
步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。
与现有的文档自动摘要方法对比,本发明的有益效果是:
1.本方法利用LDA主题模型深入分析文档的主题关系,得出概率主题分布,为自动摘要提供主题关系分析。
2.本方法可以直接从数据中学习得到的特征,无需人工手工标记。
3.本方法将原始的CNN改进为基于文档细粒度的特征提取方法,同时使用第一级特征与第二级特征来从低级特征到高级特征分析文档的上下文语义信息,并经过多次仿真实验证明了本发明的可用性和有效性,能够有效的改善目前文档摘要中缺乏语义信息的问题。
附图说明
图1是LDA模型的结构图。
图2是本发明的一种基于上下文语义感知的抽取式文档自动摘要方法流程图。
具体实施方式
为了更好地理解本发明,下面结合实例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实例。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样在本申请所列权利要求书限定范围之内。
本发明提出了一种基于上下文语义感知的抽取式文档自动摘要方法,方法主要引入了LDA模型来分析文档的主题概率,LDA模型的图形如图1所示,然后用CNN深度学习神经网络来分析深层次的语义特征,基于上下文语义感知的抽取式文档自动摘要方法如图2所示。
本发明主要是利用LDA主题模型以及深度神经网络来确定文档的语义特征,具体实现步骤细化如下:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
步骤1.4:指定超参数向量
Figure BDA0002224352990000061
的值,其中
Figure BDA0002224352990000062
的值为
Figure BDA0002224352990000063
范围中的随机值、
Figure BDA0002224352990000064
的值为
Figure BDA0002224352990000065
中的随机值,
Figure BDA0002224352990000066
为K维向量,
Figure BDA0002224352990000067
为V维向量;
步骤2:根据步骤1.2中得到的预处理后的文档和步骤1.3中得到的主题数K、词数V以及步骤1.4中得到的超参数
Figure BDA0002224352990000068
带入公式(1),得到初始文档主题以及其概率分布:
Figure BDA0002224352990000069
其中,zi表示经过步骤1预处理后的文档
Figure BDA00022243529900000610
中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0<k≤K,t下标为主题词编号,0<t≤V,
Figure BDA00022243529900000611
表示去除下标为i的词,
Figure BDA00022243529900000612
表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数,
Figure BDA00022243529900000613
表示第k个主题中产生的词t的个数;
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:
步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:
Figure BDA0002224352990000071
其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:
步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:
Figure BDA0002224352990000072
其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:
Figure BDA0002224352990000081
其中,xi,xn为Cons,Conw中的每个神经元,
Figure BDA0002224352990000082
为得到卷积的第一级特征;
步骤4.3:对
Figure BDA0002224352990000083
重复步骤4.1,4.2得到卷积的第二级特征
Figure BDA0002224352990000084
步骤4.4:将第二级特征
Figure BDA0002224352990000085
作为全连接层的输入,根据公式(5)得到最终的包含初始文档的上下文语义信息的特征向量:
Figure BDA0002224352990000086
其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:
步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:
Figure BDA0002224352990000087
步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。
实施例
步骤1:选定两篇短文档:
“9月6日,在德国柏林的IFA2019大会上,华为正式发布麒麟990 5G芯片。相较而言,麒麟990芯片的主要竞争对手中,骁龙865尚未发布,表现如何有待观察。”
“5G芯片是全球首款旗舰5G SoC,也是业内最小的5G手机芯片方案。对于广大用户来说,最直观表现是速度更快、影像更美,但更重要的是,它的AI强劲算力将为更多生活场景赋予智慧,相信在今年这个5G商用元年会给大家带来最佳的应用体验。”
指定文档的主题数为2,主题词数为3,设定超参数
Figure BDA0002224352990000092
Figure BDA0002224352990000093
经过分词、分句、去停用词得到结果如下:
文档1:德国,柏林,IFA2019,大会,华为,正式,发布,麒麟,990,5G,芯片,相,而言,麒麟,990,芯片,主要,竞争对手,骁龙,865,尚未,发布,表现,有待,观察。
文档2:5G,芯片,全球,首款,旗舰,5G,SoC,业内,最小,5G,手机芯片,方案,对于,用户,直观,表现,速度,快,影像,更美,AI,强劲,算力,更多,生活,场景,赋予,智慧,5G,商用,元年,带来,最佳,体验。
表1文档分句
文档1 文档2
句子1 9月6日 5G芯片是全球首款旗舰5G SoC
句子2 在德国柏林的IFA2019大会上 也是业内最小的5G手机芯片方案
句子3 华为正式发布麒麟990 5G芯片 对于广大用户来说
句子4 相较而言 最直观表现是速度更快、影像更美
句子5 麒麟990芯片的主要竞争对手中 但更重要的是
句子6 骁龙865尚未发布 它的AI强劲算力将为更多生活场景赋予智慧
句子7 表现如何有待观察 相信在今年这个5G商用元年会给大家带来最佳的应用体验
步骤2:根据步骤(1)中所得
Figure BDA0002224352990000091
K=2、V=3带入公式(1)得到文档的主题:
表2文档主题概率
主题词1 概率 主题词2 概率 主题词3 概率
主题1 芯片 0.042 990 0.042 发布 0.042
主题2 5G 0.060 表现 0.020 更美 0.020
步骤3:将步骤1中得到的主题与分句后的每一个句子根据Bert模型分别转化为1*768维的向量,根据公式2计算文档中的每一个句子的向量与主题的向量的相似度得到的结果如下:
表3句子与主题的相似度
句子1 句子2 句子3 句子4 句子5 句子6 句子7
文档1 291.845 297.524 309.248 263.979 300.797 295.856 290.251
文档2 277.260 284.996 309.098 289.204 293.365 303.775 295.590
步骤4:根据公式3和预训练好的CNN模型对文本句子进行第一级和第二级卷积池化提取其语义特征,最终得到一个1*768维的包含上下文语义的特征向量,并对步骤2中所得到的初始文档中的每个句子向量和特征向量根据步骤3中的公式2作相似度比较,得到的结果如下:
表4句子与CNN特征相似度
句子1 句子2 句子3 句子4 句子5 句子6 句子7
文档1 712.944 706.102 704.971 708.670 709.249 707.448 707.472
文档2 707.837 702.316 710.876 704.087 701.015 712.373 697.708
步骤5:根据步骤3中所得到的句子与主题相似度和步骤4中所得到的基于上下文语义的文本特征相似度的得分值根据步骤5.2中的公式(6)得到最终的初始文档中每个句子的得分:
表5最终句子得分值
内容 得分值
句子1 9月6日 1004.78
句子2 在德国柏林的IFA2019大会上 1003.626
句子3 华为正式发布麒麟990 5G芯片 1014.2199
句子4 相较而言 972.649
句子5 麒麟990芯片的主要竞争对手中 1010.046
句子6 骁龙865尚未发布 1003.304
句子7 表现如何有待观察 997.723
句子8 5G芯片是全球首款旗舰5G SoC 985.097
句子9 也是业内最小的5G手机芯片方案 987.312
句子10 对于广大用户来说 1019.974
句子11 最直观表现是速度更快、影像更美 993.219
句子12 但更重要的是 994.38
句子13 它的AI强劲算力将为更多生活场景赋予智慧 1016.148
句子14 相信在今年这个5G商用元年会给大家带来最佳的应用体验 993.298
根据初始文档的长度,选取3个句子作为摘要,则最终的摘要结果如下所示:
“华为正式发布麒麟990 5G芯片,对于广大用户来说,它的AI强劲算力将为更多生活场景赋予智慧。”
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。

Claims (1)

1.一种基于上下文语义感知的抽取式文档自动摘要方法,其特征在于:抽取式文档自动摘要是以句子在文档中的重要程度来打分,本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据,最终形成摘要,所述方法包含如下步骤:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
步骤1.4:指定超参数向量
Figure FDA0002224352980000011
的值,其中
Figure FDA0002224352980000012
的值为
Figure FDA0002224352980000013
范围中的随机值、
Figure FDA0002224352980000014
的值为
Figure FDA0002224352980000015
中的随机值,
Figure FDA0002224352980000016
为K维向量,
Figure FDA0002224352980000017
为V维向量;
步骤2:根据步骤1.2中得到的预处理后的文档和步骤1.3中得到的主题数K、词数V以及步骤1.4中得到的超参数
Figure FDA0002224352980000018
带入公式(1),得到初始文档主题以及其概率分布:
Figure FDA0002224352980000019
其中,zi表示经过步骤1预处理后的文档
Figure FDA00022243529800000110
中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0<k≤K,t下标为主题词编号,0<t≤V,
Figure FDA00022243529800000111
表示去除下标为i的词,
Figure FDA00022243529800000112
表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数,
Figure FDA00022243529800000113
表示第k个主题中产生的词t的个数;
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:
步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:
Figure FDA0002224352980000021
其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:
步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:
Figure FDA0002224352980000022
其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:
Figure FDA0002224352980000031
其中,xi,xn为Cons,Conw中的每个神经元,
Figure FDA0002224352980000032
为得到卷积的第一级特征;
步骤4.3:对
Figure FDA0002224352980000033
重复步骤4.1,4.2得到卷积的第二级特征
Figure FDA0002224352980000034
步骤4.4:将第二级特征
Figure FDA0002224352980000035
作为全连接层的输入,根据公式(5)得到最终的包含初始文档的上下文语义信息的特征向量:
Figure FDA0002224352980000036
其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:
步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:
Figure FDA0002224352980000037
步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。
CN201910946636.8A 2019-10-06 2019-10-06 一种基于上下文语义感知的抽取式文档自动摘要方法 Active CN110728144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910946636.8A CN110728144B (zh) 2019-10-06 2019-10-06 一种基于上下文语义感知的抽取式文档自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910946636.8A CN110728144B (zh) 2019-10-06 2019-10-06 一种基于上下文语义感知的抽取式文档自动摘要方法

Publications (2)

Publication Number Publication Date
CN110728144A CN110728144A (zh) 2020-01-24
CN110728144B true CN110728144B (zh) 2023-04-07

Family

ID=69220722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910946636.8A Active CN110728144B (zh) 2019-10-06 2019-10-06 一种基于上下文语义感知的抽取式文档自动摘要方法

Country Status (1)

Country Link
CN (1) CN110728144B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339287B (zh) * 2020-02-24 2023-04-21 成都网安科技发展有限公司 摘要生成方法及装置
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN112989825B (zh) * 2021-05-13 2021-08-03 武大吉奥信息技术有限公司 社区事务汇聚和任务派发方法、装置、设备及存储介质
CN114064885B (zh) * 2021-11-25 2024-05-31 北京航空航天大学 一种无监督中文多文档抽取式摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622411A (zh) * 2012-02-17 2012-08-01 清华大学 一种结构化摘要的生成方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158850A1 (en) * 2010-12-21 2012-06-21 Harrison Edward R Method and apparatus for automatically creating an experiential narrative

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622411A (zh) * 2012-02-17 2012-08-01 清华大学 一种结构化摘要的生成方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备

Also Published As

Publication number Publication date
CN110728144A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
CN110728144B (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
JP6721179B2 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN113849598B (zh) 基于深度学习的社交媒体虚假信息检测方法及检测系统
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN112052687A (zh) 基于深度可分离卷积的语义特征处理方法、装置及介质
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN111061873B (zh) 一种基于Attention机制的多通道的文本分类方法
CN113688621B (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
CN114265943A (zh) 一种因果关系事件对提取方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant