Nothing Special   »   [go: up one dir, main page]

CN103885935A - 基于图书阅读行为的图书章节摘要生成方法 - Google Patents

基于图书阅读行为的图书章节摘要生成方法 Download PDF

Info

Publication number
CN103885935A
CN103885935A CN201410090143.6A CN201410090143A CN103885935A CN 103885935 A CN103885935 A CN 103885935A CN 201410090143 A CN201410090143 A CN 201410090143A CN 103885935 A CN103885935 A CN 103885935A
Authority
CN
China
Prior art keywords
sentence
page
books
user
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410090143.6A
Other languages
English (en)
Other versions
CN103885935B (zh
Inventor
鲁伟明
安文佳
吴江琴
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410090143.6A priority Critical patent/CN103885935B/zh
Publication of CN103885935A publication Critical patent/CN103885935A/zh
Application granted granted Critical
Publication of CN103885935B publication Critical patent/CN103885935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图书阅读行为的图书章节摘要生成方法。基于图书阅读行为的图书章节摘要生成技术本质上是一种文档摘要生成技术,即将用户阅读行为加入文档摘要生成之中,并且应用于工程科教图书资源上。本发明首先采用图书页面量化阅读行为评分机制计算图书章节中每页书页的权重大小,然后将图书章节按句子分割,句子之间的相似度按距离计算并将已有的句子权重值按流行结构传播,最后基于数据重构的思想挑选出最能够代表图书章节内容的句子作为图书章节摘要。本发明将用户阅读行为收集,用于对图书书页的重要性评价中,通过基于数据重构的文档摘要生成思想得到对应的图书章节摘要,进而辅助用户快速了解图书章节内容,提高图书阅读效率。

Description

基于图书阅读行为的图书章节摘要生成方法
技术领域
本发明涉及文档摘要生成方法,尤其涉及一种基于图书阅读行为的图书章节摘要生成方法。
背景技术
随着数字图书馆的日益发展,用户在阅读图书前,希望能够快速准确的了解图书章节内容信息,迫切希望数字图书馆中能够提供图书章节摘要的服务。
图书章节摘要生成本质上是一种基于阅读行为的文档摘要生成方法,即将用户阅读行为建模,根据行为模型将用户阅读因素加入文档摘要生成算法中,得到受用户阅读影响的摘要结果。如果直接采用传统的文档摘要生成方法,图书章节摘要可能不会从用户阅读角度来准确表达章节内容信息,这样也就无法满足用户的需求。
在传统的阅读中,读者阅读的目标对象是简单确定的语言符号。在阅读的开始和阅读的结束,读者仅仅通过文字化的内容信息获取并得到认知,是一个脱离于社会的鼓励的存在。基于网络的社会化阅读的出现,使阅读者从阅读内容选择的开始到阅读内容结束,部分或全部过程都与社会化网络形成了关联。在这种人与人之间相互关联的社会网络中,读者的阅读行为往往就成为需要关注和研究的对象。
社会化阅读本身是以内容为核心,以社交关系为纽带,注重分享、交流和互动的阅读新模式。用户在内容阅读的过程中,可以与同样喜好的用户进行互动,阅读结束后,可以与阅读同一内容的大众进行交往联系,甚至形成议题融合的社会化。分享、交流和互动贯穿于社会化阅读的全过程。而在这些互动交流中,产生了大量新的有价值的内容,如评论、摘要、笔记、关联或交叉信息。
在进行图书章节摘要生成时所采用的基础摘要生成算法是基于数据重构的文档摘要生成算法(DSDR)。基于数据重构的文档摘要生成算法是一种抽取式的方法,该方法认为好的文档摘要应该满足一个特点:从结果摘要能够最大程度的重构原始文档,即的结果摘要能够尽量的覆盖整个文档所表达的内容信息。
在基于数据重构的文档摘要生成算法的基础上,把用户在社会化阅读时的各种行为考虑进去,比如阅读的时候用户的重要句子圈画行为,这些被圈画的句子往往被认为有比较高的代表性,与其他没有被圈画的句子相比要具有比较高的影响权重。
发明内容
本发明的目的是为了提供能够方便用户快速了解图书章节信息的章节摘要,给出了一种基于图书阅读行为的图书章节摘要生成方法。
本发明解决其技术问题采用的技术方案如下:
基于图书阅读行为的图书章节摘要生成方法的步骤如下:
1)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制;
2)句子权重值传播:通过步骤1)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播;
3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。
所述的步骤1)为:
2.1将用户阅读某页的行为划分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,不同层次对书页有不同的得分贡献;
2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度,以此来进行评分,图书页面用户留存率是指对于某图书页面来讲,相对于浏览时的用户数,进行到收藏、浅度阅读和深度阅读的留存用户数的比例,图书页面用户流失率是指对于上一步留存用户数,这一步所减少的用户数的比例,
建立基于用户阅读行为的评分公式:
Vi=[(pi+qi)/pi]exp(1-pi)  i=1,2,3,4
图书页面用户留存率公式:
pi=Ui/U1  i=1,2,3,4
图书页面用户流失率公式:
q i = U i / U i - 1 i = 2,3,4 1 i = 1
其中:Vi为整个用户群体的阅读行为第i步对图书某页的得分贡献;pi为第i步相对于浏览的留存率;qi为第i步相对于第i-1步的流失率;Ui为进行到第i步的用户数;
2.3图书页面访问时间有先后之分,越先访问并标注该图书页面的用户对该页面的贡献越大,基于图书页面关键行为节点的评分机制可以计算图书页面的重要程度,图书页面的重要程度的综合平分公式如下:
s j = Σ u ∈ R j W uj × S uj Σ u ∈ R j W uj
W uj = log 2 ( T j / ( t uj - t j ) ) t uj ≠ t j log 2 T j t uj = t j
S uj = Σ i = 1 L V ij
上述式子中:sj为图书第j页的评分值;Wuj为用户u对图书第j页的贡献权重;Tj为图书第j页被访问时间的总和;tuj为用户u对图书第j页的第一次访问的时间;tj为图书第j页第一次被访问的时间;Suj为用户u对图书第j页所到达的关键行为步骤的评分值之和,Vij为用户u对图书第j页所达到第i步关键行为步骤的评分值;L为用户u阅读图书第j页所到达的深度及关键步骤数;
2.4根据以上评分机制的方法能够对图书每一页在书中的重要性给出量化的评分,因为图书阅读群体的差异性,为了避免图书书页评分因访问用户数少而评分高的现象,在实际的书页评价过程中,对访问用户数和评分进行归一化处理,得到了最终的图书页面的综合评分公式如下:
PageScore j = [ log u j - log u J ‾ ] + [ log 2 s j - log 2 s J ‾ ]
上式中:uj为图书页面j的浏览用户数,sj为对图书页面j的评分,PageScorej为图书书页的评分,利用与平均值比较的方法可知,只有浏览图书页面的用户数和读者对该页面的评分值都很高的时候,综合评分才会高,根据用户阅读行为在图书阅读中的特点,建立基于用户阅读行为的图书页面重要程度评价体系,通过图书页面阅读的四个层次量化用户行为,通过计算四个层次的评价贡献值来定义用户从浏览层次到深度阅读层次到达的难度,最终通过图书页面上用户群体的阅读行为来计算量化该页面的重要性。
所述的步骤2)为:
3.1在步骤1)中给出了图书页面j的得分PageScorej,这个得分反映了页面j在图书中的重要性,同时需要考虑被划句子在该书页中具有相对重要性,句子的重要性与页面得分的关系如下:
w i = L i * PageScore j Σ i = 1 n ( L i * PageScore j ) L i ≠ 0 0 L i = 0
上式中的wi表示句子vi当前的权重值,假设给定文档句子集合为
Figure BDA0000475950870000042
其中vi表示集合V中第i个句子,把被用户用直线划过的句子放在集合的前面,假定前k个句子是用户划过的,通过剩下句子与前k个句子的关系来求句子的权重值;
3.2令dis:
Figure BDA0000475950870000043
表示在集合V上的距离度量方式,则可以得到每对句子vi和句子vj之间的距离dis(vi,vj),令映射表示分配给每个句子vi权重值fi的排序函数,向量f=[f1,...,fn]T,向量w=[w1,...,wn]T,其中,如果句子vi被划过则wi≠0,否则wi=0,wi表示每个句子的初始权重值;
3.3在数据流形结构上的权重传播算法表示如下:
Step1:计算句子向量两两之间的距离dis(vi,vj),并且升序排列,按升序列表在两两句子向量所对应的节点之间连接一条边直到得到连通图;
Step2:定义关联矩阵W,满足:如果句子向量vi和vj对应的点之间存在一条边的话,Wij=exp[-dis2(vi,vj)/2σ2];如果句子向量vi和vj对应的点之间不存在边的话,Wij=0;并且Wii=0;Step3:对关联矩阵W进行对称标准化,得到矩阵S:S=D-1/2WD-1/2,式中D是对角矩阵,对角矩阵D的对角元素项 D ii = Σ j = 1 n W ij ;
Step4:迭代计算f(t+1)=aSf(t)+(1-α)w直到收敛,α是一个取值范围在[0,1)的参数;
Step5:令
Figure BDA0000475950870000046
表示序列{fi(t)}的极限,得到句子权重的极限序列为 { f 1 * , . . . , f n * } , 句子权重向量为 f = [ f 1 * , . . . , f n * ] T ;
3.4在Step4中,参数α用来指定邻居节点对该节点的权重值贡献和初始的权重值;由于算法中的矩阵S是一个对角矩阵,所以权重值的传播过程是对称的;而对于序列{f(t)}的收敛值,计算f*=(I-αS)-1w;经过权重值的传播,就得到了图书章节中每个句子的合理权重值。
所述步骤3)为:
4.1得到图书章节句子vi的权重值
Figure BDA0000475950870000051
权重值
Figure BDA0000475950870000052
反映了句子vi在图书章节中的重要性,将n个权重值
Figure BDA0000475950870000053
作为矩阵F的对角元素,对n个权重值进行对角矩阵化,即
Figure BDA0000475950870000054
得到对角矩阵F,将对角矩阵F加入基于数据重构的文档摘要生成算法;
4.2在文档摘要生成过程中重新定义线性非负数据重构算法的目标函数如下:
min a i , β J = Σ i = 1 n { f i * | | v i - V T a i | | 2 + Σ j = 1 n a ij 2 β j } + γ | | β | | 1
s.t.βj≥0,aij≥0,and ai∈Rn
上式中,每个句子的挑选过程加入了图书章节句子vi的权重值fi *,其中aij≥0表明该方法只允许集合空间中句子的加法运算,不允许减法运算;同时β=[β1,β2,...,βn]T是一个辅助变量;如果βj=0的话,则所有的a1j,...,anj为0,这意味着第j列的候选句子没有被选中,γ是正则项参数;
4.3基于数据重构的文档摘要生成算法的目标函数是一个凸优化问题,可以保证全局最优解,此时,固定ai,令J对β的导数为0,得到β的最小解如下:
β j = Σ i = 1 n a ij 2 γ
当得到了β的最小解之后,非负约束下的最小化问题可以用拉格朗日方法求解;
4.4令αij为约束条件aij≥0和A=[aij]下的拉格朗日算子,则拉格朗日公式L如下:
L=J+Tr[αAT]=Tr[F(V-AV)(V-AV)T+diag(β)-1ATA]+γ||β||1+Tr[αAT],α=[αij]
F是步骤4.1中的对角矩阵,对角矩阵F对角线上的元素项分别为
Figure BDA0000475950870000057
Figure BDA0000475950870000061
也是一个对角矩阵,对角矩阵diag(β)对角线上的元素项分别为β1,...,βn
4.5拉格朗日公式L对A求导结果如下:
∂ L ∂ A = - 2 FVV T + 2 FAVV T + 2 Adiag ( β ) - 1 + α
的导数为0,可以得到关于α的表示如下:
α=2FVVT-2FAVVT-2Adiag(β)-1
根据Karush-Kuhn-Tucker条件αijaij=0,对上式各项乘以aij得到如下等式:
(FVVT)ijaij-(FAVVT)ijaij-(Adiag(β)-1)ijaij=0
根据上式得到如下的更新公式:
a ij ← a ij ( FVV T ) ij [ FAVV T + Adiag ( β ) - 1 ] ij
将上述更新公式迭代执行直到收敛,最终得到图书章节的摘要句子。
本发明方法与现有技术相比具有的有益效果:
1.该方法结合了用户阅读行为建模和文档摘要生成方法,将基于数据重构的文档摘要生成算法应用于图书章节摘要生成上,得到图书章节的摘要信息;
2.该方法对用户阅读行为进行了分析建模,建模方法采用基于阅读深度的思想,对阅读行为进行层次划分,最终给出了图书书页的综合评分体系,以得分高低表示图书书页的重要程度;
3.该方法以图书章节的句子为单位,根据已有的句子权重值在数据流行空间上进行权重值的传播,最后得到每个句子的合理权重值大小,使得对用户行为的反映更加准确。
附图说明
图1是基于图书阅读行为的图书章节摘要生成方法系统架构图;
图2是本发明的句子权重值传播方法步骤图;
图3是本发明实施例的图书目录图;
图4是本发明实施例的第一章节示意图;
图5是本发明实施例的章节摘要生成结果图。
具体实施方式
如图1和图2所示,基于图书阅读行为的图书章节摘要生成方法的步骤如下:
1)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制;
2)句子权重值传播:通过步骤1)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播;
3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。
所述的步骤1)为:
2.1将用户阅读某页的行为划分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,不同层次对书页有不同的得分贡献;
2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度,以此来进行评分,评分与留存率之间存在一种指数衰减的关系,评分在某一步的值与上一步的流失率相关,还与初始阶段的留存率相关,这里先给出图书页面用户留存率和流失率定义,图书页面用户留存率是指对于某图书页面来讲,相对于浏览时的用户数,进行到收藏、浅度阅读和深度阅读的留存用户数的比例,图书页面用户流失率是指对于上一步留存用户数,这一步所减少的用户数的比例,
建立基于用户阅读行为的评分公式:
Vi=[(pi+qi)/pi]exp(1-pi)  i=1,2,3,4
图书页面用户留存率公式:
pi=Ui/U1  i=1,2,3,4
图书页面用户流失率公式:
q i = U i / U i - 1 i = 2,3,4 1 i = 1
其中:Vi为整个用户群体的阅读行为第i步对图书某页的得分贡献;pi为第i步相对于浏览的留存率;qi为第i步相对于第i-1步的流失率;Ui为进行到第i步的用户数;
2.3图书页面访问时间有先后之分,越先访问并标注该图书页面的用户对该页面的贡献越大,如果第一个访问用户就对某页面进行了深度阅读,则该页面的重要程度相对要高一些,基于图书页面关键行为节点的评分机制可以计算图书页面的重要程度,图书页面的重要程度的综合平分公式如下:
s j = Σ u ∈ R j W uj × S uj Σ u ∈ R j W uj
W uj = log 2 ( T j / ( t uj - t j ) ) t uj ≠ t j log 2 T j t uj = t j
S uj = Σ i = 1 L V ij
上述式子中:sj为图书第j页的评分值;Wuj为用户u对图书第j页的贡献权重;Tj为图书第j页被访问时间的总和;tuj为用户u对图书第j页的第一次访问的时间;tj为图书第j页第一次被访问的时间;Suj为用户u对图书第j页所到达的关键行为步骤的评分值之和,Vij为用户u对图书第j页所达到第i步关键行为步骤的评分值;L为用户u阅读图书第j页所到达的深度及关键步骤数;
2.4根据以上评分机制的方法能够对图书每一页在书中的重要性给出量化的评分,因为图书阅读群体的差异性,为了避免图书书页评分因访问用户数少而评分高的现象,在实际的书页评价过程中,对访问用户数和评分进行归一化处理,得到了最终的图书页面的综合评分公式如下:
PageScore j = [ log u j - log u J ‾ ] + [ log 2 s j - log 2 s J ‾ ]
上式中:uj为图书页面j的浏览用户数,sj为对图书页面j的评分,PageScorej为图书书页的评分,利用与平均值比较的方法可知,只有浏览图书页面的用户数和读者对该页面的评分值都很高的时候,综合评分才会高,根据用户阅读行为在图书阅读中的特点,建立基于用户阅读行为的图书页面重要程度评价体系,通过图书页面阅读的四个层次量化用户行为,通过计算四个层次的评价贡献值来定义用户从浏览层次到深度阅读层次到达的难度,最终通过图书页面上用户群体的阅读行为来计算量化该页面的重要性。
所述的步骤2)为:
3.1在步骤1)中给出了图书页面j的得分PageScorej,这个得分反映了页面j在图书中的重要性,同时需要考虑被划句子在该书页中具有相对重要性,句子的重要性与页面得分的关系如下:
w i = L i * PageScore j Σ i = 1 n ( L i * PageScore j ) L i ≠ 0 0 L i = 0
上式中的wi表示句子vi当前的权重值,假设给定文档句子集合为
Figure BDA0000475950870000092
Figure BDA0000475950870000093
其中vi表示集合V中第i个句子,把被用户用直线划过的句子放在集合的前面,假定前k个句子是用户划过的,通过剩下句子与前k个句子的关系来求句子的权重值;
3.2令dis:
Figure BDA0000475950870000094
表示在集合V上的距离度量方式,则可以得到每对句子vi和句子vj之间的距离dis(vi,vj),令映射表示分配给每个句子vi权重值fi的排序函数,向量f=[f1,...,fn]T,向量w=[w1,...,wn]T,其中,如果句子vi被划过则wi≠0,否则wi=0,wi表示每个句子的初始权重值;
3.3在数据流形结构上的权重传播算法表示如下:
Step1:计算句子向量两两之间的距离dis(vi,vj),并且升序排列,按升序列表在两两句子向量所对应的节点之间连接一条边直到得到连通图;
Step2:定义关联矩阵W,满足:如果句子向量vi和vj对应的点之间存在一条边的话,Wij=exp[-dis2(vi,vj)/2σ2];如果句子向量vi和vj对应的点之间不存在边的话,Wij=0;并且Wii=0;Step3:对关联矩阵W进行对称标准化,得到矩阵S:S=D-1/2WD-1/2,式中D是对角矩阵,对角矩阵D的对角元素项 D ii = Σ j = 1 n W ij ;
Step4:迭代计算f(t+1)=αSf(t)+(1-α)w直到收敛,α是一个取值范围在[0,1)的参数;
Step5:令表示序列{fi(t)}的极限,得到句子权重的极限序列为 { f 1 * , . . . , f n * } , 句子权重向量为 f = [ f 1 * , . . . , f n * ] T ;
3.4在Step4中,参数α用来指定邻居节点对该节点的权重值贡献和初始的权重值;由于算法中的矩阵S是一个对角矩阵,所以权重值的传播过程是对称的;而对于序列{f(t)}的收敛值,计算f*=(I-aS)-1w;经过权重值的传播,就得到了图书章节中每个句子的合理权重值。
所述步骤3)为:
4.1得到图书章节句子vi的权重值fi *,权重值fi *反映了句子vi在图书章节中的重要性,将n个权重值fi *作为矩阵F的对角元素,对n个权重值进行对角矩阵化,即Fii=fi *,得到对角矩阵F,将对角矩阵F加入基于数据重构的文档摘要生成算法;
4.2在文档摘要生成过程中重新定义线性非负数据重构算法的目标函数如下:
min a i , β J = Σ i = 1 n { f i * | | v i - V T a i | | 2 + Σ j = 1 n a ij 2 β j } + γ | | β | | 1
s.t.βj≥0,aij≥0,and ai∈Rn
上式中,每个句子的挑选过程加入了图书章节句子vi的权重值fi *,其中aij≥0表明该方法只允许集合空间中句子的加法运算,不允许减法运算;同时
β=[β1,β2,...,βn]T是一个辅助变量;如果βj=0的话,则所有的a1j,...,anj为0,这意味着第j列的候选句子没有被选中,γ是正则项参数;
4.3基于数据重构的文档摘要生成算法的目标函数是一个凸优化问题,可以保证全局最优解,此时,固定ai,令J对β的导数为0,得到β的最小解如下:
β j = Σ i = 1 n a ij 2 γ
当得到了β的最小解之后,非负约束下的最小化问题可以用拉格朗日方法求解;
4.4令αij为约束条件aij≥0和A=[aij]下的拉格朗日算子,则拉格朗日公式L如下:
L=J+Tr[αAT]=Tr[F(V-AV)(V-AV)T+diag(β)-1ATA]+γ||β||1+Tr[αAT],α=[αij]
F是步骤4.1中的对角矩阵,对角矩阵F对角线上的元素项分别为diag(β)也是一个对角矩阵,对角矩阵diag(β)对角线上的元素项分别为β1,...,βn
4.5拉格朗日公式L对A求导结果如下:
∂ L ∂ A = - 2 FVV T + 2 FAVV T + 2 Adiag ( β ) - 1 + α
Figure BDA0000475950870000104
的导数为0,可以得到关于α的表示如下:
α=2FVVT-2FAVVT-2Adiag(β)-1
根据Karush-Kuhn-Tucker条件αijaij=0,对上式各项乘以aij得到如下等式:
(FVVT)ijaij-(FAVVT)ijaij-(Adiag(β)-1)ijaij=0
根据上式得到如下的更新公式:
a ij ← a ij ( FVV T ) ij [ FAVV T + Adiag ( β ) - 1 ] ij
将上述更新公式迭代执行直到收敛,最终得到图书章节的摘要句子。
实施例
如附图3至附图5所示,给出了图书章节摘要生成方法的一个应用实例。下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)在系统已经预处理所有的图书章节,得到图书章节文档内容。假设用户正在阅读图书《分布式计算原理与应用》的第一章“分布式计算简介”的第一节“定义”,想要知道这一节的章节摘要,点击“目录”按钮,双击对应章节,系统首先获取该章节的文本信息和用户的阅读行为等数据。
(2)根据用户阅读行为数据分析用户在该章节阅读的类型和层次,根据图书书页的综合评分公式得到图书书页的重要度量化得分。
(3)将图书该章节的文本数据按句子划分,结合用户阅读画线行为和图书书页的量化得分,得到了被划线句子的初始权重值。
(4)将句子做分词,去除停用词等处理,每个句子构建一个高维空间的向量,根据向量之间的距离得到句子两两之间的相似度。
(5)通过数据流形空间上的排序方法进行句子初始权重值的传播,最后得到每个句子合理的权重值。
(6)将句子权重值矩阵F加入基于数据重构的文档摘要生成算法中,执行算法直到收敛从该图书章节中选取若干句子(视章节长短而定)作为该图书章节的摘要信息,最后返回给用户。
本实例的运行结果在附图3至中显示,用户正在阅读图书,可以通过目录查看对应章节的摘要内容,方便用户更快更详细的了解章节内容,这种图书章节摘要生成方法有良好的使用价值和应用前景。

Claims (4)

1.一种基于图书阅读行为的图书章节摘要生成方法,其特征在于它的步骤如下:
1)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制;
2)句子权重值传播:通过步骤1)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播;
3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。
2.根据权利要求1中所述的基于图书阅读行为的图书章节摘要生成方法,其特征在于所述的步骤1)为:
2.1将用户阅读某页的行为划分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,不同层次对书页有不同的得分贡献;
2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度,以此来进行评分,图书页面用户留存率是指对于某图书页面来讲,相对于浏览时的用户数,进行到收藏、浅度阅读和深度阅读的留存用户数的比例,图书页面用户流失率是指对于上一步留存用户数,这一步所减少的用户数的比例,
建立基于用户阅读行为的评分公式:
Vi=[(pi+qi)/pi]exp(1-pi)  i=1,2,3,4
图书页面用户留存率公式:
pi=Ui/U1  i=1,2,3,4
图书页面用户流失率公式:
q i = U i / U i - 1 i = 2,3,4 1 i = 1
其中:Vi为整个用户群体的阅读行为第i步对图书某页的得分贡献;pi为第i步相对于浏览的留存率;qi为第i步相对于第i-1步的流失率;Ui为进行到第i步的用户数;
2.3图书页面访问时间有先后之分,越先访问并标注该图书页面的用户对该页面的贡献越大,基于图书页面关键行为节点的评分机制计算图书页面的重要程度,图书页面的重要程度的综合平分公式如下:
s j = Σ u ∈ R j W uj × S uj Σ u ∈ R j W uj
W uj = log 2 ( T j / ( t uj - t j ) ) t uj ≠ t j log 2 T j t uj = t j
S uj = Σ i = 1 L V ij
上述式子中:sj为图书第j页的评分值;Wuj为用户u对图书第j页的贡献权重;Tj为图书第j页被访问时间的总和;tuj为用户u对图书第j页的第一次访问的时间;tj为图书第j页第一次被访问的时间;Suj为用户u对图书第j页所到达的关键行为步骤的评分值之和,Vij为用户u对图书第j页所达到第i步关键行为步骤的评分值;L为用户u阅读图书第j页所到达的深度及关键步骤数;
2.4根据以上评分机制的方法能够对图书每一页在书中的重要性给出量化的评分,因为图书阅读群体的差异性,为了避免图书书页评分因访问用户数少而评分高的现象,在实际的书页评价过程中,对访问用户数和评分进行归一化处理,得到了最终的图书页面的综合评分公式如下:
PageScore j = [ log u j - log u J ‾ ] + [ log 2 s j - log 2 s J ‾ ]
上式中:uj为图书页面j的浏览用户数,sj为对图书页面j的评分,PageScorej为图书书页的评分,利用与平均值比较的方法可知,只有浏览图书页面的用户数和读者对该页面的评分值都很高的时候,综合评分才会高,根据用户阅读行为在图书阅读中的特点,建立基于用户阅读行为的图书页面重要程度评价体系,通过图书页面阅读的四个层次量化用户行为,通过计算四个层次的评价贡献值来定义用户从浏览层次到深度阅读层次到达的难度,最终通过图书页面上用户群体的阅读行为来计算量化该页面的重要性。
3.根据权利要求1所述的基于图书阅读行为的图书章节摘要生成方法,其特征在于所述的步骤2)为:
3.1在步骤1)中给出了图书页面j的得分PageScorej,这个得分反映了页面j在图书中的重要性,同时需要考虑被划句子在该书页中具有相对重要性,句子的重要性与页面得分的关系如下:
w i = L i * PageScore j Σ i = 1 n ( L i * PageScore j ) L i ≠ 0 0 L i = 0
上式中的wj表示句子vi当前的权重值,假设给定文档句子集合为
Figure FDA0000475950860000032
Figure FDA0000475950860000033
其中vi表示集合V中第i个句子,把被用户用直线划过的句子放在集合的前面,假定前k个句子是用户划过的,通过剩下句子与前k个句子的关系来求句子的权重值;
3.2令dis:表示在集合V上的距离度量方式,则可以得到每对句子vi和句子vj之间的距离dis(vi,vj),令映射
Figure FDA0000475950860000035
表示分配给每个句子vi权重值fi的排序函数,向量f=[f1,...,fn]T,向量w=[w1,...,wn]T,其中,如果句子vi被划过则wi≠0,否则wi=0,wi表示每个句子的初始权重值;
3.3在数据流形结构上的权重传播算法表示如下:
Step1:计算句子向量两两之间的距离dis(vi,vj),并且升序排列,按升序列表在两两句子向量所对应的节点之间连接一条边直到得到连通图;
Step2:定义关联矩阵W,满足:如果句子向量vi和vj对应的点之间存在一条边的话,Wij=exp[-dis2(vi,vj)/2σ2];如果句子向量vi和vj对应的点之间不存在边的话,Wij=0;并且Wii=0;Step3:对关联矩阵W进行对称标准化,得到矩阵S:S=D-1/2WD-1/2,式中D是对角矩阵,对角矩阵D的对角元素项 D ii = Σ j = 1 n W ij ;
Step4:迭代计算f(t+1)=αSf(t)+(1-α)w直到收敛,α是一个取值范围在[0,1)的参数;
Step5:令fi *表示序列{fi(t)}的极限,得到句子权重的极限序列为句子权重向量为
3.4在Step4中,参数α用来指定邻居节点对该节点的权重值贡献和初始的权重值;由于算法中的矩阵S是一个对角矩阵,所以权重值的传播过程是对称的;而对于序列{f(t)}的收敛值,计算f*=(I-aS)-1w;经过权重值的传播,就得到了图书章节中每个句子的合理权重值。
4.根据权利要求1所述的基于图书阅读行为的图书章节摘要生成方法,其特征在于所述步骤3)为:
4.1得到图书章节句子vi的权重值fi *,权重值fi *反映了句子vi在图书章节中的重要性,将n个权重值fi *作为矩阵F的对角元素,对n个权重值进行对角矩阵化,即Fii=fi *,得到对角矩阵F,将对角矩阵F加入基于数据重构的文档摘要生成
算法;
4.2在文档摘要生成过程中重新定义线性非负数据重构算法的目标函数如下:
min a i , β J = Σ i = 1 n { f i * | | v i - V T a i | | 2 + Σ j = 1 n a ij 2 β j } + γ | | β | | 1
s.t.βj≥0,aij≥0,and ai∈Rn
上式中,每个句子的挑选过程加入了图书章节句子vi的权重值fi *,其中aij≥0表明该方法只允许集合空间中句子的加法运算,不允许减法运算;同时
β=[β1,β2,...,βn]T是一个辅助变量;如果βj=0的话,则所有的a1j,...,anj为0,这意味着第j列的候选句子没有被选中,γ是正则项参数;
4.3基于数据重构的文档摘要生成算法的目标函数是一个凸优化问题,可以保证全局最优解,此时,固定ai,令J对β的导数为0,得到β的最小解如下:
β j = Σ i = 1 n a ij 2 γ
当得到了β的最小解之后,非负约束下的最小化问题可以用拉格朗日方法求解;
4.4令αij为约束条件aij≥0和A=[aij]下的拉格朗日算子,则拉格朗日公式L如下:
L=J+Tr[αAT]=Tr[F(V-AV)(V-AV)T+diag(β)-1ATA]+γ||β||1+Tr[αAT],α=[αij]
F是步骤4.1中的对角矩阵,对角矩阵F对角线上的元素项分别为
Figure FDA0000475950860000043
diag(β)也是-个对角矩阵,对角矩阵diag(β)对角线上的元素项分别为β1,...,βn
4.5拉格朗日公式L对A求导结果如下:
∂ L ∂ A = - 2 FVV T + 2 FAVV T + 2 Adiag ( β ) - 1 + α
Figure FDA0000475950860000052
的导数为0,可以得到关于α的表示如下:
α=2FVVT-2FAVVT-2Adiag(β)-1
根据Karush-Kuhn-Tucker条件αijaij=0,对上式各项乘以aij得到如下等式:
(FVVT)ijaij-(FAVVT)ijaij-(Adiag(β)-1)ijaij=0
根据上式得到如下的更新公式:
a ij ← a ij ( FVV T ) ij [ FAVV T + Adiag ( β ) - 1 ] ij
将上述更新公式迭代执行直到收敛,最终得到图书章节的摘要句子。
CN201410090143.6A 2014-03-12 2014-03-12 基于图书阅读行为的图书章节摘要生成方法 Active CN103885935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410090143.6A CN103885935B (zh) 2014-03-12 2014-03-12 基于图书阅读行为的图书章节摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410090143.6A CN103885935B (zh) 2014-03-12 2014-03-12 基于图书阅读行为的图书章节摘要生成方法

Publications (2)

Publication Number Publication Date
CN103885935A true CN103885935A (zh) 2014-06-25
CN103885935B CN103885935B (zh) 2016-06-29

Family

ID=50954830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410090143.6A Active CN103885935B (zh) 2014-03-12 2014-03-12 基于图书阅读行为的图书章节摘要生成方法

Country Status (1)

Country Link
CN (1) CN103885935B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI549003B (zh) * 2014-08-18 2016-09-11 葆光資訊有限公司 自動切割章節方法
CN106469176A (zh) * 2015-08-20 2017-03-01 百度在线网络技术(北京)有限公司 一种用于提取文本摘要的方法与设备
CN107608972A (zh) * 2017-10-24 2018-01-19 河海大学 一种多文本快速摘要方法
CN108231064A (zh) * 2018-01-02 2018-06-29 联想(北京)有限公司 一种数据处理方法及系统
CN109241863A (zh) * 2018-08-14 2019-01-18 北京万维之道信息技术有限公司 用于拆分阅读内容的数据处理方法及装置
CN111199151A (zh) * 2019-12-31 2020-05-26 联想(北京)有限公司 数据处理方法、及数据处理装置
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN115048507A (zh) * 2022-05-24 2022-09-13 维沃移动通信有限公司 摘要生成方法和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138528A1 (en) * 2000-12-12 2002-09-26 Yihong Gong Text summarization using relevance measures and latent semantic analysis
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
CN102841940A (zh) * 2012-08-17 2012-12-26 浙江大学 一种基于数据重构的文档摘要提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138528A1 (en) * 2000-12-12 2002-09-26 Yihong Gong Text summarization using relevance measures and latent semantic analysis
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
CN102841940A (zh) * 2012-08-17 2012-12-26 浙江大学 一种基于数据重构的文档摘要提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANYING HE等: "Document Summarization Based on Data Reconstruction", 《PROCEEDINGS OF THE TWENTY-SIXTY AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
ZHIMING ZHANG等: "《Web-Age Information Management》", 16 June 2013, VERLAG BERLIN HEIDELBERG *
乔少杰等: "基于中心性和PageRank的网页综合评分方法", 《西南交通大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI549003B (zh) * 2014-08-18 2016-09-11 葆光資訊有限公司 自動切割章節方法
CN106469176A (zh) * 2015-08-20 2017-03-01 百度在线网络技术(北京)有限公司 一种用于提取文本摘要的方法与设备
CN106469176B (zh) * 2015-08-20 2019-08-16 百度在线网络技术(北京)有限公司 一种用于提取文本摘要的方法与设备
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN107608972A (zh) * 2017-10-24 2018-01-19 河海大学 一种多文本快速摘要方法
CN108231064A (zh) * 2018-01-02 2018-06-29 联想(北京)有限公司 一种数据处理方法及系统
CN109241863A (zh) * 2018-08-14 2019-01-18 北京万维之道信息技术有限公司 用于拆分阅读内容的数据处理方法及装置
CN111199151A (zh) * 2019-12-31 2020-05-26 联想(北京)有限公司 数据处理方法、及数据处理装置
CN115048507A (zh) * 2022-05-24 2022-09-13 维沃移动通信有限公司 摘要生成方法和电子设备

Also Published As

Publication number Publication date
CN103885935B (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN103885935B (zh) 基于图书阅读行为的图书章节摘要生成方法
KR102302609B1 (ko) 신경망 아키텍처 최적화
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN104572631B (zh) 一种语言模型的训练方法及系统
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN104572614A (zh) 一种语言模型的训练方法及系统
CN117632098B (zh) 一种基于aigc的建筑智能设计系统
CN112734104A (zh) 一种融合双生成器双判别器的生成对抗网络和自编码器的跨域推荐方法
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN111143454B (zh) 一种文本输出方法、装置及可读存储介质
CN103530421A (zh) 基于微博的事件相似性度量方法及系统
CN117391497A (zh) 一种新闻稿件质量主客观评分一致性评价方法及系统
CN116935261A (zh) 数据处理方法及相关装置
CN114048742A (zh) 文本信息的知识实体和关系抽取方法及文本质量评估方法
CN102262659A (zh) 一种基于内容计算的音频标签传播方法
Amrouche et al. Multi-objective stochastic integer linear programming with fixed recourse
CN109614587B (zh) 一种智能人脉关系分析建模方法、终端设备及存储介质
CN108572956A (zh) 知识点切片的调用方法及装置
CN113361629A (zh) 一种训练样本生成的方法、装置、计算机设备及存储介质
CN114610741A (zh) 对话方法及系统
CN113761145B (zh) 语言模型训练方法、语言处理方法和电子设备
CN117131197B (zh) 一种招标书的需求类别处理方法、装置、设备及存储介质
CN115952290B (zh) 基于主动学习和半监督学习的案情特征标注方法、装置和设备
CN113254597B (zh) 模型训练方法、查询处理方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant