CN103885935A

CN103885935A - 基于图书阅读行为的图书章节摘要生成方法

Info

Publication number: CN103885935A
Application number: CN201410090143.6A
Authority: CN
Inventors: 鲁伟明; 安文佳; 吴江琴; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2014-06-25
Anticipated expiration: 2034-03-12
Also published as: CN103885935B

Abstract

本发明公开了一种基于图书阅读行为的图书章节摘要生成方法。基于图书阅读行为的图书章节摘要生成技术本质上是一种文档摘要生成技术，即将用户阅读行为加入文档摘要生成之中，并且应用于工程科教图书资源上。本发明首先采用图书页面量化阅读行为评分机制计算图书章节中每页书页的权重大小，然后将图书章节按句子分割，句子之间的相似度按距离计算并将已有的句子权重值按流行结构传播，最后基于数据重构的思想挑选出最能够代表图书章节内容的句子作为图书章节摘要。本发明将用户阅读行为收集，用于对图书书页的重要性评价中，通过基于数据重构的文档摘要生成思想得到对应的图书章节摘要，进而辅助用户快速了解图书章节内容，提高图书阅读效率。

Description

基于图书阅读行为的图书章节摘要生成方法

技术领域

本发明涉及文档摘要生成方法，尤其涉及一种基于图书阅读行为的图书章节摘要生成方法。

背景技术

随着数字图书馆的日益发展，用户在阅读图书前，希望能够快速准确的了解图书章节内容信息，迫切希望数字图书馆中能够提供图书章节摘要的服务。

图书章节摘要生成本质上是一种基于阅读行为的文档摘要生成方法，即将用户阅读行为建模，根据行为模型将用户阅读因素加入文档摘要生成算法中，得到受用户阅读影响的摘要结果。如果直接采用传统的文档摘要生成方法，图书章节摘要可能不会从用户阅读角度来准确表达章节内容信息，这样也就无法满足用户的需求。

在传统的阅读中，读者阅读的目标对象是简单确定的语言符号。在阅读的开始和阅读的结束，读者仅仅通过文字化的内容信息获取并得到认知，是一个脱离于社会的鼓励的存在。基于网络的社会化阅读的出现，使阅读者从阅读内容选择的开始到阅读内容结束，部分或全部过程都与社会化网络形成了关联。在这种人与人之间相互关联的社会网络中，读者的阅读行为往往就成为需要关注和研究的对象。

社会化阅读本身是以内容为核心，以社交关系为纽带，注重分享、交流和互动的阅读新模式。用户在内容阅读的过程中，可以与同样喜好的用户进行互动，阅读结束后，可以与阅读同一内容的大众进行交往联系，甚至形成议题融合的社会化。分享、交流和互动贯穿于社会化阅读的全过程。而在这些互动交流中，产生了大量新的有价值的内容，如评论、摘要、笔记、关联或交叉信息。

在进行图书章节摘要生成时所采用的基础摘要生成算法是基于数据重构的文档摘要生成算法(DSDR)。基于数据重构的文档摘要生成算法是一种抽取式的方法，该方法认为好的文档摘要应该满足一个特点：从结果摘要能够最大程度的重构原始文档，即的结果摘要能够尽量的覆盖整个文档所表达的内容信息。

在基于数据重构的文档摘要生成算法的基础上，把用户在社会化阅读时的各种行为考虑进去，比如阅读的时候用户的重要句子圈画行为，这些被圈画的句子往往被认为有比较高的代表性，与其他没有被圈画的句子相比要具有比较高的影响权重。

发明内容

本发明的目的是为了提供能够方便用户快速了解图书章节信息的章节摘要，给出了一种基于图书阅读行为的图书章节摘要生成方法。

本发明解决其技术问题采用的技术方案如下：

基于图书阅读行为的图书章节摘要生成方法的步骤如下：

1)构建图书页面量化阅读行为评分机制：将用户阅读行为按阅读深度由浅到深分为四个层次，分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次，基于这四个层次得到基于用户阅读行为的图书页面评分机制；

2)句子权重值传播：通过步骤1)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分，将图书章节按句子分割，图书书页量化得分会赋予每个句子初始的权重值，基于句子之间的距离，利用数据流行结构上的排序算法进行句子权重值的传播；

3)图书章节摘要生成：句子权重值得到传播后，将句子权重值加入基于数据重构的文档摘要生成算法中，从图书章节中挑选重要句子作为章节摘要。

所述的步骤1)为：

2.1将用户阅读某页的行为划分为四个层次，分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次，不同层次对书页有不同的得分贡献；

2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度，以此来进行评分，图书页面用户留存率是指对于某图书页面来讲，相对于浏览时的用户数，进行到收藏、浅度阅读和深度阅读的留存用户数的比例，图书页面用户流失率是指对于上一步留存用户数，这一步所减少的用户数的比例，

建立基于用户阅读行为的评分公式：

V_i=[(p_i+q_i)／p_i]exp(1-p_i) i=1,2,3,4

图书页面用户留存率公式：

p_i=U_i／U₁ i=1,2,3,4

图书页面用户流失率公式：

q_{i} = \{\begin{matrix} U_{i} / U_{i - 1} & i = 2,3,4 \\ 1 & i = 1 \end{matrix}

其中：V_i为整个用户群体的阅读行为第i步对图书某页的得分贡献；p_i为第i步相对于浏览的留存率；q_i为第i步相对于第i-1步的流失率；U_i为进行到第i步的用户数；

2.3图书页面访问时间有先后之分，越先访问并标注该图书页面的用户对该页面的贡献越大，基于图书页面关键行为节点的评分机制可以计算图书页面的重要程度，图书页面的重要程度的综合平分公式如下：

s_{j} = \frac{Σ_{u &Element; R_{j}} W_{uj} \times S_{uj}}{Σ_{u &Element; R_{j}} W_{uj}}

W_{uj} = \{\begin{matrix} \log_{2} (T_{j} / (t_{uj} - t_{j})) & t_{uj} &NotEqual; t_{j} \\ \log_{2} T_{j} & t_{uj} = t_{j} \end{matrix}

S_{uj} = Σ_{i = 1}^{L} V_{ij}

上述式子中：s_j为图书第j页的评分值；W_uj为用户u对图书第j页的贡献权重；T_j为图书第j页被访问时间的总和；t_uj为用户u对图书第j页的第一次访问的时间；t_j为图书第j页第一次被访问的时间；S_uj为用户u对图书第j页所到达的关键行为步骤的评分值之和，V_ij为用户u对图书第j页所达到第i步关键行为步骤的评分值；L为用户u阅读图书第j页所到达的深度及关键步骤数；

2.4根据以上评分机制的方法能够对图书每一页在书中的重要性给出量化的评分，因为图书阅读群体的差异性，为了避免图书书页评分因访问用户数少而评分高的现象，在实际的书页评价过程中，对访问用户数和评分进行归一化处理，得到了最终的图书页面的综合评分公式如下：

{PageScore}_{j} = [{\log u}_{j} - \overset{&OverBar;}{{\log u}_{J}}] + [\log_{2} s_{j} - \overset{&OverBar;}{\log_{2} s_{J}}]

上式中：u_j为图书页面j的浏览用户数，s_j为对图书页面j的评分，PageScore_j为图书书页的评分，利用与平均值比较的方法可知，只有浏览图书页面的用户数和读者对该页面的评分值都很高的时候，综合评分才会高，根据用户阅读行为在图书阅读中的特点，建立基于用户阅读行为的图书页面重要程度评价体系，通过图书页面阅读的四个层次量化用户行为，通过计算四个层次的评价贡献值来定义用户从浏览层次到深度阅读层次到达的难度，最终通过图书页面上用户群体的阅读行为来计算量化该页面的重要性。

所述的步骤2)为：

3.1在步骤1)中给出了图书页面j的得分PageScore_j，这个得分反映了页面j在图书中的重要性，同时需要考虑被划句子在该书页中具有相对重要性，句子的重要性与页面得分的关系如下：

w_{i} = \{\begin{matrix} \frac{L_{i} * {PageScore}_{j}}{Σ_{i = 1}^{n} (L_{i} * {PageScore}_{j})} & L_{i} &NotEqual; 0 \\ 0 & L_{i} = 0 \end{matrix}

上式中的w_i表示句子v_i当前的权重值，假设给定文档句子集合为

其中v_i表示集合V中第i个句子，把被用户用直线划过的句子放在集合的前面，假定前k个句子是用户划过的，通过剩下句子与前k个句子的关系来求句子的权重值；

3.2令dis：

表示在集合V上的距离度量方式，则可以得到每对句子v_i和句子v_j之间的距离dis(v_i，v_j)，令映射表示分配给每个句子v_i权重值f_i的排序函数，向量f=[f₁，...，f_n]^T，向量w=[w₁，...，w_n]^T，其中，如果句子v_i被划过则w_i≠0，否则w_i=0，w_i表示每个句子的初始权重值；

3.3在数据流形结构上的权重传播算法表示如下：

Step1：计算句子向量两两之间的距离dis(v_i，v_j)，并且升序排列，按升序列表在两两句子向量所对应的节点之间连接一条边直到得到连通图；

Step2：定义关联矩阵W，满足：如果句子向量v_i和v_j对应的点之间存在一条边的话，W_ij=exp[-dis²(v_i，v_j)／2σ²]；如果句子向量v_i和v_j对应的点之间不存在边的话，W_ij=0；并且W_ii=0；Step3：对关联矩阵W进行对称标准化，得到矩阵S：S=D^-1／2WD^-1／2，式中D是对角矩阵，对角矩阵D的对角元素项

D_{ii} = Σ_{j = 1}^{n} W_{ij};

Step4：迭代计算f(t+1)=aSf(t)+(1-α)w直到收敛，α是一个取值范围在[0，1)的参数；

Step5：令

表示序列{f_i(t)}的极限，得到句子权重的极限序列为

{{f_{1}}^{*}, . . ., f_{n}^{*}},

句子权重向量为

f = {[{f_{1}}^{*}, . . ., f_{n}^{*}]}^{T};

3.4在Step4中，参数α用来指定邻居节点对该节点的权重值贡献和初始的权重值；由于算法中的矩阵S是一个对角矩阵，所以权重值的传播过程是对称的；而对于序列{f(t)}的收敛值，计算f^*=(I-αS)^-1w；经过权重值的传播，就得到了图书章节中每个句子的合理权重值。

所述步骤3)为：

4.1得到图书章节句子v_i的权重值

权重值

反映了句子v_i在图书章节中的重要性，将n个权重值

作为矩阵F的对角元素，对n个权重值进行对角矩阵化，即

得到对角矩阵F，将对角矩阵F加入基于数据重构的文档摘要生成算法；

4.2在文档摘要生成过程中重新定义线性非负数据重构算法的目标函数如下：

\min_{a_{i}, β} J = Σ_{i = 1}^{n} {{f_{i}}^{*} {| | v_{i} - V^{T} a_{i} | |}^{2} + Σ_{j = 1}^{n} \frac{a_{ij}^{2}}{β_{j}}} + γ {| | β | |}_{1}

s.t.β_j≥0，a_ij≥0，and a_i∈Rⁿ

上式中，每个句子的挑选过程加入了图书章节句子v_i的权重值f_i ^*，其中a_ij≥0表明该方法只允许集合空间中句子的加法运算，不允许减法运算；同时β=[β₁，β₂，...，β_n]^T是一个辅助变量；如果β_j=0的话，则所有的a_1j，...，a_nj为0，这意味着第j列的候选句子没有被选中，γ是正则项参数；

4.3基于数据重构的文档摘要生成算法的目标函数是一个凸优化问题，可以保证全局最优解，此时，固定a_i，令J对β的导数为0，得到β的最小解如下：

β_{j} = \sqrt{\frac{Σ_{i = 1}^{n} a_{ij}^{2}}{γ}}

当得到了β的最小解之后，非负约束下的最小化问题可以用拉格朗日方法求解；

4.4令α_ij为约束条件a_ij≥0和A=[a_ij]下的拉格朗日算子，则拉格朗日公式L如下：

L=J+Tr[αA^T]=Tr[F(V-AV)(V-AV)^T+diag(β)^-1A^TA]+γ||β||₁+Tr[αA^T]，α=[α_ij]

F是步骤4.1中的对角矩阵，对角矩阵F对角线上的元素项分别为

也是一个对角矩阵，对角矩阵diag(β)对角线上的元素项分别为β₁，...，β_n；

4.5拉格朗日公式L对A求导结果如下：

\frac{&PartialD; L}{&PartialD; A} = - 2 {FVV}^{T} + 2 {FAVV}^{T} + 2 Adiag {(β)}^{- 1} + α

令的导数为0，可以得到关于α的表示如下：

α=2FVV^T-2FAVV^T-2Adiag(β)^-1

根据Karush-Kuhn-Tucker条件α_ija_ij=0，对上式各项乘以a_ij得到如下等式：

(FVV^T)_ija_ij-(FAVV^T)_ija_ij-(Adiag(β)^-1)_ija_ij=0

根据上式得到如下的更新公式：

a_{ij} &LeftArrow; \frac{a_{ij} {({FVV}^{T})}_{ij}}{{[{FAVV}^{T} + Adiag {(β)}^{- 1}]}_{ij}}

将上述更新公式迭代执行直到收敛，最终得到图书章节的摘要句子。

本发明方法与现有技术相比具有的有益效果：

1.该方法结合了用户阅读行为建模和文档摘要生成方法，将基于数据重构的文档摘要生成算法应用于图书章节摘要生成上，得到图书章节的摘要信息；

2.该方法对用户阅读行为进行了分析建模，建模方法采用基于阅读深度的思想，对阅读行为进行层次划分，最终给出了图书书页的综合评分体系，以得分高低表示图书书页的重要程度；

3.该方法以图书章节的句子为单位，根据已有的句子权重值在数据流行空间上进行权重值的传播，最后得到每个句子的合理权重值大小，使得对用户行为的反映更加准确。

附图说明

图1是基于图书阅读行为的图书章节摘要生成方法系统架构图；

图2是本发明的句子权重值传播方法步骤图；

图3是本发明实施例的图书目录图；

图4是本发明实施例的第一章节示意图；

图5是本发明实施例的章节摘要生成结果图。

具体实施方式

如图1和图2所示，基于图书阅读行为的图书章节摘要生成方法的步骤如下：

所述的步骤1)为：

2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度，以此来进行评分，评分与留存率之间存在一种指数衰减的关系，评分在某一步的值与上一步的流失率相关，还与初始阶段的留存率相关，这里先给出图书页面用户留存率和流失率定义，图书页面用户留存率是指对于某图书页面来讲，相对于浏览时的用户数，进行到收藏、浅度阅读和深度阅读的留存用户数的比例，图书页面用户流失率是指对于上一步留存用户数，这一步所减少的用户数的比例，

建立基于用户阅读行为的评分公式：

V_i=[(p_i+q_i)／p_i]exp(1-p_i) i=1,2,3,4

图书页面用户留存率公式：

p_i=U_i／U₁ i=1,2,3,4

图书页面用户流失率公式：

q_{i} = \{\begin{matrix} U_{i} / U_{i - 1} & i = 2,3,4 \\ 1 & i = 1 \end{matrix}

其中：V_i为整个用户群体的阅读行为第i步对图书某页的得分贡献；p_i为第i步相对于浏览的留存率；q_i为第i步相对于第i-1步的流失率；Ui为进行到第i步的用户数；

2.3图书页面访问时间有先后之分，越先访问并标注该图书页面的用户对该页面的贡献越大，如果第一个访问用户就对某页面进行了深度阅读，则该页面的重要程度相对要高一些，基于图书页面关键行为节点的评分机制可以计算图书页面的重要程度，图书页面的重要程度的综合平分公式如下：

s_{j} = \frac{Σ_{u &Element; R_{j}} W_{uj} \times S_{uj}}{Σ_{u &Element; R_{j}} W_{uj}}

W_{uj} = \{\begin{matrix} \log_{2} (T_{j} / (t_{uj} - t_{j})) & t_{uj} &NotEqual; t_{j} \\ \log_{2} T_{j} & t_{uj} = t_{j} \end{matrix}

S_{uj} = Σ_{i = 1}^{L} V_{ij}

{PageScore}_{j} = [{\log u}_{j} - \overset{&OverBar;}{{\log u}_{J}}] + [\log_{2} s_{j} - \overset{&OverBar;}{\log_{2} s_{J}}]

所述的步骤2)为：

w_{i} = \{\begin{matrix} \frac{L_{i} * {PageScore}_{j}}{Σ_{i = 1}^{n} (L_{i} * {PageScore}_{j})} & L_{i} &NotEqual; 0 \\ 0 & L_{i} = 0 \end{matrix}

3.2令dis：

表示在集合V上的距离度量方式，则可以得到每对句子v_i和句子v_j之间的距离dis(v_i，v_j)，令映射表示分配给每个句子v_i权重值fi的排序函数，向量f=[f₁，...，f_n]^T，向量w=[w₁，...，w_n]^T，其中，如果句子vi被划过则w_i≠0，否则w_i=0，w_i表示每个句子的初始权重值；

3.3在数据流形结构上的权重传播算法表示如下：

Step2：定义关联矩阵W，满足：如果句子向量v_i和v_j对应的点之间存在一条边的话，W_ij=exp[-dis²(v_i，v_j)／2σ²]；如果句子向量v_i和v_j对应的点之间不存在边的话，W_ij=0；并且Wii=0；Step3：对关联矩阵W进行对称标准化，得到矩阵S：S=D^-1／2WD^-1／2，式中D是对角矩阵，对角矩阵D的对角元素项

D_{ii} = Σ_{j = 1}^{n} W_{ij};

Step4：迭代计算f(t+1)=αSf(t)+(1-α)w直到收敛，α是一个取值范围在[0，1)的参数；

Step5：令表示序列{fi(t)}的极限，得到句子权重的极限序列为

{{f_{1}}^{*}, . . ., f_{n}^{*}},

句子权重向量为

f = {[{f_{1}}^{*}, . . ., f_{n}^{*}]}^{T};

3.4在Step4中，参数α用来指定邻居节点对该节点的权重值贡献和初始的权重值；由于算法中的矩阵S是一个对角矩阵，所以权重值的传播过程是对称的；而对于序列{f(t)}的收敛值，计算f^*=(I-aS)^-1w；经过权重值的传播，就得到了图书章节中每个句子的合理权重值。

所述步骤3)为：

4.1得到图书章节句子v_i的权重值f_i ^*，权重值f_i ^*反映了句子v_i在图书章节中的重要性，将n个权重值f_i ^*作为矩阵F的对角元素，对n个权重值进行对角矩阵化，即F_ii=f_i ^*，得到对角矩阵F，将对角矩阵F加入基于数据重构的文档摘要生成算法；

\min_{a_{i}, β} J = Σ_{i = 1}^{n} {{f_{i}}^{*} {| | v_{i} - V^{T} a_{i} | |}^{2} + Σ_{j = 1}^{n} \frac{a_{ij}^{2}}{β_{j}}} + γ {| | β | |}_{1}

s.t.βj≥0，a_ij≥0，and a_i∈Rⁿ

上式中，每个句子的挑选过程加入了图书章节句子v_i的权重值f_i ^*，其中a_ij≥0表明该方法只允许集合空间中句子的加法运算，不允许减法运算；同时

β=[β₁，β₂，...，β_n]^T是一个辅助变量；如果β_j=0的话，则所有的a_1j，...，a_nj为0，这意味着第j列的候选句子没有被选中，γ是正则项参数；

β_{j} = \sqrt{\frac{Σ_{i = 1}^{n} a_{ij}^{2}}{γ}}

F是步骤4.1中的对角矩阵，对角矩阵F对角线上的元素项分别为diag(β)也是一个对角矩阵，对角矩阵diag(β)对角线上的元素项分别为β₁，...，β_n；

4.5拉格朗日公式L对A求导结果如下：

\frac{&PartialD; L}{&PartialD; A} = - 2 {FVV}^{T} + 2 {FAVV}^{T} + 2 Adiag {(β)}^{- 1} + α

令

的导数为0，可以得到关于α的表示如下：

α=2FVV^T-2FAVV^T-2Adiag(β)^-1

(FVV^T)_ija_ij-(FAVV^T)_ija_ij-(Adiag(β)^-1)_ija_ij=0

根据上式得到如下的更新公式：

a_{ij} &LeftArrow; \frac{a_{ij} {({FVV}^{T})}_{ij}}{{[{FAVV}^{T} + Adiag {(β)}^{- 1}]}_{ij}}

实施例

如附图3至附图5所示，给出了图书章节摘要生成方法的一个应用实例。下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

(1)在系统已经预处理所有的图书章节，得到图书章节文档内容。假设用户正在阅读图书《分布式计算原理与应用》的第一章“分布式计算简介”的第一节“定义”，想要知道这一节的章节摘要，点击“目录”按钮，双击对应章节，系统首先获取该章节的文本信息和用户的阅读行为等数据。

(2)根据用户阅读行为数据分析用户在该章节阅读的类型和层次，根据图书书页的综合评分公式得到图书书页的重要度量化得分。

(3)将图书该章节的文本数据按句子划分，结合用户阅读画线行为和图书书页的量化得分，得到了被划线句子的初始权重值。

(4)将句子做分词，去除停用词等处理，每个句子构建一个高维空间的向量，根据向量之间的距离得到句子两两之间的相似度。

(5)通过数据流形空间上的排序方法进行句子初始权重值的传播，最后得到每个句子合理的权重值。

(6)将句子权重值矩阵F加入基于数据重构的文档摘要生成算法中，执行算法直到收敛从该图书章节中选取若干句子(视章节长短而定)作为该图书章节的摘要信息，最后返回给用户。

本实例的运行结果在附图3至中显示，用户正在阅读图书，可以通过目录查看对应章节的摘要内容，方便用户更快更详细的了解章节内容，这种图书章节摘要生成方法有良好的使用价值和应用前景。

Claims

1.一种基于图书阅读行为的图书章节摘要生成方法，其特征在于它的步骤如下：

2.根据权利要求1中所述的基于图书阅读行为的图书章节摘要生成方法，其特征在于所述的步骤1)为：

建立基于用户阅读行为的评分公式：

V_i=[(p_i+q_i)／p_i]exp(1-p_i) i=1,2,3,4

图书页面用户留存率公式：

p_i=U_i／U₁ i=1,2,3,4

图书页面用户流失率公式：

q_{i} = \{\begin{matrix} U_{i} / U_{i - 1} & i = 2,3,4 \\ 1 & i = 1 \end{matrix}

2.3图书页面访问时间有先后之分，越先访问并标注该图书页面的用户对该页面的贡献越大，基于图书页面关键行为节点的评分机制计算图书页面的重要程度，图书页面的重要程度的综合平分公式如下：

s_{j} = \frac{Σ_{u &Element; R_{j}} W_{uj} \times S_{uj}}{Σ_{u &Element; R_{j}} W_{uj}}

W_{uj} = \{\begin{matrix} \log_{2} (T_{j} / (t_{uj} - t_{j})) & t_{uj} &NotEqual; t_{j} \\ \log_{2} T_{j} & t_{uj} = t_{j} \end{matrix}

S_{uj} = Σ_{i = 1}^{L} V_{ij}

{PageScore}_{j} = [{\log u}_{j} - \overset{&OverBar;}{{\log u}_{J}}] + [\log_{2} s_{j} - \overset{&OverBar;}{\log_{2} s_{J}}]

3.根据权利要求1所述的基于图书阅读行为的图书章节摘要生成方法，其特征在于所述的步骤2)为：

w_{i} = \{\begin{matrix} \frac{L_{i} * {PageScore}_{j}}{Σ_{i = 1}^{n} (L_{i} * {PageScore}_{j})} & L_{i} &NotEqual; 0 \\ 0 & L_{i} = 0 \end{matrix}

上式中的w_j表示句子v_i当前的权重值，假设给定文档句子集合为

3.2令dis：表示在集合V上的距离度量方式，则可以得到每对句子v_i和句子v_j之间的距离dis(v_i，v_j)，令映射

表示分配给每个句子v_i权重值f_i的排序函数，向量f=[f₁，...，f_n]^T，向量w=[w₁，...，w_n]^T，其中，如果句子v_i被划过则w_i≠0，否则w_i=0，w_i表示每个句子的初始权重值；

3.3在数据流形结构上的权重传播算法表示如下：

D_{ii} = Σ_{j = 1}^{n} W_{ij};

Step5：令f_i ^*表示序列{f_i(t)}的极限，得到句子权重的极限序列为句子权重向量为

4.根据权利要求1所述的基于图书阅读行为的图书章节摘要生成方法，其特征在于所述步骤3)为：

4.1得到图书章节句子v_i的权重值f_i ^*，权重值f_i ^*反映了句子v_i在图书章节中的重要性，将n个权重值f_i ^*作为矩阵F的对角元素，对n个权重值进行对角矩阵化，即F_ii=f_i ^*，得到对角矩阵F，将对角矩阵F加入基于数据重构的文档摘要生成

算法；

\min_{a_{i}, β} J = Σ_{i = 1}^{n} {{f_{i}}^{*} {| | v_{i} - V^{T} a_{i} | |}^{2} + Σ_{j = 1}^{n} \frac{a_{ij}^{2}}{β_{j}}} + γ {| | β | |}_{1}

s.t.β_j≥0，a_ij≥0，and a_i∈Rⁿ

β_{j} = \sqrt{\frac{Σ_{i = 1}^{n} a_{ij}^{2}}{γ}}

diag(β)也是-个对角矩阵，对角矩阵diag(β)对角线上的元素项分别为β₁，...，β_n；

4.5拉格朗日公式L对A求导结果如下：

\frac{&PartialD; L}{&PartialD; A} = - 2 {FVV}^{T} + 2 {FAVV}^{T} + 2 Adiag {(β)}^{- 1} + α

令

的导数为0，可以得到关于α的表示如下：

α=2FVV^T-2FAVV^T-2Adiag(β)^-1

(FVV^T)_ija_ij-(FAVV^T)_ija_ij-(Adiag(β)^-1)_ija_ij=0

根据上式得到如下的更新公式：

a_{ij} &LeftArrow; \frac{a_{ij} {({FVV}^{T})}_{ij}}{{[{FAVV}^{T} + Adiag {(β)}^{- 1}]}_{ij}}