CN108763484A

CN108763484A - 一种基于lda主题模型的法条推荐方法

Info

Publication number: CN108763484A
Application number: CN201810534723.8A
Authority: CN
Inventors: 葛季栋; 李传艺; 雷妙妙; 李忠金; 冯奕; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-06

Abstract

本发明是一种基于LDA主题模型的法条推荐方法，包括以下步骤：提取裁判文书集构建训练语料；将裁判文书进行预处理，包括抽取出案件基本情况段落和引用法条列表，将案件基本情况进行中文分词，去除法律专有停用词以及法条名称标准化；对案件情况进行预处理；训练LDA主题模型提取与案件情况相似的裁判文书集；提取推荐法条集，设计法条关联度打分机制计算法条与案件的关联度，并结合频繁项集挖掘关联法条；输出推荐法条列表。本发明模拟法官在实际审判过程中，经常查阅相似裁判文书来决定法条引用的真实场景，从语义层面度量了裁判文书的相似度，能准确获得相似的裁判文书并进行关联法条推荐，提高了法条推荐的准确性。

Description

一种基于LDA主题模型的法条推荐方法

技术领域

本发明涉及一种法条推荐方法，具体涉及一种基于LDA主题模型的法条推荐方法，属于大数据挖掘技术领域。

背景技术

近年来，最高人民法院围绕全面依法治国战略部署，以“大数据、大格局、大服务”为理念，大力推进人民法院信息化建设。裁判文书作为法律审判活动记录的载体，完整反映了当事入主张、举证和质证的客观过程，并全面阐述了裁判结果形成的法律依据、事实证据和推理过程。裁判文书是一类重要的司法数据，截至2018年5月，已有超过4500万份裁判文书被收录并公布于中国裁判文书网。

基于这些司法大数据的研究工作也相继开展，“人工智能+法律”成为热点研究话题。基于自然语言处理和机器学习的语义检索，法律问答，法律援助，在线法院等都将使法律行业的运行方式变得更加智能与高效。

在案件审判过程中，法官需要结合当事人的诉求以及案件的证据与事实，阅读大量的法律法规来选择合适的法律法条作为依据，从而确定案件判决结果。由于成文法繁多，同一个问题可能会出现在不同的法律规范中，因此法官需要阅读大量的法律法规，这一过程通常需要耗费大量的时间和精力。由于这个原因，法院工作中的一些矛盾和问题逐渐显现，其中“同案不同判、法律适用的不统一”便是其中之一，同案同判成为广大公众对法律的诉求。对于案件当事人，在案件咨询与诉讼过程中，他们往往需要支付高昂的律师咨询费来了解案件的情况以及可能的判决结果。法条推荐的价值正体现在这两方面，一方面法条推荐可以为法官推荐案件可能适用的法条，提高法官的工作效率，帮助法官实现同案同判，确保公平正义，另一方面法条推荐可以帮助当事人了解同类案件的诉讼结果和相关法条，形成最佳的诉讼策略，节约法律咨询和诉讼的成本。

在自然语言处理中，主题模型是一种用于挖掘文本隐式语义主题的概率模型，主题表示一种概念，可以用词项以及词项的概率分布进行表示。主题模型对文本生成过程进行模拟，通过参数估计得到文本内容的主题概率分布。传统的向量空间模型以文档中的词语作为特征，构造出的特征向量往往维数过高，而当以主题模型表示文档时，可以将文档空间映射到一个低维的主题空间中，得到文档新的语义表达，从而弥补传统向量空间模型语义缺失的缺点。由于裁判文书具有半结构化和半口语化的特点，同时诉讼种类多样，成文法律繁多，裁判文书的表达方法千差万别，仅仅依靠字符层面的分析方式难以取得令人满意的效果，实现智能准确的法条推荐不仅需要对裁判文书的特点进行分析，还需要从语义的层面出发对裁判文书进行研究。因此本发明以主题模型算法为基础，裁判文书为数据源，着重研究了一种基于LDA主题模型的法条推荐方法。

发明内容

本发明是一种基于LDA主题模型的法条推荐方法，提供一种裁判文书文本预处理方法，包括自动构建法律专有停用词库和法条名称标准化的方法，并针对裁判文书的案件基本情况训练主题模型，通过案件基本情况的主题概率的相似度计算，获得相似的裁判文书集，基于相似裁判文书集，设计了法条关联程度的打分机制，并结合频繁项集挖掘的方法进行法条推荐。该方法能有效去除与案情表达无关的词语，降低模型训练的复杂度，该方法从语义层面度量案情的相似度，能准确获得相似的裁判文书集和关联法条，符合真实情况下，法官不仅需要关联法条，还需要相似的裁判文书的工作场景。

本发明所述的一种基于LDA主题模型的法条推荐方法，其特征在于包含以下步骤：

步骤(1)根据案由从裁判文书数据库中提取裁判文书集，构建训练语料；

步骤(2)裁判文书预处理；

步骤(3)用户输入预处理；

步骤(4)提取相似裁判文书集；

步骤(5)提取推荐法条集；

步骤(6)输出推荐法条列表。

1.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(1)中根据案由从裁判文书数据库中提取裁判文书集，构建训练语料。

2.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(2)中裁判文书预处理，具体包括；

步骤(2.1)使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表；

步骤(2.2)将案件基本情况段落进行中文分词，筛选出词性为名词n、动词v和形容词a的词汇，将案件基本情况段落转化成由词汇组成的列表，得到所有词汇的集合；

步骤(2.3)去停用词。首先构建法律专有停用词库：计算每个词语在所有文档中出现的词频，计算每个词语在某一特定案由下所有文档中出现的词频，计算每个词语的类别信息熵，按照文档频次和类别信息熵进行降序排序，筛选出文档频次大于某一阈值，类别信息熵大于某一闽值的词作为停用词库。接着去除停用词，包括去除法律专有停用词，去除词语长度小于2的词，去除高频词语，去除低频词语；

步骤(2.4)法条名称标准化。首先构建法条名称标准的映射关系：使用正则表达式分割引用法条的法律名称和法条编号，去除法律名称中的符号，统计法律名称的引用频次，按降序排列，选择高频法律名称作为标准化目标，接着使用莱文斯坦编辑距离算法来构建法律名称间的映射关系。接着标准化法条名称：使用正则表达式分割引用法条的法律名称和法条编号，去除法律名称中的符号，按照法条名称标准的映射关系，获得标准的法条名称，将法条编号中的阿拉伯数字统一成中文数字，使用下划线将标准化后的法条名称和法条编号连接起来。

3.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(3)中对用户输入的案件基本情况进行预处理，具体包括：

步骤(3.1)中文分词，筛选出词性为名词n、动词v和形容词a的词汇集合：

步骤(3.2)去除法律专有停用词；

步骤(3.3)去除文档频率高的词汇；

步骤(3.4)去除文档频率低的词汇。

4.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(4)中使用LDA算法训练主题模型，来将案件基本情况进行语义表达，通过主题概率的相似度计算，得到与用户输入的案件基本情况语义相似的裁判文书集。具体包括：

步骤(4.1)使用LDA算法训练主题模型。将预处理好后的裁判文书集分为训练集和测试集，使用训练集进行主题模型的训练，使用测试集进行主题模型效果的评估。训练目标是选择出最优的主题模型数量并获得裁判文书的主题模型。通过不断改变主题数量，训练主题模型，针对测试集计算主题模型的困惑度和文本的平均相似度，重复这个过程，绘制出主题模型效果的曲线，选择出最优的主题模型数量，并获得最优主题模型数量下的主题模型；

步骤(4.2)使用上述训练好的主题模型将用户输入的案件基本情况和裁判文书集中的案件基本情况段落转化成主题概率分布；

步骤(4.3)使用Jenson-Shannon分歧算法一一计算用户输入的案件基本情况与和裁判文书集中的案件基本情况段落的主题概率分布的相似度，得到裁判文书的语义相似度；

步骤(4.4)将所有裁判文书按照语义相似度降序排序，取最为相似的前N篇裁判文书作为相似裁判文书集。

5.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(5)中根据上一步骤中得到的相似裁判文书集，获取候选推荐法条，计算法条的关联程度，从而提取推荐法条集。具体包括：

步骤(5.1)获取相似裁判文书集中所有裁判文书引用的法条作为候选法条；

步骤(5.2)结合裁判文书的相似度和法条被引用次数设计法条关联程度的打分机制，计算所有候选法条的关联度；

步骤(5.3)将候选法条按照关联度降序排序，提取关联度最大的前K个法条作为推荐法条；

步骤(5.4)使用频繁项集挖掘的方法，提取推荐法条的关联法条一并作为法条推荐的结果。

6.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(6)输出推荐法条集。法条推荐的效果采用召回率进行评估。

本发明与现有技术相比，其显著优点是：使用正则表达式提取出文书中与法条推荐目标相关的段落，避免了全篇幅使用文书引入其他无关信息的问题，减少不必要的特征词汇对法条推荐结果的影响；结合词语的文档频率，类别频率和类别信息熵的自动构建法律专有停用词库的方法，有效获得了法律专有停用词库，大大节省了人工构造停用词库需要耗费的时间，并且通过本发明提出的预处理方法，大量的噪声数据被去除，与案件情况有关的词汇被保留下来，提高了主题模型训练的效果；通过不断调整主题数量，迭代评估主题模型效果的方法能有效获得较优的主题数量，从而准确地得到相似裁判文书集，符合真实应用场景下，法官不仅需要得到相关的法条，还需要得到相似的裁判文书的需求。当数据库中有新的裁判文书时，基于LDA的法条推荐方法无需重新训练模型，只需要使用原有的主题模型表达新的裁判文书，即可在法条推荐时将新的裁判文书集纳入选择范围内。

附图说明

图1基于LDA主题模型的法条推荐方法流程图

图2提取特定的裁判文书段落的正则表达式

图3裁判文书语料提取示例图

图4法律专有停用词库示例图

图5主题模型训练流程图

图6提取相似裁判文书集的方法流程图

图7基于案由与统计的法条推荐方法、基于常规文本相似度的法条推荐方法与基于LDA主题模型的法条推荐方法的实验对比图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决法条推荐问题，提出一种基于LDA主题模型的法条推荐方法方法。通过使用特定的正则规则，提取文书中与法条推荐目标相关的段落，避免了全篇幅使用文书引入其他无关信息的问题；结合词语的文档频率，类别频率和类别信息熵的自动构建法律专有停用词库的方法，有效获得了法律专有停用词库，大大节省了人工构造停用词库需要耗费的时间，并且通过本发明提出的预处理方法，大量的噪声数据被去除，与案件情况有关的词汇被保留下来，提高了主题模型训练的效果；通过迭代调整主题数量，评估主题模型效果，能有效获得较优的主题数量，从而准确地得到相似裁判文书集，符合真实应用场景下，法官不仅需要得到相关的法条，还需要得到相似的裁判文书的需求。本发明概括来说主要包括以下步骤：

步骤(2)裁判文书预处理；

步骤(3)用户输入预处理；

步骤(4)提取相似裁判文书集；

步骤(5)提取推荐法条集；

步骤(6)输出推荐法条列表。

上述一种基于LDA主题模型的法条推荐方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.由于诉讼种类繁多，考虑案件的案由可以有效缩小法条推荐的范围，因此首先根据案由从裁判文书数据库中提取裁判文书集，构建训练语料。

2.为了从裁判文书中获得与模型训练有关的内容段落，去除噪声数据，提高主题模型的训练效果，在步骤2中需要对裁判文书进行预处理。具体步骤是：

步骤(2.1)提取案件基本情况段落和引用法条列表。由于裁判文书具有半结构化的特点，一篇结构完整的裁判文书主要由案件基本情况段、原告诉称段、被告辩称段、证据段、查明事实段、判决结果、判决原因和所引用法律条文等部分组成，不同部分的内容具有不同的可采信度，为了减少噪音数据，提高模型训练的准确性，降低复杂度，需要提取裁判文书中合适的文书段落用于训练法条推荐模型。本发明使用正则表达式来提取特定的裁判文书段落，使用的正则表达式如图2所示。

以“民事判决书(20XX)甬慈周民初字第XX号”为例，分别提取出裁判文书的案件名称、案由、案件基本情况段、引用法律法条列表。提取结果示例如图3所示。

步骤(2.2)将案件基本情况段落进行中文分词。由于对案情内容表达有帮助的词语大多为名词n、动词v和形容词a，因此筛选出词性为名词n、动词v和形容词a的词汇，将案件基本情况段落转化成由词汇组成的列表，得到所有词汇的集合。以这样的方法，特殊符号、数字和英文字母都被去除，与案情有关的词被保留了下来。

步骤(2.3)去停用词。首先构建法律专有停用词库：计算每个词语在所有文档中出现的词频，计算每个词语在某一特定案由下所有文档中出现的词频，计算每个词语的类别信息熵，按照文档频次和类别信息熵进行降序排序，筛选出文档频次大于2000，类别信息熵大于2.0的词作为停用词库，法律专有停用词库示例如图4所示。接着去除停用词，包括去除法律专有停用词，去除词语长度小于2的词，去除高频词语，去除低频词语；

步骤(2.4)法条名称标准化。由于法官在书写裁判文书时对法条的写法不规范，同一法条在不同的裁判文书中的表述可能不同，因此需要统一和标准化法条名称。具体方法为首先构建法条名称标准的映射关系：使用正则表达式分割引用法条的法律名称和法条编号，去除法律名称中的特殊符号，统计法律名称的引用频次，按降序排列，选择高频法律名称作为标准化目标，接着使用莱文斯坦编辑距离算法来构建法律名称间的映射关系。接着标准化法条名称：使用正则表达式分割引用法条的法律名称和法条编号，去除法律名称中的特殊符号，按照法条名称标准的映射关系，获得标准的法条名称，将法条编号中的阿拉伯数字统一成中文数字，使用下划线将标准化后的法条名称和法条编号连接起来。

3.对用户输入的案件基本情况进行预处理，目标是去除用户输入的案件基本情况中的噪声数据。具体步骤包括：

步骤(3.1)将用户输入的案件基本情况进行中文分词，筛选出词性为名词n、动词v和形容词a的词汇集合；

步骤(3.2)去除法律专有停用词；

步骤(3.3)去除文档频率高的词汇；

步骤(3.4)去除文档频率低的词汇。

4.为了确保公平正义，法官在案件审判过程中，经常查阅案情相似的裁判文书来决定引用法条。参考这一真实的工作场景，本步骤旨在获得与用户输入的案件基本情况相似的裁判文书集。由于诉讼种类繁多，裁判文书的表达方法千差万别，仅仅依靠字符层面的分析方法无法挖掘案件情况的语义信息。因此本发明使用LDA算法训练主题模型，来将案件基本情况进行语义表达，通过主题概率的相似度计算，得到与用户输入的案件基本情况语义相似的裁判文书集。具体步骤包括：

步骤(4.1)使用LDA算法训练主题模型。将预处理好后的裁判文书集分为训练集和测试集，使用训练集进行主题模型的训练，使用测试集进行主题模型效果的评估。训练目标是选择出最优的主题模型数量并获得裁判文书的主题模型。主题数量是LDA模型的一个重要参数，如果主题数量过大，主题粒度就会过细，可能造成模型过拟合，泛化能力差。反之如果主题数量过小，主题粒度就会过粗，文本的语义信息将无法得到很好的表达。为了确定主题数量K的取值，我们需要确定主题模型的评估方法。困惑度(Perplexity)常被用作主题模型的评估标准，它的具体计算公式是：

其中M代表测试集中的语料数量，N_d代表第d篇文本中词语的个数，p(w_d)代表文本的概率，p(w)＝∑_zp(z，w)＝∑_zp(z)p(w|z)。困惑度可以理解为对于一篇文本，LDA模型有多不确定它是属于某个主题。主题数量越多，困惑度越小，但是模型越容易过拟合。因此需要找到困惑度小，主题数量相对也较小的主题数量。除此之外，还可以通过计算在某个主题数量K下，测试集文本的主题概率分布的平均相似度来评估主题模型的优劣程度，具体方法是：(1)将测试集中的每个文本都平均分成两部分T1和T2，T1和T2作为关联文本；(2)计算测试集中所有关联文本的平均相似度，关联文本的平均相似度越高越好；(3)随机从测试集中选择文本对(S1，S2)，计算文本对的平均相似度，随机文本的平均相似度越低越好。

本发明采取这两种评估方法，通过不断改变主题数量，训练主题模型，针对测试集计算主题模型的困惑度和文本的平均相似度，重复这个过程，绘制出主题模型效果的曲线，选择出最优的主题模型数量，并获得最优主题模型数量下的主题模型。主题模型训练的方法流程如图5所示。

步骤(4.3)使用Jenson-Shannon分歧算法一一计算用户输入的案件基本情况与和裁判文书集中的案件基本情况段落的主题概率分布的相似度，得到裁判文书的语义相似度。由于文本的主题分布是文本向量空间的映射，通过训练得到的主题模型可以得到文本的主题表示。裁判文书间的相似度可以通过计算它们的主题概率分布的距离来实现。由于主题是词向量的混合分布，因此本发明使用基于概率分布的Jenson-Shannon距离算法来计算JS分歧度，从而度量裁判文书的相似度，JS分歧度越小，代表两个裁判文书的概率分布越接近，即裁判文书越相似。JS距离计算方法是：

步骤(4.4)将所有裁判文书按照语义相似度降序排序，取最为相似的前N篇裁判文书作为相似裁判文书集，获取相似裁判文书的方法流程如图6所示。

5.提取推荐法条集。在提取相似裁判文书集步骤结束之后，我们得到了相似裁判文书集中各裁判文书的相似度排名、与输入案件的JS分歧度和引用法条列表。接下来面临的一个问题是如何通过对相似的裁判文书集的分析获得关联度最高的法条集合作为推荐结果。提取推荐法条集的方法步骤具体包括：

步骤(5.1)首先获取相似裁判文书集中所有裁判文书引用的法条作为候选法条。从步骤4中我们得到了相似裁判文书集，从相似裁判文书集中获取所有裁判文书的相似程度以及引用法条，例如，案件1与输入案件最相似，JS分歧度为0.1，案件1引用了法条1、法条2和法条4；案件4与输入案件第二相似，JS分歧度为0.13，案件4引用了法条1、法条5等等。

步骤(5.2)结合裁判文书的相似度和法条被引用次数设计法条关联程度的打分机制，计算所有候选法条的关联度。在计算候选法条的关联度时，需要从两个维度考虑来决定每个法条与输入案件情况的关联程度：一是该法条在所有相似裁判文书集的被引用次数，被引用次数越多，关联程度越大；二是引用该法条的裁判文书与输入的案件情况有多相似，相似程度越高，则该法条与新的案件有关的可信度越高，反之越低。本发明结合这两个重要的因素，设计的打分方法如下：

其中D_s是指引用了法条s的相似裁判文书集合，表示引用了法条s的相似裁判文书集合大小，JS(input，D_s(f))表示引用了法条s的裁判文书D_s(i)与输入的案件情况的JS分歧度。

步骤(5.4)挖掘协同出现的法条。我们发现在同一案由中往往存在多条法条协同出现的情况，因此对于上一步骤筛选出的前K个法条，进一步采用频繁项集挖掘的方法提取出与之频繁伴随出现的法条，一起作为推荐法条集。具体实验使用Apriori算法，最小支持度的值为100。

6.提取推荐法条集。

由于裁判文书的特殊性，不同案由下的裁判文书引用的法条数量不同，裁判文书的平均引用法条数量在三到十条左右。在法条推荐的场景下，好的推荐算法应该尽可能地覆盖到实际引用的法条。因此，本发明采用召回率来对法条推荐的效果进行评估。在实验评估时，本发明针对六种民事案由的裁判文书计算实验，对比了基于案由与统计的法条推荐方法、基于常规的文本相似度方法即TFIDF与余弦相似度相结合的法条推荐方法以及本发明提出的基于LDA主题模型的法条推荐方法的效果，实验结果如图7所示。其中AY-SP代表基于案由与统计的法条推荐方法，TFIDF-SP代表基于常规的文本相似度方法，LDA-SP代表本发明提出的基于LDA主题模型的法条推荐方法。可见，在六种案由上，本发明提取的法条推荐方法都优于其他方法。

上面已经参考附图对根据本发明实施的一种基于LDA主题模型的法条推荐方法进行了详细描述。本发明具有如下优点：使用正则表达式提取出文书中与法条推荐目标相关的段落，避免了全篇幅使用文书引入其他无关信息的问题，减少不必要的特征词汇对法条推荐结果的影响；结合词语的文档频率，类别频率和类别信息熵的自动构建法律专有停用词库的方法，有效获得了法律专有停用词库，大大节省了人工构造停用词库需要耗费的时间，并且通过本发明提出的预处理方法，大量的噪声数据被去除，与案件情况有关的词汇被保留下来，提高了主题模型训练的效果；通过迭代调整主题数量，评估主题模型效果，能有效获得较优的主题数量，从而准确地得到语义相似裁判文书集，符合真实应用场景下，法官不仅需要得到相关的法条，还需要得到相似的裁判文书的需求。当数据库中有新的裁判文书时，基于LDA的法条推荐方法无需重新训练模型，只需要使用原有的主题模型表达新的裁判文书，即可在法条推荐时将新的裁判文书集纳入选择范围内。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种基于LDA主题模型的法条推荐方法，其特征在于包含以下步骤：

步骤(2)裁判文书预处理；

步骤(3)用户输入预处理；

步骤(4)提取相似裁判文书集；

步骤(5)提取推荐法条集；

步骤(6)输出推荐法条列表。

2.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(1)中根据案由从裁判文书数据库中提取裁判文书集，构建训练语料。

3.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(2)中裁判文书预处理，具体包括；

步骤(2.3)去停用词。首先构建法律专有停用词库：计算每个词语在所有文档中出现的词频，计算每个词语在某一特定案由下所有文档中出现的词频，计算每个词语的类别信息熵，按照文档频次和类别信息熵进行降序排序，筛选出文档频次大于某一阈值，类别信息熵大于某一阈值的词作为停用词库。接着去除停用词，包括去除法律专有停用词，去除词语长度小于2的词，去除高频词语，去除低频词语；

4.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(3)中对用户输入的案件基本情况进行预处理，具体包括：

步骤(3.1)中文分词，筛选出词性为名词n、动词v和形容词a的词汇集合；

步骤(3.2)去除法律专有停用词；

步骤(3.3)去除文档频率高的词汇；

步骤(3.4)去除文档频率低的词汇。

5.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(4)中使用LDA算法训练主题模型，来将案件基本情况进行语义表达，通过主题概率的相似度计算，得到与用户输入的案件基本情况语义相似的裁判文书集。具体包括：

步骤(4.3)使用Jenson-Shannon分歧算法一一计算用户输入的案件基本情况与裁判文书集中的案件基本情况段落的主题概率分布的相似度，得到裁判文书的语义相似度；

6.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(5)中根据上一步骤中得到的相似裁判文书集，获取候选推荐法条，计算法条的关联程度，从而提取推荐法条集。具体包括：

7.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法，其特征在于步骤(6)输出推荐法条集。法条推荐的效果采用召回率进行评估。