CN111177382B

CN111177382B - 基于FastText算法的智能法条推荐辅助系统

Info

Publication number: CN111177382B
Application number: CN201911333115.1A
Authority: CN
Inventors: 张世全; 贺巧琳; 胡兵; 张卫华; 杨超群; 庞彦燕; 严若冰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-12-08
Anticipated expiration: 2039-12-23
Also published as: CN111177382A

Abstract

本发明公开基于FastText算法的智能法条推荐辅助系统，包括裁判文书数据集、词向量文本库、法律词向量、文档向量文本库、文本分类模型；裁判文书数据集用于存储裁判文书；词向量文本库用于储存文段类别，文档向量文本库用于储存文段类别；文段类别是裁判文书中的内容；法律词向量由预训练的通用词向量作为起始向量，再使用FastText无监督学习算法在词向量文本库上训练得到的；文本分类模型是将训练好的法律词向量作为起始向量，再使用FastText监督学习算法在文档向量文本库上进行文本分类得到的。本发明针对案情描述全面精准地推荐适用法条，为人工智能提供司法辅助工作开拓新的思路，针对各类型的犯罪，如骗罪、抢劫、经济犯罪或离婚纠纷案件分别建立文本分类模型。

Description

基于FastText算法的智能法条推荐辅助系统

技术领域

本发明属于司法庭审辅助系统领域，尤其是基于FastText算法的智能法条推荐辅助系统。

背景技术

随着社会经济的高速发展，诉讼爆炸的态势越来越得到关注，如何提高案件办理效率成为了亟待解决的问题。而人工智能在司法领域的不断突破，正好适应了提高诉讼效率的需求。比如，法官经常同时面对不同案件类型的复杂案件，涉及的法律法规、司法解释纷繁复杂，尤其是司法解释，最高人民法院经常会发布最新的司法解释，法官同时办理不同类型案件，显然不可能全都熟记于心，必然会耗费大量时间去翻查与案件有关的最新法条。因此，如何快速地通过人工智能对现有案件事实进行分析，然后实时、准确地为法官提供包括司法解释在内的适用法条推送，对于辅助法官审理案件有着重要的意义。

发明内容

本发明通过设计基于FastText算法的智能法条推荐辅助系统，解决的技术问题是：最终达到了针对案情描述，全面精准地推荐适用法条快速地通过人工智能对现有案件事实进行分析，然后实时、准确地为法官提供包括司法解释在内的适用法条推送，辅助法官审理案件。

本发明解决其技术问题的解决方案是：

基于FastText算法的智能法条推荐辅助系统，包括裁判文书数据集、词向量文本库、法律词向量、文档向量文本库、文本分类模型；所述裁判文书数据集用于存储裁判文书；所述词向量文本库用于储存文段类别，所述文档向量文本库用于储存文段类别；所述文段类别是裁判文书中的内容；所述法律词向量由预训练的通用词向量作为起始向量，再使用FastText无监督学习算法在词向量文本库上训练得到的；所述文本分类模型是将训练好的法律词向量作为起始向量，再使用FastText监督学习算法在文档向量文本库上进行文本分类得到的。

进一步地，基于FastText算法的智能法条推荐辅助系统，其特征在于，所述的裁判文书包含诈骗罪、抢劫、经济犯罪或离婚纠纷案件的裁判文书；所述裁判文书是一个四列的表,每列依次表示标识符、文段类别号、段落序号和文本。

进一步地，所述文段类别包括判决书名称、案号、当事人信息、案件审理信息、原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、案件受理费、上诉法院、文书尾部、第三人述称、法院名称、文书类型、裁判结果和证据。

基于FastText算法的智能法条推荐辅助系统的训练方法，包含以下步骤：

A、整理裁判文书，将每份裁判文书排列成四列的表,每列依次表示标识符、文段类别号、段落序号和文本，文段类别号分别是1到17的不间断的自然数，自然数的序号代表的文段类别依次包括判决书名称、案号、当事人信息、案件审理信息、原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、案件受理费、上诉法院、文书尾部、第三人述称、法院名称、文书类型、裁判结果和证据，将文段类别号为5、6、7、8、9、16，裁判文书类别为原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、裁判结果，提取到词向量文本库中，将文段类别号为的7、8，裁判文书类别为法院认定事实和法院说理部分提取到文档向量文本库中；

B、对词向量文本库和文档向量文本库中的句子进行分词，即在相邻词之间插入空格，然后再删去包括有“了、吧、的”的无实意停用词；

C、从文段类别号为3的文段类别中提取当事人信息，将词向量文本库和文档向量文本库中对应行的姓名字符串替换成对应的原被告字符串，从文段类别号为9的文段类别提取案件所用的法条字符串，每段法条字符串前添加相同的识别前缀字符串，再将合成的字符串添加到文档向量文本库对应行的行首，合成的字符串分别用空格分隔开；

D、以预训练的通用词向量作为起始向量，使用FastText无监督学习算法在词向量文本库上训练法律词向量；

E、以步骤D中训练好的法律词向量作为起始向量，使用FastText监督学习算法在文档向量文本库上进行文本分类，并得到文本分类模型；

F、将训练好的文本分类模型提供给应用编程接口API供开发者调用，开发者可以得到案情描述文本指定数量的，或置信度高于指定阈值的适用法条。进一步地，所述的裁判文书包含诈骗罪、抢劫、经济犯罪或离婚纠纷案件的裁判文书；所述裁判文书是一个四列的表,每列依次表示标识符、文段类别号、段落序号和文本，不同类型的案件建立各自的文本库，文本库中每行包含同一份裁判文书所有被提取内容，因为每份原始裁判文书中的类别5、6、7、8、9、16等段落不在同一行,这些段落被提取出来预处理后合并成一行放到文本库中,文本库中只要是同一行就是同一个案件,只要不同行就不是同一案件。

本发明的工作原理：本发明首先将法条作为案情描述的标签，每段案情描述可以对应多个法条，这样适用法条推荐就化为一个多标签文本分类任务，从而有了数学上的支撑。词向量的训练过程是一个迭代过程,每一次迭代词向量都会被更新,在最开始时词向量是不存在的,所以每个词的词向量在第一次迭代前需要初始化为一个随机的300维词向量,然后开始迭代，了给案情描述推荐适用法条，首先需要将词初始化为随机的300维向量，发明中提到的词就是组成文本的内容，案情描述文本的段落向量由其中所有词的向量平均得到，然后使用FastText监督学习算法学习段落向量和法条标签之间的对应关系，在学习过程中更新词向量并建立文本分类模型。

上述方案中，为进一步优化FastText监督学习算法的效率和最终的适用法条推荐的效果，本发明采用了预训练的通用词向量作为起始向量，因为随机初始化的词向量并不蕴含语义和语法信息，预训练的通用词向量可以有效克服这一问题，FastText无监督学习算法从通用词向量出发，在词向量文本库上训练得到蕴含法律信息的法律词向量，这些法律词向量可以加快FastText监督学习算法的收敛速度，并提高适用法条推荐的效果。

本发明的有益效果：

效果一，针对案情描述全面精准地推荐适用法条，为人工智能提供司法辅助工作开拓新的思路。

效果二，本发明可以针对各类型的犯罪，比如骗罪、抢劫、经济犯罪或离婚纠纷案件分别建立文本分类模型，适用范围广。

效果三，本发明得到的文本分类模型提供了简洁明了的调用接口，具有易用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单说明。显然，所描述的附图只是本发明的一部分实施例，而不是全部实施例，本领域的技术人员在不付出创造性劳动的前提下，还可以根据这些附图获得其他设计方案和附图。

图1是一份完整的裁判文书；

图2是预处理后的裁判文书；

图3是文本分类模型训练过程；

图4是Skip-Gram模型结构示意图；

图5是FastText文本分类模型训练示意图；

图6是文本分类模型调用过程。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，文中所提到的所有连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少连接辅件，来组成更优的连接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

参照图1至图6，这是本发明的实施例，本发明实施例给出了针对诈骗罪适用法条推荐模型,模型中包含了对应案由的法律词汇信息、法律文本信息、法条信息以及它们之间的关联，这些法律信息使用向量表示，而关联可以用向量之间的运算得出。最后，模型还给出了便于开发者调用的接口。

具体地：

给出了一份完整的裁判文书，此文档归为裁判文书数据集，如图1所示的裁判文书的每一行都可分为四部分：标识符、文段类别号、段落序号和文本。其中文段类别号所代表的类别如表1所示，

文段类别号	类别
		1	判决书名称
2	案号
		3	当事人信息
4	案件审理信息
		5	原告诉称
6	被告辩称
		7	法院认定事实
8	法院说理部分
		9	裁判依据
10	案件受理费
		11	上诉法院
12	文书尾部
		13	第三人述称
14	法院名称
		15	文书类型
16	裁判结果
		17	证据

表1

筛选类别5(原告诉称)、6(被告辩称)、7(法院认定事实)、8(法院说理部分)、9(裁判依据)和16(裁判结果)，对类别5、6、7、8、9和16依次进行对词向量文本库和文档向量文本库中的句子进行分词，即在相邻词之间插入空格，然后再删去包括有“了、吧、的”等的无实意停用词和词条归一化，例如同一个’某某某’在不同裁判文书中的身份可能不同,将其替换成原告或被告，并构建词向量文本库，词向量文本库是用来储存文段类别，其中类别7和8用于构建文档向量文本库，这里的文档向量文本库也是用来储存文段类别的，再从类别9中提取每份文书对应的法条。

图2给出了图1中的裁判文书预处理后的文本，其中第一行包含类别5、6、7、8、9和16，第三行以“__label__”开头的是从类别9中提取的法条，剩余部分为类别7和8。

文本分类模型的完整训练过程如图3所示，基于迁移学习的思想，以FastText预训练的通用词向量为初始向量，预训练的通用词向量使用的网址如下：https://fasttext.cc/docs/en/crawl-vectors.html，使用FastText无监督学习算法在词向量文本库上训练法律词向量，并以此为初始向量，使用FastText监督学习算法在文档向量文本库上进行适用法条推荐,得到文本分类模型。在使用FastText无监督学习算法时，为加快训练速度并得到更好的收敛结果，以FastText模型预训练的4.2G 300维词向量作为起始向量训练法律词向量。

如图4和图5，在FastText文本分类模型中采用的FastText无监督学习算法名称为Skip-Gram模型，每篇裁判文书的文档向量为其中所有词的向量的平均，经过一个隐藏层和softmax函数后得到了每个法条适用于此文书的条件概率，将条件概率大于一定阈值的法条作为该案件的适用法条推荐，再如图6所示，调用文本分类模型需要两个参数，参数一是案情描述文本，参数二是预期的法条数量k或预期条件概率t。文本分类模型接收到两个参数后通过计算得到各个法条适用于参数一的条件概率，再输出条件概率前k大的法条或所有条件概率大于t的法条。

当条件概率阈值取为0.5时，文本分类模型对图一中裁判文书预测的法条为刑法266、刑法67、刑法64和办理诈骗刑事案件具体应用法律若干问题解释1。该段描述案情文字通过本文采用的模型进行分析后，不仅准确地预测推荐了刑法第266条诈骗罪的法律条文，还全面地预测推荐了更具有针对性的司法解释——《关于办理诈骗刑事案件具体应用法律若干问题的解释》第1条。此法条是关于诈骗罪量刑标准的金额确定，法官看到推荐的这条司法解释就能非常迅速地作出量刑裁判。另外，需要说明的是条件概率阈值越大,文本分类模型对一段文本给出的法条越少,但每份所给出的法条适用于此文本的概率都较大；条件概率阈值越小，文本分类模型对一段文本给出的法条越多，但排名靠后的法条适用于此文本的概率较低。

以上对本发明的较佳实施方式进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变型或替换，这些等同的变型或替换均包括在本申请权利要求所限定的范围内。

Claims

1.基于FastText算法的智能法条推荐辅助系统，其特征在于，包括裁判文书数据集、词向量文本库、法律词向量、文档向量文本库、文本分类模型；

所述裁判文书数据集用于存储裁判文书；所述词向量文本库用于储存文段类别，所述文档向量文本库用于储存文段类别；所述文段类别是裁判文书中的内容；所述法律词向量由预训练的通用词向量作为起始向量，再使用FastText无监督学习算法在词向量文本库上训练得到的；所述文本分类模型是将训练好的法律词向量作为起始向量，再使用FastText监督学习算法在文档向量文本库上进行文本分类得到的；

所述基于FastText算法的智能法条推荐辅助系统的训练方法，包含以下步骤：

F、将训练好的文本分类模型提供给应用编程接口API供开发者调用，开发者可以得到案情描述文本指定数量的，或置信度高于指定阈值的适用法条。

2.根据权利要求1所述的基于FastText算法的智能法条推荐辅助系统，其特征在于，所述的裁判文书包含诈骗罪、抢劫、经济犯罪或离婚纠纷案件的裁判文书；所述裁判文书是一个四列的表,每列依次表示标识符、文段类别号、段落序号和文本。

3.根据权利要求1所述的基于FastText算法的智能法条推荐辅助系统，其特征在于，所述文段类别包括判决书名称、案号、当事人信息、案件审理信息、原告诉称、被告辩称、法院认定事实、法院说理部分、裁判依据、案件受理费、上诉法院、文书尾部、第三人述称、法院名称、文书类型、裁判结果和证据。

4.根据权利要求1所述的基于FastText算法的智能法条推荐辅助系统，其特征在于，所述的裁判文书包含诈骗罪、抢劫、经济犯罪或离婚纠纷案件的裁判文书；所述裁判文书是一个四列的表,每列依次表示标识符、文段类别号、段落序号和文本，不同类型的案件建立各自的词向量文本库和文档向量文本库，文本库中每行包含同一份裁判文书所有被提取内容。