CN111858682A - 一种基于深度学习的裁判文书逻辑评估方法及系统 - Google Patents
一种基于深度学习的裁判文书逻辑评估方法及系统 Download PDFInfo
- Publication number
- CN111858682A CN111858682A CN202010772877.8A CN202010772877A CN111858682A CN 111858682 A CN111858682 A CN 111858682A CN 202010772877 A CN202010772877 A CN 202010772877A CN 111858682 A CN111858682 A CN 111858682A
- Authority
- CN
- China
- Prior art keywords
- reason
- case
- deep learning
- logic
- judgment result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 29
- 238000013136 deep learning model Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的裁判文书逻辑评估方法及系统,包括:对裁判文书进行逻辑抽取,得到具有逻辑支撑性的“案情‑理由‑判决结果”三大部分;对该三大部分进行分句处理生成句对格式数据;构建深度学习模型,使其可以得到输入句对之间的支撑力度;将处理后的“案情‑理由‑判决结果”输入到深度学习模型中,得到“案情‑理由”之间、“理由‑判决结果”之间的逻辑支撑力度;根据“案情‑理由‑判决结果”之间的逻辑支撑力度,计算得到逻辑评估结果。本发明将裁判文书逻辑评估问题转化为“案情‑理由‑判决结果”三大部分之间的逻辑支撑性力度评估,利用深度学习模型实现了对裁判文书逻辑的高效、准确、定量评估。
Description
技术领域
本发明属于自然语言处理技术领域,特别涉及一种基于深度学习的裁判文书逻辑评估方法及系统。
背景技术
近年来,以深度学习(Deep Learning)为代表的人工智能技术快速发展,在司法智能化方面取得了巨大的进步,展现出了跨时代的技术理性力量。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
裁判文书是法院对已经审结案件的书面结论,裁判文书的公开是司法公开的主要体现,因此提高裁判文书的书写质量显得尤为重要。在法律领域,为了提升裁判文书质量,现在的裁判文书的质量评估主要聚焦在基本语法错别字检测、判决罪名是否有误、引用法条是否有误以及刑期是否有误,对于裁判文书的行文逻辑评估,现在绝大多数法院还是采取法官互评的方式进行人为评估,而未实现自动化地对裁判文书的逻辑性进行评价。
对于法院处理的每一例案件,不仅要让判决结果完全符合法律的规定,还要让判决结果有理有据,逻辑支撑性强。因此,分析案件的案情、理由和判决结果之间的因果逻辑关系,自动化、细粒度地对法官裁判文书的逻辑进行定量评估显得非常重要。
发明内容
为了高效、准确地对裁判文书逻辑进行评估,本发明的目的在于提供一种基于深度学习的裁判文书逻辑评估方法及系统,根据裁判文书,充分利用裁判文书的案情、理由和判决结果三大部分,通过深度学习模型,得到案情与理由之间的支撑力度、理由与判决结果的支撑力度。根据案情、理由和判决结果之间的逻辑支撑力度,进而对裁判文书的逻辑进行量化评估。
为了实现上述目的,本发明采用的技术方案是:
一种基于深度学习的裁判文书逻辑评估方法,包括如下步骤:
步骤1:对裁判文书进行逻辑抽取,得到具有逻辑支撑性的“案情-理由-判决结果”三大部分;
步骤2:对“案情-理由-判决结果”三大部分进行分句处理,生成句对格式数据;
步骤3:构建深度学习模型,使其可以得到输入句对之间的支撑力度;
步骤4:将处理后的“案情-理由-判决结果”输入到深度学习模型中,得到“案情-理由”之间、“理由-判决结果”之间的逻辑支撑力度;
步骤5:根据“案情-理由-判决结果”之间的逻辑支撑力度,计算得到逻辑评估结果。
其中,从整体上看,本发明的技术方案为:首先构建了可以输出句对之间逻辑支持性的深度学习模型,并利用已标注的训练集、验证集、测试集对模型进行训练、验证、测试,得到训练好的模型;其次,对于新的裁判文书,先进行预处理,抽取得到案情、理由和判决结果三大部分,将“案情-理由”按照句对的方式输入训练好的模型,可以得到案情-理由之间的逻辑支撑力度,将理由-判决结果按照句对的方式输入训练好的模型,可以得到理由-判决结果之间的逻辑支撑力度;最后,根据“案情-理由-判决结果”之间的逻辑支撑力度,由下至上,计算得到最终的逻辑评估结果。
可选的,所述步骤1的裁判文书类型涵盖刑事类、民事类、行政类。
可选的,所述步骤1获取“案情-理由-判决结果”三大部分,包括:
采用正则表达式在裁判文书中获取“经审理查明”及其近义表达、“本院认为”及其近义表达和“判决如下”及其近义表达三字段在文本中的位置p1、p2、p3;
抽取裁判文书中p1-p2之间文字可得到案情描述部分;
抽取裁判文书中p2-p3之间文字可得到判决理由部分,抽取裁判文书中p3之后的文字可得到判决结果部分。
可选的,所述步骤2生成句对格式数据,包括:将案情描述和理由两大部分按句号分割成各个单句,判决结果整体看作一个单句,根据三大部分的单句,可得到“案情-理由”句对、“理由-判决结果”句对;
可选的,所述步骤3所述深度学习模型包括但不限于各种句间交互模型:以ESIM为代表的文本推理模型、以DSSM为代表的文本匹配模型。
可选的,所述步骤3构建深度学习模型,使其可以得到输入句对之间的支撑力度,包括:
样本数据采集:样本数据包括大量的裁判文书,抽取出裁判文书的案情、理由和判决结果三个部分,将案情描述和理由两大部分按句号分割成各个单句,判决结果整体看作一个单句,构建句对格式数据集,并将数据集分成训练集、验证集、测试集;
数据建模:利用训练集训练模型,利用验证集验证模型,利用测试集测试模型。
可选的,所述构建句对格式数据,对于某一条数据,第一列是案情,第二列是理由,第三列是标签,若案情与理由之间构成逻辑支撑关系,则标签为1,否则为0;或者是,第一列是理由,第二列是判决结果,第三列是标签,若理由与判决结果之间构成逻辑支撑关系,则标签为1,否则为0。
可选的,所述步骤5根据“案情-理由-判决结果”之间的逻辑支撑力度,计算得到逻辑评估结果,包括:
将“案情-理由”句对、“理由-判决结果”句对输入到训练好的模型中,可得到“案情-理由-判决结果”之间的逻辑支撑力度;
将案情、理由、判决结果看作节点,将逻辑支撑力度作为“案情-理由-判决结果”之间连接的权值,若连接权值大于某阈值则予以连接,小于该阈值则无连接关系,这样可以得到由下至上依次为案情、理由、判决结果的树状结构;
最底层的案情节点值设置为1,将两层之间的逻辑支撑力度作为两层之间的连接权值,上一层的节点值是下一层的节点值的加权求和结果,由下至上计算可得到最终结果,也即裁判文书的逻辑评估结果。
另一方面,本发明还提供了一种基于深度学习的裁判文书逻辑评估系统,包括:
裁判文书获取单元,获取待评估的裁判文书;
裁判文书预处理单元,将待评估的裁判文书进行预处理,获取“案情-理由”句对、“理由-判决结果”句对;
深度学习模型构建单元,利用已经获取的裁判文书,建立相应的数据集,对深度学习模型进行训练、验证、测试,得到训练好的深度学习模型,模型输出为“案情-理由”之间、“理由-判决结果”之间的逻辑支撑力度;
裁判文书逻辑评估单元,根据模型输出的“案情-理由-判决结果”之间的逻辑支撑力度,计算得到逻辑评估结果。
与现有技术相比,本发明至少具有如下技术效果或优点:裁判文书类型涵盖刑事、民事、行政三大类别,覆盖范围广、实用性强;利用深度学习的方法,将抽象的逻辑评估,转化为可视化效果好、易于理解的案情-理由-判决结果三层逻辑结构树,并对三层之间的逻辑支撑性进行量化计算,对逻辑性的强弱进行定量刻画;本发明提供的基于深度学习的裁判文书逻辑评估方法和系统,首次实现了对裁判文书逻辑的高效、准确、定量评估。
附图说明
图1为本发明裁判文书逻辑评估方法的流程图。
图2为本发明实施例的文本推理模型结构图。
图3为本发明实施例的逻辑评估计算示意图。
图4为本发明裁判文书逻辑评估系统的结构图。
具体实施方式
为了能够更好地理解本发明所阐述的目的、方法以及优点,现结合附图和实施例详细说明本发明的实施方式。
首先,对本发明实施例涉及的专业术语解释如下:
1.正则表达式:一种对字符串和特殊字符操作的逻辑公式,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
2.深度学习:概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构,经常采用多层循环神经网络或者卷积神经网络来构成“深度”模型。深度学习通过组合底层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,具有高效性、可塑性、普适性。
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明首先提供了一种基于深度学习的裁判文书逻辑评估方法,具体包括:
步骤101:对裁判文书进行逻辑抽取,得到具有逻辑支撑性的“案情-理由-判决结果”三大部分。具体地:
1.对于待评估的裁判文书,采用正则表达式的方法在裁判文书中获取类似“经审理查明”、“本院认为”和“判决如下”三字段在文本中的位置,分别为p1、p2、p3;
2.抽取裁判文书中p1-p2之间文字可得到案情描述部分;
3.抽取裁判文书中p2-p3之间文字可得到判决理由部分;
4.抽取裁判文书中p3之后的文字可得到判决结果部分。
步骤102:对“案情-理由-判决结果”三大部分进行分句处理,生成句对格式数据。
1.将案情描述和理由两大部分按句号分割成各个单句,判决结果整体看作一个单句;
2.根据三大部分的单句,可得到“案情-理由”句对、“理由-判决结果”句对。
步骤103:构建深度学习模型,使其可以得到输入句对之间的支撑力度。
1.构建数据集。根据已有的大量裁判文书,依照上述步骤101的方法抽取出裁判文书的案情、理由和判决结果三个部分,依照步骤102的方法得到“案情-理由”句对、“理由-判决结果”句对,并以此构建数据集:对于某一条数据,第一列是案情,第二列是理由,第三列是标签,若案情与理由之间构成逻辑支撑关系,则标签为1,否则为0;或者是,第一列是理由,第二列是判决结果,第三列是标签,若理由与判决结果之间构成逻辑支撑关系,则标签为1,否则为0。最后将数据集按比例拆分为训练集、验证集、测试集,本实施例选择3:1:1,数据集大小分别为30000,10000,10000;
2.构建文本推理深度学习模型。在这里构建文本推理模型,其模型框架如图2所示。Premise是前提,Hypothesis是假设,给定输入句对,模型的功能是判断能否根据前提推理出假设,并给出支持概率,例如Premise为“我今天去游泳馆游泳了”,Hypothesis为“我今天碰水了”,后者是可以由前者推理出来的,那么将这两个句子预处理后输入到训练好的模型中,模型的理论输出应该是1,表示支撑性为1。
模型大致由输入编码、局部推理、推理综合、结果预测四个部分组成:
输入编码:将输入的句子进行清洗(去除停止词)和分词,得到分词后的句子S={w1,w2,..,wn},n为句子长度,本实施例限定n=200,若句子实际长度大于200,则对句子进行截断,若句子实际长度小于200,则在句子后添加空格至200词。接下来,需要将句子转为数学表示,本实施例采用的是司法领域专用的预训练词向量(word embedding),向量维度为100,其中空格词向量为0,其他词的词向量每个元素范围是0-1之间的浮点数。至此,可以得到两个句子的数学表示分别为a,b∈R200×100;进一步地,将两句子的数学表示分别输入到双向长短期记忆网络(BiLSTM)中,进行编码提取文本特征,得到在i时刻两个句子的编码结果:
其中,[]为拼接操作,分别为句子a在i时刻前向(forward)隐藏层状态、后向(backward)隐藏层状态,隐藏层维度设置为100;分别为句子b在j时刻前向(forward)隐藏层状态、后向(backward)隐藏层状态,隐藏层维度设置为100;la、lb分别为两句子的实际的长度。
局部推理:将句子进行编码后,接下来是两个句子之间的交互(interactions)、局部推理(local inference)模块,首先计算两个句之间的相似度矩阵:
进一步地,结合相似度矩阵,分别更新两个句子的编码,将两个句子的编码信息互相包含、交互,得到新的表达:
进一步地,将所有时刻的信息进行聚合,分别得到两个句子的高级表示(high-level representation):
推理综合:将聚合后的信息ma、mb输入到BiLSTM中,进行高维度的信息提取,与输入编码环节类似地,得到两个句子的更高层次的表示:
结果预测:最后,将两个句子的高级表示进行拼接:
将拼接后的两句子高级表示依次经过均值池化、最大池化、全连接层,得到1x2的矩阵,通过softmax函数得到归一化矩阵,矩阵的第一行第二列的结果为两个句子之间具有逻辑支撑关系的概率,也即为逻辑支撑力度。
3.训练模型。模型训练过程中,将模型的输出与实际的标签(label)进行比较,损失函数loss采用交叉熵(cross entropy)损失函数,批尺寸(batch size)设为32,所有样本最大迭代次数(epoch)设为20,优化器(optimizer)采用Adam优化器,学习率设置为1e-3,为防止过拟合,神经元的drop_out概率设为0.5。所有的样本跑完一轮后,利用验证集对模型进行验证,验证的指标为F1值,若F1值与最好的F1值相比较大,说明此轮的模型效果较好,则将模型进行保存。训练结束后,可以得到在验证集上表现最好的模型,利用测试集对该模型进行测试,测试的准确度(accuracy)可达到94%。
步骤104:将步骤102处理后的“案情-理由-判决结果”输入到深度学习模型中,得到“案情-理由”之间、“理由-判决结果”之间的逻辑支撑力度。
步骤105:根据案情-理由-判决结果之间的逻辑支撑力度,计算得到逻辑评估结果。
1.计算的具体样例如图3所示,根据步骤104得到的“案情-理由-判决结果”之间的逻辑支撑力度,将案情、理由、判决结果看作节点,将逻辑支撑力度作为“案情-理由-判决结果”之间连接的权值,若连接权值大于0.5则予以连接,小于0.5则无连接关系,这样可以得到由下至上依次为案情、理由、判决结果的树状结构;
2.最底层的案情节点值设置为1,将两层之间的逻辑支撑力度作为两层之间的连接权值,上一层的节点值是下一层的节点值的加权求和结果,由下至上计算可得到最终结果,也即裁判文书的逻辑评估结果。
如图4所示,本发明实施例提供了一种基于深度学习的裁判文书逻辑评估系统,包括:
裁判文书获取单元401:获取待评估的裁判文书。
裁判文书预处理单元402:采用正则表达式在裁判文书中获取“经审理查明”、“本院认为”和“判决如下”三字段在文本中的位置p1、p2、p3;抽取裁判文书中p1-p2之间文字即为案情描述部分;抽取裁判文书中p2-p3之间文字即为判决理由部分;抽取裁判文书中p3之后的文字即为判决结果部分,将案情描述和理由两大部分按句号分割成各个单句,判决结果整体看作一个单句,根据三个部分的单句,可得到“案情-理由”句对、“理由-判决结果”句对。
深度学习模型构建单元403:利用已经获取的刑事、民事、行政类裁判文书,建立相应的数据集,对于某一条数据,第一列是案情,第二列是理由,第三列是标签,若案情与理由之间构成逻辑支撑关系,则标签为1,否则为0;或者是,第一列是理由,第二列是判决结果,第三列是标签,若理由与判决结果之间构成逻辑支撑关系,则标签为1,否则为0;对文本推理模型进行训练、验证、测试,得到训练好的模型。接收裁判文书预处理单元402处理后的裁判文书,并输出“案情-理由-判决结果”之间的逻辑支撑力度。
裁判文书逻辑评估单元404:根据模型输出的“案情-理由-判决结果”之间的逻辑支撑力度,将案情、理由、判决结果看作节点,将逻辑支撑力度作为“案情-理由-判决结果”之间连接的权值,若连接权值大于0.5则予以连接,小于0.5则无连接关系,这样可以得到由下至上依次为案情、理由、判决结果的树状结构;最底层的案情节点值设置为1,将两层之间的逻辑支撑力度作为两层之间的连接权值,上一层的节点值是下一层的节点值的加权求和结果,由下至上计算可得到最终结果,也即裁判文书的逻辑评估结果。
由以上技术方案可知,本发明将裁判文书逻辑评估问题,转化为“案情-理由-判决结果”三大部分之间的逻辑支撑性力度评估,利用深度学习模型,首次实现了对刑事、民事、行政三大类别裁判文书逻辑的高效、准确、定量评估。
本说明书中方法与装置的实施例基本相似,相关之处可相互参照。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种基于深度学习的裁判文书逻辑评估方法,其特征在于,包括如下步骤:
步骤1:对裁判文书进行逻辑抽取,得到具有逻辑支撑性的“案情-理由-判决结果”三大部分;
步骤2:对“案情-理由-判决结果”三大部分进行分句处理,生成句对格式数据;
步骤3:构建深度学习模型,使其可以得到输入句对之间的支撑力度;
步骤4:将处理后的“案情-理由-判决结果”输入到深度学习模型中,得到“案情-理由”之间、“理由-判决结果”之间的逻辑支撑力度;
步骤5:根据“案情-理由-判决结果”之间的逻辑支撑力度,计算得到逻辑评估结果。
2.根据权利要求1所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述裁判文书的类型包括刑事类、民事类和行政类。
3.根据权利要求1所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述步骤1包括:
采用正则表达式在裁判文书中获取“经审理查明”及其近义表达、“本院认为”及其近义表达和“判决如下”及其近义表达三字段在文本中的位置p1、p2、p3;
抽取裁判文书中p1-p2之间文字即为案情描述部分;
抽取裁判文书中p2-p3之间文字即为判决理由部分;
抽取裁判文书中p3之后的文字即为判决结果部分。
4.根据权利要求1所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述步骤2包括:将案情描述和理由两大部分按句号分割成各个单句,判决结果整体看作一个单句,根据三大部分的单句,得到“案情-理由”句对、“理由-判决结果”句对。
5.根据权利要求1所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述深度学习模型为句间交互模型,包括ESIM为代表的文本推理模型以及以DSSM为代表的文本匹配模型。
6.根据权利要求1或5所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述深度学习模型的构建过程包括:
样本数据采集:样本数据包括大量的裁判文书,抽取出裁判文书的案情、理由和判决结果三大部分,将案情描述和理由两大部分按句号分割成各个单句,判决结果整体看作一个单句,构建句对格式数据集,并将数据集分成训练集、验证集、测试集;
数据建模:利用训练集训练模型,利用验证集验证模型,利用测试集测试模型。
7.根据权利要求6所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述构建句对格式数据集,对于某一条数据,第一列是案情,第二列是理由,第三列是标签,若案情与理由之间构成逻辑支撑关系,则标签为1,否则为0;或者是,第一列是理由,第二列是判决结果,第三列是标签,若理由与判决结果之间构成逻辑支撑关系,则标签为1,否则为0。
8.根据权利要求6所述基于深度学习的裁判文书逻辑评估方法,其特征在于,所述步骤4和步骤5包括:
将“案情-理由”句对、“理由-判决结果”句对输入到训练好的深度学习模型中,得到“案情-理由-判决结果”之间的逻辑支撑力度;
将案情、理由、判决结果看作节点,将逻辑支撑力度作为“案情-理由-判决结果”之间连接的权值,若连接权值大于某阈值则予以连接,小于该阈值则无连接关系,得到由下至上依次为案情、理由、判决结果的树状结构;
最底层的案情节点值设置为1,将两层之间的逻辑支撑力度作为两层之间的连接权值,上一层的节点值是下一层的节点值的加权求和结果,由下至上计算得到最终结果,也即裁判文书的逻辑评估结果。
9.一种基于深度学习的裁判文书逻辑评估系统,其特征在于,包括:
裁判文书获取单元,获取待评估的裁判文书;
裁判文书预处理单元,将待评估的裁判文书进行预处理,获取“案情-理由”句对、“理由-判决结果”句对;
深度学习模型构建单元,利用已经获取的裁判文书,建立相应的数据集,对深度学习模型进行训练、验证、测试,得到训练好的深度学习模型,模型输出为“案情-理由”之间、“理由-判决结果”之间的逻辑支撑力度;
裁判文书逻辑评估单元,根据模型输出的“案情-理由-判决结果”之间的逻辑支撑力度,计算得到逻辑评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772877.8A CN111858682A (zh) | 2020-08-04 | 2020-08-04 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772877.8A CN111858682A (zh) | 2020-08-04 | 2020-08-04 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858682A true CN111858682A (zh) | 2020-10-30 |
Family
ID=72953447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010772877.8A Pending CN111858682A (zh) | 2020-08-04 | 2020-08-04 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858682A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
CN114764657A (zh) * | 2020-12-30 | 2022-07-19 | 北京国双科技有限公司 | 一种基于人员检查建议书的绩效分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763484A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于lda主题模型的法条推荐方法 |
CN109582950A (zh) * | 2018-09-25 | 2019-04-05 | 南京大学 | 一种裁判文书说理评估方法 |
CN110851591A (zh) * | 2019-09-17 | 2020-02-28 | 河北省讯飞人工智能研究院 | 一种裁判文书的质量评估方法、装置、设备及存储介质 |
WO2020114373A1 (zh) * | 2018-12-07 | 2020-06-11 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
-
2020
- 2020-08-04 CN CN202010772877.8A patent/CN111858682A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763484A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于lda主题模型的法条推荐方法 |
CN109582950A (zh) * | 2018-09-25 | 2019-04-05 | 南京大学 | 一种裁判文书说理评估方法 |
WO2020114373A1 (zh) * | 2018-12-07 | 2020-06-11 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN110851591A (zh) * | 2019-09-17 | 2020-02-28 | 河北省讯飞人工智能研究院 | 一种裁判文书的质量评估方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王君泽等: "裁判文书类案推送中的案情相似度计算模型研究", 《计算机工程与科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114764657A (zh) * | 2020-12-30 | 2022-07-19 | 北京国双科技有限公司 | 一种基于人员检查建议书的绩效分析方法及装置 |
CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110083833B (zh) | 中文字词向量和方面词向量联合嵌入情感分析方法 | |
CN109697232A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN112507699B (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN114021584B (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN110321563A (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
CN113065356B (zh) | 一种基于语义分析算法的it设备运维故障建议处理方法 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111858682A (zh) | 一种基于深度学习的裁判文书逻辑评估方法及系统 | |
CN113420117B (zh) | 一种基于多元特征融合的突发事件分类方法 | |
CN113268592B (zh) | 基于多层次交互注意力机制的短文本对象情感分类方法 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201030 |