CN110287292B

CN110287292B - 一种裁判量刑偏离度预测方法及装置

Info

Publication number: CN110287292B
Application number: CN201910599594.5A
Authority: CN
Inventors: 孙瑜声; 徐威威; 李宝善
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-10-01
Anticipated expiration: 2039-07-04
Also published as: CN110287292A

Abstract

本申请公开了一种裁判量刑偏离度预测方法及装置，该方法包括：在获取到需要进行偏离度预测的目标卷宗材料后，根据各个目标案情要素与各个样本案情要素之间的关联关系，预测目标卷宗材料对应的判决结果的偏离度，其中，各个样本案情要素是从现有的大量已知判决结果的样本卷宗材料中提取的，且这些样本案情要素均是对其各自所属样本卷宗材料的判决结果有影响的关键性因素，因此，本申请将目标案情要素和与其有关联关系的样本案情要素共同作为参考依据，可以根据样本案情要素对样本卷宗材料的判决结果产生的影响，准确预测出目标案情要素对目标卷宗材料的判决结果可能产生的影响，进而能够更准确、更快速地预测出目标卷宗材料的判决结果的偏离度。

Description

一种裁判量刑偏离度预测方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种裁判量刑偏离度预测方法及装置。

背景技术

随着信息化时代以及智能化时代的到来，司法信息化、智能化的需求也越来越突出。紧跟着国家司法信息化号召的步伐，越来越多的信息化以及人工智能技术已经运用到司法领域中，为人民群众以及司法部门的工作人员提供了便利的技术及途径。随着人工智能的浪潮的发展，如何让人工智能技术更好地服务司法也成了最近的热潮。在以往的案件判决以及旧案子追溯过程中，法官需要仔细阅读当事人复杂的证据，从中找出支持双方观点的重点，并参考相关法律法规以及大量相似案件，从而对判决结果进行评判。

现有的评判方法主要是通过解析判案指引、反复斟酌案件中出现的情节要素，再参考大量的相似案件，对判决结果进行人为评估，以得到当前判决结果的偏离度，但此方法会浪费大量的人力以及精力，导致评估效率大幅度降低。

发明内容

本申请实施例的主要目的在于提供一种裁判量刑偏离度预测方法及装置，能够自动评估出判决结果的偏离度，从而提升了评估效率。

本申请实施例提供了一种裁判量刑偏离度预测方法，包括：

获取目标卷宗材料；

从所述目标卷宗材料中提取各个目标案情要素；

根据量刑关联信息，预测所述目标卷宗材料对应的判决结果的偏离度，所述量刑关联信息包括各个目标案情要素与各个样本案情要素之间的关联关系，所述各个样本案情要素是从大量样本卷宗材料中提取的。

可选的，所述从所述目标卷宗材料中提取各个目标案情要素，包括：

从所述目标卷宗材料中提取各个实体要素；

从所述目标卷宗材料中提取与所述实体要素相关的各个关联要素；

将各个实体要素以及各个关联要素，作为各个目标案情要素。

可选的，所述根据量刑关联信息，预测所述目标卷宗材料对应的判决结果的偏离度，包括：

生成各个目标案情要素的表示结果；

对于每一目标案情要素，确定所述目标案情要素对应的各个选定案情要素，并生成所述选定案情要素的表示结果；

其中，所述选定案情要素为所述各个样本案情要素中的与对应目标案情要素在表示结果层面上相同或相近的一个样本案情要素；

根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度。

可选的，所述目标案情要素的表示结果包括：所述目标案情要素的特征表示以及所述目标案情要素的相关案情要素的特征表示。

则，所述生成各个目标案情要素的表示结果，包括：

根据所述目标案情要素所属的语义特征图，生成所述目标案情要素的表示结果，其中，所述语义特征图记录了所述目标卷宗材料中的各个目标案情要素的特征表示以及各个目标案情要素之间的关系表示。

可选的，所述根据所述目标案情要素所属的语义特征图，生成所述目标案情要素的表示结果，包括：

从所述目标案情要素所属的语义特征图中，截取所述目标案情要素对应的特征子图，所述特征子图包括所述目标案情要素以及与所述目标案情要素具有直接或间接关系的其它案情要素；

生成所述特征子图中每一案情要素的特征向量，作为所述目标案情要素的表示结果。

可选的，所述确定所述目标案情要素对应的各个选定案情要素，包括：

确定所述目标案情要素的目标属性；

从所述各个样本案情要素的样本属性中，筛选出与所述目标属性相同和/或相近的样本属性；

确定所述目标案情要素分别与筛选出的每一样本属性下的样本案情要素之间的语义相似度；

选取大于预设阈值的各个语义相似度对应的样本案情要素，作为各个选定案情要素。

可选的，所述选定案情要素的表示结果包括以下至少一项：

所述选定案情要素的特征表示；

所述选定案情要素的特征表示与对应的目标案情要素的特征表示之间的相似度；

所述选定案情要素所属的样本卷宗材料与所述目标卷宗材料之间的重合度；

所述选定案情要素所属的样本卷宗材料对应的语义特征图与所述目标卷宗材料对应的语义特征图之间的相似度。

可选的，所述根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度，包括：

对于每一目标案情要素，根据所述目标案情要素的表示结果与所述目标案情要素对应的每一选定案情要素的表示结果，确定所述目标案情要素与每一选定案情要素之间的相关度；

根据每一选定案情要素对应的相关度，预测所述目标卷宗材料对应的判决结果的偏离度。

可选的，所述根据每一选定案情要素对应的相关度，预测所述目标卷宗材料对应的判决结果的偏离度，包括：

对于每一目标案情要素，将所述目标案情要素对应的每一选定案情要素对应的相关度，与该每一选定案情要素所属的样本卷宗材料对应的判决结果的表示结果进行加权计算，得到所述目标案情要素对应的加权计算结果；

根据所述加权计算结果，生成所述目标案情要素的预测表示结果；

根据每一目标案情要素对应的预测表示结果，预测所述目标卷宗材料对应的判决结果的偏离度。

利用预先构建的偏离度预测模型，根据量刑关联信息，预测所述目标卷宗材料对应的判决结果的偏离度。

本申请实施例还提供了一种裁判量刑偏离度预测装置，包括：

目标卷宗材料获取单元，用于获取目标卷宗材料；

目标案情要素提取单元，用于从所述目标卷宗材料中提取各个目标案情要素；

量刑偏离度预测单元，用于根据量刑关联信息，预测所述目标卷宗材料对应的判决结果的偏离度，所述量刑关联信息包括各个目标案情要素与各个样本案情要素之间的关联关系，所述各个样本案情要素是从大量样本卷宗材料中提取的。

可选的，所述目标案情要素提取单元包括：

实体要素提取子单元，用于从所述目标卷宗材料中提取各个实体要素；

关联要素提取子单元，用于从所述目标卷宗材料中提取与所述实体要素相关的各个关联要素；

目标案情要素获得子单元，用于将各个实体要素以及各个关联要素，作为各个目标案情要素。

可选的，所述量刑偏离度预测单元包括：

表示结果生成子单元，用于生成各个目标案情要素的表示结果；

选定案情要素确定子单元，用于对于每一目标案情要素，确定所述目标案情要素对应的各个选定案情要素，并生成所述选定案情要素的表示结果；

量刑偏离度预测子单元，用于根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度。

则，所述表示结果生成子单元具体用于：

可选的，所述表示结果生成子单元包括：

特征子图截取子单元，用于从所述目标案情要素所属的语义特征图中，截取所述目标案情要素对应的特征子图，所述特征子图包括所述目标案情要素以及与所述目标案情要素具有直接或间接关系的其它案情要素；

表示结果获得子单元，用于生成所述特征子图中每一案情要素的特征向量，作为所述目标案情要素的表示结果。

可选的，所述选定案情要素确定子单元包括：

目标属性确定子单元，用于确定所述目标案情要素的目标属性；

样本属性筛选子单元，用于从所述各个样本案情要素的样本属性中，筛选出与所述目标属性相同和/或相近的样本属性；

语义相似度确定子单元，用于确定所述目标案情要素分别与筛选出的每一样本属性下的样本案情要素之间的语义相似度；

选定案情要素获得子单元，用于选取大于预设阈值的各个语义相似度对应的样本案情要素，作为各个选定案情要素。

可选的，所述选定案情要素的表示结果包括以下至少一项：

所述选定案情要素的特征表示；

可选的，所述量刑偏离度预测子单元包括：

相关度确定子单元，用于对于每一目标案情要素，根据所述目标案情要素的表示结果与所述目标案情要素对应的每一选定案情要素的表示结果，确定所述目标案情要素与每一选定案情要素之间的相关度；

偏离度预测子单元，用于根据每一选定案情要素对应的相关度，预测所述目标卷宗材料对应的判决结果的偏离度。

可选的，所述偏离度预测子单元包括：

加权计算结果获得子单元，用于对于每一目标案情要素，将所述目标案情要素对应的每一选定案情要素对应的相关度，与该每一选定案情要素所属的样本卷宗材料对应的判决结果的表示结果进行加权计算，得到所述目标案情要素对应的加权计算结果；

预测表示结果生成子单元，用于根据所述加权计算结果，生成所述目标案情要素的预测表示结果；

结果偏离度预测子单元，用于根据每一目标案情要素对应的预测表示结果，预测所述目标卷宗材料对应的判决结果的偏离度。

可选的，所述量刑偏离度预测单元具体用于：

本申请实施例还提供了一种裁判量刑偏离度预测设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述裁判量刑偏离度预测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述裁判量刑偏离度预测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述裁判量刑偏离度预测方法中的任意一种实现方式。

本申请实施例提供的一种裁判量刑偏离度预测方法及装置，在获取到需要进行裁判量刑偏离度预测的目标卷宗材料后，首先可以从目标卷宗材料中提取各个目标案情要素，然后，再根据各个目标案情要素与各个样本案情要素之间的关联关系，预测目标卷宗材料对应的判决结果的偏离度，其中，各个样本案情要素是从现有的大量已知判决结果的样本卷宗材料中提取的，且这些样本案情要素均是对其各自所属样本卷宗材料的判决结果有影响的关键性因素，因此，本申请实施例通过将目标卷宗材料中的各个目标案情要素和与各个目标案情要素有关联关系的各个样本案情要素相结合共同作为参考依据，根据二者之间的关系以及各个样本案情要素对各个样本卷宗材料的判决结果产生的影响，可以准确预测出各个目标案情要素对目标卷宗材料的判决结果可能产生的影响，进而能够更准确、更快速地预测出目标卷宗材料的判决结果的偏离度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种裁判量刑偏离度预测方法的流程示意图；

图2为本申请实施例提供的根据量刑关联信息，预测目标卷宗材料对应的判决结果的偏离度的流程示意图；

图3为本申请实施例提供的目标卷宗材料对应的语义特征图的示意图；

图4为本申请实施例提供的偏离度预测模型的结构示意图；

图5为本申请实施例提供的一种裁判量刑偏离度预测装置的组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种裁判量刑偏离度预测方法的流程示意图，该方法包括以下步骤：

S101：获取目标卷宗材料。

在本实施例中，将采用本实施例实现裁判量刑偏离度预测的任一卷宗材料定义为目标卷宗材料，并将目标卷宗材料所描述的案件定义为目标案件。

其中，目标卷宗材料通常由多个文书组成，主要可以包含目标案件中当事人提交的证据、裁判文书以及其他关键文书，如庭审笔录、起诉状、答辩状等，其中，当事人提交的这些证据及各个文书均为判案中信息的重要来源。且本实施例不限制目标卷宗材料的类型以及其包含的文书的个数和内容，比如，目标卷宗可以为一份合同纠纷卷宗，而该卷宗材料可以由封面、起诉状、受理通知书、判决书等各个文书组成。

需要说明的是，在获取目标卷宗材料时，可以采用先对纸质卷宗进行扫描，再利用图文识别的方式来获取，或者，也可以通过直接加载电子卷宗的方式来获取，具体获取方式可根据实际情况进行选择，本申请实施例对此不进行限制。

S102：从目标卷宗材料中提取各个目标案情要素。

在本实施例中，通过步骤S101获取到目标卷宗材料后，可以对目标卷宗材料进行数据处理，以从中提取出各个目标案情要素。

其中，目标案情要素指的是目标案件中对判案结果有影响的关键性要素，比如目标案件中的当事人信息、作案经过或者描述案情的其他关键事实等，目标案情要素通常可以通过法条以及法官的经验来进行定义。

举例说明：以目标案件为一起盗窃案件为例，该案件的目标案情要素可以包括该盗窃案件中的当事人年龄、盗窃金额、盗窃手段、赃物去向以及是否自首等等，这些目标案情要素是法官对该盗窃案件进行审理时所关注的关键事实，法官可以根据这些目标案情要素对该盗窃案件进行判决。

在本实施例中，一种可选的实现方式是，本步骤S102“从目标卷宗材料中提取各个目标案情要素”的实现过程具体可以包括步骤A1-A2：

步骤A1：从目标卷宗材料中提取各个实体要素。

在本实现方式中，在通过步骤S101获取目标卷宗材料后，为了便于从中提取出各个目标案情要素，可以先对目标卷宗材料进行预处理操作，具体来讲，首先对目标卷宗材料包含的各个文本进行语义分析，得到分析结果，然后去除该分析结果中出现的无意义及非法的标点和符号等。其中，无意义以及非法的标点和符号指的是对文本语义理解并无意义且可能会造成错误理解的一些标点和符号，比如由于图文识别出错导致的乱码以及不常见的标点、符号等。

然后，可以对经过预处理后的目标卷宗材料进行分词处理，得到分词结果，例如，假设目标卷宗材料中某一经过预处理后得到的文本为“原告张三，男，住址安徽省合肥市”，则在对其进行分词处理后，可以得到该文本包含的各个分词分别为：“原告”、“张三”、“男”、“住址”、“安徽省”、“合肥市”。

接着，可以利用现有或未来出现的命名实体识别方法，对得到的分词结果进行命名实体识别，以从中提取出各个命名实体，并将这些命名实体作为目标卷宗材料中包含的各个实体要素，其中，命名实体指的是人名、地名、机构名以及其他所有以名称为标识的实体，命名实体通常具有特定的意义，其通常可以作为法律案件中的行为主体，比如盗窃案件中的犯罪嫌疑人姓名、盗窃地点等可作为命名实体。需要说明的是，本实施例不限制所采用的命名实体识别方法，比如，该命名实体识别方法可以是条件随机场方法(ConditionalRandom Fields,简称CRF)或深度学习方法等。

步骤A2：从目标卷宗材料中提取与实体要素相关的各个关联要素。

在本实现方式中，通过步骤A1从目标卷宗材料中提取出各个实体要素后，进一步可以根据目标卷宗材料中各个实体要素与其他案情要素之间的关联关系，从目标卷宗材料中提取出与各个实体要素相关的各个关联要素(关联要素不是实体要素，而是目标卷宗材料中的其他案情要素)。

具体来讲，可以采用规则、机器学习、或规则与机器学习相结合的方法来提取与各个实体要素相关的各个关联要素。

其中，根据规则提取与各个实体要素相关的各个关联要素指的是按照人工总结的规则去提取目标卷宗材料中与各个实体要素相关的关联要素，比如可以采用正则表达式方法、文法、模板等，进行关联要素的提取，具体的规则本实施例不进行限定，但这种根据规则进行提取的方法通常是用来提取说法比较固定或者有明显格式特征的关联要素，比如盗窃案件中犯罪嫌疑人的出生日期、证件号码以及盗窃时间等。

而对于目标卷宗材料中的无固定格式以及固定说法的案情要素(比如盗窃案件中犯罪嫌疑人的作案经过、作案工具等)来说，则可以采用机器学习的方法来提取，也就是说，可以利用机器学习的方法来提取目标卷宗材料中包含语义以及案情信息的要素点，比如可以采用序列标注或者阅读理解等深度学习方案，来挖掘目标卷宗材料中上下文之间的语义信息，并根据该语义信息提取出与各个实体要素相关的各个关联要素。

步骤A3：将各个实体要素以及各个关联要素，作为各个目标案情要素。

通过步骤A1提取出目标卷宗材料中的各个实体要素，以及通过步骤A2提取出目标卷宗材料中与各个实体要素相关的各个关联要素后，可以将这些实体要素和关联要素作为目标卷宗材料的各个目标案情要素，用来表征整个目标卷宗材料的案情信息，并作为预测目标卷宗材料的判决结果偏离度的一项重要参考依据。

S103：根据量刑关联信息，预测目标卷宗材料对应的判决结果的偏离度，其中，量刑关联信息包括各个目标案情要素与各个样本案情要素之间的关联关系，各个样本案情要素是从大量样本卷宗材料中提取的。

在本实施例中，会预先收集大量的以往判决案件的卷宗材料作为样本卷宗材料，并按照上述步骤S101-S102的执行步骤，将目标卷宗材料替换为每一样本卷宗材料，以提取出每一样本卷宗材料中包含的各个样本案情要素，用来表征对应样本卷宗材料的案情信息。其中，各个样本案情要素指的是对应样本卷宗材料中包含的各个实体要素以及与各个实体要素相关的各个关联要素。

进而，在通过步骤S101获取到目标卷宗材料，并通过步骤S102提取出其中包含的各个目标案情要素后，可以根据各个目标案情要素与各个样本案情要素之间的关联关系(此处将其定义为量刑关联关系)，预测出目标卷宗材料对应的判决结果的偏离度。具体实现时，可以利用预先构建好的偏离度预测模型，预测出目标卷宗材料对应的判决结果的偏离度，具体实现方式将在第二实施例中介绍，而该偏离度预测模型的具体构建过程可参见第三实施例。

综上，本申请实施例提供的裁判量刑偏离度预测方法，在获取到需要进行裁判量刑偏离度预测的目标卷宗材料后，首先可以从目标卷宗材料中提取各个目标案情要素，然后，再根据各个目标案情要素与各个样本案情要素之间的关联关系，预测目标卷宗材料对应的判决结果的偏离度，其中，各个样本案情要素是从现有的大量已知判决结果的样本卷宗材料中提取的，且这些样本案情要素均是对其各自所属样本卷宗材料的判决结果有影响的关键性因素，因此，本申请实施例通过将目标卷宗材料中的各个目标案情要素和与各个目标案情要素有关联关系的各个样本案情要素相结合共同作为参考依据，根据二者之间的关系以及各个样本案情要素对各个样本卷宗材料的判决结果产生的影响，可以准确预测出各个目标案情要素对目标卷宗材料的判决结果可能产生的影响，进而能够更准确、更快速地预测出目标卷宗材料的判决结果的偏离度。

第二实施例

本实施例将对第一实施例中步骤S103中的“根据量刑关联信息，预测目标卷宗材料对应的判决结果的偏离度”的具体实现过程进行介绍。

参见图2，其示出了本实施例提供的根据量刑关联信息，预测目标卷宗材料对应的判决结果的偏离度的流程示意图，该流程包括以下步骤：

S201：生成各个目标案情要素的表示结果。

在本实施例中，当获取到目标卷宗材料中的各个目标案情要素后，可以对各个目标案情要素进行数据处理，以生成各个目标案情要素的表示结果，需要说明的是，本实施例不限制表示结果的形式，比如，可以是向量形式。

需要说明的是，在后续内容中，本实施例将以目标卷宗材料中的某一目标案情要素为准来介绍如何对目标案情要素进行数据处理，而其它目标案情要素的处理方式与之类似，不再一一赘述。

一种可选的实现方式是，目标案情要素的表示结果可以包括：目标案情要素的特征表示以及目标案情要素的相关案情要素的特征表示。

其中，目标案情要素的特征表示可以携带目标案情要素本身的语义信息，进一步还可以携带目标卷宗材料的基本信息和/或目标案情要素在目标案件中的重要程度信息等。而目标案情要素的相关案情要素指的是目标卷宗材料中与目标案情要素具有直接或间接关系的案情要素，则相应的，目标案情要素的相关案情要素的特征表示可以携带该相关案情要素本身的语义信息，进一步还可以携带目标卷宗材料的基本信息和/或该相关案情要素在目标案件中的重要程度信息等。其中，基本信息可以包括目标案件所在地区、审判法院地区、相关案由等。

需要说明的是，在本实现方式中，为了生成目标案情要素的表示结果，可以预先构建目标卷宗材料对应的语义特征图，该语义特征图中记录了目标卷宗材料中的各个目标案情要素的特征表示以及各个目标案情要素之间的关系表示。其中，对于每一目标案情要素，该语义特征图中记录了该目标案情要素与其相邻的每一目标案情要素之间的关系表示。

语义特征图可以是一个包括多个节点的无向图，每一节点对应一个目标案情要素，而每两个节点之间的连线则代表这两个节点之间的关系。例如，如图3所示，其示出了本申请实施例提供的目标卷宗材料对应的语义特征图，其中，A、B、C、D、E、F六个节点分别代表目标卷宗材料中的六个目标案情要素的特征表示，而相邻节点之间的连线则表示了这两个节点对应的目标案情要素之间的关系表示。

接下来，本实施例将对目标卷宗材料对应的语义特征图的构建过程进行详细介绍(1)-(2)：

(1)、在获取到目标卷宗材料中的各个目标案情要素后，可以利用指代消歧以及关系挖掘方法，自动挖掘出各个目标案情要素之间的关系。

具体来讲，目标卷宗材料中的各个目标案情要素之间通常具有复杂的联系，例如，在同一目标案件中，同一个人可能有多种称呼，即，同一个人的名称可能对应了多个目标案情要素(即多个实体要素)，比如在一起盗窃案件中，犯罪嫌疑人姓名为“张三”，但是在该案件的笔录中，可能会利用“那个男人”、“他”等代词来称呼该犯罪嫌疑人，即该犯罪嫌疑人的名称对应了三个不同的目标案情要素(即“张三”、“那个男人”、“他”)，因此，为了避免在对目标卷宗材料进行语义分析时，可能由于同一名称对应多个目标案情要素而造成理解错误，需要利用指代消歧方法，将对应同一实体的不同指代称呼统一为一个名称，故而，可以将上述举例中指代同一犯罪嫌疑人的三个目标案情要素“张三”、“那个男人”、“他”统一为一个目标案情要素，比如统一为“张三”。

此外，在目标案件中，基于目标案件复杂程度的不同，可能包含有多个人物、犯罪地点、作案工具等案件信息的多个不同目标案情要素，则这些目标案情要素之间的关系也体现了目标案件中不同人物、犯罪地点、作案工具等案件信息之间的关系，此时，为了能够获得准确的判决结果，需要利用关系挖掘算法，挖掘出各个目标案情要素之间的关系，进而整理出目标案件中不同人物、犯罪地点、作案工具等案件信息之间的关系。

举例说明：仍以一起盗窃案件作为目标案件为例，且该案件中犯罪嫌疑人名字为“李四”、原告名字为“王五”、犯罪地点为“王五家”、盗窃金额为“1000元”，则可以利用关系挖掘算法，挖掘出这四个目标案情要素之间的关系为“李四在王五家盗窃了1000元”。

(2)、根据各个目标案情要素之间的关系，构建目标卷宗材料对应的一幅语义特征图。

当得到各个目标案情要素以及确定各个目标案情要素之间的关系后，可以生成一幅语义特征图，使语义特征图中的每一节点对应一个目标案情要素、且将具有关联关系的目标案情要素进行连线，并记录每一个目标案情要素的特征表示以及每一连线两侧的目标案情要素之间的关系表示。需要说明的是，如果一个目标案情要素与其他目标案情要素之间无关联，则该目标案情要素在语义特征图中将对应一个与其他节点无连线的独立节点，比如图3中的节点E。

在语义特征图中，其中的每一节点分别对应表示一个目标案情要素的特征表示，且该特征表示携带了对应目标案情要素本身的语义信息、进一步还可以携带目标卷宗材料的基本信息(如目标案件所在地区、审判法院地区、相关案由等)和/或该目标案情要素在目标案件中的重要程度信息等。

其中，目标案情要素本身的语义信息可以采用句向量的形式来表示。而由于目标卷宗材料的基本信息以及目标案情要素在目标案件中的重要程度信息(简称为案件信息)等均为可枚举的信息，因此，该案件信息中的每一项信息的信息特征向量可以预先生成并存储，这样，当需要这些信息特征向量时可以直接获取，进而，可以将表征目标案情要素本身的语义信息的句向量与该案件信息对应的这些信息特征向量进行拼接，用于作为目标案情要素的特征表示。

需要说明的是，上述信息特征向量可以通过模型训练得到，即，可以在训练偏离度预测模型时，通过反向传播算法调整上述信息特征向量得到。

此外，在语义特征图中，相邻两个节点之间的连线表征了这两个节点对应的两个目标案情要素之间的关系，这里仍可以利用特征向量的形式来表征该关系，可以为一组一维特征向量，比如n×1维度的特征向量，也可以为一个由多维特征向量构成的关系矩阵，比如n×m维的关系矩阵，用以表征相邻两个节点对应的两个目标案情要素之间的关系。

接下来，本实施例将以利用关系矩阵来表征两个目标案情要素之间的关系为例，来介绍在构建语义特征图(比如图3所示的语义特征图)时，如何生成其中各个节点对应的各个目标案情要素之间的关系表示，具体包括步骤①-③：

①、对表征各个节点对应的各个目标案情元素之间的关系的各个关系矩阵进行初始化，比如，可以将各个关系矩阵初始化为每一元素均为零的关系矩阵，或者也可以对关系矩阵中的每一元素进行随机初始化等。

②、将每一目标案情要素对应的节点，依次作为待预测节点，对于每一待预测节点，可以利用除此待预测节点之外的其他节点的特征表示以及各个节点之间的关系表示，对此待预测节点对应的目标案情要素的特征表示进行预测，具体预测公式如下：

x_d＝∑_k∈K W_kdx_k (1)

其中，x_d表示预测出来的此待预测节点对应的目标案情要素的特征表示；K表示与此待预测节点相邻且参与计算的节点的个数；x_k表示与此待预测节点相邻且参与计算的第k个节点对应的目标案情要素的特征表示；W_kd为表征前述第k个节点与此待预测节点对应的两个目标案情要素之间的关系的关系矩阵。

③、可以将通过步骤②预测出来的此待预测节点对应的目标案情要素的特征表示x_d，与此待预测节点对应的目标案情要素的实际特征表示进行距离计算，将二者之间的向量距离作为loss值，根据该loss值调整W_kd中的元素值。在本实施例中，需要重复执行步骤①②③，直至loss值满足预设要求(比如变化幅度很小)为止，并且，将此时的W_kd，作为表征第k个节点与此待预测节点对应的两个目标案情要素之间的关系的关系矩阵。

进一步的，在利用上述步骤(1)(2)构建了如图3所示的目标卷宗材料对应的语义特征图后，一种可选的实现方式是，可以通过下述步骤B1-B2，对于每一目标案情要素，根据该目标案情要素所属的语义特征图，生成该目标案情要素的表示结果，其中，该目标案情要素的表示结果包括该目标案情要素的特征表示以及该目标案情要素的相关案情要素的特征表示。

步骤B1：从目标案情要素所属的语义特征图中，截取该目标案情要素对应的特征子图，其中，特征子图包括该目标案情要素以及与该目标案情要素具有直接或间接关系的其它案情要素。

在本实现方式中，通过上述步骤(1)(2)构建了目标卷宗材料对应的语义特征图(即目标案情要素所属的语义特征图)后，为了生成该目标案情要素的表示结果，首先可以从该语义特征图中，截取出该目标案情要素对应的特征子图，其中，该特征子图包括了该目标案情要素对应的节点，以及与该目标案情要素具有直接或间接关系的其他案情要素对应的节点。

例如，参见图3，假设该目标案情要素对应的节点为节点A，则该目标案情要素对应的特征子图包括节点A、B、C、D、F以及这些节点之间的连线。

步骤B2：生成该特征子图中每一案情要素的特征向量，作为该目标案情要素的表示结果。

通过步骤B1截取出该目标案情要素对应的特征子图后，可以从该目标案情要素对应的节点(后续称为目标节点)开始，基于距离从近至远按序依次递归地生成该特征子图中每一案情要素的特征向量，用以作为该目标节点对应的目标案情要素的表示结果。

其中，上述“距离”指的是，对于该目标案情要素对应的目标节点来说，从该特征子图中其它节点到该目标节点之间需经过的连线的数量，连线数越多、则距离越远。例如，以图3中的A节点为目标节点为例，由于B节点与A节点之间的连线数量为1，则二者之间的距离为1，而D节点与A节点之间的连线数量为2，则二者之间的距离为2，可见，相对于D节点来说，B节点距离A节点更近。

需要说明的是，在根据距离从近至远按序依次递归地生成该特征子图中每一案情要素的特征向量的过程中，为了避免因特征子图为闭环图而导致计算进入死循环，在每一次递归计算时，之前已参与过此次递归计算的节点，以及本次需要计算特征向量的案情要素对应的节点将不会参与计算。

具体来讲，以图3中A节点为该目标案情要素对应的目标节点为例，从图3可以看出，B、C节点与A节点之间的距离均为1，D、F节点与A节点之间的距离均为2。则，在计算A节点对应的案情要素的特征向量时，参与计算的是A节点的相邻节点B和C；在计算B节点对应的案情要素的特征向量时，参与计算的是B节点的相邻节点D；在计算C节点对应的案情要素的特征向量时，参与计算的是C节点的相邻节点D和F；在计算D节点对应的案情要素的特征向量时，参与计算的是D节点的相邻节点F；在计算F节点对应的案情要素的特征向量时，参与计算的是F节点的相邻节点D。

作为一种实现方式，在计算特征子图中的每一案情要素的特征向量时，具体的计算公式如下：

h_d＝x_d+∑_k∈Krest_kd*W_kdh_k (2)

其中，h_d表示特征子图中第d个节点对应的案情要素的特征向量；K表示与第d个节点相邻且参与计算的节点个数；x_d表示第d个节点对应的案情要素的特征表示；h_k表示参与计算的K个节点中的第k个节点对应的案情要素的特征向量；W_kd为表征第k个节点与第d个节点对应的两个案情要素之间的关系的关系表示，该关系表示可以是通过上述步骤①②③得到的关系矩阵；rest_kd表示第k个节点与第d个节点之间的关系的重要程度。

需要说明的是，为了计算得到h_d，需要预先计算得到h_k，即，将h_k作为h_d来通过(2)进行计算。

还需要说明的是，在公式(2)中，rest_kd的取值越大，表明第k个节点与第d个节点之间的关系在计算特征向量h_d时的重要程度越高，则需要将此关系以及与此关系相关的第k个节点的相关信息传递到第d个节点对应的案情要素的特征向量h_d中。

rest_kd的具体计算公式如下：

rest_kd＝sigmoid(W_re[x_d,x_k]+b_re) (3)

其中，x_d表示第d个节点对应的案情要素的特征表示；x_k表示第k个节点对应的案情要素的特征表示；W_re和b_re分别表示权重和偏置，二者均为模型参数，具体取值可通过训练偏离度预测模型得到。

可见，通过上述公式(2)和(3)，可以计算出特征子图中每一案情要素的特征向量h_d，可以将这些特征向量h_d作为目标节点(比如上述A节点)对应的目标案情要素的表示结果。

S202：对于每一目标案情要素，确定该目标案情要素对应的各个选定案情要素，并生成该选定案情要素的表示结果。

需要说明的是，为了实现本步骤S202，可以预先构建一个语义知识库，下面对语义知识库的构建过程进行介绍。

在本实施例中，由于预先收集了大量的以往判决案件的卷宗材料作为样本卷宗材料，因此，可以按照上述步骤S101-S102的执行步骤，将目标卷宗材料替换为每一样本卷宗材料，以提取出每一样本卷宗材料中包含的各个样本案情要素，用来表征对应样本卷宗材料的案情信息。其中，各个样本案情要素指的是对应样本卷宗材料中包含的各个实体要素以及与各个实体要素相关的各个关联要素。

基于此，本申请实施例可以将各个样本卷宗材料中的样本案情要素结合法律法条、判案指引以及判案结果等信息构建结构化的语义知识库，该语义知识库中包含了每一样本卷宗材料对应的语义特征图，和“实体-关系-实体”形式的三元组、以及“实体-属性-属性值”形式的三元组。

其中，“实体-关系-实体”形式的三元组中的两个“实体”分别为样本案情要素和判决结果，二者之间的“关系”为相关法律法条、判案指引、法官的判案经验中的至少一种信息。其中，判案指引信息为法院为判案发布的指引文书，或者法官自主总结出的办案思路脑图，对判案有指导意义。

并且，对于语义知识库中包含的“实体-关系-实体”形式的三元组的数据来源，具体可以分为以下三种：

第一种，可以通过机器学习辅助的方法如主成分分析(Principal ComponentAnalysis，简称PCA)、K最近邻(k-Nearest Neighbor，简称KNN)等无监督方法，对预先收集到的大量以往判决案件的样本卷宗材料中的大量样本案情要素进行聚类，随后对聚类结果进行人工分析，对聚类正确且相似的样本案情要素进行合并，对聚类错误或不相似的样本案情要素进行人工纠正，从而建立包括样本案情要素和对应判决结果的三元组。

第二种，可以通过解析法律法规、最高法及各个地区的判案指引，利用解析出的法条中规定的案情要素作为样本案情要素，再结合对应的判决结果，构建包括样本案情要素和对应判决结果的三元组。

第三种，可以通过将法官的判案经验进行归纳整理得到更加准确的三元组，即，法官可以根据自己多年的判案经验，对通过步骤(1)得到的三元组进行修改，使得修改后的三元组更加符合自己的办案风格，也可以将自己办案过程中遇到的特殊情况进行描述，并整合成三元组形式的数据补充到语义知识库中去。

需要说明的是，在构建语义知识库时，该语义知识库除了包括上述三元组数据，还包括每一样本卷宗材料对应的语义特征图、以及每一样本卷宗材料对应的判决结果的表示结果。

其中，每一样本卷宗材料对应的语义特征图，可以按照目标卷宗材料对应的语义特征图的类似过程进行构建(如上述步骤(1)(2))。并且，判决结果可以从相应的样本卷宗材料的裁判文书中提取，并可以利用一维或多维的特征向量来表示该判决结果，该向量中的不同维度的值代表不同裁判类型的量刑结果，例如，假设判决结果中包含罚金、刑期以及定罪类型三项裁判类型，则可以利用一维向量来表示该判决结果，如可将其表示为[1,2,3]，其中，1、2、3分别表示罚金、刑期、定罪类型的的量刑结果。

此外，在该语义知识库中，除了保存每一样本卷宗材料对应的语义特征图以及三元组数据，还可以进一步保存各条三元组数据对应的各个卷宗编号以及具体的案件情况(比如案件基本信息)等，以便可以快速查询到相关案件及查找相关类案。

需要说明的是，本实施例在构建语义知识库时，主要是采用了人工梳理以及数据库搭建等方法，具体实现过程可以与现有方法一致，在此不再赘述。

进一步的，在构建了语义知识库后，对于每一目标案情要素来讲，可以从该语义知识库中选择出与其在表示结果层面上相同或相近的一个或多个样本案情要素(也可能是零个，则不进行后续流程)，并将选择出的这些样本案情要素定义为选定案情要素，这些选定案情要素的表示结果可以包括以下表示结果中的一项或多项：

选定案情要素的特征表示、选定案情要素的特征表示与对应的目标案情要素的特征表示之间的相似度、选定案情要素所属的样本卷宗材料与目标卷宗材料之间的重合度、选定案情要素所属的样本卷宗材料对应的语义特征图与目标卷宗材料对应的语义特征图之间的相似度。

接下来，将对上述4项表示结果进行一一介绍：

1、选定案情要素的特征表示

“选定案情要素的特征表示”与上述“目标案情要素的特征表示”类似，即，“选定案情要素的特征表示”可以携带该选定案情要素本身的语义信息，进一步还可以携带该选定案情要素所属的样本卷宗材料的基本信息和/或该选定案情要素在其所属样本案件中的重要程度信息等，其中，该基本信息可以包括该样本案件所在地区、审判法院地区、相关案由等。

并且，由于“目标案情要素的特征表示”可以在形成其所属的目标卷宗材料对应的语义特征图的过程中形成，同理，“选定案情要素的特征表示”也可以在形成其所属的样本卷宗材料对应的语义特征图的过程中形成，相关介绍请参见目标卷宗材料对应的语义特征图的形成过程(1)-(2)。

2、选定案情要素的特征表示与对应的目标案情要素的特征表示之间的相似度

“选定案情要素的特征表示与对应的目标案情要素的特征表示之间的相似度”表征了目标案情要素和语义知识库中对应的选定案情要素之间的相似度，即表征了目标案件案情与选定案情要素所属的样本案件案情的相似度，同时，也表征了这两个案件信息的相似度，并且，这里可以利用此相似度的向量表示作为相似度特征。此外，本实施例不限定选定案情要素的特征表示与目标案情要素的特征表示之间的相似度的计算方式和表现形式，比如，可以采用余弦相似度计算方式、采用向量形式表示相似度。

3、选定案情要素所属的样本卷宗材料与目标卷宗材料之间的重合度

对于选定案情要素所属的样本卷宗材料中的各个样本案情要素、以及目标卷宗材料中的各个目标案情要素，可以统计两个卷宗材料中属性相同的案情要素的数量(定义为第一数量)、两个卷宗材料中属性不同的案情要素的数量(定义为第二数量)、以及计算两个卷宗材料中属性相同的每两个案情要素的特征表示之间的相似度并计算这些相似度的平均值，可以将第一数量、第二数量、相似度平均值中的至少一个，作为选定案情要素所属的样本卷宗材料与目标卷宗材料之间的重合度特征。

需要说明的是，上述“属性”的解释，请参见后续介绍的S202的一种实现方式中的步骤C1-C4中的相关介绍。

4、选定案情要素所属的样本卷宗材料对应的语义特征图与目标卷宗材料对应的语义特征图之间的相似度

“选定案情要素所属的样本卷宗材料对应的语义特征图与目标卷宗材料对应的语义特征图之间的相似度”，指的是从选定案情要素所属的样本卷宗材料对应的语义特征图，到目标卷宗材料对应的语义特征图的编辑距离，具体来讲，可以将两个节点以及这两个节点之间的连线作为一个编辑单元，进而可以计算出从选定案情要素所属的样本卷宗材料对应的语义特征图，到目标卷宗材料对应的语义特征图需要增、删、改的节点和连线的数量、以及相同编辑单元的数量，并将其作为选定案情要素所属的样本卷宗材料对应的语义特征图与目标卷宗材料对应的语义特征图之间的相似度特征。

此外，也可以采用图形神经网络(Graph Neural Network，简称GNN)等方法来计算选定案情要素所属的样本卷宗材料对应的语义特征图与目标卷宗材料对应的语义特征图之间的相似度特征。

接下来，介绍上述步骤S202中的“确定该目标案情要素对应的各个选定案情要素”的一种实现方式，可以包括下述步骤C1-C4：

步骤C1：确定目标案情要素的目标属性。

在本实现方式中，为了从语义知识库中选择出目标案情要素对应的各个选定案情要素，首先需要确定出目标案情要素的属性，并将其定义为目标属性，该目标属性与目标案情要素之间的关系，可以是属性与属性值之间的关系。

例如，以目标案件为一起盗窃案为例，假设其中的目标案情要素为“王五家”，则该目标案情要素的目标属性可以是“盗窃地点”。

步骤C2：从各个样本案情要素的样本属性中，筛选出与目标属性相同和/或相近的样本属性。

在本实现方式中，在构建语义知识库时，针对每一样本案情要素，可以基于其所属样本卷宗材料的类型以及相关判案经验，确定出其所属的样本属性，比如，可以确定出哪些样本案情要素属于样本属性“犯罪嫌疑人”、哪些样本案情要素属于样本属性“犯罪地点”等，可以理解的是，在语义知识库中，同一样本属性可以对应一个或多个样本案情要素。

通过步骤C1确定出目标案情要素的目标属性后，进一步可以从语义知识库中，筛选出与目标属性相同和/或相近的样本属性，例如，以目标属性为“盗窃地点”为例，则可以从语义知识库中，筛选出与“盗窃地点”相同和/或相近的样本属性，如“盗窃地点”、“偷盗地点”、“案发地点”等样本属性。

步骤C3：确定目标案情要素分别与筛选出的每一样本属性下的样本案情要素之间的语义相似度。

通过步骤C2筛选出与目标属性相同和/或相近的样本属性后，可以利用语义相似度计算方法，分别计算出目标案情要素与筛选出的每一样本属性下的每一样本案情要素之间的语义相似度，从而得到多个语义相似度。

其中，目标案情要素与样本案情要素之间的语义相似度，可以通过计算目标案情要素的特征表示与样本案情要素的特征表示之间的相似度得到。

步骤C4：选取大于预设阈值的各个语义相似度对应的样本案情要素，作为各个选定案情要素。

通过步骤C3计算出每一样本属性下的每一样本案情要素对应的语义相似度后，将每一语义相似度与预设阈值(可以基于实验和/或经验设定)进行比较，选择出大于预设阈值的每一语义相似度，并将这些语义相似度对应的样本案情要素作为选定案情要素。

S203：根据生成的表示结果，预测目标卷宗材料对应的判决结果的偏离度。

在本实施例中，通过步骤S201生成各个目标案情要素的表示结果，以及通过步骤S202生成各个选定案情要素的表示结果后，进一步可以对生成的这些表示结果进行数据处理，以根据处理结果预测出目标卷宗材料对应的判决结果的偏离度，比如，可以利用预先构建的偏离度预测模型对生成的这些表示结果进行处理，以预测出目标卷宗材料对应的判决结果的偏离度。

其中，预先构建的偏离度预测模型可以由多层网络构成，如图4所示，该模型结构包括了输入层、注意力层、连接层及输出层。

接下来，本实施例将通过下述步骤D1-D2，结合预先构建的偏离度预测模型，对如何预测目标卷宗材料对应的判决结果的偏离度的具体实施方式进行介绍。

步骤D1：对于每一目标案情要素，根据目标案情要素的表示结果与目标案情要素对应的每一选定案情要素的表示结果，确定目标案情要素与每一选定案情要素之间的相关度。

在本实施例中，可以先将每一目标案情要素的表示结果定义为S、将目标案件的判决结果定义为K，并将确定出的与每一目标案情要素对应的选定案情要素的表示结果定义为u，假设与某目标案情要素对应的选定案情要素共有k个，则可以利用U＝(u₁...u_k)来表示与该目标案情要素对应的所有选定案情要素的表示结果，相应的，可以将语义知识库中与选定案情要素所属的样本卷宗材料对应的判决结果的表示结果定义为r，由于每一选定案件要素对应一个判决结果，则可以利用R＝(r₁...r_k)来表示所有选定案情要素对应的所有判决结果的表示结果，然后，可以将S、K、U＝(u₁...u_k)、R＝(r₁...r_k)作为输入数据，输入至图4所示的偏离度预测模型的输入层。

接着，可以将输入层的输出数据作为注意力层的输入数据，并利用注意力层计算出目标案情要素的表示结果S与其对应的每个选定案情要素的表示结果(u₁...u_k)之间的相关度，这里可以将该相关度定义为P，且P＝(p₁,p₂...p_k)，需要说明的是，相关度P的取值越大，表明目标案情要素与对应的选定案情要素内容的相关度越高，反之，相关度P的取值越小，表明目标案情要素与对应的选定案情要素内容的相关度越低。

接下来，将介绍相关度P的计算方式：

在第一种计算方式中，可以先计算出目标案情要素的表示结果S与其对应的每个选定案情要素的表示结果(u₁...u_k)之间的内积，然后，再计算该目标案情要素的表示结果S与其对应的每个选定案情要素的表示结果(u₁...u_k)之间的相关度P，具体计算公式如下：

p_i＝f(S^Tu_i) (4)

其中，p_i表示目标案情要素的表示结果S与第i个选定案情要素的表示结果u_i之间的相关度，可以理解的是，p_i取值越大，表明目标案情要素与第i个选定案情要素内容的相关度越高，反之，p_i取值越小，表明目标案情要素与第i个选定案情要素内容的相关度越低；S^Tu_i表示目标案情要素的表示结果S与第i个选定案情要素的表示结果u_i之间的内积；f表示相关度计算函数，比如可以是softmax()函数。

在第二种计算方式中，可以先计算出目标案情要素的表示结果S与其对应的每个选定案情要素的表示结果(u₁...u_k)之间的距离，然后，基于每个选定案情要素对应距离值，计算该目标案情要素的表示结果S与每个选定案情要素的表示结果(u₁...u_k)之间的相关度P，相关度计算函数也可以是softmax()函数。

步骤D2：根据每一选定案情要素对应的相关度，预测目标卷宗材料对应的判决结果的偏离度。

对于每一目标案情要素，在利用偏离度预测模型的注意力层，通过步骤D1确定出目标案情要素与其对应的每一选定案情要素之间的相关度后，进一步可以利用模型中的注意力层以及连接层对注意力层输出的相关度进行处理，以便后续可以根据处理结果预测目标卷宗材料对应的判决结果的偏离度。

具体来讲，在本实施例的一种实现方式中，本步骤D2的具体实现方式可以包括以下步骤D21-D23：

步骤D21：对于每一目标案情要素，将该目标案情要素对应的每一选定案情要素对应的相关度，与该每一选定案情要素所属的样本卷宗材料对应的判决结果的表示结果进行加权计算，得到该目标案情要素对应的加权计算结果。

在本实现方式中，由于语义知识库中存储了包含每一选定案情要素与其对应的判决结果的三元组数据，则可以从语义知识库中提取出每一选定案情要素对应的判决结果的表示结果，并可以在通过步骤D1确定出目标案情要素与每一选定案情要素之间的相关度P后，利用偏离度预测模型的注意力层，根据该相关度P，对提取出的每一判决结果的表示结果进行加权计算，以得到加权计算结果，具体计算公式如下：

其中，p_i表示目标案情要素的表示结果S与第i个选定案情要素的表示结果u_i之间的相关度；r_i表示语义知识库中第i个选定案情要素对应的判决结果的表示结果；k表示选定案情要素的个数；A表示该目标案情要素对应的加权计算结果。

步骤D22：根据每一目标案情要素对应的加权计算结果，生成每一目标案情要素的预测表示结果。

在本实现方式中，在利用偏离度预测模型的注意力层，得到每一目标案情要素对应的加权计算结果A后，对于每一目标案情要素，可以将该目标案情要素对应的加权计算结果A以及输入层输入的该目标案情要素的表示结果S和目标案件的判决结果K，输入至偏离度预测模型的连接层，并利用连接层实现如下计算，具体计算公式如下：

其中，

表示目标案情要素的预测表示结果；W表示特征向量变换权重矩阵，为偏离度预测模型的模型参数，具体取值可通过训练偏离度预测模型得到；f表示特征向量变换函数，可以取为softmax()函数。

步骤D23：根据每一目标案情要素对应的预测表示结果，预测目标卷宗材料对应的判决结果的偏离度。

在本实现方式中，当通过偏离度预测模型的连接层得到每一目标案情要素的预测表示结果

后，可以将每一目标案情要素的预测表示结果

输入至图4所示的偏离度预测模型的输出层，以便输出层可以根据每一目标案情要素的预测表示结果

对目标卷宗材料对应的判决结果的偏离度进行准确预测并输出。

综上，本实施例先生成各个目标案情要素的表示结果以及每一目标案情要素对应的各个选定案情要素的表示结果，然后再利用预先构建的偏离度预测模型，对这些表示结果进行处理，以预测出目标卷宗材料对应的判决结果的偏离度，这样，通过将目标卷宗材料中的目标案情要素与样本卷宗材料中的样本案情要素相结合共同作为参考依据，可以根据二者之间的关系以及各个样本案情要素对各个样本卷宗材料的判决结果产生的影响，准确预测出目标案情要素对目标卷宗材料判决结果可能产生的影响，进而能够更准确、更快速地预测出目标卷宗材料的判决结果的偏离度。

第三实施例

本实施例将对上述实施例中提及的偏离度预测模型的构建过程进行介绍。具体可以包括以下步骤E1-E3：

步骤E1：收集到大量的训练样本数据。

在本实施例中，为了构建偏离度预测模型，需要预先收集大量以往判决案件的卷宗材料(可以利用这些卷宗材料，按照上述第二实施例中步骤(1)(2)的执行过程，构建上述的语义知识库)，并将每一份卷宗材料作为训练样本数据。需要说明的是，每一份训练样本数据可以按照第一实施例中S101中介绍的目标卷宗材料的获取方式进行获取。

在收集到大量的训练样本数据后，可以由人工根据具体的实际情况，对各个训练样本数据进行整理、分类和标注，即，人工标注出每一个训练样本数据对应的偏离度，具体来讲，可以预先将偏离度划分为多个等级，比如，可以预先将偏离度划分为“较高”、“较低”、“正常范围”三个等级，进而可以根据每一训练样本数据中的实际判决结果，人工标注出每一训练样本数据对应的偏离度等级结果。

步骤E2：构建偏离度预测模型。

可以构建一个初始的偏离度预测模型，并初始化模型参数。

需要说明的是，本实施例不限制步骤E1与步骤E2的顺序。

步骤E3：利用预先收集的大量训练样本数据，对偏离度预测模型进行训练。

在本实施例中，通过步骤E1收集到大量的训练样本数据并对每一训练样本数据进行标签标注后，可以利用这些数据对步骤E2构建的偏离度预测模型进行训练，通过多轮模型训练，直到满足训练结束条件为止，此时，即训练得到偏离度预测模型。

具体地，在进行本轮训练时，需要从上述模型训练数据中选择一份样本卷宗材料，此时，将上述实施例中的目标卷宗材料替换为该样本卷宗材料，将目标案情要素替换为样本案情要素，按照上述实施例中步骤S102的执行过程，提取出该样本卷宗材料中各个样本案情要素，然后，再按照上述实施例步骤S202介绍的方式，确定出语义知识库中该样本案情要素对应的各个选定案情要素，并生成该样本案情要素及其对应的各个选定案情要素的表示结果，接着，可以按照上述实施例步骤S203介绍的方式，预测出该样本卷宗材料对应的判决结果的偏离度，进而，可以根据预测出的偏离度结果与人工标注的偏离度结果之间的差异对模型参数进行更新，即完成了偏离度预测模型的本轮训练。

在本轮训练过程中，可以在偏离度预测模型的训练过程中使用目标函数进行训练，比如，可以将均方误差(mean-square error，简称MSE)等损失函数作为目标函数进行模型训练，并且，在使用目标函数对偏离度预测模型进行训练时，可以根据该目标函数取值的变化，对偏离度预测模型的模型参数进行更新。这样，通过多轮训练，直至目标函数的取值满足要求(比如，趋于0或变化幅度很小等)，则停止模型参数的更新，从而完成偏离度预测模型的训练。

第四实施例

本实施例将对一种裁判量刑偏离度预测装置进行介绍，相关内容请参见上述方法实施例。

参见图5，为本实施例提供的一种裁判量刑偏离度预测装置的组成示意图，该装置500包括：

目标卷宗材料获取单元501，用于获取目标卷宗材料；

目标案情要素提取单元502，用于从所述目标卷宗材料中提取各个目标案情要素；

量刑偏离度预测单元503，用于根据量刑关联信息，预测所述目标卷宗材料对应的判决结果的偏离度，所述量刑关联信息包括各个目标案情要素与各个样本案情要素之间的关联关系，所述各个样本案情要素是从大量样本卷宗材料中提取的。

在本实施例的一种实现方式中，所述目标案情要素提取单元502包括：

在本实施例的一种实现方式中，所述量刑偏离度预测单元503包括：

在本实施例的一种实现方式中，所述目标案情要素的表示结果包括：所述目标案情要素的特征表示以及所述目标案情要素的相关案情要素的特征表示。

则，所述表示结果生成子单元具体用于：

在本实施例的一种实现方式中，所述表示结果生成子单元包括：

在本实施例的一种实现方式中，所述选定案情要素确定子单元包括：

在本实施例的一种实现方式中，所述选定案情要素的表示结果包括以下至少一项：

所述选定案情要素的特征表示；

在本实施例的一种实现方式中，所述量刑偏离度预测子单元包括：

在本实施例的一种实现方式中，所述偏离度预测子单元包括：

在本实施例的一种实现方式中，所述量刑偏离度预测单元503具体用于：

进一步地，本申请实施例还提供了一种裁判量刑偏离度预测设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述裁判量刑偏离度预测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述裁判量刑偏离度预测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述裁判量刑偏离度预测方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种裁判量刑偏离度预测方法，其特征在于，包括：

获取目标卷宗材料；

从所述目标卷宗材料中提取各个目标案情要素；

生成各个目标案情要素的表示结果；

对于每一目标案情要素，确定所述目标案情要素对应的各个选定案情要素，并生成所述选定案情要素的表示结果；其中，所述选定案情要素为各个样本案情要素中的与对应目标案情要素在表示结果层面上相同或相近的一个样本案情要素；所述各个样本案情要素是从大量样本卷宗材料中提取的；

2.根据权利要求1所述的方法，其特征在于，所述从所述目标卷宗材料中提取各个目标案情要素，包括：

从所述目标卷宗材料中提取各个实体要素；

3.根据权利要求1所述的方法，其特征在于，所述目标案情要素的表示结果包括：所述目标案情要素的特征表示以及所述目标案情要素的相关案情要素的特征表示；

则，所述生成各个目标案情要素的表示结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标案情要素所属的语义特征图，生成所述目标案情要素的表示结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述目标案情要素对应的各个选定案情要素，包括：

确定所述目标案情要素的目标属性；

6.根据权利要求1所述的方法，其特征在于，所述选定案情要素的表示结果包括以下至少一项：

所述选定案情要素的特征表示；

7.根据权利要求1所述的方法，其特征在于，所述根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据每一选定案情要素对应的相关度，预测所述目标卷宗材料对应的判决结果的偏离度，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，生成各个目标案情要素的表示结果；对于每一目标案情要素，确定所述目标案情要素对应的各个选定案情要素，并生成所述选定案情要素的表示结果；根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度，包括：

利用预先构建的偏离度预测模型，生成各个目标案情要素的表示结果；对于每一目标案情要素，确定所述目标案情要素对应的各个选定案情要素，并生成所述选定案情要素的表示结果；根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度。

10.一种裁判量刑偏离度预测装置，其特征在于，包括：

目标卷宗材料获取单元，用于获取目标卷宗材料；

量刑偏离度预测单元，所述量刑偏离度预测单元包括：表示结果生成子单元，用于生成各个目标案情要素的表示结果；选定案情要素确定子单元，用于对于每一目标案情要素，确定所述目标案情要素对应的各个选定案情要素，并生成所述选定案情要素的表示结果；其中，所述选定案情要素为各个样本案情要素中的与对应目标案情要素在表示结果层面上相同或相近的一个样本案情要素；，所述各个样本案情要素是从大量样本卷宗材料中提取的量刑偏离度预测子单元，用于根据生成的表示结果，预测所述目标卷宗材料对应的判决结果的偏离度。

11.根据权利要求10所述的装置，其特征在于，所述目标案情要素的表示结果包括：所述目标案情要素的特征表示以及所述目标案情要素的相关案情要素的特征表示；

则，所述表示结果生成子单元具体用于：

12.根据权利要求10所述的装置，其特征在于，所述选定案情要素确定子单元包括：

13.根据权利要求10所述的装置，其特征在于，所述量刑偏离度预测子单元包括：

14.一种裁判量刑偏离度预测设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-9任一项所述的方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-9任一项所述的方法。