CN108763484A - 一种基于lda主题模型的法条推荐方法 - Google Patents
一种基于lda主题模型的法条推荐方法 Download PDFInfo
- Publication number
- CN108763484A CN108763484A CN201810534723.8A CN201810534723A CN108763484A CN 108763484 A CN108763484 A CN 108763484A CN 201810534723 A CN201810534723 A CN 201810534723A CN 108763484 A CN108763484 A CN 108763484A
- Authority
- CN
- China
- Prior art keywords
- law article
- law
- judgement document
- document
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 35
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000013461 design Methods 0.000 claims abstract description 5
- 238000005065 mining Methods 0.000 claims abstract description 5
- 230000000694 effects Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 239000012141 concentrate Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种基于LDA主题模型的法条推荐方法,包括以下步骤:提取裁判文书集构建训练语料;将裁判文书进行预处理,包括抽取出案件基本情况段落和引用法条列表,将案件基本情况进行中文分词,去除法律专有停用词以及法条名称标准化;对案件情况进行预处理;训练LDA主题模型提取与案件情况相似的裁判文书集;提取推荐法条集,设计法条关联度打分机制计算法条与案件的关联度,并结合频繁项集挖掘关联法条;输出推荐法条列表。本发明模拟法官在实际审判过程中,经常查阅相似裁判文书来决定法条引用的真实场景,从语义层面度量了裁判文书的相似度,能准确获得相似的裁判文书并进行关联法条推荐,提高了法条推荐的准确性。
Description
技术领域
本发明涉及一种法条推荐方法,具体涉及一种基于LDA主题模型的法条推荐方法,属于大数据挖掘技术领域。
背景技术
近年来,最高人民法院围绕全面依法治国战略部署,以“大数据、大格局、大服务”为理念,大力推进人民法院信息化建设。裁判文书作为法律审判活动记录的载体,完整反映了当事入主张、举证和质证的客观过程,并全面阐述了裁判结果形成的法律依据、事实证据和推理过程。裁判文书是一类重要的司法数据,截至2018年5月,已有超过4500万份裁判文书被收录并公布于中国裁判文书网。
基于这些司法大数据的研究工作也相继开展,“人工智能+法律”成为热点研究话题。基于自然语言处理和机器学习的语义检索,法律问答,法律援助,在线法院等都将使法律行业的运行方式变得更加智能与高效。
在案件审判过程中,法官需要结合当事人的诉求以及案件的证据与事实,阅读大量的法律法规来选择合适的法律法条作为依据,从而确定案件判决结果。由于成文法繁多,同一个问题可能会出现在不同的法律规范中,因此法官需要阅读大量的法律法规,这一过程通常需要耗费大量的时间和精力。由于这个原因,法院工作中的一些矛盾和问题逐渐显现,其中“同案不同判、法律适用的不统一”便是其中之一,同案同判成为广大公众对法律的诉求。对于案件当事人,在案件咨询与诉讼过程中,他们往往需要支付高昂的律师咨询费来了解案件的情况以及可能的判决结果。法条推荐的价值正体现在这两方面,一方面法条推荐可以为法官推荐案件可能适用的法条,提高法官的工作效率,帮助法官实现同案同判,确保公平正义,另一方面法条推荐可以帮助当事人了解同类案件的诉讼结果和相关法条,形成最佳的诉讼策略,节约法律咨询和诉讼的成本。
在自然语言处理中,主题模型是一种用于挖掘文本隐式语义主题的概率模型,主题表示一种概念,可以用词项以及词项的概率分布进行表示。主题模型对文本生成过程进行模拟,通过参数估计得到文本内容的主题概率分布。传统的向量空间模型以文档中的词语作为特征,构造出的特征向量往往维数过高,而当以主题模型表示文档时,可以将文档空间映射到一个低维的主题空间中,得到文档新的语义表达,从而弥补传统向量空间模型语义缺失的缺点。由于裁判文书具有半结构化和半口语化的特点,同时诉讼种类多样,成文法律繁多,裁判文书的表达方法千差万别,仅仅依靠字符层面的分析方式难以取得令人满意的效果,实现智能准确的法条推荐不仅需要对裁判文书的特点进行分析,还需要从语义的层面出发对裁判文书进行研究。因此本发明以主题模型算法为基础,裁判文书为数据源,着重研究了一种基于LDA主题模型的法条推荐方法。
发明内容
本发明是一种基于LDA主题模型的法条推荐方法,提供一种裁判文书文本预处理方法,包括自动构建法律专有停用词库和法条名称标准化的方法,并针对裁判文书的案件基本情况训练主题模型,通过案件基本情况的主题概率的相似度计算,获得相似的裁判文书集,基于相似裁判文书集,设计了法条关联程度的打分机制,并结合频繁项集挖掘的方法进行法条推荐。该方法能有效去除与案情表达无关的词语,降低模型训练的复杂度,该方法从语义层面度量案情的相似度,能准确获得相似的裁判文书集和关联法条,符合真实情况下,法官不仅需要关联法条,还需要相似的裁判文书的工作场景。
本发明所述的一种基于LDA主题模型的法条推荐方法,其特征在于包含以下步骤:
步骤(1)根据案由从裁判文书数据库中提取裁判文书集,构建训练语料;
步骤(2)裁判文书预处理;
步骤(3)用户输入预处理;
步骤(4)提取相似裁判文书集;
步骤(5)提取推荐法条集;
步骤(6)输出推荐法条列表。
1.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(1)中根据案由从裁判文书数据库中提取裁判文书集,构建训练语料。
2.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(2)中裁判文书预处理,具体包括;
步骤(2.1)使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表;
步骤(2.2)将案件基本情况段落进行中文分词,筛选出词性为名词n、动词v和形容词a的词汇,将案件基本情况段落转化成由词汇组成的列表,得到所有词汇的集合;
步骤(2.3)去停用词。首先构建法律专有停用词库:计算每个词语在所有文档中出现的词频,计算每个词语在某一特定案由下所有文档中出现的词频,计算每个词语的类别信息熵,按照文档频次和类别信息熵进行降序排序,筛选出文档频次大于某一阈值,类别信息熵大于某一闽值的词作为停用词库。接着去除停用词,包括去除法律专有停用词,去除词语长度小于2的词,去除高频词语,去除低频词语;
步骤(2.4)法条名称标准化。首先构建法条名称标准的映射关系:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的符号,统计法律名称的引用频次,按降序排列,选择高频法律名称作为标准化目标,接着使用莱文斯坦编辑距离算法来构建法律名称间的映射关系。接着标准化法条名称:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的符号,按照法条名称标准的映射关系,获得标准的法条名称,将法条编号中的阿拉伯数字统一成中文数字,使用下划线将标准化后的法条名称和法条编号连接起来。
3.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(3)中对用户输入的案件基本情况进行预处理,具体包括:
步骤(3.1)中文分词,筛选出词性为名词n、动词v和形容词a的词汇集合:
步骤(3.2)去除法律专有停用词;
步骤(3.3)去除文档频率高的词汇;
步骤(3.4)去除文档频率低的词汇。
4.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(4)中使用LDA算法训练主题模型,来将案件基本情况进行语义表达,通过主题概率的相似度计算,得到与用户输入的案件基本情况语义相似的裁判文书集。具体包括:
步骤(4.1)使用LDA算法训练主题模型。将预处理好后的裁判文书集分为训练集和测试集,使用训练集进行主题模型的训练,使用测试集进行主题模型效果的评估。训练目标是选择出最优的主题模型数量并获得裁判文书的主题模型。通过不断改变主题数量,训练主题模型,针对测试集计算主题模型的困惑度和文本的平均相似度,重复这个过程,绘制出主题模型效果的曲线,选择出最优的主题模型数量,并获得最优主题模型数量下的主题模型;
步骤(4.2)使用上述训练好的主题模型将用户输入的案件基本情况和裁判文书集中的案件基本情况段落转化成主题概率分布;
步骤(4.3)使用Jenson-Shannon分歧算法一一计算用户输入的案件基本情况与和裁判文书集中的案件基本情况段落的主题概率分布的相似度,得到裁判文书的语义相似度;
步骤(4.4)将所有裁判文书按照语义相似度降序排序,取最为相似的前N篇裁判文书作为相似裁判文书集。
5.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(5)中根据上一步骤中得到的相似裁判文书集,获取候选推荐法条,计算法条的关联程度,从而提取推荐法条集。具体包括:
步骤(5.1)获取相似裁判文书集中所有裁判文书引用的法条作为候选法条;
步骤(5.2)结合裁判文书的相似度和法条被引用次数设计法条关联程度的打分机制,计算所有候选法条的关联度;
步骤(5.3)将候选法条按照关联度降序排序,提取关联度最大的前K个法条作为推荐法条;
步骤(5.4)使用频繁项集挖掘的方法,提取推荐法条的关联法条一并作为法条推荐的结果。
6.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(6)输出推荐法条集。法条推荐的效果采用召回率进行评估。
本发明与现有技术相比,其显著优点是:使用正则表达式提取出文书中与法条推荐目标相关的段落,避免了全篇幅使用文书引入其他无关信息的问题,减少不必要的特征词汇对法条推荐结果的影响;结合词语的文档频率,类别频率和类别信息熵的自动构建法律专有停用词库的方法,有效获得了法律专有停用词库,大大节省了人工构造停用词库需要耗费的时间,并且通过本发明提出的预处理方法,大量的噪声数据被去除,与案件情况有关的词汇被保留下来,提高了主题模型训练的效果;通过不断调整主题数量,迭代评估主题模型效果的方法能有效获得较优的主题数量,从而准确地得到相似裁判文书集,符合真实应用场景下,法官不仅需要得到相关的法条,还需要得到相似的裁判文书的需求。当数据库中有新的裁判文书时,基于LDA的法条推荐方法无需重新训练模型,只需要使用原有的主题模型表达新的裁判文书,即可在法条推荐时将新的裁判文书集纳入选择范围内。
附图说明
图1基于LDA主题模型的法条推荐方法流程图
图2提取特定的裁判文书段落的正则表达式
图3裁判文书语料提取示例图
图4法律专有停用词库示例图
图5主题模型训练流程图
图6提取相似裁判文书集的方法流程图
图7基于案由与统计的法条推荐方法、基于常规文本相似度的法条推荐方法与基于LDA主题模型的法条推荐方法的实验对比图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决法条推荐问题,提出一种基于LDA主题模型的法条推荐方法方法。通过使用特定的正则规则,提取文书中与法条推荐目标相关的段落,避免了全篇幅使用文书引入其他无关信息的问题;结合词语的文档频率,类别频率和类别信息熵的自动构建法律专有停用词库的方法,有效获得了法律专有停用词库,大大节省了人工构造停用词库需要耗费的时间,并且通过本发明提出的预处理方法,大量的噪声数据被去除,与案件情况有关的词汇被保留下来,提高了主题模型训练的效果;通过迭代调整主题数量,评估主题模型效果,能有效获得较优的主题数量,从而准确地得到相似裁判文书集,符合真实应用场景下,法官不仅需要得到相关的法条,还需要得到相似的裁判文书的需求。本发明概括来说主要包括以下步骤:
步骤(1)根据案由从裁判文书数据库中提取裁判文书集,构建训练语料;
步骤(2)裁判文书预处理;
步骤(3)用户输入预处理;
步骤(4)提取相似裁判文书集;
步骤(5)提取推荐法条集;
步骤(6)输出推荐法条列表。
上述一种基于LDA主题模型的法条推荐方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
1.由于诉讼种类繁多,考虑案件的案由可以有效缩小法条推荐的范围,因此首先根据案由从裁判文书数据库中提取裁判文书集,构建训练语料。
2.为了从裁判文书中获得与模型训练有关的内容段落,去除噪声数据,提高主题模型的训练效果,在步骤2中需要对裁判文书进行预处理。具体步骤是:
步骤(2.1)提取案件基本情况段落和引用法条列表。由于裁判文书具有半结构化的特点,一篇结构完整的裁判文书主要由案件基本情况段、原告诉称段、被告辩称段、证据段、查明事实段、判决结果、判决原因和所引用法律条文等部分组成,不同部分的内容具有不同的可采信度,为了减少噪音数据,提高模型训练的准确性,降低复杂度,需要提取裁判文书中合适的文书段落用于训练法条推荐模型。本发明使用正则表达式来提取特定的裁判文书段落,使用的正则表达式如图2所示。
以“民事判决书(20XX)甬慈周民初字第XX号”为例,分别提取出裁判文书的案件名称、案由、案件基本情况段、引用法律法条列表。提取结果示例如图3所示。
步骤(2.2)将案件基本情况段落进行中文分词。由于对案情内容表达有帮助的词语大多为名词n、动词v和形容词a,因此筛选出词性为名词n、动词v和形容词a的词汇,将案件基本情况段落转化成由词汇组成的列表,得到所有词汇的集合。以这样的方法,特殊符号、数字和英文字母都被去除,与案情有关的词被保留了下来。
步骤(2.3)去停用词。首先构建法律专有停用词库:计算每个词语在所有文档中出现的词频,计算每个词语在某一特定案由下所有文档中出现的词频,计算每个词语的类别信息熵,按照文档频次和类别信息熵进行降序排序,筛选出文档频次大于2000,类别信息熵大于2.0的词作为停用词库,法律专有停用词库示例如图4所示。接着去除停用词,包括去除法律专有停用词,去除词语长度小于2的词,去除高频词语,去除低频词语;
步骤(2.4)法条名称标准化。由于法官在书写裁判文书时对法条的写法不规范,同一法条在不同的裁判文书中的表述可能不同,因此需要统一和标准化法条名称。具体方法为首先构建法条名称标准的映射关系:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的特殊符号,统计法律名称的引用频次,按降序排列,选择高频法律名称作为标准化目标,接着使用莱文斯坦编辑距离算法来构建法律名称间的映射关系。接着标准化法条名称:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的特殊符号,按照法条名称标准的映射关系,获得标准的法条名称,将法条编号中的阿拉伯数字统一成中文数字,使用下划线将标准化后的法条名称和法条编号连接起来。
3.对用户输入的案件基本情况进行预处理,目标是去除用户输入的案件基本情况中的噪声数据。具体步骤包括:
步骤(3.1)将用户输入的案件基本情况进行中文分词,筛选出词性为名词n、动词v和形容词a的词汇集合;
步骤(3.2)去除法律专有停用词;
步骤(3.3)去除文档频率高的词汇;
步骤(3.4)去除文档频率低的词汇。
4.为了确保公平正义,法官在案件审判过程中,经常查阅案情相似的裁判文书来决定引用法条。参考这一真实的工作场景,本步骤旨在获得与用户输入的案件基本情况相似的裁判文书集。由于诉讼种类繁多,裁判文书的表达方法千差万别,仅仅依靠字符层面的分析方法无法挖掘案件情况的语义信息。因此本发明使用LDA算法训练主题模型,来将案件基本情况进行语义表达,通过主题概率的相似度计算,得到与用户输入的案件基本情况语义相似的裁判文书集。具体步骤包括:
步骤(4.1)使用LDA算法训练主题模型。将预处理好后的裁判文书集分为训练集和测试集,使用训练集进行主题模型的训练,使用测试集进行主题模型效果的评估。训练目标是选择出最优的主题模型数量并获得裁判文书的主题模型。主题数量是LDA模型的一个重要参数,如果主题数量过大,主题粒度就会过细,可能造成模型过拟合,泛化能力差。反之如果主题数量过小,主题粒度就会过粗,文本的语义信息将无法得到很好的表达。为了确定主题数量K的取值,我们需要确定主题模型的评估方法。困惑度(Perplexity)常被用作主题模型的评估标准,它的具体计算公式是:
其中M代表测试集中的语料数量,Nd代表第d篇文本中词语的个数,p(wd)代表文本的概率,p(w)=∑zp(z,w)=∑zp(z)p(w|z)。困惑度可以理解为对于一篇文本,LDA模型有多不确定它是属于某个主题。主题数量越多,困惑度越小,但是模型越容易过拟合。因此需要找到困惑度小,主题数量相对也较小的主题数量。除此之外,还可以通过计算在某个主题数量K下,测试集文本的主题概率分布的平均相似度来评估主题模型的优劣程度,具体方法是:(1)将测试集中的每个文本都平均分成两部分T1和T2,T1和T2作为关联文本;(2)计算测试集中所有关联文本的平均相似度,关联文本的平均相似度越高越好;(3)随机从测试集中选择文本对(S1,S2),计算文本对的平均相似度,随机文本的平均相似度越低越好。
本发明采取这两种评估方法,通过不断改变主题数量,训练主题模型,针对测试集计算主题模型的困惑度和文本的平均相似度,重复这个过程,绘制出主题模型效果的曲线,选择出最优的主题模型数量,并获得最优主题模型数量下的主题模型。主题模型训练的方法流程如图5所示。
步骤(4.2)使用上述训练好的主题模型将用户输入的案件基本情况和裁判文书集中的案件基本情况段落转化成主题概率分布;
步骤(4.3)使用Jenson-Shannon分歧算法一一计算用户输入的案件基本情况与和裁判文书集中的案件基本情况段落的主题概率分布的相似度,得到裁判文书的语义相似度。由于文本的主题分布是文本向量空间的映射,通过训练得到的主题模型可以得到文本的主题表示。裁判文书间的相似度可以通过计算它们的主题概率分布的距离来实现。由于主题是词向量的混合分布,因此本发明使用基于概率分布的Jenson-Shannon距离算法来计算JS分歧度,从而度量裁判文书的相似度,JS分歧度越小,代表两个裁判文书的概率分布越接近,即裁判文书越相似。JS距离计算方法是:
步骤(4.4)将所有裁判文书按照语义相似度降序排序,取最为相似的前N篇裁判文书作为相似裁判文书集,获取相似裁判文书的方法流程如图6所示。
5.提取推荐法条集。在提取相似裁判文书集步骤结束之后,我们得到了相似裁判文书集中各裁判文书的相似度排名、与输入案件的JS分歧度和引用法条列表。接下来面临的一个问题是如何通过对相似的裁判文书集的分析获得关联度最高的法条集合作为推荐结果。提取推荐法条集的方法步骤具体包括:
步骤(5.1)首先获取相似裁判文书集中所有裁判文书引用的法条作为候选法条。从步骤4中我们得到了相似裁判文书集,从相似裁判文书集中获取所有裁判文书的相似程度以及引用法条,例如,案件1与输入案件最相似,JS分歧度为0.1,案件1引用了法条1、法条2和法条4;案件4与输入案件第二相似,JS分歧度为0.13,案件4引用了法条1、法条5等等。
步骤(5.2)结合裁判文书的相似度和法条被引用次数设计法条关联程度的打分机制,计算所有候选法条的关联度。在计算候选法条的关联度时,需要从两个维度考虑来决定每个法条与输入案件情况的关联程度:一是该法条在所有相似裁判文书集的被引用次数,被引用次数越多,关联程度越大;二是引用该法条的裁判文书与输入的案件情况有多相似,相似程度越高,则该法条与新的案件有关的可信度越高,反之越低。本发明结合这两个重要的因素,设计的打分方法如下:
其中Ds是指引用了法条s的相似裁判文书集合,表示引用了法条s的相似裁判文书集合大小,JS(input,Ds(f))表示引用了法条s的裁判文书Ds(i)与输入的案件情况的JS分歧度。
步骤(5.3)将候选法条按照关联度降序排序,提取关联度最大的前K个法条作为推荐法条;
步骤(5.4)挖掘协同出现的法条。我们发现在同一案由中往往存在多条法条协同出现的情况,因此对于上一步骤筛选出的前K个法条,进一步采用频繁项集挖掘的方法提取出与之频繁伴随出现的法条,一起作为推荐法条集。具体实验使用Apriori算法,最小支持度的值为100。
6.提取推荐法条集。
由于裁判文书的特殊性,不同案由下的裁判文书引用的法条数量不同,裁判文书的平均引用法条数量在三到十条左右。在法条推荐的场景下,好的推荐算法应该尽可能地覆盖到实际引用的法条。因此,本发明采用召回率来对法条推荐的效果进行评估。在实验评估时,本发明针对六种民事案由的裁判文书计算实验,对比了基于案由与统计的法条推荐方法、基于常规的文本相似度方法即TFIDF与余弦相似度相结合的法条推荐方法以及本发明提出的基于LDA主题模型的法条推荐方法的效果,实验结果如图7所示。其中AY-SP代表基于案由与统计的法条推荐方法,TFIDF-SP代表基于常规的文本相似度方法,LDA-SP代表本发明提出的基于LDA主题模型的法条推荐方法。可见,在六种案由上,本发明提取的法条推荐方法都优于其他方法。
上面已经参考附图对根据本发明实施的一种基于LDA主题模型的法条推荐方法进行了详细描述。本发明具有如下优点:使用正则表达式提取出文书中与法条推荐目标相关的段落,避免了全篇幅使用文书引入其他无关信息的问题,减少不必要的特征词汇对法条推荐结果的影响;结合词语的文档频率,类别频率和类别信息熵的自动构建法律专有停用词库的方法,有效获得了法律专有停用词库,大大节省了人工构造停用词库需要耗费的时间,并且通过本发明提出的预处理方法,大量的噪声数据被去除,与案件情况有关的词汇被保留下来,提高了主题模型训练的效果;通过迭代调整主题数量,评估主题模型效果,能有效获得较优的主题数量,从而准确地得到语义相似裁判文书集,符合真实应用场景下,法官不仅需要得到相关的法条,还需要得到相似的裁判文书的需求。当数据库中有新的裁判文书时,基于LDA的法条推荐方法无需重新训练模型,只需要使用原有的主题模型表达新的裁判文书,即可在法条推荐时将新的裁判文书集纳入选择范围内。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (7)
1.一种基于LDA主题模型的法条推荐方法,其特征在于包含以下步骤:
步骤(1)根据案由从裁判文书数据库中提取裁判文书集,构建训练语料;
步骤(2)裁判文书预处理;
步骤(3)用户输入预处理;
步骤(4)提取相似裁判文书集;
步骤(5)提取推荐法条集;
步骤(6)输出推荐法条列表。
2.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(1)中根据案由从裁判文书数据库中提取裁判文书集,构建训练语料。
3.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(2)中裁判文书预处理,具体包括;
步骤(2.1)使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表;
步骤(2.2)将案件基本情况段落进行中文分词,筛选出词性为名词n、动词v和形容词a的词汇,将案件基本情况段落转化成由词汇组成的列表,得到所有词汇的集合;
步骤(2.3)去停用词。首先构建法律专有停用词库:计算每个词语在所有文档中出现的词频,计算每个词语在某一特定案由下所有文档中出现的词频,计算每个词语的类别信息熵,按照文档频次和类别信息熵进行降序排序,筛选出文档频次大于某一阈值,类别信息熵大于某一阈值的词作为停用词库。接着去除停用词,包括去除法律专有停用词,去除词语长度小于2的词,去除高频词语,去除低频词语;
步骤(2.4)法条名称标准化。首先构建法条名称标准的映射关系:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的符号,统计法律名称的引用频次,按降序排列,选择高频法律名称作为标准化目标,接着使用莱文斯坦编辑距离算法来构建法律名称间的映射关系。接着标准化法条名称:使用正则表达式分割引用法条的法律名称和法条编号,去除法律名称中的符号,按照法条名称标准的映射关系,获得标准的法条名称,将法条编号中的阿拉伯数字统一成中文数字,使用下划线将标准化后的法条名称和法条编号连接起来。
4.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(3)中对用户输入的案件基本情况进行预处理,具体包括:
步骤(3.1)中文分词,筛选出词性为名词n、动词v和形容词a的词汇集合;
步骤(3.2)去除法律专有停用词;
步骤(3.3)去除文档频率高的词汇;
步骤(3.4)去除文档频率低的词汇。
5.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(4)中使用LDA算法训练主题模型,来将案件基本情况进行语义表达,通过主题概率的相似度计算,得到与用户输入的案件基本情况语义相似的裁判文书集。具体包括:
步骤(4.1)使用LDA算法训练主题模型。将预处理好后的裁判文书集分为训练集和测试集,使用训练集进行主题模型的训练,使用测试集进行主题模型效果的评估。训练目标是选择出最优的主题模型数量并获得裁判文书的主题模型。通过不断改变主题数量,训练主题模型,针对测试集计算主题模型的困惑度和文本的平均相似度,重复这个过程,绘制出主题模型效果的曲线,选择出最优的主题模型数量,并获得最优主题模型数量下的主题模型;
步骤(4.2)使用上述训练好的主题模型将用户输入的案件基本情况和裁判文书集中的案件基本情况段落转化成主题概率分布;
步骤(4.3)使用Jenson-Shannon分歧算法一一计算用户输入的案件基本情况与裁判文书集中的案件基本情况段落的主题概率分布的相似度,得到裁判文书的语义相似度;
步骤(4.4)将所有裁判文书按照语义相似度降序排序,取最为相似的前N篇裁判文书作为相似裁判文书集。
6.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(5)中根据上一步骤中得到的相似裁判文书集,获取候选推荐法条,计算法条的关联程度,从而提取推荐法条集。具体包括:
步骤(5.1)获取相似裁判文书集中所有裁判文书引用的法条作为候选法条;
步骤(5.2)结合裁判文书的相似度和法条被引用次数设计法条关联程度的打分机制,计算所有候选法条的关联度;
步骤(5.3)将候选法条按照关联度降序排序,提取关联度最大的前K个法条作为推荐法条;
步骤(5.4)使用频繁项集挖掘的方法,提取推荐法条的关联法条一并作为法条推荐的结果。
7.根据权利要求1所述的一种基于LDA主题模型的法条推荐方法,其特征在于步骤(6)输出推荐法条集。法条推荐的效果采用召回率进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810534723.8A CN108763484A (zh) | 2018-05-25 | 2018-05-25 | 一种基于lda主题模型的法条推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810534723.8A CN108763484A (zh) | 2018-05-25 | 2018-05-25 | 一种基于lda主题模型的法条推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763484A true CN108763484A (zh) | 2018-11-06 |
Family
ID=64003735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810534723.8A Pending CN108763484A (zh) | 2018-05-25 | 2018-05-25 | 一种基于lda主题模型的法条推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763484A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739950A (zh) * | 2018-12-25 | 2019-05-10 | 中国政法大学 | 筛选适用法律条文的方法及装置 |
CN109918495A (zh) * | 2019-02-28 | 2019-06-21 | 南京大学 | 一种面向交通事故责任纠纷案件的法条推荐方法 |
CN110162787A (zh) * | 2019-05-05 | 2019-08-23 | 西安交通大学 | 一种基于主题信息的类别预测方法及装置 |
CN110211453A (zh) * | 2019-05-26 | 2019-09-06 | 韶关市启之信息技术有限公司 | 一种结合环境隐私辅助远程结对编程的方法 |
CN110597982A (zh) * | 2019-06-05 | 2019-12-20 | 福建奇点时空数字科技有限公司 | 一种基于词共现网络的短文本主题聚类算法 |
CN110717843A (zh) * | 2019-10-21 | 2020-01-21 | 南京大学 | 一种可复用的法条推荐框架 |
CN110750635A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种基于联合深度学习模型的法条推荐方法 |
CN110851584A (zh) * | 2019-11-13 | 2020-02-28 | 成都华律网络服务有限公司 | 一种法律条文精准推荐系统和方法 |
CN111177382A (zh) * | 2019-12-23 | 2020-05-19 | 四川大学 | 基于FastText算法的智能法条推荐辅助系统 |
CN111198953A (zh) * | 2018-11-16 | 2020-05-26 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及计算机可读存储介质 |
CN111242307A (zh) * | 2018-11-13 | 2020-06-05 | 北大方正集团有限公司 | 基于深度学习的裁判结果获取方法、装置及存储介质 |
CN111382769A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及系统 |
CN111858682A (zh) * | 2020-08-04 | 2020-10-30 | 西安交通大学 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
CN111858842A (zh) * | 2019-04-26 | 2020-10-30 | 南京大学 | 一种基于lda主题模型的司法案例筛选方法 |
CN111930933A (zh) * | 2020-05-29 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 一种基于人工智能的检务案件处理方法及装置 |
CN112001162A (zh) * | 2020-07-31 | 2020-11-27 | 银江股份有限公司 | 基于小样本学习的智能审判系统 |
CN112069307A (zh) * | 2020-08-25 | 2020-12-11 | 中国人民大学 | 一种法律法条引用信息抽取系统 |
CN112148867A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种基于法条关系的法条推荐方法 |
CN112699243A (zh) * | 2021-01-15 | 2021-04-23 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN114492446A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
CN114547245A (zh) * | 2022-02-21 | 2022-05-27 | 山东大学 | 一种基于法律要素的类案检索方法及系统 |
CN114579770A (zh) * | 2022-02-08 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 一种法律条文检索方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100293149A1 (en) * | 2009-05-15 | 2010-11-18 | Easy Soft LLC | System and Method for Providing Simultaneous, Multiple Case Scenario Analysis |
CN105608192A (zh) * | 2015-12-23 | 2016-05-25 | 南京大学 | 一种基于用户双词主题模型的短文本推荐方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN107180028A (zh) * | 2016-03-09 | 2017-09-19 | 广州网律互联网科技有限公司 | 一种基于lda与退火算法组合的推荐技术 |
CN107291688A (zh) * | 2017-05-22 | 2017-10-24 | 南京大学 | 基于主题模型的裁判文书相似度分析方法 |
CN107807962A (zh) * | 2017-10-11 | 2018-03-16 | 中国软件与技术服务股份有限公司 | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 |
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
-
2018
- 2018-05-25 CN CN201810534723.8A patent/CN108763484A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100293149A1 (en) * | 2009-05-15 | 2010-11-18 | Easy Soft LLC | System and Method for Providing Simultaneous, Multiple Case Scenario Analysis |
CN105608192A (zh) * | 2015-12-23 | 2016-05-25 | 南京大学 | 一种基于用户双词主题模型的短文本推荐方法 |
CN107180028A (zh) * | 2016-03-09 | 2017-09-19 | 广州网律互联网科技有限公司 | 一种基于lda与退火算法组合的推荐技术 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN107291688A (zh) * | 2017-05-22 | 2017-10-24 | 南京大学 | 基于主题模型的裁判文书相似度分析方法 |
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN107807962A (zh) * | 2017-10-11 | 2018-03-16 | 中国软件与技术服务股份有限公司 | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
Non-Patent Citations (2)
Title |
---|
Y. FENG等: "A Method of the Association Statistics between the Cause of Action and the Statutes", 《2017 14TH WEB INFORMATION SYSTEMS AND APPLICATIONS CONFERENCE (WISA)》 * |
关鹏: "科技情报分析中LDA主题模型最优主题数确定方法研究", 《现代图书情报技术》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242307A (zh) * | 2018-11-13 | 2020-06-05 | 北大方正集团有限公司 | 基于深度学习的裁判结果获取方法、装置及存储介质 |
CN111198953B (zh) * | 2018-11-16 | 2023-07-07 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及可读存储介质 |
CN111198953A (zh) * | 2018-11-16 | 2020-05-26 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及计算机可读存储介质 |
CN109739950A (zh) * | 2018-12-25 | 2019-05-10 | 中国政法大学 | 筛选适用法律条文的方法及装置 |
CN111382769A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及系统 |
CN111382769B (zh) * | 2018-12-29 | 2023-09-22 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及系统 |
CN109918495A (zh) * | 2019-02-28 | 2019-06-21 | 南京大学 | 一种面向交通事故责任纠纷案件的法条推荐方法 |
CN111858842A (zh) * | 2019-04-26 | 2020-10-30 | 南京大学 | 一种基于lda主题模型的司法案例筛选方法 |
CN110162787A (zh) * | 2019-05-05 | 2019-08-23 | 西安交通大学 | 一种基于主题信息的类别预测方法及装置 |
CN110211453A (zh) * | 2019-05-26 | 2019-09-06 | 韶关市启之信息技术有限公司 | 一种结合环境隐私辅助远程结对编程的方法 |
CN110597982A (zh) * | 2019-06-05 | 2019-12-20 | 福建奇点时空数字科技有限公司 | 一种基于词共现网络的短文本主题聚类算法 |
CN110750635B (zh) * | 2019-10-21 | 2023-12-15 | 南京大学 | 一种基于联合深度学习模型的法条推荐方法 |
CN110750635A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种基于联合深度学习模型的法条推荐方法 |
CN110717843A (zh) * | 2019-10-21 | 2020-01-21 | 南京大学 | 一种可复用的法条推荐框架 |
CN110851584A (zh) * | 2019-11-13 | 2020-02-28 | 成都华律网络服务有限公司 | 一种法律条文精准推荐系统和方法 |
CN110851584B (zh) * | 2019-11-13 | 2023-12-15 | 成都华律网络服务有限公司 | 一种法律条文精准推荐系统和方法 |
CN111177382A (zh) * | 2019-12-23 | 2020-05-19 | 四川大学 | 基于FastText算法的智能法条推荐辅助系统 |
CN111177382B (zh) * | 2019-12-23 | 2023-12-08 | 四川大学 | 基于FastText算法的智能法条推荐辅助系统 |
CN111930933A (zh) * | 2020-05-29 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 一种基于人工智能的检务案件处理方法及装置 |
CN112001162A (zh) * | 2020-07-31 | 2020-11-27 | 银江股份有限公司 | 基于小样本学习的智能审判系统 |
CN112001162B (zh) * | 2020-07-31 | 2024-05-31 | 银江技术股份有限公司 | 基于小样本学习的智能审判系统 |
CN111858682A (zh) * | 2020-08-04 | 2020-10-30 | 西安交通大学 | 一种基于深度学习的裁判文书逻辑评估方法及系统 |
CN112069307A (zh) * | 2020-08-25 | 2020-12-11 | 中国人民大学 | 一种法律法条引用信息抽取系统 |
CN112148867A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种基于法条关系的法条推荐方法 |
CN112699243B (zh) * | 2021-01-15 | 2022-10-18 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN112699243A (zh) * | 2021-01-15 | 2021-04-23 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN114579770A (zh) * | 2022-02-08 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 一种法律条文检索方法及装置 |
CN114492446A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
CN114492446B (zh) * | 2022-02-16 | 2023-06-16 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
CN114547245A (zh) * | 2022-02-21 | 2022-05-27 | 山东大学 | 一种基于法律要素的类案检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763484A (zh) | 一种基于lda主题模型的法条推荐方法 | |
Qaisar | Sentiment analysis of IMDb movie reviews using long short-term memory | |
CN102332028B (zh) | 一种面向网页的不良Web内容识别方法 | |
CN100353361C (zh) | 一种新的面向文本分类的特征向量权重的方法及装置 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN108595425A (zh) | 基于主题与语义的对话语料关键词抽取方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN110807084A (zh) | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN105389354A (zh) | 面向社交媒体文本的无监督的事件抽取和分类方法 | |
CN109582950A (zh) | 一种裁判文书说理评估方法 | |
CN110991694A (zh) | 一种基于深度学习的量刑预测方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN118170899B (zh) | 基于aigc的媒体新闻稿件生成方法以及相关装置 | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181106 |