CN117291192B - 一种政务文本语义理解分析方法及系统 - Google Patents
一种政务文本语义理解分析方法及系统 Download PDFInfo
- Publication number
- CN117291192B CN117291192B CN202311559149.9A CN202311559149A CN117291192B CN 117291192 B CN117291192 B CN 117291192B CN 202311559149 A CN202311559149 A CN 202311559149A CN 117291192 B CN117291192 B CN 117291192B
- Authority
- CN
- China
- Prior art keywords
- entity
- sequence
- word
- text data
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,提出了一种政务文本语义理解分析方法及系统,包括:获取政务文本数据集,对政务文本数据集进行文本数据标注;对文本数据进行词性标注,结合词在文本数据中的顺序获取错分指数序列和获取长实体成分符合度序列;获取词序列的潜在实体评分,根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度,根据标记完成的实体选择序列和文本数据获取实体游程序列;结合命名实体识别模型获取第一混合模型,对需要进行语义理解的政务文本的文本数据使用第一混合模型,获取预测标注序列,实现对政务文本的语义理解。本发明解决长实体的结构和边界识别准确率低的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种政务文本语义理解分析方法及系统。
背景技术
采用自然语言处理的方法对政务文本进行语义理解等操作可以帮助工作人员或其他政务机构快速分析和理解文件内容,以便在决策、信息管理和基础服务方面提升效率。例如,进行关键词提取、以快速了解文本的主题和重点;或者进行实体关系抽取,以了解文本中所描述的政策和适用对象之间的关系等。这些目标的实现在实际操作中均会涉及到命名实体识别的技术,尤其在进行政务文本语义理解过程中,由于政务文本所固有的特性,其中包含的时间、地点、机构名称等实体词较多,而语义理解的关键便是如何准确的识别文本中的命名实体。
在进行命名实体识别时,主要是识别文本中具有特定意义的实体类型和边界。常规技术通常包括基于规则匹配、基于词典的方法、基于机器学习和深度学习的方法等。大多数命名实体识别都是在英文上研究,中文命名实体识别的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以提升。其中,在政务文本中长实体的现象较为突出,且长实体的边界通常是较难识别的。
发明内容
本发明提供一种政务文本语义理解分析方法及系统,以解决长实体的结构和边界识别准确率低的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种政务文本语义理解分析方法,该方法包括以下步骤:
获取政务文本数据集并进行预处理,对预处理后的政务文本数据集进行文本数据标注;
对文本数据进行词性标注,根据文本数据的词性标注的结果获取词性标记序列,获取文本数据中词的邻域窗口,根据文本数据中词的邻域窗口内词的数量获取词的错分指数,根据词的错分指数和词在文本数据中的顺序获取错分指数序列,根据词性标注的结果对词对应的长实体成分符合度进行赋值,根据长实体成分符合度获取长实体成分符合度序列;
对政务文本数据集中的文本数据进行划分,获取词序列,获取词序列的频率,根据词序列的频率和词序列的长度获取词序列的潜在实体评分,将不包含名词的词序列的潜在实体评分赋值,根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度,根据标记完成的实体选择序列和文本数据构建实体游程矩阵,根据实体游程矩阵获取实体游程序列;
根据错分指数序列、长实体成分符合度序列和实体游程序列确定命名实体识别模型,为命名实体识别模型额外添加模块获取第一混合模型,对需要进行语义理解的政务文本的文本数据使用第一混合模型,获取预测标注序列,实现对政务文本的语义理解。
进一步,所述获取文本数据中词的邻域窗口的获取方法为:
根据文本数据中所有词的词性标注的结果,将文本数据中词左右距离为第一预设阈值的步长内包含的词记为中心位置词的邻域窗口。
进一步,所述根据文本数据中词的邻域窗口内词的数量获取词的错分指数,根据词的错分指数和词在文本数据中的顺序获取错分指数序列的获取方法为:
将词的邻域窗口内与词的分词长度相同的词的数量与词的邻域窗口内包含的所有词的数量的比值记为词的错分指数;
将文本数据中词的错分指数按照词在文本数据中的顺序进行排列,获取错分指数序列。
进一步,所述根据词性标注的结果对词对应的长实体成分符合度进行赋值,根据长实体成分符合度获取长实体成分符合度序列的获取方法为:
当词不为名词时,将词对应的长实体成分符合度赋值为第二预设阈值;
当词为名词时,将词的邻域窗口内包含的形容词、动词、副词和介词总个数与词的邻域窗口内包含的词的总个数的比值记为词的长实体成分符合度;
将文本数据中词的长实体成分符合度按照词在文本数据中的顺序进行排列,获取长实体成分符合度序列。
进一步,所述根据词序列的频率和词序列的长度获取词序列的潜在实体评分,将不包含名词的词序列的潜在实体评分赋值的方法为:
将词序列的频率和词序列的长度的乘积记为词序列的潜在实体评分;
将不包含名词的词序列的潜在实体评分赋值为第二预设阈值。
进一步,所述根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度的方法为:
一.按照潜在实体评分从大到小的顺序将潜在实体评分对应的词序列进行排序;
二.建立与文本数据相对应的实体选择序列,实体选择序列中每个元素对应一个词,将实体选择序列中所有元素赋值为第二预设阈值;
三.建立词序列的词序标记序列,词序标记序列中每个元素对应一个词,将词序标记序列中所有元素赋值为第四预设阈值;
四.对排序后的词序列中词序列依次进行分析,判断词序列在实体选择序列中对应的所有元素是否均为第二预设阈值,如果是,则将实体选择序列中词序列对应的元素的记为词序标记序列中元素的值,然后进行下一步,如果不是,直接跳过下一步;
五.将词序标记序列中所有元素的数值赋值为原数值加第四预设阈值;
重复本步骤的步骤一、二,直至排序后的词序列中所有词序列遍历一遍,获取标记完成的实体选择序列。
进一步,所述根据标记完成的实体选择序列和文本数据构建实体游程矩阵,根据实体游程矩阵获取实体游程序列的方法为:
确定级别数和游走的方向,实体游程矩阵的级别数为实体的类别数,游走的方向选取水平方向进行游走;
沿水平方向记录实体的长度,将游程长度记为实体的长度;
根据级别数、游走的方向和游程长度建立游程矩阵,将建立的游程矩阵记为实体游程矩阵,实体游程矩阵的大小为文本数据序列长度乘以实体序列数目。
进一步,所述确定命名实体识别模型,为命名实体识别模型额外添加模块获取第一混合模型的方法为:
采用BERT-BiLSTM-CRF混合模型作为命名实体识别模型;
在BERT-BiLSTM-CRF模型中,额外添加两个BiLSTM模块,获取第一混合模型;
添加的第一个BiLSTM模块与BERT-BiLSTM-CRF模型中的原BiLSTM模块并列,用于处理政务文本相关特征;
添加的第二个BiLSTM模块添加至原BiLSTM模块之后,用于处理原BiLSTM模块和添加的第一个BiLSTM模块的信息。
进一步,所述政务文本相关特征为错分指数序列、长实体成分符合度序列和实体游程序列。
第二方面,本发明实施例还提供了一种政务文本语义理解分析系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本发明的有益效果是:
本发明通过对文本数据进行词性标注,根据文本数据的词性标注的结果获取词的错分指数,根据词的错分指数和词在文本数据中的顺序获取错分指数序列和长实体成分符合度序列,长实体成分符合度序列错分指数序列和长实体成分符合度序列用于为政务文本的语义理解提供实体特征;其次,对政务文本数据集中的文本数据进行划分,获取词序列,获取词序列的潜在实体评分,根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度,进而获取实体游程序列,实体游程矩阵将文本数据中的实体信息表征出来,提取文本数据中实体信息呈现出的实体特征可提升后续实体信息被准确识别的可能性;然后,根据错分指数序列、长实体成分符合度序列和实体游程序列在实体识别模型额外添加两个模块,添加的第一个模块用于分析提取出的实体特征,添加的第二个模块用于将需要进行语义理解的政务文本的文本数据的分析结果和添加的第一个模块的分析结果进行融合,提升后续实体信息识别的准确性,获取第一混合模型,第一混合模型可以更好地理解长实体的结构和边界,解决长实体的结构和边界识别准确率低的问题;最后,将需要进行语义理解的政务文本的文本数据输入第一混合模型,获取预测标注序列,实现对政务文本的语义理解。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种政务文本语义理解分析方法的流程示意图;
图2为第一混合模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种政务文本语义理解分析方法流程图,该方法包括以下步骤:
步骤S001,获取政务文本数据集并进行预处理,对预处理后的政务文本数据集进行文本数据标注。
中文命名实体识别数据集通常包含公共数据集、竞赛数据集以及私有数据集等。数据集的不同其标注类型也有所不同,一般标签类别会包括人名、地名、组织名、地缘政治、产品、时间、事件等。考虑到政务文本的标注数据稀缺性,本实施例先采用大规模的OntoNotes5.0公开数据集作为政务文本数据集。其中,政务文本的数据集通过从公开的政策文件、新闻报道、法律条款等来源收集并进行标注;政务文本的数据集的来源收集和标注过程为公知技术,不再赘述。
对政务文本数据集进行预处理,即对政务文本数据集中所有文本数据进行分词、去停用词等操作。
在自然语言处理的各类任务中,分词是尤为重要的预处理步骤,它是将连续的文本序列划分为单个词或词组的过程。由于汉字之间没有空格或分隔符,所以分词在中文文本处理中显得更为重要,本实施例分词采用jieba中文分词工具进行分词。
在分词之后,通常需要对文本数据进行去停用词的操作,停用词一般是在自然语言处理过程中没有实际意义或在文本处理任务中没有任何贡献的高频词,且一般会干扰文本分析的结果。去停用词一般基于一个预定义停用词表,例如中文停用词表(百度版)、哈工大停用词表、中文停用词库(SCUT)、中文停用词表(清华版)等。本文使用哈工大停用词表进行去停用词的操作。
实体标注方案采用BIO标注方案,其中,“B”是指Begin,表示实体的开始位置,“I”是指Intermediate,表示实体的中间部分,“O”是指Other表示字符不是任何实体。在数据集中每句话对应的每个类型标签之后标识出实体标签。例如:原句“张三喜欢北京”的标注序列为{‘B-PER’,‘I-PER’,‘O’,‘O’,‘B-LOC’,‘I-LOC’},其中,“PER”表示人名,“LOC”表示地名,“张三”两个字是人名,所以,“张三”分别被标记为人名的起始和连续部分;“喜欢”两个字不是任何特定实体的一部分,所以,“喜欢”被标记为不属于任何实体,“北京”两个字是地名,所以,“北京”被标记为地名的起始和连续部分。
至此,获取政务文本数据集中所有文本数据的标注。
步骤S002,对文本数据进行词性标注,根据文本数据的词性标注的结果获取词性标记序列,根据词性标记序列内词的字数获取分词长度序列,获取文本数据中词的邻域窗口,根据文本数据中词的邻域窗口内词的数量获取词的错分指数,根据词的错分指数和词在文本数据中的顺序获取错分指数序列,根据词性标注的结果对词对应的长实体成分符合度进行赋值,根据长实体成分符合度获取长实体成分符合度序列。
在政务文本中通常会包含许多较长的实体名称,例如,文件中出现的某些项目名称,较长的实体名称大多是由多个词语组成。而长实体的边界识别通常是较为困难的,因此,需要通过对长实体构建一些特征帮助模型更好的进行命名实体识别。
在进行中文命名实体识别时,需要识别出文本中的实体及其类型,而在中文实体识别中,准确识别出实体的位置及边界是这项任务的难点。大多数实体中都会包含一个或多个名词,所以,需要对文本数据进行词性标注,这里采用THULAC工具包对文本数据进行词性标注,分别标记出文本数据中所有词的词性。
进行词性标注时,将词性标注的结果分为“名词”、“动词”、“形容词”、“副词”、“代词”、“数词”、“连词”、“介词”、“叹词”和“其他”共十类,并分别将它们编码为0-9。
将文本数据中所有词的词性标注的结果依次进行排序,获取词性标记序列。
根据文本数据中所有词的词性标注的结果,将文本数据中词左右距离为第一预设阈值的步长内包含的词记为中心位置词的邻域窗口,计算词的邻域窗口内与构成中心位置词的字的个数相同的词的数量。其中,第一预设阈值的经验值为3。
根据文本数据中词的邻域窗口获取词的错分指数。
其中,表示文本数据中第/>个词的错分指数;/>表示第/>个词的邻域窗口内与构成第/>个词的字的个数相同的词的数量;/>表示第/>个词的邻域窗口内包含的所有词的数量。
当词的错分指数越大时,词越可能存在分词错误的情况。
将文本数据中词的错分指数按照词在文本数据中的顺序进行排列,获取错分指数序列。
实体通常由“形容词+名词”、“动词+名词”、“副词+名词”、“介词+名词”等形式组合而成,根据词性标记序列中每个词对应的词性标注的结果,对词对应的长实体成分符合度进行赋值,具体为:当词不为名词时,将词对应的长实体成分符合度赋值为第二预设阈值;当词为名词时,计算词的邻域窗口内包含的形容词、动词、副词和介词总个数,将词的邻域窗口内包含的形容词、动词、副词和介词总个数与词的邻域窗口内包含的词的总个数的比值记为词的长实体成分符合度。
其中,第二预设阈值的经验值为0。
将文本数据中词的长实体成分符合度按照词在文本数据中的顺序进行排列,获取长实体成分符合度序列。
至此,获取单词错分指数序列和长实体成分符合度序列/>,用于为BERT-BiLSTM-CRF模型提供额外特征。单词错分指数序列/>和长实体成分符合度序列/>可以帮助BERT-BiLSTM-CRF模型在训练时更好的捕捉到长实体的相应特征。
步骤S003,对政务文本数据集中的文本数据进行划分,获取词序列,获取词序列的频率,根据词序列的频率和词序列的长度获取词序列的潜在实体评分,将不包含名词的词序列的潜在实体评分赋值,根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度,根据标记完成的实体选择序列和文本数据构建实体游程矩阵,根据实体游程矩阵获取实体游程序列。
采用n-gram模型对政务文本数据集中的文本数据进行划分,将文本数据划分为二元组、三元组或多元组,获取词序列。其中,n-gram指的是由连续的n个词语组成的词序列,n为连续的词序列长度。
词序列中包含的元祖属于实体的影响因素较多,包括词序列的频率、词序列长短和词序列概率等。为了确定长实体词的分布状况,取大于等于第三预设阈值的词序列进行分析。其中,第三预设阈值的经验值为3。
根据划分出的词序列获取每个词序列的频率。其中,词序列的频率为词序列出现的次数与所有词序列的总数量的比值。当词序列的概率越大时,表明词序列越有可能是一种实体。
但是,这样判断词序列为实体的可能性是建立在词序列有较大频率的基础上的,当词序列的频率较低或不同词序列较少时,词序列的频率也较大,但这个概率较大词序列可能只是偶然出现的一个序列,不属于任何一种实体。因此,根据词序列长度对词序列共现概率进行修正,得到词序列的潜在实体评分。
其中,表示括号中的词序列/>的潜在实体评分;/>表示括号中的词序列/>的频率;/>表示括号中的词序列/>的长度。
词序列的潜在实体评分表示词序列是实体的可能性,当词序列频率和词序列长度相同时,词序列频率越大、词序列长度越大时,词序列的潜在实体评分越大,即词序列是实体的可能性越大。
由于不包含名词的词序列为实体的可能性极低,将不包含名词的词序列的潜在实体评分赋值为第二预设阈值。其中,第二预设阈值的经验值为0。
在文本数据序列中划分实体时,同一个词不能被划分到多个实体中。因此,在实体选择中出现冲突词的时候,需要进行一定的取舍,取舍的具体方法如下:
(1)获取文本数据中每个词序列的潜在实体评分,并按照潜在实体评分从大到小的顺序将潜在实体评分对应的词序列进行排序;
(2)建立与文本数据相对应的实体选择序列,实体选择序列中每个元素对应一个词,将实体选择序列中所有元素赋值为第二预设阈值;
(3)建立词序列的词序标记序列,词序标记序列中每个元素对应一个词,将词序标记序列中所有元素赋值为第四预设阈值;
(4)对排序后的词序列中词序列依次进行分析,判断词序列在实体选择序列中对应的所有元素是否均为第二预设阈值,如果是,则将实体选择序列中词序列对应的元素的记为词序标记序列中元素的值,如果不是,直接跳过步骤(5);
(5)将词序标记序列中所有元素的数值赋值为原数值加第四预设阈值;
(6)重复步骤(4)、(5)两个步骤,直至排序后的词序列中所有词序列遍历一遍;
至此,获取标记完成的实体选择序列。
实体选择序列中元素值为第二预设阈值的词不是实体词,实体选择序列中元素值不是第二预设阈值的词是实体词,实体选择序列中相同数值的元素连续的长度为这些元素对应的实体的长度。
例如,获取的实体选择序列为,实体选择序列中元素值是第二预设阈值的词不是实体词,实体选择序列中元素值不是第二预设阈值的词是实体词,即,实体选择序列中元素值是0的词不是实体词,元素值是1或2的词不是实体词。其中,元素值是1的元素和元素值是2的元素分别对应两个不同的实体,元素值是1的元素对应同一个实体,元素值是2的元素对应同一个实体,即实体选择序列中第3、4、5个位置对应一个长实体,实体长度为3,第8、9、10、11个位置对应另一个长实体,实体长度为4。
根据标记完成的实体选择序列和文本数据构建实体游程矩阵,实体游程矩阵具体构建过程如下:
(1)确定级别数和游走的方向,实体游程矩阵的级别数为实体的类别数,由于文本是序列数据,因此游走的方向选取水平方向进行游走;
(2)沿水平方向记录实体的长度,将游程长度记为实体的长度;
(3)根据级别数、游走的方向和游程长度建立游程矩阵,将建立的游程矩阵记为实体游程矩阵,实体游程矩阵的大小为文本数据序列长度乘以实体序列数目。
例如,对文本数据序列以及根据文本数据序列获取的实体选择序列/>构建实体游程矩阵,对应的实体游程矩阵为:
其中,表示文本数据序列/>中包含的文本数量。
该实体游程矩阵可以将文本数据中的实体信息以矩阵形式进行描述,能够更方便地对文本数据中的实体进行定位和处理,实体游程矩阵中元素对应的实体信息的含义与实体选择序列中元素对应的实体信息的含义相同。
将实体游程矩阵中每一行表示一个实体序列的游程分布信息,为了方便模型进行训练,将矩阵按行从上之下的顺序拼接为实体游程序列。
至此,获取实体游程序列。
步骤S004,根据错分指数序列、长实体成分符合度序列和实体游程序列确定命名实体识别模型,为命名实体识别模型额外添加模块获取第一混合模型,对需要进行语义理解的政务文本的文本数据使用第一混合模型,获取预测标注序列,实现对政务文本的语义理解。
常用的命名实体识别模型为混合模型,混合模型的具体逻辑为:采用预训练语言模型获取词嵌入,然后结合深度学习模型提取特征并输出预测结果,再利用条件随机场对输出结果进行修正并输出最终的标注序列。本实施例则采用BERT-BiLSTM-CRF混合模型作为命名实体识别模型。
BERT-BiLSTM-CRF模型由三个模型混合而成,模型的输入为对文本数据进行标注的政务文本数据集,输出为预测标注序列。在训练过程中,采用Adam优化器,Adam优化器可以自适应的调整学习率以加快收敛速度,损失函数采用CRF损失函数,CRF损失函数可以考虑标签之间的依赖关系,通过对整个标签序列进行联合建模来提高模型的准确性。
在BERT-BiLSTM-CRF模型中,额外添加两个BiLSTM模块,获取第一混合模型,其中,添加的第一个BiLSTM模块与原BERT-BiLSTM-CRF模型中的BiLSTM模块并列,用于处理政务文本相关特征,添加的第二个BiLSTM模块添加至原BiLSTM模块之后,用于处理原BiLSTM模块和添加的第一个BiLSTM模块的信息。第一混合模型结构示意图如图2所示,其中,BiLSTM1为原BiLSTM模块,BiLSTM2为添加的第一个BiLSTM模块,BiLSTM3为添加的第二个BiLSTM模块。其中,政务文本相关特征为错分指数序列、长实体成分符合度序列和实体游程序列。
将需要进行语义理解的政务文本的文本数据输入第一混合模型,获取预测标注序列,实现对政务文本的语义理解。
基于与上述方法相同的发明构思,本发明实施例还提供了一种政务文本语义理解分析系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种政务文本语义理解分析方法中任意一项所述方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种政务文本语义理解分析方法,其特征在于,该方法包括以下步骤:
获取政务文本数据集并进行预处理,对预处理后的政务文本数据集进行文本数据标注;
对文本数据进行词性标注,根据文本数据的词性标注的结果获取词性标记序列,获取文本数据中词的邻域窗口,根据文本数据中词的邻域窗口内词的数量获取词的错分指数,根据词的错分指数和词在文本数据中的顺序获取错分指数序列,根据词性标注的结果对词对应的长实体成分符合度进行赋值,根据长实体成分符合度获取长实体成分符合度序列;
对政务文本数据集中的文本数据进行划分,获取词序列,获取词序列的频率,根据词序列的频率和词序列的长度获取词序列的潜在实体评分,将不包含名词的词序列的潜在实体评分赋值,根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度,根据标记完成的实体选择序列和文本数据构建实体游程矩阵,根据实体游程矩阵获取实体游程序列;
根据错分指数序列、长实体成分符合度序列和实体游程序列确定命名实体识别模型,为命名实体识别模型额外添加模块获取第一混合模型,对需要进行语义理解的政务文本的文本数据使用第一混合模型,获取预测标注序列,实现对政务文本的语义理解。
2.根据权利要求1所述的一种政务文本语义理解分析方法,其特征在于,所述获取文本数据中词的邻域窗口的获取方法为:
根据文本数据中所有词的词性标注的结果,将文本数据中词左右距离为第一预设阈值的步长内包含的词记为中心位置词的邻域窗口。
3.根据权利要求1所述的一种政务文本语义理解分析方法,其特征在于,所述根据文本数据中词的邻域窗口内词的数量获取词的错分指数,根据词的错分指数和词在文本数据中的顺序获取错分指数序列的获取方法为:
将词的邻域窗口内与词的分词长度相同的词的数量与词的邻域窗口内包含的所有词的数量的比值记为词的错分指数;
将文本数据中词的错分指数按照词在文本数据中的顺序进行排列,获取错分指数序列。
4.根据权利要求1所述的一种政务文本语义理解分析方法,其特征在于,所述根据词性标注的结果对词对应的长实体成分符合度进行赋值,根据长实体成分符合度获取长实体成分符合度序列的获取方法为:
当词不为名词时,将词对应的长实体成分符合度赋值为第二预设阈值;
当词为名词时,将词的邻域窗口内包含的形容词、动词、副词和介词总个数与词的邻域窗口内包含的词的总个数的比值记为词的长实体成分符合度;
将文本数据中词的长实体成分符合度按照词在文本数据中的顺序进行排列,获取长实体成分符合度序列。
5.根据权利要求1所述的一种政务文本语义理解分析方法,其特征在于,所述根据词序列的频率和词序列的长度获取词序列的潜在实体评分,将不包含名词的词序列的潜在实体评分赋值的方法为:
将词序列的频率和词序列的长度的乘积记为词序列的潜在实体评分;
将不包含名词的词序列的潜在实体评分赋值为第二预设阈值。
6.根据权利要求5所述的一种政务文本语义理解分析方法,其特征在于,所述根据潜在实体评分对实体选择出现的冲突词进行取舍,获取标记完成的实体选择序列和实体的长度的方法为:
一.按照潜在实体评分从大到小的顺序将潜在实体评分对应的词序列进行排序;
二.建立与文本数据相对应的实体选择序列,实体选择序列中每个元素对应一个词,将实体选择序列中所有元素赋值为第二预设阈值;
三.建立词序列的词序标记序列,词序标记序列中每个元素对应一个词,将词序标记序列中所有元素赋值为第四预设阈值;
四.对排序后的词序列中词序列依次进行分析,判断词序列在实体选择序列中对应的所有元素是否均为第二预设阈值,如果是,则将实体选择序列中词序列对应的元素的记为词序标记序列中元素的值,然后进行下一步,如果不是,直接跳过下一步;
五.将词序标记序列中所有元素的数值赋值为原数值加第四预设阈值;
重复本步骤的步骤一、二,直至排序后的词序列中所有词序列遍历一遍,获取标记完成的实体选择序列。
7.根据权利要求1所述的一种政务文本语义理解分析方法,其特征在于,所述根据标记完成的实体选择序列和文本数据构建实体游程矩阵,根据实体游程矩阵获取实体游程序列的方法为:
确定级别数和游走的方向,实体游程矩阵的级别数为实体的类别数,游走的方向选取水平方向进行游走;
沿水平方向记录实体的长度,将游程长度记为实体的长度;
根据级别数、游走的方向和游程长度建立游程矩阵,将建立的游程矩阵记为实体游程矩阵,实体游程矩阵的大小为文本数据序列长度乘以实体序列数目。
8.根据权利要求1所述的一种政务文本语义理解分析方法,其特征在于,所述确定命名实体识别模型,为命名实体识别模型额外添加模块获取第一混合模型的方法为:
采用BERT-BiLSTM-CRF混合模型作为命名实体识别模型;
在BERT-BiLSTM-CRF模型中,额外添加两个BiLSTM模块,获取第一混合模型;
添加的第一个BiLSTM模块与BERT-BiLSTM-CRF模型中的原BiLSTM模块并列,用于处理政务文本相关特征;
添加的第二个BiLSTM模块添加至原BiLSTM模块之后,用于处理原BiLSTM模块和添加的第一个BiLSTM模块的信息。
9.根据权利要求8所述的一种政务文本语义理解分析方法,其特征在于,所述政务文本相关特征为错分指数序列、长实体成分符合度序列和实体游程序列。
10.一种政务文本语义理解分析系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9任意一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311559149.9A CN117291192B (zh) | 2023-11-22 | 2023-11-22 | 一种政务文本语义理解分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311559149.9A CN117291192B (zh) | 2023-11-22 | 2023-11-22 | 一种政务文本语义理解分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117291192A CN117291192A (zh) | 2023-12-26 |
CN117291192B true CN117291192B (zh) | 2024-01-30 |
Family
ID=89258836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311559149.9A Active CN117291192B (zh) | 2023-11-22 | 2023-11-22 | 一种政务文本语义理解分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117291192B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118246452B (zh) * | 2024-04-15 | 2024-09-20 | 北京尚博信科技有限公司 | 基于自然语言识别的文档分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829149A (zh) * | 2017-11-23 | 2019-05-31 | 中国移动通信有限公司研究院 | 一种词向量模型的生成方法及装置、设备、存储介质 |
CN114611132A (zh) * | 2020-12-08 | 2022-06-10 | 奇安信科技集团股份有限公司 | 移动应用软件的隐私合规检测方法和隐私合规检测装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190034540A1 (en) * | 2017-07-28 | 2019-01-31 | Insight Engines, Inc. | Natural language search with semantic mapping and classification |
-
2023
- 2023-11-22 CN CN202311559149.9A patent/CN117291192B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829149A (zh) * | 2017-11-23 | 2019-05-31 | 中国移动通信有限公司研究院 | 一种词向量模型的生成方法及装置、设备、存储介质 |
CN114611132A (zh) * | 2020-12-08 | 2022-06-10 | 奇安信科技集团股份有限公司 | 移动应用软件的隐私合规检测方法和隐私合规检测装置 |
Non-Patent Citations (2)
Title |
---|
Combining PSO Algorithm and LM Algorithm for Relation Extraction;Yang pei 等;《Journal of computational information system》;全文 * |
基于句子权重和篇章结构的政府公文自动文摘算法;毛良文 等;计算机与现代化(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117291192A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN115757775B (zh) | 基于文本蕴含的无触发词文本事件检测方法及系统 | |
CN114528827A (zh) | 一种面向文本的对抗样本生成方法、系统、设备及终端 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN116502637A (zh) | 一种结合上下文语义的文本关键词提取方法 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 | |
CN113420153A (zh) | 一种基于话题库和事件库的专题制作方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |