CN112308388A

CN112308388A - 基于语义分析的电力工程大修项目风险审计方法

Info

Publication number: CN112308388A
Application number: CN202011135566.7A
Authority: CN
Inventors: 崔霞; 程子华; 戴斐斐; 孙常鹏; 李伯让; 徐征; 李博; 冯伟; 张耀心; 季忠俊; 刘德玉
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-02-02

Abstract

本发明涉及电网技术领域，尤其涉及一种基于语义分析的电力工程大修项目风险审计方法。包括以下步骤：S1、数据收集；S2、训练整份分词模型；S3、数据清洗；S4、分词结果特征提取；S5、模型应用。使用python网络爬虫技术采集某年度大修项目的指定字段信息。结合国网天津市电力公司的PMS2.0系统存储数据，利用数据仓库存储网络爬虫搜集的信息，创建一个独立的审计分析环境，在该环境中对己改善质量的审计数据进行进一步的处理，按审计主题对审计数据进行存储，提高审计分析的可扩展性。

Description

基于语义分析的电力工程大修项目风险审计方法

技术领域

本发明涉及电网技术领域，尤其涉及一种基于语义分析的电力工程大修项目风险审计方法。

背景技术

电力工程在国家的发展中有着举足轻重的作用和地位。而审计作为一种监督机制，能够依法对国家各级政府部门，金融机构以及企事业组织的相关重大项目的财务收支状况进行审查与监督，以制约消极经济活动，促进社会经济的稳定运行，最终使得国民经济得以健康发展。但在现阶段，电力工程审计仍存在一些缺陷与问题，例如工程前期审计不够充分、对施工过程审计重视度不够、竣工决算审计材料准备不及时以及分阶段审计导致审计工作不衔接等，这些问题的存在严重干扰电力工程审计的开展，也使得电力工程审计无法实现其及时发现并揭露问题，最终使电力工程项目顺利完成的目标。针对当前电力工程审计存在的缺陷和问题，我们研究了基于语义分析的电力工程大修项目风险审计方法，将自然语言处理技术应用于电力工程项目风险审计之中，将审计工作中很大一部分人力工作使用计算机代替处理，大幅节省人力物力的消耗，提升审计效率。

自然语言处理技术在信息检索中可以分为词语层和上词语层两个层次，在第一个层次上，信息检索中用到的NLP技术主要有分词、识别复合短语以及专有名词等。其中，分词在自然语言处理中的研究己经是个比较成熟的课题，自从20世纪80年代初中文信息处理领域提出自动分词以来，众多专家和学者在这一领域取得了令人可喜的进展，提出了许多分词方法，有些比较成熟的技术己经应用到商业产品当中。但是大部分研究主要还是局限于对结构化审计数据进行分析，鲜有学者针对非结构化审计数据进行深入研究。在国际数据公司(IDC)发布的一项报告中显示，企业中最多只有5％的数据为结构化数据，其余大都是非结构化数据，并且88％的企业管理者认为这些存储在数据库以外的非结构化数据，才是他们接触和了解企业的最佳选择目标。

发明内容

本发明的目的在于克服上述技术的不足，而提供一种基于语义分析的电力工程大修项目风险审计方法。

本发明为实现上述目的，采用以下技术方案：一种基于语义分析的电力工程大修项目风险审计方法，其特征在于：包括以下步骤：S1、数据收集；S2、训练整份分词模型；S3、数据清洗；S4、分词结果特征提取；S5、模型应用。

优选地，步骤S1中，包括：(1)使用网络爬虫技术从不同的路径获取公司审计数据，建立数据仓库；(2)分析目标系统中审计数据的数据结构；(3)采用python网络爬虫软件，实现目标数据抓取。

优选地，建立数据仓库包括：抓取规划计划管理系统的项目计划文件；抓取规划计划管理系统PMS2.0的业务数据文件；抓取网上公开的电力业务相关的专业数据文件。

优选地，所述目标数据抓取包括：

第一步：搭建python网络爬虫环境；

第二步：运行python程序爬取目标数据；

第三步：根据需要，将爬取到的目标数据做初步筛选，保留有用的字段信息，建立审计仓库文件。

优选地，在步骤S2中，包括：构建审计需要的词库；使用网上开源的中文分词软件jieba，对审计仓库目标文件进行分词操作。

优选地，在步骤S3中，所述数据清洗包括去停用词和中文纠错。

优选地，在步骤S4中，分词结果特征提取包括：特征选取、特征处理、建立样本组以及建立模型。

优选地，所述特征选取包括：项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息；工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息；

所述特征处理包括：第一步：特征预处理，为不同类型的特征选取不同的预处理方式；第二步：特征标准化处理；

所述建立样本组以大修项目计划信息和工作表信息特征为基础，由专业的电力业务人员选出具有相关性的样本组合，建立用于模型训练的样本组。

所述建立模型包括以下步骤：

(1)将样本集随机排序；

(2)将样本集划分为训练集、验证集和测试集，分别占总样本数量的70％，10％，20％；

(3)使用样本训练集训练SVM分类器，使用验证集微调参数，最后使用测试集验证模型的有效性。

优选地，步骤S5中，所述模型应用包括相似度分析和标签云可视化，其中，相似度分析具体为，根据训练好的SVM分类器，对新的样本进行预测，给出某个工作票与所有项目计划的的关联度，按照大小排序，取前5个关联度最大的排序值为最终的结果，标签云可视化具体为，通过对被审计文本数据进行标签云可视化分析，整体把握被审计文本数据的主要内容。

本发明的有益效果是:(1)使用python网络爬虫技术采集某年度大修项目的指定字段信息。结合国网天津市电力公司的PMS2.0系统存储数据，利用数据仓库存储网络爬虫搜集的信息，创建一个独立的审计分析环境，在该环境中对己改善质量的审计数据进行进一步的处理，按审计主题对审计数据进行存储，提高审计分析的可扩展性。

(2)针对不同的审计分析要求，利用语义识别技术识别规划计划系统中的项目建设内容信息和PMS系统中的工作票信息。按照大修项目清单，查找与之建设内容匹配的工作票信息，若有与之匹配的工作票，则可以认定该项目已实施，若无则列为疑点进行重点核实。

附图说明

图1是本发明中采用python网络爬虫软件的原理图。

具体实施方式

如图1所示，一种基于语义分析的电力工程大修项目风险审计方法，包括以下步骤：S1、数据收集；S2、训练整份分词模型；S3、数据清洗；S4、分词结果特征提取；S5、模型应用。其中：

3.1数据收集

3.1.1使用网络爬虫技术从不同的路径获取公司审计数据，建立数据仓库。

(1)抓取规划计划管理系统的项目计划文件，包括：

a)生产大修专业项目规划报告

b)生产大修专业项目建议书

c)生产大修专业项目规划审批文件

d)生产大修专业项目规划项目库清单

e)生产大修专业项目竣工报告

(2)抓取规划计划管理系统PMS2.0的业务数据文件，包括：

a)工作票文件

b)工作许可报告

c)完工报告

(3)抓取网上公开的电力业务相关的专业数据文件，包括：

a)电力行业常用词库

b)电力行业专业词库

c)天津市输变电站等电力设备名称

3.1.2分析目标系统中审计数据的数据结构

(1)根据规划计划管理系统的项目计划文件，建立生产大修专业项目计划信息文件表，包括“项目编码、项目名称、建管单位、项目所属单位、电压等级(KV)、项目分类、专业类别、专业细分、下达状态、项目内容(限300字)、项目开始时间、项目结束时间、年度计划、是否预安排、可研批复文号、国网下达批次、省下达批次、天津项目工程ID、是否低电压项目、备注、项目编码、排序号”等字段信息。

(2)根据规划计划管理系统PMS2.0的业务数据文件，建立工作票信息文件，包括“票种类、工作内容、工作地点、工作地点描述、制票部门、运维单位、工作负责人、工作票签发人、票号、票状态、计划开工时间、计划结束时间、许可工作时间、工作许可人、终结时间、完工许可人、票类型、关联任务单、退回、完成情况、制票人、延期时间、所属馈线名称、所属地市名称、工作班组成员人数、票ID”等字段信息。

(3)根据电力业务相关的专业数据文件，建立电力相关词库文件，包括“电力行业词汇、电力行业专用词汇、发电站、输电站、变电站、变压器、电力设备企业名录、天津市国家电网公司名录”等信息。

3.1.3如图1所示，采用python网络爬虫软件，实现目标数据抓取

第一步：搭建python网络爬虫环境；

第二步：运行python程序爬取目标数据；

3.2中文分词

训练中文分词模型，实现审计数据的分词功能

3.2.1构建审计需要的词库

从相关网站下载电力行业专业相关词库、本地地名词库以及国家电网公司专有名词词库，对于特定分词建立自己的词库

3.2.2分词

使用网上开源的中文分词软件jieba，对审计仓库目标文件进行分词操作：

(1)对生产大修专业项目计划信息文件表中的“项目名称、项目内容、项目分类、年度计划”等字段分词，并统计词频；

(2)对项目规划报告、项目建议书、项目竣工报告等文件分词，并统计词频；

(3)对工作票中的“票种类、工作内容、工作地点、工作地点描述、所属馈线名称”等字段进行分词，并统计词频；

(4)对上述分词结果有不准确的地方，可以进行人工词频调整，再次进行分词，以实现更为准确的分词效果。

分词结果显示：

|[″国网″，″天津″，″宝坻″，″周良庄″，″变电站″，″开关柜″，″绝缘″，″大修″]

[″国网″，″天津″，″宝坻″，″开发区″，″城区″，″配电箱站″，″开闭站″，″基础维修″，″工程″]

[″国网″，″天津″，″宝坻″，″林亭口″，″林亭口″，″配电线路″，″基础加固″，″工程″]

[″国网″，″天津″，″宝坻″，″宝安″，″线路″，″三跨″，″耐张″，″串改″，″双挂点″，″引流线″，″大修″]

[″国网″，″天津″，″宝坻″，″双王寺″，″变电站″，″开关柜″，″大修″]

[″国网″，″天津″，″宝坻″，″大口屯″，″变电站″，″尹家铺屯″，″线路″，″线路″，″水泥″，″护墩″，″加装″]

3.3数据清洗

3.3.1去停用词：对分词结果中出现的无用标签、标点符号及特殊符号做清除处理；

3.3.2中文纠错：根据语料分析，进行badcase分析，查看错误语料的结果的影响，没有必要则不做处理；如果错误语料对问题的影响大，采用统计办法进行纠错。

3.4分词结果特征提取

基于TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文档频率)技术实现关键词抽取。根据字词的在文本中出现的频率和在整个文本库中出现的频率来计算一个字词在整个文本库中的重要程度。如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文本中出现的很少，则认为该词或者短语具有很好的代表性。

3.4.1特征选取：

(1)项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息。

(2)工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息。

3.4.2特征处理

第一步：特征预处理，为不同类型的特征选取不同的预处理方式：

(1)‘项目编码’、‘票ID’属于唯一性数字特征，保留处理；

(2)‘票种类’、‘工作地点’属于类别特征，使用One-hot编码处理；

这里，‘票种类’有24种，我们使用6位二进制数表示，前两位表示工作地点，中间两位表示工作类别，最后两位表示工作票类别。通过“工作内容、工作地点、工作地点描述”三个字段提取出关于变电站/输电站、线路、杆的具体内容构成工作地点特征表示。

票种类的特征表示

(3)‘项目名称’、‘项目内容’、‘工作内容’、‘工作地点描述’属于文本特征，使用词向量模型处理；

项目名称内容使用96维的词向量表示：

项目内容特征提取与表示：

工作内容特征提取与表示：

(4)‘项目开始时间’、‘项目结束时间’、‘计划开始时间’、‘计划结束时间’属于时间特征，先将数据类型转换为datetime，然后转换成时间戳信息。

项目开始时间	时间信息(年、月、日)	特征表示(时间戳)
			2018-01-01	(2018,1,1)	1514736000
2017-01-01	(2017,1,1)	1483200000
			2016-01-01	(2016,1,1)	1451577600

项目结束时间	时间信息(年、月、日)	特征表示(时间戳)
			2018-12-31	(2018,12,31)	1546185600
2017-12-31	(2017,12,31)	1514649600
			2016-12-31	(2016,12,31)	1483113600

计划结束时间	时间信息(年、月、日)	特征表示(时间戳)
			2018/4/2 15:00:00	(2018,4,2,15,0,0)	1522652400
2017/3/27 16:00:00	(2017,3,27,16,0,0)	1490601600
			2016/8/24 17:00:00	(2016,8,24,17,0,0)	1472029200

第二步：特征标准化处理

为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。

数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。

数据无量纲化处理主要解决数据的可比性。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值(各特征)都处于同一个数量级别上，可以进行综合对比分析。

3.4.3建立样本组：

以大修项目计划信息和工作表信息特征为基础，由专业的电力业务人员选出具有相关性的样本组合，建立用于模型训练的样本组。样本形式如下：

3.4.4建立模型：

(1)将样本集随机排序

(2)将样本集划分为训练集、验证集和测试集，分别占总样本数量的70％，10％，20％

3.5模型应用

(1)相似度分析

根据训练好的SVM分类器，对新的样本进行预测，给出某个工作票与所有项目计划的的关联度，按照大小排序，取前5个关联度最大的排序值为最终的结果。

(2)标签云可视化

通过对被审计文本数据进行标签云可视化分析，整体把握被审计文本数据的主要内容。标签云由一组相关的标签以及与标签相对应的权重组成，这些标签按字母顺序或其他顺序，或者再结合颜色深浅进行排列，呈现出来供用户浏览的文本可视化方法。其中，权重值的大小决定标签的字体大小、颜色或其他视觉效果。根据分词结果的词频自动设置颜色深浅、字体大小并进行可视化展示。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语义分析的电力工程大修项目风险审计方法，其特征在于：包括以下步骤：S1、数据收集；S2、训练整份分词模型；S3、数据清洗；S4、分词结果特征提取；S5、模型应用。

2.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：步骤S1中，包括：(1)使用网络爬虫技术从不同的路径获取公司审计数据，建立数据仓库；(2)分析目标系统中审计数据的数据结构；(3)采用python网络爬虫软件，实现目标数据抓取。

3.根据权利要求2所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：建立数据仓库包括：抓取规划计划管理系统的项目计划文件；抓取规划计划管理系统PMS2.0的业务数据文件；抓取网上公开的电力业务相关的专业数据文件。

4.根据权利要求2所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：所述目标数据抓取包括：

第一步：搭建python网络爬虫环境；

第二步：运行python程序爬取目标数据；

5.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：在步骤S2中，包括：构建审计需要的词库；使用网上开源的中文分词软件jieba，对审计仓库目标文件进行分词操作。

6.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：在步骤S3中，所述数据清洗包括去停用词和中文纠错。

7.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：在步骤S4中，分词结果特征提取包括：特征选取、特征处理、建立样本组以及建立模型。

8.根据权利要求7所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：所述特征选取包括：项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息；工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息；

所述建立模型包括以下步骤：

(1)将样本集随机排序；

9.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法，其特征在于：步骤S5中，所述模型应用包括相似度分析和标签云可视化，其中，相似度分析具体为，根据训练好的SVM分类器，对新的样本进行预测，给出某个工作票与所有项目计划的的关联度，按照大小排序，取前5个关联度最大的排序值为最终的结果，标签云可视化具体为，通过对被审计文本数据进行标签云可视化分析，整体把握被审计文本数据的主要内容。