CN112308388A - 基于语义分析的电力工程大修项目风险审计方法 - Google Patents
基于语义分析的电力工程大修项目风险审计方法 Download PDFInfo
- Publication number
- CN112308388A CN112308388A CN202011135566.7A CN202011135566A CN112308388A CN 112308388 A CN112308388 A CN 112308388A CN 202011135566 A CN202011135566 A CN 202011135566A CN 112308388 A CN112308388 A CN 112308388A
- Authority
- CN
- China
- Prior art keywords
- data
- project
- electric power
- audit
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012550 audit Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000013439 planning Methods 0.000 claims description 14
- 230000008439 repair process Effects 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012800 visualization Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013481 data capture Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000035605 chemotaxis Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电网技术领域,尤其涉及一种基于语义分析的电力工程大修项目风险审计方法。包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。使用python网络爬虫技术采集某年度大修项目的指定字段信息。结合国网天津市电力公司的PMS2.0系统存储数据,利用数据仓库存储网络爬虫搜集的信息,创建一个独立的审计分析环境,在该环境中对己改善质量的审计数据进行进一步的处理,按审计主题对审计数据进行存储,提高审计分析的可扩展性。
Description
技术领域
本发明涉及电网技术领域,尤其涉及一种基于语义分析的电力工程大修项目风险审计方法。
背景技术
电力工程在国家的发展中有着举足轻重的作用和地位。而审计作为一种监督机制,能够依法对国家各级政府部门,金融机构以及企事业组织的相关重大项目的财务收支状况进行审查与监督,以制约消极经济活动,促进社会经济的稳定运行,最终使得国民经济得以健康发展。但在现阶段,电力工程审计仍存在一些缺陷与问题,例如工程前期审计不够充分、对施工过程审计重视度不够、竣工决算审计材料准备不及时以及分阶段审计导致审计工作不衔接等,这些问题的存在严重干扰电力工程审计的开展,也使得电力工程审计无法实现其及时发现并揭露问题,最终使电力工程项目顺利完成的目标。针对当前电力工程审计存在的缺陷和问题,我们研究了基于语义分析的电力工程大修项目风险审计方法,将自然语言处理技术应用于电力工程项目风险审计之中,将审计工作中很大一部分人力工作使用计算机代替处理,大幅节省人力物力的消耗,提升审计效率。
自然语言处理技术在信息检索中可以分为词语层和上词语层两个层次,在第一个层次上,信息检索中用到的NLP技术主要有分词、识别复合短语以及专有名词等。其中,分词在自然语言处理中的研究己经是个比较成熟的课题,自从20世纪80年代初中文信息处理领域提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,提出了许多分词方法,有些比较成熟的技术己经应用到商业产品当中。但是大部分研究主要还是局限于对结构化审计数据进行分析,鲜有学者针对非结构化审计数据进行深入研究。在国际数据公司(IDC)发布的一项报告中显示,企业中最多只有5%的数据为结构化数据,其余大都是非结构化数据,并且88%的企业管理者认为这些存储在数据库以外的非结构化数据,才是他们接触和了解企业的最佳选择目标。
发明内容
本发明的目的在于克服上述技术的不足,而提供一种基于语义分析的电力工程大修项目风险审计方法。
本发明为实现上述目的,采用以下技术方案:一种基于语义分析的电力工程大修项目风险审计方法,其特征在于:包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。
优选地,步骤S1中,包括:(1)使用网络爬虫技术从不同的路径获取公司审计数据,建立数据仓库;(2)分析目标系统中审计数据的数据结构;(3)采用python网络爬虫软件,实现目标数据抓取。
优选地,建立数据仓库包括:抓取规划计划管理系统的项目计划文件;抓取规划计划管理系统PMS2.0的业务数据文件;抓取网上公开的电力业务相关的专业数据文件。
优选地,所述目标数据抓取包括:
第一步:搭建python网络爬虫环境;
第二步:运行python程序爬取目标数据;
第三步:根据需要,将爬取到的目标数据做初步筛选,保留有用的字段信息,建立审计仓库文件。
优选地,在步骤S2中,包括:构建审计需要的词库;使用网上开源的中文分词软件jieba,对审计仓库目标文件进行分词操作。
优选地,在步骤S3中,所述数据清洗包括去停用词和中文纠错。
优选地,在步骤S4中,分词结果特征提取包括:特征选取、特征处理、建立样本组以及建立模型。
优选地,所述特征选取包括:项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息;工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息;
所述特征处理包括:第一步:特征预处理,为不同类型的特征选取不同的预处理方式;第二步:特征标准化处理;
所述建立样本组以大修项目计划信息和工作表信息特征为基础,由专业的电力业务人员选出具有相关性的样本组合,建立用于模型训练的样本组。
所述建立模型包括以下步骤:
(1)将样本集随机排序;
(2)将样本集划分为训练集、验证集和测试集,分别占总样本数量的70%,10%,20%;
(3)使用样本训练集训练SVM分类器,使用验证集微调参数,最后使用测试集验证模型的有效性。
优选地,步骤S5中,所述模型应用包括相似度分析和标签云可视化,其中,相似度分析具体为,根据训练好的SVM分类器,对新的样本进行预测,给出某个工作票与所有项目计划的的关联度,按照大小排序,取前5个关联度最大的排序值为最终的结果,标签云可视化具体为,通过对被审计文本数据进行标签云可视化分析,整体把握被审计文本数据的主要内容。
本发明的有益效果是:(1)使用python网络爬虫技术采集某年度大修项目的指定字段信息。结合国网天津市电力公司的PMS2.0系统存储数据,利用数据仓库存储网络爬虫搜集的信息,创建一个独立的审计分析环境,在该环境中对己改善质量的审计数据进行进一步的处理,按审计主题对审计数据进行存储,提高审计分析的可扩展性。
(2)针对不同的审计分析要求,利用语义识别技术识别规划计划系统中的项目建设内容信息和PMS系统中的工作票信息。按照大修项目清单,查找与之建设内容匹配的工作票信息,若有与之匹配的工作票,则可以认定该项目已实施,若无则列为疑点进行重点核实。
附图说明
图1是本发明中采用python网络爬虫软件的原理图。
具体实施方式
如图1所示,一种基于语义分析的电力工程大修项目风险审计方法,包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。其中:
3.1数据收集
3.1.1使用网络爬虫技术从不同的路径获取公司审计数据,建立数据仓库。
(1)抓取规划计划管理系统的项目计划文件,包括:
a)生产大修专业项目规划报告
b)生产大修专业项目建议书
c)生产大修专业项目规划审批文件
d)生产大修专业项目规划项目库清单
e)生产大修专业项目竣工报告
(2)抓取规划计划管理系统PMS2.0的业务数据文件,包括:
a)工作票文件
b)工作许可报告
c)完工报告
(3)抓取网上公开的电力业务相关的专业数据文件,包括:
a)电力行业常用词库
b)电力行业专业词库
c)天津市输变电站等电力设备名称
3.1.2分析目标系统中审计数据的数据结构
(1)根据规划计划管理系统的项目计划文件,建立生产大修专业项目计划信息文件表,包括“项目编码、项目名称、建管单位、项目所属单位、电压等级(KV)、项目分类、专业类别、专业细分、下达状态、项目内容(限300字)、项目开始时间、项目结束时间、年度计划、是否预安排、可研批复文号、国网下达批次、省下达批次、天津项目工程ID、是否低电压项目、备注、项目编码、排序号”等字段信息。
(2)根据规划计划管理系统PMS2.0的业务数据文件,建立工作票信息文件,包括“票种类、工作内容、工作地点、工作地点描述、制票部门、运维单位、工作负责人、工作票签发人、票号、票状态、计划开工时间、计划结束时间、许可工作时间、工作许可人、终结时间、完工许可人、票类型、关联任务单、退回、完成情况、制票人、延期时间、所属馈线名称、所属地市名称、工作班组成员人数、票ID”等字段信息。
(3)根据电力业务相关的专业数据文件,建立电力相关词库文件,包括“电力行业词汇、电力行业专用词汇、发电站、输电站、变电站、变压器、电力设备企业名录、天津市国家电网公司名录”等信息。
3.1.3如图1所示,采用python网络爬虫软件,实现目标数据抓取
第一步:搭建python网络爬虫环境;
第二步:运行python程序爬取目标数据;
第三步:根据需要,将爬取到的目标数据做初步筛选,保留有用的字段信息,建立审计仓库文件。
3.2中文分词
训练中文分词模型,实现审计数据的分词功能
3.2.1构建审计需要的词库
从相关网站下载电力行业专业相关词库、本地地名词库以及国家电网公司专有名词词库,对于特定分词建立自己的词库
3.2.2分词
使用网上开源的中文分词软件jieba,对审计仓库目标文件进行分词操作:
(1)对生产大修专业项目计划信息文件表中的“项目名称、项目内容、项目分类、年度计划”等字段分词,并统计词频;
(2)对项目规划报告、项目建议书、项目竣工报告等文件分词,并统计词频;
(3)对工作票中的“票种类、工作内容、工作地点、工作地点描述、所属馈线名称”等字段进行分词,并统计词频;
(4)对上述分词结果有不准确的地方,可以进行人工词频调整,再次进行分词,以实现更为准确的分词效果。
分词结果显示:
|[″国网″,″天津″,″宝坻″,″周良庄″,″变电站″,″开关柜″,″绝缘″,″大修″]
[″国网″,″天津″,″宝坻″,″开发区″,″城区″,″配电箱站″,″开闭站″,″基础维修″,″工程″]
[″国网″,″天津″,″宝坻″,″林亭口″,″林亭口″,″配电线路″,″基础加固″,″工程″]
[″国网″,″天津″,″宝坻″,″宝安″,″线路″,″三跨″,″耐张″,″串改″,″双挂点″,″引流线″,″大修″]
[″国网″,″天津″,″宝坻″,″双王寺″,″变电站″,″开关柜″,″大修″]
[″国网″,″天津″,″宝坻″,″大口屯″,″变电站″,″尹家铺屯″,″线路″,″线路″,″水泥″,″护墩″,″加装″]
3.3数据清洗
3.3.1去停用词:对分词结果中出现的无用标签、标点符号及特殊符号做清除处理;
3.3.2中文纠错:根据语料分析,进行badcase分析,查看错误语料的结果的影响,没有必要则不做处理;如果错误语料对问题的影响大,采用统计办法进行纠错。
3.4分词结果特征提取
基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)技术实现关键词抽取。根据字词的在文本中出现的频率和在整个文本库中出现的频率来计算一个字词在整个文本库中的重要程度。如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文本中出现的很少,则认为该词或者短语具有很好的代表性。
3.4.1特征选取:
(1)项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息。
(2)工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息。
3.4.2特征处理
第一步:特征预处理,为不同类型的特征选取不同的预处理方式:
(1)‘项目编码’、‘票ID’属于唯一性数字特征,保留处理;
(2)‘票种类’、‘工作地点’属于类别特征,使用One-hot编码处理;
这里,‘票种类’有24种,我们使用6位二进制数表示,前两位表示工作地点,中间两位表示工作类别,最后两位表示工作票类别。通过“工作内容、工作地点、工作地点描述”三个字段提取出关于变电站/输电站、线路、杆的具体内容构成工作地点特征表示。
票种类的特征表示
(3)‘项目名称’、‘项目内容’、‘工作内容’、‘工作地点描述’属于文本特征,使用词向量模型处理;
项目名称内容使用96维的词向量表示:
项目内容特征提取与表示:
工作内容特征提取与表示:
(4)‘项目开始时间’、‘项目结束时间’、‘计划开始时间’、‘计划结束时间’属于时间特征,先将数据类型转换为datetime,然后转换成时间戳信息。
项目开始时间 | 时间信息(年、月、日) | 特征表示(时间戳) |
2018-01-01 | (2018,1,1) | 1514736000 |
2017-01-01 | (2017,1,1) | 1483200000 |
2016-01-01 | (2016,1,1) | 1451577600 |
项目结束时间 | 时间信息(年、月、日) | 特征表示(时间戳) |
2018-12-31 | (2018,12,31) | 1546185600 |
2017-12-31 | (2017,12,31) | 1514649600 |
2016-12-31 | (2016,12,31) | 1483113600 |
计划结束时间 | 时间信息(年、月、日) | 特征表示(时间戳) |
2018/4/2 15:00:00 | (2018,4,2,15,0,0) | 1522652400 |
2017/3/27 16:00:00 | (2017,3,27,16,0,0) | 1490601600 |
2016/8/24 17:00:00 | (2016,8,24,17,0,0) | 1472029200 |
第二步:特征标准化处理
为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。
数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。
数据无量纲化处理主要解决数据的可比性。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值(各特征)都处于同一个数量级别上,可以进行综合对比分析。
3.4.3建立样本组:
以大修项目计划信息和工作表信息特征为基础,由专业的电力业务人员选出具有相关性的样本组合,建立用于模型训练的样本组。样本形式如下:
3.4.4建立模型:
(1)将样本集随机排序
(2)将样本集划分为训练集、验证集和测试集,分别占总样本数量的70%,10%,20%
(3)使用样本训练集训练SVM分类器,使用验证集微调参数,最后使用测试集验证模型的有效性。
3.5模型应用
(1)相似度分析
根据训练好的SVM分类器,对新的样本进行预测,给出某个工作票与所有项目计划的的关联度,按照大小排序,取前5个关联度最大的排序值为最终的结果。
(2)标签云可视化
通过对被审计文本数据进行标签云可视化分析,整体把握被审计文本数据的主要内容。标签云由一组相关的标签以及与标签相对应的权重组成,这些标签按字母顺序或其他顺序,或者再结合颜色深浅进行排列,呈现出来供用户浏览的文本可视化方法。其中,权重值的大小决定标签的字体大小、颜色或其他视觉效果。根据分词结果的词频自动设置颜色深浅、字体大小并进行可视化展示。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于语义分析的电力工程大修项目风险审计方法,其特征在于:包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。
2.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:步骤S1中,包括:(1)使用网络爬虫技术从不同的路径获取公司审计数据,建立数据仓库;(2)分析目标系统中审计数据的数据结构;(3)采用python网络爬虫软件,实现目标数据抓取。
3.根据权利要求2所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:建立数据仓库包括:抓取规划计划管理系统的项目计划文件;抓取规划计划管理系统PMS2.0的业务数据文件;抓取网上公开的电力业务相关的专业数据文件。
4.根据权利要求2所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:所述目标数据抓取包括:
第一步:搭建python网络爬虫环境;
第二步:运行python程序爬取目标数据;
第三步:根据需要,将爬取到的目标数据做初步筛选,保留有用的字段信息,建立审计仓库文件。
5.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:在步骤S2中,包括:构建审计需要的词库;使用网上开源的中文分词软件jieba,对审计仓库目标文件进行分词操作。
6.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:在步骤S3中,所述数据清洗包括去停用词和中文纠错。
7.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:在步骤S4中,分词结果特征提取包括:特征选取、特征处理、建立样本组以及建立模型。
8.根据权利要求7所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:所述特征选取包括:项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息;工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息;
所述特征处理包括:第一步:特征预处理,为不同类型的特征选取不同的预处理方式;第二步:特征标准化处理;
所述建立样本组以大修项目计划信息和工作表信息特征为基础,由专业的电力业务人员选出具有相关性的样本组合,建立用于模型训练的样本组。
所述建立模型包括以下步骤:
(1)将样本集随机排序;
(2)将样本集划分为训练集、验证集和测试集,分别占总样本数量的70%,10%,20%;
(3)使用样本训练集训练SVM分类器,使用验证集微调参数,最后使用测试集验证模型的有效性。
9.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:步骤S5中,所述模型应用包括相似度分析和标签云可视化,其中,相似度分析具体为,根据训练好的SVM分类器,对新的样本进行预测,给出某个工作票与所有项目计划的的关联度,按照大小排序,取前5个关联度最大的排序值为最终的结果,标签云可视化具体为,通过对被审计文本数据进行标签云可视化分析,整体把握被审计文本数据的主要内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011135566.7A CN112308388A (zh) | 2020-10-22 | 2020-10-22 | 基于语义分析的电力工程大修项目风险审计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011135566.7A CN112308388A (zh) | 2020-10-22 | 2020-10-22 | 基于语义分析的电力工程大修项目风险审计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308388A true CN112308388A (zh) | 2021-02-02 |
Family
ID=74328345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011135566.7A Pending CN112308388A (zh) | 2020-10-22 | 2020-10-22 | 基于语义分析的电力工程大修项目风险审计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308388A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469555A (zh) * | 2021-07-19 | 2021-10-01 | 国网冀北电力有限公司唐山供电公司 | 一种基于ai技术的电力生产管理方法 |
CN113743108A (zh) * | 2021-09-03 | 2021-12-03 | 国网经济技术研究院有限公司 | 配电网工程技术经济信息划分方法 |
CN117874565A (zh) * | 2023-11-27 | 2024-04-12 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于神经网络的工作票准确性检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160038A (zh) * | 2015-10-10 | 2015-12-16 | 广东卓维网络有限公司 | 一种基于审计知识库的数据分析方法及系统 |
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN107977789A (zh) * | 2017-12-05 | 2018-05-01 | 国网河南省电力公司南阳供电公司 | 基于大数据信息下的审计工作方法 |
CN109299879A (zh) * | 2018-09-30 | 2019-02-01 | 广东电网有限责任公司 | 一种电网审计问题的统计方法、装置及设备 |
CN110032607A (zh) * | 2019-04-17 | 2019-07-19 | 成都市审计局 | 一种基于大数据的审计方法 |
CN111275409A (zh) * | 2020-02-28 | 2020-06-12 | 国网上海市电力公司 | 一种电网大修审计数据处理系统及处理方法 |
-
2020
- 2020-10-22 CN CN202011135566.7A patent/CN112308388A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160038A (zh) * | 2015-10-10 | 2015-12-16 | 广东卓维网络有限公司 | 一种基于审计知识库的数据分析方法及系统 |
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN107977789A (zh) * | 2017-12-05 | 2018-05-01 | 国网河南省电力公司南阳供电公司 | 基于大数据信息下的审计工作方法 |
CN109299879A (zh) * | 2018-09-30 | 2019-02-01 | 广东电网有限责任公司 | 一种电网审计问题的统计方法、装置及设备 |
CN110032607A (zh) * | 2019-04-17 | 2019-07-19 | 成都市审计局 | 一种基于大数据的审计方法 |
CN111275409A (zh) * | 2020-02-28 | 2020-06-12 | 国网上海市电力公司 | 一种电网大修审计数据处理系统及处理方法 |
Non-Patent Citations (4)
Title |
---|
伍洋等: "面向审计领域的短文本分类技术研究", 《微电子学与计算机》 * |
李丽华 等: "基于深度学习的文本情感分析", 《湖北大学学报》 * |
蒋雨薇: "大数据环境下基于可视化技术的审计方法研究", 《北方经贸》 * |
陈伟 等: "基于文本数据分析的大数据审计方法研究", 《中国注册会计师》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469555A (zh) * | 2021-07-19 | 2021-10-01 | 国网冀北电力有限公司唐山供电公司 | 一种基于ai技术的电力生产管理方法 |
CN113743108A (zh) * | 2021-09-03 | 2021-12-03 | 国网经济技术研究院有限公司 | 配电网工程技术经济信息划分方法 |
CN117874565A (zh) * | 2023-11-27 | 2024-04-12 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于神经网络的工作票准确性检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334212A (zh) | 一种基于机器学习的领域性审计知识图谱构建方法 | |
CN112308388A (zh) | 基于语义分析的电力工程大修项目风险审计方法 | |
CN108491438A (zh) | 一种科技政策检索分析方法 | |
CN104462216B (zh) | 居委标准代码转换系统及方法 | |
CN111401040A (zh) | 一种适用于word文本的关键词提取方法 | |
CN110704577A (zh) | 一种电网调度数据的搜索方法及系统 | |
CN106844527B (zh) | 一种基于互联网大数据的路面病害识别与管养决策方法及系统 | |
CN111737421A (zh) | 一种知识产权大数据情报检索系统及存储介质 | |
CN111008215B (zh) | 一种结合标签构建与社区关系规避的专家推荐方法 | |
CN106934054A (zh) | 基于大数据的企业细分行业精准分析方法及其系统 | |
CN110334904A (zh) | 基于LightGBM的关键信息基础设施类型单位归属判定方法 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN115796797A (zh) | 一种基于二维云图的电网科技项目评价系统及方法 | |
CN113421037A (zh) | 一种多源协同建设规划编制方法和装置 | |
CN113129188A (zh) | 一种基于人工智能大数据的省级教育教学评估系统 | |
Gong | Twenty years of Chinese social sciences towards internationalization (1998–2017): a knowledge sources perspective | |
CN113538011B (zh) | 一种电力系统中非在册联系信息与在册用户的关联方法 | |
CN113590684A (zh) | 一种非税收缴大数据分析系统 | |
Szczech-Pietkiewicz et al. | Smart and sustainable city management in Asia and Europe: A bibliometric analysis | |
CN111666378A (zh) | 一种基于词向量的中文年报标题分类方法 | |
CN118051612B (zh) | 行业分类系统及方法 | |
ASCHERI et al. | Online Job Advertisements for Labour Market Statistics using R. | |
Chu et al. | Artificial Intelligence and China’s Labor Market | |
Wang | Utilization of Artificial Intelligence Technology in Higher Education Management | |
Zhang | [Retracted] Application and Analysis of Big Data Mining in the Foreign Affairs Translation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |