CN109582787A

CN109582787A - 一种火力发电领域语料数据的实体分类方法及装置

Info

Publication number: CN109582787A
Application number: CN201811311803.3A
Authority: CN
Inventors: 唐静; 彭轩; 彭一轩; 解来甲
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-04-05
Anticipated expiration: 2038-11-05
Also published as: CN109582787B

Abstract

本发明涉及一种火力发电领域语料数据的实体分类方法及装置，属于火力发电技术领域，方法包括，对包含火力发电领域语料数据的待分类文本集合S进行初次分类，得到已成功分类文本集合S1和未成功分类文本集合S2；提取未成功分类文本集合S2中的实体新词，建立实体新词列表E；将实体新词列表中的实体新词逐一与已成功分类文本集合S1进行实体对齐，确认实体新词的实体类别。本发明利用火力发电领域文本数据，综合采用无监督专业词汇发现算法和文本分类算法，实现对发电语料数据的实体分类，其所构建的火力发电专业词库也可用于该领域内文本数据挖掘的语料支撑。

Description

一种火力发电领域语料数据的实体分类方法及装置

技术领域

本发明涉及火力发电技术领域，尤其是一种火力发电领域语料数据的实体分类方法及装置。

背景技术

作为典型的非/半结构化数据，对于文本数据的处理一直是数据挖掘的热点之一。

对火力发电领域的文本数据分析挖掘对于火力发电企业定期的缺陷盘点，以及企业长远的信息化建设的企业知识图谱的构建，辅助企业从全局层面了解生产设备的运行和健康状况、进行多维数据融合及深层知识的挖掘具有重要意义。

目前，对于火力发电领域的文本数据分析挖掘尚处于起步阶段。主要原因在于，火力发电领域所积累的文档数据尚未建立完备的语料库，在语料库不充分的情况下，许多统计机器学习的方法难奏效。利用自然语言处理的方法很难从文本中挖掘出具有显著性意义的结果，

发电企业对日常操作记录文档主要有值班日志和缺陷记录。在对发电语料数据进行实体分类时，由于在日常记录中设备的名称可能由于个人用语习惯不同而有表述上的差异，使得利用标准的设备名称进行分类时无法将相应的记录进行正确地归类。

发明内容

鉴于上述的分析，本发明旨在提供一种火力发电领域语料数据的实体分类方法及装置，将基于统计的新词识别方法和分类算法相结合，实现对发电文本语料数据的实体分类。

本发明的目的主要是通过以下技术方案实现的：

一种火力发电领域语料数据的实体分类方法，包括如下步骤：

对包含火力发电领域语料数据的待分类文本集合S进行初次分类，得到已成功分类文本集合S1和未成功分类文本集合S2；

通过建立的备选新词库，提取所述未成功分类文本集合S2中的实体新词，建立实体新词列表E；

将实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐，得到实体对齐结果；

根据得到的所述实体对齐结果，确定该实体新词的实体类别。

进一步地，所述备选新词库的构建方法，包括：

建立领域词库候选词集；

对所述领域词库候选词集中的候选词语进行量化；

对量化后的候选词语进行阈值筛选后构成领域词库；

剔除所述领域词库中的通用词语后构成备选新词库。

进一步地，所述建立领域词库候选词集，包括：

对火力发电领域语料数据进行预处理；

将预处理后的语料数据进行子串切分得到子串；

对得到的所述子串进行词语切分，构成领域词库的候选词集。

进一步地，所述候选词语的量化包括词频、内部凝固度、自由度和位置成词概率的量化。

进一步地，所述阈值筛选中设置的阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值。

进一步地，所述初次分类，包括，

建立待分类文本集合S：{s₁,s₂,···,s_i,···s_m}，s_i为集合中的某条文本记录；

建立已登录的实体设备列表N：{n₁,n₂,···,n_j,···n_K}，n_j为某个实体的类别编号；

对待分类文本进行包括去除数字、字母、记录拆分在内的预处理；

对预处理后的文本集合S按照实体设备列表N进行分类，得到已成功分类的文档样本空间S1{Sn₁:s₁₁,s₁₂,···；Sn_j:s_j1,s_j2,···；···；Sn_k:s_k1,s_k2,···},k为S1中的实体类别总数，Sn_j是属于实体类别n_j的文档子集。

进一步地，将所述实体新词与所述已成功分类文本集合S1进行实体对齐，包括；

建立包含实体名词列表E的文档子集Se，Se∈S2；

计算所述文档子集Se到已成功分类文本集合S1中每个文档子集Sn_j的距离d(e，n_j)；e为所述新词列表E中的实体新词，n_j为已成功分类文本集合S1的实体类别；

选取距离d最大值出现次数最多的文档子集Sn_j，将实体新词e归类到所述文档子集Sn_j属于的实体类别。

进一步地，对于无法实体对齐的实体新词，通过创建新的实体类别进行分类；将所述创建实体类别加入已登录的实体设备列表N。

进一步地，对于包含实体新词e的实体名词列表E以及实体新词e所属实体类别，经过人机交互，由用户进行最终的确认。

一种火力发电领域语料数据的实体分类装置，包括初次分类模块、备选新词库、新词提取模块和实体对齐模块；

所述初次分类模块，用于对输入的包含火力发电领域语料数据的待分类文本集合S进行初次分类，得到已成功分类文本集合S1和未成功分类文本集合S2；

所述备选新词库，用于存储火力发电领域的实体新词；

所述新词提取模块，与所述初次分类模块和所述备选新词库分别连接，用于接收初次分类模块输入的未成功分类文本集合S2，根据备选新词库内容，提取所述未成功分类文本集合S2中的实体新词，建立实体新词列表E；

所述实体对齐模块，与所述初次分类模块和所述新词提取模块分别连接，用于接收初次分类模块输出的已成功分类文本集合S1和所述新词提取模块输出的实体新词列表E，将所述实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐，得到实体对齐结果；并根据得到的所述实体对齐结果，确定该实体新词的实体类别。

本发明有益效果如下：

利用火力发电领域文本数据，综合采用无监督专业词汇发现算法和文本分类算法，实现对发电语料数据的实体分类，其所构建的火力发电专业词库也可用于该领域内文本数据挖掘的语料支撑。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的实体分类方法流程图；

图2为本发明实施例的实体分类装置组成连接示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明实施例公开了一种火力发电领域语料数据的实体分类方法，如图1所示，包括如下步骤：

步骤S1、对包含火力发电领域语料数据的待分类文本集合S进行初次分类；

1)建立用于分类的输入数据；

输入数据具体包括：

待分类文本集合S：{s₁,s₂,···,s_i,···s_m}，其中，s_i为集合中的某条文本记录，与设备实体中某一实体相对应，m为文本记录的数量；

已登录的实体设备列表N：{n₁,n₂,···,n_j,···n_k}，其中，n_j为某个实体的类别编号，该类别由设备的一个或者多个名称构成，k为实体设备列表总数；

2)对分类文本集合S中的待分类文本进行预处理；

为了消除对分类无用的多余信息，对待分类文本进行包括去除数字、字母、记录拆分等预处理措施，使待分类文本更加简洁；

3)对预处理后的文本集合S按照实体设备列表N进行分类；

通过对分类文本集合S：{s₁,s₂,···,s_i,···s_m}分类，得到成功分类文本集合S1和未成功分类文本集合S2；

已成功分类文本集合S1的文档样本空间为{Sn₁:s₁₁,s₁₂,···；Sn_j:s_j1,s_j2,···；···；Sn_k:s_k1,s_k2,···},k为S1中的实体类别总数，Sn_j是属于实体类别n_j的文档子集。

步骤S2、通过建立的备选新词库，提取所述未成功分类文本集合S2中的实体新词，建立实体新词列表E；

步骤中的建立备选新词库的方法包括：

1)建立领域词库候选词集；

用于建立领域词库候选词集可采用某个火力发电企业积累的火力发电领域语料数据文本；该语料数据主要包括值班日志和缺陷单等。

对积累的火力发电领域语料数据文本进行预处理；具体的预处理操作包括对数据进行去重处理，和消除明确不是实体词语的包括字母、符号和数字等无效字符；使后续处理的语料数据更加简洁。

对预处理后的语料数据文本，用空格、换行符等符号将文本中的句子切分成子串；

再对子串进行词语切分，构成领域词库的候选词集；

特殊的，可采用N-gram算法对子串进行N元切分，将子串中的词语进行切分，得到包括火力发电领域发电设备名称、该领域内技术人员习惯用语和领域中设备故障的专业描述的词语，构成领域词库候选词集。

例如：对语料子串“高温过热器后对空排气一次门内漏”采用N-gram算法对子串进行N元切分(N＝6)，切分后得到的候选词集有：

高温

高温过

高温过热

高温过热器

高温过热器后

温过

温过热

温过热器

温过热器后

温过热器后对

...。

2)对所述领域词库候选词集中的候选词语进行量化；

所述候选词语的量化量化标准包括词频、内部凝固度、自由度和位置成词概率；

内部凝固度采用公式表示，式中，x和y表示语料中两个不同的字，p(xy)表示x和y同时出现在语料中的概率；p(x)为x单独出现在语料中的概率；p(y)为y单独出现在语料中的概率；当pmi(x,y)>>0时，表明x和y是高度相关的，即x和y经常同时出现，字符串xy越可能构成新词。

自由度用左、右连接词信息熵来进行衡量；即，自由度＝min(左连接词信息熵，右连接词信息熵)；

式中，s_l为候选词w的左邻连接字；s_r为候选词w的右邻连接字；p(w_l|w)为候选词w出现的情况下其左邻连接字为w_l的条件概率；p(w_r|w)为候选词w出现的情况下其右邻连接字为w_r的条件概率。

所述位置成词概率式中i是c_i词出现的位置；N(c_i,i)为c_i出现在词中i位置的所有词语的频次；N(c_i)为c_i在语料中出现的总频次。

3)对量化后的候选词语进行阈值筛选后构成领域词库；

阈值筛选中设置阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值；

通过设置左、右连接词信息熵阈值，确定自由度阈值；

通过将设置的凝固度阈值和自由度阈值进行结合，对候选词集中的词语进行判断筛选，得到本领域应用的词语；

通过设置词频阈值，当候选词语出现的词频大于阈值时，说明该词语为本领域应用的常用词，对词语进行筛选构成了领域词库；

通过设置位置成词概率阈值，对生成的领域词库中成词位置进行评估和判断，提高成词的正确率。

4)对所述领域词库与通用词库进行比对，剔除所述领域词库中的通用词语后构成备选新词库。

由于上一步构成的领域词库并没有进行专业词的鉴别，词库中的词语包括本领域使用的通用词语，而这些词语与设备并不相关，不需要进行实体分类；由此，通过与通用词库(电厂80年代有一个电厂专业用语词库，这个是国家的以前的标准通用词汇版本)进行比对，剔除所述领域词库中的通用词语后构成备选新词库。

通过建立的备选新词库，对未成功分类文本集合S2中的词语进行比对提取，提取出未成功分类文本集合S2中包含的属于建立的备选新词库中的实体新词，建立实体新词列表E。

特殊的，为了建立实体新词列表E更加准确，经过人机交互，由用户进行最终对归类结果进行确认。

步骤S3、将实体新词列表中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐；确认实体新词的实体类别。

具体的对齐过程包括：

1)建立包含实体名词列表E的文档子集Se，Se∈S2；

2)计算所述文档子集Se到已成功分类文本集合S1中每个文档子集Sn_j的距离d(e，n_j)；e为所述新词列表E中的实体新词，n_j为已成功分类文本集合S1的实体类别；

3)选取距离d最大值出现次数最多的文档子集Sn_j，将实体新词e归类到所述文档子集Sn_j属于的实体类别；

4)更新已成功分类文本集合S1的文档子集Sn_j，重复上述过程，直至将文档子集Se合并到文档子集Sn_j。

特殊的，由于火电设备的更新，存在还没有登录进实体设备列表N的新设备，与所述新设备相关的实体新词，通过上述对齐过程，无法实现实体对齐；

对于无法对齐的实体新词，需通过创建新的实体类别进行分类；并将所述创建实体类别加入已登录的实体设备列表N。

特殊的，为了使实体新词e的归类更加准确，经过人机交互，由用户进行最终对归类结果进行确认。

本发明实施例还公开了一种火力发电领域语料数据的实体分类装置，如图2所示，包括初次分类模块、备选新词库、新词提取模块和实体对齐模块；

所述备选新词库，用于存储火力发电领域包括的实体新词；

可选的，所述备选新词库的构建方法包括：

1)建立领域词库候选词集；

再对子串进行词语切分，构成领域词库的候选词集；

2)对所述领域词库候选词集中的候选词语进行量化；

3)对量化后的候选词语进行阈值筛选后构成领域词库；

通过设置左、右连接词信息熵阈值，确定自由度阈值；

由于上一步构成的领域词库并没有进行专业词的鉴别，词库中的词语包括本领域使用的通用词语，而这些词语与设备并不相关，不需要进行实体分类；由此，通过与通用词库进行比对，剔除所述领域词库中的通用词语后构成备选新词库。

综上所述，本发明实施例给出的火力发电领域语料数据的实体分类方法及装置，利用火力发电领域文本数据，综合采用无监督专业词汇发现算法和文本分类算法，实现对发电语料数据的实体分类，其所构建的火力发电专业词库也可用于该领域内文本数据挖掘的语料支撑。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种火力发电领域语料数据的实体分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的实体分类方法，其特征在于，所述备选新词库的构建方法，包括：

建立领域词库候选词集；

对所述领域词库候选词集中的候选词语进行量化；

对量化后的候选词语进行阈值筛选后构成领域词库；

剔除所述领域词库中的通用词语后构成备选新词库。

3.根据权利要求2所述的实体分类方法，其特征在于，所述建立领域词库候选词集，包括：

对火力发电领域语料数据进行预处理；

将预处理后的语料数据进行子串切分得到子串；

4.根据权利要求2所述的实体分类方法，其特征在于，所述候选词语的量化包括词频、内部凝固度、自由度和位置成词概率的量化。

5.根据权利要求4所述的实体分类方法，其特征在于，所述阈值筛选中设置的阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值。

6.根据权利要求1或2所述的实体分类方法，其特征在于，所述初次分类，包括，

建立待分类文本集合S：{s₁,s₂,…,s_i,…s_m}，s_i为集合中的某条文本记录；

建立已登录的实体设备列表N：{n₁,n₂,…,n_j,…n_K}，n_j为某个实体的类别编号；

对预处理后的文本集合S按照实体设备列表N进行分类，得到已成功分类的文档样本空间S1{Sn₁:s₁₁,s₁₂,…；Sn_j:s_j1,s_j2,…；…；Sn_k:s_k1,s_k2,…},k为S1中的实体类别总数，Sn_j是属于实体类别n_j的文档子集。

7.根据权利要求1所述的实体分类方法，其特征在于，将所述实体新词与所述已成功分类文本集合S1进行实体对齐，包括；

建立包含实体名词列表E的文档子集Se，Se∈S2；

8.根据权利要求7所述的实体分类方法，其特征在于，对于无法实体对齐的实体新词，通过创建新的实体类别进行分类；将所述创建实体类别加入已登录的实体设备列表N。

9.根据权利要求8所述的实体分类方法，其特征在于，对于包含实体新词e的实体名词列表E以及实体新词e所属实体类别，经过人机交互，由用户进行最终的确认。

10.一种火力发电领域语料数据的实体分类装置，其特征在于，包括初次分类模块、备选新词库、新词提取模块和实体对齐模块；

所述备选新词库，用于存储火力发电领域的实体新词；