CN113609864B

CN113609864B - 一种基于工业控制系统的文本语义识别处理系统及方法

Info

Publication number: CN113609864B
Application number: CN202110899216.6A
Authority: CN
Inventors: 刘智勇; 陈敏超
Original assignee: Zhuhai Hongrui Information Technology Co Ltd
Current assignee: Zhuhai Hongrui Information Technology Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2022-02-11
Anticipated expiration: 2041-08-06
Also published as: CN113609864A

Abstract

本发明公开了一种基于工业控制系统的文本语义识别处理系统，关键词筛选模块，所述关键词筛选模块根据分隔符对文本中的语句进行分割，通过关键词分割数据库对文本分割后的语句中的关键词进行分割；关键词解析识别模块，所述关键词解析识别模块获取关键词筛选模块分割的关键词，并将各个关键词与关键词解析数据库进行比对，识别出各个关键词的语义及对应的词性。本发明不仅有效提高了文本语义识别的精度，并使得该文本语义识别处理系统具有成长性，通过不断对各个数据库进行更新，进而使得对文本语义识别的效率有效提高。

Description

一种基于工业控制系统的文本语义识别处理系统及方法

技术领域

本发明涉及计算机技术领域，具体为一种基于工业控制系统的文本语义识别处理系统及方法。

背景技术

随着计算机技术的快速发展，计算机技术的广泛运用为人们带来了巨大的便利，在工业应用方面，人们可以通过计算机技术对工业系统进行控制，尤其是对文本数据的后处理方面，通过文本信息进行处理，能够有效识别出文本相应的语义信息，进而能够直接文本信息进行相应的处理操作，达到对工业的控制。但是当前现有的工业控制系统只是单纯的通过关键词对文本信息进行识别处理，因此对文本的识别不够精确，常常导致工业控制系统出现误操作，进而影响工业进程。

针对上述情况，我们需要一种基于工业控制系统的文本语义识别处理系统及方法，在对文本语义进行识别时，不仅从文本中的关键词进行分析，还从关键词的语义、词性及文本中各语句相应的语法进行分析，并针对无法识别的文本语句，采取人工识别的方式，并根据人工识别的处理过程，对该文本语义识别处理系统中的进行文本语义识别的各个数据库进行更新，该方式不仅有效提高了文本语义识别的精度，并使得该文本语义识别处理系统具有成长性，通过不断对各个数据库进行更新，进而使得对文本语义识别的效率有效提高。

发明内容

本发明的目的在于提供一种基于工业控制系统的文本语义识别处理系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于工业控制系统的文本语义识别处理系统，包括：

关键词筛选模块，所述关键词筛选模块根据分隔符对文本中的语句进行分割，通过关键词分割数据库对文本分割后的语句中的关键词进行分割；

关键词解析识别模块，所述关键词解析识别模块获取关键词筛选模块分割的关键词，并将各个关键词与关键词解析数据库进行比对，识别出各个关键词的语义及对应的词性；

语法识别模块，所述语法识别模块获取关键词筛选模块对文本分割后的语句，并对各分割后的语句中对应的关键词及各关键词相应的语义、词性进一步分析，然后与语法数据库进行匹配，获取各分割语句对应的语法；

文本语义识别模块，所述文本语义识别模块获取语法识别模块中对文本中各分割语句语法的识别结果，对语法中各位置词性的主次关系进行排序，并结合关键词解析识别模块对各个关键词的语义、词性的分析结果，获取该文本对应的分割语句最终的语义识别结果；

人工识别模块，所述人工识别模块在语法识别模块无法获取到分割语句对应的语法时，会自动对该分割语句进行提取，并通过人工识别的方式对该分割语句进行识别，在识别后，人工识别模块会自动根据人工识别的过程对关键词分割数据库、关键词解析数据库及语法数据库进行更新；

所述关键词筛选模块在根据分隔符对文本中的语句进行分割时，先获取文本中的分隔符及其对应的位置，根据各分隔符对应的位置将文本分成各长短不一的语句，将每个分隔符及该分隔符与上一个分隔符之间的内容一起进行保存作为分割后的语句，并按照各分隔符在文本中位置的先后顺序对各个分割后的语句进行排序，并用序号对各分割后的语句进行标记，

若某个分隔符没有上一个分隔符时，则直接将该分隔符与该分隔符之前的内容作为分割后的语句；

所述关键词筛选模块在实现对文本中的语句进行分割后，所述关键词筛选模块会根据分割后的语句标记的序号按照从小到大的顺序进行关键词分割，并将同一标记序号的分割后的语句中分割出的关键词进行统一保存，所述关键词筛选模块对文本分割后的语句中关键词的分割方法包括以下步骤：

S1.1、按照从小到大的顺序对各个标记的序号对应的分割后的语句进行提取，并获取关键词分割数据库中各个关键词的长度a1及最长关键词对应的长度a2；

S1.2、将步骤S1.1中提取的分割后的语句中当前识别位置作为识别的起始点；

S1.3、判断识别的起始点到该分割后的语句中分隔符前的长度a3，将a2与a3进行比较，并根据比较结果对关键词比较长度a4进行更正，所述a4用于对待比较的关键词长度进行获取，所述a4的初始值为0，

当a3大于等于a2时，对a4的值进行更正，使得a4的值与a2的值相等，

当a3小于a2时，对a4的值进行更正，使得a4的值与a3的值相等；

S1.4、获取该分割后的语句中起始点到该起始点之后长度为a4对应的内容，记为比较关键词b1，获取关键词筛选数据库中长度等于a4的所有关键词，记为待比较关键词b2，将b1与b2进行比较，

当b1与b2中的某个关键词相同时，则判定b1的内容即为分割后的关键词，并将b1的长度记为最终的关键词比较长度a5，

当b1与b2中的各个关键词均不相同时，则需要对比较关键词的长度进行进行调整；

S1.5、当b1与b2中的各个关键词均不相同时，获取步骤S1.4中a4的值，对a4的值进行更正，即将a4的值减1，将所得结果作为新的a4的值，

对b1、b2进行更正，获取该分割后的语句中起始点到该起始点之后长度为新的a4对应的内容，将所得结果记为新的b1，获取关键词筛选数据库中长度等于新的a4的所有关键词，记为新的b2，将新的b1与新的b2进行比较，

当新的b1与新的b2中的某个关键词相同时，则判定新的b1的内容即为分割后的关键词，并将新的b1的长度记为最终的关键词比较长度a5，

当新的b1与新的b2中的各个关键词均不相同时，则需要对比较关键词的长度进行进行调整，即重复该步骤操作，直到得到分割后的关键词为止，并将得到的分割后的关键词的长度记为最终的关键词比较长度a5；

S1.6、获取该分割后的语句中起始点及该起始点对应的最终的关键词比较长度a5，然后以该起始点为始点，向后移动a5的值对应的长度，所得结果为该分割后的语句中新的起始点，根据得到的新的起始点，从步骤S1.3开始重新执行，直至对该分割后的语句中起始点之后的内容为分隔符为止；

所述关键词解析识别模块获取关键词筛选模块分割的关键词，所述关键词解析数据库中不同关键词绑定不同的语义及词性，且一个关键词可绑定多种语义或词性，所述关键词解析数据库中绑定的关键词与关键词筛选数据库中的关键词一一对应，

获取待比对的关键词，计算该关键词的长度c1，筛选出关键词解析数据库中长度为c1的所有绑定的关键词，将筛选出的关键词与待比对的关键词进行匹配，

获取筛选出的关键词中与待比对的关键词相同的关键词对应的语义及词性，将获取的结果与待比对的关键词进行绑定，并保存；

所述语法识别模块获取关键词筛选模块对文本分割后的语句，对同一标记序号的分割后的语句中分割出的关键词的位置及词性进行分析处理，将相邻切词性相同的两个及以上的关键词的词性进行合并，记为一个该词性的关键词，使得处理后的关键词中相邻关键词的词性均不相同，将处理后的关键词的词性及对应的位置与语法数据库进行匹配，所述处理后的关键词的词性及对应的位置与语法数据库匹配的方法包括以下步骤：

S2.1、按位置先后顺序逐个获取处理后的关键词的词性，并根据获取的先后顺序对得到的词性进行编号，最大编号为n；

S2.2、根据编号为1的词性对语法数据库中第一个关键词的词性与编号为1的词性相同的语法进行筛选，将所得结果记为d1；

S2.3、根据编号为2的词性对d1中的语法进一步筛选，将所得结果记为d2；

···

S2.(n+1)、根据编号为n的词性对d(n-1)中的语法进一步筛选，将所得结果记为dn；

S2.(n+2)、判断dn中的语法是否存在且个数唯一，

当dn中的语法存在且个数唯一时，则判定dn中的语法为该处理后的关键词的词性对应的语法，即该分割后的语句对应的语法，

当dn中的语法是不存在或者个数不唯一时，则判定该处理后的关键词的词性对应的语法不存在，即该分割后的语句对应的语法不存在。

本发明通过各个模块的协同合作，共同实现文本语义识别处理系统对文本的有效识别，从文本中的关键词、关键词相应的语义及词性、文本中各语句对应的语法这几个方面进行分析处理，能够有效提升该文本语义识别处理系统对文本语义识别的精确度。本发明关键词筛选模块通过分隔符实现对文本语句的分割，一个分隔符对应一个文本语句，将文本语句后的分隔符一同进行保存是为了在对文本语句中的关键词进行分割时判断是否停止对文本语句中的关键词进行分割。本发明关键词筛选模块在进行关键词分割时，首先判断分割的内容是否是关键词，在判断的过程中，通过调整分割的位置，进而得到不同的分割内容。本发明关键词解析模块通过关键词与语义、词性的绑定关系，进而通过获取的关键词与绑定的关键词进行比较，即可得到相应的关键词语义及词性。由于存在一种关键词对应不同的语义或词性的情况，因此，获取的关键词语义及词性可能存在多种的情况。本发明语法识别模块通过对关键词词性逐个进行比对的方式，能够准确的锁定比对的结果，避免比对出现错误的情况发生。

进一步的，所述语法识别模块获取的关键词中若存在一个关键词对应多种词性的时候，需要对该关键词的词性进行判断，所述语法识别模块对关键词的词性进行判断的方法包括以下步骤：

S3.1、获取该关键词对应的多种词性及各词性相应的语义，对各词性相应的语义进行判断，

当该关键词对应的某词性相应的语义与工业相关时，则判定该词性为该关键词的词性，并对同一标记序号的分割后的语句中分割出的关键词的位置及词性进行分析处理，将处理后的关键词的词性及对应的位置与语法数据库进行匹配，

判断该关键词对应的某词性相应的语义与工业是否相关的方法如下：

A、对该关键词对应的该词性相应的语义进行关键词提取，

B、将步骤A中提取的关键词分别与工业关键词数据库进行匹配，

当工业关键词数据库中未保存有步骤A中提取的关键词时，则判定该关键词对应的该词性相应的语义与工业不相关，

当工业关键词数据库中保存有步骤A中提取的关键词中的一个或多个时，则判定该关键词对应的该词性相应的语义与工业相关；

S3.2、当该关键词对应的各词性相应的语义与工业均不相关时，分别将该关键词对应的各词性及该关键词的位置与同一标记序号的分割后的语句中分割出的其他关键词的位置及词性进行组合，得到不同的组合结果；

S3.3、分别获取步骤S3.2中不同的组合结果，分别对每种组合结果中各关键词的位置及词性进行分析处理，并将各组合结果中处理后的关键词的词性及对应的位置与语法数据库进行匹配，

S3.4、获取步骤S3.3中各组合结果对应的匹配结果，

当各组合结果对应的匹配结果中均未匹配到语法或者匹配到的语法总个数超过1时，则判定该分割后的语句对应的语法不存在；

当各组合结果对应的匹配结果中匹配到的语法个数等于1时，则判定匹配到的语法为该分割后的语句对应的语法。

本发明语法识别模块获取的关键词中若存在一个关键词对应多种词性的时候，需要对关键词的词性进行判断，在判断过程中，先判断该关键词对应的某词性相应的语义与工业是否相关，若相关，则说明该词性更加合理，该关键词在分割后的语句中为该词性的概率更大，若不相关，则需要将该关键词的词性分别与其他关键词对应的词性进行组合，并与语法数据库进行匹配，若匹配结果只有一种，则说明该匹配结果对应的该关键词的词性正确的概率较大。

进一步的，所述文本语义识别模块获取语法识别模块中对文本中各分割语句语法的识别结果，对识别的语法中各个位置的词性进行判断，将词性根据主次关系分为两类，第一类为主类，包括语法中包含实质性内容的词性，第二类为次类，包括语法中包含修饰性内容的词性，

提取文本中分割语句语法对应的主类中词性在该文本中分割语句中对应的关键词，记为e，按照关键词的出现的先后顺序，将e中各个关键词对应的语义进行拼接组合，得到语义拼接结果，所得语义拼接结果为该文本对应的分割语句最终的语义识别结果。

本发明文本语义识别模块根据词性将识别出的语义信息分为主次两类，次类的信息属于修饰性的内容，对整体识别信息的影响不大，同时，识别的内容越多，会使得该文本语义识别处理系统对识别的内容进行分析时出现的组合情况越多，处理效果越慢，因此，对信息进行精简，只保留主要信息，不仅对识别的内容影响不大，还能够有效提升该文本语义识别处理系统对识别的内容进行分析时的效率，节省了数据分析的时间。

进一步的，所述文本语义识别模块获取文本分割后得到的各个标记的序号对应的分割后的语句，按照序号从小到大的顺序对各个标记的序号对应的分割后的语句进行语义识别，分别得到各个标记的序号对应的分割后的语句对应的最终的语义识别结果，并按照序号从小到大的顺序对各个标记的序号对应的分割后的语句对应的最终的语义识别结果进行汇总，

在进行语义识别或汇总的过程中，当某个标记的序号对应的分割后的语句对应的语法不存在时，则直接跳过该标记的序号对应的分割后的语句，对下一标记的序号对应的分割后的语句进行语义识别或汇总。

本发明文本语义识别模块在对文本进行识别的过程中，是按照顺序对分割后的语句进行识别的，同时针对在进行语义识别或汇总的过程中某个标记的序号对应的分割后的语句对应的语法不存在的情况进行了处理，确保了该文本语义识别处理系统的正常运行。

进一步的，所述人工识别模块在语法识别模块无法获取到分割语句对应的语法时，会自动对该分割语句进行提取，并通过人工识别的方式对该分割语句进行识别，在识别后，人工识别模块会自动记录人工识别过程中分割完成的关键词及各关键词对应的语义、词性，将分割完成的关键词中不存在于关键词分割数据中的关键词提取出来，并添加到关键词分割数据库中，将提取的不存在于关键词分割数据中的关键词添加到关键词解析数据库中的绑定关键词中，将提取的不存在于关键词分割数据中的关键词对应的语义、词性添加到关键词解析数据库中的绑定关键词对应的语义及词性中；

所述人工识别模块还会自动记录人工识别过程中识别出的语法，并判断该语法在语法数据库中是否存在，若不存在，则将该语法添加到语法数据库中。

本发明人工识别模块对人工识别过程中的数据进行保存，并根据保存的数据对各个数据库进行更新，使得该文本语义识别处理系统具有成长性，进而使得对文本语义识别的效率有效提高。

一种基于工业控制系统的文本语义识别处理方法，所述方法包括以下步骤：

S1、关键词筛选模块根据分隔符对文本中的语句进行分割，通过关键词分割数据库对文本分割后的语句中的关键词进行分割；

S2、通过关键词解析识别模块获取关键词筛选模块分割的关键词，并将各个关键词与关键词解析数据库进行比对，识别出各个关键词的语义及对应的词性；

S3、通过语法识别模块获取关键词筛选模块对文本分割后的语句，并对各分割后的语句中对应的关键词及各关键词相应的语义、词性进一步分析，然后与语法数据库进行匹配，获取各分割语句对应的语法；

S4、通过文本语义识别模块获取语法识别模块中对文本中各分割语句语法的识别结果，对语法中各位置词性的主次关系进行排序，并结合关键词解析识别模块对各个关键词的语义、词性的分析结果，获取该文本对应的分割语句最终的语义识别结果；

S5、人工识别模块在语法识别模块无法获取到分割语句对应的语法时，会自动对该分割语句进行提取，并通过人工识别的方式对该分割语句进行识别，在识别后，人工识别模块会自动根据人工识别的过程对关键词分割数据库、关键词解析数据库及语法数据库进行更新。

与现有技术相比，本发明所达到的有益效果是：本发明在对文本语义进行识别时，不仅从文本中的关键词进行分析，还从关键词的语义、词性及文本中各语句相应的语法进行分析，并针对无法识别的文本语句，采取人工识别的方式，并根据人工识别的处理过程，对该文本语义识别处理系统中的进行文本语义识别的各个数据库进行更新，该方式不仅有效提高了文本语义识别的精度，并使得该文本语义识别处理系统具有成长性，通过不断对各个数据库进行更新，进而使得对文本语义识别的效率有效提高。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于工业控制系统的文本语义识别处理系统的结构示意图；

图2是本发明一种基于工业控制系统的文本语义识别处理系统关键词筛选模块对文本分割后的语句中关键词的分割方法的流程示意图；

图3是本发明一种基于工业控制系统的文本语义识别处理系统语法识别模块中处理后的关键词的词性及对应的位置与语法数据库匹配的方法的流程示意图；

图4是本发明一种基于工业控制系统的文本语义识别处理系统中语法识别模块对关键词的词性判断方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供技术方案：一种基于工业控制系统的文本语义识别处理系统，包括：

当a3小于a2时，对a4的值进行更正，使得a4的值与a3的值相等；

···

S2.(n+2)、判断dn中的语法是否存在且个数唯一，

所述语法识别模块获取的关键词中若存在一个关键词对应多种词性的时候，需要对该关键词的词性进行判断，所述语法识别模块对关键词的词性进行判断的方法包括以下步骤：

C、对该关键词对应的该词性相应的语义进行关键词提取，

D、将步骤A中提取的关键词分别与工业关键词数据库进行匹配，

S3.4、获取步骤S3.3中各组合结果对应的匹配结果，

所述文本语义识别模块获取语法识别模块中对文本中各分割语句语法的识别结果，对识别的语法中各个位置的词性进行判断，将词性根据主次关系分为两类，第一类为主类，包括语法中包含实质性内容的词性，第二类为次类，包括语法中包含修饰性内容的词性，

所述文本语义识别模块获取文本分割后得到的各个标记的序号对应的分割后的语句，按照序号从小到大的顺序对各个标记的序号对应的分割后的语句进行语义识别，分别得到各个标记的序号对应的分割后的语句对应的最终的语义识别结果，并按照序号从小到大的顺序对各个标记的序号对应的分割后的语句对应的最终的语义识别结果进行汇总，

所述人工识别模块在语法识别模块无法获取到分割语句对应的语法时，会自动对该分割语句进行提取，并通过人工识别的方式对该分割语句进行识别，在识别后，人工识别模块会自动记录人工识别过程中分割完成的关键词及各关键词对应的语义、词性，将分割完成的关键词中不存在于关键词分割数据中的关键词提取出来，并添加到关键词分割数据库中，将提取的不存在于关键词分割数据中的关键词添加到关键词解析数据库中的绑定关键词中，将提取的不存在于关键词分割数据中的关键词对应的语义、词性添加到关键词解析数据库中的绑定关键词对应的语义及词性中；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于工业控制系统的文本语义识别处理系统，其特征在于，包括：

当a3小于a2时，对a4的值进行更正，使得a4的值与a3的值相等；

···

S2.(n+2)、判断dn中的语法是否存在且个数唯一，

2.根据权利要求1所述的一种基于工业控制系统的文本语义识别处理系统，其特征在于：所述语法识别模块获取的关键词中若存在一个关键词对应多种词性的时候，需要对该关键词的词性进行判断，所述语法识别模块对关键词的词性进行判断的方法包括以下步骤：

A、对该关键词对应的该词性相应的语义进行关键词提取，

S3.3、分别获取步骤S3.2中不同的组合结果，分别对每种组合结果中各关键词的位置及词性进行分析处理，并将各组合结果中处理后的关键词的词性及对应的位置与语法数据库进行匹配；

S3.4、获取步骤S3.3中各组合结果对应的匹配结果，

3.根据权利要求2所述的一种基于工业控制系统的文本语义识别处理系统，其特征在于：所述文本语义识别模块获取语法识别模块中对文本中各分割语句语法的识别结果，对识别的语法中各个位置的词性进行判断，将词性根据主次关系分为两类，第一类为主类，包括语法中包含实质性内容的词性，第二类为次类，包括语法中包含修饰性内容的词性，

4.根据权利要求3所述的一种基于工业控制系统的文本语义识别处理系统，其特征在于：所述文本语义识别模块获取文本分割后得到的各个标记的序号对应的分割后的语句，按照序号从小到大的顺序对各个标记的序号对应的分割后的语句进行语义识别，分别得到各个标记的序号对应的分割后的语句对应的最终的语义识别结果，并按照序号从小到大的顺序对各个标记的序号对应的分割后的语句对应的最终的语义识别结果进行汇总，

5.根据权利要求4所述的一种基于工业控制系统的文本语义识别处理系统，其特征在于：所述人工识别模块在语法识别模块无法获取到分割语句对应的语法时，会自动对该分割语句进行提取，并通过人工识别的方式对该分割语句进行识别，在识别后，人工识别模块会自动记录人工识别过程中分割完成的关键词及各关键词对应的语义、词性，将分割完成的关键词中不存在于关键词分割数据中的关键词提取出来，并添加到关键词分割数据库中，将提取的不存在于关键词分割数据中的关键词添加到关键词解析数据库中的绑定关键词中，将提取的不存在于关键词分割数据中的关键词对应的语义、词性添加到关键词解析数据库中的绑定关键词对应的语义及词性中；

6.应用权利要求1-5任意一项所述的一种基于工业控制系统的文本语义识别处理系统的基于工业控制系统的文本语义识别处理方法，其特征在于：所述方法包括以下步骤：