CN110533109A

CN110533109A - 一种喷涂生产监测数据的存储及特征分析方法及其装置

Info

Publication number: CN110533109A
Application number: CN201910825861.6A
Authority: CN
Inventors: 王树彬; 李博
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2019-12-03

Abstract

本发明公开一种喷涂生产监测数据的存储及特征分析方法及其装置，该方法包括：补充监测数据中的缺失值，缩放并获得规范化数据；挖掘线性相关性系数，对数据特征筛选；确定网络拓扑结构并构建模型；初始化并确定适应度函数；将个体进行训练；计算个体适应度；判断是否达到进化次数，是则获取最优权值和最优阈值，否则进行选择、交叉以及变异；计算隐含层和输出层的输出值和输出误差；判断输出误差是否满足精度要求，是则将输出值转换为预测结果并输出，否则反向调整每层的权值和阈值。本发明提高数据分析的准确性，降低数据的分析量，提高数据分析及预测的效率，而且降低误差率、最大误差以及平均误差，降低喷涂生产成本，提高喷涂效率以及效果。

Description

一种喷涂生产监测数据的存储及特征分析方法及其装置

技术领域

本发明涉及喷涂生产技术领域的一种特征分析方法，尤其涉及一种喷涂生产监测数据的存储及特征分析方法，还涉及该方法的喷涂生产监测数据的存储及特征分析装置。

背景技术

喷涂作为当前热门的制造技术，广泛应用在各个行业中，包括五金，军事，家具等，用来提升产品的防腐蚀性，抗氧化性。一方面，喷涂所需的高温环境容易引起事故，需要对喷涂环境进行监测。另一方面，由于目前喷涂流程复杂，影响喷涂产品合格率的因素较多，需要对生产数据进行特征分析。

目前，喷涂生产过程中的环境参数调节主要是靠人为的主观猜测，很大一部分是源自管理者依靠工作经验来制定生产方案，缺少科学的判断，在生产中只能在一个范围内去调节相关参数。然而，喷涂工件的质量可以看作是在设备、能耗、环境、原料共同作用下的一个输出结果，每一个因素都有可能对最终的成品造成影响。因此，现有喷涂生产监测数据的分析效果不佳，同时预测的准确性达较低。

发明内容

为解决现有喷涂生产监测数据的分析效果不佳，同时预测的准确性达较低的技术问题，本发明提供一种喷涂生产监测数据的存储及特征分析方法及其装置。

本发明采用以下技术方案实现：一种喷涂生产监测数据的存储及特征分析方法，其包括以下步骤：

步骤S1，对喷涂生产的监测数据进行预处理，且预处理方法包括以下步骤：

步骤S11，补充所述监测数据中的缺失值，并获得完整的监测数据表；

步骤S12，对将所述监测数据表中的数据按照一个预设比例缩放并获得均值为0且标准差为1的规范化数据；

步骤S13，挖掘所述规范化数据之间的线性相关性系数；

步骤S14，根据所述线性相关性系数，确定最优的数据降维算法并对所述规范化数据进行特征筛选，以获取影响喷涂产品合格率的若干特征参数；

步骤S2，对预处理后的数据进行神经网络预测，且神经网络预测方法包括以下步骤：

步骤S21，根据若干特征参数，确定神经网络的网络拓扑结构并构建神经网络模型；

步骤S22，对所述神经网络的权值、阈值进行初始化，并确定适应度函数；

步骤S23，将所述神经网络的权值、阈值进行编码并作为个体，将随机产生的种群中的个体带入一个预设遗传算法中进行训练以调整所述权值和所述阈值，直至训练误差满足一个预设误差或训练次数达到最大迭代次数；

在训练结束后，执行步骤S24，根据所述适应度函数，计算测试样本的个体适应度；

步骤S25，根据所述个体适应度，判断所述训练次数是否达到进化次数；

在所述训练次数达到进化次数时，执行步骤S26，获取最优权值和最优阈值；

在所述训练次数未达到进化次数时，执行步骤S27，对不同个体适应度的个体依次进行选择、交叉以及变异以产生新的个体，并在产生下一代种群后执行步骤S24；

步骤S28，根据所述最优权值和所述最优阈值，计算隐含层和输出层的输出值，并根据所述输出值计算输出层的输出误差；

步骤S29，判断所述输出误差是否满足精度要求；

在所述述输出误差满足所述精度要求时，执行步骤S210，将所述输出值转换为预测结果并输出；

在所述述输出误差不满足所述精度要求时，执行步骤S211，反向调整每层的权值和阈值，并判断实际训练次数是否达到一个预设训练次数；

在所述实际训练次数达到所述预设训练次数时，判定训练结束并执行步骤S210；

在所述实际训练次数未达到所述预设训练次数时，执行步骤S28。

本发明先通过对喷涂生产过程中的监测数据进行预处理，补充数据中的缺失值，进行规范化处理并根据相关性系数对特征进行筛选，避免缺失的数据对分析造成影响，同时减小差异较大的变量之间的影响，而且对数据降维能够降低数据分析的复杂度，消除无用的特征，最后对预处理后的数据进行预测，并通过将遗传算法融合神经网络的方式进行数据预测，解决了现有喷涂生产监测数据的分析效果不佳，同时预测的准确性达较低的技术问题，得到了数据分析效果好、预测精度高，还能够提高更快的提高个体的适应度，而且降低了误差率、最大误差以及平均误差的技术效果。

作为上述方案的进一步改进，所述神经网络模型的构建方法包括以下步骤：

(1)确定所述网络拓扑结构的网络层数；

(2)将若干特征参数的特征值作为输入层节点数，并确定输出层和隐含层的层数；其中，所述隐含层节点的确认公式为：

式中，n为所述特征参数的数量，m为所述输出层的神经元数量，a为1-10之间的常数；

(3)通过观测损失的变化趋势，选取损失最小时的批尺寸；

(4)定义所述神经网络的激活函数；其中，所述激活函数作为神经元的上一层输入，且神经元输出max(0,w^Tx+b)到下一层神经元；所述激活函数为：

(5)选择学习和训练的参数，以确定所述网络拓扑结构的初始权值和学习速率。

作为上述方案的进一步改进，所述输出误差的计算方法包括以下步骤：

(1)定义所述隐含层的输入函数为：

(2)根据h_i(k)，计算所述隐含层的输出值：

(3)定义所述输入层的输出向量为：

(4)根据y₀(k)，计算所述输入层的输入向量：

(5)根据h₀(k)和y_i(k)，计算所述输出值与期望值误差：

(6)根据所述隐含层到所述输出层的连接权值w_h0，所述输出层中每个节点的误差e₀(k)以及所述隐含层的输出向量h₀(k)，计算所述隐含层中每个节点之间的误差：

(7)根据所述输出层的节点误差e₀(k)和所述隐含层的输出向量h₀(k)，对w_h0以及神经元之间的阈值进行调整：

w_ij(N+1)＝w_ij(N)+βe_h(k)·x_i

b_h(N+1)＝b_h(N)+βe_h(k)

(8)计算所述输出误差：

其中，w_ij、w_jk为初始化连接权值，b₀为所述隐含层阈值，b₁为所述输出层阈值；η是学习速率。

作为上述方案的进一步改进，对个体进行选择的方法包括以下步骤：

(1)计算个体的当前适应度：

式中，F_i为个体的个体适应度，k为系数，x_i表示个体；

(2)根据所述当前适应度，计算个体被选中的概率：

(3)对个体被选中的概率进行累加，获得累加概率：

(4)在(0,1)中产生随机数r，并判断随机数r是否小于等于q_i，是则个体x_i被选中，否则判断系数k是否满足q_k-1≤r≤q_k(2≤k≤N)，是则个体x_k被选，并在选择完成后进行交叉。

作为上述方案的进一步改进，对个体进行交叉的方法包括以下步骤：

(1)设定交叉概率p，并从种群中随机抽取两个个体进行交叉；

(2)生成(0,1)中的一个随机数s，并在s＞p时，停止交叉；

(3)生成在个体长度范围内的随机数，并作为个体的交叉位置j；

(4)计算交叉后的两个个体在位置j处的值：

a_kj＝a_kj(1-b)+a_lib

a_lj＝a_lj(1-b)+a_kjb

式中，b取(0,1)之间产生的随机数，a为将种群的相关信息进行存储形成矩阵；

(5)判断交叉后的a_kj和a_ij是否处在(-1,1)的范围之内，是则完成交叉并进行变异，否则重新进行交叉。

进一步地，对个体进行变异的方法包括以下步骤：

(1)设定变异的概率q，并从种群中随机抽取个体x；

(2)生成(0,1)中的一个随机数h，并在h>q时，停止进行变异，否则进行变异；

(3)计算变异后的个体x在位置j处的值：

式中，a_max基因a_ij的最大值，a_min是基因a_ij的最小值，r是(0,1)之间的随机数；

下一代种群的激活函数为：

其中，g为当前的迭代次数，r₂为一个随机数，G_max为进化次数。

作为上述方案的进一步改进，所述适应度函数为：

式中，n为网络的输出节点，y_i为所述神经网络的第i个点的期望输出，o_i为第i个节点的预测输出值。

作为上述方案的进一步改进，所述规范化数据的获取公式为：

式中，是原始数据的均值，σ为数据的标准差；

所述线性相关性系数的挖掘公式为：

式中，X，Y代表两个规范化数据；E代表数学期望，cov代表协方差，N为变量的个数。

作为上述方案的进一步改进，在步骤S11中，通过拉格朗日插值法补充所述缺失值；

在步骤S14中，筛选特征的参数估计公式为：

式中，α为正则化因子，为惩罚项；

最优的正则化因子的确定方法包括以下步骤：首先通过网络搜索以寻找所有的正则化因子，其次将数据切分为k份，然后对每份数据做一次验证，并将剩下的k-1组数据作为k个模型，最后通过k个模型最终产生的验证集，分类准确率的平均值以作为特征筛选的评价指标。

本发明还提供一种喷涂生产监测数据的存储及特征分析装置，其应用上述任意所述的喷涂生产监测数据的存储及特征分析方法，其包括：

预处理模块，其用于对喷涂生产的监测数据进行预处理，且包括缺失值处理单元、规范化单元、相关性检验单元、数据降维单元；所述缺失值处理单元用于补充所述监测数据中的缺失值，并获得完整的监测数据表；所述规范化单元用于对将所述监测数据表中的数据按照一个预设比例缩放并获得均值为0且标准差为1的规范化数据；所述相关性检验单元用于挖掘所述规范化数据之间的线性相关性系数；所述数据降维单元用于根据所述线性相关性系数，确定最优的数据降维算法并对所述规范化数据进行特征筛选，以获取影响喷涂产品合格率的若干特征参数；以及

神经网络预测模块，其用于对预处理后的数据进行神经网络预测，且包括模型构建单元、初始化单元、训练单元、计算单元一、判断单元一、最优获取单元、新个体产生单元、计算单元二、判断单元二、转换单元、反向调整单元以及训练判定单元；所述模型构建单元用于根据若干特征参数，确定神经网络的网络拓扑结构并构建神经网络模型；所述初始化单元用于对所述神经网络的权值、阈值进行初始化，并确定适应度函数；所述训练单元用于将所述神经网络的权值、阈值进行编码并作为个体，将随机产生的种群中的个体带入一个预设遗传算法中进行训练以调整所述权值和所述阈值，直至训练误差满足一个预设误差或训练次数达到最大迭代次数；在所述训练单元训练结束后，所述计算单元一用于根据所述适应度函数，计算测试样本的个体适应度；所述判断单元一用于根据所述个体适应度，判断所述训练次数是否达到进化次数；在所述训练单元的训练次数达到进化次数时，所述最优获取单元用于获取最优权值和最优阈值；在所述训练次数未达到进化次数时，所述新个体产生单元用于对不同个体适应度的个体依次进行选择、交叉以及变异以产生新的个体，并在产生下一代种群后启动所述计算单元一；所述计算单元二用于根据所述最优权值和所述最优阈值，计算隐含层和输出层的输出值，并根据所述输出值计算输出层的输出误差；所述判断单元二用于判断所述输出误差是否满足精度要求；在所述述输出误差满足所述精度要求时，所述转换单元将所述输出值转换为预测结果并输出；在所述述输出误差不满足所述精度要求时，所述反向调整单元用于反向调整每层的权值和阈值，并判断实际训练次数是否达到一个预设训练次数；在所述实际训练次数达到所述预设训练次数时，所述训练判定单元判定训练结束并启动所述转换单元；在所述实际训练次数未达到所述预设训练次数时，启动所述计算单元二。

相较于现有的监测数据的特征分析方法，本发明的喷涂生产监测数据的存储及特征分析方法及其装置具有以下有益效果：

1、该喷涂生产监测数据的存储及特征分析方法，其对喷涂生产过程中的监测数据进行预处理。首先，该方法对数据进行缺失值补充处理，这样能够形成完整的监测数据表，避免缺失数据对后续分析造成影响，提高数据分析的全面性。其次，该方法对监测数据表中的数据进行缩放，并获得规范化数据，避免由于数据较多、各个指标之间的差异较大而影响后续分析结果，从而提高后续数据分析的准确性。最后，进行相关性检验并根据相关性对数据特征进行筛分以降维，降低在数据维度较高时而造成分析时维数膨胀所产生的数据量，避免无用数据特征对后续训练造成影响，从而提高数据分析的准确性，降低数据的分析量，提高数据分析及预测的效率。

2、该喷涂生产监测数据的存储及特征分析方法，其在数据预处理完成后，对数据进行神经网络预测，从而通过多次的输入以及多层隐含层的计算，动态的调整信息使得其可以处理复杂的信息，同时内部的神经元负责连接整个神经网络，即使有部分神经元遭到破坏也不会对网络整体的性能造成太大的影响，提高数据分析的准确性。而且，由于现有的BP神经网络在训练过程中将阈值和权值初始为[0,1]之间的随机数，未经优化的网络结构会使其收敛速度下降，导致模型变差，而本发明的方法选择适应度最小时候的进化代数，之后以BP神经网络的阈值和权值进行编码作为个体，将种群中的个体带入到遗传算法中进行训练对权值和阈值进行不断调整，当满足训练误差或到达最大迭代次数时，训练结束并对测试样本计算个体的适应度。若进化尚未结束则继续产生后代，这时会通过选择，交叉，变异的操作产生新的种群，新的种群仍然需要对个体的适应度进行计算，直到进化完成，当进化完成时便可以将最优值带入神经网络中训练，对结果进行归一化还原即可以输出新的结果，从而获得更加准确的预测效果，还能够提高更快的提高个体的适应度，而且降低了误差率、最大误差以及平均误差，进而降低喷涂的生产成本，提高喷涂效率以及效果。

附图说明

图1为本发明实施例1的喷涂生产监测数据的存储及特征分析方法的流程图；

图2为图1所示的存储及特征分析方法中所有正则化因子的均方误差的变化图；

图3为本发明实施例1中人工神经网络的神经元模型图；

图4为本发明实施例1中神经网络训练过程的流程图；

图5为本发明实施例1中遗传算法执行过程的流程图；

图6为图1所示的存储及特征分析方法将神经网络优化后的总体流程示意图；

图7为图1所示的存储及特征分析方法中批尺寸大小与损失的关系图；

图8为图1所示的存储及特征分析方法中激活函数的示意图；

图9为图1所示的存储及特征分析方法所构建的模型中隐藏层节点为7的拟合效果图；

图10为图1所示的存储及特征分析方法所构建的模型中隐藏层节点为8的拟合效果图；

图11为图1所示的存储及特征分析方法所构建的模型中隐藏层节点为9的拟合效果图；

图12为图1所示的存储及特征分析方法所构建的模型中隐藏层节点为10的拟合效果图；

图13为图1所示的存储及特征分析方法所构建的模型中隐藏层节点为11的拟合效果图；

图14为图1所示的存储及特征分析方法所构建的模型中隐藏层节点为12的拟合效果图；

图15为图1所示的存储及特征分析方法中进化代数与适应度的变化关系图；

图16为图1所示的存储及特征分析方法的神经网络预测结果示意图；

图17为图1所示的存储及特征分析方法的误差率对比图；

图18为图1所示的存储及特征分析方法的误差值对比图；

图19为本发明实施例2的喷涂生产监测数据的存储及特征分析方法的数据分桶模型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本案发明人通过调研发现，喷涂车间每日产量相对比较大。在调研的时候发现不合格的产品基本上都是外观不合格，因此对外观质量做数据挖掘与分析。统计外观不合格的产品发现日生产波动明显，缺乏稳定性。请参阅表1，该表统计了一周内的产品质检不合格的产品数据。

表1一周产品统计结果表

通过上表计算可得6种产品不合格产品相关的均值与标准差，如表2所示。

表2 6种产品不合格品率均值与标准差统计表

通过表2发现，产品的质量不稳定性表现较差，而生产环节工艺流程较复杂，生产中可能某一环节已经出现了差错可生产还在进行，这样就造成了资源的浪费以及成本的提高。因此本实施例针对这个问题将内容分成两部分。第一部分的任务是从众多生产环节的因素中找出影响产品合格率最重要的因素，筛选出这些参数；第二部分则是利用这些参数做不合格率预测，利用得到的不合格品率可以帮助生产管理人员做决策支持，调整方案。

基于上述发现，请参阅图1，本实施例提供了一种喷涂生产监测数据的存储及特征分析方法，该方法可以对喷涂生产过程中产生的监测数据进行特征分析。这里需要说明的是，监测数据可以通过其他装置或设备进行测量，例如通过多个温度传感器分别检测热水洗温度、预脱脂温度等信息，通过PH传感器检测酸洗PH值，而本实施例的方法用于对这些数据进行存储及特征分析。该喷涂生产监测数据的存储及特征分析方法包括以下步骤(步骤S1-S2)。

步骤S1，对喷涂生产的监测数据进行预处理。其中，对监测数据进行预处理方法包括以下步骤(步骤S11-S14)。

步骤S11，补充监测数据中的缺失值，并获得完整的监测数据表。缺失的数据被分成两大类，分为完全随机缺失以及随机缺失，其中前者是指随机的，不依赖于变量的缺失，并不是指数据全部丢失。相反的，随机缺失则是说受到一些变量的影响才造成数据的缺失。在本实施例中，通过拉格朗日插值法补充缺失值，在其他一些实施例中，通过完整分析法或平均值填补进行补充。完整分析法将缺失的数据直接删除掉，利用剩余的部分值来做数据数据处理；平均值填补法是求出所有数据的平均值，用这个平均值来填补空缺的数据。

拉格朗日插值法是通过平面上的n个点确定一个n-1次多项式，令这n个点经过这条多项式函数曲线，通过求解方程的形式得到空缺值。请参阅图以及图，本实施例为进行介绍，仅导出作为介绍所使用的一个数据表，可以发现数据存在缺失情况，以前20条为例(由于数据量显示问题，因此选前20条数据呈现，下不赘述)可以看到有多条数据是空白的(温度单位均为摄氏度)。而本实施例中，利用python编写拉格朗日算法判断空值的插入函数之后会生成一张补充好数据的全新监测数据表。

步骤S12，对将监测数据表中的数据按照一个预设比例缩放并获得均值为0且标准差为1的规范化数据。通常当数据较多时，不同数据在各个指标下的量纲以及度量单位是不同的，当各个指标之间的差异超出一定范围时，直接用原始的指标分析进行分析会对结果造成很大的影响，因此要将数据进行规范化，将所有的数据固定在一定的区间之内，避免数量相差过大的数据对分析结果造成影响。在本实施例中，采用的数据共有450组，包含的数据变量有14种，变量与变量之间具有不同的含义，例如热水洗温度，酸洗PH值，电压等数据，同时由于不同的变量之间差异较大，如果不进行处理可能会对最终的数据分析结果造成影响，为了便于我们理解与解释，因此要对数据进行规范化处理，按照一定比例缩放到一定的程度，使其落在一个合适的区域。

在本实施例中，通过零-均值规范化对数据进行规范化，读取数据之后导出一张新的表，而且规范化数据的获取公式为：

式中，是原始数据的均值，σ为数据的标准差。规范化数据中所有的数据已经被规范到均值为0，标准差为1的范围内，缩小了由于数据单位造成的数值范围波动较大的情况。由于输送链的运行速度一直采用了一个固定值，因此输送链的速度被默认清除，不计入影响因素，后面的分析将删除此变量，缩小了由于数据单位造成的数值范围波动较大的情况。

其他一些实施例中，还可以通过最小-最大规范化或对数规范化将数据规范化。最小-最大规范化通过对原始数据进行线性变换，经过变换后的数据会映射到[0,1]之间，规范化公式如下：

确定样本中的最小值与最大值，则二者的差便是样本的极差。这种方法保留了数据中原本存在的关系，在数据规范化中属于比较简单方便的方法。但是，这种方法的缺点是如果数据集中存在某个数特别大，则规范化后的各值有可能造成接近0并且相差不大的现象。

对数规范化主要解决数据倾斜程度，使得原本密集或疏散的数据朝着中间的方向聚集，减少数据的稀疏程度，稳定数据的方差，使数据保持正态分布，常用在浏览量与点击量的处理中。其中，规范化公式为：y＝log_c(1+λx)

步骤S13，挖掘规范化数据之间的线性相关性系数。在本实施例中，线性相关性系数的挖掘公式为：

式中，X，Y代表两个规范化数据；E代表数学期望，cov代表协方差，N为变量的个数。该挖掘公式能够将相关性定位到[-1,1]这个区间内，负值表示负相关，正值表示正相关，越接近0代表相关性越差。因此在对数据进行预处理时，相关性的检验是重要的一步。在本实施例中，通过检验可知，有一部分数据具有线性关系，而一部分的数据之间是不具备线性关系的，有可能是其他的关系，因此在后面的处理中不能将数据统一当作线性关系。

步骤S14，根据线性相关性系数，确定最优的数据降维算法并对规范化数据进行特征筛选，以获取影响喷涂产品合格率的若干特征参数。上述数据特征筛选的过程也是数据降维的过程，当数据的因变量过多时，通常称其为高维数据，数据会表现为在空间中十分稀疏，在分析的时候通常会遇到维数的膨胀，而随着维数的增长，所需要的数据样本可能会呈现指数型的增长，此时将许多无用的特征作为训练时的一部分会导致模型结果变差，准确率降低。在本实施例中，通过给模型添加一个惩罚项使得变量稀疏化得到一个新的模型，将回归系数收缩为0进行压缩，得到特征相对较少同时也比较精准的模型，达到筛选变量的目的。其中，筛选特征的参数估计公式为：

式中，α为正则化因子，为惩罚项。

在本实施例中，最优的正则化因子的确定方法包括以下步骤：首先通过网络搜索以寻找所有的正则化因子，其次将数据切分为k份，然后对每份数据做一次验证，并将剩下的k-1组数据作为k个模型，最后通过k个模型最终产生的验证集，分类准确率的平均值以作为特征筛选的评价指标。

在上述输入的数据的基础上，本实施例最终选择正则化因子为0.01，如图2所示，该曲线为所有正则化因子的均方误差的变化曲线，可以看到在0.01时均方误差达到最小。确定好参数之后进行参数设置，导入数据进行变量筛选并得到下表，可以得到其中一部分变量系数为0，达到筛选变量的目的。

表3筛选变量表

特征	回归系数	特征	回归系数
				热水洗温度	0.0375	烘干温度	0
预脱脂温度	0.0295	喷粉电压	-0.0108
				沉浸脱脂温度	0	喷粉电流	0
沉浸脱脂游离碱度	0	雾化气压	0
				酸洗PH值	0.0095	喷枪与工件距离	0
磷化液游离酸度	0	粉房环境湿度	0.0187
				固化温度	-0.0225

步骤S2，对预处理后的数据进行神经网络预测。人工神经网络与人脑中的神经系统类似，对主要的网络结构命名为神经元以及突触。人工神经网络可以逼近非线性的函数同时具有较强的学习能力，主要组成部分是神经元，如图3所示，包含以下几部分。

(a)连接：对不同的输入信号给与不同的权值，之后将它们连接在一起，权值如果为正则表示激活，否则表示抑制。

(b)求和器：对赋予了权值之后的输入信号以相加的形式整合到一起。

(c)激活函数：激活函数用来将非线性问题转化为线性问题来求解，当给激活函数一个阈值b_k，对于取正的部分可以增加模型的输入，而对于取负的部分则可以抑制其输入。

请参阅图4和、图5以及图6，本实施例结合BP神经网络算法和遗传算法进行设计。其中，对数据进行神经网络预测的方法包括以下步骤(步骤S21-S211)。

步骤S21，根据若干特征参数，确定神经网络的网络拓扑结构并构建神经网络模型，还可以设置网络初始值。在本实施例中，神经网络模型的构建方法包括以下步骤：

(1)确定网络拓扑结构的网络层数；在BP神经网络中，通常隐藏层为一层时便能够接近闭区间内的连续函数，因此决定采用输入层，隐含层，输出层各一层的三层网络结构；隐含层的层数在选择时可以选择一层或多层，不同的层数会对预测结果造成不同的影响；隐含层所起的作用是对外部的输入信息进行筛选得到相互独立的信息，之后将它们组合成输出向量以实现信息从输入映射到输出；

(2)将若干特征参数的特征值作为输入层节点数，并确定输出层和隐含层的层数；节点如果选择太小的化会造成网络获取不到足够的信息使模型的拟合效果变差，节点如果选择太多的话则在训练的过程中会出现容错性较差甚至会有过拟合的现象；其中，隐含层节点的确认公式为：

式中，n为特征参数的数量，m为输出层的神经元数量，a为1-10之间的常数；在本实施例中，s为4-12之间的常数，通常从中间位置开始取数，之后可以通过试凑法来寻找最优s；

本实施例进行了相关实验，并取450组数据，其中400组为训练集，50组为测试集，通过平均绝对百分比误差(MAPE)来确定此模型中隐含层中节点的数量，如下式所示：

其中，N为预测样本的个数，z_i是实际结果，Z_i是模型的输出结果；

(3)通过观测损失的变化趋势，选取损失最小时的批尺寸；该参数主要用在批梯度下降中，合理的调节批尺寸可以提高内存利用率，减少迭代次数，通常选择8的倍数作为批尺寸的数值，选择一部分数据，通过观察损失是否变小来确定批尺寸的值，最终如图7所示，当批尺寸为16时损失达到最小；

(4)定义神经网络的激活函数，该函数若输入值小于0，则输出为0，若输入值大于0，则输出等于输入值；其中，激活函数作为神经元的上一层输入，且神经元输出max(0,w^Tx+b)到下一层神经元；激活函数的图像如图8所示，并且该函数的表达式为：

(5)选择学习和训练的参数，以确定网络拓扑结构的初始权值和学习速率。在训练时首先确定初始的权值和学习速率等参数，通常在(-1，1)之间产生一个随机数作为初始权值。学习速率决定每次训练时BP神经网络权值的变化量，本实施例中选定学习速率为0.01。训练次数为5000次，当误差的起伏变化超过10次时则训练提前停止，防止过拟合现象的产生。

由上可知，需要确定隐含层中不同数量的节点对最终效果的影响。因此取当隐含层节点数量分别为7，8，9，10，11，12进行测试。确认好相应的参数之后便可以导入数据进行模型的训练，本文共有450组数据，每一组数据代表在每隔一个生产周期，相应的生产环境下每一批产品的不合格率，选用前400组训练，后50组进行测试。

当隐藏层节点数量为7时，如图9所示模型的拟合效果很差，出现了节点数量较小时发生的欠拟合现象，MAPE值经计算得到为38.546％。

当隐藏层节点数量为8时，如图10所示，相比之前精度略有提高但是效果还是不理想，MAPE值为27.852％。

当隐藏层节点数量为9和10时，模型的拟合程度如图11和图12所示，相比之前拟合程度更佳，MAPE值分别为22.348％和18.825％，误差随着隐藏层节点数量的增多在逐渐减小。

当隐藏层节点为11和12时，模型的拟合程度分别如图13和图14所示，此时MAPE值为22.485％和25.561％，误差随着隐藏层节点数量的增多又有所上升，表明模型的预测效果相比之前有所下降。

步骤S22，对神经网络的权值、阈值进行初始化，并确定适应度函数。其中，适应度函数是用来判断个体的标准，在本模型中，个体是BP神经网络的权值与阈值，经过训练之后可以将训练后的网络用于测试集，误差越小则个体越优。在与BP神经网络融合时将此函数设置为输出结果与目的输出之间产生的误差绝对值的和F，本实施例的适应度函数定义为：

式中，n为网络的输出节点，y_i为神经网络的第i个点的期望输出，o_i为第i个节点的预测输出值。

步骤S23，将神经网络的权值、阈值进行编码并作为个体，将随机产生的种群中的个体带入一个预设遗传算法中进行训练以调整权值和阈值，直至训练误差满足一个预设误差或训练次数达到最大迭代次数。

在训练结束后，执行步骤S24，根据适应度函数，计算测试样本的个体适应度。

步骤S25，根据个体适应度，判断训练次数是否达到进化次数。

在训练次数达到进化次数时，执行步骤S26，获取最优权值和最优阈值。

在训练次数未达到进化次数时，执行步骤S27，对不同个体适应度的个体依次进行选择、交叉以及变异以产生新的个体，并在产生下一代种群后执行步骤S24。在本实施例中，利用轮盘赌法来做选择，这种方法可以想象成在一个圆形轮盘中，不同适应度的个体占有不同的面积，适应度大的则面积大，被选中的概率就高。对个体进行选择的方法包括以下步骤：

(1)计算个体的当前适应度：

式中，F_i为个体的个体适应度，k为系数，x_i表示个体；

(2)根据当前适应度，计算个体被选中的概率：

(3)对个体被选中的概率进行累加，获得累加概率：

种群会交叉产生新的个体，将搜索空间一步步扩大，最后实现全局搜索。交叉时会选择两个个体的基因，按照一定的概率完成交叉产生新的个体。本实施例中对个体进行交叉的方法包括以下步骤：

(1)设定交叉概率p，并从种群中随机抽取两个个体进行交叉；

(2)生成(0,1)中的一个随机数s，并在s＞p时，停止交叉；

(4)计算交叉后的两个个体在位置j处的值：

a_kj＝a_kj(1-b)+a_lib

a_lj＝a_lj(1-b)+a_kjb

为了维持种群的多样性，可以使用变异的算子来产生新的个体。随机的从种群中选择出一个个体作为变异对象，之后再随机的改变该个体某个位置的值。在本实施例中，对个体进行变异的方法包括以下步骤：

(1)设定变异的概率q，并从种群中随机抽取个体x；

(3)计算变异后的个体x在位置j处的值：

下一代种群的激活函数为：

步骤S28，根据最优权值和最优阈值，计算隐含层和输出层的输出值，并根据输出值计算输出层的输出误差。在本实施例中，输出误差的计算方法包括以下步骤：

(1)定义隐含层的输入函数为：

(2)根据h_i(k)，计算隐含层的输出值：

(3)定义输入层的输出向量为：

(4)根据y₀(k)，计算输入层的输入向量：

(5)根据h₀(k)和y_i(k)，计算输出值与期望值误差：

(6)根据隐含层到输出层的连接权值w_h0，输出层中每个节点的误差e₀(k)以及隐含层的输出向量h₀(k)，计算隐含层中每个节点之间的误差：

(7)根据输出层的节点误差e₀(k)和隐含层的输出向量h₀(k)，对w_h0以及神经元之间的阈值进行调整：

w_ij(N+1)＝w_ij(N)+βe_h(k)·x_i

b_h(N+1)＝b_h(N)+βe_h(k)

(8)计算输出误差：

其中，w_ij、w_jk为初始化连接权值，b₀为隐含层阈值，b₁为输出层阈值；η是学习速率。

步骤S29，判断输出误差是否满足精度要求。在述输出误差满足精度要求时，执行步骤S210，将输出值转换为预测结果并输出。在述输出误差不满足精度要求时，执行步骤S211，反向调整每层的权值和阈值，并判断实际训练次数是否达到一个预设训练次数。在实际训练次数达到预设训练次数时，判定训练结束并执行步骤S210。在实际训练次数未达到预设训练次数时，执行步骤S28。

在本实施例中，设定初始化种群大小为30，交叉概率为0.8，变异概率为0.5。请参阅图15，可以看到当进化代数为80时，适应度达到最优并且不再变化，能够更快的提高个体的适应度。本实施例最终得到如图16所示的结果，此时平均绝对值误差达到7.152％，可以发现相比神经网络预测的精度得到了提升。请参阅图17和图18，通过对比可以发现在优化后的模型中，误差率，最大误差以及平均误差方面相比之前均有所减小。

综上所述，本实施例的喷涂生产监测数据的存储及特征分析方法具有以下优点：

2、该喷涂生产监测数据的存储及特征分析方法，其在数据预处理完成后，对数据进行神经网络预测，从而通过多次的输入以及多层隐含层的计算，动态的调整信息使得其可以处理复杂的信息，同时内部的神经元负责连接整个神经网络，即使有部分神经元遭到破坏也不会对网络整体的性能造成太大的影响，提高数据分析的准确性。而且，由于现有的BP神经网络在训练过程中将阈值和权值初始为[0,1]之间的随机数，未经优化的网络结构会使其收敛速度下降，导致模型变差，而本实施例的方法选择适应度最小时候的进化代数，之后以BP神经网络的阈值和权值进行编码作为个体，将种群中的个体带入到遗传算法中进行训练对权值和阈值进行不断调整，当满足训练误差或到达最大迭代次数时，训练结束并对测试样本计算个体的适应度。若进化尚未结束则继续产生后代，这时会通过选择，交叉，变异的操作产生新的种群，新的种群仍然需要对个体的适应度进行计算，直到进化完成，当进化完成时便可以将最优值带入神经网络中训练，对结果进行归一化还原即可以输出新的结果，从而获得更加准确的预测效果，还能够提高更快的提高个体的适应度，而且降低了误差率、最大误差以及平均误差，进而降低喷涂的生产成本，提高喷涂效率以及效果。

实施例2

本实施例提供了一种喷涂生产监测数据的存储及特征分析方法，该方法在实施例1的基础上增加步骤S0。其中，步骤S0：通过云服务器对监测数据进行存储。在本实施例中，云服务器优选阿里云服务器，而且通过Node.js和Express.js框架搭建开发环境。请参阅图19，本实施例中采用非关系型数据库MongoDB进行分布式文件存储。从工件加工到存储数据的过程中会有大量的传感器采集当前的信息，这类传感器设备时时监测，均会以一定频率不间断的去发送数据产生数据流。MongoDB数据库中会以文档的形式进行存储，如果说每产生一条传感数据就会以一个文档的方式进行存储那么就会产生大量文档，每天会形成大量的文档数据，而且随着日后采样频率和采集设备的增多，文档的数量更会以一定的趋势上升。这个时候就要用到MongoDB数据库的内嵌功能，其支持数组内嵌，因此这些数据可以采用分桶化存储模型，如图所示。要存储的数据是基于时间序列的数据模型，按照每小时为一个文档进行存储，一段频率内产生的数据会以数组内嵌的方式写入到文档中，增加一个平均值的字段，每过一小时生成的文档通过聚合的方式计算出一个平均值进行存储，提高查询效率。

实施例3

本实施例提供了一种喷涂生产监测数据的存储及特征分析装置，该装置应用实施例1或实施2中的喷涂生产监测数据的存储及特征分析方法，而且包括预处理模块和神经网络预测模块。

预处理模块用于对喷涂生产的监测数据进行预处理，且包括缺失值处理单元、规范化单元、相关性检验单元、数据降维单元。缺失值处理单元用于补充监测数据中的缺失值，并获得完整的监测数据表。规范化单元用于对将监测数据表中的数据按照一个预设比例缩放并获得均值为0且标准差为1的规范化数据。相关性检验单元用于挖掘规范化数据之间的线性相关性系数。数据降维单元用于根据线性相关性系数，确定最优的数据降维算法并对规范化数据进行特征筛选，以获取影响喷涂产品合格率的若干特征参数。

神经网络预测模块用于对预处理后的数据进行神经网络预测，而且包括模型构建单元、初始化单元、训练单元、计算单元一、判断单元一、最优获取单元、新个体产生单元、计算单元二、判断单元二、转换单元、反向调整单元以及训练判定单元。模型构建单元用于根据若干特征参数，确定神经网络的网络拓扑结构并构建神经网络模型。初始化单元用于对神经网络的权值、阈值进行初始化，并确定适应度函数。训练单元用于将神经网络的权值、阈值进行编码并作为个体，将随机产生的种群中的个体带入一个预设遗传算法中进行训练以调整权值和阈值，直至训练误差满足一个预设误差或训练次数达到最大迭代次数。在训练单元训练结束后，计算单元一用于根据适应度函数，计算测试样本的个体适应度。判断单元一用于根据个体适应度，判断训练次数是否达到进化次数。在训练单元的训练次数达到进化次数时，最优获取单元用于获取最优权值和最优阈值。在训练次数未达到进化次数时，新个体产生单元用于对不同个体适应度的个体依次进行选择、交叉以及变异以产生新的个体，并在产生下一代种群后启动计算单元一。计算单元二用于根据最优权值和最优阈值，计算隐含层和输出层的输出值，并根据输出值计算输出层的输出误差。判断单元二用于判断输出误差是否满足精度要求。在述输出误差满足精度要求时，转换单元将输出值转换为预测结果并输出。在述输出误差不满足精度要求时，反向调整单元用于反向调整每层的权值和阈值，并判断实际训练次数是否达到一个预设训练次数。在实际训练次数达到预设训练次数时，训练判定单元判定训练结束并启动转换单元。在实际训练次数未达到预设训练次数时，启动计算单元二。

实施例4

本实施例提供一种计算机终端，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。处理器执行程序时实现实施例1的喷涂生产监测数据的存储及特征分析方法的步骤。

实施例1的方法在应用时，可以软件的形式进行应用，如设计成独立运行的程序，安装在计算机终端上，计算机终端可以是电脑、智能手机、控制系统以及其他物联网设备等。实施例1的方法也可以设计成嵌入式运行的程序，安装在计算机终端上，如安装在单片机上。

实施例5

本实施例提供一种计算机可读存储介质，其上存储有计算机程序。程序被处理器执行时，实现实施例1的喷涂生产监测数据的存储及特征分析方法的步骤。

实施例1的方法在应用时，可以软件的形式进行应用，如设计成计算机可读存储介质可独立运行的程序，计算机可读存储介质可以是U盘，设计成U盾，通过U盘设计成通过外在触发启动整个方法的程序。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种喷涂生产监测数据的存储及特征分析方法，其特征在于，其包括以下步骤：

步骤S13，挖掘所述规范化数据之间的线性相关性系数；

步骤S23，将所述神经网络的权值、阈值进行编码并作为个体，将随机产生的种群中的个体带入到一个预设遗传算法中进行训练以调整所述权值和所述阈值，直至训练误差满足一个预设误差或训练次数达到最大迭代次数；

步骤S29，判断所述输出误差是否满足精度要求；

在所述输出误差满足所述精度要求时，执行步骤S210，将所述输出值转换为预测结果并输出；

在所述输出误差不满足所述精度要求时，执行步骤S211，反向调整每层的权值和阈值，并判断实际训练次数是否达到一个预设训练次数；

2.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，所述神经网络模型的构建方法包括以下步骤：

(1)确定所述网络拓扑结构的网络层数；

(3)通过观测损失的变化趋势，选取损失最小时的批尺寸；

3.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，所述输出误差的计算方法包括以下步骤：

(1)定义所述隐含层的输入函数为：

(2)根据h_i(k)，计算所述隐含层的输出值：

(3)定义所述输入层的输出向量为：

(4)根据y₀(k)，计算所述输入层的输入向量：

(5)根据h₀(k)和y_i(k)，计算所述输出值与期望值误差：

w_ij(N+1)＝w_ij(N)+βe_h(k)·x_i

b_h(N+1)＝b_h(N)+βe_h(k)

(8)计算所述输出误差：

4.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，对个体进行选择的方法包括以下步骤：

(1)计算个体的当前适应度：

式中，F_i为个体的个体适应度，k为系数，x_i表示个体；

(2)根据所述当前适应度，计算个体被选中的概率：

(3)对个体被选中的概率进行累加，获得累加概率：

5.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，对个体进行交叉的方法包括以下步骤：

(1)设定交叉概率p，并从种群中随机抽取两个个体进行交叉；

(2)生成(0,1)中的一个随机数s，并在s＞p时，停止交叉；

(4)计算交叉后的两个个体在位置j处的值：

a_kj＝a_kj(1-b)+a_lib

a_lj＝a_lj(1-b)+a_kjb

6.如权利要求5所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，对个体进行变异的方法包括以下步骤：

(1)设定变异的概率q，并从种群中随机抽取个体x；

(3)计算变异后的个体x在位置j处的值：

下一代种群的激活函数为：

7.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，所述适应度函数为：

8.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，所述规范化数据的获取公式为：

式中，是原始数据的均值，σ为数据的标准差；

所述线性相关性系数的挖掘公式为：

9.如权利要求1所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，在步骤S11中，通过拉格朗日插值法补充所述缺失值；

在步骤S14中，筛选特征的参数估计公式为：

式中，α为正则化因子，为惩罚项；

10.一种喷涂生产监测数据的存储及特征分析装置，其应用于如权利要求1-9中任意一项所述的喷涂生产监测数据的存储及特征分析方法，其特征在于，其包括：