CN116628623A - 基于smt质量大数据的高维特征重构与融合方法 - Google Patents
基于smt质量大数据的高维特征重构与融合方法 Download PDFInfo
- Publication number
- CN116628623A CN116628623A CN202310590118.3A CN202310590118A CN116628623A CN 116628623 A CN116628623 A CN 116628623A CN 202310590118 A CN202310590118 A CN 202310590118A CN 116628623 A CN116628623 A CN 116628623A
- Authority
- CN
- China
- Prior art keywords
- data
- sae
- feature
- data set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 7
- 238000004519 manufacturing process Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013075 data extraction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 32
- 230000004913 activation Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 20
- 210000002569 neuron Anatomy 0.000 claims description 16
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 claims description 10
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 229940060587 alpha e Drugs 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000007639 printing Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims 2
- 229910052757 nitrogen Inorganic materials 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000002759 z-score normalization Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 description 16
- 230000007547 defect Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Manufacturing & Machinery (AREA)
Abstract
本发明公开一种基于SMT质量大数据的高维特征重构与融合方法,主要解决现有技术中数据利用率低,特征维数过少和预测模型准确率低的问题。其实现方案为:对SMT产线文本数据集及结构化数据集进行预处理;构建并训练文本数据特征提取模型,得到文本数据提取特征;构建结构化数据特征提取模型,得到结构化数据提取特征;合并及去重文本数据和结构化数据提取的特征;采用堆栈式自编码器及基于均方误差与平均绝对百分比误差结合的方法对所提取的特征进行重构与融合。本发明提高了SMT企业数据的利用率,实现了文本数据与结构化数据的融合,数据维度提升到了50维以上,提高了模型的准确率,可用于对SMT产线质量大数据的多模态数据处理。
Description
技术领域
本发明属于物理技术领域,更进一步涉及一种高维特征重构与融合方法,可用于对SMT产线质量大数据的多模态数据处理。
技术背景
电子制造企业在生产中积累了大量的文本数据及结构化数据,但均孤立存在,目前SMT产线智能决策算法方面大多只利用到了结构化数据,尚未考虑将文本数据融合到算法中,其中的潜在价值多被忽略,并且当前特征的维度大多在20维以下,未能考虑到高维非线性特征在算法方面的重要作用。充分挖掘文本数据的价值,实现对于文本数据与结构化数据的重构与融合对于SMT产线工艺改善和产品质量提升具有重要意义。利用实体识别、实体抽取技术、图卷积神经网络技术可以实现对于文本数据的特征提取,借助数据挖掘技术可以实现结构化数据的特征提取,堆栈式自编码器实现文本数据与结构化数据的特征融合。
江苏达科数智技术有限公司在其申请号为202310045129.3的专利文献公开了一种“适用于系统安全运维的数据处理方法及平台”,其实现步骤是:第一步,采用纹理基原直方图原理进行数据处理;第二步,基于卷积神经网络对图像数据进行特征提取;第三步,基于循环神经网络对文本数据进行特征提取;第四步,对生产设备故障相关的至少一个特征进行特征重构,得到重构特征集合。该方法由于仅利用到了生产过程中的图像生成的文本数据,没有考虑将结构化数据与文本数据进行重构融合,因而导致模型没有得到充分的训练,泛化能力弱,数据利用率低。
成都安则科技有限公司在其申请号为202310000571.4的专利文献中公开了“一种无线电跳频信号识别方法、系统、终端及介质”,其实现步骤是:第一步,获取目标源的无线电跳频信号,并对无线电跳频信号进行预处理,得到时域信息;第二步,对时域信号进行短时傅里叶变换,并依据时域信号的波形幅度分布特征和波形时间分布特征动态调整滑动窗的窗口宽度,得到频域信号;第三步,采用时频分布方法对频域信号和时域信号进行处理,得到时频特征图;第四步,提取时频特征图中单个类型的时频特征以及时频特征之间的关联特征,依据时频特征和关联特征重构得到识别特征;第五步,将识别特征输入预构建的神经网络识别模型进行训练识别,得到无线电跳频信号的识别结果。该方法由于重构后的特征仅在20维以下,未能考虑到高维特征间的非线性关系及文本数据中的知识,且没能将结构化数据与文本数据进行融合,故导致模型的预测准确率低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于SMT质量大数据的高维特征重构与融合方法,以提高SMT质量大数据利用率,提升SMT质量预测模型泛化能力和预测准确率。
实现本发明目的的技术方案包括如下步骤:
(1)获取SMT产线质量大数据中的文本数据和结构化数据,分别对文本数据和结构化数据进行预处理,得到预处理后的SMT产线文本数据集和SMT产线结构化数据集;
(2)分别提取预处理后的SMT产线预文本数据集和SMT产线结构化数据集的特征,得到文本特征集和数据特征集;
(3)将文本特征集和数据特征集进行合并及去重处理,并依据合并及去重后的特征集筛选原始结构化数据集,将筛选后的数据集划分为工艺、质量、生产、设备和除这四种类别外的其它数据集;
(4)构建激活函数不同的5种包含编码器和解码器的集成堆栈式自编码器SAE特征重构模型:
建立以Tanh为激活函数的SAE特征重构模型;
建立以Sigmoid为激活函数的SAE特征重构模型;
建立以Relu为激活函数的SAE特征重构模型;
建立以Softmax为激活函数的SAE特征重构模型;
建立以ReLU6为激活函数的SAE特征重构模型;
(5)对(4)构建的SAE特征重构模型进行迭代训练,获得特征重构结果:
(5a)将工艺、质量、生产、设备和除这四种类别外的其它数据集均输入到5种不同的SAE特征重构模型中,输出每一类数据在每一种SAE特征重构模型中得到的质量指标的预测值;
(5b)设定每种SAE特征重构模型的损失函数MSE,并通过质量指标的预测值和实际值计算出SAE特征重构模型的损失值Jk;
(5c)通过反向传播方法计算损失值Jk的损失梯度再采用随机下降梯度法,通过损失梯度对SAE特征重构模型中编码器与解码器的权重wk进行更新,直到Jk<0.1,则停止训练,将最后一次迭代的输出结果作为每一类数据的特征重构结果;
(6)对每一类数据特征重构结果进行融合:
(6a)将步骤(5b)得到的损失值Jk作为每一类数据中每一种SAE特征重构模型的均方误差M,根据步骤(5a)的每一类数据对应的质量指标的预测值,得到每一类的每一种SAE特征重构模型的平均绝对百分比误差MAPE;
(6b)基于SAE特征重构模型的MSE和MAPE对每一次重构的数据集进行加权融合,得到融合结果:
(6b1)计算每一类SAE特征重构模型协同误差:
其中,Ej代表每一类数据集中第j种SAE特征重构模型基于第j个均方误差M和第j个平均绝对百分比误差MAPE的协同误差,j∈[1,5]的整数;
(6b2)根据协同误差计算每一类SAE特征重构模型在每一类数据集中的权重:
其中,wj为每一类数据集在第j种SAE特征重构模型的权重,n为每一类数据集对应SAE特征重构模型个数;
(6b3)根据每一类数据集中每一类SAE特征重构模型的权重,将每一类数据的特征重构结果进行融合,得到每一类数据集的新特征Fa:
其中,x为当前类别的数据特征重构结果,a∈[1,5]的整数;
(6c)将每一类的数据集的新特征Fa进行合并,即将特征对应列进行拼接,得到融合结果F。
本发明与现有技术相比具有以下优点:
第一,本发明由于提取了文本数据和结构化数据特征,将两类特征进行合并及去重处理,并将文本数据和结构化数据进行结合使用,解决了现有技术只使用单类数据的不足,提高了数据的利用率。
第二,本发明由于在SMT数据重构中,建立了以5种不同的激活函数为基础的SAE特征重构模型对数据进行重构,解决了现有技术只使用单种激活函数进行重构模型构建,进一步提高了数据的利用率。
第三,本发明由于在SMT数据处理中,首先计算每一类SAE特征重构模型协同误差,再利用协同误差计算每一类SAE特征重构模型在每一类数据集中的权重,最后将每个类别数据进行加权求和形成新的融合特征集,解决了现有技术融合方法只进行合并,造成特征维数过低,预测模型准确率低的问题,提高了SMT质量预测模型泛化能力和预测准确率。
附图说明
图1为本发明的实现流程图;
图2为本发明中实体及实体关系的标注示意图;
图3为本发明中提取SMT产线文本数据特征的子流程图;
图4为本发明中提取SMT产线结构化数据特征的子流程图;
图5为本发明中对SMT产线特征进行重构与融合示意图。
具体实施方式
下面结合附图,对本发明的实施例作进一步的详细描述。
本实例是基于SMT生产线中的质量大数据进行重构与融合,SMT生产线是电子制造行业中一条典型的生产线,市场上的电子产品的生产制造,都离不开SMT产线。如今电子制造业在国家经济中不仅仅只是一个重要的组成部分,其行业的先进程度更是一个使国家在世界舞台上能挺起胸膛、不可忽视的重要指标。本发明的目的在于提高SMT产线数据利用率、提升SMT质量预测模型泛化能力和预测准确率。
参照图1,本实施例的实现步骤如下:
步骤1,获取SMT产线质量大数据中的文本数据和结构化数据,分别对文本数据和结构化数据进行预处理,得到预处理后的SMT产线文本数据集和SMT产线结构化数据集。
1.1)收集SMT产线文本数据集,其包含一份开发人员手册、100份工艺文件、200份质量反馈单以及10份设计文件作为文本数据的知识来源;
1.2)对收集到的SMT产线文本数据集进行预处理:
1.2.1)删除每份文本数据集中的无关数据,删除与关键信息无关的序号、空格,结合业务知识对文本数据中的缺失值进行填充,并按照最近的句号、感叹号切合文本,得到初步处理后的文本数据集;
1.2.2)基于数据挖掘技术将SMT产线的产品缺陷类型、缺陷成因、解决措施、缺陷现象、影响因素及缺陷后果作为知识本体;
1.2.3)依据知识本体对初步处理后的文本数据集采用YEDDA软件进行实体标注,标注说明如表1所示:
表1对知识本体的标注说明
1.2.4)按照BIO序列标注方法,对初步处理后的文本数据集进行BIO序列标注,即将每个实体序列的首字标为“B-实体名称”;中间字标为“I-实体名称”;无关字标为“O”,得到实体标注后的文本数据集;
1.2.5)对实体标注后的文本数据集中所有两两实体之间的关系进行标注,得到预处理后的文本数据集。
本发明实施例中两两实体之间的关系名称及对应的标注说明,如表2所示:
表2实体关系标注说明
本发明实施例中两两实体之间的关系名称及对应的标注示意图,如图2所示。
图2中“黏度过低”为缺陷原因,故该实体用R标注,其中“黏”为实体序列首字标,标注为B-R;“度”、“过”,“低”为中间字标,标注为I-R;“塌陷”为缺陷类型,故该实体用D标注,其中“塌”为首字标,标注为B-D;“陷”为中间字标,标注为I-D;其余词均为无关字标,标注为O;“黏度过低”与“塌陷”的实体关系是因为“黏度过低”而导致的“塌陷”,标注为RCD。
1.3)对收集到的SMT产线结构化数据集进行预处理:
本实例是采用中电科某研究所的SMT产线结构化数据集作为数据来源。该SMT结构化数据集包含该公司近一年近一千万条生产数据,数据均为csv结构化数据,内容如表3所示,其中数据集的特征为刮刀压力、刮刀速度、印刷高度补偿、工作台分离速度、自动清洗计数、清洗速度、工作台分离距离、清洗供给时间、刮刀分离距离;数据集的质量指标为体积、面积、高度、X偏移量和Y偏移量。
表3SMT产线结构化数据集参数一览表
对该数据集的预处理步骤如下:
1.3.1)经统计分析得出刮刀压力字段的众数为12,从而用12填充第3条数据中刮刀压力的缺失值NaN;
1.3.2)经统计分析得出刮刀速度字段的众数为20,从而用20填充第4条数据中刮刀速度的缺失值NaN;
1.3.3)经统计分析得出工作台分离速度的众数为0.333,从而以0.333填充第5、第6条数据的工作台分离速度的缺失值NaN;
1.3.4)利用正态分布和箱型图对所有数据进行异常值检测,检测出第6条数据的体积为异常值,从而删除第6条数据;
1.3.5)采用z-score方法对原始数据进行标准化处理,使之呈现正态分布,其公式为:
其中,x*为标准化后的值,x为数据集特征对应列的值,u为x所属列的均值,σ为x所属列的标准差。
经过以上所有处理之后,得到预处理后的SMT产线结构化数据集,如表4所示:
表4SMT产线结构化数据预处理后的结果
步骤2,提取预处理后的SMT产线文本数据集的特征,得到文本特征集。
提取文本数据集特征的现有方法有布尔模型,向量空间模型,图空间模型,BERT-Bi-LSTM-CRF命名实体识别模型,BERT实体关系抽取模型或者几种模型的组合,本实例使用但不限于BERT-Bi-LSTM-CRF命名实体识别模型、BERT实体关系抽取模型和两层图卷积神经网络GCN模型的组合。
参照图3,本步骤的具体实现如下:
2.1)构建由BERT嵌入层,Bi-LSTM层和CRF层串联组成的BERT-Bi-LSTM-CRF命名实体识别模型,其中:
所述BERT嵌入层,其网络层数设置为10,隐藏单元数设置为384,注意头个数设置为10;
所述Bi-LSTM层,采用Xavier方法对其每个神经元的参数进行初始化;
所述CRF层,采用randn函数对其输出结果进行初始化。
2.2)BERT-Bi-LSTM-CRF命名实体识别模型进行训练:
将预处理后的SMT产线预文本数据集输入到BERT-Bi-LSTM-CRF命名实体识别模型中,得到所有命名实体的标注序列;
利用均方误差公式MSE,计算每个特征向量序列的预测标注序列与实际标注序列间的损失值,将每个特征向量序列的损失值,按照随机梯度下降法,依据所有特征向量序列的损失值,反向传播调整Bi-LSTM层中的神经元个数,直至损失值小于或等于0.1为止,取最后一次的迭代输出结果作为命名识别结果。
所述均方误差误差公式表示如下:
其中,n表示为SMT产线预文本数据集的个数,yi表示为每个特征向量实际标注序列,表示为每个特征向量预测标注序列。
2.3)设置现有BERT实体关系抽取模型的初始参数,并对其进行训练:
2.3.1)将最大单词数设置为64,批数据大小设置为64,学习率设置为1×10-5,丢弃率设置为0.3,迭代次数为10次;
2.3.2)将命名识别结果中的每一个特征向量序列输入到BERT实体关系抽取模型中,得到两两命名实体之间的关系向量;
2.3.2)利用与步骤2.2)相同的误差公式,计算每个特征向量序列的预测关系标注序列与实际关系标注序列的损失值,将每个特征向量序列的损失值,按照随机梯度下降法,依据所有特征向量关系序列的损失值,调整学习率和丢弃率,直至损失值小于或等于0.1为止,将最后一次迭代的输出结果作为文本数据抽取的知识。
2.4)按照三元组的形式对文本数据抽取的知识进行表示,即将每个实体按照<实体,属性名称,属性值>的三元组形式进行存储,建立实体与实体之间的关系连接,并保持连接的两个实体之间具有数据描述的一致性,确保满足<实体1,关系,实体2>形式的三元组。
本实施例中三元组表示为:
<调整钢网开口,避免,桥连>
<钢网开口过大,导致,桥连>
其中,第一种三元组表示的含义为对钢网开口进行调整可以避免桥连缺陷,第二种三元组表示的含义为钢网开口过大会导致桥连缺陷。
2.5)基于Neo4j图关系型数据库存储知识,将三元组形式的知识导入Neo4j图关系型数据库,形成SMT产线质量知识图谱。
2.6)采用现有Glove-word-vector词向量表示方法将知识图谱表示为词向量形式。
2.7)选用现有两层图卷积神经网络GCN模型,并对其进行训练:
2.7.1)设置两层图卷积神经网络GCN模型的初始化参数:将第一层GCN神经元个数设置为16,第二层GCN神经元个数设置为7,损失函数为MSE,学习率为0.1,迭代次数为200;
2.7.2)将词向量输入到两层的图卷积神经网络GCN模型中,得到词向量预测序列;
2.7.3)利用与步骤2.2)相同的误差公式,计算每个预测词向量序列与实际词向量序列的损失值,将每个词向量序列的损失值,按照随机梯度下降法调整学习率,直至损失值小于或等于0.1为止,得到最后一次迭代的模型的权重。
2.8)将得到的权重进行排序,取权重大于等于0.5的特征作为文本数据集提取的特征,得到文本特征集。
步骤3,利用现有的XGBoost特征提取模型提取预处理后的SMT产线结构化数据集的特征,得到数据特征集。
参照图4,本步骤具体实现如下:
3.1)设置XGBoost特征提取模型初始化参数,如表5所示:
表5XGBoost模型关键参数初始化信息表
3.2)将预处理后的SMT产线结构化数据集中的特征输入到XGBoost特征提取模型中,分别输出数据集质量指标预测值;
3.3)利用XGBoost模型中的重要度公式,计算数据集中每个特征的影响因素重要度:
其中,scorei表示数据集中第i个特征的影响因素重要度,GL表示XGBoost模型中所有左叶子节点一阶导数之和,GR表示XGBoost模型中所有右叶子节点一阶导数之和,HL表示XGBoost模型中所有左叶子节点二阶导数之和,HR表示XGBoost模型中所有右叶子节点二阶导数之和,ρ和γ表示使XGBoost模型的损失函数达到最小时的正则化参数;
3.4)统计各个特征的影响因素重要度,如表6所示:
表6各个特征的影响因素重要度
3.5)将最大影响因素重要度大于100的特征合并为数据特征集。
步骤4,根据文本特征集和数据特征集划分数据集。
4.1)将文本特征集和数据特征集进行合并及去重处理,得到新的特征集,本实施例中新特征集的部分特征如表7所示:
表7合并及去重后的新特征集
4.2)依据新特征集筛选原始结构化数据集,即将新特征集中与原始结构化数据集特征相同的列进行提取合并,构成筛选后的结构化数据集,如表8所示:
表8筛选后的结构化数据集
4.3)将筛选后的数据集依据SMT产线的数据机理知识和数据字段的逻辑关系划分为工艺、质量、生产、设备和除这四种类别外的其它数据集,即共5大类数据集。
步骤5,构建激活函数不同的5种SAE特征重构模型。
每种模型均由编码器和解码器串联组成,其中:
所述编码器有两层,第一层输入层隐藏神经元个数根据合并及处理后的特征个数设定为20,第二层隐含层隐藏神经元个数为10;
所述解码器,其设有两层,第一层隐含层隐藏神经元个数为10,第二层输出层隐藏神经元个数为5;
所述的5种激活函数分别为:双曲正切函数Tanh、S型函数Sigmoid、线性整流函数Relu、归一化指数函数Softmax、ReLU6函数;
所构成的5种SAE特征重构模型分别如下:
第一种:以双曲正切函数Tanh为激活函数的SAE特征重构模型;
第二种:以S型函数Sigmoid为激活函数的SAE特征重构模型;
第三种:以线性整流函数Relu为激活函数的SAE特征重构模型;
第四种:以归一化指数函数Softmax为激活函数的SAE特征重构模型;
第五种:以ReLU6函数为激活函数的SAE特征重构模型;
其中,x为输入的神经元节点值,n为输入神经元个数。
步骤6,对步骤4构建的SAE特征重构模型进行迭代训练,获得特征重构结果。
6.1)将工艺、质量、生产、设备和除这四种类别外的其它数据集均输入到5种不同的SAE特征重构模型中,输出每一类数据在每一种SAE特征重构模型中得到的质量指标的预测值,由于将五大类数据集均输入到5种不同的SAE特征重构模型中,共得到25个质量指标的预测值;
6.2)设定每种SAE特征重构模型的损失函数MSE相同,其表示如下:
其中,N为每一类数据集的个数,表示每一类数据集质量指标的预测值,yi表示每一类数据集质量指标的实际值。
6.3)根据质量指标的预测值和实际值,通过步骤6.2)设定的损失函数,计算出5种SAE特征重构模型共25个损失值Jk,k∈[1,25]且k为整数;
6.4)通过反向传播方法计算损失值Jk的损失梯度
其中,wk为第k个编码器与解码器的权重;
6.5)采用随机下降梯度法,通过损失梯度对SAE特征重构模型中编码器与解码器的权重wk进行更新,直到Jk<0.1,则停止训练,将最后一次迭代的输出结果作为每一类数据的特征重构结果。
所述权重wk更新公式如下;
其中,wk'表示wk更新后的结果,α表示学习率,α∈[0,1]。
步骤7,对每一类数据特征重构结果进行融合。
参照图5,本步骤的具体实现如下:
7.1)将步骤6.3)得到的损失值Jk作为每一类数据中每一种SAE特征重构模型的均方误差M;
7.2)根据步骤6.1)的每一类数据对应每一种SAE特征重构模型输出的质量指标预测值,计算每一类数据中每一种SAE特征重构模型的平均绝对百分比误差MAPE:
其中,N为每一类数据集的个数,表示为每一类数据集质量指标的预测值,yi表示为每一类数据集质量指标的实际值;
7.3)基于SAE特征重构模型的均方误差M和平均绝对百分比误差MAPE对每一次重构的数据集进行加权融合:
7.3.1)计算每一类数据集对应5种SAE特征重构模型的协同误差:
其中,Ej代表每一类数据集中第j种SAE特征重构模型基于第j个均方误差M和第j个平均绝对百分比误差MAPE的协同误差,j∈[1,5]的整数;
7.3.2)根据协同误差Ej计算每一种SAE特征重构模型在每一类数据集中的权重:
其中,wj为每一类数据集在第j种SAE特征重构模型的权重,n为每一类数据集对应SAE特征重构模型个数;
7.3.3)根据每一类数据集中每一种SAE特征重构模型的权重wj,将每一类数据的特征重构结果进行融合,得到每一类数据集的新特征Fa:
其中,x为当前类别的数据特征重构结果,a∈[1,5]的整数;
7.4)将每一类的数据集的新特征Fa进行合并,即将特征对应列进行拼接,得到融合结果F。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (11)
1.一种基于SMT质量大数据的高维特征重构与融合方法,其特征在于,包括如下步骤:
(1)获取SMT产线质量大数据中的文本数据和结构化数据,分别对文本数据和结构化数据进行预处理,得到预处理后的SMT产线文本数据集和SMT产线结构化数据集;
(2)分别提取预处理后的SMT产线预文本数据集和SMT产线结构化数据集的特征,得到文本特征集和数据特征集;
(3)将文本特征集和数据特征集进行合并及去重处理,并依据合并及去重后的特征集筛选原始结构化数据集,将筛选后的数据集划分为工艺、质量、生产、设备和除这四种类别外的其它数据集;
(4)构建激活函数不同的5种包含编码器和解码器的集成堆栈式自编码器SAE特征重构模型:
建立以Tanh为激活函数的SAE特征重构模型;
建立以Sigmoid为激活函数的SAE特征重构模型;
建立以Relu为激活函数的SAE特征重构模型;
建立以Softmax为激活函数的SAE特征重构模型;
建立以ReLU6为激活函数的SAE特征重构模型;
(5)对SAE特征重构模型进行迭代训练,获得特征重构结果:
(5a)将工艺、质量、生产、设备和除这四种类别外的其它数据集均输入到5种不同的SAE特征重构模型中,输出每一类数据在每一种SAE特征重构模型中得到的质量指标的预测值;
(5b)设定每种SAE特征重构模型的损失函数MSE,并通过质量指标的预测值和实际值计算出SAE特征重构模型的损失值Jk;
(5c)通过反向传播方法计算损失值Jk的损失梯度再采用随机下降梯度法,通过损失梯度对SAE特征重构模型中编码器与解码器的权重wk进行更新,直到Jk<0.1,则停止训练,将最后一次迭代的输出结果作为每一类数据的特征重构结果;
(6)对每一类数据特征重构结果进行融合:
(6a)将步骤(5b)得到的损失值Jk作为每一类数据中每一种SAE特征重构模型的均方误差M,根据步骤(5a)的每一类数据对应的质量指标的预测值,得到每一类的每一种SAE特征重构模型的平均绝对百分比误差MAPE;
(6b)基于SAE特征重构模型的MSE和MAPE对每一次重构的数据集进行加权融合,得到融合结果:
(6b1)计算每一类SAE特征重构模型协同误差:
其中,Ej代表每一类数据集中第j种SAE特征重构模型基于第j个均方误差M和第j个平均绝对百分比误差MAPE的协同误差,j∈[1,5]的整数;
(6b2)根据协同误差计算每一类SAE特征重构模型在每一类数据集中的权重:
其中,wj为每一类数据集在第j种SAE特征重构模型的权重,n为每一类数据集对应SAE特征重构模型个数;
(6b3)根据每一类数据集中每一类SAE特征重构模型的权重,将每一类数据的特征重构结果进行融合,得到每一类数据集的新特征Fa:
其中,x为当前类别的数据特征重构结果,a∈[1,5]的整数;
(6c)将每一类的数据集的新特征Fa进行合并,得到融合结果F。
2.根据权利要求1所述的方法,其特征在于,所述(1)中对文本数据进行预处理,实现如下:
删除每份文本数据集中的无关数据,删除与关键信息无关的序号、空格;
结合业务知识填充文本数据中缺失的数值;
按照最近的句号、感叹号切合文本,对删除和填充后的文本数据依次进行本体构建、实体标注和实体关系标注,得到预处理后的文本数据集。
3.根据权利要求1所述的方法,其特征在于,所述(1)中对结构化数据进行预处理,是先对结构化数据中的缺失值进行填充,再对填充后数据中的异常值进行检测删除,最后将填充和删除后的数据进行Z-score标准化,得到预处理后的结构化数据集。
4.根据权利要求1所述的方法,其特征在于,所述(2)提取预处理后的SMT产线预文本数据集的特征,得到文本特征集,实现如下:
(2a)构建由BERT嵌入层,Bi-LSTM层和CRF层串联组成的BERT-Bi-LSTM-CRF命名实体识别模型;
(2b)对BERT-Bi-LSTM-CRF命名实体识别模型进行训练,得到命名识别结果:
将预处理后的SMT产线预文本数据集作为输入,按照随机梯度下降法,依据所有特征向量序列的损失值,反向传播调整Bi-LSTM层中的神经元个数,直至损失值小于或等于0.1为止,取最后一次的迭代输出结果作为命名识别结果;
(2c)将命名识别结果作为输入,按照随机梯度下降法,依据所有特征向量关系序列的损失值,调整学习率和丢弃率,直至损失值小于或等于0.1为止,将最后一次迭代的输出结果作为文本数据抽取的知识;
(2d)根据文本数据抽取的知识形成SMT产线质量知识图谱;
(2e)将SMT产线质量知识图谱输入现有两层图卷积神经网络GCN模型,采用随机梯度下降法并对其进行训练,依据每个词向量序列的损失值调整学习率,直至损失值小于或等于0.1为止,将最后一次迭代的模型权重作为该模型的最终权重:
(2f)将(2e)得到的权重进行排序,取权重大于等于0.5的特征作为文本数据集提取的特征,得到文本特征集。
5.根据权利要求1所述的方法,其特征在于,所述(2)提取预处理后的SMT产线结构化数据集的特征,得到数据特征集,实现如下:
(2g)设置XGBoost特征提取模型初始化参数;
(2h)将预处理后的SMT产线结构化数据集中的特征输入到XGBoost特征提取模型中,分别输出数据集质量指标预测值;
(2i)利用XGBoost模型中的重要度公式,计算数据集中每个特征的影响因素重要度;
(2j)将最大影响因素重要度大于100的特征合并为数据特征集。
6.根据权利要求1所述的方法,其特征在于,所述(2)中提取的文本特征集包括:
印刷距离、脱模速度、脱模距离、刮刀长度、刮刀压力、带速、氮气浓度、人工清洗次数和十个温区的不同温度,即温区一温度、温区二温度、温区三温度、温区四温度、温区五温度、温区六温度、温区七温度、温区八温度、温区九温度、温区十温度。
7.根据权利要求1所述的方法,其特征在于,所述(2)中提取的数据特征集包括:
刮刀压力、刮刀速度、印刷高度补偿、工作台分离速度、自动清洗计数、清洗速度、工作台分离距离、清洗供给时间和刮刀分离距离。
8.根据权利要求1所述的方法,其特征在于,所述(4)构成集成堆栈式自编码器SAE特征重构模型中编码器和解码器,其结构参数设置如下:
所述编码器,其设有两层,第一层输入层隐藏神经元个数根据合并及处理后的特征个数设定,第二层隐含层隐藏神经元个数小于第一层隐藏神经元个数;
所述解码器,其设有两层,第一层隐含层隐藏神经元个数与编码器第二层隐含层隐藏神经元个数相同,第二层输出层隐藏神经元个数小于第一层隐含层隐藏神经元个数。
9.根据权利要求1所述的方法,其特征在于,所述(5b)中设定每种SAE特征重构模型的损失函数MSE,公式表示如下:
其中,N为每一类数据集的个数,表示每一类数据集质量指标的预测值,yi表示每一类数据集质量指标的实际值。
10.根据权利要求1所述的方法,其特征在于:
所述(5c)中通过反向传播方法计算损失值Jk的损失梯度公式如下:
其中wk为第k个编码器与解码器的权重;
所述(5c)中采用随机下降梯度法,通过损失梯度对SAE特征重构模型中编码器与解码器的权重wk进行更新,公式如下:
其中wk'表示wk更新后的结果,α表示学习率,α∈[0,1]。
11.根据权利要求1所述的方法,其特征在于,所述(6a)计算每一类的每一种SAE特征重构模型的平均绝对百分比误差MAPE,公式如下:
其中,N为每一类数据集的个数,表示为每一类数据集质量指标的预测值,yi表示为每一类数据集质量指标的实际值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310590118.3A CN116628623A (zh) | 2023-05-24 | 2023-05-24 | 基于smt质量大数据的高维特征重构与融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310590118.3A CN116628623A (zh) | 2023-05-24 | 2023-05-24 | 基于smt质量大数据的高维特征重构与融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628623A true CN116628623A (zh) | 2023-08-22 |
Family
ID=87602047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310590118.3A Pending CN116628623A (zh) | 2023-05-24 | 2023-05-24 | 基于smt质量大数据的高维特征重构与融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628623A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218149A (zh) * | 2023-11-08 | 2023-12-12 | 南通度陌信息科技有限公司 | 一种基于自编码神经网络的图像重建方法及系统 |
-
2023
- 2023-05-24 CN CN202310590118.3A patent/CN116628623A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218149A (zh) * | 2023-11-08 | 2023-12-12 | 南通度陌信息科技有限公司 | 一种基于自编码神经网络的图像重建方法及系统 |
CN117218149B (zh) * | 2023-11-08 | 2024-02-20 | 南通度陌信息科技有限公司 | 一种基于自编码神经网络的图像重建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN114117220B (zh) | 基于知识增强的深度强化学习交互式推荐系统及方法 | |
CN108829763B (zh) | 一种基于深度神经网络的影评网站用户的属性预测方法 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN111582538B (zh) | 一种基于图神经网络的社群价值预测方法及系统 | |
CN106529721B (zh) | 一种深度特征提取的广告点击率预测系统及其预测方法 | |
CN109284866B (zh) | 商品订单预测方法及装置、存储介质、终端 | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN110515931B (zh) | 一种基于随机森林算法的电容型设备缺陷预测方法 | |
CN105975916A (zh) | 基于多输出卷积神经网络和有序回归的年龄估计方法 | |
CN112015863A (zh) | 一种基于图神经网络的多元特征融合中文文本分类方法 | |
CN109389151A (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN112650933A (zh) | 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法 | |
CN108647730A (zh) | 一种基于历史行为共现的数据划分方法及系统 | |
CN112487193A (zh) | 一种基于自编码器的零样本图片分类方法 | |
CN106897776A (zh) | 一种基于名义属性的连续型特征构造方法 | |
CN113780420B (zh) | 基于gru-gcn的变压器油中溶解气体浓度预测方法 | |
CN113688253B (zh) | 一种层次感知的时态知识图谱表示学习方法 | |
CN116628623A (zh) | 基于smt质量大数据的高维特征重构与融合方法 | |
CN114386513A (zh) | 一种集成评论与评分的交互式评分预测方法及系统 | |
CN112541340B (zh) | 基于变分双主题表征的弱监督涉案微博评价对象识别方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN113591971A (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
CN112529415A (zh) | 基于组合多感受野图神经网络的物品评分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |