CN108226092A - 基于近红外光谱相似度的模型界外样本识别方法 - Google Patents
基于近红外光谱相似度的模型界外样本识别方法 Download PDFInfo
- Publication number
- CN108226092A CN108226092A CN201711470844.2A CN201711470844A CN108226092A CN 108226092 A CN108226092 A CN 108226092A CN 201711470844 A CN201711470844 A CN 201711470844A CN 108226092 A CN108226092 A CN 108226092A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- sample
- similarity
- sim
- bounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 66
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Spectrometry And Color Measurement (AREA)
Abstract
本发明公开了一种基于近红外光谱相似度的模型界外样本识别方法,包括步骤:(1)在建模阶段,先计算校正集中所有样品的平均光谱;然后计算校正集中每条光谱与平均光谱之间的相似度;对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阈值lim=simmin*P;(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阈值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。本发明计算简单,时耗低,所需存储的数据量较少,实用性高。
Description
技术领域
本发明涉及近红外光谱分析研究领域,特别涉及一种基于近红外光谱相似度的模型界外样本识别方法。
背景技术
近红外光谱分析中的定量分析大都是采用同一种模式,即基于一组已知样品建立校正模型。这一组已知样品称为校正集样品或训练集样品,通过这组样品的光谱及其对应基础数据(理化数据),利用多元矫正或模式识别方法建立校正模型。对于待测样品,只需测定其光谱,根据已建的模型便可快速给出定量结果。
然而,若待测样本与建立校正模型的已知样本相关性过低,则使用该校正模型得出的预测结果不具有可信度。预测过程界外样本的识别主要是用来检验待测样本是否在所建校正模型的覆盖范围内,以确保对其预测结果的准确性。
根据ASTM E-1655,目前模型界外样本的识别方法主要包括三类:一是浓度界外样本,即使用马氏距离检测未知样本的浓度是否超出了校正样本的浓度范围;二是光谱残差界外样本,即使用光谱残差均方根(RMSSR)检测未知样本是否含有校正集样本不存在的组分;三是最邻近距离界外样本,即使用最邻近距离检测未知样本是否位于校正集样本分布稀疏的区域。当未知样本的光谱残差、马氏距离和最邻近距离中有任何一项超出相应阀值时,则说明该样本为模型界外样本,其预测结果的准确性将受到较大质疑。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于近红外光谱相似度的模型界外样本识别方法,该方法计算简单,时耗低,所需存储的数据量较少,实用性高。
本发明的目的通过以下的技术方案实现:基于近红外光谱相似度的模型界外样本识别方法,包括步骤:
(1)在建模阶段,先计算校正集中所有样品的平均光谱;
然后计算校正集中每条光谱与平均光谱之间的相似度;
对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阀值lim=simmin*P,P是一预设阀值;
(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;
然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阀值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。
优选的,步骤(1)中,校正集中每条光谱与平均光谱之间的相似度计算公式如下:
其中,U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待对比样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待对比样品光谱与平均光谱的均值,sim代表待对比样品光谱的特征集合与平均光谱特征集合的比对结果,即相似度。
优选的,步骤(1)中,M=N*Q,其中N为校正集样品数,若N*Q<1,则M取1;若N*Q≥1,则M取整,Q范围为0.001至0.05。采用该阈值,可以较准确的实现后续样本的划分。
优选的,参数P是用来调整限制阀值的一个额外参数,用于控制阀值对异常的敏感程度。范围最大可扩展为-1/lim到1/lim,包含-1/lim且包含1/lim,建议范围为0.99至1。
更进一步的,步骤(2)中,预设阀值Y,建立对未知样本进行适用性评估等级划分的模型,划分方法如下:
其中,aLevel表示当前未知样本的适用性评估等级,等级A表示校正模型对待测样本光谱的适用性较好,预测结果的可信度较高,可直接采用当前的模型进行预测;等级B表示校正模型对待测样本光谱的适用性一般,预测结果的可信度一般;等级C表示校正模型对待测样本光谱的适用性较差,预测结果可信度极低。进而可得到模型适用性评估等级,便于给技术人员提供指导。
更进一步的,X、Y都是根据经验确定的,X的范围最大可扩展为1至1+P(建议范围为1~1.01),包含1且包含1+P。Y的范围最大可扩展为0至1,包含0且不包含1,建议范围为0.9~0.995。
本发明与现有技术相比,具有如下优点和有益效果:
相比传统方法,在不过分损失精度的条件下,本发明方法计算简单,时耗低(仅有两步,分别出现于建模阶段及检测阶段);所需存储的数据量较少(传统方法需要将参与校正模型创建的全部数据进行存储);会给出未知样本是否适应当前模型,并能给出未知样本适用性的评估等级,随着等级的降低预测结果的可行度随之降低。
附图说明
图1是本发明方法建模阶段的流程图。
图2是本发明方法检测阶段的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1、2所示,本实施例基于近红外光谱相似度的模型界外样本识别方法,包括两个阶段,分别是建模阶段和检测阶段,下面结合附图流程进行具体说明。
一、建模阶段
1.1、计算校正集样品的平均光谱
式中,n为校正集样品数,k=1,2,…,m,m为波长点数。
1.2、计算校正集中每条光谱与步骤1.1中求得平均光谱之间的相似度:
U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待对比样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待对比样品光谱与平均光谱的均值,sim代表待对比样品光谱的特征集合与步骤1.1中所求平均光谱特征集合的比对结果。
1.3、对步骤1.2中求得的一系列相似度值进行排序,得(sim1,sim2,…,simN),设sim1为最小值,simN最大值,N为校正集样品数。
1.4、忽略相似度最小的(N*0.005)个值,若N*0.005<1,则取1;若N*0.005≥1,则取整。
【例1】若N=100,N*0.005=0.5<1,取1,
需忽略步骤1.3中的sim1,则最小相似度为sim2。
【例2】若N=500,N*0.005=2.5≥1,取整为2,
需忽略步骤1.3中的sim1,sim2,则最小相似度为sim3。
1.5、在步骤1.4的基础上,阀值lim为未被忽略的最小相似度的0.9995倍,即simmin*0.9995。
1.6、将计算好的阀值lim以及步骤1.1中求得的平均光谱进行存储。
二、检测阶段
2.1、计算待测光谱与步骤1.1中平均光谱之间的相似度:
其中,U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待测样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待测样品光谱与步骤1.1平均光谱的均值,sim′代表待测样品光谱的特征集合与步骤1.1中平均光谱特征集合的比对结果。
2.2将sim′与步骤1.1中的阀值lim进行比较,设定预设阀值X为0.99,若sim′≤lim*0.99,则可判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。
当然,为了更进一步评估样本的实用性,还可以根据实际对未知样本进行适用性评估等级划分,具体划分方法是:
aLevel为适用性评估等级,等级A表示校正模型对待测样本光谱的适用性较好,预测结果的可信度较高。等级B表示校正模型对待测样本光谱的适用性一般,预测结果的可信度一般。等级C表示校正模型对待测样本光谱的适用性交差,预测结果可信度极低。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.基于近红外光谱相似度的模型界外样本识别方法,其特征在于,包括步骤:
(1)在建模阶段,先计算校正集中所有样品的平均光谱;
然后计算校正集中每条光谱与平均光谱之间的相似度;
对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阀值lim=simmin*P,P是一预设阀值;
(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;
然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阀值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。
2.根据权利要求1所述的基于近红外光谱相似度的模型界外样本识别方法,其特征在于,步骤(1)中,校正集中每条光谱与平均光谱之间的相似度计算公式如下:
其中,U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待对比样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待对比样品光谱与平均光谱的均值,sim代表待对比样品光谱的特征集合与平均光谱特征集合的比对结果,即相似度。
3.根据权利要求1所述的基于近红外光谱相似度的模型界外样本识别方法,其特征在于,步骤(1)中,M=N*Q,其中N为校正集样品数,若N*Q<1,则M取1;若N*Q≥1,则M取整,Q范围为0.001至0.05。
4.根据权利要求1所述的基于近红外光谱相似度的模型界外样本识别方法,其特征在于,参数P是用来调整限制阀值的一个额外参数,用于控制阀值对异常的敏感程度,范围设定为-1/lim到1/lim,包含-1/lim且包含1/lim。
5.根据权利要求1所述的基于近红外光谱相似度的模型界外样本识别方法,其特征在于,步骤(2)中,预设阀值Y,建立对未知样本进行适用性评估等级划分的模型,划分方法如下:
其中,aLevel表示当前未知样本的适用性评估等级,等级A表示校正模型对待测样本光谱的适用性较好,预测结果的可信度较高,可直接采用当前的模型进行预测;等级B表示校正模型对待测样本光谱的适用性一般,预测结果的可信度一般;等级C表示校正模型对待测样本光谱的适用性较差,预测结果可信度极低。
6.根据权利要求5所述的基于近红外光谱相似度的模型界外样本识别方法,其特征在于,Y的范围为1~1.01,X的范围为0.9~0.995。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711470844.2A CN108226092B (zh) | 2017-12-29 | 2017-12-29 | 基于近红外光谱相似度的模型界外样本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711470844.2A CN108226092B (zh) | 2017-12-29 | 2017-12-29 | 基于近红外光谱相似度的模型界外样本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108226092A true CN108226092A (zh) | 2018-06-29 |
CN108226092B CN108226092B (zh) | 2021-01-12 |
Family
ID=62646884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711470844.2A Active CN108226092B (zh) | 2017-12-29 | 2017-12-29 | 基于近红外光谱相似度的模型界外样本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108226092B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111257277A (zh) * | 2018-11-30 | 2020-06-09 | 湖南中烟工业有限责任公司 | 一种基于近红外光谱技术的烟叶相似度判定方法 |
CN113484272A (zh) * | 2021-07-08 | 2021-10-08 | 云南中烟工业有限责任公司 | 基于近红外光谱采用相似度分析技术快速预测新鲜烟叶中油分的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184004A (zh) * | 2015-09-18 | 2015-12-23 | 南京富岛信息工程有限公司 | 一种判断辛烷值模型维护更新的方法 |
CN105224961A (zh) * | 2015-11-04 | 2016-01-06 | 中国电子科技集团公司第四十一研究所 | 一种高识别度的红外光谱特征提取与匹配方法 |
CN105334185A (zh) * | 2015-09-14 | 2016-02-17 | 上海创和亿电子科技发展有限公司 | 基于光谱投影判别的近红外模型维护方法 |
CN107273656A (zh) * | 2017-05-11 | 2017-10-20 | 广州讯动网络科技有限公司 | 一种基于分子光谱分析的定量模型评估方法和系统 |
-
2017
- 2017-12-29 CN CN201711470844.2A patent/CN108226092B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105334185A (zh) * | 2015-09-14 | 2016-02-17 | 上海创和亿电子科技发展有限公司 | 基于光谱投影判别的近红外模型维护方法 |
CN105184004A (zh) * | 2015-09-18 | 2015-12-23 | 南京富岛信息工程有限公司 | 一种判断辛烷值模型维护更新的方法 |
CN105224961A (zh) * | 2015-11-04 | 2016-01-06 | 中国电子科技集团公司第四十一研究所 | 一种高识别度的红外光谱特征提取与匹配方法 |
CN107273656A (zh) * | 2017-05-11 | 2017-10-20 | 广州讯动网络科技有限公司 | 一种基于分子光谱分析的定量模型评估方法和系统 |
Non-Patent Citations (4)
Title |
---|
TONY CHENG-KUI HUANG ETAL: "A novel recommendation model with Google similarity", 《 DECISION SUPPORT SYSTEMS》 * |
刘建学 等: "基于余弦相似度的因子分析在食品成分检测中的应用", 《食品科学》 * |
刘爽悦 等: "基于近红外光谱的丹红注射液提取过程质量在线监测方法研究", 《中国中药杂志》 * |
张益才: "Chauvenet准则和Laeda准则的分析", 《物理实验》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111257277A (zh) * | 2018-11-30 | 2020-06-09 | 湖南中烟工业有限责任公司 | 一种基于近红外光谱技术的烟叶相似度判定方法 |
CN111257277B (zh) * | 2018-11-30 | 2023-02-17 | 湖南中烟工业有限责任公司 | 一种基于近红外光谱技术的烟叶相似度判定方法 |
CN113484272A (zh) * | 2021-07-08 | 2021-10-08 | 云南中烟工业有限责任公司 | 基于近红外光谱采用相似度分析技术快速预测新鲜烟叶中油分的方法 |
CN113484272B (zh) * | 2021-07-08 | 2022-08-19 | 云南中烟工业有限责任公司 | 基于近红外光谱采用相似度分析技术快速预测新鲜烟叶中油分的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108226092B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108777873B (zh) | 基于加权混合孤立森林的无线传感网络异常数据检测方法 | |
Diallo et al. | The impact of total and partial inclusion or exclusion of active and inactive time invariant covariates in growth mixture models. | |
Jackson et al. | Robust principal component analysis and outlier detection with ecological data | |
CN110850164B (zh) | 考虑背景谐波电压波动和阻抗变化的多谐波责任划分方法 | |
CN102313699A (zh) | 作物冠层叶片的全氮含量估算方法 | |
CN109523516A (zh) | 一种基于双重约束条件的对象级土地覆盖变化检测方法 | |
CN106792524B (zh) | 一种基于动态环境双向校正的混合室内定位方法 | |
CN109858779A (zh) | 一种水环境数学模型水质参数不确定性与敏感性分析方法 | |
CN108226092A (zh) | 基于近红外光谱相似度的模型界外样本识别方法 | |
CN106408571B (zh) | 一种基于最优模糊因子选择的可变类遥感图像分割方法 | |
CN109541639A (zh) | 一种基于粒子聚类的反演边界层高度方法 | |
CN117314469A (zh) | 一种自来水厂碳排放计算方法、介质以及设备 | |
CN106935038B (zh) | 一种停车检测系统及检测方法 | |
CN106290263B (zh) | 一种基于遗传算法的libs定标定量分析方法 | |
CN109948920A (zh) | 一种基于证据理论的电力市场结算数据风险处理方法 | |
CN106354940A (zh) | 基于水质模型不确定性输入的景观水水质模拟与预警方法 | |
CN115239156B (zh) | 一种城镇化指标对水系结构的影响警示方法和装置 | |
CN113947504B (zh) | 一种基于随机森林法的窃电分析方法及其系统 | |
CN115457756B (zh) | 传感器校准的方法及装置 | |
CN106485049B (zh) | 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法 | |
RU2148274C1 (ru) | Способ идентификации личности по особенностям подписи | |
CN115778317A (zh) | 皮肤测评方法、皮肤测评设备以及存储介质 | |
CN104777215A (zh) | 一种确定流域尺度次降雨泥沙来源的方法 | |
Mohd et al. | Thresholding and fuzzy rule-based classification approaches in handling mangrove forest mixed pixel problems associated with in QuickBird remote sensing image analysis | |
CN114047399A (zh) | 一种光伏直流电弧故障识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230710 Address after: Room A95, No. 66, Honghuagang West Street, Cencun Village, Tianhe District, Guangzhou, Guangdong 510000 Patentee after: Guangdong Zhongtaxun Technology Co.,Ltd. Address before: 510630 room 806-812, B building, 89 Zhongshan Avenue West, Tianhe District, Guangzhou, Guangdong. Patentee before: GUANGZHOU SONDON NETWORK TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |