CN104215591A - 一种可见-近红外光谱无损判别的方法 - Google Patents
一种可见-近红外光谱无损判别的方法 Download PDFInfo
- Publication number
- CN104215591A CN104215591A CN201410498422.6A CN201410498422A CN104215591A CN 104215591 A CN104215591 A CN 104215591A CN 201410498422 A CN201410498422 A CN 201410498422A CN 104215591 A CN104215591 A CN 104215591A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- smoothing
- model
- screening
- wavelength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 61
- 240000000111 Saccharum officinarum Species 0.000 claims abstract description 46
- 235000007201 Saccharum officinarum Nutrition 0.000 claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 40
- 230000009261 transgenic effect Effects 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims description 41
- 230000003595 spectral effect Effects 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 30
- 108090000623 proteins and genes Proteins 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 22
- 238000002329 infrared spectrum Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 16
- 238000001514 detection method Methods 0.000 abstract description 7
- 238000009395 breeding Methods 0.000 abstract description 5
- 230000001488 breeding effect Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000007689 inspection Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 239000003153 chemical reaction reagent Substances 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract description 2
- 239000004384 Neotame Substances 0.000 description 12
- HLIAVLHNDJUHFG-HOTGVXAUSA-N neotame Chemical compound CC(C)(C)CCN[C@@H](CC(O)=O)C(=O)N[C@H](C(=O)OC)CC1=CC=CC=C1 HLIAVLHNDJUHFG-HOTGVXAUSA-N 0.000 description 12
- 235000019412 neotame Nutrition 0.000 description 12
- 108010070257 neotame Proteins 0.000 description 12
- 238000000513 principal component analysis Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000012850 discrimination method Methods 0.000 description 3
- 230000002363 herbicidal effect Effects 0.000 description 3
- 239000004009 herbicide Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 101100168355 Arabidopsis thaliana CYP19-1 gene Proteins 0.000 description 2
- 101100007511 Arabidopsis thaliana CYP20-3 gene Proteins 0.000 description 2
- 102100033158 Centrosomal protein of 104 kDa Human genes 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 102100025477 GTP-binding protein Rit1 Human genes 0.000 description 2
- 102100027778 GTP-binding protein Rit2 Human genes 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 2
- 101000944336 Homo sapiens Centrosomal protein of 104 kDa Proteins 0.000 description 2
- 101001111722 Homo sapiens E3 ubiquitin-protein ligase RBX1 Proteins 0.000 description 2
- 101000574654 Homo sapiens GTP-binding protein Rit1 Proteins 0.000 description 2
- 101001111714 Homo sapiens RING-box protein 2 Proteins 0.000 description 2
- 101100198829 Oryza sativa subsp. japonica ROC4 gene Proteins 0.000 description 2
- 101150019434 ROC3 gene Proteins 0.000 description 2
- 108700019146 Transgenes Proteins 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 2
- 238000002835 absorbance Methods 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009659 non-destructive testing Methods 0.000 description 2
- 238000012567 pattern recognition method Methods 0.000 description 2
- 239000013612 plasmid Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ZBMRKNMTMPPMMK-UHFFFAOYSA-N 2-amino-4-[hydroxy(methyl)phosphoryl]butanoic acid;azane Chemical compound [NH4+].CP(O)(=O)CCC(N)C([O-])=O ZBMRKNMTMPPMMK-UHFFFAOYSA-N 0.000 description 1
- 238000002965 ELISA Methods 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108700001094 Plant Genes Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- CZMRCDWAGMRECN-UGDNZRGBSA-N Sucrose Chemical compound O[C@H]1[C@H](O)[C@@H](CO)O[C@@]1(CO)O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 CZMRCDWAGMRECN-UGDNZRGBSA-N 0.000 description 1
- 229930006000 Sucrose Natural products 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 101150103518 bar gene Proteins 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 244000038559 crop plants Species 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000002546 full scan Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- XCAUINMIESBTBL-UHFFFAOYSA-N lead(ii) sulfide Chemical compound [Pb]=S XCAUINMIESBTBL-UHFFFAOYSA-N 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 239000005720 sucrose Substances 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开一种可见-近红外光谱无损判别的方法。本发明提出的基于光谱预处理模型筛选、波长模型筛选、光谱判别分析参数筛选的集成算法,综合了去噪、数据降维、特征提取、分类识别等方面的功能。经过随机抽样检验,取得了高精度的光谱识别效果,显示了可见-近红外漫反射光谱应用于转基因甘蔗育种筛查的可行性。为研发转基因甘蔗叶无损判别技术和相关专用光谱仪器设计提出有效的解决方案。本发明的方法无需试剂、无损、准确;且方便、快捷,节约成本;是一种有潜力的便于应用的检测工具。
Description
技术领域
本发明属于农作物育种筛查的无损检测技术领域,具体涉及一种可见-近红外光谱无损判别的方法。
背景技术
我国是甘蔗制糖大国,蔗糖产量居世界第三位。甘蔗的附加值较高,除制糖外,还用于造纸及燃料乙醇的生产等。甘蔗多生长在高温高湿地区,容易受到多种有害生物的威胁,其中虫害尤为严重。随着现代农业生物技术的发展,转基因技术在甘蔗研究上的应用逐渐开展,甘蔗转基因育种日益受到重视。目前,将含有抗虫基因(Bt)和抗除草剂基因(Bar)导入甘蔗中以对现有甘蔗优良品种进行遗传改良,可有效提高甘蔗抗虫和抗除草剂能力。在转基因甘蔗育种时,必须判定所导入的外源基因是否在甘蔗植株成功表达。目前的基因筛查方法主要是分子生物学的检测技术,其方法复杂,需要使用多种生化试剂,并要求较高的专业操作技能,不能满足现代大规模生产的需要。
近红外(NIR)是介于可见(Vis)和中红外之间的电磁波,主要反映的含氢基团X-H(如C-H、N-H、O-H等)振动的倍频和合频吸收,在快速、实时、无损检测方面具有明显优势,已成功应用于农业、食品、石油化工、生物医学等领域。转基因与非转基因甘蔗叶的蛋白质分子存在差异,含有大量的氢基团X-H,因此,NIR光谱具有分析甘蔗基因变异信息的方法基础,可望用于无损检测。农作物植株的无损检测具有明显的应用优势,同时是方法学的难点所在。因为农作物(如甘蔗叶片)具有复杂组分,它的光谱包含有多种噪音干扰,要求采用先进的化学计量学、计算机模式识别方法进行光谱分析。目前还未见有相关应用研究成果报道。
发明内容
为了克服现有技术的缺点与不足,本发明的目的在于提供一种可见-近红外光谱无损判别的方法。
本发明的另一目的在于提供一种可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法。建立一种基于可见-近红外(Vis-NIR)光谱的对于具Bt和Bar基因甘蔗叶的无损判别方法。首先,采用适当的光谱预处理方法消除光谱噪音,如采用Savitzky-Golay(SG)模型的筛选;其次,对光谱波长模型进行优化,达到提取信息的目的,如采用移动窗口(MW)方式的连续型筛选方法;然后,采用光谱判别分析方法(如有监督的PLS-DA,PCA-LDA方法、无监督的PCA-HCA方法等)进行判别分析,根据判别效果优选模型参数。通过上述三方面的方法集成,建立高效识别转基因与非转基因甘蔗叶样品的方法。为研发转基因甘蔗叶无损判别技术和相关专用光谱仪器设计提出有效的解决方案。
本发明的目的通过下述技术方案实现:一种可见-近红外光谱无损判别的方法,包括如下步骤:
(1)测试样品,得到光谱数据和样品类别的测定结果;把全部样品随机分为建模集和检验集;
(2)光谱预处理模型的筛选:在所测得的光谱波段中,对所有光谱分别进行不同模式的SG平滑预处理,得到SG平滑光谱;
(3)在所得的SG平滑光谱基础上,建立基于主成分分析(PCA)和线性判别分析(LDA)的定标预测模型,计算预测样品的识别准确率P_REC;
(4)根据P_REC的值筛选最优SG平滑模式;
(5)用最优SG平滑模式对所有样品光谱进行预处理,进行波长模型筛选,进一步建立优化波长模型,然后采用光谱判别分析方法,计算识别准确率P_REC;根据最大P_REC值获得全局最优模型,建立可见-近红外光谱无损判别的方法。
步骤(1)中所述的建模集包括定标集和预测集;
步骤(2)中所述的光谱波段为400~2498nm;
步骤(2)中所述的SG平滑的参数包括导数阶数d、多项式次数p和平滑点数m;
所述的d优选为0、1、2、3、4或5;
所述的p优选为2、3、4、5或6;
所述的m优选为5~51之间的奇数;
步骤(5)中所述的波长模型筛选的方法包括连续型波长模型,准连续型波长模型和离散型波长模型;
所述的连续型波长模型优选用移动窗口(MW)方式的连续型筛选方法;
步骤(5)中所述的波长模型的参数包括起点波长I和波长个数N;
所述的I为I∈{400,402,···,2498};
所述的N为N∈{1,2,···,50}∪{60,70,···,200}∪{220,240,···,860}∪{1050};
步骤(5)中所述的光谱判别分析方法,包括有监督的光谱判别分析方法和无监督的光谱判别分析方法;
所述的有监督的光谱判别分析方法包括PLS-DA,PCA-LDA等;
所述的无监督的光谱判别分析方法包括PCA-HCA等;
具体地,一种可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法,包括如下步骤:
(1)测试样品,得到可见-近红外漫反射光谱数据和样品类别的测定结果;把全部样品随机分为建模集和检验集;
(2)光谱预处理模型的筛选:在所测得的光谱波段中,对所有光谱分别进行不同模式的SG平滑预处理,得到SG平滑光谱;
(3)在所得的SG平滑光谱基础上,建立基于主成分分析(PCA)和线性判别分析(LDA)的定标预测模型,计算预测样品的识别准确率P_REC;
(4)根据P_REC的值筛选最优SG平滑模式;
(5)用最优SG平滑模式对所有样品光谱进行预处理,进行波长模型筛选,进一步建立优化波长模型,然后采用光谱判别分析方法,计算识别准确率P_REC;根据最大P_REC值获得全局最优模型,建立高效识别转基因与非转基因甘蔗叶样品的方法。
步骤(1)中所述的建模集包括定标集和预测集;
步骤(2)中所述的光谱波段为400~2498nm;
步骤(2)中所述的SG平滑的参数包括导数阶数d、多项式次数p和平滑点数m;
所述的d优选为0、1、2、3、4或5;
所述的p优选为2、3、4、5或6;
所述的m优选为5~51之间的奇数;
步骤(4)中所述的最优SG平滑模式的参数为d=1,p=3,m=25;
步骤(5)中所述的波长模型筛选的方法包括连续型波长模型,准连续型波长模型和离散型波长模型;
所述的连续型波长模型优选用移动窗口(MW)方式的连续型筛选方法;
步骤(5)中所述的波长模型的参数包括起点波长I和波长个数N;
所述的I为I∈{400,402,···,2498};
所述的N为N∈{1,2,···,50}∪{60,70,···,200}∪{220,240,···,860}∪{1050};
步骤(5)中所述的光谱判别方法,包括有监督的光谱判别分析方法和无监督的光谱判别分析方法;
所述的有监督的光谱判别分析方法包括PLS-DA,PCA-LDA等;
所述的无监督的光谱判别分析方法包括PCA-HCA等;
步骤(5)中所述的全局最优模型的参数为d=1,p=3,m=25,I=768nm,N=28。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明提出的基于光谱预处理模型筛选、波长模型筛选、光谱判别分析参数筛选的集成算法,综合了去噪、数据降维、特征提取、分类识别等方面的功能。经过随机抽样检验,取得了高精度的光谱识别效果,显示了可见-近红外(Vis-NIR)漫反射光谱应用于转基因甘蔗育种筛查的可行性。
(2)本发明的方法无需试剂、无损、准确;且方便、快捷,节约成本;是一种有潜力的便于应用的检测工具。
附图说明
图1是456个甘蔗叶样品的光谱图。
图2是对应于不同起点波长I和波长个数N的预测识别准确率P_REC的结果图;其中,图2(a)是不同起点波长I的预测识别准确率P_REC的结果图;图2(b)是不同波长个数N的预测识别准确率P_REC的结果图。
图3是最优模型(d=1,p=3,m=25,I=768,N=28,PC1-PC3)的检验效果的结果图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
以下材料在文献“台湾省新台糖(ROC)甘蔗品种介绍.广西农业科学.1998,5:229-233”中公开:新台糖1号(ROC1)、新台糖2号(ROC2)、新台糖3号(ROC3)、新台糖4号(ROC4)、新台糖20号(ROC20)和新台糖22号(ROC22)。
以下材料在文献“甘蔗新品种粤糖00-236配套栽培技术研究.甘蔗糖业.2006,01:1-5,40”中公开:粤糖00-236号。
实施例1
本实施例以甘蔗叶的可见-近红外(Vis-NIR)光谱漫反射光谱为例,说明本发明所提出的基于可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法,包括如下步骤:
1.实验材料、仪器和测量方法
(1)材料:
转基因甘蔗材料:以新台糖20号(ROC20)、新台糖22号(ROC22)和粤糖00-236号为受体的三个品种含有Bt基因和Bar基因的转基因甘蔗株系,共306个(阳性)。
非转基因甘蔗材料:新台糖1号(ROC1)、新台糖2号(ROC2)、新台糖3号(ROC3)、新台糖4号(ROC4)、新台糖20号(ROC20)、新台糖22号(ROC22)和粤糖00-236号共7个品种的非转基因甘蔗株系,共150个(阴性)。在转基因甘蔗叶样品育种时,采用ELISA方法对其蛋白质表达进行检测确认,所用试剂盒为美国Agdia公司的BT-Cry1Ab/1Ac试剂盒,操作按说明书,测试用美国Bio-rad公司的iMark酶标仪。
所述的以新台糖20号、新台糖22号和粤糖00-236号为受体的三个品种含有Bt基因和Bar基因的转基因甘蔗株系的获得方法,参照文献“基因枪法获得转crylAc基因甘蔗的研究.热带亚热带植物学报.1998,19(2):142-148”中的转基因方法。
其中,Bt基因为crylAc基因,植物表达载体pGreenⅡ0229质粒源自JohnInnes Centre,该质粒中带有可表达抗膦丝菌素(PPT)和除草剂Basta活性的bar基因。从而,获得以新台糖20号、新台糖22号和粤糖00-236号为受体的三个品种含有Bt基因和Bar基因的转基因甘蔗株系。
(2)样品:
取田间种植,处于伸长期甘蔗的+1叶样品共456个,其中具有Bt基因和Bar基因的转基因甘蔗叶样品(阳性)306个,非转基因甘蔗叶样品(阴性)150个。将样品洗净晾干,去除叶脉,剪为3~4cm的段,取同一样品的4~6片叶片用于光谱检测。
(3)仪器与测量方法:
光谱仪器为XDS Rapid ContentTM型近红外光栅光谱分析仪(丹麦FOSS公司)和圆形漫反射样品附件。光谱扫描范围400~2498nm(包含全近红外区和部分可见光区);波长间隔2nm;400~1100、1100~2498(nm)波段分别用硅(Si)、硫化铅(PbS)探测器。
将样品平铺于圆形漫反射附件中,使叶片完全覆盖光谱仪的探测区域(光斑区)。每个样品测量三次,三次光谱的均值作为样品光谱数据。实验温度、湿度分别为25±1℃、46±1%RH。
2.定标、预测、检验框架和样品划分体系
采用一种严谨的定标、预测、检验框架和样品划分体系。拟从全体样品中随机抽取部分作为检验样品,它们不参与建模过程;其余的作为建模样品,进一步被划分为定标、预测集。最后,采用随机选取的不参与建模的检验样品对优选的模型进行检验。
本实验采用国际上著名的Kennard-Stone(K-S)划分方法,来划分定标、预测集。K-S方法的优点是通过设计适当的算法从全部样品中挑选出一个具有均匀性、能够充分代表整个样品空间的样品子集作为定标集,使得模型具有客观性和代表性。
为了使定标、预测和检验样品集都应包含非转基因(阴性)、转基因(阳性)甘蔗叶样品,因此采用上述方法,分别将阴性、阳性样品划分到定标集(阳性100个,阴性50个)、预测集(阳性100个,阴性50个)和检验集(阳性106个,阴性50个)。
3.光谱预处理模型的筛选
本实验采用国际上著名的Savitzky-Golay(SG)平滑方法,进行光谱预处理。SG方法能够通过平滑、求导的方式克服光谱数据的基线漂移、倾斜以及高阶噪音干扰,具有多参数、多模式、适用范围广的优点。
SG平滑的参数包括导数阶数d(d=0,1,2,3,4,5)、多项式次数p(p=2,3,4,5,6)和平滑点数m(5~25之间奇数)。把光谱区间的m个连续点作为一个窗口,用多项式对窗口内的光谱数据进行最小二乘拟合,确定多项式系数,然后计算窗口中心波长的SG平滑值。通过窗口移动,得到原光谱的SG平滑谱。
考虑到4阶、5阶导数的绝对值偏小,光谱信息损耗过大,故d=4,5的SG平滑模式不作为本文筛选范围。另一方面,考虑到有些实际测量体系可能需要更多的平滑点数,比如测量数据波长间隔小的情形,相邻波长点的数据过于相似,点数少的平滑效果往往不够好。为了拓宽应用范围,本文将平滑点数m从原有的5~25之间奇数扩充为5~51之间的奇数。计算所有平滑模式的平滑系数,共264个平滑模式用于本例的筛选。
4.连续、准连续、离散型波长模型的筛选
波长模型的筛选是光谱信息提取的关键,包括连续、准连续、离散型三大类。本实验采用国际上著名的移动窗口方式的连续型筛选方法。该方法以N个连续波长的光谱数据作为一个窗口,通过移动窗口(改变起点波长I)和改变窗口的大小(波长个数N)的方式,在整个光谱区域内,按照非转基因(阴性)、转基因(阳性)甘蔗叶样品的光谱判别效果进行筛选。
本实施例中选取部分可见光区和全部近红外区(400~2498nm)作为波长筛选范围,波长间隔2nm,波长个数(N)为1050个,光谱图如图1所示。
本实验的具体参数设置如下:I∈{400,402,···,2498},N∈{1,2,···,50}∪{60,70,···,200}∪{220,240,···,860}∪{1050}。
5.光谱判别分析模型
光谱判别分析方法主要分为有监督和无监督两类,有监督的光谱判别方法如PLS-DA、PCA-LDA等,无监督的光谱判别方法如PCA-HCA等。本实验采用国际上著名的PCA-LDA方法。
(1)PCA
选取主成分的个数取决于主成分的累计方差贡献率,通常使用前三个主成分能够代表原始变量所能提供的绝大部分信息。为了便于模式识别,采用前三个主成分两两组合的两维主成分模型。具体过程如下:(1)基于定标集光谱的吸光度矩阵进行主成分分析(PCA),计算相应的载荷矩阵和主成分得分矩阵;(2)选取贡献率最大的前三个主成分(PC1、PC2、PC3),两两组合构成三个主成分平面(并作0-1归一化),即PC1-PC2平面、PC1-PC3平面、PC2-PC3平面;(3)基于预测集光谱的吸光度矩阵和得到的(定标)载荷矩阵,计算预测集样品的主成分得分矩阵,并投影到三个主成分平面。
(2)LDA
LDA是一种有监督的模式识别方法,它基于样品的转基因类型(阴性、阳性)进行训练,得到判别模型。本文在PCA分析的基础上进行LDA判别分析,具体过程如下:(1)在每个主成分平面上,基于定标样品的转基因类型进行线性判别分析,确定最优分类线;(2)基于得到的预测样品的主成分值和最优分类线,对预测样品的类型(阴性、阳性)进行识别;(3)参照预测样品的真实类型,计算识别率,再根据识别率大小确定最优的主成分组合。
6.模型评价指标
(1)计算所有平滑模式对应的SG平滑谱,对于每个SG平滑谱,分别进行PCA分析,进一步分别建立PCA-LDA判别模型。
计算预测样品的识别准确率(Recognition rate,记为P_REC)如下:
其中,NPre为预测样品的个数,为预测集中正确识别样品类型(阴、阳)的个数。
采用MATLAB7.6设计相关计算机算法程序,计算所有264个SG平滑模式对应的P_REC,进一步根据最大P_REC筛选出最优平滑模式,模型参数为d=1,p=3,m=25。
(2)利用最优SG平滑模式对所有样品光谱进行预处理,移动窗口(MW)方式的连续型筛选方式进行波长优化,然后进行PCA-LDA分析,计算P_REC,根据最大P_REC筛选出全局最优模型,参数为d=1,p=3,m=25,I=768,N=28,PC1-PC3。
(3)利用不参加建模的检验样品对优选的SG-MW-PCA-LDA模型进行检验:分别将建模、检验集作为定标、预测集,按照前面的步骤对检验样品进行识别。参照全体检验样品的真实类型,计算阳性、阴性及总样品的检验识别准确率,分别记为V_REC+、V_REC-、V_REC,由下式计算:
其中,为阳性样品的个数,为阳性样品中正确识别样品类型的个数;为阴性样品的个数,为阴性样品中正确识别样品类型的个数;NVal为总样品的个数,为总样品中正确识别样品类型的个数。
7.实施效果
基于全扫描谱区未进行光谱预处理的PCA-LDA方法是光谱判别分析的一种基础方法,但识别精度不够高,如表1所示,该PCA-LDA模型的预测识别准确率为81.3%。因此需要对该方法予以改进,其关键在于对光谱的预处理和对光谱信息波段的优化,但这几方面工作的集成具有很高的技术难度。本实验成功克服了这些技术难点,从实验效果可以看出,预测识别准确率(P_REC)显著提高,达到98.0%。
表1经过SG预处理与未经过SG预处理的PCA-LDA建模效果的比较
另外,除了所得到的最优模型之外,还有很多次优模型,识别效果与最优模型接近,也达到了很高的精度,如图2(a)、图2(b)所示。根据这些结果可以观察到对应于每个起点波长I和每个波长个数N的局部最优模型的预测识别准确率(P_REC),便于选取。表2中列出了一些次优模型参数(起点波长为I,波长个数N,最优主成分组合)及其模型效果(预测识别准确率P_REC),作为参考。
表2部分优选的SG-MW-PCA-LDA模型的效果
(1)在所测得的光谱波段中,对所有光谱分别进行264种不同模式的SG光谱预处理,每种模式对应一组参数组合,即导数阶数d、平滑点数m和多项式系数p,参数设置如下:d=0,1,2,3;p=2,3,4,5,6;m=5,7,…,51。具体的预处理方法:将任意的m个连续的光谱数据作为一个平滑窗口,利用一个p阶多项式拟合窗口中的数据得到平滑后的光谱数据。窗口中心点的d阶导数可以表示为窗口中所有光谱数据的一个线性组合。通过移动平滑窗口可以得到全部波段的SG平滑光谱。
(2)对所得的全部SG平滑光谱,建立基于主成分分析(PCA)和线性判别分析(LDA)的定标预测模型,计算预测样品的识别准确率P_REC;
(3)根据P_REC值的大小筛选最优SG模式,参见表1,确定一组最优的SG参数组合,即d=1,p=3和m=25;
(4)用最优SG模式(d=1,p=3,m=25)对原光谱进行预处理,并通过移动窗口(MW)的方法建立MW-PCA-LDA定标预测模型,进一步优选波段。以N个连续波长的光谱数据作为一个窗口,通过移动窗口(改变起点波长I)和改变窗口的大小(波长个数N)的方式,对整个光谱区域进行筛选,模型参数设置如下:I∈{400,402,···,2498};N∈{1,2,···,50}∪{60,70,···,200}∪{220,240,···,860}∪{1050};
(5)计算P_REC,并筛选最优的模型参数,包括起点波长I、波长个数N和主成分组合PCC(Principal Component Combination,PCC)。对应于起点波长和波长个数的所有模型的建模效果分别绘于图2(a)和图2(b),由图2(a)和图2(b)可以看出,最优的起点波长为I=768,窗口宽度N=28,而最优主成分组合为PC1-PC3;次优模型的起点波长I,波长个数N,主成分组合参见表2。
(6)利用建模之前从全体样品中随机抽取出的检验样品对筛选出的最优模型进行检验,转基因和非转基因样品及总样品的检验识别准确率(V_REC+、V_REC-、V_REC)分别达到99.1%和98.0%及98.7%,识别效果如图3所示。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种可见-近红外光谱无损判别的方法,其特征在于包括如下步骤:
(1)测试样品,得到光谱数据和样品类别的测定结果;把全部样品随机分为建模集和检验集;
(2)光谱预处理模型的筛选:在所测得的光谱波段中,对所有光谱分别进行不同模式的SG平滑预处理,得到SG平滑光谱;
(3)在所得的SG平滑光谱基础上,建立基于PCA和LDA的定标预测模型,计算预测样品的识别准确率P_REC;
(4)根据P_REC的值筛选最优SG平滑模式;
(5)用最优SG平滑模式对所有样品光谱进行预处理,进行波长模型筛选,进一步建立优化波长模型,然后采用光谱判别分析方法,计算识别准确率P_REC;根据最大P_REC值获得全局最优模型,建立可见-近红外光谱无损判别的方法。
2.根据权利要求1所述的方法,其特征在于:
步骤(1)中所述的建模集包括定标集和预测集;
步骤(2)中所述的光谱波段为400~2498nm。
3.根据权利要求1所述的方法,其特征在于:步骤(2)中所述的SG平滑的参数包括导数阶数d、多项式次数p和平滑点数m;
所述的d为0、1、2、3、4或5;
所述的p为2、3、4、5或6;
所述的m为5~51之间的奇数。
4.根据权利要求1所述的方法,其特征在于:
步骤(5)中所述的波长模型的参数包括起点波长I和波长个数N;
所述的I为I∈{400,402,···,2498};
所述的N为N∈{1,2,···,50}∪{60,70,···,200}∪{220,240,···,860}∪{1050}。
5.根据权利要求1所述的方法,其特征在于:步骤(5)中所述的光谱判别分析方法,包括有监督的光谱判别分析方法和无监督的光谱判别分析方法;
所述的有监督的光谱判别分析方法包括PLS-DA,PCA-LDA;
所述的无监督的光谱判别分析方法包括PCA-HCA。
6.一种可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法,包括如下步骤:
(1)测试样品,得到可见-近红外漫反射光谱数据和样品类别的测定结果;把全部样品随机分为建模集和检验集;
(2)光谱预处理模型的筛选:在所测得的光谱波段中,对所有光谱分别进行不同模式的SG平滑预处理,得到SG平滑光谱;
(3)在所得的SG平滑光谱基础上,建立基于PCA和LDA的定标预测模型,计算预测样品的识别准确率P_REC;
(4)根据P_REC的值筛选最优SG平滑模式;
(5)用最优SG平滑模式对所有样品光谱进行预处理,进行波长模型筛选,进一步建立优化波长模型,然后采用光谱判别分析方法,计算识别准确率P_REC;根据最大P_REC值获得全局最优模型,建立高效识别转基因与非转基因甘蔗叶样品的方法。
7.根据权利要求6所述的方法,其特征在于:
步骤(2)中所述的SG平滑的参数包括导数阶数d、多项式次数p和平滑点数m;
所述的d为0、1、2、3、4或5;
所述的p为2、3、4、5或6;
所述的m为5~51之间的奇数。
8.根据权利要求6所述的方法,其特征在于:步骤(4)中所述的最优SG平滑模式的参数为d=1,p=3,m=25。
9.根据权利要求6所述的方法,其特征在于:步骤(5)中所述的波长模型的参数包括起点波长I和波长个数N;
所述的I为I∈{400,402,···,2498};
所述的N为N∈{1,2,···,50}∪{60,70,···,200}∪{220,240,···,860}∪{1050}。
10.根据权利要求6所述的方法,其特征在于:步骤(5)中所述的全局最优模型的参数为d=1,p=3,m=25,I=768nm,N=28。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410498422.6A CN104215591A (zh) | 2014-09-25 | 2014-09-25 | 一种可见-近红外光谱无损判别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410498422.6A CN104215591A (zh) | 2014-09-25 | 2014-09-25 | 一种可见-近红外光谱无损判别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104215591A true CN104215591A (zh) | 2014-12-17 |
Family
ID=52097311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410498422.6A Pending CN104215591A (zh) | 2014-09-25 | 2014-09-25 | 一种可见-近红外光谱无损判别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104215591A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105115938A (zh) * | 2015-07-29 | 2015-12-02 | 北京航空航天大学 | 一种饲料原料中三聚氰胺掺假定量检测方法 |
CN105424647A (zh) * | 2015-11-23 | 2016-03-23 | 中国农业大学 | 水稻种子品种真实性鉴别模型的构建方法及其应用 |
CN105806803A (zh) * | 2016-03-15 | 2016-07-27 | 潘涛 | 一种多指标协同分析波长组合及其选择方法 |
CN106092893A (zh) * | 2016-08-17 | 2016-11-09 | 暨南大学 | 一种光谱判别分析的波长优选方法 |
CN106124445A (zh) * | 2016-06-16 | 2016-11-16 | 福州大学 | 一种快速、无损鉴别转基因大豆方法 |
CN106546553A (zh) * | 2016-10-31 | 2017-03-29 | 浙江大学 | 一种转基因大豆油的快速无损鉴别方法 |
CN106706519A (zh) * | 2015-07-24 | 2017-05-24 | 重庆医科大学 | 基于光谱法同时快速定性分析血清中两种转氨酶的活性 |
CN108844941A (zh) * | 2018-05-30 | 2018-11-20 | 武汉工程大学 | 一种基于拉曼光谱和pca-hca的不同品位磷矿的鉴别和分类方法 |
US10635741B2 (en) | 2016-11-23 | 2020-04-28 | Industrial Technology Research Institute | Method and system for analyzing process factors affecting trend of continuous process |
CN111474124A (zh) * | 2020-05-29 | 2020-07-31 | 暨南大学 | 一种基于补偿的光谱波长选择方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103528990A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
CN104062256A (zh) * | 2013-04-15 | 2014-09-24 | 山东东阿阿胶股份有限公司 | 一种基于近红外光谱的软测量方法 |
-
2014
- 2014-09-25 CN CN201410498422.6A patent/CN104215591A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104062256A (zh) * | 2013-04-15 | 2014-09-24 | 山东东阿阿胶股份有限公司 | 一种基于近红外光谱的软测量方法 |
CN103528990A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
Non-Patent Citations (4)
Title |
---|
HAOSONG GUO ET AL: "Vis-NIR wavelength selection for non-destructive discriminant analysis of breed screening of transgenic sugarcane", 《ANALYTICAL METHODS》 * |
TAO PAN ET AL: "selection method of quasi-continuous wavelength combination with application to the near-infrared spectroscopic analysis of soil organic matter", 《APPLIED SPECTROSCOPY》 * |
朱文超等: "转基因水稻及其亲本叶片的可见/近红外光谱分析", 《光谱学与光谱分析》 * |
谢丽娟等: "可见/近红外光谱分析技术鉴别转基因番茄叶", 《光谱学与光谱分析》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106706519A (zh) * | 2015-07-24 | 2017-05-24 | 重庆医科大学 | 基于光谱法同时快速定性分析血清中两种转氨酶的活性 |
CN106706519B (zh) * | 2015-07-24 | 2020-11-10 | 重庆医科大学 | 基于光谱法同时快速定性分析血清中两种转氨酶的活性 |
CN105115938A (zh) * | 2015-07-29 | 2015-12-02 | 北京航空航天大学 | 一种饲料原料中三聚氰胺掺假定量检测方法 |
CN105424647A (zh) * | 2015-11-23 | 2016-03-23 | 中国农业大学 | 水稻种子品种真实性鉴别模型的构建方法及其应用 |
CN105806803A (zh) * | 2016-03-15 | 2016-07-27 | 潘涛 | 一种多指标协同分析波长组合及其选择方法 |
CN105806803B (zh) * | 2016-03-15 | 2019-07-02 | 潘涛 | 一种多指标协同分析波长组合及其选择方法 |
CN106124445A (zh) * | 2016-06-16 | 2016-11-16 | 福州大学 | 一种快速、无损鉴别转基因大豆方法 |
CN106092893A (zh) * | 2016-08-17 | 2016-11-09 | 暨南大学 | 一种光谱判别分析的波长优选方法 |
CN106546553A (zh) * | 2016-10-31 | 2017-03-29 | 浙江大学 | 一种转基因大豆油的快速无损鉴别方法 |
US10635741B2 (en) | 2016-11-23 | 2020-04-28 | Industrial Technology Research Institute | Method and system for analyzing process factors affecting trend of continuous process |
CN108844941A (zh) * | 2018-05-30 | 2018-11-20 | 武汉工程大学 | 一种基于拉曼光谱和pca-hca的不同品位磷矿的鉴别和分类方法 |
CN111474124A (zh) * | 2020-05-29 | 2020-07-31 | 暨南大学 | 一种基于补偿的光谱波长选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104215591A (zh) | 一种可见-近红外光谱无损判别的方法 | |
Guo et al. | Vis-NIR wavelength selection for non-destructive discriminant analysis of breed screening of transgenic sugarcane | |
Urraca et al. | Estimation of total soluble solids in grape berries using a hand‐held NIR spectrometer under field conditions | |
EP2710353B1 (en) | SPECTROSCOPIC APPARATUS AND METHOD of DETERMINING COMPONENTS PRESENT IN A SAMPLE | |
CN107817223A (zh) | 快速无损实时预测原油性质模型的构建方法及其应用 | |
Xiang et al. | Deep learning and hyperspectral images based tomato soluble solids content and firmness estimation | |
Zhao et al. | Detection of fungus infection on petals of rapeseed (Brassica napus L.) using NIR hyperspectral imaging | |
Balasundram et al. | Precision agriculture technologies for management of plant diseases | |
CN109253985B (zh) | 基于神经网络的近红外光谱识别古筝面板用木材等级的方法 | |
CN109115692B (zh) | 一种光谱数据分析方法及装置 | |
RU2014116255A (ru) | Хемометрика для спектрального анализа ближнего инфракрасного диапазона | |
Power et al. | From the laboratory to the vineyard—evolution of the measurement of grape composition using NIR spectroscopy towards high-throughput analysis | |
CN105717066A (zh) | 一种基于加权相关系数的近红外光谱识别模型 | |
CN105203498A (zh) | 一种基于lasso的近红外光谱变量选择方法 | |
Liu et al. | Identification of GMOs by terahertz spectroscopy and ALAP–SVM | |
CN105486655A (zh) | 基于红外光谱智能鉴定模型的土壤有机质快速检测方法 | |
Fadock et al. | Visible-near infrared reflectance spectroscopy for nondestructive analysis of red wine grapes | |
Meinen et al. | Root discrimination of closely related crop and weed species using FT MIR-ATR spectroscopy | |
CN106124445A (zh) | 一种快速、无损鉴别转基因大豆方法 | |
CN103743705A (zh) | 一种假高粱及其近似物种的快速检测方法 | |
Feng et al. | Nondestructive quality assessment and maturity classification of loquats based on hyperspectral imaging | |
Álvarez et al. | Simple distinction of grapevine (Vitis vinifera L.) genotypes by direct ATR-FTIR | |
Li et al. | Integrating spectral and image information for prediction of cottonseed vitality | |
CN105223140A (zh) | 同源物质的快速识别方法 | |
CN105806803B (zh) | 一种多指标协同分析波长组合及其选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141217 |
|
RJ01 | Rejection of invention patent application after publication |