CN104215591A

CN104215591A - 一种可见-近红外光谱无损判别的方法

Info

Publication number: CN104215591A
Application number: CN201410498422.6A
Authority: CN
Inventors: 潘涛; 肖青青; 郭昊淞; 陈洁梅; 史本山
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2014-09-25
Filing date: 2014-09-25
Publication date: 2014-12-17

Abstract

本发明公开一种可见-近红外光谱无损判别的方法。本发明提出的基于光谱预处理模型筛选、波长模型筛选、光谱判别分析参数筛选的集成算法，综合了去噪、数据降维、特征提取、分类识别等方面的功能。经过随机抽样检验，取得了高精度的光谱识别效果，显示了可见-近红外漫反射光谱应用于转基因甘蔗育种筛查的可行性。为研发转基因甘蔗叶无损判别技术和相关专用光谱仪器设计提出有效的解决方案。本发明的方法无需试剂、无损、准确；且方便、快捷，节约成本；是一种有潜力的便于应用的检测工具。

Description

一种可见-近红外光谱无损判别的方法

技术领域

本发明属于农作物育种筛查的无损检测技术领域，具体涉及一种可见-近红外光谱无损判别的方法。

背景技术

我国是甘蔗制糖大国，蔗糖产量居世界第三位。甘蔗的附加值较高，除制糖外，还用于造纸及燃料乙醇的生产等。甘蔗多生长在高温高湿地区，容易受到多种有害生物的威胁，其中虫害尤为严重。随着现代农业生物技术的发展，转基因技术在甘蔗研究上的应用逐渐开展，甘蔗转基因育种日益受到重视。目前，将含有抗虫基因(Bt)和抗除草剂基因(Bar)导入甘蔗中以对现有甘蔗优良品种进行遗传改良，可有效提高甘蔗抗虫和抗除草剂能力。在转基因甘蔗育种时，必须判定所导入的外源基因是否在甘蔗植株成功表达。目前的基因筛查方法主要是分子生物学的检测技术，其方法复杂，需要使用多种生化试剂，并要求较高的专业操作技能，不能满足现代大规模生产的需要。

近红外(NIR)是介于可见(Vis)和中红外之间的电磁波，主要反映的含氢基团X-H(如C-H、N-H、O-H等)振动的倍频和合频吸收，在快速、实时、无损检测方面具有明显优势，已成功应用于农业、食品、石油化工、生物医学等领域。转基因与非转基因甘蔗叶的蛋白质分子存在差异，含有大量的氢基团X-H，因此，NIR光谱具有分析甘蔗基因变异信息的方法基础，可望用于无损检测。农作物植株的无损检测具有明显的应用优势，同时是方法学的难点所在。因为农作物(如甘蔗叶片)具有复杂组分，它的光谱包含有多种噪音干扰，要求采用先进的化学计量学、计算机模式识别方法进行光谱分析。目前还未见有相关应用研究成果报道。

发明内容

为了克服现有技术的缺点与不足，本发明的目的在于提供一种可见-近红外光谱无损判别的方法。

本发明的另一目的在于提供一种可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法。建立一种基于可见-近红外(Vis-NIR)光谱的对于具Bt和Bar基因甘蔗叶的无损判别方法。首先，采用适当的光谱预处理方法消除光谱噪音，如采用Savitzky-Golay(SG)模型的筛选；其次，对光谱波长模型进行优化，达到提取信息的目的，如采用移动窗口(MW)方式的连续型筛选方法；然后，采用光谱判别分析方法(如有监督的PLS-DA，PCA-LDA方法、无监督的PCA-HCA方法等)进行判别分析，根据判别效果优选模型参数。通过上述三方面的方法集成，建立高效识别转基因与非转基因甘蔗叶样品的方法。为研发转基因甘蔗叶无损判别技术和相关专用光谱仪器设计提出有效的解决方案。

本发明的目的通过下述技术方案实现：一种可见-近红外光谱无损判别的方法，包括如下步骤：

(1)测试样品，得到光谱数据和样品类别的测定结果；把全部样品随机分为建模集和检验集；

(2)光谱预处理模型的筛选：在所测得的光谱波段中，对所有光谱分别进行不同模式的SG平滑预处理，得到SG平滑光谱；

(3)在所得的SG平滑光谱基础上，建立基于主成分分析(PCA)和线性判别分析(LDA)的定标预测模型，计算预测样品的识别准确率P_REC；

(4)根据P_REC的值筛选最优SG平滑模式；

(5)用最优SG平滑模式对所有样品光谱进行预处理，进行波长模型筛选，进一步建立优化波长模型，然后采用光谱判别分析方法，计算识别准确率P_REC；根据最大P_REC值获得全局最优模型，建立可见-近红外光谱无损判别的方法。

步骤(1)中所述的建模集包括定标集和预测集；

步骤(2)中所述的光谱波段为400～2498nm；

步骤(2)中所述的SG平滑的参数包括导数阶数d、多项式次数p和平滑点数m；

所述的d优选为0、1、2、3、4或5；

所述的p优选为2、3、4、5或6；

所述的m优选为5～51之间的奇数；

步骤(5)中所述的波长模型筛选的方法包括连续型波长模型，准连续型波长模型和离散型波长模型；

所述的连续型波长模型优选用移动窗口(MW)方式的连续型筛选方法；

步骤(5)中所述的波长模型的参数包括起点波长I和波长个数N；

所述的I为I∈{400，402，···，2498}；

所述的N为N∈{1，2，···，50}∪{60，70，···，200}∪{220，240，···，860}∪{1050}；

步骤(5)中所述的光谱判别分析方法，包括有监督的光谱判别分析方法和无监督的光谱判别分析方法；

所述的有监督的光谱判别分析方法包括PLS-DA，PCA-LDA等；

所述的无监督的光谱判别分析方法包括PCA-HCA等；

具体地，一种可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法，包括如下步骤：

(1)测试样品，得到可见-近红外漫反射光谱数据和样品类别的测定结果；把全部样品随机分为建模集和检验集；

(4)根据P_REC的值筛选最优SG平滑模式；

(5)用最优SG平滑模式对所有样品光谱进行预处理，进行波长模型筛选，进一步建立优化波长模型，然后采用光谱判别分析方法，计算识别准确率P_REC；根据最大P_REC值获得全局最优模型，建立高效识别转基因与非转基因甘蔗叶样品的方法。

步骤(1)中所述的建模集包括定标集和预测集；

步骤(2)中所述的光谱波段为400～2498nm；

所述的d优选为0、1、2、3、4或5；

所述的p优选为2、3、4、5或6；

所述的m优选为5～51之间的奇数；

步骤(4)中所述的最优SG平滑模式的参数为d＝1，p＝3，m＝25；

所述的I为I∈{400，402，···，2498}；

步骤(5)中所述的光谱判别方法，包括有监督的光谱判别分析方法和无监督的光谱判别分析方法；

所述的有监督的光谱判别分析方法包括PLS-DA，PCA-LDA等；

所述的无监督的光谱判别分析方法包括PCA-HCA等；

步骤(5)中所述的全局最优模型的参数为d＝1，p＝3，m＝25，I＝768nm，N＝28。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明提出的基于光谱预处理模型筛选、波长模型筛选、光谱判别分析参数筛选的集成算法，综合了去噪、数据降维、特征提取、分类识别等方面的功能。经过随机抽样检验，取得了高精度的光谱识别效果，显示了可见-近红外(Vis-NIR)漫反射光谱应用于转基因甘蔗育种筛查的可行性。

(2)本发明的方法无需试剂、无损、准确；且方便、快捷，节约成本；是一种有潜力的便于应用的检测工具。

附图说明

图1是456个甘蔗叶样品的光谱图。

图2是对应于不同起点波长I和波长个数N的预测识别准确率P_REC的结果图；其中，图2(a)是不同起点波长I的预测识别准确率P_REC的结果图；图2(b)是不同波长个数N的预测识别准确率P_REC的结果图。

图3是最优模型(d＝1，p＝3，m＝25，I＝768，N＝28，PC₁-PC₃)的检验效果的结果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

以下材料在文献“台湾省新台糖(ROC)甘蔗品种介绍.广西农业科学.1998,5:229-233”中公开：新台糖1号(ROC1)、新台糖2号(ROC2)、新台糖3号(ROC3)、新台糖4号(ROC4)、新台糖20号(ROC20)和新台糖22号(ROC22)。

以下材料在文献“甘蔗新品种粤糖00-236配套栽培技术研究.甘蔗糖业.2006,01:1-5,40”中公开：粤糖00-236号。

实施例1

本实施例以甘蔗叶的可见-近红外(Vis-NIR)光谱漫反射光谱为例，说明本发明所提出的基于可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法，包括如下步骤：

1.实验材料、仪器和测量方法

(1)材料：

转基因甘蔗材料：以新台糖20号(ROC20)、新台糖22号(ROC22)和粤糖00-236号为受体的三个品种含有Bt基因和Bar基因的转基因甘蔗株系，共306个(阳性)。

非转基因甘蔗材料：新台糖1号(ROC1)、新台糖2号(ROC2)、新台糖3号(ROC3)、新台糖4号(ROC4)、新台糖20号(ROC20)、新台糖22号(ROC22)和粤糖00-236号共7个品种的非转基因甘蔗株系，共150个(阴性)。在转基因甘蔗叶样品育种时，采用ELISA方法对其蛋白质表达进行检测确认，所用试剂盒为美国Agdia公司的BT-Cry1Ab/1Ac试剂盒，操作按说明书，测试用美国Bio-rad公司的iMark酶标仪。

所述的以新台糖20号、新台糖22号和粤糖00-236号为受体的三个品种含有Bt基因和Bar基因的转基因甘蔗株系的获得方法，参照文献“基因枪法获得转crylAc基因甘蔗的研究.热带亚热带植物学报.1998,19(2):142-148”中的转基因方法。

其中，Bt基因为crylAc基因，植物表达载体pGreenⅡ0229质粒源自JohnInnes Centre，该质粒中带有可表达抗膦丝菌素(PPT)和除草剂Basta活性的bar基因。从而，获得以新台糖20号、新台糖22号和粤糖00-236号为受体的三个品种含有Bt基因和Bar基因的转基因甘蔗株系。

(2)样品：

取田间种植，处于伸长期甘蔗的+1叶样品共456个，其中具有Bt基因和Bar基因的转基因甘蔗叶样品(阳性)306个，非转基因甘蔗叶样品(阴性)150个。将样品洗净晾干，去除叶脉，剪为3～4cm的段，取同一样品的4～6片叶片用于光谱检测。

(3)仪器与测量方法：

光谱仪器为XDS Rapid Content^TM型近红外光栅光谱分析仪(丹麦FOSS公司)和圆形漫反射样品附件。光谱扫描范围400～2498nm(包含全近红外区和部分可见光区)；波长间隔2nm；400～1100、1100～2498(nm)波段分别用硅(Si)、硫化铅(PbS)探测器。

将样品平铺于圆形漫反射附件中，使叶片完全覆盖光谱仪的探测区域(光斑区)。每个样品测量三次，三次光谱的均值作为样品光谱数据。实验温度、湿度分别为25±1℃、46±1％RH。

2.定标、预测、检验框架和样品划分体系

采用一种严谨的定标、预测、检验框架和样品划分体系。拟从全体样品中随机抽取部分作为检验样品，它们不参与建模过程；其余的作为建模样品，进一步被划分为定标、预测集。最后，采用随机选取的不参与建模的检验样品对优选的模型进行检验。

本实验采用国际上著名的Kennard-Stone(K-S)划分方法，来划分定标、预测集。K-S方法的优点是通过设计适当的算法从全部样品中挑选出一个具有均匀性、能够充分代表整个样品空间的样品子集作为定标集，使得模型具有客观性和代表性。

为了使定标、预测和检验样品集都应包含非转基因(阴性)、转基因(阳性)甘蔗叶样品，因此采用上述方法，分别将阴性、阳性样品划分到定标集(阳性100个，阴性50个)、预测集(阳性100个，阴性50个)和检验集(阳性106个，阴性50个)。

3.光谱预处理模型的筛选

本实验采用国际上著名的Savitzky-Golay(SG)平滑方法，进行光谱预处理。SG方法能够通过平滑、求导的方式克服光谱数据的基线漂移、倾斜以及高阶噪音干扰，具有多参数、多模式、适用范围广的优点。

SG平滑的参数包括导数阶数d(d＝0,1,2,3,4,5)、多项式次数p(p＝2,3,4,5,6)和平滑点数m(5～25之间奇数)。把光谱区间的m个连续点作为一个窗口，用多项式对窗口内的光谱数据进行最小二乘拟合，确定多项式系数，然后计算窗口中心波长的SG平滑值。通过窗口移动，得到原光谱的SG平滑谱。

考虑到4阶、5阶导数的绝对值偏小，光谱信息损耗过大，故d＝4,5的SG平滑模式不作为本文筛选范围。另一方面，考虑到有些实际测量体系可能需要更多的平滑点数，比如测量数据波长间隔小的情形，相邻波长点的数据过于相似，点数少的平滑效果往往不够好。为了拓宽应用范围，本文将平滑点数m从原有的5～25之间奇数扩充为5～51之间的奇数。计算所有平滑模式的平滑系数，共264个平滑模式用于本例的筛选。

4.连续、准连续、离散型波长模型的筛选

波长模型的筛选是光谱信息提取的关键，包括连续、准连续、离散型三大类。本实验采用国际上著名的移动窗口方式的连续型筛选方法。该方法以N个连续波长的光谱数据作为一个窗口，通过移动窗口(改变起点波长I)和改变窗口的大小(波长个数N)的方式，在整个光谱区域内，按照非转基因(阴性)、转基因(阳性)甘蔗叶样品的光谱判别效果进行筛选。

本实施例中选取部分可见光区和全部近红外区(400～2498nm)作为波长筛选范围，波长间隔2nm，波长个数(N)为1050个，光谱图如图1所示。

本实验的具体参数设置如下：I∈{400，402，···，2498}，N∈{1，2，···，50}∪{60，70，···，200}∪{220，240，···，860}∪{1050}。

5.光谱判别分析模型

光谱判别分析方法主要分为有监督和无监督两类，有监督的光谱判别方法如PLS-DA、PCA-LDA等，无监督的光谱判别方法如PCA-HCA等。本实验采用国际上著名的PCA-LDA方法。

(1)PCA

选取主成分的个数取决于主成分的累计方差贡献率，通常使用前三个主成分能够代表原始变量所能提供的绝大部分信息。为了便于模式识别，采用前三个主成分两两组合的两维主成分模型。具体过程如下：(1)基于定标集光谱的吸光度矩阵进行主成分分析(PCA)，计算相应的载荷矩阵和主成分得分矩阵；(2)选取贡献率最大的前三个主成分(PC₁、PC₂、PC₃)，两两组合构成三个主成分平面(并作0-1归一化)，即PC₁-PC₂平面、PC₁-PC₃平面、PC₂-PC₃平面；(3)基于预测集光谱的吸光度矩阵和得到的(定标)载荷矩阵，计算预测集样品的主成分得分矩阵，并投影到三个主成分平面。

(2)LDA

LDA是一种有监督的模式识别方法，它基于样品的转基因类型(阴性、阳性)进行训练，得到判别模型。本文在PCA分析的基础上进行LDA判别分析，具体过程如下：(1)在每个主成分平面上，基于定标样品的转基因类型进行线性判别分析，确定最优分类线；(2)基于得到的预测样品的主成分值和最优分类线，对预测样品的类型(阴性、阳性)进行识别；(3)参照预测样品的真实类型，计算识别率，再根据识别率大小确定最优的主成分组合。

6.模型评价指标

(1)计算所有平滑模式对应的SG平滑谱，对于每个SG平滑谱，分别进行PCA分析，进一步分别建立PCA-LDA判别模型。

计算预测样品的识别准确率(Recognition rate，记为P_REC)如下：

P_PEC = \frac{{\tilde{N}}_{Pre}}{N_{Pre}} \times 100 %

其中，N_Pre为预测样品的个数，为预测集中正确识别样品类型(阴、阳)的个数。

采用MATLAB7.6设计相关计算机算法程序，计算所有264个SG平滑模式对应的P_REC，进一步根据最大P_REC筛选出最优平滑模式，模型参数为d＝1，p＝3，m＝25。

(2)利用最优SG平滑模式对所有样品光谱进行预处理，移动窗口(MW)方式的连续型筛选方式进行波长优化，然后进行PCA-LDA分析，计算P_REC，根据最大P_REC筛选出全局最优模型，参数为d＝1，p＝3，m＝25，I＝768，N＝28，PC₁-PC₃。

(3)利用不参加建模的检验样品对优选的SG-MW-PCA-LDA模型进行检验：分别将建模、检验集作为定标、预测集，按照前面的步骤对检验样品进行识别。参照全体检验样品的真实类型，计算阳性、阴性及总样品的检验识别准确率，分别记为V_REC⁺、V_REC^-、V_REC，由下式计算：

V_{PEC}^{+} = \frac{{\tilde{N}}_{Val}^{+}}{N_{Val}^{+}} \times 100 %;

V_{PEC}^{-} = \frac{{\tilde{N}}_{Val}^{-}}{N_{Val}^{-}} \times 100 %;

V_REC = \frac{{\tilde{N}}_{Val}}{N_{Val}} \times 100 %;

其中，为阳性样品的个数，为阳性样品中正确识别样品类型的个数；为阴性样品的个数，为阴性样品中正确识别样品类型的个数；N_Val为总样品的个数，为总样品中正确识别样品类型的个数。

7.实施效果

基于全扫描谱区未进行光谱预处理的PCA-LDA方法是光谱判别分析的一种基础方法，但识别精度不够高，如表1所示，该PCA-LDA模型的预测识别准确率为81.3％。因此需要对该方法予以改进，其关键在于对光谱的预处理和对光谱信息波段的优化，但这几方面工作的集成具有很高的技术难度。本实验成功克服了这些技术难点，从实验效果可以看出，预测识别准确率(P_REC)显著提高，达到98.0％。

表1经过SG预处理与未经过SG预处理的PCA-LDA建模效果的比较

另外，除了所得到的最优模型之外，还有很多次优模型，识别效果与最优模型接近，也达到了很高的精度，如图2(a)、图2(b)所示。根据这些结果可以观察到对应于每个起点波长I和每个波长个数N的局部最优模型的预测识别准确率(P_REC)，便于选取。表2中列出了一些次优模型参数(起点波长为I，波长个数N，最优主成分组合)及其模型效果(预测识别准确率P_REC)，作为参考。

表2部分优选的SG-MW-PCA-LDA模型的效果

(1)在所测得的光谱波段中，对所有光谱分别进行264种不同模式的SG光谱预处理，每种模式对应一组参数组合，即导数阶数d、平滑点数m和多项式系数p，参数设置如下：d＝0,1,2,3；p＝2,3,4,5,6；m＝5,7,…,51。具体的预处理方法：将任意的m个连续的光谱数据作为一个平滑窗口，利用一个p阶多项式拟合窗口中的数据得到平滑后的光谱数据。窗口中心点的d阶导数可以表示为窗口中所有光谱数据的一个线性组合。通过移动平滑窗口可以得到全部波段的SG平滑光谱。

(2)对所得的全部SG平滑光谱，建立基于主成分分析(PCA)和线性判别分析(LDA)的定标预测模型，计算预测样品的识别准确率P_REC；

(3)根据P_REC值的大小筛选最优SG模式，参见表1，确定一组最优的SG参数组合，即d＝1，p＝3和m＝25；

(4)用最优SG模式(d＝1，p＝3，m＝25)对原光谱进行预处理，并通过移动窗口(MW)的方法建立MW-PCA-LDA定标预测模型，进一步优选波段。以N个连续波长的光谱数据作为一个窗口，通过移动窗口(改变起点波长I)和改变窗口的大小(波长个数N)的方式，对整个光谱区域进行筛选，模型参数设置如下：I∈{400，402，···，2498}；N∈{1，2，···，50}∪{60，70，···，200}∪{220，240，···，860}∪{1050}；

(5)计算P_REC，并筛选最优的模型参数，包括起点波长I、波长个数N和主成分组合PCC(Principal Component Combination，PCC)。对应于起点波长和波长个数的所有模型的建模效果分别绘于图2(a)和图2(b)，由图2(a)和图2(b)可以看出，最优的起点波长为I＝768，窗口宽度N＝28，而最优主成分组合为PC₁-PC₃；次优模型的起点波长I，波长个数N，主成分组合参见表2。

(6)利用建模之前从全体样品中随机抽取出的检验样品对筛选出的最优模型进行检验，转基因和非转基因样品及总样品的检验识别准确率(V_REC⁺、V_REC^-、V_REC)分别达到99.1％和98.0％及98.7％，识别效果如图3所示。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种可见-近红外光谱无损判别的方法，其特征在于包括如下步骤：

(3)在所得的SG平滑光谱基础上，建立基于PCA和LDA的定标预测模型，计算预测样品的识别准确率P_REC；

(4)根据P_REC的值筛选最优SG平滑模式；

2.根据权利要求1所述的方法，其特征在于：

步骤(1)中所述的建模集包括定标集和预测集；

步骤(2)中所述的光谱波段为400～2498nm。

3.根据权利要求1所述的方法，其特征在于：步骤(2)中所述的SG平滑的参数包括导数阶数d、多项式次数p和平滑点数m；

所述的d为0、1、2、3、4或5；

所述的p为2、3、4、5或6；

所述的m为5～51之间的奇数。

4.根据权利要求1所述的方法，其特征在于：

所述的I为I∈{400，402，···，2498}；

所述的N为N∈{1，2，···，50}∪{60，70，···，200}∪{220，240，···，860}∪{1050}。

5.根据权利要求1所述的方法，其特征在于：步骤(5)中所述的光谱判别分析方法，包括有监督的光谱判别分析方法和无监督的光谱判别分析方法；

所述的有监督的光谱判别分析方法包括PLS-DA，PCA-LDA；

所述的无监督的光谱判别分析方法包括PCA-HCA。

6.一种可见-近红外光谱无损判别具Bt和Bar基因甘蔗叶的方法，包括如下步骤：

(4)根据P_REC的值筛选最优SG平滑模式；

7.根据权利要求6所述的方法，其特征在于：

所述的d为0、1、2、3、4或5；

所述的p为2、3、4、5或6；

所述的m为5～51之间的奇数。

8.根据权利要求6所述的方法，其特征在于：步骤(4)中所述的最优SG平滑模式的参数为d＝1，p＝3，m＝25。

9.根据权利要求6所述的方法，其特征在于：步骤(5)中所述的波长模型的参数包括起点波长I和波长个数N；

所述的I为I∈{400，402，···，2498}；

10.根据权利要求6所述的方法，其特征在于：步骤(5)中所述的全局最优模型的参数为d＝1，p＝3，m＝25，I＝768nm，N＝28。