Nothing Special   »   [go: up one dir, main page]

CN104374739A - 一种基于近红外定性分析的种子品种真实性鉴别方法 - Google Patents

一种基于近红外定性分析的种子品种真实性鉴别方法 Download PDF

Info

Publication number
CN104374739A
CN104374739A CN201410599260.5A CN201410599260A CN104374739A CN 104374739 A CN104374739 A CN 104374739A CN 201410599260 A CN201410599260 A CN 201410599260A CN 104374739 A CN104374739 A CN 104374739A
Authority
CN
China
Prior art keywords
msub
mrow
matrix
data
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410599260.5A
Other languages
English (en)
Inventor
张丽萍
李卫军
董肖莉
覃鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Semiconductors of CAS
Original Assignee
Institute of Semiconductors of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Semiconductors of CAS filed Critical Institute of Semiconductors of CAS
Priority to CN201410599260.5A priority Critical patent/CN104374739A/zh
Publication of CN104374739A publication Critical patent/CN104374739A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于近红外定性分析的种子品种真实性鉴别方法,该方法包括:采集种子样本的近红外光谱数据,并确定建模集和测试集;对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特征提取;从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变换矩阵;将该变换矩阵应用于剩余测试集;采用支持向量机方法建立定性分析模型;利用该定性分析模型对剩余测试集进行品种真实性鉴别。本发明建立在近红外光谱基础上,通过光谱预处理、特征提取、校正测试集、建模、鉴别等一系列操作,建立更为稳定的近红外光谱分析模型,解决因同一台仪器长时间的光谱偏移带来的模型适用性问题,使鉴别结果更为准确。

Description

一种基于近红外定性分析的种子品种真实性鉴别方法
技术领域
本发明涉及种子的品种鉴别领域,特别是一种基于近红外定性分析的种子品种真实性鉴别方法。 
背景技术
中国是农业大国,农业是安天下、稳民心的战略产业。“国以农为本,农以种为先”,种业安全是我国粮食安全的前提,是农业安全的先决条件之一。然而,我国的种业市场不容乐观,品种侵权行为严重,假劣种子坑农害农事件时有发生。企业维权难,诉讼难,追赔难,致使许多优良品种遭受侵权,以至于形成育种的不如卖种的、搞科研的不如搞经营的怪象。 
目前所采用的品种鉴别方法大体可分为以下三类:一)基于形态特性的鉴别方法,主要包括种子形态鉴别、幼苗形态鉴别、田间种植鉴别和计算机模拟形态分析等方法;二)基于分子生物学技术的鉴别方法,主要包括蛋白质指纹图谱和DNA指纹图谱两类鉴别方法;三)基于化学、物理特性的鉴别方法,主要有苯酚染色法、氢氧化钠染色法、氢氧化钾染色法、荧光扫描图谱法等。 
以上方法均存在多种技术障碍:(1)鉴别时间长;(2)鉴别成本高;(3)过程烦琐;(4)鉴别者需要专门技术知识;(5)鉴别需要特定的测试条件、化学试剂、器材等。因此,种业市场缺乏有效的快速现场鉴别技术手段和设备,给农业生产、管理执法等带来诸多困难,难以有效保障种子安全与粮食安全。 
近红外光谱是基于物质对近红外谱区电磁波吸收的一种光谱技术,由于近红外光谱分析技术具有简便、快捷、低成本、无污染以及不破坏样品等优点,因此被广泛应用于多个行业。近红外定性分析主要用于物质的定性判别分析,即通过比较未知样品和建模样品或标准样品的光谱来确定未知样品的归属。 
在实际应用中发现,同一台仪器长时间的光谱偏移面临着模型适用性的问题,由于相同物质不同品种间成分相差较小,光谱相互交叠,因此这种差异对定性分析的影响甚至比定量分析更为严重,严重时甚至完全不能正确识别。 
针对种子品种真实性鉴别方法的现状与诸多不足,与同一台仪器长期的光谱偏移问题,本发明提出一种基于近红外定性分析的种子品种真实性鉴别方法。 
发明内容
(一)要解决的技术问题 
有鉴于此,本发明的主要目的是为了提供一种简单可行、快速高效,并且能提高模型适用性的一种基于近红外定性分析的种子品种真实性鉴别方法。 
(二)技术方案 
为达到上述目的,本发明提供了一种基于近红外定性分析的种子品种真实性鉴别方法,该方法包括:步骤1:采集种子样本的近红外光谱数据,并确定建模集和测试集;步骤2:对建模集和测试集依次进行预处理、偏最小二乘(PLS)特征提取和线性鉴别分析(LDA)特征提取;步骤3:从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变换矩阵;步骤4:将该变换矩阵应用于剩余测试集;步骤5:采用支持向量机(SVM)方法建立定性分析模型;步骤6:利用该定性分析模型对剩余测试集进行品种真实性鉴别。 
上述方案中,步骤1中所述采集种子样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集种子样本的近红外光谱数据。所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原始测试数据。 
上述方案中,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特征提取,具体包括: 
步骤21:对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处理; 
步骤22:对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到PLS特征矩阵,以利用该矩阵将数据变换到PLS空间; 
步骤23:利用该PLS特征矩阵,将经过预处理之后的建模集和测试集数据变换到PLS空间中; 
步骤24:对经过PLS特征提取之后的建模集数据进行线性鉴别分析特征提取,得到LDA特征矩阵,以利用该投影矩阵将数据变换到LDA空间; 
步骤25:利用该LDA特征矩阵,将经过PLS特征提取之后的建模集和测试集数据变换到LDA空间中; 
步骤26:利用变换到LDA空间中的建模集数据进行建模,用变换到LDA空间中的测试集数据进行鉴别。 
上述方案中,步骤2中所述的预处理、偏最小二乘特征提取、线性鉴别分析特征提取,在对建模集和测试集处理时采用相同的参数。所述的预处理,是为了去除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。 
上述方案中,步骤22中所述PLS特征矩阵提取,具体算法如下: 
步骤221:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵: 
Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类; 
步骤222:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y′0X0,其中协方差矩阵 常数舍弃; 
步骤223:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS; 
步骤224:得到新的特征向量为:x′i=xiW′PLS。 
上述方案中,步骤25中所述将经过PLS特征提取之后的建模集和测试集数据变换到LDA空间中,具体如下: 
步骤251:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下: 
S W = Σ i = 1 c Σ j = 1 N i ( x ij - m i ) ( x ij - m i ‾ ) ′
S B = Σ i = 1 N ( m i - m ‾ ) ( m i - m ‾ ) ′
其中,为第i类模式的均值,为总样本均值; 
步骤252:LDA分析的目标,是寻找一个变换矩阵W,使得Fisher准则取得最大值的方向为SB与SW比值最大的方向(SW非奇异时): 
J W = arg max | W T S B W | | W T S W W | = [ w 1 , w 2 , . . . , w n ]
其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量:SBw=λSW w;如果SW非奇异,则上式可直接转换为 来求解,即求解对应的特征值和特征矩阵,取最大的n维特征值对应的特征向量组成投影矩阵WLDA; 
步骤253:得到WLDA即可进行数据转换Y′=YW′LDA。 
上述方案中,步骤3中所述的建模集和测试集,是指经过预处理、偏 最小二乘和线性鉴别分析特征提取之后的光谱数据集。所述的选取光谱校正集,是指从建模集和测试集中各自挑选出用于光谱校正的光谱数据。 
上述方案中,所述从建模集和测试集中各自挑选出用于光谱校正的光谱数据是采用Kennard/Stone算法,具体包括以下过程: 
步骤31:设置需要选取的校正样品个数k; 
步骤32:计算所有建模集样本两两之间的距离,将距离最远的两个样本选为校正集的第一、二个样本; 
步骤33:对于剩余样本,计算其与已选样本之间的距离并取其最小值,然后选择这些距离中最大值对应的样本为本次选择样本; 
步骤34:重复步骤33,直至选够k个样本组成建模集的校正集; 
步骤35:在测试集中选择建模集中所选出的对应编号的样本作为测试集的校正集。 
上述方案中,步骤3中所述计算建模集与测试集之间的变换矩阵,具体包括: 
步骤a:设建模集光谱校正集矩阵为S1,测试集光谱校正集矩阵为S2,矩阵的行列分别表示样品数和数据点数;由S1和S2根据公式求得变换矩阵,其中,为中心化后的光谱矩阵,的广义逆; 
步骤b:利用步骤a中得到的F计算背景校正矩阵其中s1n和s2n分别为S1和S2每列元素平均值组成的行向量; 
通过以上两步,得到了变换矩阵F和背景校正矩阵bs。 
上述方案中,由于同一台光谱仪随着时间推移,会产生光谱偏移,步骤3中所述的变换矩阵,是为了在建模集和测试集之间建立校正模型,使测试集可以利用该校正模型进行光谱校正,解决光谱偏移所带来的模型不适用的问题,不同的测试集对应不同的变换矩阵。 
上述方案中,步骤4中所述将变换矩阵应用于剩余测试集,具体包括: 
步骤41:对测试集光谱中的测试集数据X2,计算其变换后的矩阵 (其中,F和bs为权利要求项10中求得的变换矩阵和背景校正矩阵,l为全1的列向量,长度为样本数); 
步骤42:变换后的数据矩阵X′2即可用已建模型进行鉴别。 
上述方案中,步骤4中所述剩余测试集,是指从测试集中挑选出光谱 校正集之后剩余的测试数据集。 
上述方案中,步骤5中所述采用支持向量机方法建立定性分析模型,具体包括: 
步骤51:将经过预处理及特征提取之后的建模样本数据x1,x2,...,xn,作为SVM建模数据; 
步骤52:确定建模样本数据中的类别标签数据y1,y2,...,yn,yi∈{+1,-1}; 
步骤53:设置SVM建模过程中的各个参数,包括分类器、核函数类型等,以此来确定最佳分类界面; 
步骤54:利用该最佳分类界面,对未知样本数据进行分类。 
上述方案中,步骤53中所述设置SVM建模过程中的各个参数,包括分类器、核函数类型等,以此来确定最佳分类界面,具体包括: 
假设这个最佳的分类界面为:w′x+b=0 
则判别函数为:f(x)=w′x+b, 
因此: 
f ( x ) > 0 , x &Element; w 1 f ( x ) < 0 , x &Element; w 2
假定两类样本到分类界面最小的距离均为d,即存在样本x1∈w1,x2∈w2,使得: 
f(x1)=w′x1+b=d 
f(x2)=w′x2+b=-d 
右边归一化得: 
w′d x1+bd=1 
w′d x2+bd=-1 
其中: 
w &prime; d = w d , b d = b d
因此,可得: 
w &prime; d ( x 1 - x 2 ) = 2 &DoubleRightArrow; &delta; = w &prime; d ( x 1 - x 2 ) | | w | | = 2 | | w | |
要使分类间隔最大,等效于最小。问题转化为一个典型的优化问题: 
min 1 2 | | w | | 2
s.t yi(w′xi+b)-1≥0 
其中,约束条件表示所有样本被正确分类。使用拉格朗日算法可以求解此优化问题,从而得到最佳的分类界面。 
上述方案中,步骤6中所述利用定性分析模型对剩余测试集进行品种真实性鉴别,是利用支持向量机方法对剩余测试集进行分类鉴别,并给出鉴别结果,具体包括: 
利用所建立的SVM分类器的最佳分类界面,对未知分类的测试样本数据进行分类,根据其分类结果确定其所属类别。 
(三)有益效果 
从上述技术方案中可以看出,本发明具有以下有益效果: 
(1)本发明提供的基于近红外定性分析的种子品种真实性鉴别方法,采用近红外光谱数据来进行种子品种鉴别,快速高效、无害无污染,对样本无破坏,且操作简单,无须专业人士即可实现。 
(2)本发明提供的基于近红外定性分析的种子品种真实性鉴别方法,由于计算了建模集和测试集之间的光谱变换关系,并利用该变换关系应用于测试集中,实现测试集的校正,从而解决了同一台仪器长时间的光谱偏移问题,提高了模型的鉴别能力。 
(3)本发明提供的基于近红外定性分析的种子品种真实性鉴别方法,在选取校正集时是在特征提取之后进行的,此时光谱数据的维数较低,在求取变换矩阵时能够快速实现,在提高模型稳定性的同时节省了时间,降低了计算复杂度。 
附图说明
图1是本发明提供的基于近红外定性分析的种子品种真实性鉴别方法 的流程图。 
图2是本发明实施例未进行校正前建模集和测试集2的光谱分布图。 
图3是本发明实施例进行校正后建模集和测试集2的光谱分布图。 
图4是依照本发明实施例的测试集3的校正位置不同对识别效果的影响。 
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。 
需要说明的是,本发明提出的实验方法和操作并非表示此方法只局限于农业领域,在石油化工、医药制药、生物分析研究、食品安全等方面均有利用价值。实施例使用的各步骤算法并非用来限制本发明。 
如图1所示,图1是本发明提供的基于近红外定性分析的种子品种真实性鉴别方法的流程图,该方法包括: 
步骤1:采集种子样本的近红外光谱数据,并确定建模集和测试集; 
在本步骤中,所述采集种子样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集种子样本的近红外光谱数据。所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原始测试数据。 
步骤2:对建模集和测试集依次进行预处理、偏最小二乘(PLS)特征提取和线性鉴别分析(LDA)特征提取; 
在本步骤中,所述的预处理、偏最小二乘特征提取和线性鉴别分析特征提取,在对建模集和测试集处理时采用相同的参数。所述的预处理,是为了去除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。 
步骤3:从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变换矩阵; 
在本步骤中,所述的建模集和测试集,是指经过预处理、偏最小二乘和线性鉴别分析特征提取之后的光谱数据集。所述的选取光谱校正集,是 指从建模集和测试集中各自挑选出用于光谱校正的光谱数据。 
其中,所述从建模集和测试集中各自挑选出用于光谱校正的光谱数据是采用Kennard/Stone算法,具体包括以下过程: 
步骤31:设置需要选取的校正样品个数k; 
步骤32:计算所有建模集样本两两之间的距离,将距离最远的两个样本选为校正集的第一、二个样本; 
步骤33:对于剩余样本,计算其与已选样本之间的距离并取其最小值,然后选择这些距离中最大值对应的样本为本次选择样本; 
步骤34:重复步骤33,直至选够k个样本组成建模集的校正集; 
步骤35:在测试集中选择建模集中所选出的对应编号的样本作为测试集的校正集。 
其中,所述计算建模集与测试集之间的变换矩阵,具体包括: 
步骤a:设建模集光谱校正集矩阵为S1,测试集光谱校正集矩阵为S2,矩阵的行列分别表示样品数和数据点数;由S1和S2根据公式求得变换矩阵,其中,为中心化后的光谱矩阵,的广义逆; 
步骤b:利用步骤a中得到的F计算背景校正矩阵其中s1n和s2n分别为S1和S2每列元素平均值组成的行向量; 
通过以上两步,得到了变换矩阵F和背景校正矩阵bs。 
由于同一台光谱仪随着时间推移,会产生光谱偏移,步骤3中所述的变换矩阵,是为了在建模集和测试集之间建立校正模型,使测试集可以利用该校正模型进行光谱校正,解决光谱偏移所带来的模型不适用的问题,不同的测试集对应不同的变换矩阵。 
步骤4:将该变换矩阵应用于剩余测试集; 
在本步骤中,所述剩余测试集,是指从测试集中挑选出光谱校正集之后剩余的测试数据集;所述将变换矩阵应用于剩余测试集,具体包括: 
步骤41:对测试集光谱中的测试集数据X2,计算其变换后的矩阵 (其中,F和bs为权利要求项10中求得的变换矩阵和背景校正矩阵,l为全1的列向量,长度为样本数); 
步骤42:变换后的数据矩阵X′2即可用已建模型进行鉴别。 
步骤5:采用支持向量机方法建立定性分析模型; 
步骤6:利用该定性分析模型对剩余测试集进行品种真实性鉴别; 
在本步骤中,所述利用定性分析模型对剩余测试集进行品种真实性鉴别,是利用支持向量机方法对剩余测试集进行分类鉴别,并给出鉴别结果,具体包括:利用所建立的SVM分类器的最佳分类界面,对未知分类的测试样本数据进行分类,根据其分类结果确定其所属类别。 
在本发明的一个实施例中,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特征提取,具体包括: 
步骤21:对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处理; 
步骤22:对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到PLS特征矩阵,以利用该矩阵将数据变换到PLS空间;其中,所述PLS特征矩阵提取,具体算法如下: 
步骤221:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵: 
Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类; 
步骤222:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y′0X0,其中协方差矩阵常数舍弃; 
步骤223:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS; 
步骤224:得到新的特征向量为:x′i=xiW′PLS。 
步骤23:利用该PLS特征矩阵,将经过预处理之后的建模集和测试集数据变换到PLS空间中; 
步骤24:对经过PLS特征提取之后的建模集数据进行线性鉴别分析特征提取,得到LDA特征矩阵,以利用该投影矩阵将数据变换到LDA空间; 
步骤25:利用该LDA特征矩阵,将经过PLS特征提取之后的建模集和测试集数据变换到LDA空间中;其中,所述将经过PLS特征提取之后的建模集和测试集数据变换到LDA空间中,具体如下: 
步骤251:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下: 
S W = &Sigma; i = 1 c &Sigma; j = 1 N i ( x ij - m i ) ( x ij - m i &OverBar; ) &prime;
S B = &Sigma; i = 1 N ( m i - m &OverBar; ) ( m i - m &OverBar; ) &prime;
其中,为第i类模式的均值,为总样本均值; 
步骤252:LDA分析的目标,是寻找一个变换矩阵W,使得Fisher准则取得最大值的方向为SB与SW比值最大的方向(SW非奇异时): 
J W = arg max | W T S B W | | W T S W W | = [ w 1 , w 2 , . . . , w n ]
其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量:SBw=λSWw;如果SW非奇异,则上式可直接转换为 来求解,即求解对应的特征值和特征矩阵,取最大的n维特征值对应的特征向量组成投影矩阵WLDA; 
步骤253:得到WLDA即可进行数据转换Y′=YW′LDA。 
步骤26:利用变换到LDA空间中的建模集数据进行建模,用变换到 LDA空间中的测试集数据进行鉴别。 
在本发明的一个实施例中,步骤5中所述采用支持向量机方法建立定性分析模型,具体包括: 
步骤51:将经过预处理及特征提取之后的建模样本数据x1,x2,...,xn,作为SVM建模数据; 
步骤52:确定建模样本数据中的类别标签数据y1,y2,...,yn,yi∈{+1,-1}; 
步骤53:设置SVM建模过程中的各个参数,包括分类器、核函数类型等,以此来确定最佳分类界面,具体包括: 
假设这个最佳的分类界面为:w′x+b=0 
则判别函数为:f(x)=w′x+b, 
因此: 
f ( x ) > 0 , x &Element; w 1 f ( x ) < 0 , x &Element; w 2
假定两类样本到分类界面最小的距离均为d,即存在样本x1∈w1,x2∈w2,使得: 
f(x1)=w′x1+b=d 
f(x2)=w′x2+b=-d 
右边归一化得: 
w′d x1+bd=1 
w′d x2+bd=-1 
其中: 
w &prime; d = w d , b d = b d
因此,可得: 
w &prime; d ( x 1 - x 2 ) = 2 &DoubleRightArrow; &delta; = w &prime; d ( x 1 - x 2 ) | | w | | = 2 | | w | |
要使分类间隔最大,等效于最小。问题转化为一个典型的优化问题: 
min 1 2 | | w | | 2
s.t yi(w′xi+b)-1≥0 
其中,约束条件表示所有样本被正确分类。使用拉格朗日算法可以求解此优化问题,从而得到最佳的分类界面。 
步骤54:利用该最佳分类界面,对未知样本数据进行分类。 
实施例 
实验用13个玉米品种样品为种子公司提供,均为已经通过品种审定的品种,分别为:H484-248,京玉16,农华101,屯玉24号,屯玉绿源2102,屯玉绿源2104,屯玉绿源2105,屯玉绿源2106,屯玉绿源2107,屯玉绿源2109,屯玉绿源2110,浚单20,郑单958。所用仪器为德国BRUKER公司的VECTOR22/N型傅里叶变换漫反射近红外光谱仪。根据光谱仪器设置每条原始光谱长度为1114维,谱区范围为3900~12500cm-1。 
(一)采集种子的近红外光谱数据,并确定建模集和测试集 
采用近红外光谱仪在不同时间采集种子样本的近红外光谱数据,种子样本均为完整籽粒状,采用整杯采样法。在两个月内重复采集了四次实验数据,采集时间分别为:2011.12.13,2011.12.27,2012.01.06,2012.01.14。每次实验每个品种重复装样30次,13个品种一次实验得到13×30=390条样品光谱。 
以数据组1作为建模集,其余三组数据作为测试集并分别编号为1~3。 
(二)光谱数据预处理与特征提取 
数据预处理采用平滑(Smoothing)、一阶导(FD)、矢量归一化(VN)三种方法相结合。特征提取采用偏最小二乘特征提取(PLS)和线性鉴别分析(LDA)。PLS方法中确定最佳主成分数为50,LDA方法的最佳主成分数为10。 
(三)选取校正集,计算变换矩阵并应用于剩余测试集 
校正集样品采用Kennard/Stone算法在建模集中选取,同时选取测试集中对应编号的样品,其余的数据用作测试集。Kennard/Stone算法选择空间中距离较远的样本,距离值一般采用欧式距离衡量,这样选择出来的样品在整个样品集中张成的空间足够大,对样本空间有足够的代表能力。 
本实施例采用直接模型传递(Direct Standardization)算法在不同时间 测量的建模集光谱和测试集光谱间寻求变换关系。DS算法的基本思想是通过校正集求取两个光谱间的变换矩阵,在建模集和测试集间建立校正模型。对测试集的数据,采用校正模型进行光谱变换,使其可用于已建立的识别模型。 
本实施例中校正光谱集中的光谱数目设置为30,该值是经过实验测定之后选择的既可以提高识别效果又不需要较高计算复杂度的折中值。 
(四)建立定性分析模型 
采用支持向量机方法(SVM),SVM属于二分类问题,适用于种子的品种真实性鉴别中。 
(五)种子品种真实性鉴别 
用SVM方法来对经过变换之后的剩余测试集进行分类鉴别,并给出种子品种真实性的鉴别结果。 
正确识别率(CAR)为本类样本被正确识别的概率,正确拒识率(CRR)为非本类样本被正确识别为非本类样本的概率,鉴别准确率(CDR)为正确识别率与正确拒识率的平均。 
实验一: 
在进行光谱校正时,除了可以对原始光谱进行校正外,也可对处理后的光谱数据进行传递校正,实验二分别对原始光谱、预处理后光谱数据、特征提取后主成分进行模型校正,比较模型校正位置不同时对校正效果的影响。实验统一取校正集样品数k为30。图4是模型校正位置不同的情况下,建模集对测试集3的识别效果。 
由图4的结果可见,对不同处理程度的数据进行模型校正,变换后数据的识别效果也不同。将光谱进行预处理,然后采用PLS+LDA特征提取,提取后的低维主特征计算变换矩阵并进行数据变换,变换后的数据采用原识别模型鉴别时,其效果较前两种有较大提高,对于三个测试集,其正确鉴别率均能达到95%左右。可见,对不同时间采集的玉米品种近红外光谱进行光谱模型传递处理,可有效消除不同时间不同状态下的光谱仪器参数漂移现象,进行模型校正的位置不同,变换后的识别效果也有较大差异,当模型校正位于特征提取后分类器之前时,校正后的识别效果最优。 
实验二: 
将建模集和测试集2的原始光谱数据分布图绘制如图2所示。经过光谱校正之后的建模集和测试集2的原始光谱数据分布图如图3所示。从图中可以看出,经DS算法校正后,建模集和测试集2的数据,同一品种的样品基本能落在相同的分布区域,分布偏移的现象已有较好改善。可见本发明所提出的方法能够很好地解决由于同一台仪器长时间的光谱推移现象所造成的识别模型失效的问题。 
本发明在建立近红外分析模型的步骤中,从“校正”的角度,提出了光谱校正的方法,使分析模型的性能得到明显改善,在实际应用中具有一定的实用价值。 
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (18)

1.一种基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,该方法包括:
步骤1:采集种子样本的近红外光谱数据,并确定建模集和测试集;
步骤2:对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特征提取;
步骤3:从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变换矩阵;
步骤4:将该变换矩阵应用于剩余测试集;
步骤5:采用支持向量机方法建立定性分析模型;
步骤6:利用该定性分析模型对剩余测试集进行品种真实性鉴别。
2.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤1中所述采集种子样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集种子样本的近红外光谱数据。
3.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤1中所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原始测试数据。
4.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特征提取,具体包括:
步骤21:对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处理;
步骤22:对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;
步骤23:利用该偏最小二乘特征矩阵,将经过预处理之后的建模集和测试集数据变换到偏最小二乘空间中;
步骤24:对经过偏最小二乘特征提取之后的建模集数据进行线性鉴别分析特征提取,得到线性鉴别分析特征矩阵,以利用该投影矩阵将数据变换到线性鉴别分析空间;
步骤25:利用该线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集和测试集数据变换到线性鉴别分析空间中;
步骤26:利用变换到线性鉴别分析空间中的建模集数据进行建模,用变换到线性鉴别分析空间中的测试集数据进行鉴别。
5.根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤2中所述的预处理、偏最小二乘特征提取和线性鉴别分析特征提取,在对建模集和测试集处理时采用相同的参数。
6.根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤2中所述的预处理,是为了去除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。
7.根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤22中所述偏最小二乘特征矩阵提取,具体算法如下:
步骤221:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵:
X 0 = x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . . . . . . . . . . x n 1 x n 2 . . . x np , Y 0 = 1 0 0 . . . 0 1 0 0 . . . 0 0 1 0 . . . 0 0 1 0 . . . 0 0 0 1 . . . 0 . . . . . . . . 1 . . . . 0 0 0 . . . . 1
Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类;
步骤222:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y′0X0,其中协方差矩阵常数舍弃;
步骤223:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS
步骤224:得到新的特征向量为:x′i=xiW′PLS
8.根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤25中所述将经过偏最小二乘特征提取之后的建模集和测试集数据变换到线性鉴别分析空间中,具体如下:
步骤251:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下:
S W = &Sigma; i = 1 c &Sigma; j = 1 N i ( x ij - m i ) ( x ij - m i &OverBar; ) &prime;
S B = &Sigma; i = 1 N ( m i - m &OverBar; ) ( m i - m &OverBar; ) &prime;
其中, m i = 1 N i &Sigma; j = 1 N i x ij 为第i类模式的均值, m &OverBar; = 1 N &Sigma; i = 1 c &Sigma; j = 1 N i x ij 为总样本均值;
步骤252:线性鉴别分析分析的目标,是寻找一个变换矩阵W,使得Fisher准则取得最大值的方向为SB与SW比值最大的方向,其中SW非奇异时:
J W = arg max | W T S B W | | W T S W W | = [ w 1 , w 2 , . . . , w n ]
其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量:SBw=λSWw;如果SW非奇异,则上式可直接转换为来求解,即求解对应的特征值和特征矩阵,取最大的n维特征值对应的特征向量组成投影矩阵WLDA
步骤253:得到WLDA即可进行数据转换Y′=YW′LDA
9.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤3中所述的建模集和测试集,是指经过预处理、偏最小二乘和线性鉴别分析特征提取之后的光谱数据集。
10.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤3中所述的选取光谱校正集,是指从建模集和测试集中各自挑选出用于光谱校正的光谱数据。
11.根据权利要求10所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,所述从建模集和测试集中各自挑选出用于光谱校正的光谱数据是采用Kennard/Stone算法,具体包括以下过程:
步骤31:设置需要选取的校正样品个数k;
步骤32:计算所有建模集样本两两之间的距离,将距离最远的两个样本选为校正集的第一、二个样本;
步骤33:对于剩余样本,计算其与已选样本之间的距离并取其最小值,然后选择这些距离中最大值对应的样本为本次选择样本;
步骤34:重复步骤33,直至选够k个样本组成建模集的校正集;
步骤35:在测试集中选择建模集中所选出的对应编号的样本作为测试集的校正集。
12.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤3中所述计算建模集与测试集之间的变换矩阵,具体包括:
步骤a:设建模集光谱校正集矩阵为S1,测试集光谱校正集矩阵为S3,矩阵的行列分别表示样品数和数据点数;由S1和S3根据公式求得变换矩阵,其中,为中心化后的光谱矩阵,的广义逆;
步骤b:利用步骤a中得到的F计算背景校正矩阵其中s1n和s2n分别为S1和S3每列元素平均值组成的行向量;
通过以上两步,得到了变换矩阵F和背景校正矩阵bs
13.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,由于同一台光谱仪随着时间推移,会产生光谱偏移,步骤3中所述的变换矩阵,是为了在建模集和测试集之间建立校正模型,使测试集可以利用该校正模型进行光谱校正,解决光谱偏移所带来的模型不适用的问题,不同的测试集对应不同的变换矩阵。
14.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤4中所述将变换矩阵应用于剩余测试集,具体包括:
步骤41:对测试集光谱中的测试集数据X2,计算其变换后的矩阵其中,F和bs为求得的变换矩阵和背景校正矩阵,l为全1的列向量,长度为样本数;
步骤42:变换后的数据矩阵X′2即可用已建模型进行鉴别。
15.根据权利要求14所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤4中所述剩余测试集,是指从测试集中挑选出光谱校正集之后剩余的测试数据集。
16.根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤5中所述采用支持向量机方法建立定性分析模型,具体包括:
步骤51:将经过预处理及特征提取之后的建模样本数据x1,x2,...,xn,作为支持向量机建模数据;
步骤52:确定建模样本数据中的类别标签数据y1,y2,...,yn,yi∈{+1,-1};
步骤53:设置支持向量机建模过程中的各个参数,包括分类器、核函数类型等,以此来确定最佳分类界面;
步骤54:利用该最佳分类界面,对未知样本数据进行分类。
17.根据权利要求16所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤53中所述设置支持向量机建模过程中的各个参数,包括分类器、核函数类型,以此来确定最佳分类界面,具体包括:
假设这个最佳的分类界面为:w′x+b=0
则判另函数为:f(x)=w′x+b,
因此:
f ( x ) > 0 , x &Element; w 1 f ( x ) < 0 , x &Element; w 2
假定两类样本到分类界面最小的距离均为d,即存在样本x1∈w1,x2∈w2,使得:
f(x1)=w′x1+b=d
f(x2)=w′x2+b=-d
右边归一化得:
w′d x1+bd=1
w′d x2+bd=-1
其中:
w &prime; d = w d , b d = b d
因此,可得:
w &prime; d ( x 1 - x 2 ) = 2 &DoubleRightArrow; &delta; = w &prime; d ( x 1 - x 2 ) | | w | | = 2 | | w | |
要使分类间隔最大,等效于最小问题转化为一个典型的优化问题:
min 1 2 | | w | | 2
s.t yi(w′xi+b)-1≥0
其中,约束条件表示所有样本被正确分类,使用拉格朗日算法可以求解此优化问题,从而得到最佳的分类界面。
18.根据权利要求16所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,步骤6中所述利用定性分析模型对剩余测试集进行品种真实性鉴别,是利用支持向量机方法对剩余测试集进行分类鉴别,并给出鉴别结果,具体包括:
利用所建立的支持向量机分类器的最佳分类界面,对未知分类的测试样本数据进行分类,根据其分类结果确定其所属类别。
CN201410599260.5A 2014-10-30 2014-10-30 一种基于近红外定性分析的种子品种真实性鉴别方法 Pending CN104374739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410599260.5A CN104374739A (zh) 2014-10-30 2014-10-30 一种基于近红外定性分析的种子品种真实性鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410599260.5A CN104374739A (zh) 2014-10-30 2014-10-30 一种基于近红外定性分析的种子品种真实性鉴别方法

Publications (1)

Publication Number Publication Date
CN104374739A true CN104374739A (zh) 2015-02-25

Family

ID=52553786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410599260.5A Pending CN104374739A (zh) 2014-10-30 2014-10-30 一种基于近红外定性分析的种子品种真实性鉴别方法

Country Status (1)

Country Link
CN (1) CN104374739A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105486659A (zh) * 2015-11-23 2016-04-13 中国农业大学 玉米种子品种真实性鉴别模型的构建方法及其应用
CN105738317A (zh) * 2016-02-16 2016-07-06 广州纤维产品检测研究院 纺织品近红外模型转移方法
CN105738313A (zh) * 2016-03-10 2016-07-06 齐齐哈尔大学 一种基于近红外光谱技术鉴别动物血液的方法及应用
CN105866056A (zh) * 2015-03-25 2016-08-17 山东翰能高科科技有限公司 一种基于近红外光谱的杂交种纯度鉴别方法
CN110118749A (zh) * 2019-06-06 2019-08-13 南京林业大学 一种基于近红外光谱的果蔬农药残留检测方法
CN111458308A (zh) * 2020-06-04 2020-07-28 杭州岚达科技有限公司 一种近红外光谱龙胆鉴别方法和系统
CN112098357A (zh) * 2020-08-21 2020-12-18 南京农业大学 一种基于近红外光谱的草莓感官品质等级评价方法
CN112924412A (zh) * 2021-01-22 2021-06-08 中国科学院合肥物质科学研究院 基于近红外光谱的单籽粒水稻品种真实性判别方法及装置
CN114494779A (zh) * 2022-01-26 2022-05-13 金陵科技学院 一种改进鉴别转换的茶叶近红外光谱分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1842047A1 (de) * 2004-12-18 2007-10-10 Roche Diagnostics GmbH Verfahren und vorrichtung zur spektroskopischen untersuchung von k\rperfl]ssigkeiten und gewebeproben hinsichtlich eines erh\hten alzheimerverdachts
CN101738373A (zh) * 2008-11-24 2010-06-16 中国农业大学 一种鉴别作物种子品种的方法
CN101788475A (zh) * 2010-03-24 2010-07-28 中国科学院半导体研究所 对玉米品种种子近红外漫反射光谱数据进行预处理的方法
CN101819141A (zh) * 2010-04-28 2010-09-01 中国科学院半导体研究所 基于近红外光谱与信息处理的玉米品种鉴别方法
CN104062262A (zh) * 2014-07-09 2014-09-24 中国科学院半导体研究所 一种基于近红外光谱的作物种子品种真实性鉴别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1842047A1 (de) * 2004-12-18 2007-10-10 Roche Diagnostics GmbH Verfahren und vorrichtung zur spektroskopischen untersuchung von k\rperfl]ssigkeiten und gewebeproben hinsichtlich eines erh\hten alzheimerverdachts
CN101738373A (zh) * 2008-11-24 2010-06-16 中国农业大学 一种鉴别作物种子品种的方法
CN101788475A (zh) * 2010-03-24 2010-07-28 中国科学院半导体研究所 对玉米品种种子近红外漫反射光谱数据进行预处理的方法
CN101819141A (zh) * 2010-04-28 2010-09-01 中国科学院半导体研究所 基于近红外光谱与信息处理的玉米品种鉴别方法
CN104062262A (zh) * 2014-07-09 2014-09-24 中国科学院半导体研究所 一种基于近红外光谱的作物种子品种真实性鉴别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张晓曼: "基于SVM的近红外光谱定性分析及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
柳培忠等: "基于DS算法的玉米近红外定性分析光谱校正方法研究", 《光谱学与光谱分析》 *
覃鸿等: "基于DPLS 特征提取的LDA方法在玉米近红外光谱定性分析中的应用", 《光谱学与光谱分析》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105866056A (zh) * 2015-03-25 2016-08-17 山东翰能高科科技有限公司 一种基于近红外光谱的杂交种纯度鉴别方法
WO2016150130A1 (zh) * 2015-03-25 2016-09-29 山东翰能高科科技有限公司 一种基于近红外光谱的杂交种纯度鉴别方法
CN105486659A (zh) * 2015-11-23 2016-04-13 中国农业大学 玉米种子品种真实性鉴别模型的构建方法及其应用
CN105738317A (zh) * 2016-02-16 2016-07-06 广州纤维产品检测研究院 纺织品近红外模型转移方法
CN105738317B (zh) * 2016-02-16 2018-06-01 广州纤维产品检测研究院 纺织品近红外模型转移方法
CN105738313A (zh) * 2016-03-10 2016-07-06 齐齐哈尔大学 一种基于近红外光谱技术鉴别动物血液的方法及应用
CN105738313B (zh) * 2016-03-10 2019-04-02 齐齐哈尔大学 一种基于近红外光谱技术鉴别动物血液的方法及应用
CN110118749B (zh) * 2019-06-06 2021-06-22 南京林业大学 一种基于近红外光谱的果蔬农药残留检测方法
CN110118749A (zh) * 2019-06-06 2019-08-13 南京林业大学 一种基于近红外光谱的果蔬农药残留检测方法
CN111458308A (zh) * 2020-06-04 2020-07-28 杭州岚达科技有限公司 一种近红外光谱龙胆鉴别方法和系统
CN112098357A (zh) * 2020-08-21 2020-12-18 南京农业大学 一种基于近红外光谱的草莓感官品质等级评价方法
CN112098357B (zh) * 2020-08-21 2021-12-10 南京农业大学 一种基于近红外光谱的草莓感官品质等级评价方法
CN112924412A (zh) * 2021-01-22 2021-06-08 中国科学院合肥物质科学研究院 基于近红外光谱的单籽粒水稻品种真实性判别方法及装置
CN112924412B (zh) * 2021-01-22 2022-11-04 中国科学院合肥物质科学研究院 基于近红外光谱的单籽粒水稻品种真实性判别方法及装置
CN114494779A (zh) * 2022-01-26 2022-05-13 金陵科技学院 一种改进鉴别转换的茶叶近红外光谱分类方法
CN114494779B (zh) * 2022-01-26 2024-01-23 金陵科技学院 一种改进鉴别转换的茶叶近红外光谱分类方法

Similar Documents

Publication Publication Date Title
CN104374738B (zh) 一种基于近红外提高鉴别结果的定性分析方法
CN104374739A (zh) 一种基于近红外定性分析的种子品种真实性鉴别方法
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
CN107818298B (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
CN102819745B (zh) 一种基于AdaBoost的高光谱遥感影像分类方法
WO2016150130A1 (zh) 一种基于近红外光谱的杂交种纯度鉴别方法
CN103198251B (zh) 一种基于神经网络的硬件木马识别方法
CN101819141B (zh) 基于近红外光谱与信息处理的玉米品种鉴别方法
CN109858477A (zh) 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法
CN110717368A (zh) 一种纺织品定性分类方法
CN104376325A (zh) 一种近红外定性分析模型的建立方法
Małek et al. The VIMOS Public Extragalactic Redshift Survey (VIPERS)-A support vector machine classification of galaxies, stars, and AGNs
CN110243806B (zh) 拉曼光谱下基于相似度的混合物组分识别方法
CN110378374B (zh) 一种模糊鉴别信息提取的茶叶近红外光谱分类方法
CN104062262A (zh) 一种基于近红外光谱的作物种子品种真实性鉴别方法
CN110068544B (zh) 物质识别网络模型训练方法及太赫兹光谱物质识别方法
CN108844917A (zh) 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法
Chen et al. Combination of the manifold dimensionality reduction methods with least squares support vector machines for classifying the species of sorghum seeds
Yu et al. Identification of wine according to grape variety using near-infrared spectroscopy based on radial basis function neural networks and least-squares support vector machines
CN110378373B (zh) 一种模糊非相关线性鉴别分析的茶叶品种分类方法
CN111523582A (zh) 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN108827909B (zh) 基于可见近红外光谱与多目标融合的土壤快速分类方法
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
CN109886296A (zh) 一种鉴别信息提取式噪声聚类的茶叶品种分类方法
CN105067558B (zh) 近红外定性鉴别特征提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150225