題目
利用t-SNE模型和Procrustes分析實現(xiàn)基于高光譜影像的糯玉米種子分類
應(yīng)用關(guān)鍵詞
高光譜成像;糯玉米;分類;t-SNE;Procrustes分析
背景
糯玉米含有大量支鏈淀粉,受到世界各地消費者的青睞。品種鑒別是玉米種子質(zhì)量檢測的重要環(huán)節(jié),可以防止使用假冒偽劣種子。高光譜成像(Hyperspectral imaging, HSI)技術(shù)已被應(yīng)用于小麥、水稻、棉花和葡萄種子的分類,甚至利用近紅外波段也可以對包衣玉米種子取得良好的品種分類結(jié)果。然而,利用HIS技術(shù)對糯玉米種子進行分類的研究很少。
首先,光譜數(shù)據(jù)數(shù)量的急劇增加,使得數(shù)據(jù)降維(Dimensionality reduction, DR)成為光譜分析中必不可少的步驟。傳統(tǒng)的研究大多基于高光譜圖像的線性假設(shè)。然而,由于像素內(nèi)光譜混合、場景異質(zhì)性和HSI復雜處理,使得原始光譜特征呈非線性相關(guān)。因此,有必要深入探究數(shù)據(jù)之間的非線性關(guān)系。目前,DR方法的研究主要集中在流形學習方法上,t-SNE(t-distributed stochastic neighbourhood embedding)是其中的一個研究重點。t-SNE是一種基于局部概率的非線性DR算法,它是SNE的一種變體,通過它可以減少在映射中心聚集點的趨勢,從而更容易產(chǎn)生顯著的可視化效果。已成功應(yīng)用于鳥類鳴叫、計算流體動力學、基因組數(shù)據(jù)、遙感圖像等分析中。
其次,現(xiàn)有的大多數(shù)圖像分析方法都假設(shè)訓練集和測試集處于完全相同的實驗條件和數(shù)據(jù)分布中,盡管這種假設(shè)在大多數(shù)情況下是無效的,因為即使在相同的條件下,光線或位置也會發(fā)生變化。因此,數(shù)據(jù)之間的漂移是需要考慮的問題。Procrustes分析(PA)是一種通過匹配一個集到另一個集的數(shù)據(jù)變量相關(guān)性來解決這一問題的方法。通過連續(xù)迭代將形狀差異的度量最小化,PA可以有效消除數(shù)據(jù)移動的影響。本研究將其作為一種預處理方法應(yīng)用于高光譜圖像處理中。
最后,將目前廣泛應(yīng)用的Fisher判別分析(FDA)應(yīng)用于糯玉米分類。在t-SNE方法獲得局部判別信息后,通過最大化類間散射和最小化類內(nèi)散射來補充全局判別信息。
本研究旨在探討基于高光譜影像的PA和t-SNE技術(shù)在糯玉米種子品種分類中的可行性。具體目的是(1)比較基于t-SNE、PCA、KPCA和LLE的分類模型的性能;(2)利用PA算法對數(shù)據(jù)進行預處理,提高分類精度;(3)比較玉米種子胚側(cè)和非胚側(cè)高光譜圖像的差異。
試驗設(shè)計
仲愷農(nóng)業(yè)工程學院唐宇教授團隊利用可見/近紅外高光譜成像系統(tǒng)(GaiaSky-mini, 江蘇雙利合譜公司)獲取了800粒玉米籽粒的側(cè)胚以及非側(cè)胚影像。該成像系統(tǒng)光譜范圍為386.7-1016.7 nm,有256個波段,包括一個CCD相機(ICX285, 索尼),兩個用于照明的50 w LED燈,以及由步進電機驅(qū)動的傳送帶(ZOLIX SC300, 卓立漢光)。
首先,獲取每粒種子的兩側(cè)胚和非胚部分的高光譜影像(圖1a);其次,選取感興趣區(qū)域并計算其平均光譜(圖1b);然后對光譜進行標定(圖1c);采用PA算法對光譜數(shù)據(jù)進行預處理(圖1d);最后,利用t-SNE等模型進行種子品種分類(圖1e)。
為了減少數(shù)據(jù)冗余,研究中使用連續(xù)投影算法SPA來選擇最佳波長,并使用交叉驗證中的均方根誤差來評估模型性能。具體訓練與測試模型的過程如圖2所示。
為了比較有無PA預處理的t-SNE、PCA、KPCA和LLE分類模型的效果,本研究共建立了8個比較組合(PCA+FDA、KPCA+FDA、LLE+FDA、t-SNE+FDA、PA+PCA+FDA、PA+KPCA+FDA、PA+LLE+FDA、PA+t-SNE+FDA)。
圖1 糯玉米種子品種分類圖像處理及數(shù)據(jù)分析流程圖。
圖2 訓練與測試模型的詳細過程
結(jié)論
利用SPA為非側(cè)胚和側(cè)胚選擇的最佳波段分別為455.5 nm、697.6 nm、495.1 nm、841.2 nm、732.4 nm、653.3 nm、887.7 nm、833.6 nm和737.4 nm、578.1 nm、460.2 nm、932 nm、937.2 nm、945.1 nm、947.7 nm、960.9 nm。非側(cè)胚和側(cè)胚選擇的波段有較大差異是因為胚胎側(cè)含有大量淀粉、油和其他化合物。
雖然在分析前對高光譜圖像進行了校正,但噪聲仍然存在(圖3a)。對于同一玉米品種,由于光照和噪聲的影響,所有的高光譜圖像在光譜上沿波段散射。在這種情況下,不同類別的數(shù)據(jù)可能會重疊,最終也會影響分類模型。相同品種種子的高光譜圖像的分布可能具有相同的變異和最小的偏差。PA算法的目的就是減小數(shù)據(jù)方差,使高光譜數(shù)據(jù)的差異最小化。該算法具有良好的性能,適用于原始光譜的預處理。得到的預處理光譜曲線如圖3b所示??梢钥闯?,PA預處理后的光譜更加聚集,重疊的數(shù)據(jù)變少,并且增強了原始光譜的信息。
圖3 原始光譜曲線(a)以及經(jīng)過PA處理后的光譜曲線(b)
8個玉米品種降維后的三維分布如圖4所示。對于PCA,不同品種之間沒有明顯的分離,同一類樣品沿空間分布并重疊。LLE的散點圖與PCA的散點圖基本相同。KPCA的區(qū)分效果優(yōu)于PCA和LLE,但較t-SNE差。t-SNE表現(xiàn)優(yōu)異,品種TZ23、GCT3、GHT、HJ9、XT和SL78的分布和區(qū)域有明顯區(qū)別,而Zhou1和XXWCT在同一分布區(qū)域并有一定的重疊。這是由于t-SNE在捕獲局部數(shù)據(jù)特征和區(qū)分數(shù)據(jù)結(jié)構(gòu)方面有一定優(yōu)勢。具有相似幾何結(jié)構(gòu)的糯玉米種子的高光譜圖像基本是相似的,圖中相鄰的光譜曲線具有高度的相關(guān)性。因此,利用光譜曲線的局部特征可以更容易地表示數(shù)據(jù)的變化。
圖4 基于不同降維方法的樣本三維散點圖
在對光譜進行不同的處理方式后,使用FDA算法對玉米種子品種分類,分類結(jié)果如表1所示。對于側(cè)胚,PCA+FDA、KPCA+FDA、LLE+FDA和t-SNE+FDA模型的準確率接近50%,采用PA將模型的準確率提高到62.5~87.5%。對于非側(cè)胚,所有的準確率都超過60%。
對于不含PA的模型,測試準確率僅為35~71.25%。相比之下,PA模型具有更好的結(jié)果,準確率為62.5~97.5%。PA效果顯著可能由于它是一種聚集效應(yīng),這已被證明有助于不同領(lǐng)域的分類。無PA預處理時,KPCA與t-SNE具有相似的分類精度,特別是對側(cè)胚數(shù)據(jù),但準確率低于有PA預處理的t-SNE。這一結(jié)果表明了核函數(shù)選擇在KPCA中的不穩(wěn)定性和重要性。作為一種基于核的算法,不同的選擇對KPCA的性能影響很大,很難給出穩(wěn)定、魯棒的分類結(jié)果。
t-SNE模型的準確率高于其他模型,其中PA預處理的t-SNE模型在所有方法中效果最好。使用非側(cè)胚數(shù)據(jù)的準確率為97.5%,其他模型的最佳準確率僅為85%??傮w而言,除KPCA+FDA模型,t-SNE模型在進行或不進行PA預處理的情況下,模型性能均為最優(yōu)。
表1 不同模型的分類結(jié)果
作者信息
唐宇,博士,仲愷農(nóng)業(yè)工程學院教授,博士生導師。
主要研究方向:農(nóng)業(yè)電氣化與自動化等。
參考文獻:
Miao, A., Zhuang, J., Tang, Y., He, Y., Chu, X., & Luo, S. (2018). Hyperspectral Image-Based Variety Classification of Waxy Maize Seeds by the t-SNE Model and Procrustes Analysis. Sensors (Basel), 18. https://doi.org/10.3390/s18124391
地址:無錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話:13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關(guān)村大街19號
電話:13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號盛方科技園B座三層東區(qū)
電話:13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號四川國際大廈七樓G座
電話:13810664973
郵箱:info@dualix.com.cn