- 相關(guān)推薦
基于人工神經(jīng)網(wǎng)絡(luò )的肺癌診斷研究
提 要 目的:利用人工神經(jīng)網(wǎng)絡(luò )模型BP算法的多層前饋網(wǎng)絡(luò )模型原理,建立用于肺癌診斷的神經(jīng)網(wǎng)絡(luò )模型。方法:利用人工神經(jīng)網(wǎng)絡(luò )的函數逼近功能模型,建立輸入到輸出的函數映射關(guān)系。結果:該模型可較好地反映系統的動(dòng)態(tài)性和數據的時(shí)序關(guān)聯(lián)性。對肺癌診斷數據的應用結果顯示肺癌病人的正確檢出率為96.2%,誤診率為3.8%;非肺癌病人的正確檢出率為88%,誤診率為12%。結論:基于人工神經(jīng)網(wǎng)絡(luò )的肺癌診斷方法具有較高的準確性。肺癌的診斷問(wèn)題各國醫學(xué)界已作了一些研究,并取得了某些實(shí)際的成果。但是,由于肺癌的多種類(lèi)型以及多種相關(guān)因素,使得現有的診斷在準確性和實(shí)用性方面都存在著(zhù)相當的局限性,如建模復雜困難。由于對影響罹病與否的各種因子的作用機制了解得不是很清楚,如何建立診斷模型,以及如何確定新建立的模型在何種程度上與實(shí)際情況相吻合還是一個(gè)問(wèn)題;容錯能力不強,適用范圍不廣;依賴(lài)于某個(gè)病例庫新建立起來(lái)的醫學(xué)模型往往具有很強的局限性,用于新的病例庫時(shí)誤差有時(shí)較大。另外,由于醫學(xué)方面的原因,我們收集到的數據有時(shí)不完整,而現有的研究方法所建立起的醫學(xué)模型由于容錯性差,對這些不完整的數據通常都難以處理。以非線(xiàn)性大規模并行分布處理為特點(diǎn)的人工神經(jīng)網(wǎng)絡(luò )理論突破了傳統的線(xiàn)性處理模式,以其高度的并行性,良好的容錯性和自適應能力成為人們研究其賴(lài)以生存的非線(xiàn)性世界,探索和研究某些復雜大系統的有力工具。
原理與方法
神經(jīng)網(wǎng)絡(luò )是一個(gè)具有高度非線(xiàn)性的超大規模連續時(shí)間動(dòng)力系統。是由大量的處理單元(神經(jīng)元)廣泛互連而形成的網(wǎng)絡(luò )。它是在現代神經(jīng)科學(xué)研究成果的基礎上提出的,反映了腦功能的基本特征。但它并不是人腦的真實(shí)描寫(xiě),而只是它的某種抽象、簡(jiǎn)化與模擬。網(wǎng)絡(luò )的信息處理由神經(jīng)元之間的相互作用來(lái)實(shí)現;知識與信息的存儲表現為網(wǎng)絡(luò )元件互連間分布式的物理聯(lián)系;網(wǎng)絡(luò )的學(xué)習和計算決定于各神經(jīng)元連接權系的動(dòng)態(tài)演化過(guò)程。因此神經(jīng)元構成了網(wǎng)絡(luò )的基本運算單元。每個(gè)神經(jīng)元具有自己的閾值。每個(gè)神經(jīng)元的輸入信號是所有與其相連的神經(jīng)元的輸出信號和加權后的和。而輸出信號是其凈輸入信號的非線(xiàn)性函數。如果輸入信號的加權集合高于其閾值,該神經(jīng)元便被激活而輸出相應的值。在人工神經(jīng)網(wǎng)絡(luò )中所存儲的是單元之間連接的加權值陣列。
神經(jīng)網(wǎng)絡(luò )的工作過(guò)程主要由兩個(gè)階段組成,一個(gè)階段是工作期,此時(shí)各連接權值固定,計算單元的狀態(tài)變化,以求達到穩定狀態(tài)。另一階段是學(xué)習期(自適應期,或設計期),此時(shí)各計算單元狀態(tài)不變,各連接權值可修改(通過(guò)學(xué)習樣本或其他方法),前一階段較快,各單元的狀態(tài)亦稱(chēng)短期記憶(STM),后一階段慢的多,權及連接方式亦稱(chēng)長(cháng)期記憶(LTM)〔1〕。
根據網(wǎng)絡(luò )的拓撲結構和學(xué)習規則可將人工神經(jīng)網(wǎng)絡(luò )分為多種類(lèi)型,如不含反饋的前向神經(jīng)網(wǎng)絡(luò )、層內有相互結合的前向網(wǎng)絡(luò )、反饋網(wǎng)絡(luò )、相互結合型網(wǎng)絡(luò )等〔2〕。本文的人工神經(jīng)網(wǎng)絡(luò )模型是采用BP算法的多層前饋網(wǎng)絡(luò )。
該模型的特點(diǎn)是信號由輸入層單向傳遞到輸出層,同一層神經(jīng)元之間互不傳遞信息,每個(gè)神經(jīng)元與鄰近層所有神經(jīng)元相連,連接權用Wij表示。各神經(jīng)元的作用函數為Sigmoid函數,設神經(jīng)網(wǎng)絡(luò )輸入層的p個(gè)節點(diǎn),輸出層有q個(gè)節點(diǎn),k-1層的任意節點(diǎn)用l表示,k層的任意節點(diǎn)用j表示,k+1層的任意節點(diǎn)用l表示。Wij為k-1層的第i個(gè)神經(jīng)元與k層的第j個(gè)神經(jīng)元相連接的權值。k-1層的節點(diǎn)i輸出為O(k-1)i,k層節點(diǎn)j的輸出為:
k層節點(diǎn)j的輸出為:
Okj=f(netkj)
設訓練樣本為(X,Ye),X為p維向量,加到輸入層;Ye為q維向量,對應于期望輸出;網(wǎng)絡(luò )的實(shí)際輸出Y也是q維向量。網(wǎng)絡(luò )在接受樣本對的訓練過(guò)程中,采用BP算法,其權值調整量為:
ΔWij=-ηδkjO(k-1)i
其中,對于輸出層為:
δkj=yj(1-yj)(yej-yj)
對于非輸出層為:
η為訓練步長(cháng),取0<η<1。
用樣本集合反復訓練網(wǎng)絡(luò ),并不斷修改權值,直到使實(shí)際輸出向量達到要求,訓練過(guò)程結束〔3〕。
上述人工神經(jīng)網(wǎng)絡(luò )可以完成多種信息處理任務(wù),如從二進(jìn)制數據中提取相關(guān)知識,完成最近鄰模式分類(lèi),實(shí)現數據聚集等。而本文要用的是其極強的數學(xué)逼近映射能力,即開(kāi)發(fā)合適的函數f:ARn→BRn,以自組織的方式響應以下的樣本集合:(x1,y1),(x2,y2)…,(xm,ym),其中yi=f(xi)。這里描述的是一般的數學(xué)抽象,像識別與分類(lèi)這些計算都可以抽象為這樣的一種近似數學(xué)映射。
所謂診斷,實(shí)質(zhì)上是一個(gè)分類(lèi)問(wèn)題。即根據候診者的癥狀,醫學(xué)檢查結果(如體溫、心跳等)等一些情況,它們可以用一向量(e1,e2,…,em)來(lái)表示,將其歸類(lèi)為病人或非病人。這也可以轉化為尋找一差別函數f使得:
(1)f(e1,e2,…,em)>ε, (e1,e2,…,em)∈T
(2)f(e1,e2,…,em)>ε, (e1,e2,…,em)T
其中集合T表示患病。
因此,病情診斷最終也可作為一類(lèi)函數的逼近問(wèn)題。
而許多研究已表明,前向神經(jīng)網(wǎng)絡(luò )可作為非線(xiàn)性逼近的標準型。對于實(shí)數空間的任一函數,只要它滿(mǎn)足一定的條件,一定存在唯一的具有單一隱層的前向網(wǎng)絡(luò )作為它的最優(yōu)最佳逼近。而含有兩個(gè)隱含層的前向網(wǎng)絡(luò )可在任意的平方誤差內逼近某一實(shí)函數〔3〕。
診斷步驟
肺癌病例數據選自1981~1994年在某醫院住院的病人,共計551例。其中486例(88%)經(jīng)病理學(xué)、細胞學(xué)診斷證實(shí)為肺癌。每一病例都包括多項數據,其中用于診斷的數據項有:病人的一般情況(如年齡、性別等),家族史、既往史、吸煙史、術(shù)后病理、X射線(xiàn)檢查、CT檢查、纖維支氣管鏡檢查、PAT痰檢等多達58項。因此,原則上 58項數據應作為神經(jīng)網(wǎng)絡(luò )的輸入項,而神經(jīng)網(wǎng)絡(luò )的輸出值就是病人是否患肺癌的結果。
1.網(wǎng)絡(luò )訓練集的確定:在最原始的551例病人數據中存在著(zhù)各種各樣的差別,如性別差異(419例男性,132例女性),診斷結果的差異(486例經(jīng)證實(shí)為肺癌),所患肺癌種類(lèi)的差異(鱗癌、小細胞癌、大細胞癌等),患病程度上的差異(早、中晚期的不同)等等。顯然,訓練數據集應最大限度地保證兼顧各種病例情況。經(jīng)過(guò)仔細篩選,選擇了含有460個(gè)病例的集合作為肺癌診斷用的網(wǎng)絡(luò )的訓練集。
2.神經(jīng)網(wǎng)絡(luò )輸入和輸出數據的預處理
按照人工神經(jīng)網(wǎng)絡(luò )的理論,神經(jīng)網(wǎng)絡(luò )的輸入輸出數據都應該屬于(0,1)區間的實(shí)數,為此我們需對原始數據進(jìn)行如下的規一化處理:
其中xi為原始數據項,而Max=max{xi∶xi∈X},Min=min{xi∶xi∈X}。這里X為原始數據集。經(jīng)過(guò)(7)式變換后,yi將在(0,1)區間。因此,可作為神經(jīng)網(wǎng)絡(luò )的輸入輸出。
3.應用神經(jīng)網(wǎng)絡(luò )進(jìn)行肺癌診斷
將描述病人各種情況的數據作為前向網(wǎng)絡(luò )的輸入數據加到其輸入端,并按(1)~(6)式計算各神經(jīng)元的輸入和輸出,同時(shí)調整神經(jīng)元之間的連接權值以使網(wǎng)絡(luò )的輸出和實(shí)際的病例情況相符。即當病人確實(shí)患肺癌時(shí)網(wǎng)絡(luò )的輸出結果也恰好指示為肺癌,反之亦然。如果對所有的訓練樣本集網(wǎng)絡(luò )的輸出基本上(95%或更高)能保證與實(shí)際結果一致,則訓練過(guò)程結束。我們認為神經(jīng)網(wǎng)絡(luò )已建立起病人的各種因素與他是否是肺癌患者之間的函數映射關(guān)系。對于一個(gè)新的候診病人來(lái)說(shuō),只要將他的情況輸入到訓練好的神經(jīng)網(wǎng)絡(luò )中去,根據網(wǎng)絡(luò )的輸出結果就可以知道他是否已患肺癌。
表1 基于不同發(fā)病因素的診斷網(wǎng)絡(luò )模型
類(lèi) 型 訓練集精度 測試集精度
基于遺傳因素的診斷網(wǎng) 53.8% 46.3%
基于個(gè)人生活習慣的診斷網(wǎng) 57.1% 44.9%
基于病癥的診斷網(wǎng) 89.4% 83.3%
基于醫學(xué)檢查結果的診斷網(wǎng) 98.5% 92.6%
上述結果表明不同類(lèi)型的因素應分開(kāi)來(lái)考慮。于是我們將58項輸入數據分成四類(lèi),這四類(lèi)有各自的BP診斷網(wǎng),依次稱(chēng)為診斷一、診斷二、診斷三、診斷四。它們先單獨測定,然后再將它們各自的結果綜合起來(lái)得出最后的判斷。
上述四種診斷網(wǎng)絡(luò )所得結果的可靠性各不相同。其中,根據醫學(xué)檢查結果所作的診斷準確性最高,因此在最后的綜合分析中要重點(diǎn)考慮它的診斷結果,我們給它設一個(gè)相對最高的權值。其次,根據病人的癥狀所作的診斷往往也具有較高的準確性,因此給它的權值也較高,但比醫學(xué)檢查結果的稍低。其他兩類(lèi)因素在有關(guān)肺癌的診斷中僅具參考作用,因而所設的權值相對較小。
最后的結果O為:
O=a1.O1+a2.O2+a3.O3+a4.O4
a1+a2+a3+a4=1
其中Oi,ai,i=1,2,3,4分別為各診斷網(wǎng)的輸出及其對應的權值。
當O>0.5時(shí)最后的診斷結果為患肺癌,反之則正常。對所有的病例數據經(jīng)上述方法的診斷結果見(jiàn)表2。
表2 神經(jīng)網(wǎng)絡(luò )對肺癌診斷結果分析
神經(jīng)網(wǎng)絡(luò )
診斷結果 訓練數據 測試數據
肺癌患者 非肺癌患者 肺癌患者 非肺癌患者
+ 460 2 25 3
- 0 38 1 22
其中對于訓練集,肺癌病人的正確檢出率為100%,非肺癌病人誤診率為5%。對于測試集,肺癌病人的正確檢出率為96.2%;非肺癌患者正確檢出率為88%,誤診率為12%。
討 論
1.本研究所采用的人工神經(jīng)網(wǎng)絡(luò )的肺癌診斷方法的結果較好地符合了已知數據,具有較高的準確性,特別是對于肺癌患者一般都能準確地做出診斷,有利于肺癌的早期發(fā)現和治療。
2.要想進(jìn)一步提高該方法的準確性,應該注意收集更多更全面的病例數據。人工神經(jīng)網(wǎng)絡(luò )主要是利用它能自動(dòng)從數據集中抽取函數的關(guān)系的功能。如果我們所使用的數據越多越全面,則其中所蘊含的事物本身的規律性就越強,利用人工神經(jīng)網(wǎng)絡(luò )從中所抽取的函數關(guān)系就越具有普遍性,因而就更準確。
3.實(shí)現對肺癌的診斷的關(guān)鍵在于準確找到罹患肺癌的判定函數,可利用前向網(wǎng)絡(luò )的函數逼近功能來(lái)實(shí)現。但是這里涉及到兩個(gè)問(wèn)題。首先,由于差別函數和預測率函數都是利用人工神經(jīng)網(wǎng)絡(luò )從已知的病例數據集中抽取出來(lái)的,它實(shí)際反映的是這些數據集中輸入輸出對的映射關(guān)系。因此要想保證診斷具有較高的準確性,就應該使用來(lái)建立函數關(guān)系的這些數據集(稱(chēng)訓練集)具有充分的代表性,即這些數據應基本蘊含肺癌診斷的醫學(xué)原理。這就涉及到如何選擇網(wǎng)絡(luò )合理的訓練集及關(guān)鍵的輸入項。另一個(gè)問(wèn)題涉及到神經(jīng)網(wǎng)絡(luò )本身的要求,即網(wǎng)絡(luò )的輸入輸出數據值都應在區間(0,1)中。這可以通過(guò)數據的編碼和歸一化來(lái)實(shí)現。
4.由于某些原因有些病人的病例數據不完整,約占總病例數據的10%左右。顯然,如果按照傳統的方法來(lái)建立肺癌病人的診斷模型〔4〕,這些有缺項的數據是不太好處理的,但是由于人工神經(jīng)網(wǎng)絡(luò )有較強的容錯性,輸入數據在某些項上的錯誤對網(wǎng)絡(luò )最終結果的正確性影響不大。
參考文獻
1.焦李成.神經(jīng)網(wǎng)絡(luò )系統理論.第1版.西安:西安電子科技大學(xué)出版社,1995,3
2.Wang Zhenni,Tham Ming T,Morris A.Multilayer Feedforward Neural Networks:A Canonical form Approximation of Nonlinearity,Int J.Control,1992,56(3):655~672.
3.莊鎮泉,等.神經(jīng)網(wǎng)絡(luò )與神經(jīng)計算機.北京:科學(xué)出版社,1992.
4.郭海強,等.肺癌診斷模型的研究.中國衛生統計,1997,14(5):11
作者:不詳
【基于人工神經(jīng)網(wǎng)絡(luò )的肺癌診斷研究】相關(guān)文章:
基于廣義回歸神經(jīng)網(wǎng)絡(luò )的經(jīng)濟預測模型研究07-10
基于GIS和神經(jīng)網(wǎng)絡(luò )的超市選址方法研究09-18
基于BP神經(jīng)網(wǎng)絡(luò )的遙感影像分類(lèi)方法研究09-11
基于軍網(wǎng)的雷達遠程診斷技術(shù)研究08-18
基于廣義回歸神經(jīng)網(wǎng)絡(luò )的黃金價(jià)格預測研究07-17
基于模糊神經(jīng)網(wǎng)絡(luò )的車(chē)輛自動(dòng)避撞預警算法研究09-27
探析基于人工神經(jīng)網(wǎng)絡(luò )的圖書(shū)館服務(wù)質(zhì)量評價(jià)09-06
肺癌新的分子靶向藥物研究進(jìn)展08-28