前言:本站為你精心整理了醫(yī)學(xué)決策樹技術(shù)的作用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1概念與特點
1.1概念
決策樹方法(decisiontree)是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。具體講是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個節(jié)點,再根據(jù)該屬性字段的不同取值建立樹的分支,在每個分支子集中重復(fù)建立樹的下層節(jié)點和分支的過程[1]。也可以從幾何意義上直觀理解:將訓(xùn)練樣本集中的每一個數(shù)據(jù)看成是n維空間上的一個點,決策樹的分支就是按照一定規(guī)則完成對n維空間的區(qū)域劃分。當(dāng)決策樹建好,n維空間便分成了若干個小區(qū)域,由于n維空間不直觀,不易理解,便以樹形結(jié)構(gòu)展現(xiàn)[2]。
1.2特點
決策樹學(xué)習(xí)屬于機器學(xué)習(xí)的范疇,是一種類似于判別分析的有監(jiān)督的學(xué)習(xí)方法。從統(tǒng)計角度看,與假定數(shù)據(jù)源呈一固定概率分布,然后進行參數(shù)估計的常規(guī)分類方法相比,決策樹屬于嚴格“非參”方法,對于輸入數(shù)據(jù)高維屬性和分類標識具有更好的彈性和穩(wěn)健性。決策樹對于問題的分類是基于邏輯,而不是像傳統(tǒng)統(tǒng)計分類模型一樣基于樣本的統(tǒng)計屬性。決策樹分類耗時短,占用計算機資源少,效率高。分類結(jié)果簡單、明確、結(jié)構(gòu)直觀,適用于較大規(guī)模的數(shù)據(jù)集研究。與神經(jīng)網(wǎng)絡(luò)和貝葉斯分類相比,決策樹更容易理解,能處理缺失值,同時處理有數(shù)值型、兩分類和多分類,有序型變量的數(shù)據(jù),能清楚顯示對分類或預(yù)測有意義的變量,并可生成一些規(guī)則(從根節(jié)點到每個葉子節(jié)點對應(yīng)的路徑就是“規(guī)則”)為決策提供依據(jù)[3~8]。
2歷史與發(fā)展
決策樹是迄今為止發(fā)展最為成熟的一種概念學(xué)習(xí)方法。它最早產(chǎn)生于20世紀60年代,是由Hunt等人研究人類概念建模時建立的學(xué)習(xí)系統(tǒng)(CLS,ConceptLearningSystem)。到70年代末,J.RossQuinlan提出ID3算法,當(dāng)時他目的在于減少樹的深度,卻忽略了葉子數(shù)目的研究。1975年和1984年,分別有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦稱BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法為基礎(chǔ)研究出C4.5/C5.0算法,新算法在對預(yù)測變量的缺失值處理、剪枝技術(shù)、派生規(guī)則等方面作了較大改進,C5.0是C4.5的商業(yè)改進版,與see5相對應(yīng)[2,9~10]。
3種類與算法
3.1種類
按照不同的標準,決策樹可以劃分為不同的種類。①按照分類精確度和樹復(fù)雜程度的大小,分為單個決策樹和多個決策樹,多個決策樹是由單個決策樹合并得到。②根據(jù)分割內(nèi)部節(jié)點時使用統(tǒng)一的還是不同的算法,分為單一決策樹和復(fù)合決策樹。其中,單一決策樹又可分為單變量(特征)決策樹和多變量決策樹,前者在樹中每一內(nèi)部節(jié)點處由數(shù)據(jù)的單一屬性決定樹的分支,后者在內(nèi)部節(jié)點處由通過數(shù)學(xué)或邏輯算子將某些屬性組合起來的新屬性決定樹的分支;復(fù)合決策樹中常用的算法有決策樹算法、線性判別函數(shù)和K最臨近分類器。③根據(jù)每一樹葉子節(jié)點內(nèi)是否只含有相同類別的對象,可分為確定性決策樹和非確定性決策樹。④根據(jù)分類或預(yù)測變量的特征,分為分類樹和回歸樹,分類樹是對離散變量做決策樹,回歸樹是對連續(xù)變量做決策樹[3~10]。
3.2算法
決策樹技術(shù)中有多種算法,最為有影響的是Quinlan以信息熵的減少作為選取分裂屬性標準的ID3算法。該算法基本原理中引入了信息論的概念,簡要介紹如下。假設(shè)訓(xùn)練實例集為X,目標分類為n。設(shè)屬于第i類的訓(xùn)練實例個數(shù)為Ci,X中總的訓(xùn)練實例個數(shù)為X,若選擇屬性a進行測試,在得知a=aj的情況下屬于第i類的實例個數(shù)為Cij個,則P(Ci;a=aj)=CijX為在測試屬性a的取值為aj時它屬于第i類的概率。此時決策樹對分類的不確定程度,即訓(xùn)練實例集對屬性a的條件熵是H(Xj)=-∑ip(Ci/a=aj)logp(a=aj),決策樹的學(xué)習(xí)就是使得對劃分的不確定程度逐漸減少。又因為在選擇屬性a后伸出的每個a=aj葉結(jié)點Xj對于分類信息的信息熵為H(X/a)=∑jp(a=aj)H(Xj),所以屬性a對于分類提供的信息量即信息增益為I(X;a)為:I(X;a)=H(X)-H(X/a)。C4.5算法建立決策樹時就是選擇信息增益最大的屬性作為分裂屬性[11]。盡管決策樹算法很多,但各有優(yōu)勢與不足。從事機器學(xué)習(xí)的專家學(xué)者一直在潛心改進現(xiàn)有算法并研究新算法,改進的著眼點主要圍繞提高樹的分類精度、減少樹的大小、降低復(fù)雜性等幾個方面。僅就ID3算法而言,就有二叉樹判定算法、按信息比值進行估計、按分類信息估值、按劃分距離估值、基于ID3的ID3-MAX、ID3-SD算法等幾種改進[11]。此外,還有其它基于粗集的改進、基于深度優(yōu)先搜索的改進、分類規(guī)則簡化生成算法、加權(quán)模糊熵算法[6~8,12]等。
4核心問題與應(yīng)用條件
4.1核心問題
決策樹算法圍繞的核心是決策樹的生長和剪枝。生長,就是利用訓(xùn)練樣本集完成決策樹建立的過程;剪枝,就是利用檢驗樣本集對形成的決策樹進行優(yōu)化處理,防止發(fā)生擬合過度的過程。剪枝方法主要包括預(yù)剪枝和后剪枝。預(yù)剪枝意為事先定好決策樹的大小從而阻止其自由生長,停止準則?;诮y(tǒng)計意義下的χ2檢驗或信息增益等度量,預(yù)剪枝計算量較少,但難以精確估計何時應(yīng)該停止樹的生長。后剪枝意為讓決策樹充分生長之后然后用所選的精度準則回頭去除擬合過度的分支,主要分為減少分類錯誤修剪、最小描述長度修剪和最小代價-復(fù)雜性修剪等方法。后修剪通常能產(chǎn)生更可靠的樹,因此在實踐中應(yīng)用更多一些。
4.2應(yīng)用條件
決策樹算法很多,可實現(xiàn)的軟件也很多,常被應(yīng)用的軟件有SAS/EM、CART、See5-demo、KnowledgeSEEKER、KnowledgeSTUDIO、BusinessMiner、Decisionseries等。現(xiàn)以決策樹較為常用的CART、CHAID、C4.5三種算法為例,說明它們在SAS/EM(SAS軟件EnterpriseMiner)中各自的應(yīng)用條件及選擇分裂屬性的標準。
4.2.1CART算法軟件中輸入變量(即自變量)的類型可以為名義型、數(shù)值型,如果是有序型,則可當(dāng)作數(shù)值型變量處理。目標變量(即應(yīng)變量)可以為兩分類、多分類、數(shù)值型和有序型變量。不同的目標變量采用不同的分裂標準(splittingcriterion),兩分類目標變量采用基尼系數(shù)(GiniCoefficient)、twoing和orderedtowing標準,其中后兩個分裂標準使用頻率不高;多分類變量采用基尼系數(shù)和twoing兩個標準;數(shù)值型目標變量采用方差減少量或最少絕對差減少量標準;有序型目標變量采用的分裂標準為orderedtowing。
4.2.2CHAID算法輸入變量的類型可以為名義型、有序型,因為選擇分裂變量的算法不針對數(shù)值型變量,所以遇到數(shù)值型輸入變量需先將其分段后再進入軟件參與分析。目標變量可以為名義型或數(shù)值型,名義型和數(shù)值型變量選擇分裂變量的標準分別是基于和卡方F分布的P值,決策樹在構(gòu)建過程中的停止均以卡方或F分布統(tǒng)計顯著性為準。
4.2.3C4.5算法輸入變量的類型可以為兩分類、多分類名義型和數(shù)值型變量,目標變量可針對兩分類或多分類名義型變量,分裂標準可選取信息熵(entropy)、信息增益(informationgain)或信息增益比(gainratio)。
5醫(yī)學(xué)領(lǐng)域中應(yīng)用
在國外,決策樹應(yīng)用領(lǐng)域較為廣泛,其在商業(yè)、工業(yè)、農(nóng)業(yè)、天文、醫(yī)學(xué)、風(fēng)險分析、社會科學(xué)和分類學(xué)等領(lǐng)域中的應(yīng)用已經(jīng)取得了很好的經(jīng)濟和社會效益。國內(nèi)目前有關(guān)決策樹的研究多是圍繞算法的改進以及決策樹在商業(yè)、工業(yè)等領(lǐng)域的運用,在醫(yī)學(xué)領(lǐng)域應(yīng)用較少?,F(xiàn)將決策樹在國內(nèi)外醫(yī)學(xué)中的應(yīng)用情況集中概括為以下幾個方面:
5.1疾病診斷治療
臨床醫(yī)生為病人做出醫(yī)療診斷可以看作是一個分類的過程:醫(yī)生根據(jù)他的知識和經(jīng)驗將病人分類到一個特定的疾病群中。決策樹產(chǎn)生的結(jié)果簡潔明了,易于理解,并能提取相應(yīng)的診斷規(guī)則,其應(yīng)用于疾病的分類診斷往往可以提高診斷正確率,并為經(jīng)驗較少的臨床醫(yī)師提供幫助,因而得到了廣泛的應(yīng)用。ErnaKentala等人曾從赫爾辛基大學(xué)附屬醫(yī)院的鼻神經(jīng)專家系統(tǒng)數(shù)據(jù)庫ONE中提取前庭區(qū)與暈頭有關(guān)的6種發(fā)病人數(shù)較多的疾病資料,分別為6種疾病建立不同規(guī)模的決策樹,并針對6棵樹單獨分析影響每一種疾病發(fā)生的重要因素,而且從決策樹中提取診斷規(guī)則,從而將專家經(jīng)驗知識轉(zhuǎn)化成了可供年輕醫(yī)師隨時參考的有價值的信息[13]。決策樹在臨床醫(yī)學(xué)中應(yīng)用范圍較廣,除了可以對疾病分類以外,還可以對疾病程度分級,篩選危險因素、決定開藥處方大小以及選擇治療方法等[14~20]。
5.2基因與高分子序列分析
隨著人類基因組計劃的進行,目前已獲得數(shù)十億的核苷酸和上百萬的氨基酸數(shù)據(jù),如何對基因進行功能分類已成為基因研究人員非常關(guān)心的問題。而關(guān)于高分子序列,大約4000種蛋白質(zhì)已經(jīng)被排序,但只有10%的蛋白質(zhì)的三維結(jié)構(gòu)被研究過,三維結(jié)構(gòu)基本決定蛋白質(zhì)的功能,所以需要有一種可靠方法從氨基酸序列中預(yù)測出它的功能結(jié)構(gòu),數(shù)據(jù)挖掘中的決策樹技術(shù)可以滿足上述需求。有人利用決策樹對已知功能分類的基因建立分類樹,歸納出蘊含在數(shù)據(jù)中關(guān)于分類的信息并提煉成規(guī)則,從而實現(xiàn)對未知功能分類的基因進行分類預(yù)測[21]。DakeWang等人則利用決策樹對已知功能分類的蛋白質(zhì)序列進行研究,建立了已知功能分類的蛋白質(zhì)序列決策樹模型,實現(xiàn)了模型對未知功能分類的蛋白質(zhì)序列功能的預(yù)測。結(jié)果表明決策樹方法比傳統(tǒng)方法有效[22]。
5.3醫(yī)院信息系統(tǒng)挖掘
醫(yī)院HIS(HospitalInformationSystem)系統(tǒng)包括管理信息系統(tǒng)(ManagementInformationSystem,MIS)和臨床信息系統(tǒng)(ClinicalInformationSystem,CIS)兩部分。目前的HIS可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計功能,但在決策支持方面存在明顯不足,難以發(fā)揮其潛力。而將數(shù)據(jù)挖掘決策樹技術(shù)運用到該系統(tǒng)之后,可以從中提取大量隱含的、事先未知的、對決策有潛在價值的信息,為管理決策和臨床決策提供支持。決策樹在HIS系統(tǒng)的主要用途可以表現(xiàn)為醫(yī)療需求預(yù)測、醫(yī)療市場分析、預(yù)測未來某段時間內(nèi)常發(fā)生的疾病種類、未來某段時間內(nèi)的藥品使用頻率、分析疾病之間的關(guān)系以及疾病的影響因素、總結(jié)各種治療方案的治療效果等[23]。
5.4醫(yī)療政策分析
一個國家國民的健康保障在很大程度上依賴于其完備的醫(yī)療衛(wèi)生政策,政策的制定離不開理論的分析與方法的探討,離不開已積累的與人群健康狀況相關(guān)的各種數(shù)據(jù)。從目前積累的各型數(shù)據(jù)庫來看,利用知識管理優(yōu)化庫信息并從中提取知識結(jié)構(gòu)為政策分析提供依據(jù)已經(jīng)成為衛(wèi)生管理人員和信息開發(fā)人員的共同任務(wù)。研究人員多次嘗試將數(shù)據(jù)挖掘中的決策樹技術(shù)在此進行應(yīng)用。韓國的YoungMoonChae與SeungHeeHo等人便利用以監(jiān)測衛(wèi)生狀態(tài)和開發(fā)國民健康促進程序為特征的韓國醫(yī)療保險公司數(shù)據(jù)庫,成功地將決策樹應(yīng)用于人群健康狀態(tài)評估以及為高血壓管理提供政策信息[24]。
5.5醫(yī)療衛(wèi)生保健
衛(wèi)生保健是衛(wèi)生領(lǐng)域內(nèi)的一個重要內(nèi)容,保健的需求與利用評價、不同保健方式的選擇以及保健的經(jīng)濟和社會效益評價一直是衛(wèi)生保健人員關(guān)心的問題。利用決策樹方法可以解決諸如家庭護理保健的需求分析、兒童預(yù)防保健的干預(yù)、為不同的衛(wèi)生保健群體提供實際可行的決策支持系統(tǒng)等一系列問題,為保健政策的制定與實施提供了相應(yīng)的基礎(chǔ)[25]。
5.6醫(yī)療資源利用評價
盡管當(dāng)今社會醫(yī)療科技手段日新月異,醫(yī)療技術(shù)水平不斷提高,但并不表明醫(yī)療衛(wèi)生資源的極大豐富。醫(yī)療資源合理分配、恰當(dāng)運用仍是醫(yī)學(xué)研究中不可忽略的重要問題。把決策樹技術(shù)引入對有潛在急癥的病人是否進行預(yù)檢查而導(dǎo)致醫(yī)療資源占用情況不同的比較其成功地顯示出決策樹在處理此類問題的重要意義[26]。
隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,決策樹算法的不斷改進與完善,決策樹可實現(xiàn)軟件的普及推廣,決策樹處理醫(yī)學(xué)資料功能的日顯強大,相信決策樹方法在醫(yī)學(xué)領(lǐng)域與管理決策中的應(yīng)用范圍將會越來越廣泛,帶來的經(jīng)濟和社會效益將會更多更可觀,必將顯示出重要的實用價值和廣闊的發(fā)展前景。
醫(yī)學(xué) 醫(yī)學(xué)護理 醫(yī)學(xué)職稱 醫(yī)學(xué)期刊 醫(yī)學(xué)管理 醫(yī)學(xué)思政教育 醫(yī)學(xué)人文精神案例 醫(yī)學(xué)教育 醫(yī)學(xué)文獻論文 醫(yī)學(xué)心理學(xué) 紀律教育問題 新時代教育價值觀