- 相關(guān)推薦
試析決策樹(shù)算法在教育統計學(xué)中的應用論文
數據挖掘就是從大量的不完全的有噪聲的模糊的隨機的實(shí)際應用數據中,抽取隱含在其中的、事先并不知道的、但又是潛在有用的信息和知識的過(guò)程。
決策樹(shù)算法作為常用的數據挖掘技術(shù)之一,其基本思想是將實(shí)例庫中記錄的大量有限的具體事實(shí)數據進(jìn)行歸納和分類(lèi)并建立樹(shù)型結構,以發(fā)現并形成隱含在大量實(shí)例中的若干形式化的分類(lèi)判別規則,典型的決策樹(shù)算法方法有ID3方法和IBLE(Information—based Learning from Example)方法。
利用決策樹(shù)評估教材質(zhì)量的基本思想
筆者以高校教學(xué)質(zhì)量建設中的重頭戲——教材建設為例來(lái)闡釋決策樹(shù)算法在教育統計學(xué)中的應用。
從教材的教學(xué)水平,科學(xué)水平等兩大要素來(lái)對教材的質(zhì)量進(jìn)行合理分類(lèi),探索出科學(xué)合理的決策樹(shù)的模型,使之成為學(xué)校教材建設管理的理論方法,并在今后的教材管理中起著(zhù)一定的指導作用。
教學(xué)水平:教材符合人才培養目標及本課程教學(xué)的要求:取材合適、深度適宜、份量恰當;符合認知規律;富有啟發(fā)性;便于學(xué)習。
科學(xué)水平:能反映本學(xué)科國內外科學(xué)研究和教學(xué)研究的先進(jìn)成果;能完整地表達本課程應包含的知識;反映其相互聯(lián)系及發(fā)展規律;結構嚴謹。
構建決策樹(shù)模型
即利用訓練集(教材建設數據庫)建立并精化一棵決策樹(shù)。該過(guò)程可分為建樹(shù)和剪枝兩階段。其中,建樹(shù)是用每一個(gè)屬性將訓練集劃分成一個(gè)或多個(gè)子集,遞歸地調用該過(guò)程,直到每個(gè)子集中的記錄都屬于同一類(lèi),最終得到?jīng)Q策樹(shù)。剪枝是為提高樹(shù)的精度及分類(lèi)效率,而去掉因訓練數據中的噪聲和孤立點(diǎn)等引起的不可靠或可能是噪聲的一些枝條。
利用決策樹(shù)研究影響教材質(zhì)量的因素
首先,將學(xué)生問(wèn)卷調查數據庫和教學(xué)管理部門(mén)所掌握的資料結合起來(lái),分類(lèi)整理,同時(shí)進(jìn)行規范化的數據清洗,得到創(chuàng )建決策樹(shù)模型的訓練集,如表1所示。
根據評估預期的要求,將所有教材的評估結果分為兩類(lèi):
Class p:綜合評價(jià)=“優(yōu)秀”
Class n:綜合評價(jià)=“一般”
從上表顯示的數據可知,綜合評價(jià)為“一般”的教材有9種, 綜合評價(jià)為“優(yōu)秀”的教材有6種,從而可以計算出樣本分類(lèi)的期望信息:
—∑Pi log2(pi)=
I(p,n)=I(9,6)= —[(9/15)×log2(9/15)+6/15×log2=(6/15)]
=—(—0.444—0.53)=0.974
下面以綜合評價(jià)是否為“優(yōu)秀”作為衡量標準分別計算由各個(gè)屬性劃分子集的信息熵,以及各自的信息增益度。
計算“教學(xué)水平”的信息增加益度
從而算出信息熵E(教學(xué)水平)=
I(3,1)+I(3,2)+I(0,3)+I(0,3)=0.43
再計算出其信息增益度
GainI(p,n)—E(教學(xué)水平)=0.974—0.507=0.467
計算“科學(xué)水平”的信息增益度
計算信息熵E(科學(xué)水平)=I(2,1)+I(3,2)+I(1,6)+I(0,0)—0.783再計算出其信息增益度GainI(科學(xué)水平)=I(p,n)—E(科學(xué)水平)=0.974—0.783=0.191
計算“教材編者職稱(chēng)”的信息增益度
從而算出信息熵E(教材編者職稱(chēng))=I(4,1)+I(2,1)+I(0,4)+I(0,3)=0.424再計算出其信息增益度GainI(教材編者職稱(chēng))—I(p,n)—E(教材編者職稱(chēng))=0.974—0.424=0.55
計算“教材編者學(xué)歷”的信息增益度
計算信息熵E(教材編者學(xué)歷)=I(3,1)+I(3,3)+I(0,5)=0.667再計算出其信息增益度GainI(教材編者學(xué)歷)=(p,n)—(教材編者學(xué)歷)=0.974—0.667=0.307
由此可以得知“教材編者職稱(chēng)”的信息增益度最大,它是最能區別訓練集實(shí)例中教材質(zhì)量的屬性,應作為決策樹(shù)的根節點(diǎn)。根據各個(gè)屬性的信息增益度的大小,可以構建該訓練集實(shí)例的決策樹(shù)如下圖1所示:
由該決策樹(shù)可以得出諸如以下結論:
教材編者職稱(chēng)的高低程度(也可以說(shuō)是教學(xué)經(jīng)驗的豐富程度)很大程度上影響著(zhù)教材的質(zhì)量,教材的教學(xué)水平的優(yōu)劣程度對教材質(zhì)量的影響程度次之,教材編者的學(xué)歷和教材的科學(xué)水平也在相當程度上影響教材的質(zhì)量。
【試析決策樹(shù)算法在教育統計學(xué)中的應用論文】相關(guān)文章:
粗決策樹(shù)動(dòng)態(tài)規則提取算法研究及應用03-17
試析研討式教學(xué)法在調度單元制培訓中的應用教育論文12-02
教育游戲在幼兒教育中的應用論文05-23
教育技術(shù)中教學(xué)實(shí)踐應用論文11-30
MCMC算法在MIMO系統檢測中的應用03-07
賞識激勵教育在音樂(lè )教學(xué)中的應用論文11-20
論音樂(lè )在幼兒教育中的應用論文11-30
決策樹(shù)在基于消費者外表的服裝營(yíng)銷(xiāo)中的應用03-26
遺傳算法及其在求解TSP中的應用03-07