- 相關(guān)推薦
基于聯(lián)結主義的連續記分IRT模型的項目參數和被試能力估計
與經(jīng)典測驗理論相比,項目反應理論(簡(jiǎn)稱(chēng)IRT)由于具有參數不變性、能進(jìn)行計算機化自適應測驗等優(yōu)點(diǎn)而受到歡迎,但是也存在著(zhù)不少問(wèn)題,首先是目前比較成熟的、得到廣泛應用的IRT軟件,如BILOG、MicroCAT等,主要是運用極大似然法或貝葉斯方法進(jìn)行項目參數和被試能力估計,一般都只能處理二值記分的項目,也有少數軟件可以處理等級記分的項目,例如MULTILOG,但對于連續記分的項目還缺少估計方法和工具;其次是在運用BILOG、MicroCAT和MULTILOG等軟件時(shí)往往需要數百人的大樣本,而對于小樣本則缺少有效的估計方法,因此需要另尋途徑來(lái)解決這些問(wèn)題。
2 聯(lián)結主義理論中的級連相關(guān)模型
聯(lián)結主義理論(或稱(chēng)人工神經(jīng)網(wǎng)絡(luò ))是近年來(lái)得到廣泛關(guān)注的認知心理學(xué)理論,它一方面可以用來(lái)模擬人的認知活動(dòng),探討人類(lèi)的信息加工機制,另一方面可以作為一種工具來(lái)分析系統的輸入和輸出之間的關(guān)系,特別是當系統的輸入和輸出之間難以用顯性的數學(xué)方程表示時(shí),聯(lián)結主義模型就可以通過(guò)其本身的學(xué)習功能,在用一組已知的輸入和輸出數據對它進(jìn)行訓練以后,就可以在一定程度上掌握了該系統內部的輸入和輸出之間的關(guān)系,即建立了某種模型。如果我們再給這個(gè)經(jīng)過(guò)訓練的網(wǎng)絡(luò )模型以新的輸入,那么它就可以給出相應的輸出值。因此,人們可以利用聯(lián)結主義模型的這種性質(zhì)來(lái)進(jìn)行預測和參數估計等活動(dòng)。
聯(lián)結主義模型通常由一個(gè)輸入層、一個(gè)輸出層和若干個(gè)隱含層組成,每一層中含有若干個(gè)結點(diǎn),一個(gè)模型中所含的隱含層數目和各層所含結點(diǎn)數目,是由具體問(wèn)題的性質(zhì)和復雜程度來(lái)確定的。各個(gè)結點(diǎn)之間的聯(lián)結具有一定的權重,它的大小反映了相鄰兩個(gè)結點(diǎn)之間相互影響的程度,在模型被訓練的過(guò)程中,各結點(diǎn)間的權重得到了調整。
聯(lián)結主義模型通?梢苑譃殪o態(tài)型和動(dòng)態(tài)型兩種,靜態(tài)型模型的拓撲結構是實(shí)驗者在一開(kāi)始的時(shí)候就設計好的,它的訓練過(guò)程就是調節各結點(diǎn)之間的權重。動(dòng)態(tài)型模型的拓撲結構是在訓練過(guò)程中不斷變化的,它能夠隨著(zhù)訓練的進(jìn)行,自動(dòng)地加入新的隱含結點(diǎn),同時(shí)也調整各結點(diǎn)間的聯(lián)結權重,這樣就可以更快地減少訓練誤差。
級連相關(guān)模型是動(dòng)態(tài)型聯(lián)結主義模型中的一種,它的計算精度較高,運算速度較快。在開(kāi)始訓練時(shí),該模型只有輸入層和輸出層,處于最小拓撲結構。隨著(zhù)訓練過(guò)程的進(jìn)行,它能夠根據需要自動(dòng)地逐個(gè)加入隱含結點(diǎn)。該模型的訓練分為輸出和輸入兩個(gè)階段交替進(jìn)行,首先是輸出階段,在這一階段,模型對聯(lián)結隱含結點(diǎn)和輸出結點(diǎn)間的各權重進(jìn)行調整,直到誤差不再減少為止;然后轉至輸入階段,在這一階段,模型對于聯(lián)結輸入結點(diǎn)和候選隱含結點(diǎn)間的各個(gè)權重進(jìn)行調整,并從中選出其輸出變量和網(wǎng)絡(luò )的誤差變量間相關(guān)為最大的候選隱含結點(diǎn),把它裝入網(wǎng)絡(luò ),這樣使得每次裝入的新隱含結點(diǎn)都能最大程度地影響誤差的變化。然后再轉至輸出階段,這個(gè)過(guò)程不斷重復,直到達到預定的訓練精度。在本研究中,由于無(wú)法事先確定模型的拓撲結構,以及為了較快地對模型進(jìn)行訓練和達到較好的訓練和測試效果,采用了級連相關(guān)模型作為研究的工具。
3 連續記分IRT模型
連續記分IRT模型是二值記分IRT模型的擴展,即它的記分不是按照二值邏輯的全對或全錯的方式來(lái)進(jìn)行,而是根據被試答對項目的程度來(lái)進(jìn)行記分,如果全對該題目就得滿(mǎn)分。由于各題目的滿(mǎn)分值不一樣,有的是3分、5分、6分或更高的分數,為了統一起見(jiàn),可以對它們進(jìn)行歸一化處理,全部轉化為0至1的值。這樣就可以和下面的三參數邏輯斯諦模型中的P(θ)相一致。Samejima、Muller和Mullenbergh等都對連續記分IRT模型進(jìn)行過(guò)研究,它和二值記分模型一樣,可以用正態(tài)卵形模型和邏輯斯諦模型表示。對于常用的三參數邏輯斯諦模型,它的表示式為:
P(θ)=c (1-c)exp(θ-b)]/{1 exp(θ-bi)]}
在該模型中,式中的ai、bi和ci分別為第i個(gè)項目的區分度、難度和猜測參數,θ為某個(gè)被試的能力,P(θ)為該被試答對第i個(gè)項目的概率,它的值為0至1,這是一個(gè)連續的值。
雖然有些學(xué)者對于該模型進(jìn)行了一些研究,但是他們的研究還只是涉及該模型的性質(zhì)、信息函數的定義、參數不變性等方面,在具有實(shí)用意義的參數和被試能力估計方面還沒(méi)有成熟的結果。
為了對連續記分IRT模型的參數估計問(wèn)題進(jìn)行研究,作者對目前常用的幾個(gè)IRT軟件的算法進(jìn)行分析,發(fā)現它們的共同特點(diǎn)都是運用統計的方法來(lái)進(jìn)行參數估計,都無(wú)法對小樣本情況下的IRT連續記分模型進(jìn)行參數估計,于是作者就決定另辟捷徑,在本研究中采用了和常用統計技術(shù)完全不同的聯(lián)結主義模型(人工神經(jīng)網(wǎng)絡(luò ))方法。運用統計方法不能完全解決的問(wèn)題,并不意味著(zhù)用其它方法就不能解決,其關(guān)鍵問(wèn)題是常用的統計參數估計方法大多是建立在線(xiàn)性模型的基礎上的,而被試的反應和IRT中參數之間的關(guān)系是非線(xiàn)性的,因此在運用統計方法進(jìn)行參數估計時(shí),要采用大樣本才能得到較好的結果。而人工神經(jīng)網(wǎng)絡(luò )的輸出和輸入之間的關(guān)系本身就是非線(xiàn)性的,特別值得一提的是,本研究把人工神經(jīng)網(wǎng)絡(luò )的激活函數設計為S型的Sigmoid函數,它的表達式為
f(x)=exp(x)/
它和上述的三參數邏輯斯諦模型的表示式非常相似,仔細比較一下,就可以看出它實(shí)際上就是IRT模型在c=0,b=0,1.7a=1,θ=x時(shí)的特例,因此聯(lián)結主義模型(人工神經(jīng)網(wǎng)絡(luò ))的這種輸出和輸入之間的非線(xiàn)性結構就可以較好地處理IRT中相類(lèi)似的數據關(guān)系。
4 計算機模擬實(shí)驗的設計和實(shí)施
該實(shí)驗的基本思想是:把一組被試對于一組項目的反應矩陣作為級連相關(guān)模型(以下簡(jiǎn)稱(chēng)為神經(jīng)網(wǎng)絡(luò ))的輸入,這組被試的能力θ或該組項目的參數a、b和c作為該模型的輸出,并且用這些輸入和對應的輸出值對該神經(jīng)網(wǎng)絡(luò )進(jìn)行訓練,經(jīng)過(guò)訓練的網(wǎng)絡(luò )就具備了估計θ,a,b或c的能力。當輸入一組新的反應矩陣時(shí),該網(wǎng)絡(luò )就可以輸出所需的被試能力或項目參數估計值。本實(shí)驗是用計算機模擬方法來(lái)考察運用這種方法得到的估計值和真實(shí)值之間的誤差是否能夠達到相當小的程度。
4.1 實(shí)驗步驟的設計
整個(gè)實(shí)驗分以下幾個(gè)步驟進(jìn)行:
(1)運用蒙特卡羅方法產(chǎn)生一組均勻分布的被試能力值θ,一組均勻分布的項目參數值(包括項目區分度a、項目難度b和項目猜測參數c)。被試能力值θ的分布范圍為,項目區分度a的分布范圍為,項目難度b的分布范圍為,項目猜測參數c的分布范圍為。
(2)根據項目反應模型,讓各個(gè)模擬的被試回答各個(gè)模擬的項目,產(chǎn)生反應矩陣。
(3)將該反應矩陣作為神經(jīng)網(wǎng)絡(luò )訓練模式的輸入部分,用所要學(xué)習的項目參數或被試能力作為訓練模式的輸出部分。若要估計被試的能力,就把反應矩陣中的每一行作為一個(gè)模式,因為它恰好是一個(gè)被試對于一組項目的反應;若要估計項目參數,就把反應矩陣中的每一列作為一個(gè)模式,因為它反映了每一個(gè)項目被解答的情況。
(4)用上述訓練模式對一組神經(jīng)網(wǎng)絡(luò )進(jìn)行訓練,直至達到預定的精確度為止。在本研究中為了統計上的方便,對30個(gè)神經(jīng)網(wǎng)絡(luò )進(jìn)行了訓練,預定的精確度為網(wǎng)絡(luò )的目標值和實(shí)際輸出值之間的誤差小于0.001。
(5)用經(jīng)過(guò)訓練的神經(jīng)網(wǎng)絡(luò )來(lái)估計被試能力和項目參數。在本研究中需要估計的被試能力和項目參數的真實(shí)值實(shí)際上是用蒙特卡羅方法產(chǎn)生的,因此可以計算出估計值(實(shí)際輸出值)和真實(shí)值的誤差,稱(chēng)為測試誤差,并用下式表示:
附圖
式中,T為每個(gè)測試模式的每個(gè)輸出結點(diǎn)的目標值。N為每個(gè)測試模式的每個(gè)輸出結點(diǎn)的實(shí)際輸出值。p是測試模式的數目,o是輸出結點(diǎn)的數目。根據測試誤差E的大小,可以看出經(jīng)過(guò)訓練的神經(jīng)網(wǎng)絡(luò )是否真正可以對項目參數和被試能力進(jìn)行很好的估計。
4.2 預備實(shí)驗
由于在正式對神經(jīng)網(wǎng)絡(luò )進(jìn)行訓練以前,對于要用什么樣的模式來(lái)訓練沒(méi)有任何先驗的知識,為此先進(jìn)行預備實(shí)驗。和正式實(shí)驗的步驟一樣,首先運用蒙特卡羅方法產(chǎn)生25個(gè)被試對15個(gè)項目的反應矩陣,用這一矩陣和相應的被試能力或項目參數組成4組訓練模式,分別用以估計θ,a,b和c。在對被試能力進(jìn)行估計時(shí),將矩陣的行作為一組神經(jīng)網(wǎng)絡(luò )訓練模式的輸入部分,因為矩陣的一行數據就代表了一個(gè)被試對所有項目的反應;相應被試的θ值作為訓練模式的輸出部分,因為它代表了被試的能力值。在對項目參數進(jìn)行估計時(shí),將矩陣的列作為一組神經(jīng)網(wǎng)絡(luò )訓練模式的輸入部分,因為矩陣的一列數據就代表了所有被試對一個(gè)項目的反應;相應項目的a,b或c值作為訓練模式的輸出部分,因為它代表了項目的參數值。就用這些訓練模式分別對4組神經(jīng)網(wǎng)絡(luò )進(jìn)行訓練,這4組神經(jīng)網(wǎng)絡(luò )分別對應于被試能力和項目的三個(gè)參數,每組有30個(gè)網(wǎng)絡(luò )。然后,再用蒙特卡羅方法產(chǎn)生另外25個(gè)被試對另外15個(gè)項目的反應矩陣,并用已經(jīng)訓練過(guò)的網(wǎng)絡(luò )對這個(gè)反應矩陣估計θ,a,b和c,記錄下測試誤差。其結果表明,雖然可以進(jìn)行被試能力和項目參數的估計,但誤差較大,無(wú)法達到實(shí)際應用的精確度。根據神經(jīng)網(wǎng)絡(luò )訓練的一般規律,估計出現這一情況的原因有兩條,一是訓練模式太少,二是訓練模式和測試模式之間沒(méi)有任何聯(lián)系,即沒(méi)有用“錨題”或“錨人”把它們聯(lián)系起來(lái),改進(jìn)的方法可以是增加訓練模式,或運用一定的“錨題”或“錨人”方法,在本研究中先用“錨題”的方法進(jìn)行試驗(具體方法在進(jìn)行正式實(shí)驗時(shí)詳述),試驗的效果很好,然后進(jìn)行下面的正式實(shí)驗。
4.3 正式實(shí)驗
(1)步驟1:產(chǎn)生訓練矩陣和測試矩陣
運用蒙特卡羅方法產(chǎn)生25個(gè)被試(稱(chēng)為第一組被試)對45個(gè)項目(稱(chēng)為第一組項目)的反應矩陣(稱(chēng)為第一矩陣),這一矩陣在下面的實(shí)驗中將作為測試矩陣;從該45個(gè)項目中隨機取出15個(gè)項目(稱(chēng)為第二組項目),再用蒙特卡羅方法產(chǎn)生另外25個(gè)被試(稱(chēng)為第二組被試),令它們和上述隨機取出的第二組項目起反應,產(chǎn)生另一個(gè)反應矩陣(稱(chēng)為第二矩陣),用它作為訓練模式的一部分,由此可見(jiàn),訓練矩陣和測試矩陣之間有15個(gè)項目作為“錨題”,如下面圖1所示。
附圖
圖1 被試、項目和反應矩陣
圖1中的第三組項目和第三矩陣將在下面作解釋。
(2)步驟2:建立能力訓練模式
用“第二矩陣”中的每一行作為一個(gè)模式的輸入,其相應的25個(gè)第二組被試的能力值作為輸出,組成能力訓練模式,對一組神經(jīng)網(wǎng)絡(luò )(共30個(gè),稱(chēng)為第一組神經(jīng)網(wǎng)絡(luò ))進(jìn)行訓練。
(3)步驟3:建立能力測試模式并進(jìn)行測試
將“第一矩陣”中的每一行作為一個(gè)模式的輸入,相應的第一組被試的25個(gè)能力值作為輸出,組成能力測試模式,用上述經(jīng)過(guò)訓練的第一組神經(jīng)網(wǎng)絡(luò )對其進(jìn)行測試。這時(shí),實(shí)際上是神經(jīng)網(wǎng)絡(luò )對第一組被試的能力值進(jìn)行估計。然后,將估計值和真實(shí)值進(jìn)行比較,記錄下測試誤差,如表1左邊第1列所示,要注意的是,表中記錄的是30個(gè)網(wǎng)絡(luò )的測試誤差實(shí)際值,根據公式可見(jiàn),它是所有輸出結點(diǎn)和所有測試模式的誤差總和。由于本研究中只有一個(gè)輸出結點(diǎn),有25個(gè)測試模式(因為有25個(gè)被試),因此要將表中的測驗誤差實(shí)際值除以25,得到對單個(gè)測試模式的測試誤差,然后,再計算其平均數M和標準差SD,結果如表2所示,可以看出測試誤差是比較小的。由此可見(jiàn),當測試模式中有部分項目(本例中為15個(gè)項目)和訓練模式相同時(shí),經(jīng)過(guò)訓練的神經(jīng)網(wǎng)絡(luò )可以對被試的θ進(jìn)行很好的估計。應該指出的是,測試模式和訓練模式中沒(méi)有被試是重復相同的,這說(shuō)明經(jīng)過(guò)訓練的神經(jīng)網(wǎng)絡(luò )確實(shí)可以對新的被試進(jìn)行能力估計。
表1 測試誤差
θ a b c
0.129 2.239 2.982 0.065
0.084 1.843 2.976 0.056
0.243 2.016 2.798 0.069
0.324 1.804 2.133 0.058
0.126 2.159 2.556 0.027
0.201 2.224 2.399 0.067
0.288 2.246 2.617 0.043
0.114 1.741 2.834 0.065
0.189 1.937 2.347 0.076
0.249 2.295 2.745 0.092
0.264 2.319 2.433 0.065
0.321 2.382 2.030 0.044
0.105 2.136 2.231 0.093
0.132 2.061 2.244 0.023
0.153 2.019 2.868 0.068
0.279 2.270 2.042 0.044
0.204 2.196 1.850 0.099
0.102 1.950 2.597 0.059
0.105 1.732 1.709 0.089
0.282 1.764 2.328 0.072
0.228 2.281 2.556 0.114
0.256 2.089 1.961 0.071
0.222 2.445 2.002 0.093
0.210 1.666 2.243 0.035
0.138 1.743 2.441 0.075
0.201 2.438 2.034 0.080
0.171 1.740 2.100 0.106
0.246 2.307 2.594 0.069
0.195 1.577 2.535 0.057
0.213 2.436 2.199 0.057
下一頁(yè)
【基于聯(lián)結主義的連續記分IRT模型的項目參數和被試能力估計】相關(guān)文章:
有關(guān)EMS的最優(yōu)線(xiàn)路參數估計模型03-01
基于最小二乘模型的Bayes參數辨識方法03-07
母體為指數分布的參數估計和檢驗03-07
基于HDMI的ESD保護二極管模型及參數優(yōu)化03-07
HF信道復包絡(luò )參數估計法原理11-22
數學(xué)畢業(yè)論文-母體為指數分布的參數估計和檢驗03-04
基于改進(jìn)的Kalman濾波的雷達信號PRI估計03-07
基于項目管理能力的項目驅動(dòng)型企業(yè)戰略風(fēng)險形成研究03-22
最新推薦
- TDM端局網(wǎng)絡(luò )接通率研究
- 大電流LED驅動(dòng)器LTC3454
- 基于聯(lián)結主義的連續記分IRT模型的項目參數和被試能力估計
- ASP.Net中程序構架與程序代碼的分離
- ASP
- LVDS技術(shù)及其在多信道高速數據傳輸中的應用
- 淺析某中學(xué)校園網(wǎng)建設方案
- 醫院計算機網(wǎng)絡(luò )信息資源管理探析
- 基于參數模型的頻響函數估計方法
- 淺析網(wǎng)絡(luò )系統控制安全措施探究
- 職工能力評價(jià)
- 職業(yè)能力測驗
- 簡(jiǎn)歷的語(yǔ)言能力
- 大學(xué)就業(yè)能力
- 能力與自我評價(jià)
- 簡(jiǎn)歷語(yǔ)言能力
- 團隊協(xié)作能力
- 韓語(yǔ)能力考試
- 職業(yè)能力測評
- 行政能力測驗