- 相關(guān)推薦
探析信度與效度測量在大學(xué)英語(yǔ)測試中的應用
摘要:信度和效度是評估語(yǔ)言測試最為關(guān)鍵的兩個(gè)質(zhì)量指標, 但兩者在本質(zhì)上又是相互沖突的。嘗試論證在一定的約束條件下,為了使某一特定測試的總效用達到最大化,我們能夠找到效度和信度之間最佳的平衡關(guān)系,由此而為大學(xué)英語(yǔ)測試的改革實(shí)踐提供一些參考性建議。?
關(guān)鍵詞:英語(yǔ)測試;效度;信度? ?
1 引言?
據全國大學(xué)英語(yǔ)四、六級考試委員會(huì )與英國文化委員會(huì )的合作研究結果認為:CET4和CET6(簡(jiǎn)稱(chēng))是一項信度極高的考試,每次考試客觀(guān)題的內部信度都達0.9以上;效度相當高,回收問(wèn)卷中有92%的教師認為CET能反映學(xué)生的實(shí)際英語(yǔ)水平。筆者以為這里所指的信度和效度的界定很模糊,就某次具體的測試而言,信度和效度是受特定條件限制的,不可能是絕對的。迄今為止,我國的高考、研究生入學(xué)考試、公共英語(yǔ)等級考試(PET),包括CET等大規模英語(yǔ)測試還是以客觀(guān)性題型為主,主觀(guān)題只占10%或20%左右。就評分方法而言,因客觀(guān)性試題答案的唯一性,可用機器閱卷,從而保證了測試結果的客觀(guān)性和一致性,無(wú)疑具有相對較高的信度,但不足之處就是效度難以保證。同時(shí)大量采用主觀(guān)性、直接性試題的測試在閱卷信度上也令人懷疑。這樣的困惑總是或多或少存地在于考試的開(kāi)發(fā)、設計和評估過(guò)程中。?
我們能否使信度和效度同時(shí)最大化呢?信度和效度又應如何整合而達到適當的(appropriate)平衡?Bachman和Palmer在其測試理論中認為可設置“可接受的最低程度”(minimumacceptablelevel)的效度或信度等質(zhì)量指標從而使得語(yǔ)言測試的“效用性”(usefulness)原則中各特征之間達到適度平衡。由于測試總是在一定的價(jià)值判斷、測試目標、社會(huì )環(huán)境等約束條件下進(jìn)行的,本文嘗試探索在可行性條件下,測試的總效用(overallusefulness)最大化時(shí)效度和信度之間可能存在的關(guān)系。?
2 效度和信度的基本概念及特點(diǎn)?
如果我們想闡釋一次特定的考試成績(jì)是否正確反映了學(xué)生的語(yǔ)言能力,那么在設計和使用測試時(shí),信度和效度是我們首要關(guān)注的特征。Bachman把信度定義為“測試的一致性”(consistencyofmeasurement)。簡(jiǎn)言之,就是測試結果的可信度、可靠度。例如,我們可以這樣來(lái)檢驗測試的信度:使用同樣一份試卷,在兩種不同的場(chǎng)合、環(huán)境中,在較短的時(shí)間間隔內,施與同樣的學(xué)生,如果測試結果基本吻合,那么證明該測試是有信度的。一份試卷的測試結果如果缺乏信度,就沒(méi)有使用價(jià)值,同時(shí)也減弱了考試的公正性。當然,要完全消除不一致性(inconsistency)也是不可能的,我們能做的是盡量把影響不一致性的不利因素控制在最低程度,以便于提高測試信度。?
信度所涉及的問(wèn)題是個(gè)體測試成績(jì)在多大程度上是由測試誤差或其它因素所影響的。效度所關(guān)注的問(wèn)題是個(gè)體測試成績(jì)在多大程度上和個(gè)體語(yǔ)言能力相關(guān)。因而,我們研究信度的目的是使測試誤差造成的影響最小化,研究效度旨在使我們想要檢測的語(yǔ)言能力的效果最大化,它們是兩個(gè)相互補充的目標。一項測試若沒(méi)有信度,也就無(wú)所謂效度。信度是效度的前提或必要條件。權衡信度和效度,效度是首要的。然而Underhill和Heaton指出信度和效度特征在本質(zhì)上是互相沖突的。測試效度較高的試題有時(shí)測試信度較低。反之,測試信度較高的試題有時(shí)測試效度較低。Morrow也認為想把測試任務(wù)設計得既具有可信性又具有真實(shí)性不可能的。Hughes卻說(shuō)雖然測試的各種特征相互排斥,但是這并不意味著(zhù)我們可以完全放棄這些特征。?
3 對信度和效度在理論上能達到適當平衡的可行性研究?
評價(jià)英語(yǔ)測試最重要的原則是總效用性(overallusefulness)。Bachman和Palmer(1996:18)把某一特定測試的“總效用性”看作是由六個(gè)因素構成的,即效用性(Usefulness)=信度(Reliability) 構想效度(Constructvalidity) 真實(shí)性(Authenticity) 互動(dòng)性(Interactiveness) 沖擊力(Impact) 適用性(Practicality)。這里需要說(shuō)明的是:Bachman和Palmer之所以把“構想效度”作為“效用性”六大特征之一,是因為構想效度(上節已提到)關(guān)系到我們根據測試成績(jì)所作的解釋的意義性和適切性。前五者均與測試成績(jì)的使用有關(guān),而“適用性”與測試的方法有關(guān),能夠在很大程度上決定測試的可行性。評價(jià)一次考試是否有效用需要綜合考察這些因素,在它們之間尋求最佳的平衡點(diǎn),而這一平衡能否實(shí)現取決于適用性的大小。對于大規?荚,考試策劃者需在試卷設計和考試任務(wù)設置時(shí)重點(diǎn)考慮信度和效度,而對于一般學(xué)?荚,教師就應多考慮考試任務(wù)的真實(shí)性、互動(dòng)性和對教學(xué)的沖擊力(或稱(chēng)后效作用)。
4 在英語(yǔ)測試實(shí)踐中把握好信度和效度的平衡關(guān)系?
以上已經(jīng)大致證明:信度和效度作為評估測試質(zhì)量的兩個(gè)基本特性,兩者雖然在一定程度上是相互矛盾的,但完全可以通過(guò)相互協(xié)調使之達到適切的平衡,以保證測試的總效用性最大化。這一結論給我們的啟示是:在英語(yǔ)測試的設計和命題過(guò)程中,不能絕對、片面、盲目地追求或強調某一方面而以失去另一方面為代價(jià),只有綜合平衡二者的關(guān)系才能獲得最大的總效用。?
4.1 考試內容能否體現新的語(yǔ)言教學(xué)觀(guān)?
語(yǔ)言測試隨著(zhù)語(yǔ)言觀(guān)的發(fā)展而發(fā)展,也隨著(zhù)教學(xué)理念、教學(xué)模式的更新而更新。八十年代中期開(kāi)始流行的交際功能觀(guān)和九十年代以后興起的任務(wù)教學(xué)法(task-basedlanguageteachingapproach)都對語(yǔ)言測試的改革提出了新的要求,F行的四、六級考試題型還是以結構主義語(yǔ)言測試理論為基礎的多選題為主,某些語(yǔ)言項目的測試與實(shí)際語(yǔ)言能力的相關(guān)性不高,很難體現當代語(yǔ)言教學(xué)觀(guān)提倡的英語(yǔ)交際運用能力方面的考查。Bachman和Palmer(1996)也強調測試任務(wù)和目標語(yǔ)使用任務(wù)(target-languageusetask)的一致性?磥(lái)革新CET的試卷結構、題型設置是關(guān)鍵。為了提高考試的效度,可以通過(guò)調整主觀(guān)題和客觀(guān)題的比例(3:2或1:1),多采用直接測試法,增加聽(tīng)力和寫(xiě)作測試的權重,加大口試考核力度并設最低分,變化題型等手段。也可通過(guò)采取大題量小分值,細化評分標準,綜合使用整體評分法(holisticgrading)和分析評分法(analyticmarking)等措施來(lái)提高考試信度。?
4.2 能否產(chǎn)生正面反撥效應?
測試是教和學(xué)的導向。問(wèn)題是如何提高測試的正面反撥效應,減少負面反撥效應。四、六級考試長(cháng)期以來(lái)采用固定不變的模式,客觀(guān)上造成了學(xué)生猜題、押題,教師偏向應試教學(xué),產(chǎn)生了不良的教學(xué)效果。Hughes提出了若干提高正面反撥效應的建議:測試要培養能力;測試內容要覆蓋面廣并具有一定的不可預測性;盡量使用直接測試法;成績(jì)測試要與教學(xué)目標相結合,使用尺度參照等。這些建議多數涉及效度
【探析信度與效度測量在大學(xué)英語(yǔ)測試中的應用】相關(guān)文章:
人才測評的效度與信度研究03-22
探析幽默在大學(xué)英語(yǔ)教學(xué)中的應用03-18
探析謀篇布局法在大學(xué)英語(yǔ)寫(xiě)作中的應用03-20
探析建構主義在大學(xué)英語(yǔ)精讀課中的應用03-19
探析PowerPoint在英語(yǔ)教學(xué)中的應用03-20
探析英語(yǔ)介詞在翻譯中的靈活應用12-03
探析“異步教學(xué)法”在大學(xué)英語(yǔ)寫(xiě)作教學(xué)中的應用03-20
探析廣域測量系統在電力系統中的應用03-18