- 相關(guān)推薦
醫學(xué)統計中的常見(jiàn)誤區有哪些
醫學(xué)統計學(xué)是運用概率論與數理統計的原理及方法,結合醫學(xué)實(shí)際,研究數字資料的搜集、整理分析與推斷的一門(mén)學(xué)科。醫學(xué)研究的對象主要是人體以及與人的健康有關(guān)的各種因素。下面是yjbys小編為大家帶來(lái)的關(guān)于醫學(xué)統計中的常見(jiàn)誤區的知識,歡迎閱讀。
一,真正差異和統計學(xué)差異
常常有人和我說(shuō): P值越小,試驗結果的差異就越大!而且還有依據 [P < 0.05 是有顯著(zhù)性差異; P < 0.01 是有極顯著(zhù)性差異]。
其實(shí),這些人忽略了 n 這個(gè)樣本數的作用,n 的大小會(huì )影響 P 值。但更應該澄清一下的是: P 值代表的是統計學(xué)差異,并不是真正的差異!真正的差異只能靠平均值或者頻度的比較才能得到。
二,卡方檢驗的局限性
我們知道各組之間的計數資料的比較,要用卡方檢驗,但有些情況是不行的!!!
1,當樣本有小于5的值2X2表時(shí),必須要用 Fisher 檢驗才正確!
2,當組與組之間有不同的背景,而這些背景因子還可能會(huì )影響到組與組之間結果差異,這是就必須要用 Mantel-Haenszel 檢驗!
這第2條可能大家不要理解,那我就舉兩個(gè)例子:
1) 關(guān)于男性和女性對于不同顏色的喜好的統計學(xué)分析
但這里應該注意到年齡可能會(huì )對這個(gè)分析造成影響,這就要用Mantel-Haenszel 檢驗了。
***紅色 藍色 黃色
男性 5 7 8
女性 15 10 6
可以按大人和小孩(比如我們以15歲為分界)分層,在SPSS中要把這個(gè)因素放到[行] [列]下邊的[層化]一欄里,并在統計指標選項里,選 Cochran和Mantel-Haenszel的統計量選項,這樣出來(lái)的結果就可靠了!
2)兩種治療(A和B)效果的評價(jià)分析:
*****A法 B法
生存 41 54
死亡 47 31
用卡方檢驗 X2=4.35; P < 0.05
但是,病人的臨床分期將影響著(zhù)分析結果:
********生存**************死亡
——————————***——————————
————A****B————————A*****B———
1期-----18-----21--------------------0--------0-------
2期-----23-----33-------------------13------- 8-------
3期------0------0--------------------34-------23-------
再用Mantel-Haenszel檢驗: X2=3.65; P > 0.05
說(shuō)明實(shí)際上A法和B法兩組的統計學(xué)差異,是這個(gè)不同的分期造成的!!!
1,當樣本有小于5的值2X2表時(shí),必須要用 Fisher 檢驗才正確!
討論:當樣本有小于5的值2X2表時(shí),必須要用 Fisher 確切概率法。
當樣本有小于5的值R×C表時(shí),將某兩組合并,用pearson卡方檢驗。
三,t 檢驗的局限性
1,我們經(jīng)常用 t 檢驗來(lái)判別兩組病人血清中某種標記物水平上的差異,但這里要注意,有一些血清標記物的水平是不能用 t 檢驗的!
比如: 血清標記物 PSA和AFP,在正常人的水平是很低的,而在病人則明顯增加,呈現指數冪次改變,這樣一來(lái),血清 PSA和AFP水平在每組病人中很容易不是呈現正態(tài)分布!
這時(shí)應該用 非參數性檢驗---即 Mann-Whitney U test (Wilcoxon U test)。
2,關(guān)于用不用配對t 檢驗,我個(gè)人認為當同一組樣本在不同時(shí)點(diǎn),不同處理方式的比較上,應該用配對t 檢驗。
四,ANOVA 檢驗的局限性
1,在2組以上計量資料樣本比較時(shí),ANOVA 檢驗非常常用。但這個(gè)檢驗只是說(shuō)明了一個(gè)趨勢的比較結果,并不能說(shuō)明真正的統計學(xué)差異,真正的差異還要通過(guò)每?jì)蓚(gè)點(diǎn)的直接比較,也就是說(shuō)應該在A(yíng)NOVA 檢驗后,還必須做兩兩比較或多重比較,這樣才能從全貌上反映出統計的全部結果。
2,既然方差分析得到差別有顯著(zhù)性意義的結論后,還需進(jìn)行兩兩比較,有人認為還不如一開(kāi)始就進(jìn)行多次t檢驗更方便,其實(shí),這種認識是不妥當的。t檢驗用于A(yíng)NOVA的兩兩比較將增大第一類(lèi)錯誤,產(chǎn)生假陽(yáng)性,因此要采用特定的方法,在SPSS的one-way ANOVA或General linear models中操作時(shí),Post Hoc(多重比較)對話(huà)框內有多種方法可供選擇,象兩兩比較一般用SNK法,而多個(gè)試驗組和一個(gè)對照組的比較則多用dunnett檢驗。
3,我們經(jīng)常用 ANOVA 檢驗來(lái)判別幾組病人血清中某種標記物水平上的差異,但這里要注意,與 t 檢驗一樣,有一些血清標記物的水平是不能用 ANOVA 檢驗的!
如上所說(shuō)的: 血清標記物 PSA和AFP,在正常人的水平是很低的,而在病人則明顯增加,呈現指數冪次改變,這樣一來(lái),血清 PSA和AFP水平在每組病人中很容易不是呈現正態(tài)分布!
這時(shí)應該用 非參數性檢驗---即 Kruskal-Wallis rank test 。
五,單元線(xiàn)性相關(guān)分析
有時(shí)我們常常只注意到了 P 值大小,可最重要的是 r 值!
樣本數 n 對 P 值 結果的影響很大,容易讓我們產(chǎn)生錯覺(jué),其實(shí),相關(guān)的存在與否的評價(jià)是與 r 值最直接相關(guān)的,如下:
當 P 值小于0.05時(shí): r 值
0.00--0.20 幾乎沒(méi)有相關(guān)關(guān)系
0.20--0.40 弱的相關(guān)關(guān)系
0.40--0.70 有相關(guān)關(guān)系
0.70--0.90 強相關(guān)關(guān)系
0.90--1.00 極強相關(guān)關(guān)系
P 值只是證明這個(gè)相關(guān)在統計學(xué)上是否成立!!!
1,當樣本有小于5的值2X2表時(shí),必須要用 Fisher 檢驗才正確!
討論:當樣本有小于5的值2X2表時(shí),必須要用 Fisher 確切概率法。
當樣本有小于5的值R×C表時(shí),將某兩組合并,用pearson卡方檢驗。
不是說(shuō)樣本小于5
而是說(shuō):在R×C表中
理論頻數不應該小于1,并且1≤T≤5的格子數不應該超過(guò)總格子數的1/5,若出現上述情況可以通過(guò)以下方法:
a.增加樣本含量,使理論頻數增大;
b.根據專(zhuān)業(yè)知識,刪除理論頻數太小的行和列;或者將理論頻數太小的行或列與性質(zhì)相近的鄰行和鄰近列合并。
c.改用雙向無(wú)序的R×C表的fishher確切概率法。
還有一點(diǎn)
四格表卡方檢驗的適應指標:(T為理論頻數)
1。n≥40,且T≥5時(shí)用卡方檢驗基本公式。但是當p≈α應該用fisher確切概率法
2。n≥40,但是1≤T≤5時(shí),用四格表校正公式
3。n<40,或者T<1時(shí),用fisher四格表確切概率法
4。四格表卡方檢驗的連續性校正僅僅用于自由度為1的四格表尤其是n較小時(shí)。
補充幾點(diǎn):
1. 關(guān)于P值:P值的大小并不是各組差異的大小,而是統計學(xué)差異顯著(zhù)性的大小。P值越小,說(shuō)明得出各組沒(méi)有差異的概率越小,越有理由說(shuō)明各組存在差異(可以說(shuō),P值的大小反映了做出統計結論的“理由”的大小,而不是被比較的各組的實(shí)際差異的大小,得出有意義的結論后,其差異的大小可直接通過(guò)各組的均數或率進(jìn)行比較)。
2. 關(guān)于t檢驗和方差分析:katalyster兄上面提到的t檢驗及方差分析在某些時(shí)候不適用,實(shí)際上就是每種方法都有其應用條件,不服從正態(tài)分布當然不能用。對這樣的資料首先可考慮變量變換(如抗體滴度等資料,為指數或冪次的關(guān)系,可用對數轉換),如變換后,服從正態(tài)分布,可用上述方法;若還不符合,則考慮非參數檢驗。
3. 關(guān)于相關(guān)分析:兩個(gè)變量間是否存在相關(guān)關(guān)系,要看P值,而不是r值,r值用來(lái)說(shuō)明相關(guān)關(guān)系的大小。當P<0.05,才能講兩變量間存在相關(guān)關(guān)系,再看r值,r值越大,相關(guān)關(guān)系越強,反之越小;否則,P>0.05,不能講兩變量間存在相關(guān)關(guān)系,r值毫無(wú)意義。
感謝kushuya, xiaoxiongzjh兩位專(zhuān)家的補充和指正!之所以開(kāi)這個(gè)專(zhuān)題,是真心想讓初學(xué)者從這些<誤區>中走出來(lái)!
六,Logistic regression 分析
在判斷某因子對疾病的危險度時(shí)常用的方法。
1,假設要判斷某因子對疾病的危險度(OR),要了解這個(gè)OR是一個(gè)相對危險度,即是有某因子存在和沒(méi)有某因子存在之間比較的OR值。
2,OR 和 RR 不一樣,OR是在Logistic regression model中使用,RR是在Cox proportional hazard model中使用。
3,假設要判斷某因子對疾病的危險度,要在多變量Logistic regression model中校正一些混擾因素,如常見(jiàn)的年齡,性別,吸煙等等,并最后得出這個(gè) Adjusted OR。但并不是說(shuō)有了這些校正,我們就可以在實(shí)驗設計上就不考慮這些混擾因素,相反,必須在實(shí)驗設計上就把這些混擾因素在實(shí)驗組和對照組配平,光靠在多變量Logistic regression model中校正是不可靠的。
其它方法---生存分析 (Kaplan-Meier法+ Logrank法):
我們有時(shí)在臨床研究只注意到了用這種方法分析與生存相關(guān)的研究,其實(shí),在疾病復發(fā)上也常用這種方法!前者是以生---死為判別,后者則以復發(fā)---不復發(fā)為判別。
【醫學(xué)統計中的常見(jiàn)誤區有哪些】相關(guān)文章:
新手開(kāi)車(chē)的常見(jiàn)誤區有哪些10-10
修煉瑜伽常見(jiàn)的誤區有哪些08-14
煮咖啡常見(jiàn)的誤區有哪些08-25
煮咖啡常見(jiàn)的誤區有哪些呢09-23
裝修吊頂驗收常見(jiàn)誤區有哪些09-25
愛(ài)爾蘭留學(xué)常見(jiàn)理解誤區有哪些?09-19
煮咖啡常見(jiàn)的誤區有哪些 ?喝咖啡的利與弊06-05
化妝誤區有哪些09-13