激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

統計學(xué)知識要點(diǎn)

時(shí)間:2024-06-18 05:21:51 統計師 我要投稿
  • 相關(guān)推薦

統計學(xué)知識要點(diǎn)匯總2017

  統計學(xué)知識要點(diǎn)有哪些你知道嗎?你對統計學(xué)的知識要點(diǎn)了解嗎?下面是yjbys小編為大家帶來(lái)的統計學(xué)知識要點(diǎn)匯總的知識,歡迎閱讀。

統計學(xué)知識要點(diǎn)匯總2017

  一、主成分和因子分析

  1.(1)概念:在研究實(shí)際問(wèn)題時(shí),往往需要收集多個(gè)變量。但這樣會(huì )使多個(gè)變量間存在較強的相關(guān)關(guān)系,即這些變量間存在較多的信息重復,直接利用它們進(jìn)行分析,不但模型復雜,還會(huì )因為變量間存在多重共線(xiàn)性而引起較大的誤差。為能夠充分利用數據,通常希望用較少的新變量代替原來(lái)較多的舊變量,同時(shí)要求這些新變量盡可能反映原變量的信息。主成分分析和因子分子正是解決這類(lèi)問(wèn)題的有效方法。它們能夠提取信息,使變量簡(jiǎn)化降維,從而使問(wèn)題更加簡(jiǎn)單直觀(guān)

  (2)主成分分析:研究如何通過(guò)少數幾個(gè)主成分(principal component)來(lái)解釋多個(gè)變量間的內部結構。即從原始變量中導出少數幾個(gè)主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)

  主成分分析的目的:數據的壓縮;數據的解釋。常被用來(lái)尋找判斷事物或現象的綜合指標,并對綜合指標所包含的信息進(jìn)行適當的解釋。(主成分所代表的原始變量的信息用其方差來(lái)表示,一般要求所選主成分的方差總和占全部方差的80%以上就可以了。如果原來(lái)的變量之間的相關(guān)程度高,降維的效果就會(huì )好一些,所選的主成分就會(huì )少一些。特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息。特征根又叫方差,某個(gè)特征根占總特征根的比例稱(chēng)為主成分方差貢獻率。一般情況下,當特征根小于1時(shí),就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大。)

  (3)因子分析:與主成分分析類(lèi)似,它們都是要找出少數幾個(gè)新的變量來(lái)代替原始變量。

  不同之處:主成分分析中的主成分個(gè)數與原始變量個(gè)數是一樣的,即有幾個(gè)變量就有幾個(gè)主成分,只不過(guò)最后我們確定了少數幾個(gè)主成分而已。而因子分析則需要事先確定要找幾個(gè)成分,也稱(chēng)為因子(factor),然后將原始變量綜合為少數的幾個(gè)因子,以再現原始變量與因子之間的關(guān)系,一般來(lái)說(shuō),因子的個(gè)數會(huì )遠遠少于原始變量的個(gè)數。

  因子分析可以看作是主成分分析的推廣和擴展,但它對問(wèn)題的研究更深入、更細致一些。實(shí)際上,主成分分析可以看作是因子分析的一個(gè)特例

  簡(jiǎn)言之,因子分析是通過(guò)對變量之間關(guān)系的研究,找出能綜合原始變量的少數幾個(gè)因子,使得少數因子能夠反映原始變量的絕大部分信息,然后根據相關(guān)性的大小將原始變量分組,使得組內的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統計中處理降維的一種統計方法,其目的就是要減少變量的個(gè)數,用少數因子代表多個(gè)原始變量

  (4)因子數量的確定

  用公因子方差貢獻率提。号c主成分分析類(lèi)似,一般累計方差貢獻率達到80%以上的前幾個(gè)因子可以作為最后的公因子

  用特征根提。阂话阋笠蜃訉奶卣鞲笥1,因為特征根小于1說(shuō)明該共因子的解釋力度太弱,還不如使用原始變量的解釋力度大

  實(shí)際應用中,因子的提取要結合具體問(wèn)題而定,在某種程度上,取決于研究者自身的知識和經(jīng)驗

  (5)主成分分析和因子分析都是多元分析中處理降維的兩種統計方法。只有當原始數據中的變量之間具有較強的相關(guān)關(guān)系時(shí),降維的效果才會(huì )明顯,否則不適合進(jìn)行主成分分析和因子分析

  主成分和因子的選擇標準應結合具體問(wèn)題而定。在某種程度上取決于研究者的知識和經(jīng)驗,而不是方法本身

  即使得到了滿(mǎn)意的主成分或因子,在運用它們對實(shí)際問(wèn)題進(jìn)行評價(jià)、排序等分析時(shí),仍然要保持謹慎,因為主成分和因子畢竟是高度抽象的量,無(wú)論如何,它們的含義都不如原始變量清晰

  因子分析可以看作是主成分分析的推廣和擴展,而主成分分析則可以看作是因子分析的一個(gè)特例。目前因子分析在實(shí)際中被廣泛應用,而主成分分析通常只作為大型統計分析的中間步驟,幾乎不再單獨使用

  二、多元回歸

  1.多重共線(xiàn)性

  回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)

  多重共線(xiàn)性帶來(lái)的問(wèn)題有

  可能會(huì )使回歸的結果造成混亂,甚至會(huì )把分析引入歧途

  可能對參數估計值的正負號產(chǎn)生影響,特別是各回歸系數的正負號有可能同我們預期的正負號相反

  2.多重共線(xiàn)性的識別

  檢測多重共線(xiàn)性的最簡(jiǎn)單的一種辦法是計算模型中各對自變量之間的相關(guān)系數,并對各相關(guān)系數進(jìn)行顯著(zhù)性檢驗

  若有一個(gè)或多個(gè)相關(guān)系數顯著(zhù),就表示模型中所用的自變量之間相關(guān),存在著(zhù)多重共線(xiàn)性

  如果出現下列情況,暗示存在多重共線(xiàn)性

  模型中各對自變量之間顯著(zhù)相關(guān)。

  當模型的線(xiàn)性關(guān)系檢驗(F檢驗)顯著(zhù)時(shí),幾乎所有回歸系數的t檢驗卻不顯著(zhù)

  回歸系數的正負號與預期的相反。

  3.變量選則過(guò)程

  在建立回歸模型時(shí),對自變量進(jìn)行篩選

  選擇自變量的原則是對統計量進(jìn)行顯著(zhù)性檢驗

  將一個(gè)或一個(gè)以上的自變量引入到回歸模型中時(shí),是否使得殘差平方和(SSE)有顯著(zhù)地減少。如果增加一個(gè)自變量使SSE的減少是顯著(zhù)的,則說(shuō)明有必要將這個(gè)自變量引入回歸模型,否則,就沒(méi)有必要將這個(gè)自變量引入回歸模型

  確定引入自變量是否使SSE有顯著(zhù)減少的方法,就是使用F統計量的值作為一個(gè)標準,以此來(lái)確定是在模型中增加一個(gè)自變量,還是從模型中剔除一個(gè)自變量

  變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優(yōu)子集等

  4.向前選擇

  從模型中沒(méi)有自變量開(kāi)始

  對k個(gè)自變量分別擬合對因變量的一元線(xiàn)性回歸模型,共有k個(gè),然后找出F統計量的值最高的模型及其自變量(P值最小的),并將其首先引入模型

  分別擬合引入模型外的k-1個(gè)自變量的線(xiàn)性回歸模型

  如此反復進(jìn)行,直至模型外的自變量均無(wú)統計顯著(zhù)性為止

  5.向后剔除

  先對因變量擬合包括所有k個(gè)自變量的回歸模型。然后考察p(p

  考察p-1個(gè)再去掉一個(gè)自變量的模型(這些模型中每一個(gè)都有k-2個(gè)的自變量),使模型的SSE值減小最少的自變量被挑選出來(lái)并從模型中剔除

  如此反復進(jìn)行,一直將自變量從模型中剔除,直至剔除一個(gè)自變量不會(huì )使SSE顯著(zhù)減小為止

  6.逐步回歸

  將向前選擇和向后剔除兩種方法結合起來(lái)篩選自變量

  在增加了一個(gè)自變量后,它會(huì )對模型中所有的變量進(jìn)行考察,看看有沒(méi)有可能剔除某個(gè)自變量。如果在增加了一個(gè)自變量后,前面增加的某個(gè)自變量對模型的貢獻變得不顯著(zhù),這個(gè)變量就會(huì )被剔除

  按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導致SSE顯著(zhù)減少

  在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進(jìn)入到模型中

  7.虛擬自變量

  用數字代碼表示的定性自變量

  虛擬自變量可有不同的水平

  只有兩個(gè)水平的虛擬自變量。比如,性別(男,女)

  有兩個(gè)以上水平的虛擬自變量,貸款企業(yè)的類(lèi)型(家電,醫藥,其他)

  虛擬變量的取值為0,1

  回歸模型中使用虛擬自變量時(shí),稱(chēng)為虛擬自變量的回歸

  當虛擬自變量只有兩個(gè)水平時(shí),可在回歸中引入一個(gè)虛擬變量,比如,性別

  一般而言,如果定性自變量有k個(gè)水平,需要在回歸中模型中引進(jìn)k-1個(gè)虛擬變量

  例:引進(jìn)虛擬變量時(shí),回歸方程可寫(xiě):

  E(y) =b0+ b1x1+ b2x2

  女( x2=0):E(y|女性) =b0 +b1x1

  男(x2=1):E(y|男性) =(b0 + b2 ) +b1x1

  b0的含義表示:女性職工的期望月工資收入

  (b0+ b2)的含義表示:男性職工的期望月工資收入

  b1含義表示:工作年限每增加1年,男性或女性工資的平均增加值

  b2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (b0+ b2) - b0= b2

  三、簡(jiǎn)單回歸

  1.相關(guān)分析:對兩個(gè)變量之間線(xiàn)性關(guān)系的描述與度量,它要解決的問(wèn)題包括

  § 變量之間是否存在關(guān)系?

  § 如果存在關(guān)系,它們之間是什么樣的關(guān)系?

  § 變量之間的強度如何?

  § 樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?

  2.回歸分析:從一組樣本數據出發(fā),確定變量之間的數學(xué)關(guān)系式;對這些關(guān)系式的可信程度進(jìn)行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著(zhù),哪些不顯著(zhù);利用所求的關(guān)系式,根據一個(gè)或幾個(gè)變量的取值來(lái)預測或控制另一個(gè)特定變量的取值,并給出這種預測或控制的精確程度

  3.回歸分析與相關(guān)分析的區別

  相關(guān)分析中,變量 x 變量 y 處于平等的地位;回歸分析中,變量 y 稱(chēng)為因變量,處在被解釋的地位,x 稱(chēng)為自變量,用于預測因變量的變化

  相關(guān)分析中所涉及的變量 x 和 y 都是隨機變量;回歸分析中,因變量 y 是隨機變量,自變量 x 可以是隨機變量,也可以是非隨機的確定變量

  相關(guān)分析主要是描述兩個(gè)變量之間線(xiàn)性關(guān)系的密切程度;回歸分析不僅可以揭示變量 x 對變量 y 的影響大小,還可以由回歸方程進(jìn)行預測和控制

  4.一元線(xiàn)性回歸模型

  描述因變量 y 如何依賴(lài)于自變量 x 和誤差項e 的方程稱(chēng)為回歸模型

  一元線(xiàn)性回歸模型可表示為

  y = b0 +b1 x + e

  y 是 x 的線(xiàn)性函數(部分)加上誤差項

  線(xiàn)性部分反映了由于 x 的變化而引起的 y 的變化

  誤差項 e 是隨機變量

  l 反映了除 x 和 y 之間的線(xiàn)性關(guān)系之外的隨機因素對 y 的影響

  l 是不能由 x 和 y 之間的線(xiàn)性關(guān)系所解釋的變異性

  b0 和 b1 稱(chēng)為模型的參數

  5.利用回歸方程預測時(shí)應注意

  1. 在利用回歸方程進(jìn)行估計或預測時(shí),不要用樣本數據之外的x值去預測相對應的y值

  2. 因為在一元線(xiàn)性回歸分析中,總是假定因變量y與自變量x之間的關(guān)系用線(xiàn)性模型表達是正確的。但實(shí)際應用中,它們之間的關(guān)系可能是某種曲線(xiàn)

  3. 此時(shí)我們總是要假定這條曲線(xiàn)只有一小段位于x測量值的范圍之內。如果x的取值范圍是在xL和xU之間,那么可以用所求出的利用回歸方程對處于xL和xU之間的值來(lái)估計E(y)和預測y。如果用xL和xU之間以外的值得出的估計值和預測值就會(huì )很差

  6.離差平方和

  總平方和(SST)

  反映因變量的 n 個(gè)觀(guān)察值與其均值的總離差

  回歸平方和(SSR)

  反映自變量 x 的變化對因變量 y 取值變化的影響,或者說(shuō),是由于 x 與 y 之間的線(xiàn)性關(guān)系引起的 y 的取值變化,也稱(chēng)為可解釋的平方和

  殘差平方和(SSE)

  反映除 x 以外的其他因素對 y 取值的影響,也稱(chēng)為不可解釋的平方和或剩余平方和

  7.估計標準誤差

  實(shí)際觀(guān)察值與回歸估計值離差平方和的均方根(自由度n-2)

  反映實(shí)際觀(guān)察值在回歸直線(xiàn)周?chē)姆稚顩r

  對誤差項e的標準差s的估計,是在排除了x對y的線(xiàn)性影響后,y隨機波動(dòng)大小的一個(gè)估計量

  反映用估計的回歸方程預測y時(shí)預測誤差的大小

  四、方差分析

  1. 通過(guò)分析數據的誤差判斷各總體均值是否相等;研究一個(gè)或多個(gè)分類(lèi)型自變量對一個(gè)數值型因變量的影響

  單因素方差分析:涉及一個(gè)分類(lèi)的自變量

  雙因素方差分析:涉及兩個(gè)分類(lèi)的自變量

  2.(1)僅從散點(diǎn)圖上觀(guān)察還不能提供充分的證據證明不同行業(yè)被投訴的次數之間有顯著(zhù)差異

  這種差異也可能是由于抽樣的隨機性所造成的

  需要有更準確的方法來(lái)檢驗這種差異是否顯著(zhù),也就是進(jìn)行方差分析

  所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時(shí)則需要借助于方差

  這個(gè)名字也表示:它是通過(guò)對數據誤差來(lái)源的分析判斷不同總體的均值是否相等。因此,進(jìn)行方差分析時(shí),需要考察數據誤差的來(lái)源

  (2)隨機誤差

  因素的同一水平(總體)下,樣本各觀(guān)察值之間的差異

  比如,同一行業(yè)下不同企業(yè)被投訴次數是不同的

  這種差異可以看成是隨機因素的影響,稱(chēng)為隨機誤差

  系統誤差

  因素的不同水平(不同總體)下,各觀(guān)察值之間的差異

  比如,不同行業(yè)之間的被投訴次數之間的差異

  這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統性因素造成的,稱(chēng)為系統誤差

  (3) 數據的誤差用平方和(sum of squares)表示

  組內平方和(within groups)

  因素的同一水平(同一個(gè)總體)下樣本數據的平方和

  比如,零售業(yè)被投訴次數的誤差平方和

  組內平方和只包含隨機誤差

  組間平方和(between groups)

  因素的不同水平(不同總體)下各樣本之間的平方和

  比如,四個(gè)行業(yè)被投訴次數之間的誤差平方和

  組間平方和既包括隨機誤差,也包括系統誤差

  3.方差分析的基本假定

  正態(tài)性:每個(gè)總體都應服從正態(tài)分布

  對于因素的每一個(gè)水平,其觀(guān)察值是來(lái)自服從正態(tài)分布總體的簡(jiǎn)單隨機樣本

  比如,每個(gè)行業(yè)被投訴的次數必需服從正態(tài)分布

  方差齊性:各個(gè)總體的方差必須相同

  各組觀(guān)察數據是從具有相同方差的總體中抽取的

  比如,四個(gè)行業(yè)被投訴次數的方差都相等

  獨立性:觀(guān)察值是獨立的(該假定不滿(mǎn)足對結果影響較大)

  4.問(wèn)題的一般提法:(1)設因素有k個(gè)水平,每個(gè)水平的均值分別用m1 , m2, ¼, mk 表示

  (2)要檢驗k個(gè)水平(總體)的均值是否相等,需要提出如下假設:

  H0 : m1 = m2 = …= mk

  H1 : m1 , m2 , ¼,mk 不全相等

  5.SST:全部觀(guān)察值xij與總平均值的離差平方和,反映全部觀(guān)察值的離散狀況

  SSA:各組平均值xi與總平均值xij的離差平方和;反映各總體的樣本均值之間的差異程度,又稱(chēng)組間平方和;該平方和既包括隨機誤差,也包括系統誤差

  SSE:每個(gè)水平或組的各樣本數據與其組平均值的離差平方和;反映每個(gè)樣本各觀(guān)察值的離散狀況,又稱(chēng)組內平方和;該平方和反映的是隨機誤差的大小

  總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間的關(guān)系:

  SST = SSA + SSE

  如果原假設成立,則表明沒(méi)有系統誤差,組間平方和SSA除以自由度后的均方與組內平方和SSE和除以自由度后的均方差異就不會(huì )太大;如果組間均方顯著(zhù)地大于組內均方,說(shuō)明各水平(總體)之間的差異不僅有隨機誤差,還有系統誤差

  判斷因素的水平是否對其觀(guān)察值有影響,實(shí)際上就是比較組間方差與組內方差之間差異的大小

  6.均方

  各誤差平方和的大小與觀(guān)察值的多少有關(guān),為消除觀(guān)察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱(chēng)為方差

  計算方法是用誤差平方和除以相應的自由度

  三個(gè)平方和對應的自由度分別是

  SST 的自由度為n-1,其中n為全部觀(guān)察值的個(gè)數

  SSA的自由度為k-1,其中k為因素水平(總體)的個(gè)數

  SSE 的自由度為n-k

  7.構造檢驗統計量

  將MSA和MSE進(jìn)行對比,即得到所需要的檢驗統計量F

  當H0為真時(shí),二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布

  將統計量的值F與給定的顯著(zhù)性水平a的臨界值Fa進(jìn)行比較,作出對原假設H0的決策

  ² 根據給定的顯著(zhù)性水平a,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k 相應的臨界值 Fa

  ² 若F>Fa ,則拒絕原假設H0 ,表明均值之間的差異是顯著(zhù)的,所檢驗的因素對觀(guān)察值有顯著(zhù)影響

  ² 若F

  8.關(guān)系強度

  變量間關(guān)系的強度用自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來(lái)反映

  自變量平方和占總平方和的比例記為R2 ,即

  3、其平方根R就可以用來(lái)測量?jì)蓚(gè)變量之間的關(guān)系強度

  五、假設檢驗

  (一)概念

  先對總體的參數(或分布形式)提出某種假設,然后利用樣本信息判斷假設是否成立的過(guò)程

  有參數檢驗和非參數檢驗

  邏輯上運用反證法,統計上依據小概率原理

  什么小概率?

  1. 在一次試驗中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率

  2. 在一次試驗中小概率事件一旦發(fā)生,我們就有理由拒絕原假設

  3. 小概率由研究者事先確定

  怎樣通過(guò)假設檢驗去掉偶然性

  利用P值進(jìn)行檢驗就可以去掉偶然性。因為P值告訴我們在某個(gè)總體的許多樣本中,某一類(lèi)數據出現的經(jīng)常程度,P值是當原假設正確的情況下,得到所觀(guān)測的數據的概率。如果原假設是正確的,P值若很小,則告訴我餓們得到這樣的觀(guān)測數據是多么的不可能,相當不可能得到的數據,就是原假設不對的合理證據,偶然性也就消除了。

  (二)原假設

  1. 研究者想收集證據予以反對的假設。是關(guān)于總體參數的表述,它是接受檢驗的假設。

  2. 總是有符號 =, £ 或 ³

  3. 表示為 H0

  n H0 : m = 某一數值

  n 指定為符號 =,£ 或 ³

  (三)備擇假設

  研究者想收集證據予以支持的假設。黨員假設被否定時(shí)另一種可成立的假設。

  總是有符號 ¹, < 或 >

  表示為 H1

  n H1 : m <某一數值,或m >某一數值

  (四)結論與總結

  原假設和備擇假設是一個(gè)完備事件組,而且相互對立

  n 在一項假設檢驗中,原假設和備擇假設必有一個(gè)成立,而且只有一個(gè)成立

  先確定備擇假設,再確定原假設

  等號“=”總是放在原假設上

  因研究目的不同,對同一問(wèn)題可能提出不同的假設(也可能得出不同的結論)

  (五)兩類(lèi)錯誤

  1. 第Ⅰ類(lèi)錯誤(棄真錯誤)

  原假設為真時(shí)拒絕原假設

  第Ⅰ類(lèi)錯誤的概率記為a。被稱(chēng)為顯著(zhù)性水平。常用的 a 值有0.01, 0.05, 0.10

  2. 第Ⅱ類(lèi)錯誤(取偽錯誤)

  原假設為假時(shí)未拒絕原假設

  第Ⅱ類(lèi)錯誤的概率記為b (Beta)

  影響b錯誤的因素:1. 總體參數的真值。隨著(zhù)假設的總體參數的減少而增大

  2. 顯著(zhù)性水平 a。當 a 減少時(shí)增大 3. 總體標準差 s。當 s 增大時(shí)增大 4.樣本容量 n。當 n 減少時(shí)增大

  控制:進(jìn)行假設檢驗時(shí)總希望犯兩類(lèi)錯誤的可能性都很小,然而,在其他條件不變的情況下,a與b是此消彼長(cháng)的關(guān)系,二者不可能同時(shí)減小。若要同時(shí)減小a與b,只能是增大樣本量。一般總是控制a,是犯錯誤的概率不大于a,即a是允許犯棄真錯誤的最大概率值(而P值相當于根據樣本計算的犯棄真錯誤的概率值,故P值又稱(chēng)為觀(guān)測的顯著(zhù)性水平)。但確定a時(shí)必須注意,如果犯棄真錯誤的代價(jià)較大,a可取小些,相反,如果返取偽錯誤的代價(jià)較大,則a宜取大些(以使b較小)

  (六)假設檢驗的結論表述

  假設檢驗的目的就在于試圖找到拒絕原假設,而不在于證明什么是正確的

  拒絕原假設時(shí)結論是清楚的

  例如,H0:m=10,拒絕H0時(shí),我們可以說(shuō)¹m10

  當不拒絕原假設時(shí)

  并未給出明確的結論

  不能說(shuō)原假設是正確的,也不能說(shuō)它不是正確的

  例如, 當不拒絕H0:m=10,我們并未說(shuō)它就是10,但也未說(shuō)它不是10。我們只能說(shuō)樣本提供的證據還不足以推翻原假設

  (七)統計上的顯著(zhù)與實(shí)際意義

  1. 當拒絕原假設時(shí),我們稱(chēng)樣本結果是統計上顯著(zhù)的(statistically Significant)

  2. 當不拒絕原假設時(shí),我們稱(chēng)樣本結果是統計上不顯著(zhù)的

  3. 在“顯著(zhù)”和“不顯著(zhù)”之間沒(méi)有清除的界限,只是在P值越來(lái)越小時(shí),我們就有越來(lái)越強的證據,檢驗的結果也就越來(lái)越顯著(zhù)

  4. “顯著(zhù)的”(Significant)一詞的意義在這里并不是“重要的”,而是指“非偶然的”

  5. 一項檢驗在統計上是“顯著(zhù)的”,意思是指:這樣的(樣本)結果不是偶然得到的,或者說(shuō),不是靠機遇能夠得到的

  6. 如果得到這樣的樣本概率(P)很小,則拒絕原假設

  在這么小的概率下竟然得到了這樣的一個(gè)樣本,表明這樣的樣本經(jīng)常出現,所以,樣本結果是顯著(zhù)的

  7. 在進(jìn)行決策時(shí),我們只能說(shuō)P值越小,拒絕原假設的證據就越強,檢驗的結果也就越顯著(zhù)

  8. 但P值很小而拒絕原假設時(shí),并不一定意味著(zhù)檢驗的結果就有實(shí)際意義

  因為假設檢驗中所說(shuō)的“顯著(zhù)”僅僅是“統計意義上的顯著(zhù)”

  一個(gè)在統計上顯著(zhù)的結論在實(shí)際中卻不見(jiàn)得就很重要,也不意味著(zhù)就有實(shí)際意義

  9. 因為值與樣本的大小密切相關(guān),樣本量越大,檢驗統計量的P值也就越大,P值就越小,就越有可能拒絕原假設

  10.如果你主觀(guān)上要想拒絕原假設那就一定能拒絕它

  這類(lèi)似于我們通常所說(shuō)的“欲加之罪,何患無(wú)詞”

  只要你無(wú)限制擴大樣本量,幾乎總能拒絕原假設

  11.當樣本量很大時(shí),解釋假設檢驗的結果需要小心

  在大樣本情況下,總能把與假設值的任何細微差別都能查出來(lái),即使這種差別幾乎沒(méi)有任何實(shí)際意義

  12.在實(shí)際檢驗中,不要刻意追求“統計上的”顯著(zhù)性,也不要把統計上的顯著(zhù)性與實(shí)際意義上的顯著(zhù)性混同起來(lái)

  n一個(gè)在統計上顯著(zhù)的結論在實(shí)際中卻不見(jiàn)得很重要,也不意為著(zhù)就有實(shí)際意義

  六、參數估計

  (一)點(diǎn)估計

  用樣本的估計量直接作為總體參數的估計值

  2. 缺點(diǎn):沒(méi)有給出估計值接近總體參數程度的信息,它與真摯的誤差、估計可靠性怎么樣無(wú)法知道。區間估計可以彌補這種不足。

  點(diǎn)估計的方法有矩估計法、順序統計量法、最大似然法、最小二乘法等

  (二) 區間估計

  在點(diǎn)估計的基礎上,給出總體參數估計的一個(gè)區間范圍,該區間由樣本統計量加減抽樣誤差而得到的。

  根據樣本統計量的抽樣分布能夠對樣本統計量與總體參數的接近程度給出一個(gè)概率度量。

  (三)置信水平

  將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比例稱(chēng)為置信水平

  表示為 (1 - a% )

  常用的置信水平值有 99%, 95%, 90%;相應的 a 為0.01,0.05,0.10

  (四)置信區間

  ü 由樣本統計量所構造的總體參數的估計區間稱(chēng)為置信區間;

  ü 統計學(xué)家在某種程度上確信這個(gè)區間會(huì )包含真正的總體參數,所以給它取名為置信區間

  ü 用一個(gè)具體的樣本所構造的區間是一個(gè)特定的區間,我們無(wú)法知道這個(gè)樣本所產(chǎn)生的區間是否包含總體參數的真值,我們只能是希望這個(gè)區間是大量包含總體參數真值的區間中的一個(gè),但它也可能是少數幾個(gè)不包含參數真值的區間中的一個(gè)

  置信區間的表述:

  總體參數的真值是固定的,而用樣本構造的區間則是不固定的,因此置信區間是一個(gè)隨機區間,它會(huì )因樣本的不同而變化,而且不是所有的區間都包含總體參數

  實(shí)際估計時(shí)往往只抽取一個(gè)樣本,此時(shí)所構造的是與該樣本相聯(lián)系的一定置信水平(比如95%)下的置信區間。我們只能希望這個(gè)區間是大量包含總體參數真值的區間中的一個(gè),但它也可能是少數幾個(gè)不包含參數真值的區間中的一個(gè)

  當抽取了一個(gè)具體的樣本,用該樣本所構造的區間是一個(gè)特定的常數區間,我們無(wú)法知道這個(gè)樣本所產(chǎn)生的區間是否包含總體參數的真值,因為它可能是包含總體均值的區間中的一個(gè),也可能是未包含總體均值的那一個(gè)

  一個(gè)特定的區間總是“包含”或“絕對不包含”參數的真值,不存在“以多大的概率包含總體參數”的問(wèn)題

  置信水平只是告訴我們在多次估計得到的區間中大概有多少個(gè)區間包含了參數的真值,而不是針對所抽取的這個(gè)樣本所構建的區間而言的

  使用一個(gè)較大的置信水平會(huì )得到一個(gè)比較寬的置信區間,而使用一個(gè)較大的樣本則會(huì )得到一個(gè)較準確(較窄)的區間。直觀(guān)地說(shuō),較寬的區間會(huì )有更大的可能性包含參數

  但實(shí)際應用中,過(guò)寬的區間往往沒(méi)有實(shí)際意義

  區間估計總是要給結論留點(diǎn)兒余地

  影響置信區間寬度的因素:

  1.總體數據的離散程度,用 s 來(lái)測度;2.樣本容量;3. 置信水平 (1- a),影響 zα/2 的大小

  (五) 參數估計標準:

  無(wú)偏性:估計量抽樣分布的數學(xué)期望等于被估計的總體參數

  有效性:對同一總體參數的兩個(gè)無(wú)偏點(diǎn)估計量,有更小標準差的估計量更有效

  一致性:隨著(zhù)樣本容量的增大,估計量的值越來(lái)越接近被估計的總體參數

  七、數據特征

  (一)集中趨勢:表明同類(lèi)現象在一定時(shí)間、地點(diǎn)條件下,所達到的一般水平與大量單位的綜合數量特征,有以下3個(gè)特點(diǎn):

  1. 用一個(gè)代表數值綜合反映個(gè)體某種標志值的一般水平。

  2. 將個(gè)體標志值之間的差異抽象掉了。

  3. 計量單位與標志值的計量單位一致。

  集中趨勢

  1. 一組數據向其中心值靠攏的傾向和程度

  2. 測度集中趨勢就是尋找數據水平的代表值或中心值

  3. 不同類(lèi)型的數據用不同的集中趨勢測度值

  4. 低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據

  集中趨勢的作用:

  比較若干總體的某種標志數值的平均水平

  研究總體某種標志數值的平均水平在時(shí)間上的變化

  分析社會(huì )經(jīng)濟現象的依存關(guān)系

  研究和評價(jià)事物優(yōu)劣的數量指標

  計算和估算其他重要的經(jīng)濟指標

  (二)離中趨勢:

  數據分布的另一個(gè)重要特征

  反映各變量值遠離其中心值的程度(離散程度)

  從另一個(gè)側面說(shuō)明了集中趨勢測度值的代表程度

  不同類(lèi)型的數據有不同的離散程度測度值

  離中趨勢度量的目的:

  描述總體內部差異程度;衡量和比較均值指標的代表性高低;為抽選樣本單位數提供依據

  區別與聯(lián)系:

  區別:集中趨勢是對頻數分布資料的集中狀況和平均水平的綜合測度;是一組數據向其中心值靠攏的傾向和程度;測度集中趨勢就是尋找數據水平的代表值或中心值。離中趨勢是對頻數分布資料的差異程度和離散程度的測度,用來(lái)衡量集中趨勢所測數據的代表性,或者反應變量值的穩定性與均勻性;是用來(lái)描述總體內部差異程度及衡量和比較均值指標的代表性高低。偏度是用來(lái)反應變量數列分布偏斜程度的指標,有對稱(chēng)分布和非對稱(chēng)分布,非對稱(chēng)分布也即為偏態(tài)分布,包括左偏分布和右偏分布。峰度是用來(lái)反應變量數列曲線(xiàn)頂端尖峭或扁平程度的指標。

  聯(lián)系:為了反面描述研究對象的情況,僅僅用集中趨勢方法來(lái)測度集中性和共性是不夠的,還要用離散趨勢方法來(lái)測度其離散性和差異性,因此,而這需要結合使用。集中趨勢和離中趨勢是變量數列分布的兩個(gè)重要特征,但要全面了解變量數列分布的特點(diǎn),還需要知道數列的形狀是否對稱(chēng)、偏斜程度以及分布的扁平程度等。偏度和峰度就是從分布特征作進(jìn)一步的描述。

  八、數據質(zhì)量

  1. 數據的誤差:(1)抽樣誤差;

  a、 在用樣本數據進(jìn)行統計推斷時(shí)所產(chǎn)生的誤差(樣本統計量與相應總體參數之間的偏差)

  b、由于抽樣的隨機性所帶來(lái)的誤差

  c、 影響抽樣誤差的大小的因素:抽樣方法;樣本量的大小;總體的變異性

  (2) 非抽樣誤差(抽樣框誤差;回答誤差;無(wú)回答誤差;調查員誤差)

  a、 調查過(guò)程中由于調查者和被調查者的人為因素所造成的誤差(除抽樣誤差之外的,由于其他原因造成的樣本觀(guān)察結果與總體真值之間的差異)

  b、理論上可以消除

  c、 存在于所有的調查之中:概率抽樣,非概率抽樣,全面性調查

  (3) 誤差的控制

  a、 抽樣誤差可計算和控制

  b、非抽樣誤差的控制:調查員的挑選;調查員的培訓;督導員的調查專(zhuān)業(yè)水平:調查過(guò)程控制(調查結果進(jìn)行檢驗、評估;現場(chǎng)調查人員進(jìn)行獎懲的制度)

  (4)統計數據質(zhì)量的要求;

  1. 精 度:最低的抽樣誤差或隨機誤差

  2. 準 確 性:最小的非抽樣誤差或偏差

  3. 關(guān) 聯(lián) 性:滿(mǎn)足用戶(hù)決策、管理和研究的需要

  4. 及 時(shí) 性:在最短的時(shí)間里取得并公布數據

  5. 一 致 性:保持時(shí)間序列的可比性

  6. 最低成本:以最經(jīng)濟的方式取得數據

  九、統計數據

  對現象進(jìn)行測量的結果;不是指單個(gè)的數字,而是由多個(gè)數據構成的數據集;不僅僅是指數字,它可以是數字的,也可以是文字的

  分類(lèi):按計量

  分類(lèi)數據(categorical data)

  只能歸于某一類(lèi)別的非數字型數據

  對事物進(jìn)行分類(lèi)的結果,數據表現為類(lèi)別,用文字來(lái)表述

  順序數據(rank data)

  只能歸于某一有序類(lèi)別的非數字型數據

  對事物類(lèi)別順序的測度,數據表現為類(lèi)別,用文字來(lái)表述

  數值型數據(metric data)

  按數字尺度測量的觀(guān)察值

  結果表現為具體的數值,對事物的精確測度

  按收集方法

  觀(guān)測的數據(observational data) :

  在沒(méi)有對事物人為控制的條件下而得到的,通過(guò)調查或觀(guān)測而收集到的數據

  試驗的數據(experimental data) :在試驗中控制試驗對象而收集到的數據

  按時(shí)間狀況

  1. 時(shí)間序列數據(time series data)

  在不同時(shí)間上收集到的數據

  描述現象隨時(shí)間變化的情況

  2截面數據(cross-sectional data)

  在相同或近似相同的時(shí)間點(diǎn)上收集的數據

  描述現象在某一時(shí)刻的變化情況

  十、統計學(xué)性質(zhì)

  統計學(xué): 收集、分析、表述和解釋數據的科學(xué) 1.數據搜集:取得數據;2.數據分析:分析數據;3.數據表述:圖表展示數據;4.數據解釋?zhuān)航Y果的說(shuō)明

  (一)現代統計學(xué)的性質(zhì)可歸納為如下幾個(gè)方面:

  1.統計學(xué)是方法論科學(xué),而不是實(shí)質(zhì)性科學(xué)

  它研究的是事物普遍存在的數量關(guān)系的計量和數量分析的方法,并通過(guò)數量分析來(lái)認識特定事物的內在規律性,但不是研究規律本身。

  2.統計學(xué)的應用范圍不局限于社會(huì )科學(xué),也不局限于自然科學(xué)。

  由于其方法來(lái)自于社會(huì )科學(xué)也來(lái)自于自然科學(xué),所以它可以用于社會(huì )現象也可以用于自然現象,即統計學(xué)是一種通用的方法論科學(xué)。同時(shí)統計學(xué)也不是依服于實(shí)質(zhì)性科學(xué)而存在的方法論,它是獨立的方法論科學(xué)。

  3.統計學(xué)的研究對象既包括確定性現象的總體數量關(guān)系,也包括隨機現象的總體數量關(guān)系,即統計學(xué)是研究各類(lèi)事物總體數據的方法論科學(xué)。

  統計學(xué)是為探索事物數量所反映的客觀(guān)規律性,而對事物總體的大量數據進(jìn)行收集、整理和分析研究的方法論科學(xué)。它以大量的客觀(guān)事物的量化描述、特征推算及關(guān)系分析為其主要研究對象。

  (二)描述統計學(xué)與推斷統計學(xué):

  描述統計學(xué)(Descriptive Statistics)研究如何取得反映客觀(guān)現象的數據,并通過(guò)圖表形式對所收集的數據進(jìn)行加工處理和顯示,進(jìn)而通過(guò)綜合概括與分析得出反映客觀(guān)現象的規律性數量特征。內容包括統計數據的收集方法、數據的加工處理方法、數據的顯示方法、數據分布特征的概括與分析方法等。

  推斷統計學(xué)(1nferential Statistics)則是研究如何根據樣本數據去推斷總體數量特征的方法,它是在對樣本數據進(jìn)行描述的基礎上,對統計總體的未知數量特征做出以概率形式表述的推斷。

  描述統計學(xué)和推斷統計學(xué)的劃分,一方面反映了統計方法發(fā)展的前后兩個(gè)階段,同時(shí)也反映了應用統計方法探索客觀(guān)事物數量規律性的不同過(guò)程。

  統計研究過(guò)程的起點(diǎn)是統計數據,終點(diǎn)是探索出客觀(guān)現象內在的數量規律性。在這一過(guò)程中,如果搜集到的是總體數據(如普查數據),則經(jīng)過(guò)描述統計之后就可以達到認識總體數量規律性的目的了;如果所獲得的只是研究總體的一部分數據(樣本數據),要找到總體的數量規律性,則必須應用概率論的理論并根據樣本信息對總體進(jìn)行科學(xué)的推斷。

  顯然,描述統計和推斷統計是統計方法的兩個(gè)組成部分。描述統計是整個(gè)統計學(xué)的基礎,推斷統計則是現代統計學(xué)的主要內容。

【統計學(xué)知識要點(diǎn)】相關(guān)文章:

小升初語(yǔ)文知識要點(diǎn)02-26

外貿單證知識要點(diǎn)12-16

統計學(xué)基礎知識匯總03-07

打網(wǎng)球的必備知識要點(diǎn)03-10

畫(huà)冊新穎設計知識要點(diǎn)03-19

黨建基礎知識要點(diǎn)03-22

小升初語(yǔ)文知識要點(diǎn)歸納01-27

工程制圖復習知識要點(diǎn)03-22

彈好古箏的知識要點(diǎn)03-13

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频