考研統計學專業的知識點
我們在參加了考研統計學專業的時候,需要把一些複習的知識重點了解清楚。小編為大家精心準備了考研統計學專業的重點,歡迎大家前來閱讀。
考研統計學:資料特徵一、集中趨勢:表明同類現象在一定時間、地點條件下,所達到的一般水平與大量單位的綜合數量特徵,有以下3個特點:
1. 用一個代表數值綜合反映個體某種標誌值的一般水平。
2. 將個體標誌值之間的差異抽象掉了。
3. 計量單位與標誌值的計量單位一致。
集中趨勢
1. 一組資料向其中心值靠攏的傾向和程度
2. 測度集中趨勢就是尋找資料水平的代表值或中心值
3. 不同型別的資料用不同的集中趨勢測度值
4. 低層次資料的測度值適用於高層次的測量資料,但高層次資料的測度值並不適用於低層次的測量資料
集中趨勢的作用:
比較若干總體的某種標誌數值的平均水平
研究總體某種標誌數值的平均水平在時間上的變化
分析社會經濟現象的依存關係
研究和評價事物優劣的數量指標
計算和估算其他重要的經濟指標
二、離中趨勢:
資料分佈的另一個重要特徵
反映各變數值遠離其中心值的程度(離散程度)
從另一個側面說明了集中趨勢測度值的代表程度
不同型別的資料有不同的離散程度測度值
離中趨勢度量的目的:
描述總體內部差異程度;衡量和比較均值指標的代表性高低;為抽選樣本單位數提供依據
區別與聯絡:
區別:集中趨勢是對頻數分佈資料的集中狀況和平均水平的綜合測度;是一組資料向其中心值靠攏的傾向和程度;測度集中趨勢就是尋找資料水平的代表值或中心值。離中趨勢是對頻數分佈資料的差異程度和離散程度的測度,用來衡量集中趨勢所測資料的代表性,或者反應變數值的穩定性與均勻性;是用來描述總體內部差異程度及衡量和比較均值指標的代表性高低。偏度是用來反應變數數列分佈偏斜程度的指標,有對稱分佈和非對稱分佈,非對稱分佈也即為偏態分佈,包括左偏分佈和右偏分佈。峰度是用來反應變數數列曲線頂端尖峭或扁平程度的指標。
聯絡:為了反面描述研究物件的'情況,僅僅用集中趨勢方法來測度集中性和共性是不夠的,還要用離散趨勢方法來測度其離散性和差異性,因此,而這需要結合使用。集中趨勢和離中趨勢是變數數列分佈的兩個重要特徵,但要全面瞭解變數數列分佈的特點,還需要知道數列的形狀是否對稱、偏斜程度以及分佈的扁平程度等。偏度和峰度就是從分佈特徵作進一步的描述。
考研統計學:引數估計一、點估計
用樣本的估計量直接作為總體引數的估計值
2. 缺點:沒有給出估計值接近總體引數程度的資訊,它與真摯的誤差、估計可靠性怎麼樣無法知道。區間估計可以彌補這種不足。
點估計的方法有矩估計法、順序統計量法、最大似然法、最小二乘法等
二、 區間估計
在點估計的基礎上,給出總體引數估計的一個區間範圍,該區間由樣本統計量加減抽樣誤差而得到的。
根據樣本統計量的抽樣分佈能夠對樣本統計量與總體引數的接近程度給出一個概率度量。
三、置信水平
將構造置信區間的步驟重複很多次,置信區間包含總體引數真值的次數所佔的比例稱為置信水平
表示為 (1 - a% )
常用的置信水平值有 99%, 95%, 90%;相應的 a 為0.01,0.05,0.10
四、置信區間
ü 由樣本統計量所構造的總體引數的估計區間稱為置信區間;
ü 統計學家在某種程度上確信這個區間會包含真正的總體引數,所以給它取名為置信區間
ü 用一個具體的樣本所構造的區間是一個特定的區間,我們無法知道這個樣本所產生的區間是否包含總體引數的真值,我們只能是希望這個區間是大量包含總體引數真值的區間中的一個,但它也可能是少數幾個不包含引數真值的區間中的一個
置信區間的表述:
總體引數的真值是固定的,而用樣本構造的區間則是不固定的,因此置信區間是一個隨機區間,它會因樣本的不同而變化,而且不是所有的區間都包含總體引數
實際估計時往往只抽取一個樣本,此時所構造的是與該樣本相聯絡的一定置信水平(比如95%)下的置信區間。我們只能希望這個區間是大量包含總體引數真值的區間中的一個,但它也可能是少數幾個不包含引數真值的區間中的一個
當抽取了一個具體的樣本,用該樣本所構造的區間是一個特定的常數區間,我們無法知道這個樣本所產生的區間是否包含總體引數的真值,因為它可能是包含總體均值的區間中的一個,也可能是未包含總體均值的那一個
一個特定的區間總是“包含”或“絕對不包含”引數的真值,不存在“以多大的概率包含總體引數”的問題
置信水平只是告訴我們在多次估計得到的區間中大概有多少個區間包含了引數的真值,而不是針對所抽取的這個樣本所構建的區間而言的
使用一個較大的置信水平會得到一個比較寬的置信區間,而使用一個較大的樣本則會得到一個較準確(較窄)的區間。直觀地說,較寬的區間會有更大的可能性包含引數
但實際應用中,過寬的區間往往沒有實際意義
區間估計總是要給結論留點兒餘地
影響置信區間寬度的因素:
1.總體資料的離散程度,用 s 來測度;2.樣本容量;3. 置信水平 (1- a),影響 zα/2 的大小
五、 引數估計標準:
無偏性:估計量抽樣分佈的數學期望等於被估計的總體引數
有效性:對同一總體引數的兩個無偏點估計量,有更小標準差的估計量更有效
一致性:隨著樣本容量的增大,估計量的值越來越接近被估計的總體引數。
考研統計學:假設檢驗一、概念
先對總體的引數(或分佈形式)提出某種假設,然後利用樣本資訊判斷假設是否成立的過程
有引數檢驗和非引數檢驗
邏輯上運用反證法,統計上依據小概率原理
什麼小概率?
1. 在一次試驗中,一個幾乎不可能發生的事件發生的概率
2. 在一次試驗中小概率事件一旦發生,我們就有理由拒絕原假設
3. 小概率由研究者事先確定
怎樣通過假設檢驗去掉偶然性
利用P值進行檢驗就可以去掉偶然性。因為P值告訴我們在某個總體的許多樣本中,某一類資料出現的經常程度,P值是當原假設正確的情況下,得到所觀測的資料的概率。如果原假設是正確的,P值若很小,則告訴我餓們得到這樣的觀測資料是多麼的不可能,相當不可能得到的資料,就是原假設不對的合理證據,偶然性也就消除了。
二、原假設
1. 研究者想收集證據予以反對的假設。是關於總體引數的表述,它是接受檢驗的假設。
2. 總是有符號 =, £ 或 ³
3. 表示為 H0
n H0 : m = 某一數值
n 指定為符號 =,£ 或 ³
三、備擇假設
研究者想收集證據予以支援的假設。黨員假設被否定時另一種可成立的假設。
總是有符號 ¹, < 或 >
表示為 H1
n H1 : m <某一數值,或m >某一數值
四、結論與總結
原假設和備擇假設是一個完備事件組,而且相互對立
n 在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立
先確定備擇假設,再確定原假設
等號“=”總是放在原假設上
因研究目的不同,對同一問題可能提出不同的假設(也可能得出不同的結論)
五、兩類錯誤
1. 第Ⅰ類錯誤(棄真錯誤)
原假設為真時拒絕原假設
第Ⅰ類錯誤的概率記為a。被稱為顯著性水平。常用的 a 值有0.01, 0.05, 0.10
2. 第Ⅱ類錯誤(取偽錯誤)
原假設為假時未拒絕原假設
第Ⅱ類錯誤的概率記為b (Beta)
影響b錯誤的因素:1. 總體引數的真值。隨著假設的總體引數的減少而增大
2. 顯著性水平 a。當 a 減少時增大 3. 總體標準差 s。當 s 增大時增大 4.樣本容量 n。當 n 減少時增大
控制:進行假設檢驗時總希望犯兩類錯誤的可能性都很小,然而,在其他條件不變的情況下,a與b是此消彼長的關係,二者不可能同時減小。若要同時減小a與b,只能是增大樣本量。一般總是控制a,是犯錯誤的概率不大於a,即a是允許犯棄真錯誤的最大概率值(而P值相當於根據樣本計算的犯棄真錯誤的概率值,故P值又稱為觀測的顯著性水平)。但確定a時必須注意,如果犯棄真錯誤的代價較大,a可取小些,相反,如果返取偽錯誤的代價較大,則a宜取大些(以使b較小)
六、假設檢驗的結論表述
假設檢驗的目的就在於試圖找到拒絕原假設,而不在於證明什麼是正確的
拒絕原假設時結論是清楚的
例如,H0:m=10,拒絕H0時,我們可以說¹m10
當不拒絕原假設時
並未給出明確的結論
不能說原假設是正確的,也不能說它不是正確的
例如, 當不拒絕H0:m=10,我們並未說它就是10,但也未說它不是10。我們只能說樣本提供的證據還不足以推翻原假設
七、統計上的顯著與實際意義
1. 當拒絕原假設時,我們稱樣本結果是統計上顯著的(statistically Significant)
2. 當不拒絕原假設時,我們稱樣本結果是統計上不顯著的
3. 在“顯著”和“不顯著”之間沒有清除的界限,只是在P值越來越小時,我們就有越來越強的證據,檢驗的結果也就越來越顯著
4. “顯著的”(Significant)一詞的意義在這裡並不是“重要的”,而是指“非偶然的”
5. 一項檢驗在統計上是“顯著的”,意思是指:這樣的(樣本)結果不是偶然得到的,或者說,不是靠機遇能夠得到的
6. 如果得到這樣的樣本概率(P)很小,則拒絕原假設
在這麼小的概率下竟然得到了這樣的一個樣本,表明這樣的樣本經常出現,所以,樣本結果是顯著的
7. 在進行決策時,我們只能說P值越小,拒絕原假設的證據就越強,檢驗的結果也就越顯著
8. 但P值很小而拒絕原假設時,並不一定意味著檢驗的結果就有實際意義
因為假設檢驗中所說的“顯著”僅僅是“統計意義上的顯著”
一個在統計上顯著的結論在實際中卻不見得就很重要,也不意味著就有實際意義
9. 因為值與樣本的大小密切相關,樣本量越大,檢驗統計量的P值也就越大,P值就越小,就越有可能拒絕原假設
10.如果你主觀上要想拒絕原假設那就一定能拒絕它
這類似於我們通常所說的“欲加之罪,何患無詞”
只要你無限制擴大樣本量,幾乎總能拒絕原假設
11.當樣本量很大時,解釋假設檢驗的結果需要小心
在大樣本情況下,總能把與假設值的任何細微差別都能查出來,即使這種差別幾乎沒有任何實際意義
12.在實際檢驗中,不要刻意追求“統計上的”顯著性,也不要把統計上的顯著性與實際意義上的顯著性混同起來
n一個在統計上顯著的結論在實際中卻不見得很重要,也不意為著就有實際意義。