第二章 數據描述
第四節 用數字來概括數據
針對一組數據的分布特征,我們可以從兩個方面來考查它:一是該組數據的集中趨勢,即該組數據的數值向其中心值的靠攏程度。二是該組數據的離散程度,它反映的是該組數據的各個數值遠離其中心的趨勢和程度。
一.定性數據的數字特征
由于定性數據主要是計數,比較簡單,對定性數據的集中趨勢常用的方法就是計算比例、百分比、中位數和眾數。
中位數是將總體各單位標志值按大小順序排列,處于中間位置的那個數(如果樣本量為奇數),或者中間兩個數目的平均(如果樣本量為偶數)。
眾數就是數據中出現次數或出現頻率最多的數值。在定性數據中,由于記錄的是頻數,因此眾數用得多些。
二.定量數據的數字特征
反映定量數據特征的統計量常用的有:
反映數據集中趨勢的水平度量:平均數、中位數、眾數和分位數等
反映數據離散程度的差異度量:極差、四分位差、標準差和方差
(一) 水平的度量
1. 平均數
平均數也稱為均值,是把某一組數據進行算術平均,用以表述某一事物的平均水平,它在統計中叫做均值。
簡單平均數:把一個變量的所有觀測值相加再除以觀測值的數目
加權平均數:如果原始數據為分組數據,則采用加權平均數公式計算,其中的權數f為各組的頻數。
2. 中位數
數字按順序排列后,處于中間位置的數即是。如總位數為奇數,中間數即是;若為偶數,則是中間兩位數的平均值。
3. 眾數
數組中出現次數最多的數。
4. 用哪個值代表一組數據
平均數、中位數和眾數是描述數據水平的三個主要統計量,要合理使用則需要了解它們的不同特點和應用場合。平均數易為多數人理解和接受,實際中用的也較多,但主要缺點是更容易受少數極端數值的影響,對于嚴重偏態分布的數據,平均數的代表性較差。中位數和眾數提供的信息不像平均數那樣多,但它們也有優點,比如不受極端值的影響,具有統計上的穩健性,當數據為偏態分布,特別是偏斜程度較大時,可以考慮選擇中位數和眾數,這時它們的代表性要比平均數好。
(二) 差異的度量
對社會經濟現象不僅需要對現象的集中趨勢進行分析(平均數、中位數、眾數),而且還需要進行差異程度分析即離散程度分析。研究事物現象的差異性,從差異性的事物現象中,尋求解決差異性的一些方法。
1. 極差( Range)
極差又稱全距,是最簡單的離散指標,它是一組數據中的最大值和最小值之差。
計算極差非常簡單,含義也很直觀。但是,它僅僅受最大值和最小值的影響,不能反映一組數據 分布的情況,而且它非常容易受數據中極端值的影響。因此,它不能準確地描述數據的分散程度。
2. 方差和標準差
為了反映數據中的每一個觀察值與平均水平的差異程度就必須引入方程和標準差的概念。
方差:將各個變量值和其均值離差平方的平均數,作為樣本數據,它反映了樣本中各個觀測值到其均值的平均離散程度。
標準差是方差的平方根,它與方差相比更具量綱性,而且與變量值的計量單位相同,使用的范圍比方差更廣泛。
在一個統計樣本中,其標準差越大,說明它的各個觀測值分布的越分散,它的趨中程度就越差。反之,其標準差越小,說明它的各個觀測值分布的越集中,它的趨中程度就越好。
3. 離散系數
離散系數也稱變異系數、標準差系數,它是將一組數據的標準差除以其均值,用來測度數據離散程度的相對數。
4. 標準分數
標準分數也稱標準化值或Z分數,它是變量值與其平均數的離差除以標準差后的值,用以測定某一個數據在該組數據中的相對位置。
編輯推薦:
(責任編輯:)
近期直播
免費章節課
課程推薦
統計師
[協議護航-退費班]
12大模塊 準題庫資料 協議退費校方服務
統計師
[協議護航-暢學班]
12大模塊 準題庫資料 協議續學校方支持
統計師
[豐羽計劃-暢學班]
4大模塊 題庫練習 精品課程