方差、標準差的公式和含義

方差也叫平方差,方差和標準差都是描述一個數據集的波動大小。比如我們通過計算得出某個 NBA 球員的得分的方差和標準差,就可以看出球員得分是否穩定。方差和標準差的值越小,就說明得分的波動很小,這名球員具有穩定的得分能力。方差和標準差的值越大,就說明得分的波動很大,這名球員得分能力不穩定。

方差計算

假設有這樣一個數據集:

x_1,x_2,x_3…x_n

我們想要得到這個數據集的方差和標準差:

  1. 首先算出整個數據集的平均數 μ

mu = frac {x1 + x2 + x3} n

2. 代入方差公式,計算方差 V

V=frac {(x1-mu)^2 + (x2-mu)^2 + (x3-mu)^2 + … + (x^n-mu)^2} n

標準差計算

alpha=sqrt V

我們一般用 α 來表示標準差。可以看到,標準差就是方差的平方根。

演化

我們拿到一個數據集,如何瞭解這個數據集的意味著什麼?

小明本學期歷次考試的數學成績:【40,90,40,60,100,40,70,100,20,100,60】。我們會算一下平均成績是 65 分,剛剛及格。如果我們隻看這個平均分,可能會覺得小明數學成績並不好。但仔細觀察每次的成績會發現好幾次都是得瞭 100 分的,這是很好的成績。所以我們用平均分去定義小明數學成績的好壞,顯然是忽略瞭什麼。

把小明歷次的成績與平均分作對比,有高於平均分有低於平均分。通過減去平均分,我們能夠知道每次成績與平均分的差異:【-25,25,-5,35,-25,5,35,-45,-5】。這組數據猶如山峰和海洋相對於海平面,負數就是海洋,正數就是山峰,數值則表示山頂和海底到海平面的距離。可以看出小明的成績是具有波動性質的。波動性與均值一樣,都是數據集的基本屬性。所以到目前為止我們知道,描述一個數據集的特征,至少需要兩個指標,即均值和波動性。

記憶是人腦感知和決策的基礎,但對於大規模數據,靠人腦記憶都是一種負擔。沒有記住這些數值就無法通過感知數據所表現出來的性質來使我們理解數據和做決策。人類需要一種直觀的方式將波動性表示出來,便於我們理解,就像均值這樣的單一數值一樣。

類比均值,嘗試用均值的方式處理差異集會發現,差異集是有正負的。不管是山頂還是海底,與海平面的距離都是正數,所以我們將差異集中的符號舍棄,即取絕對值,得到新的差異集:【25,25,5,35,25,5,35,45,5】。計算得出 22.78。這個數值可以表示小明成績的波動性嗎?

我們來看一個這兩組數據:【40,50,60,70,80】和【30,60,60,60,90】,使用上面的方法得到的結果是相同的,都是 12 。但很明顯,這兩組數據的波動性不一樣,所以使用絕對值處理是有弊端的,這個弊端就是對波動性表示的敏感度不夠,我們需要放大數值的差異。

現在我們知道,想要描述波動性,需要滿足兩個前提:1. 忽略符號;2. 放大數值的差異。偶次冪運算可以滿足這兩個條件,更具體講,我們隻需要用到二次冪運算。參考【為什麼方差要定義成平方】。我們拿二次冪運算替換上面的絕對值運算,計算出上面兩組數據的結果分別為:200 和 360。這兩個值表明第二個集合的波動性更大。我們以這種方式計算的出的值表述數據集的波動性,就是現在使用的方差公式。使用房差公式計算出小明數學成績的方差為:752

使用方差表述波動性還有一個問題,因為是數值的平方後得出的結果,不能像均值一樣使用數值原有的單位,表述為“小明成績的均值是 65 分”。那我們將方差開平方,單位不就一致瞭麼。自此就得到瞭另外一個概念:標準差。計算出小明數學成績的標準差是 27.4 分。

現在可以將小明數學成績這個數據集的特性描述為:

1. 平均分 65 分(均值);

2. 標準差 27.4 分(波動性);

赞(0)