본문 바로가기

Mathematics/Statistics

Standard Deviation 표준편차 공식

반응형

표준편차 공식

$$variance:\;s^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$$

 

or

 

$$standard\;deviation: s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}$$

 

 

$X_i$ :  an individual observed value

$\bar{X}$ : mean of the observed values

 

여기서 하려는 거는, $X_i - \bar{X}$를 통해서 개별 값에서 평균을 빼서 차이를 구한다. 이렇게 얻은 개별값의 차이를 제곱하고 더한 다음 제곱근하여 표준편차를 구하는 것이다.

 

 

표준편차의 의미

일반적인 정규 분포 그래프

데이터라는 것은 평균에 가까울수록 위와 같이 많은 값들이 모여있는 모양을 하게 된다.

 

14살 여자의 키에 대한 분포도이다. 

 

집단 1 : 150, 152, 155, 147, 156

집단 2 : 130, 150, 160, 160, 160

 

이런 식의 두 집단의 여자 키 데이터가 있다고 가정해보자. 

 

import numpy as np

girl1 = np.array([150, 152, 155, 147, 156])
girl2 = np.array([130, 150, 160, 160, 160])

두 가지 그룹이 모두 152cm로 평균이 같다. 하지만 누가보더라도 1번 그룹이 2번에 비해 150에 가깝다는 느낌이 든다. 1번 그룹의 평균이 좀 더 신뢰성이 높다는 말이다. 이렇게 데이터가 작으면 눈으로만 대충 봐도 차이를 인지할 수 있다.

 

하지만 데이터가 많아질수록 직관적으로 알기는 불가능해진다. 그래서 표준편차라는 개념을 만든 것이다. 위 수식처럼, 특정 데이터와 평균과의 차이를 구하는 것으로 개별 편차를 구할 수가 있고, 이 편차의 평균을 구해 표준편차를 구할 수 있는 것이다.

 

 

Variance 구하기

한 번 위 데이터에서 변량(variance)를 구해보자.

 

$girl\;1:150,\; 152,\; 155,\; 147,\; 156 \to -2,\; 0,\; +3,\; -5,\; +4$

$girl\;2:130,\; 150,\; 160,\; 160,\; 160 \to -22,\; -2,\; +8,\; +8,\; +8$

 

$girl\;1$의 편차를 모두 더하면, 0

$girl\;2$의 편차를 모두 더하면, 0

 

편차는 이렇듯 더하면 반드시 0이 나오고, 0이 나오지 않는다면, 평균을 잘못 구한 것이다. 0이라는 같은 값을 가지고 두 집단의 차이를 설명할 수는 없다. 그래서 총합이 0이 되지 않게 하려고 모든 값을 제곱하는 것이다.

 

그러면 각각

 

$girl\;1:150,\; 152,\; 155,\; 147,\; 156 \to 4,\; 0,\; 9,\; 25,\; 16$

$girl\;2:130,\; 150,\; 160,\; 160,\; 160 \to 484,\; 4,\; 56,\; 56,\; 56$

 

이렇게 나오는데, 이것을 모두 합한 뒤, n-1(합한 데이터의 숫자(n)-1)으로 나눠주면

 

$54\div4=13.5$

$656\div4=164$

 

이렇게 숫자가 클수록 평균에서 값이 멀리 떨어진 분포를 볼 수 있다.

 

이렇게 나온, 13.5, 164 라는 값이 아까 알아본 이 $variance:\;s^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$ 수식이다. variance 또는 변량이라고 부른다.

 

한 그룹에 대해서만 수식에 다시 넣어보면 이렇게 된다. 

 

$$variance = s^2=\frac{1}{5-1}\sum_{i=1}^{5}(\bar{girl1}-152)^2=13.5$$

 

Standard Deviation (표준편차 구하기)

표준편차는 변량을 구했다면 구하기가 쉽다. 표준편차는 변량의 제곱근이다. 음수를 제거하기 위해서 제곱을 하다보니 숫자가 너무 커져버리는 바람에 원래 가지고 있던 값과는 동떨어진 의미의 값이 나와버렸다. 현재까지야 사용할만하다고 하지만, 나중에 큰 값의 데이터를 활용해야 할 때는 기하급수적으로 차이가 날 수가 있다.

 

이렇게 제곱근하여 크기를 줄인 값을 표준편차, 혹은 standard deviation이라고 하며, 시그마($\sigma$)라고 표기한다.

 

아까 나온 변량을 제곱근하여 계산해 표준편차를 구해보자.

 

 

$$\sqrt{13.5}=3.67....$$

$$\sqrt{164}=12.8...$$

 

 


여기서 잠깐! (왜 n-1으로 계산하는거야?)

잠깐 수식을 골똘히 바라보니 좀 이상하다. 왜 더한 개수로 나누지 않고 하나를 뺀 개수로 나누는 걸까?

 

 

데이터라는 것은 정규분포와 같이 평균에 데이터가 몰려있는 경우가 많은데, 그러면 population에서 sample을 취하게 되면 평균 부근에서 많이 뽑힐 가능성이 많다. 그러면 이렇게 뽑힌 sample 값과 poplation 간의 차이를 비교해보면, 일반적으로 sample이 작을 것이다.

 

"sample variance는 population variance보다 작아지려는 성질이 있다."라는 말로 요약할 수 있다.

 

 

불편추정량이 되기 위해 n-1로 나눈 표본분산을 사용한다.

 

표본분산의 기대값이 모분산이 되는 이유

 

 

반응형

'Mathematics > Statistics' 카테고리의 다른 글

기대값 Expected value 란?  (0) 2022.01.15
대수의 법칙  (0) 2022.01.15
Skewed Distribution 치우친 분포 차트  (0) 2022.01.15
나이팅게일의 파이차트  (0) 2022.01.15
Unit of Observation  (0) 2022.01.15