6. 수치 자료의 평균

기초통계학

6. 수치 자료의 평균

륵기 2020. 4. 5. 12:27

728x90

평균은 수치 자료의 중심위치를 나타낸다.

여기서 자료는 표본이 되며, 또한 데이터가 된다.

수치자료가 n개가 있다고 가정해보자. 그러면 자료는 아래와 같을 것이다.

$x_1, x_2,x_3,...,x_n$

여기서 n은 표본 크기로 Sample size라고 한다.

1) 표본 평균 : 표본의 합을 표본 크기로 나눈 것

쉽게 설명하자면, 1 ~ n 까지의 $x_i$개의 합을 n개로 나누는 것이다.

X̄ = $\frac{x_1 + x2 + ... x+n}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i$

Ex) 42개 학과의 취업률이 아래와 같다고 하자.

55.6 + ... + 56.3 이렇게 쭉 있을 때 42개 학과의 취업률 합은 2486.4이다.

여기서 표본 평균을 구해보자.

X̄ = $\frac{2486.4}{42}\ = 58.77$

무게 중심 : n개의 자료중에서, $x_1, x_2,x_3,...,x_n$가 a 보자 작다고 가정할 때의 값이다.

$\sum_{i=1}^{m}{(a - x_i)} = \sum_{i=m+1}^{n}{x_i - a}$

$\sum_{i=m+1}^{n}{x_i - a} = 0$ => $a = \frac{1}{n}\sum_{i=1}^{n}x_i$ = X̄

$x_i$ - X̄ 은 i번째 표본의 편차(deviation)을 말한다.

이번에는 표본 비율 (Sample proportion)에 대해 알아보자.

표본이 차지하는 비율이라는 뜻인데, 관측 값이 관심 범주에 속하면 $x_i = 1$, 속하지 않으면 $x_i = 0$ 의 값을 가진다

해당 범주 내 포함된 표본의 수 y를 $x_1, x_2,x_3,...,x_n$ 라고 했을 때, 표본 비율은 아래와 같다

표본 비율 = 표본 수 / 표본 크기 = $\frac{y}{n}$ = $\frac{1}{n}\sum_{i=1}^{n}x_i$ = X̄ = 표본 평균

이상점 (Outlier) : 대부분의 관측값으로부터 멀리 떨어져있는 관측값

이상치 포함 여부에 따라 표본 평균에 값의 차이가 발생할 수 있어 문제가 생기는데, 이를 해결할 때,

대체 중심을 정한다. 이의 예로 중앙값, 절사평균, 최빈값이 있다.

이상점의 예

250

275

260

265

270

400

235

위와 같이 월급을 받았다고 가정을 하자. 이의 표본 평균은 2280/8 = 277.5 의 값을 가지는데,

이는 400의 값을 제외한 나머지 값은 표본 평균보다 낮은 값을 가지게 된다. 이의 원인이 400이라는 큰 값의 존재로 인해 무게 중심이 높게 형성되었기 때문이다.

가중평균 : 각 표본에 대한 가중치와 표본의 곱을 평균 낸 것

$\bar{x_w}$ = $\frac{1}{w}\sum_{i=1}^{n}w_i * x_i$

ex)1월 수익 28%, 2월 수익 -28%라고 가정해보자

1월 - 100만원을 투자했을 때 수익금은 100*0.28 = 28 => 100+28 =128 만원

2월 - 128 + 128 * (-0.28) = 128 * (1-0.28) = 92.16 만원

=> 100 x (1.28 * 0.72)

1.28 * 0.72 = 0.9216 = $(1+R)^2$, R = -4%

기하평균 : n개의 양수 값을 모두 곱한 것의 n제곱근이다.

$\bar{x_g}$ = ${(x_1 * x_2 * ... * x_n)}^{\frac{1}{n}}$ = $({\prod_{i=1}^{n}}x_i)^{\frac{1}{n}}$

ex) 1인 총소득이 1985년에 209.0만원, 2015년에 3093.5만원이라고 할 때,

연평균 증가율은 3093.5 / 209.0 = 14.80이다.

(1 + R)^30 = 14.80, 1 + R = $14.80^\frac{1}{30}$ = 1.094 = 1+R

R = 0.094

728x90