6. 수치 자료의 평균
평균은 수치 자료의 중심위치를 나타낸다.
여기서 자료는 표본이 되며, 또한 데이터가 된다.
수치자료가 n개가 있다고 가정해보자. 그러면 자료는 아래와 같을 것이다.
$x_1, x_2,x_3,...,x_n$
여기서 n은 표본 크기로 Sample size라고 한다.
1) 표본 평균 : 표본의 합을 표본 크기로 나눈 것
쉽게 설명하자면, 1 ~ n 까지의 $x_i$개의 합을 n개로 나누는 것이다.
X̄ = $\frac{x_1 + x2 + ... x+n}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i$
Ex) 42개 학과의 취업률이 아래와 같다고 하자.
55.6 + ... + 56.3 이렇게 쭉 있을 때 42개 학과의 취업률 합은 2486.4이다.
여기서 표본 평균을 구해보자.
X̄ = $\frac{2486.4}{42}\ = 58.77$
무게 중심 : n개의 자료중에서, $x_1, x_2,x_3,...,x_n$가 a 보자 작다고 가정할 때의 값이다.
$\sum_{i=1}^{m}{(a - x_i)} = \sum_{i=m+1}^{n}{x_i - a}$
$\sum_{i=m+1}^{n}{x_i - a} = 0$ => $a = \frac{1}{n}\sum_{i=1}^{n}x_i$ = X̄
$x_i$ - X̄ 은 i번째 표본의 편차(deviation)을 말한다.
이번에는 표본 비율 (Sample proportion)에 대해 알아보자.
표본이 차지하는 비율이라는 뜻인데, 관측 값이 관심 범주에 속하면 $x_i = 1$, 속하지 않으면 $x_i = 0$ 의 값을 가진다
해당 범주 내 포함된 표본의 수 y를 $x_1, x_2,x_3,...,x_n$ 라고 했을 때, 표본 비율은 아래와 같다
표본 비율 = 표본 수 / 표본 크기 = $\frac{y}{n}$ = $\frac{1}{n}\sum_{i=1}^{n}x_i$ = X̄ = 표본 평균
이상점 (Outlier) : 대부분의 관측값으로부터 멀리 떨어져있는 관측값
이상치 포함 여부에 따라 표본 평균에 값의 차이가 발생할 수 있어 문제가 생기는데, 이를 해결할 때,
대체 중심을 정한다. 이의 예로 중앙값, 절사평균, 최빈값이 있다.
- 이상점의 예
250 | 275 | 260 | 265 | 265 | 270 | 400 | 235 |
위와 같이 월급을 받았다고 가정을 하자. 이의 표본 평균은 2280/8 = 277.5 의 값을 가지는데,
이는 400의 값을 제외한 나머지 값은 표본 평균보다 낮은 값을 가지게 된다. 이의 원인이 400이라는 큰 값의 존재로 인해 무게 중심이 높게 형성되었기 때문이다.
가중평균 : 각 표본에 대한 가중치와 표본의 곱을 평균 낸 것
$\bar{x_w}$ = $\frac{1}{w}\sum_{i=1}^{n}w_i * x_i$
ex)1월 수익 28%, 2월 수익 -28%라고 가정해보자
1월 - 100만원을 투자했을 때 수익금은 100*0.28 = 28 => 100+28 =128 만원
2월 - 128 + 128 * (-0.28) = 128 * (1-0.28) = 92.16 만원
=> 100 x (1.28 * 0.72)
1.28 * 0.72 = 0.9216 = $(1+R)^2$, R = -4%
기하평균 : n개의 양수 값을 모두 곱한 것의 n제곱근이다.
$\bar{x_g}$ = ${(x_1 * x_2 * ... * x_n)}^{\frac{1}{n}}$ = $({\prod_{i=1}^{n}}x_i)^{\frac{1}{n}}$
ex) 1인 총소득이 1985년에 209.0만원, 2015년에 3093.5만원이라고 할 때,
연평균 증가율은 3093.5 / 209.0 = 14.80이다.
(1 + R)^30 = 14.80, 1 + R = $14.80^\frac{1}{30}$ = 1.094 = 1+R
R = 0.094