rueki
6. 수치 자료의 평균 본문
평균은 수치 자료의 중심위치를 나타낸다.
여기서 자료는 표본이 되며, 또한 데이터가 된다.
수치자료가 n개가 있다고 가정해보자. 그러면 자료는 아래와 같을 것이다.
x1,x2,x3,...,xn
여기서 n은 표본 크기로 Sample size라고 한다.
1) 표본 평균 : 표본의 합을 표본 크기로 나눈 것
쉽게 설명하자면, 1 ~ n 까지의 xi개의 합을 n개로 나누는 것이다.
X̄ = x1+x2+...x+nn=1n∑ni=1xi
Ex) 42개 학과의 취업률이 아래와 같다고 하자.
55.6 + ... + 56.3 이렇게 쭉 있을 때 42개 학과의 취업률 합은 2486.4이다.
여기서 표본 평균을 구해보자.
X̄ = 2486.442 =58.77
무게 중심 : n개의 자료중에서, x1,x2,x3,...,xn가 a 보자 작다고 가정할 때의 값이다.
∑mi=1(a−xi)=∑ni=m+1xi−a
∑ni=m+1xi−a=0 => a=1n∑ni=1xi = X̄
xi - X̄ 은 i번째 표본의 편차(deviation)을 말한다.
이번에는 표본 비율 (Sample proportion)에 대해 알아보자.
표본이 차지하는 비율이라는 뜻인데, 관측 값이 관심 범주에 속하면 xi=1, 속하지 않으면 xi=0 의 값을 가진다
해당 범주 내 포함된 표본의 수 y를 x1,x2,x3,...,xn 라고 했을 때, 표본 비율은 아래와 같다
표본 비율 = 표본 수 / 표본 크기 = yn = 1n∑ni=1xi = X̄ = 표본 평균
이상점 (Outlier) : 대부분의 관측값으로부터 멀리 떨어져있는 관측값
이상치 포함 여부에 따라 표본 평균에 값의 차이가 발생할 수 있어 문제가 생기는데, 이를 해결할 때,
대체 중심을 정한다. 이의 예로 중앙값, 절사평균, 최빈값이 있다.
- 이상점의 예
250 | 275 | 260 | 265 | 265 | 270 | 400 | 235 |
위와 같이 월급을 받았다고 가정을 하자. 이의 표본 평균은 2280/8 = 277.5 의 값을 가지는데,
이는 400의 값을 제외한 나머지 값은 표본 평균보다 낮은 값을 가지게 된다. 이의 원인이 400이라는 큰 값의 존재로 인해 무게 중심이 높게 형성되었기 때문이다.
가중평균 : 각 표본에 대한 가중치와 표본의 곱을 평균 낸 것
¯xw = 1w∑ni=1wi∗xi
ex)1월 수익 28%, 2월 수익 -28%라고 가정해보자
1월 - 100만원을 투자했을 때 수익금은 100*0.28 = 28 => 100+28 =128 만원
2월 - 128 + 128 * (-0.28) = 128 * (1-0.28) = 92.16 만원
=> 100 x (1.28 * 0.72)
1.28 * 0.72 = 0.9216 = (1+R)2, R = -4%
기하평균 : n개의 양수 값을 모두 곱한 것의 n제곱근이다.
¯xg = (x1∗x2∗...∗xn)1n = (∏ni=1xi)1n
ex) 1인 총소득이 1985년에 209.0만원, 2015년에 3093.5만원이라고 할 때,
연평균 증가율은 3093.5 / 209.0 = 14.80이다.
(1 + R)^30 = 14.80, 1 + R = 14.80130 = 1.094 = 1+R
R = 0.094
'기초통계학' 카테고리의 다른 글
5. 수치형 자료 정리 (0) | 2020.03.11 |
---|---|
4. 범주형 자료 정리 (0) | 2020.03.10 |
3. 자료의 분류와 특성 (0) | 2020.03.09 |
2. 표본 추출 (0) | 2020.03.04 |
1. 모집단과 표본 (0) | 2020.03.01 |