목록기초통계학 (6)
rueki
평균은 수치 자료의 중심위치를 나타낸다. 여기서 자료는 표본이 되며, 또한 데이터가 된다. 수치자료가 n개가 있다고 가정해보자. 그러면 자료는 아래와 같을 것이다. x1,x2,x3,...,xn 여기서 n은 표본 크기로 Sample size라고 한다. 1) 표본 평균 : 표본의 합을 표본 크기로 나눈 것 쉽게 설명하자면, 1 ~ n 까지의 xi개의 합을 n개로 나누는 것이다. X̄ = x1+x2+...x+nn=1n∑ni=1xi Ex) 42개 학과의 취업률이 아래와 같다고 하자. 55.6 + ... + 56.3 이렇게 쭉 있을 때 42개 학과의 취업률 합은 2486.4이다. 여기서 표본 평균을 구해보자. X̄ = $\fra..

수치자료를 표로 나타나기 위해서는 범주화가 필요하다. 수치 자료에 대해 도수분포표를 나타내려면 아래와 같은 작업이 필요하다. 자료 값이 한정된 경우, 값을 범주로 처리 자료 범주화 후, 도수 분포표 작성 도수, 누적도수, 상대 누적 도수 포함 여기서 범주화라 함은 계급의 수와 경계 값을 결정하는 것인데, 계급(Class) : 범주화를 시킨 것 계급의 수 : 제곱근, Struges, Rice 공식 등을 통해 결정 그러나 자료의 특성을 고려해 분석자가 결정하는 것이 제일 좋음 계급의 경계 : 동일 간격으로 정하는 것이 제일 좋다 자료의 구조와 설명을 고려해서 선택하며, 한 계급의 크기를 얼마로 할지를 정하는 것도 중요하다. ex) 최소 7, 최대 34인 구간에서 3개의 계급으로 나누기 (34 - 7) / 3..

범주형 자료는 Categorical Data 라고 하며, 각 범주에 몇 개의 관측개체가 있는지를 나타낸다. 범주를 나타내는 데이터를 정리하는 데 있어서, 도수 분포표를 통하여 정리를 한다. 도수 (Frequency) : 범주에 속한 값(관측 개체)의 개수를 나타내며, 흔히 빈도 수라고도 한다. 상대 도수(Relative Frequency) = 상대 비율 : 상대적으로 얼마나 차지하고 있는지 해당 범주에 속한 비율을 나타낸다. => (해당 범주의 관측 개체 수 / 전체 관측 개체 수) x 100% ex) 파이의 전체 판매 개수는 234개이다. 이 중에서 애플파이는 59개, 딸기파이는 52개를 팔았을 때, 애플파이의 상대도수 : 59/234 = 0.252 -> 0.252 x 100 = 25.2 % 딸기파이의..
통계학에서는 분석목적, 자료 형태에 따라 다양한 분석 방법을 제공한다. 분석 방법의 적절성을 설명하기 위해서는, 분석하고자 하는 자료가 해당 방법에서 가정했던 조건들을 얼마나 만족하는지를 나타내야 한다. 즉, 자료의 속성데 따른 분류가 필요하게 되는 것이다. 번호 성 연령 신장 체중 비만도 혈액형 충치 1 남 25 181 75 정상 B 5 2 남 23 175 75 과체중 A 1 3 여 19 161 48 정상 A 4 4 여 23 178 67 정상 A 2 위와 같은 표를 흔히 데이터 셋이라 하며, 변수라고도 일컫을 수가 있다. 변수의 종류 일변량 자료 : 하나의 변수만 있는 자료 다변량 자료 : 여러개의 변수로 이루어진 자료 -> 변수들간의 관련성이 중요하다. ex) 성 체중 -> 연관 x / 신장 체중 -..