목록머신러닝/파이썬 머신러닝 완벽가이드 정리 (3)
rueki

오차 행렬은 이진 분류에서 성능 지표로 잘 활용되고 있다. 학습된 분류 모델이 예측을 수행하면서, 얼마나 헷갈리고 있는지도 함께 보여주는 지표이다. 즉 어떠한 유형의 예측 오류가 발생하고 있는지를 나타낸다. True / False : 예측값과 실제값이 같은가 /틀린가 Negative / Positive : 예측 결과 값이 부정(0) / 긍정(1) TN : 예측값을 Negative 값 0으로 예측했고 실제 값은 역시 Negative 값 0 FP : 예측값을 Positive 값 1로 예측 했는데 실제 값은 Negative 값 0 FN : 예측값을 Negative 값 0으로 예측했는데, 실제 값은 Positive 값 1 TP : 예측값을 Positive 값 1로 예측했는데 실제 값 역시 Positive 값 1..
머신러닝의 프로세스 1. 데이터 가공 / 변환 2. 모델 학습 / 예측 3. 평가 정확도 : 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표 정확도(Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 모델예측 성능을 직관적으로 나타내는 평가지표이다. 그러나 데이터의 구성에 따라 ML 모델의 성능을 왜곡 받을 수 있다. 캐글의 타이타닉 예제에서 성별로만 예측을 하면 정확도가 얼마나 나오는지 확인해보자. from sklearn.base import BaseEstimator class MydummyClassifier(BaseEstimator): def fit(self, X, y=None): pass def predict(self, X): pred = np.zeros((..

Feature Scaling : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 - 표준화와 정규화가 있다. 표준화 (Standardization) : 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것 표준 정규분포 Z는 변수 X에서 평균을 뺀 값에 표준편차로 나누어 주는 것을 말한다. 정규화 (Normalization) : 서로 다른 Feature의 크기를 통일하기 위해 크기를 변환 모두 최소 0 , 최대 1의 값으로 변환하는 것 -> 동일한 크기 단위로 변수 비교하기 위해 기존 변수 X에서 X의 최소값을 뺀 값을 feature X의 최대값과 최소값의 차이로 나눈 값으로 변환된다. StandardScaler : 표준화를 지원하기 위한 클래스, 평균이..