목록MLOPS/Coursera_mlops (2)
rueki
이전 주차에서도 계속 강조되어서 나오는 내용이지만, ML System은 데이터가 차지하는 중요성의 비중이 매우 높다. 데이터에 따라서 모델의 성능이 좌지우지 되기때문이다. 그렇다면 Data에 대해 정의 및 설정은 어떻게 해야할까? 한 가지 예시를 들어보면 Detection task에서 데이터를 구축하려면 일일히 labeling을 해야하는데 아래의 사진처럼 사람마다 bounding box를 치는 기준이 다 다르기 때문에, 일관성이 떨어지게 된다. 그래서 이로인해 성능이 다르게 나올 수 있다. 위와 같은 예제말고도 label ambiguity한 예제를 하나 더 봐보자. 음성인식에서 sound가 Umm, i don't want to do that 이라 했을 때, 사람들은 이것에 대해서 라벨링을 Umm... 이..
2주차 내용은 Select and Train a Model에 관한 내용이다. 내용을 요약하자면 전반적으로 모델 훈련을 어떤 측면에서 고려하며 진행을 하고 관리하는 프로세스에 대해서 배운다. Ai 시스템과 다른 소프트웨어 시스템과의 차이라함은 데이터의 존재 유무이다. code로만 실행하고, 다루는 것을 일반적인 소프트웨어 시스템이라 하면, Ai 시스템은 Code + data로 볼 수가 있다. 다만 data에 대해서는 flexibility를 강조했는데, 이 의미는 특정 데이터에 대해서만 모델이 잘 동작하는 것보다 보다 범용적으로 잘 되어야 AI system으로 나아갈 수 있다는 점인 것 같다. 머신러닝 모델은 Model, Data, Hyper parameters 이렇게 3개로 구성되어 있다고 볼 수가 있는데..