목록MLOPS/full stack deep learning review (9)
rueki
딥러닝 모델을 훈련하면서, 실질적으로 모델이 잘 학습되는 경우는 드물다. 원하는 task를 해결하기 위해서 결국 에러를 한번쯤은 직면할 수 밖에 없는데, 이번 주차에서는 우리의 모델을 어떻게 피드백을 해야하는지에 대한 내용이다. 모델 구성에 있어서 구현하는 부분은 20프로 정도밖에 차지하지 않는다고 한다. 그 외적인 부분은 전부 디버깅하고 튜닝하는데 투자를 한다. 그렇다면 논문에서 소개되는 성능과 다르게 왜 우리의 모델 성능은 나쁜가에 대해서 알아보아야한다. 첫 번째로 언급할 2가지 이슈는 구현 문제와 파라메터 선택이 있다. 구현 문제는 쉽게 얘기하면 코드 작성 오류로 볼 수가 있다. 오픈 소스 및 모델을 가지고 와서 보통 사용을 하게 될텐데, 가지고온 모듈 및 패키지에 추가로 작성한 우리의 코드가 맞물..
현실 ML System의 과정은 위와 같이 구성되어 있다. 1. 데이터 수집, 정제 및 라벨링 2. 코드 작성 및 디버깅 3. 자원공급 4. 실험 진행 및 결과 리뷰 5. 모델 배포 6. 예측 결과 모니터링 후 피드백 진행 테슬라의 자율주행 시스템 설계에 대한 프로세스인데, data가 훈련 중에도 계속 수집되어 좋은 성능을 inference하는 것이 목표지만, 아직은 데이터 수집 후 훈련을 진행하는 절자를 계속 걸쳐야한다. ML Production을 제공하기까지 크게 3가지 부분으로 볼 수 있는데, Data // Train, Evaluation // Deployment 이렇게 볼 수가 있다. Data는 훈련을 위한 수집 및 전처리를 통해 데이터 셋을 구축하는 과정, Training 및 Evaluation..
● Self - Attention input : $x_{1}, . . . , x_{t}$ output : $y_{1}, . . ., y_{t}$ input과 output 모두 k 차원의 vector로 구성되어 있으며, y를 구하기 위해서 적용할 self-attention 개념은 모든 input vector에 대해 weighted average 연산을 하는 것이다. $y_{i} = \sum_j w_{ij}x_{j}$ 여기서 인덱스 j는 전체 sequence에 대하여 어우르는 인덱스 값이며, i는 현재 step에 대한 인덱스이다. $w_{ij}$는 파라메터의 개념은 아니고, 일반적인 뉴럴 넷이다. 그러나 이것은 $x_{i}$와 $x_{j}$로 부터 도출된 결과로도 볼 수가 있다. w를 구하기 위한 dot p..
fully connected layer로 이미지를 다룰 경우, color 이미지는 3차원인데 이를 fully connected layer에 넣게 된다면 3차원을 1차원으로 변형시켜야하는데, 이럴 경우 이미지가 갖고 있는 spatial information을 잃게 된다. 이미지 공간 정보를 유지한 채 학습하기 위하여 Convolution 연산을 적용하게 되었다. 이미지 위 초록색 부분이 N x N 크기의 이미지 필터인데, 이미지 위에서 sliding을 하면서 해당 부분에 대하여 convolution 연산을 수행시킨다. convolution 필터 갯수가 파라메터가 되는데 Convolution layer 파라메터 수는 input channel x width x height x output channel 의 수..