rueki
ON THE STABILITY OF FINE-TUNING BERT: MISCONCEPTIONS, EXPLANATIONS, AND STRONG 리뷰 본문
ON THE STABILITY OF FINE-TUNING BERT: MISCONCEPTIONS, EXPLANATIONS, AND STRONG 리뷰
륵기 2022. 5. 21. 15:482021년에 ICLR에 나온 paper로 주제는 Bert의 안정적인 학습에 관한 대한 내용이다.
Transformer가 NLP에서 큰 성능 변화를 이끌어왔고 이를 응용한 모델인 BERT는 지금까지도 조금씩 변형되어가면서 NLP에서 계속 좋은 성능을 보이고 있다.
그러나 Transformer 계열 모델이 일반 사람들이 학습하거나 재사용하기에는 자원적인 한계가 있기에
pre-trained 모델을 fine-tuning하는 방법이 많이 사용되가고 있으나, Bert의 fine-tuning의 단점은
안정적인 성능을 보이지 못 하다는 것이다.
그래서 본문에서는 BERT의 안정적인 학습을 하기위한 접근법들을 안내하며 다양한 BERT(RoBERTa, ALBERT) 모델을 통한 성능 비교를 보여준다.
1. Introduction
BERT는 사용할 때 fine-tuning 하는 방식으로 학습을 소수의 epoch을 돌려 진행하게 되는데 fine-tuning한 모델은 결국 훈련 데이터의 가짜 패턴 및 biases를 같이 잡아낼 뿐 아니라 같은 데이터 셋에 대해서 학습하더라고 워낙에 모델이 크기 때문에 random seed만 바꾸더라도 정확도의 편차가 큰 것은 이미 밝혀졌었다.
그래서 Bert 모델의 안정성 있는 학습은 어떻게 진행해야 할 지가 본문의 주요 내용이다.
초기 접근으로는 '데이터 셋의 크기가 작아서 문제가 되는가', '학습한 것을 잊어서 그런 것인가' 로 제시했으나 이 가설 모두 불안정성에 대한 입증은 못 해서 다른 이유를 제시한다.
(catastrophic forgetting, small training data size)
1) 학습 초기의 최적화 어려움
2) 훈련 이후 generalization의 차이 -> 같은 train loss라도 정확도 측면에서는 편차가 큼
이의 예방하는 방법으로 이후에 mixout이라는 정규화 테크닉이 등장하게 되었고 결과적으로 안정성을 가져오게 되었다고 한다.
* Bert Fine-tuning
lr = 2e-5, dropout = 0.1, weigth decay = 0.01, epoch = 3, batch size = 16
ALBERT는 dropout 사용 x, RoBERTa는 gradient clipping 사용 x
- Catastrophic forgetting
딥러닝 특성 상 임의의 데이터에 학습하고 이를 다른 task에 적용했을 때, 기존의 학습한 내용에 대해서는 잘 반영하지 못 한다. Bert의 경우에 pre-training 당시 사용한 masked language modeling을 fine-tuning 시 사용될 수 없다는 것이다. 이러한 단점은 정규화 기법을 통해서 완화시킬 수 있다.
- Small datasets
3개의 nlp 데이터 셋에 대해서 분석했을 때, 전체 데이터 셋에 대해서 3epoch동안 학습시킨 것이 데이터 줄여서 학습했을 때보다 성능의 차이가 많이 나는 것을 볼 수가 있다.
그리고 적은 샘플에 대한 훈련이 모델의 일반화에 영향을 미쳐 세 가지 작업 모두 훈련 시 성능이 안 좋은 것을 볼 수가 있다.
최적화의 경우에는 gradient norm을 통해서 안정된 성능을 보여주었다.
결과적으로, Bert의 불안정성은 학습 초기의 gradient vanishing과 이후의 generalization 문제로써
학습할 때 안정성 보장을 위한 방법은 아래와 같다.
- 작은 값의 learning rate 사용(bias correction을 위함)
- train loss가 발생하지 않도록 더 많이 학습하기