1. Fine-Tuning Language Models from Human Preferences
RL(강화학습)을 Fine-Tuning에 더함. 사람들이 점수를 매긴 데이터 셋으로 학습한 reward 모델을 이용함. 그리고 학습 중 entropy bound를 설정하기 위해 KLD를 사용했음.