1) PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부

2) (슬랙으로 이미 토론을 했지만 그래도) 이해가 안 가는 부분, 이해가 안 가는 이유(논문 본문 복붙)
- SEP을 기준으로 앞 뒤에 더해지는 Embedding이 학습의 의미가 있는가?
- positional embedding이 의미가 있다면 사실 같은 맥락에서 의미가 있을지도.
- unsupervised learning보다 supervised learning이 더 깊은 의미를 파악하는 것에 도움을 줄 수 있었을까?
- task 디자인이 앞 뒤 문장의 연속성 판단인 동시에 mask 토큰이 랜덤하게 주어지는 사례도 있기 때문에 언어 다양성 + 과적합 방지 효과 있었을 듯.
3) 재밌었던 부분
- 대놓고 OpenAI 저격 논문
- positional embedding 과 sep token을 통한 문장 순서 임베딩
- attention으로 인한 계산량의 증가를 막기 위해서 pretraining 과정에서 90%는 128, 10%는 512로 학습시킨 것 → 이것은 positional embeding을 학습시키기 위함이라고 언급함
- Finetuning의 파라미터를 여러가지로 나누어서 적용한 점. 이 점을 또 그냥 동일한 LR을 적용한 GPT 보다 낫다고 주장하는 점
- 문장 간의 관계를 학습할 수 있도록 단순히 mask 토큰만 이용한 것이 아닌 연속된 문장인지를 판단하는 과제를 수행하도록 한 점. 이 점은 상당히 마음에 드는 접근이다.
4) 논문 구현 시 주의해야할 것 같은 부분(논문 본문 복붙)
- Torchtext를 적극적으로 이용해서 data loader를 잘 구성해야할 것 같다.
- mask 토큰의 80%는 mask 이지만 10%는 랜덤, 10%는 그 단어 그대로 제시하는 것
- 문장이 두개 연속으로 오면서 문장 사이에는 sep 토큰이 와야 함
5) 소개하고 싶은 개념 하나 (발표 5분 분량, 선택)