- PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부

- (슬랙으로 이미 토론을 했지만 그래도) 이해가 안 가는 부분, 이해가 안 가는 이유(논문 본문 복붙)
- Unfortunately, standard conditional language models can only be trained left-to-right or right-to-left, since bidirectional conditioning would allow each word to indirectly “see itself”, and the model could trivially predict the target word in a multi-layered context.
→ ?? 문장이 왜이러지..
- 어떻게 [CLS]는 문장 전체적인 내용을 학습 할 수 있는가..?
- 재밌었던 부분
- 1953년 논문의 내용인 masked lm 차용..
- feature-based와 fine-tuning의 구분
- 엘모는 deep bidirectional이 아니다.
- Architecture 공유를 통한 downstream task와의 연계
- 논문 구현 시 주의해야할 것 같은 부분(논문 본문 복붙)
- 데이터 로더.
- 마스크 생성 로직
- sentence [0, 1] 임베딩, positional embedding
- hidden size = H, self-attention의 head의 갯수는 A
- base 모델은 L=12, H=768, A=12, (768/12=64) 이고 large 모델은 L=24, H=1024, A=16
L : 트랜스포머 블럭 12번 통과
H : 입력 임베딩 길이 = 출력 임베딩 길이 = 768
A : head의 갯수 = 16
- 한개의 head에서 H/A 만큼 임베딩 떼어가서 처리하고 concat하고 다시 원래대로 복귀

- 소개하고 싶은 개념 하나 (발표 5분 분량, 선택)