1) PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부

2) (슬랙으로 이미 토론을 했지만 그래도) 이해가 안 가는 부분, 이해가 안 가는 이유(논문 본문 복붙)

. 지난 달 토론 주제 : BERT는 문맥에 따라 같은 토큰의 임베딩이 달라지는가?

token embedding → 같겠죠

positonal embedding → 달라지겠죠

segment embedding → 달라지겠죠

=============

attention 하고 난 뒤에는 → 달라지겠죠

달라진다.

. MLM을 정확히 어떻게 하는건지 모르겠음 mask 토큰 넣은채로 인풋에 넣은 뒤에 mask 토큰에 대해서만 predict 하게 하려면 어떻게 구현해야하지?

. [MASK] 토큰을 15% 선정하고 80%은 바꾸고 10%은 치환하고 10%는 그냥 둔거.. 10% 그냥 두는게 의미가 뭐지 걍 둔건가..

정연안(=종현안)

original : i go to shcool.

inference : i [mask] to [mask]. 15%

input : i [mask] to school.

. 선정된 [MASK]들의 prediction을 할 때 그냥 둔 토큰의 임베딩이 들어가는건가?

3) 재밌었던 부분

. MLM - transformer아이디어 간단하고 직관적임.

. BERTbase가 GPT랑 파라미터 개수 맞춰서 나온 것인 것..ㅎㅎ