1) PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부
2) (슬랙으로 이미 토론을 했지만 그래도) 이해가 안 가는 부분, 이해가 안 가는 이유(논문 본문 복붙)
. 지난 달 토론 주제 : BERT는 문맥에 따라 같은 토큰의 임베딩이 달라지는가?
token embedding → 같겠죠
positonal embedding → 달라지겠죠
segment embedding → 달라지겠죠
=============
attention 하고 난 뒤에는 → 달라지겠죠
달라진다.
. MLM을 정확히 어떻게 하는건지 모르겠음 mask 토큰 넣은채로 인풋에 넣은 뒤에 mask 토큰에 대해서만 predict 하게 하려면 어떻게 구현해야하지?
. [MASK] 토큰을 15% 선정하고 80%은 바꾸고 10%은 치환하고 10%는 그냥 둔거.. 10% 그냥 두는게 의미가 뭐지 걍 둔건가..
정연안(=종현안)
original : i go to shcool.
inference : i [mask] to [mask]. 15%
input : i [mask] to school.
. 선정된 [MASK]들의 prediction을 할 때 그냥 둔 토큰의 임베딩이 들어가는건가?
3) 재밌었던 부분
. MLM - transformer아이디어 간단하고 직관적임.
. BERTbase가 GPT랑 파라미터 개수 맞춰서 나온 것인 것..ㅎㅎ