. tokenizer : mecab 자르고 → 공백으로 붙이고 → wordpiece https://github.com/huggingface/tokenizers ( ## 붙이기)
. [MASK] 하는 데이터 로더까지 (80% [MASK], 10% random token, 10%)
. (??) MASK INDEX, 바뀐 INDEX, 원래 INDEX
. transformer 패키징화를 안한 사람 해오기(2시간)
. 모델 아키텍쳐가 에러 없이 동작 (학습은 안 돼도 된다)
. 서로 모두 모델까기
. FCN에서 MLM이 예측, NSP 예측 → CLS토큰이 NSP인지 아닌지 예측하는 FCN만 짜오자
. 데이터셋 : petition 2019-01 15만 5천 줄
. 학습이 되어야한다
. BERT 학습 ( 5 이하면 방학숙제 완료, 이상이면 퇴소 )
. 노션 페이지 한 장으로 정리해오기 (참고 블로그 2개 이상)