6월 1주차 : BERT 읽어오기

1주차 paper review

6월 2주차 : input/output

. tokenizer : mecab 자르고 → 공백으로 붙이고 → wordpiece https://github.com/huggingface/tokenizers ( ## 붙이기)

. [MASK] 하는 데이터 로더까지 (80% [MASK], 10% random token, 10%)

. (??) MASK INDEX, 바뀐 INDEX, 원래 INDEX

. transformer 패키징화를 안한 사람 해오기(2시간)

2주차 BERT I/O

6월 3주차 : NSP까지 해오기

. 모델 아키텍쳐가 에러 없이 동작 (학습은 안 돼도 된다)

. 서로 모두 모델까기

. FCN에서 MLM이 예측, NSP 예측 → CLS토큰이 NSP인지 아닌지 예측하는 FCN만 짜오자

3주차 NSP

6월 4주차 : MLM까지 해오기

. 데이터셋 : petition 2019-01 15만 5천 줄

. 학습이 되어야한다

4주차 MLM

6월 5주차 : BERT 학습 + NER 공부

. BERT 학습 ( 5 이하면 방학숙제 완료, 이상이면 퇴소 )

. 노션 페이지 한 장으로 정리해오기 (참고 블로그 2개 이상)