문장 A, 문장 B 길어서 자를때 어떻게 자르는게 NSP 태스크를 할 때 가장 의미 있을까?
mlm_output : (a, b, c)차원이고 mask : (a, b) 차원일 때
mlm_output[mask.bool()] 가능..!
koBERT 기준 MLM 0.75%, NSP 0.9%정도 나오더라
BERT도 오버피팅 가능하다!
규민님의 학습 팁