sentence가 pair가 아닌 경우의 입력 방식에 대한 설명 부족
(4) a degenerate text-? pair in text classification or sequence tagging.
규민님 질문 부분
bi-directional로 LM을 학습하게 되면, indirect하게 bi-directional이 안 된다.
모델 구조 자체는 이미 나와있는데 접근 방식을 바꿔서 성능을 올린 것
연결된 두 문장을 같이 학습시킨 것
SWAG 같이 sentence-pair 가 들어가는 문제에 대해서 높은 성능 향상
Feature-based approach로도 작동하는 점
ELMO에서 forward와 backward를 동시에 학습했지만, 두 방향이 deep하게 연관되어서 학습되지는 않는다. (실제로 source를 나눈 코드에서는 거의 다른 두 개의 모델이다.)
IO representation 만드는 부분
sentencepiece 사용
모델 구조 보다는 training 과정에 집중해야 할 필요