사실 이전에도 ELMO를 제대로 안 본 이유는 구조가 word2vec에서 그렇게 크게 진화하지는 않아서 (BERT같이) 였음.
LSTM layer output의 concat 을 사용하는 것으로..
tagging 이 따로 없어도 context에 따라 embedding이 달라지는 점 → BERT도 context 에 따라 token embedding이 달라지나?
BERT에 묻힌 비운의 paper
그림이 없어서 기준이 없으므로, 잘 잡고 해야 할 듯.
gamma에 대한 튜닝
ELMo 가 사용될 수 있는 문제 설명 (실제 업무)
특정 타겟에 대한 뉴스 검색
실제 회사 이름: 남성, 이루다, 동방, 씨앗, 유니크, DB, 등등...
Word Sense Disambiguation 용도로 활용 (할 예정)
ELMo (대선조선, "남성"해운 컨테이너선 2척 수주) /
ELMo (40대 "남성" 실종된 인천 노래주점 내부 CCTV 하드디스크 사라져)