- PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부

- 이해가 안 가는 부분, 이해가 안 가는 이유
- 단어의 normalization을 하지 않은 이유?
(numeric value, stopword filtering, etc.)
- backpropagation 시, weight vector의 l2를 고정하는 이유?
- 재밌었던 부분
- word vector 가 fine-tuning 되면서 semantic space 의 관계가 전환 된 것.
(SST-2 dataset, (n't - (can't, won't)) ⇒ (n't - (not, never))
- 단순한 구조만으로 classification 성능을 구현한 것.
- 한계로 느껴지는 부분
- 단어 기반으로 tokenizing 을 실행했기 때문에, OOV에 robust 하지 못함.
→ character-based 모델을 생성할 경우에, word-based 모델 과의 차이 확인 필요.
- pre-trained word2vec 가 news data 에 한정되어 학습됨. (Skip-gram 도 아닌 CBOW)
- SST-1(5 classes) 에서는 낮은 성능
- TREC에서, 5W1H에 강한 bias가 적용해서 SVM 보다 낮은 성능
- 논문 구현 시 주의해야할 것 같은 부분
- optimizer로 adadelta 사용
- 같이 얘기해봤으면 하는 부분
word2vec 설정 (rand, static, non-static, multichannel) 에 따른 성능 차이가 유의미한가?
multichannel의 경우, CR, SST-2 데이터에서는 다른 방법보다 성능이 높으나, 차원이 2배가 되는데 그만큼 효율이 있는가?
Collobert et al. (2011) 의 word vector 보다 word2vec 에서 높은 성능의 원인은 무엇인지?
- (페이퍼 리뷰 후에) 느낀점. 새로 알게 된 점
오래된 논문이라 새로 알게 된 점은 딱히 없음.
당시 pre-trained vector가 성능 향상에 많은 영향을 끼쳤다는 것을 알 수 있음.