1. PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부

  1. 이해가 안 가는 부분, 이해가 안 가는 이유
  1. 단어의 normalization을 하지 않은 이유? (numeric value, stopword filtering, etc.)
  2. backpropagation 시, weight vector의 l2를 고정하는 이유?
  1. 재밌었던 부분
  1. word vector 가 fine-tuning 되면서 semantic space 의 관계가 전환 된 것. (SST-2 dataset, (n't - (can't, won't)) ⇒ (n't - (not, never))
  2. 단순한 구조만으로 classification 성능을 구현한 것.
  1. 한계로 느껴지는 부분
  1. 단어 기반으로 tokenizing 을 실행했기 때문에, OOV에 robust 하지 못함. → character-based 모델을 생성할 경우에, word-based 모델 과의 차이 확인 필요.
  2. pre-trained word2vec 가 news data 에 한정되어 학습됨. (Skip-gram 도 아닌 CBOW)
  3. SST-1(5 classes) 에서는 낮은 성능
  4. TREC에서, 5W1H에 강한 bias가 적용해서 SVM 보다 낮은 성능
  1. 논문 구현 시 주의해야할 것 같은 부분
  1. optimizer로 adadelta 사용
  1. 같이 얘기해봤으면 하는 부분

word2vec 설정 (rand, static, non-static, multichannel) 에 따른 성능 차이가 유의미한가?

multichannel의 경우, CR, SST-2 데이터에서는 다른 방법보다 성능이 높으나, 차원이 2배가 되는데 그만큼 효율이 있는가?

Collobert et al. (2011) 의 word vector 보다 word2vec 에서 높은 성능의 원인은 무엇인지?

  1. (페이퍼 리뷰 후에) 느낀점. 새로 알게 된 점

오래된 논문이라 새로 알게 된 점은 딱히 없음.

당시 pre-trained vector가 성능 향상에 많은 영향을 끼쳤다는 것을 알 수 있음.