1) PPT 한 장 분량으로 논문 정리

2) 이해가 안 가는 부분, 이해가 안 가는 이유

word2vec에 없는 단어를 pre-trained 된 벡터의 variance 와 같도록 U[-a, a]로 뽑는 것

3) 재밌었던 부분

good 벡터가 bad 벡터와 word2vec에서 가깝다가 분류 모델 이후엔 멀어진 것. 위와 같은 반의어 관계에서 좋은 워드 임베딩을 구하기 위해서는 CBOW, skip-gram으로는 분명히 한계가 있겠고, 분류모델 등으로 해결 가능하겠다고 생각하게 됨.

4) 한계로 느껴지는 부분

max-over-time-pooling이 중요한 feature만 뽑고 다른 길이의 input을 자연스럽게 해결했다고 하는데 max값을 취하면서 정보가 많이 사라졌을 것 같다는 생각이 듦

5) 논문 구현 시 주의해야할 것 같은 부분

6) 같이 얘기해봤으면 하는 부분

CNN 부분이 RNN 계열이었다면 성능이 더 높게 나올까? → vanillaRNN 다음 실험해보자

7) (페이퍼 리뷰 후에) 느낀점. 새로 알게 된 점