1) PPT 한 장 분량으로 논문 정리

2) 이해가 안 가는 부분, 이해가 안 가는 이유
word2vec에 없는 단어를 pre-trained 된 벡터의 variance 와 같도록 U[-a, a]로 뽑는 것
3) 재밌었던 부분
good 벡터가 bad 벡터와 word2vec에서 가깝다가 분류 모델 이후엔 멀어진 것.
위와 같은 반의어 관계에서 좋은 워드 임베딩을 구하기 위해서는 CBOW, skip-gram으로는 분명히 한계가 있겠고, 분류모델 등으로 해결 가능하겠다고 생각하게 됨.
4) 한계로 느껴지는 부분
max-over-time-pooling이 중요한 feature만 뽑고 다른 길이의 input을 자연스럽게 해결했다고 하는데 max값을 취하면서 정보가 많이 사라졌을 것 같다는 생각이 듦
5) 논문 구현 시 주의해야할 것 같은 부분
- word2vec에 없는 단어는 랜덤 vector로 주어져야함 (Words not present in the set of pre-trained words are initalized randomly) : 보통 패키지에서 없는 단어는 [UNK] 토큰으로 한번에 처리하기 때문에이 부분을 새롭게 구현해야 할듯
- CNN - static : word vector는 고정 → with no grad을 모델 중간에 넣을 수 있나? 해본 적이 없음..
- CNN - mutli-channel : 한 채널은 픽스하고 한 채널은 back prop 되어야 함. 이것도 no grad ?
- L2 norm weight : ??? in place operation
- gradient clip
- CNN max-over-time-pooling
6) 같이 얘기해봤으면 하는 부분
CNN 부분이 RNN 계열이었다면 성능이 더 높게 나올까? → vanillaRNN 다음 실험해보자
- (낮게 나올거라고 생각한다면) 왜 그럴까? '언어 문제를 time-series로 본다'는 것을 구현하려면 어떤 방법이 더 적합할까? 혹은 그냥 장단이 있는걸까?
7) (페이퍼 리뷰 후에) 느낀점. 새로 알게 된 점
- CNN이 강조된 논문이라고 생각했었는데 pretrained된 word2vec 모델이 universal 하게 작동하다는 것에 좀 더 강조를 둔 논문이란 것을 알게 됨