- PPT 한 장 분량으로 논문 정리

- 이해가 안 가는 부분, 이해가 안 가는 이유
- Unknown word의 랜덤샘플링을 기존 워드벡터의 분포구간에서 U[-a, a]구간에서 하면 약간의 성능향상이 있다고 하는데 어떤 방식인건지 잘 모르겠음..
- When randomly initializing words not in word2vec, we obtained slight improvements by sampling each dimension from U[−a, a] where a was chosen such that the randomly initialized vectors have the same variance as the pre-trained ones. It would be interesting to see if employing more sophis- ticated methods to mirror the distribution of pre-trained vectors in the initialization process
- 멀티채널
- 재밌었던 부분
- 멀티 채널 학습
- 단순히 분류문제를 해결하는 논문인줄 알았는데 기존 word2vec이 fine-tuning 되서 문맥을 파악한 부분
- the multichannel model is able to fine-tune the non-static channel to make it more specific to the task-at-hand
- 한계로 느껴지는 부분
- 문맥을 파악하는 window가 3,4,5로 생각보다 짧음
- 논문 구현 시 주의해야할 것 같은 부분
- multichannel Traning 시 backpropagation 하지 않는 부분
- OOV 단어를 처리하는 부분
- 같이 얘기해봤으면 하는 부분
- 히든레이어가 하나인것으로 보이는데 좀더 하면 어떤 결과를 보일지,,
- 모델 과정중 max-pooling하는 과정에서 결국 필터를 통과한 문장에 대해 스칼라 하나만 가져오는데 이게 잘 동작하는 이유??
- BatchNormalization(2015년) 사용시 어떨지?
- (페이퍼 리뷰 후에) 느낀점. 새로 알게 된 점
- NLP분야에서 Transfer learning의 개념이 생각보다 오래 되었다
- 생각보다 간단한 구조로 좋은 성능의 모델을 만들 수 있다.