- PPT 한 장 분량으로 논문 정리

- 이해가 안 가는 부분, 이해가 안 가는 이유
- L2 constraint를 3으로 한 특별한 이유가 있는지 궁금하다. ← 걍 SST-2 dev set을 놓고 파라미터 grid search의 결과로 나온걸 쓴거 같다..
- 재밌었던 부분
- non-static이, 문장 내부에서 같은 자리에 위치하는 bad와 good의 차이점을 학습한 것, pre-trained 벡터가 bag-of-words 기반이다보니 static은 이걸 캐치하지 못한 것 같고, non-static은 처음엔 몰랐지만 나중에 알게된 것 같다.
- 한계로 느껴지는 부분
- long term dependency가 중요한 긴 문장은 구분을 잘 못할 것 같다
- 논문 구현 시 주의해야할 것 같은 부분
- 같이 얘기해봤으면 하는 부분
- 이 논문은 저자 혼자 쓴 논문으로 엄청난 citation 수를 얻었는데, 이게 석박사 생들한테는 어떤 느낌인지 .. 궁금하네요.
- (페이퍼 리뷰 후에) 느낀점. 새로 알게 된 점
- 원본 코드를 보니 unknown word에 대해서는, uniform distribution으로 U[-0.25, 0.25]로 해서 랜덤하게 initialization을 진행했다. 따로 std를 계산해준 줄 알았는데, 그냥 a=0.25로 고정적으로 줌.
- 0.25라는 수치는 기존에 pre-trained vectors(google negative300.bin)과 unknown vector가 같은 variance를 갖게 해주기 위함이었다고 함