토론
U[-a, a]
의미 300차원 dim별로 variance를 구해서 이를 a 로 두고 [-a, a]를 밴드로 둔 uniform distribution에서 random sampling
word2vec의 차원들은 서로 independent할 것으로 예상되기 때문에 각 dim별로 분산을 구하는것이 타당할 것 같다
CNN layer 하나만 사용한 이유 : word2vec pretrain된 걸 사용할 때 잘된다는 것이 포인트 / 후속논문 있으니 결과 확인해보자
참고자료
ACL2017 논문 "A Syllable-based Technique for Word Embeddings of Korean Words"
syllable-based learning model for Korean using a convolution neural network
korean에 맞게 word embedding 후 cnn을 적용한 논문. 논문의 초점은 cnn보다는 한국어 word embedding에 있지만 cnn 적용한 사례가 나와서, 같이 읽어보시면 좋을 것 같습니다.
검색해와야 할 구현 디테일
word2vec 모델에 없는 단어의 초기화시, 기존 모델의 벡터들과 같은 분산을 갖게 하는 것?
multichannel 방법에 대해서 gradient update
max-over-time-pooling 기능의 구현
CNN-multichannel이나 CNN-static에서 학습안되게 끄는 것 신경쓰자.
optimizer로 adadelta 사용
실험해볼 것들
.