1) PPT 한 장 분량으로 자유롭게 논문 정리 뒤 이미지로 첨부

2) (슬랙으로 이미 토론을 했지만 그래도) 이해가 안 가는 부분, 이해가 안 가는 이유(논문 본문 복붙)
charater 단위의 CNN을 이용한 tokenizing을 한 부분. 개인적으로 character 단위의 tokenizing이 잘 이해가 안된다. input은 각 character를 넣어주는 것은 이해가 되는데, 학습의 결과와 objective function은 어떻게 구축하는지?
- 여러 레이어의 정보 값을 concatenate 하지 않고 더해서 하나의 embedding vector로 구성한 점. 차원을 줄이기 위해서 더했을까? → 종현 실험 ( 수인 조언 : 파라미터가 느니까 concat할거면 차원 반으로 줄여서 )
3) 재밌었던 부분
-
토큰의 representation을 지정된 길이의 embedding이 아닌 가변 길이의 embedding으로 구성했다는 점이 여타의 논문과는 다른 행보라 재미있었음.
- 다른 얘기지만, 개인적으로 DL의 강점은 fixed form 이 아닌 리버럴liveral 한 form에 있다고 보고 있음.
- 예를 들어, CNN은 kernel을 통해 local pattern을 찾는데, 이는 픽셀 각각의 위치와 값에서 자유로워짐
- 또한 RNN의 경우에도 옆으로 펼쳐진 형태를 통해 input sequnece의 길이를 제한하지 않음
-
단순히 ELMO 임베딩 뿐만 아니라 다른 임베딩과의 합성을 하는 점 → 종현님이 찾아오는걸로
-
태스크에 따라 상위 레이어를 사용할지, 하위 레이어를 사용할지에 대한 분화가 발생하는 점.
- 언어 모델을 위계적으로 구성해두고 이를 태스크에 따라서 weight를 가변적으로 계산하여 fine tuning 하는 것
- 이는 CNN에서 그렇듯, 하위의 레이어는 low level의 feature를 표상하는 반면, 상위의 레이어는 higher level의 feature를 표상한다.
- 이는 인간의 인지 구조와도 잘 맞아서, 개인적으로 위계적으로 디자인된 모델과 설명을 좋아함.
-
감마 파라미터의 도입
- 아마 경험적으로 도입했을 것이라 생각하는데, 이를 통해서 scaling을 취해줬다는 점.
4) 논문 구현 시 주의해야할 것 같은 부분(논문 본문 복붙)
- forward 와 backward 가 일반적인 형태의 concatenate 된 형태가 아님. 즉, hidden layer가 최종 레이어의 결과에서 합쳐지는 두 개의 다른 레이어의 형태로 보아야 함.
5) 소개하고 싶은 개념 하나 (발표 5분 분량, 선택)