화요조 REFERENCE CODE | Notion

화요조 식순

근황(~10분)
논문을 다시 읽고 새로 알게 된 점(없으면 스킵)
reference code review
- torchtext 파 : 이태호님, 서수인님, 이규민님
  1. 이태호님 : TabularDataset + Bucket Iterator
  2. 서수인님 : TabularDataset + Iterator, TEXT.vocab.set_vectors
  3. 이규민님 : Example.fromlist, Dataset, BucketIterator, TEXT.vocab.set_vectors
- Dataset, DataLoader파 : 최진욱님, 이규민님
  1. 이규민님 : 사용자 Dataset + DataLoader, class Vocab,
  2. 최진욱님 : 사용자 Dataset + DataLoader, .from_pretrained, vocab dictionary
구현 디테일 어떻게 할지 논의 타임
- OOV initialization :
- static, multi-channel
- L2 norm :

논의 내용

torchtext vs Dataset, DataLoader
Iterator vs BucketIterator
전처리를 getitem에서 하는게 효율적일까, 그 전에서 하는게 효율적일까?
DataLoader에서 collate_fn에서 padding을 주는 것이 시간/메모리 효율적일까?
train의 모든 데이터를 가지고 vocab을 구축하는 것은 일종의 치팅이 아닌가?