details

Untitled

위의 설명대로 ViT에 맞춰서 text transformer의 embedding dimension / head 개수를 맞췄다.( 512 → 768, num_heads 8 → 12)

Untitled