VAE | Notion

paper : https://arxiv.org/abs/1312.6114

참고자료들 :

Preliminaries

Bayesian
- 어떤 확률분포를 추정할 때 이 때 들어가는 매개변수 또한 확률을 가지고 있는 경우
inference
- 딥러닝의 inference랑 상관없음.
- https://en.wikipedia.org/wiki/Statistical_inference
- 1. 분포에 대한 추정을 하고 2) population에서 sample을 뽑은 뒤 3) 그 추정이 맞는지 확인하는 과정을 inference라고 하는 듯.
- statistical inference의 결론은 점추정, 구간추정, 가설 기각 등이 있음.
marginal inference
- joint distribution $p(x_a, x_b, x_c)$가 있을 때 $p(x_a)$를 추정하는 것?
Variational
- **변분법(**calculus of variations)이란 미적분학의 한 분야로, 일반 미적분학과는 달리 범함수(functional)를 다룬다. 이런 미적분학은 알려지지 않은 함수와 이 함수의 도함수를 다루는데, 주로, 어떠한 값을 최대화 하거나, 최소화하는 함수 모양이 어떻게 되는가를 다룬다.
  - 범함수(functional) : F[y]는 함수 y(x)를 입력받아서 출력값 F를 돌려주는 연산자이다.
    - 가령 연속 변수 x에 대한 엔트로피 H[x]를 예로 들 수 있다.
    - 엔트로피 범함수는 모든 확률 밀도 변수 p(x)에 대한 해당 밀도하의 x의 엔트로피를 내보낸다.
  - 미분에서 y(x)를 최대/최소화하는 x 값을 찾듯, 변분법에서는 범함수 F[y]를 최대/최소화하는 함수 y(x)를 찾으려고 한다!
  - 오일러 라그랑주 방정식 :
    - 1차원 오일러-라그랑주 방정식
    - f(x)를 최대/최소화할 때 x의 미분값이 0이듯이, 범함수에서도 이를 확장해서 $F[y(x)+\epsilon\eta(x)]$를 했을 때 적분의 경계가 0인걸 활용해서 푸는 그런 느낌.
- 변분적 방법론에는 근사하는 성질이 없으나, 자연스럽게 근사해를 구하게 된다. (e.g. 2차 함수들만 고려한다거나 고정된 기저 함수의 선형결합만을 구하게 된다던가)
- 이 논문에서 variational이란 단어가 나오는건 intractable한 postrior $p(z|x)$를 근사하기 위해 gaussian을 가정한 $q_\phi(z|x)$의 파라미터를 바꿔가면서 likelihood를 최대화하고 있기 때문에!
Variational Inference
ELBO
- latent z가 있고, 관측된 변수 x가 되었을 때 likelihood p(x)를 분해하고 intractable한 term을 제거하고 나머지!
- https://long8v.notion.site/ELBO-f7267ffc5301422c9965e3e6f0619958

Abstract

continuous latent variable이 있으며 posterior p(z|x)가 intractable할 때, direct probability를 효율적으로 inference 하고 학습하려면 어떻게 해야할까?
stochastic variational inference를 제안한다!
(1) reparametric trick으로 variational lower bound를 gradient descent로 구할 수 있다!
(2) iid 데이터셋 포인트 마다 continuous latent가 있다면 approximate inference model(=recognition model)을 학습시켜서 posterior inference를 할 수 있다!
결국 하고 싶은건 $lnp(x)$를 최대화하는 $\theta$를 구하고 싶음! 근데 latent z가 있는 상황..

Preliminaries

Abstract

Method