paper : https://arxiv.org/abs/1312.6114
참고자료들 :
Preliminaries
-
Bayesian
- 어떤 확률분포를 추정할 때 이 때 들어가는 매개변수 또한 확률을 가지고 있는 경우
-
inference
-
marginal inference
- joint distribution $p(x_a, x_b, x_c)$가 있을 때 $p(x_a)$를 추정하는 것?
-
Variational
- **변분법(**calculus of variations)이란 미적분학의 한 분야로, 일반 미적분학과는 달리 범함수(functional)를 다룬다. 이런 미적분학은 알려지지 않은 함수와 이 함수의 도함수를 다루는데, 주로, 어떠한 값을 최대화 하거나, 최소화하는 함수 모양이 어떻게 되는가를 다룬다.
- 범함수(functional) : F[y]는 함수 y(x)를 입력받아서 출력값 F를 돌려주는 연산자이다.
- 가령 연속 변수 x에 대한 엔트로피 H[x]를 예로 들 수 있다.
- 엔트로피 범함수는 모든 확률 밀도 변수 p(x)에 대한 해당 밀도하의 x의 엔트로피를 내보낸다.
- 미분에서 y(x)를 최대/최소화하는 x 값을 찾듯, 변분법에서는 범함수 F[y]를 최대/최소화하는 함수 y(x)를 찾으려고 한다!
- 오일러 라그랑주 방정식 :
- 변분적 방법론에는 근사하는 성질이 없으나, 자연스럽게 근사해를 구하게 된다. (e.g. 2차 함수들만 고려한다거나 고정된 기저 함수의 선형결합만을 구하게 된다던가)
- 이 논문에서 variational이란 단어가 나오는건 intractable한 postrior $p(z|x)$를 근사하기 위해 gaussian을 가정한 $q_\phi(z|x)$의 파라미터를 바꿔가면서 likelihood를 최대화하고 있기 때문에!
-
Variational Inference

-
ELBO
Abstract
- continuous latent variable이 있으며 posterior p(z|x)가 intractable할 때, direct probability를 효율적으로 inference 하고 학습하려면 어떻게 해야할까?
- stochastic variational inference를 제안한다!
- (1) reparametric trick으로 variational lower bound를 gradient descent로 구할 수 있다!
- (2) iid 데이터셋 포인트 마다 continuous latent가 있다면 approximate inference model(=recognition model)을 학습시켜서 posterior inference를 할 수 있다!
- 결국 하고 싶은건 $lnp(x)$를 최대화하는 $\theta$를 구하고 싶음! 근데 latent z가 있는 상황..
Method