본문 바로가기
  • Deep dive into Learning
  • Deep dive into Optimization
  • Deep dive into Deep Learning
Deep dive into Deep learning

Deep learning 심화 : information geometry for deep learning (4)

by Sapiens_Nam 2023. 10. 28.

 

 

모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다.

 

 

오늘은 지수족 (Exponential family)에 대해서 알아보도록 하자.

앞선 글에서 이야기하였듯이 우리들이 알고있는 대다수의 분포들은 지수족에 포함된다.

 

지수족은 다음과 같이 분포함수가 표현되는 확률분포들의 족 (family)를 의미한다.

 

$q_{\lambda}(\theta) = \exp ( \langle \lambda, T(\theta) \rangle - A(\lambda))$

여기서 $\lambda$는 natural parameter, $T(\theta)$는 sufficient statistics (충분 통계량),

$A(\lambda)$는 log-partition function (=cumulant generting function) 이라 부른다.

 

자, 그렇다면 정규분포가 지수족임을 확인해보도록 하자.

 

Random variable $X$가 $\mathcal{N}(m, \sigma^2)$인 정규분포를 따른다고 하면 확률밀도함수를 다음과 같이 전개해볼 수 있다.

$\frac{1}{\sqrt{2 \pi \sigma^2}} \exp[- \frac{(x - m)^2}{2 \sigma^2}]$

$= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp[- \frac{x^2}{2 \sigma^2} - \frac{m^2}{2 \sigma^2} + \frac{m}{\sigma^2}x]$

$ = \exp [ -\frac{x^2}{2 \sigma^2} - \frac{m^2}{2 \sigma^2} + \frac{m}{\sigma^2}x - \frac{1}{2} \log (2 \sigma^2) - \frac{1}{2} \log \pi$

$= \exp [\frac{m}{\sigma^2}x - \frac{1}{2 \sigma^2}x^2 - \frac{1}{2 \sigma^2}m^2 - \frac{1}{2}\log (2 \sigma^2) - \frac{1}{2} \log \pi]$

 

즉, $\lambda$는 $( \frac{m}{\sigma^2}, - \frac{1}{2 \sigma^2} )$ , $T(x) = (X, X^2)$, $A(\lambda) = - \frac{1}{4} \frac{\lambda_1^2}{\lambda_2^2} + \frac{1}{2} \log \left( - \frac{1}{\lambda_2} \right) + \frac{1}{2} \log \pi$ 이다.

 

 

앞선 글에서 이야기하였듯이 natural parameter $\lambda$는 manifold 상에서 좌표축 역할을 하고, manifold 의 한 점은 분포 하나를 의미한다고 하였다. 즉, natural parameter가 결정되면 해당 분포도 결정되는 것이다.

 

그러면 expectation parameter는 어떻게 될까?

앞서 나온 $A(\lambda)$ 즉, log-partition function을 미분하면 우리는 expectation parameter를 구할 수 있다.

 

$\mu = (\mu_1, \mu_2) = (m, m^2 + \sigma^2)$

 

$A(\lambda)$를 $\lambda_1$에 대해 편미분 한 것이 $\mu_1$, $\lambda_2$에 대해 편미분 한 것이 $\mu_2$이다.

그리고 $A(\lambda)$는 convex function이기 때문에 Bregman divergence를 사용하면 두 분포의 KL-divergence도

유도할 수 있다.

 

자, 그럼 마지막으로 $\lambda$와 $\mu$는 어떤 관계가 있을까?

 

잠시 convex optimization의 한 주제인 Fenchel conjugate (convex conjugate)에 대해 알아보자.

$f(x) : \mathbb{R}^n \rightarrow \mathbb{R}$ 라는 함수가 있을 때 이의 dual space $v \in \mathcal{V}$를 정의역으로 하는 다음과 같은 함수를 정의할 수 있다. 

 

$f^{\star}(v) = \sup_x \langle v, x \rangle - f(x)$

$f^{**}(x) = \sup_v \langle v, x \rangle - f^{\star}(v)$

 

여기서 $f^{\star}(v)$를 Fenchel conjugate, $f^{**}(v)$를 Fenchel bi-conjugate이라고 부른다.

그리고 $x$와 $v$를 dual parameter라고 표현한다.

 

자, 우선 $f$와는 상관없이 $f^{\star}, f^{**}$는 항상 convex function이다.

그리고 $f^{**}(x)$는 $f$의 optimal convex lower bound이다. 즉, $f(x) \ge f^{**}(x)$이다.

추가적으로 만약 $f$가 closed, convex function이라면 $f^{**} = f$이고 $f$와 $f^{\star}$의 subgradient는 역함수 관계이다.

 

 

자, 그럼 다시 지수족 이야기로 돌아와서 $A(\lambda)$의 fenchel conjugate function을 생각해보자.

그것은 다음과 같이 정의될 것이다.

 

$A^{\star}(\mu) = \langle \mu, \lambda \rangle - A(\lambda)$

 

그리고 이를 우리는 $\lambda$에 대해서 미분하고 $= 0$을 세워서 풀면 $\mu = \nabla A(\lambda)$가 나오고 

앞선 expectation parameter의 정의가 다시 한 번 확인된다.

다시 앞선 Fenchel conjugate function을 $\mu$에 대해서 미분하면 좌변은 $\nabla A^{\star}(\mu)$가 되고 우변은 $\lambda$만 남는다.

즉, $\lambda  = \nabla A^{\star}(\mu)$이다.

 

여기서 우리가 알 수 있는 것은 결국 $\mu$와 $\lambda$는 dual parameter 관계에 있고 $\mu$는 Fenchel conjugate function에 의해 정의된다는 것이다.

 

그리고 $\mu$ 역시 manifold 상에서 좌표축 역할을 하고 있기 때문에 이 값이 정해지면 하나의 분포함수를 결정한다.

 

728x90

댓글