본문 바로가기
  • Deep dive into Learning
  • Deep dive into Optimization
  • Deep dive into Deep Learning
Deep dive into Deep learning

Deep learning 심화 : Information geometry for deep learning (3)

by Sapiens_Nam 2023. 10. 18.

 

 

 

모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다.

 

Manifold $M$의 두 점 $P$, $Q$를 생각해보자. 그리고 각각의 좌표는 $\xi_p$, $\xi_q$라고 하자.

$P$와 $Q$의 Divergence는 $\xi_p$와 $\xi_q$의 함수로 볼 수 있는데 특정한 조건을 만족하는 함수여야 한다.

 

즉, Divergence는 다음과 같이 정의할 수 있다.

 

$D[P:Q]$는 다음의 조건을 만족할 때 divergence라고 한다

1. $D[P:Q] \ge 0$.

2. $D[P:Q] = 0$ $i.f.f.$ $P=Q$.

3. $P$와 $Q$가 충분히 가까울 때, 즉, $\xi_q$가 $\xi_p + d \xi$로 정의될 때, Talyor expansion은 다음과 같이 정의되고, 이때 행렬 $G = (g_{ij})$는 Positive-definite matrix여야 한다.

$D[\xi_p : \xi_p + d\xi] = \frac{1}{2} \sum g_{ij} (\xi_p) d\xi_i d\xi_j + \mathcal{O}(|d\xi|^3)$

 

 

Divergence는 거리는 아닌데 대칭성이 성립하지 않기 때문이다.

즉, 

$D[P:Q] \neq D[Q:P]$

이다.

또한, 삼각부등식도 성립하지 않는다.

하지만, Divergence의 asymmetry한 성질은 information geometry에서 중요한 역할을 한다.

 

가장 대표적인 Divergence인 Kullbeck-Leibler Divergence는 위 조건을 전부 만족한다.

$D_{KL}[p(x, \theta^{\prime}) : p(x, \theta)] = \int p(x, \theta^{\prime}) \log \frac{p(x, \theta^{\prime})}{p(x, \theta)}$

 

우리가 오늘 살펴볼 Divergence는 Bregman Divergence이다.

 

Bregman divergence는 Convex function에 대해서 많이 사용되어지는 divergence 중 하나인데,  다음과 같이 정의된다.

 

우리는 (미분 가능한) convex function $f$에 대해 임의의 한 점에서의 tangent hyper-plane을 생각해볼 수 있다.

$z = f(x_0) + \langle \nabla f(x_0), x - x_0 \rangle$

 

$f$가 convex function이므로 $z$는 항상 $f$ 아래에 있다. (convex 정의)

그러면 $f$의 정의역에 포함되는 모든 점들에서 우리는 $f$와 $z$ 사이의 거리를 생각해볼 수 있다.

$D_f[x  x_0] = f(x) - (f(x_0) + \langle \nabla f(x_0), x - x_0 \rangle)$

 

이것이 $f$에 대한 두 점의 Bregman divergence 정의이다.

이것은 앞선 'Divergence'의 조건 3가지를 만족한다.

(Convex function에서만 bregman divergence가 정의되는 이유도 1번 조건 때문이다.)

 

지수족 분포 (Exponential family) 에 대해서 생각해보자. 

다음과 같이 probability function이 표현될 수 있으면 우리는 이를 지수족 분포라고 한다.

(대다수 유명한, 알려진 분포들은 지수족 분포에 포함된다.)

 

$q_{\lambda}(\theta) = \exp (\langle \lambda, T(\theta) \rangle - A(\lambda))$

 

여기서 $\lambda$는 'natural parameter', $T(\theta)$는 'sufficient statistics', $A(\lambda)$는 log-partition function이라고 부른다.

$ \exp (A(\lambda)) $가 하는 역할은 위 함수가 확률분포함수가 될 수 있도록 해주는데 즉, 다음의 조건을 만족하도록 해준다.

 

$\int q_{\lambda}(\theta) = 1$.

 

바꿔 말하면, $A(\lambda)$는 다음과 같이 표현할 수 있다.

 

$A(\lambda) := \log \int \exp \{\langle \lambda, T(\theta) \rangle \}$

 

자, 우리가 만약 $\lambda$가 coordinate 역할을 하는 $M = \{ q_{\lambda}(\theta) \}$인 manifold를 생각해본다면 위 $A(\lambda)$를 2번 미분하면 그것의 Hessian이 positive-definite이란 것을 증명할 수 있고, 이 말은 $A(\lambda)$는 convex function이라는 의미이다. 

 

추가적으로 $A(\lambda)$를 log-partition function 또는 cumulative generating function이라고도 하는데, 이 함수를 한 번 미분하면 cumulant 값을 얻을 수 있기 때문이다. 이 또한 manifold 상에서 좌표로 쓰일 수 있다. 

그리고 추후 다루겠지만, natural parameter $\lambda$와 cumulant ( = expectation parameter) $\mu$는 서로 duality 관계가 있다.

이는 information geometry에서 아주 중요한 개념이다.

 

여기선 cumulant (expectation parameter)의 정의에 대해서만 보고 넘어가자.

 

$\mu := \mathbb{E}_{\theta \sim q_{\lambda}}[T(\theta)] = \nabla A(\lambda)$

 

다시 본론으로 돌아와서, 앞서 언급한대로 $A(\lambda)$는 convex function이고 우리는 이에 대해 bregman divergence를 정의할 수 있다.

즉, 다음과 같이 정의될 것이다.

 

$D_{A(\lambda)}[\lambda, \lambda^{\prime}] := A(\lambda) - ( A(\lambda^{\prime}) - \langle \nabla A(\lambda^{\prime}), \lambda - \lambda^{\prime} \rangle )$

 

약간의 식조작을 거치면 이는 $\lambda$와 $\lambda^{\prime}$을 각각을 natural parmeter로 갖는 두 distribution의 KL-Divergence와 동일함이 증명된다.  

728x90

댓글