모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다.
Manifold $M$의 두 점 $P$, $Q$를 생각해보자. 그리고 각각의 좌표는 $\xi_p$, $\xi_q$라고 하자.
$P$와 $Q$의 Divergence는 $\xi_p$와 $\xi_q$의 함수로 볼 수 있는데 특정한 조건을 만족하는 함수여야 한다.
즉, Divergence는 다음과 같이 정의할 수 있다.
$D[P:Q]$는 다음의 조건을 만족할 때 divergence라고 한다
1. $D[P:Q] \ge 0$.
2. $D[P:Q] = 0$ $i.f.f.$ $P=Q$.
3. $P$와 $Q$가 충분히 가까울 때, 즉, $\xi_q$가 $\xi_p + d \xi$로 정의될 때, Talyor expansion은 다음과 같이 정의되고, 이때 행렬 $G = (g_{ij})$는 Positive-definite matrix여야 한다.
$D[\xi_p : \xi_p + d\xi] = \frac{1}{2} \sum g_{ij} (\xi_p) d\xi_i d\xi_j + \mathcal{O}(|d\xi|^3)$
Divergence는 거리는 아닌데 대칭성이 성립하지 않기 때문이다.
즉,
$D[P:Q] \neq D[Q:P]$
이다.
또한, 삼각부등식도 성립하지 않는다.
하지만, Divergence의 asymmetry한 성질은 information geometry에서 중요한 역할을 한다.
가장 대표적인 Divergence인 Kullbeck-Leibler Divergence는 위 조건을 전부 만족한다.
$D_{KL}[p(x, \theta^{\prime}) : p(x, \theta)] = \int p(x, \theta^{\prime}) \log \frac{p(x, \theta^{\prime})}{p(x, \theta)}$
우리가 오늘 살펴볼 Divergence는 Bregman Divergence이다.
Bregman divergence는 Convex function에 대해서 많이 사용되어지는 divergence 중 하나인데, 다음과 같이 정의된다.
우리는 (미분 가능한) convex function $f$에 대해 임의의 한 점에서의 tangent hyper-plane을 생각해볼 수 있다.
$z = f(x_0) + \langle \nabla f(x_0), x - x_0 \rangle$
$f$가 convex function이므로 $z$는 항상 $f$ 아래에 있다. (convex 정의)
그러면 $f$의 정의역에 포함되는 모든 점들에서 우리는 $f$와 $z$ 사이의 거리를 생각해볼 수 있다.
$D_f[x x_0] = f(x) - (f(x_0) + \langle \nabla f(x_0), x - x_0 \rangle)$
이것이 $f$에 대한 두 점의 Bregman divergence 정의이다.
이것은 앞선 'Divergence'의 조건 3가지를 만족한다.
(Convex function에서만 bregman divergence가 정의되는 이유도 1번 조건 때문이다.)
지수족 분포 (Exponential family) 에 대해서 생각해보자.
다음과 같이 probability function이 표현될 수 있으면 우리는 이를 지수족 분포라고 한다.
(대다수 유명한, 알려진 분포들은 지수족 분포에 포함된다.)
$q_{\lambda}(\theta) = \exp (\langle \lambda, T(\theta) \rangle - A(\lambda))$
여기서 $\lambda$는 'natural parameter', $T(\theta)$는 'sufficient statistics', $A(\lambda)$는 log-partition function이라고 부른다.
$ \exp (A(\lambda)) $가 하는 역할은 위 함수가 확률분포함수가 될 수 있도록 해주는데 즉, 다음의 조건을 만족하도록 해준다.
$\int q_{\lambda}(\theta) = 1$.
바꿔 말하면, $A(\lambda)$는 다음과 같이 표현할 수 있다.
$A(\lambda) := \log \int \exp \{\langle \lambda, T(\theta) \rangle \}$
자, 우리가 만약 $\lambda$가 coordinate 역할을 하는 $M = \{ q_{\lambda}(\theta) \}$인 manifold를 생각해본다면 위 $A(\lambda)$를 2번 미분하면 그것의 Hessian이 positive-definite이란 것을 증명할 수 있고, 이 말은 $A(\lambda)$는 convex function이라는 의미이다.
추가적으로 $A(\lambda)$를 log-partition function 또는 cumulative generating function이라고도 하는데, 이 함수를 한 번 미분하면 cumulant 값을 얻을 수 있기 때문이다. 이 또한 manifold 상에서 좌표로 쓰일 수 있다.
그리고 추후 다루겠지만, natural parameter $\lambda$와 cumulant ( = expectation parameter) $\mu$는 서로 duality 관계가 있다.
이는 information geometry에서 아주 중요한 개념이다.
여기선 cumulant (expectation parameter)의 정의에 대해서만 보고 넘어가자.
$\mu := \mathbb{E}_{\theta \sim q_{\lambda}}[T(\theta)] = \nabla A(\lambda)$
다시 본론으로 돌아와서, 앞서 언급한대로 $A(\lambda)$는 convex function이고 우리는 이에 대해 bregman divergence를 정의할 수 있다.
즉, 다음과 같이 정의될 것이다.
$D_{A(\lambda)}[\lambda, \lambda^{\prime}] := A(\lambda) - ( A(\lambda^{\prime}) - \langle \nabla A(\lambda^{\prime}), \lambda - \lambda^{\prime} \rangle )$
약간의 식조작을 거치면 이는 $\lambda$와 $\lambda^{\prime}$을 각각을 natural parmeter로 갖는 두 distribution의 KL-Divergence와 동일함이 증명된다.
'Deep dive into Deep learning' 카테고리의 다른 글
Optimization 심화 : Random process (5, Stochastic process) (0) | 2024.01.07 |
---|---|
Deep learning 심화 : information geometry for deep learning (4) (1) | 2023.10.28 |
Deep learning 심화 : Information geometry for deep learning (0) | 2023.10.10 |
Deep learning (심화) : Information geometry for Deep Learning (0) | 2023.10.05 |
Deep dive into Deep learning Part 25 : Transformer (0) | 2023.06.24 |
댓글