본문 바로가기
  • Deep dive into Learning
  • Deep dive into Optimization
  • Deep dive into Deep Learning
Deep dive into Deep learning

Deep learning 심화 : Information geometry for deep learning

by Sapiens_Nam 2023. 10. 10.

 

 

모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다.

 

먼저 'Manifold'에 대해서 알아보자.

 

$n$-dimension의 Manifold란 '점의 집합'이다.

하지만 그냥 단순히 점의 집합이 아니라, 각각의 점들이 그 이웃과 $n$-dimensional Euclidean space를 형성하는 점들의 집합이다. 

즉, 국소적으로는 (locally) Euclidean space와 매우 닮아있는 topological space이지만 전역적으로는 (globally) 전혀 다른 형태의 topology이다.

이를 (locally) homeomorphism이라고 한다.

 

Manifold는 "locally equivalent to an $n$-dimensional Euclidean space" 성질이 있기 때문에 좌표계 (coordinate system)를 도입하여 Manifold 위의 점을 표현할 수 있다.

물론 이 좌표 시스템은 "local" coordinate system이다.

 

$\xi = (\xi_1, \xi_2, \cdots, \xi_n)$

 

 

물론 동일한 점과 그 근방의 이웃의 위치를 표현하는 데 있어서 사용되는 좌표 시스템이 유일하진 않다.

다른 좌표계를 사용할 수도 있다. 

이 개념을 잘 기억해두자.

 

또 다른 좌표 시스템을 아래와 같이 정의하자.

 

$\zeta = (\zeta_1, \zeta_2, \cdots, \zeta_n)$

 

그럼 Manifold 의 동일한 한 점 $P$를 $\xi$, 또는 $\zeta$ 좌표계로 표현할 수 있다는 이야기이다.

하지만 아무런 제약이 없이 좌표계를 임의로 변경할 수는 없다. 

두 좌표계 사이에는 '일대일 대응'이 성립해야 한다. 

그리고 일대일 대응 (one-to-one corresponds)이 성립하기 때문에 이 두 좌표계 사이의 관계를 우리는 함수 $f$와 그 역함수 $f^{-1}$을 사용해서 표현할 수 있다.

즉, 다음이 성립한다.

 

$\xi = f(\zeta_1, \zeta_2, \cdots, \zeta_n)$

$\zeta = f^{-1}(\xi_1, \xi_2, \cdots, \xi_n)$

 

 

즉, 하나의 좌표 시스템에서 다른 좌표 시스템으로의 변환 관계가 일대일 대응이 성립한다는 이야기이다.

 

자, 그렇다면 우리의 원래의 관심 대상이었던 확률 분포들의 공간을 생각해보자.

지금은 입문 단계이므로 조금 더 구체적인 분포, 정규분포를 살펴보자.

다음 글에서 Exponential family로 이를 확장시켜나갈 것이다. 

 

$P(x; \mu, \sigma^2) := \frac{1}{2 \pi \sigma^2} \exp(- \frac{(x - \mu)^2}{2 \sigma^2}$

 

Random variable $x$는 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따른다.

 

앞선 글에서 우리는 확률 분포들의 공간을 상상해보았다. 그리고 이 공간에서 하나의 점은 하나의 확률분포를 표현한다고 이야기했다.

이 공간은 바로 Manifold이다. 그리고 이 공간의 좌표 시스템으로 우리는 다음의 좌표 시스템을 도입할 수 있다.

 

$\xi = (\mu, \sigma)$

 

이 Manifold는 2차원의 Manifold이다. 

그리고 $\mu$와 $\sigma$가 좌표축을 담당하기 때문에 이들의 값이 바뀌면 확률분포도 달라지게 된다.

그리고 $\sigma > 0$인 조건 때문에 구체적으로 정규분포의 Manifold는 "topologically equivalent to the upper half of a $\mathbb{R}^2$이다.

 

자, 그렇다면 앞서 언급한 대로 우린 정규 분포들의 집합인 Manifold의 또 다른 좌표계를 도입할 수 있다.

그것을 다음과 같이 정의해보자. 

 

$\zeta = (m_1, m_2)$

$m_1 := \mathbb{E}[x] = \mu$

$m_2 := \mathbb{E}[x^2] = \mu^2 + \sigma^2$

 

확률/통계를 공부한 사람이라면 상당히 익숙한 표기일 것이다.

그렇다. 1차 moment와 2차 moment이다. 

위 좌표시스템을 통해서도 우리는 하나의 점의 위치를 표현할 수 있고 그 점이 곧 하나의 정규분포를 의미한다.

 

그렇다면 이 2개만 있을까? 아니다. 실제로 Manifold의 좌표시스템은 무수히 많이 존재할 수도 있다.

또 다른 예시를 들어보자. 가우시안 분포의 natural parameter를 활용해서도 좌표시스템을 정의해볼 수 있다.

natural parameter에 대해서는 다음 글에서 (Exponential family, 지수족을 다룰 때) 자세하게 이야기할 것이다.

오늘은 그냥 이런 게 있구나 하자.

 

$\theta = (\theta_1, \theta_2)$

$\theta_1 := \frac{\mu}{\sigma^2}$

$\theta_2 := - \frac{1}{2 \sigma^2}$

 

실제로 Natural parameter는 Exponential family의 특징들을 분석할 때 상당히 유용하게 쓰이는 모수값이다.

Gaussian distribution도 Exponential family에 속하는 분포이기 때문에 Natural parameter가 상당히 유용하게 사용된다.

 

어찌되었든 이처럼 Manifold에 다양한 좌표시스템을 우리는 도입해볼 수 있고 이들 사이에는 전부 one-to-one mapping관계가 성립된다.

 

자, 그러면 하나의 manifold 상의 두 점 $P$, $Q$가 있다고 해보자. 자, 그렇다면 이 두 점 사이의 차이 / 거리는 어떻게 측정할 수 있을까? 이를 우리는 Divergence라고 부른다. 

Manifold의 두 점 사이의 Divergence, 다시 말해 두 확률 분포 사이의 Divergence는 어떻게 측정할 수 있을까?

이에 대해서 앞으로 살펴보도록 하자.

728x90

댓글