본문 바로가기
  • Deep dive into Learning
  • Deep dive into Optimization
  • Deep dive into Deep Learning
Deep dive into Deep learning

Deep learning (심화) : Information geometry for Deep Learning

by Sapiens_Nam 2023. 10. 5.

 

모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다.

 

 

현대 딥러닝의 시작으로 알려져 있는 모델인 'Perceptron'은 가장 단순한 선형 분류기이다.

 

퍼셉트론은 선형 연산만으로 이루어진 모델이기 때문에 선형 분류만이 가능하였다.

이는 XOR 문제를 해결할 수 없는 치명적인 한계가 있었고, 결국 AI winter를 불러왔다.

Lienar separator를 Non-linear separator로 확장시키기 위해 Support Vector Machine (SVM)이 취한 방법은

data space (Input space)를 Feature space로 mapping할 때 비선형변환 Feature map $\Phi()$를 사용하는 것이었다.

이는 현재 Kernel machine으로도 알려져 있다.

 

 

Information geometry는 확률 분포족 (Family of probability distributions)의 기하학적 성질불변성 (Invariance)에 대해서 연구하는 수학 분야이다. 

머신러닝 / 딥러닝을 크게 분류 모형과 생성 모형으로 구별하면 이들을 확률을 써서 표현해볼 수 있다.

분류모형은 입력 $x$에 대해 출력 $y$를 표현하는 조건부 확률 $\mathbb{P}(y|x; \theta)$에 해당된다. 여기서 $\theta$는 이 모델 (확률 모형)의 파라미터를 의미한다. 

생성모형은 주어진 데이터 $x$가 나타날 확률 $\mathbb{P}(x;\theta)$에 해당된다. 확률모형을 이용해서 확률이 높은 $x$를 선택하는 행위가 바로 샘플 생성이 된다. 

 

데이터의 분포 $\hat{P}(x)$가 주어졌을 때 이것에 가장 잘 적합되는 (fitting) 확률모형 $\mathbb{P}(x; \theta)$의 매개변수 $\theta$를 찾는 행위를 우리는 '학습'이라고 부른다.

그런데 이렇게 Neural network를 확률 모형으로 바라본다면 그리고 두 확률 모형 사이의 거리를 줄이는 행위가 필요하다면

우리는 확률 모형들의 공간을 살펴볼 필요가 있다. 

여기서 Information geometry와 Machine learning이 만나게 된다.

 

먼저 이렇게 생각해보자.

확률 분포의 족 (family)이 정의되는 어떤 공간이 있다.

이 공간에서 하나의 점은 곧 특정한 하나의 확률 분포를 의미한다.

그렇다면 우리는 두 확률 분포의 거리를 줄인다는 행위는 하나의 점에서 다른 목표로 하는 최적점으로 이동해야 한다는 의미이다. 즉, 두 점 사이의 거리를 줄여야 한다는 의미이다.

 

우리에게 '거리'는 유클리드 공간에서는 피타고라스 정리가 성립하는 두 점 사이의 거리 공식이 익숙하다.

그런데 확률 모형들의 공간에서도 이러한 거리가 그대로 성립될 수 있을까? 

이번 시리즈에서는 이러한 내용들에 대해서 살펴보고자 한다.

 

즉, 정보기하학과 머신러닝이 어떻게 연결되는지, 그리고 정보기하학이 왜 중요한지를 앞으로 4~5편의 글에서 살펴보고자 한다

 

다음 글에서는 그 시작으로 지수족 (exponential family)에 대해서 이야기하고자 한다.

728x90

댓글