본문 바로가기
  • Deep dive into Learning
  • Deep dive into Optimization
  • Deep dive into Deep Learning

optimization22

Deep dive into Optimization : Mirror descent (2) 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 오늘부터는 본격적으로 Mirror descent에 대한 글을 시작하고자 한다. 예전 Gradient descent 챕터에서 이야기하였듯이 Gradient descent는 objective function $f(x)$를 First-order approximation한 함수를 최소화하는 알고리즘이다. RHS의 $f(x_t) + \langle \nabla f(x_t), x - x_t \rangle$이 First-order approximation이고 $\frac{1}{2} \lVert x - x_t \rVert^2$는 First order approximation의 오차가 매우 커지는 것을 방지하기 위해 $x$가 $.. 2023. 5. 27.
Deep dive into optimization : Convex optimization (Updated) 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로, 가급적 웹 환경에서 봐주시길 바랍니다. 그동안 우리는 Gradient descent부터 시작하여, Momentum, Adam 등의 딥러닝에서 많이 쓰이는 First-order optimizer와 Newton's method, Natural gradient descent 두 대표적인 Second-order optimizer를 다뤄왔다.이제 본 포스팅의 메인 주제인 'Convex optimization'으로 다시 돌아가자. https://kyteris0624.tistory.com/18 Deep dive into optimization: Convexity"모바일 앱 환경에서는 latex 수식이 깨져 나타나므로, 가급적 pc 웹 환경에서 읽어주시기 바랍니.. 2023. 5. 9.
Deep-dive into Optimization : Second-order method - Updated 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로, 가급적 웹 환경에서 봐주시길 바랍니다. 이번 글과 다음 글에서는 Fisher information matrix를 활용한 알고리즘 'Natural gradient descent에 대해 이야기하고자 한다. 오늘은 Fisher information matrix를 설명하고, 다음 글에서는 이를 활용한 최적화 알고리즘 Natural gradient descent를 이야기하고자 한다.* 본 내용은 Hogg 저. 'Introduction to mathematical statistics' 를 활용하였다.  우선, Fisher information matrix에 대해 알아보자. 여기서 말하는 'Fisher information' (피셔 정보) 란 무엇일까?파라미터.. 2023. 4. 30.
Deep dive into Optimization: Second-order method - Updated "모바일 앱 환경에서는 latex 수식이 깨져 나타나므로, 가급적 웹 환경에서 봐주시길 바랍니다."  오늘은 지난 글에 이어 2차 미분 정보를 활용한 최적화, Second-order method 두 번째 글이다.그 중 Hessian matrix를 이용한 Newton's method에 대해 살펴보고자 한다. 먼저 다음과 같은 optimization problem을 생각해보자. 표기를 최대한 simple하게 하기 위하여, 위와 같이 표현하였다.여기서 $\theta$는 파라미터이고 $f(\theta)$는 objective function이다. First-order optimizer는 위 $f(\theta)$를 1차 근사한 함수를 최소화하는 방법으로 알고리즘을 유도하였다. (물론, First-order taly.. 2023. 4. 25.
Deep dive into Optimization: Second-order method - Updated 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로, 가급적 웹 환경에서 봐주시길 바랍니다. 이번 포스팅 글부터는 2차 미분을 이용한 optimization algorithm에 대한 설명을 진행하고자 한다.지난 시간까지는 (Stochastic) gradient descent로 1차 미분인 gradient를 활용한 파라미터 업데이트 방법들에 대해살펴보았고, 오늘부턴 2차 미분을 활용한 딥러닝 학습 알고리즘에 대해 살펴보고자 한다.  * Hessian matrix (헤시안 행렬) 우선, 다변수 함수 $f : \mathbb{R}^n \rightarrow \mathbb{R}$ 의 2차 미분이 어떻게 나오는지 알아보도록 하자.다변수 함수를 한 번 미분한 gradient는 vector이다. 다변수 함수를 두 번.. 2023. 4. 19.