deep learning31 Optimization 심화 : Noise에 대하여 (1) 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 오늘부턴 stochastic gradient의 중요한 특징 중 하나인 'Noise'에 대해서 살펴보고자 한다. 'Deterministic' gradient descent는 모든 data를 활용해서 계산된 loss와 gradient이기 때문에 우리는 이를 효율적으로 대체하기 위해 매 iteration마다 data의 일부를 (random) sampling해서 'mini-batch'를 활용하여 gradient를 계산한다. 당연히 이는 가장 가파른 하강방향 (Deterministic 'Negative' gradient)과 차이가 있을 수밖에 없고 이 차이를 만드는 요소가 noise이다. noise는 다음과 같은 ter.. 2023. 11. 21. Optimization 심화: Iterative Complexity 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 지난 번 글에서는 convergence type 3가지를 소개하였다. 첫 번째는 in-Expectation bound, 두 번째는 with a probability bound, 세 번째는 Almost sure bound이다. 각각 의미가 있지만, 이들 사이에는 중요한 차이점이 존재한다. with a probability bound는 구체적으로 low probability와 high probability로 나뉘어져 있고, in-Expectation bound는 concentration inequality (e.g. Markov inequality) 를 사용하면 low probability bound로 쉽게 바꿀 .. 2023. 11. 13. Deep learning 심화 : Information geometry for deep learning 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 먼저 'Manifold'에 대해서 알아보자. $n$-dimension의 Manifold란 '점의 집합'이다. 하지만 그냥 단순히 점의 집합이 아니라, 각각의 점들이 그 이웃과 $n$-dimensional Euclidean space를 형성하는 점들의 집합이다. 즉, 국소적으로는 (locally) Euclidean space와 매우 닮아있는 topological space이지만 전역적으로는 (globally) 전혀 다른 형태의 topology이다. 이를 (locally) homeomorphism이라고 한다. Manifold는 "locally equivalent to an $n$-dimensional Euclide.. 2023. 10. 10. Deep learning (심화) : Information geometry for Deep Learning 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 현대 딥러닝의 시작으로 알려져 있는 모델인 'Perceptron'은 가장 단순한 선형 분류기이다. 퍼셉트론은 선형 연산만으로 이루어진 모델이기 때문에 선형 분류만이 가능하였다. 이는 XOR 문제를 해결할 수 없는 치명적인 한계가 있었고, 결국 AI winter를 불러왔다. Lienar separator를 Non-linear separator로 확장시키기 위해 Support Vector Machine (SVM)이 취한 방법은 data space (Input space)를 Feature space로 mapping할 때 비선형변환 Feature map $\Phi()$를 사용하는 것이었다. 이는 현재 Kernel ma.. 2023. 10. 5. Optimization 심화 : Distributed learning (local SGD) 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 이번 글에서는 Distributed learning ( Federated learning)으로 유명한 Local SGD 개념에 대해 간략하게 살펴보고자 한다. 이를 살펴보는 이유는 다음에 올릴 글의 주제가 Mini-batch SGD와 Local SGD를 'Random reshuffling' 상황에서 둘의 convergence를 비교하는 내용이기 때문이다. 먼저 간단한 용어들을 살펴보자. Federated learning의 정의는 다음과 같다. "Federated learning is a machine learning problem setting where multiple clients collaborate in.. 2023. 9. 14. 이전 1 2 3 4 ··· 7 다음