Deep dive into Deep learning30 Deep dive into Deep learning Part 25 : Transformer 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 오늘은 트랜스포머 (Transformer)에 대해 설명하고자 한다. Transformer는 Encoder와 Decoder로 이루어져 있으며 각각이 N개로 쌓인 구조를 하고 있다. 위 그림에서 좌측이 Encoder이고 우측이 Decoder이며 각각 $N_x$개 쌓여있는 구조이다. ( Original Transformer인 'Attention is all you need'에서는 $N_x = 6$이다.) 각 Encoder의 결괏값이 그 다음 Encoder의 input으로 들어가며, 맨 마지막 Encoder의 결괏값이 입력 데이터 (eg : 문장)에 대한 representation vector이고 이 값이 '모든' D.. 2023. 6. 24. Deep dive into Deep learning part 24 : RNN(5) 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 오늘부터 두 번에 걸쳐 Transformer에 대해서 이야기를 하고자 한다. 현재 Transformer는 다양한 분야에서 딥러닝 모델의 backbone 역할을 하고 있으며, 가장 많이 사용되는 architecture 중 하나이다. 이 모델의 시작은 NLP에서 '기계 번역' 쪽이었으며 현재는 NLP 뿐만이 아니라 비전, 그래프, 생성 등 딥러닝의 전반적인 영역에 걸쳐서 사용되어지고 있다. Transformer를 처음 발표한 논문은 'Attention is all you need' (Neurips 2017) 논문이었고 이 논문의 제목에서 알 수 있듯이 'Attention'이라고 하는 메커니즘에 기반한 모델이다. 여.. 2023. 6. 16. Deep dive into Deep learning part 23 : RNN (4) "모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다." 오늘은 NLP 관련 Task 중에서 Machine translation (기계번역)에 대한 이야기를 하고자 한다. RNN은 총 5편의 글이 계획되어져 있고, 오늘 4번째 글은 기계번역 TASK에 관련된 모델인 Seq2Seq에 대해 이야기하고, 다음 글에서는 Attention mechanism, Trasnformer에 대해 이야기하는 것으로 RNN 시리즈를 마무리할 것이다. 그리고 마지막으로 GAN에 대해 1~2편의 글을 게시한 이후 Deep dive into deep learning 시리즈는 마무리 될 예정이다. Machine translation을 생각해보자. 아마 네이버 파파고나 구글 번역기 등 많이 이.. 2023. 6. 4. Deep dive into Deep learning part 22 : RNN(3) 모바일 앱 환경에서는 LATEX 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 오늘은 RNN의 구조와 내부 연산들에 대해 알아보도록 하자. Recurrent Neural network (RNN)는 위 구조처럼 Hidden node가 방향을 가진 edge로 연결돼 순환구조를 이루고 있다. 우측 그림을 통해 살펴보자. $x_{t-1}, x_t, x_{t+1}$은 시점 $t-1, t, t+1$에 들어오는 input이다. RNN은 음성, 문자처럼 순서가 있는 데이터 (sequential data) 처리에 능숙한데 그 이유는 위와 같이 시간 순서에 따라 들어오는 데이터를 순차적으로 처리할 수 있기 때문이다. $t$ 시점에 데이터 $x_{t}$가 들어오면 이것은 matrix $U$를 통해 hidde.. 2023. 5. 31. Deep dive into Deep learning part 21 : RNN (2) 모바일 앱 환경에서는 latex 수식이 깨져 나타나므로 가급적 웹 환경에서 봐주시길 바랍니다. 오늘은 본격적으로 RNN에 들어가보도록 하자. 우선 이를 위해 워드 임베딩과 가장 대표적인 모델인 Word2Vec에 대해서 이야기하고자 한다. Word embedding은 단어를 벡터로 변환하는 방법을 이야기하며 여기서의 벡터는 dense vector를 의미한다. 먼저 Sparse vector, Dense vector에 대해 이야기하자. 우리가 이미지 분류에서 라벨링을 할 때 가장 대표적인 방법이 '원핫인코딩', 즉 one-hot vector로 변환하는 것이었다. 여기서 one-hot vector는 하나의 성분만 $1$이고, 나머지 모든 성분은 $0$인 벡터를 의미한다. 만약, 이미지 분류에서 사진이 고양이 사.. 2023. 5. 26. 이전 1 2 3 4 5 6 다음