최근 포스트

Weight Initialization

3 분 소요

Pytorch나 Keras를 사용하여 딥러닝 모델을 만들다보면 어떤 타입의 레이어를 쓸지, 또 레이어의 차원은 어떻게할지, 배치 사이즈는 어떻게 할지 등 하이퍼파라미터 세팅 위주로 신경쓰게 된다. 정작 중요한 파라미터, 즉 실제로 학습이 되는 벡터들은 어떻게 초기화해야할지 신경 안...

Bias-Variance Trade-off, Revisited

3 분 소요

면접 스터디를 하다가 머신러닝의 기본 중에 기본인 bias-variance trade-off 얘기가 나왔다. 그런데 갑자기 든 생각이 최신 딥러닝 모델들도 이 trade-off를 갖고 있는지? 였다. 무엇보다 이전에 케라스를 만든 사람이 쓴 트윗인가 아니면 저서 에서 이 trade...

Data Structure Study (1) Array

3 분 소요

체계적으로 알고리즘 공부를 해 보기로 마음먹었다. 우선 가장 기본이 되는 데이터 구조부터 정리하기로 했다. 프로그래머스와 백준 허브로 코딩 테스트 대비 데이터 구조 관련 문제들을 풀어왔긴 했는데, 복잡도와 로직을 정리할 겸 LeetCode의 Data Structures and Al...

정규화?

3 분 소요

머신러닝, 딥러닝계에서 normalization, standardization, regularization은 대개 정규화라는 용어로 번역이 되기 때문에 개인적으로 각각의 개념과 쓰임이 헷갈리기도 했다. 그래서 한번 정리해 봤다.

torch RNN/LSTM/GRU의 output과 hidden

4 분 소요

torch.nn.RNN torch.nn.LSTM torch.nn.GRU은 forward의 결과물로 두 벡터를 돌려준다. pytorch의 공식 doc에 의하면 output과 h_n인데, 만드는 모델, 과제에 따라 사용해야 하는 벡터가 다르다. 지금까지 주로 huggingface 라이...

torch.gather 직관적으로 이해하기

3 분 소요

얼마 전 torch에서 말하는 dimension에 대해 다루는 포스트에서 gather 함수를 예시로 다뤄보았다. 사실 2차원을 대상으로 torch.gather을 적용하는 것은 직관적으로 이해가 되나, 3차원 이상 텐서에 적용하려면 dim 값은 어떻게 해야할지, index는 어떻게 ...

pytorch 연산 적용 차원(dimension) 이해

1 분 소요

Pandas나 Pytorch에서는 연산을 적용할 차원(dimension)을 명시해야 하는 함수들이 있다. 그런데 차원을 잘못 명시해 에러가 나거나, (최악의 경우) 잘못된 결과를 얻어놓고 넘어가는 경우가 왕왕 있다.