목록AI (43)
hojeomi blog
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/VjFpx/btqVTHwZ3Ed/cHs77JqaRb5TQcmvFtCxHK/img.png)
1. Sequential model 소리, 문자열, 주가 등의 데이터 시퀀스 데이터는 독립동등분포(i.i.d.) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 됨 이전 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 조건부확률을 이용할 수 있음 시퀀스 데이터를 다루기 위해서는 길이가 가변적인 데이터를 다룰 수 있는 모델이 필요함 2. Recurrent Neural Network 가장 기본적인 RNN 모형은 MLP와 유사함 RNN은 이전 순서의 잠재변수와 현재의 입력을 활용하여 모델링함 RNN의 역전파는 잠재변수의 연결그래프에 따라 순차적으로 계산함 → Backpropagation Through Time(BPTT) RNN은 시간 순으..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bph2nz/btqVIbZ1dg8/ni0Q1ubPRfp5gQCWi0qPy1/img.png)
0. Intro convolution: 커널에 적힌 값으로 입력값을 계산하는 연산 kernel: 틀 최근 트랜드: 파라미터 갯수를 줄여야 함(어떤 테스트셋에서라도 좋은 결과를 보이기 위해서는 파라미터가 적을수록 좋음) 뒷단의 dense layer를 줄이고 앞단에 convolution layer를 많이 쌓아서 파라미터를 줄이는 것이 트랜드 이를 위해 가장 많이 쓰이고 있는 것이 1x1 convolution 1. 커널 크기 계산 출력크기 = 입력크기 - 커널크기 + 1 예) 28x28 입력을 3x3 커널로 2D-Conv 연산을 하면 26x26 2. Stride 커널로 컨볼루션 연산을 한 번 한 뒤, 몇 칸 이동하는지 예) stride=2: 두 칸 이동 3. Padding 가장자리에 어떤 값을 덧대줌으로써 컨..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/FmwtI/btqVCccSm4G/fK76epCnPwKxW3nyfrH800/img.png)
1. Convolution 연산 convolution 연산은 커널(kernel)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조 모든 i에 대해 적용되는 커널은 V로 같고 커널의 사이즈만큼 x 상에서 이동하면서 적용함 convolution 연산의 수학적인 의미는 신호(signal)를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링 하는 것 CNN에서 사용하는 연산은 사실 convolution이 아니고 cross-correlation이라고 부름 커널은 정의역 내에서 움직여도 변하지 않고(translation invariant) 주어진 신호에 국소적(local)으로 적용함 커널 작동 원리 참고 www.youtube.com/watch?v=RLlI9q6Uojk
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dfCTK2/btqVnYurlMS/VPutTY6MTpzbnHMrXZSKM1/img.png)
1. 최적화의 중요한 컨셉들 Generalization Under-fitting vs Over-fitting Cross validation Bias-variance tradeoff Bootstrapping Bagging and boosting 1-1) Generalization Training error와 Test error의 차이를 줄이는 것 일반적으로 iteration이 커질수록 test error는 다시 커짐 1-3) Cross-validation validation set 없이 test set으로 모델의 성능을 확인하고 파라미터를 수정하면, test set에만 잘 작동함. 즉, test set에 과적합(over-fitting)하게 됨 위 문제의 원인은 test set이 전체 데이터의 일부분으로 '..