본문 바로가기

Deep Learning/CNN10

[Fast RCNN] https://blog.naver.com/laonple/220776743537 [Part Ⅴ. Best CNN Architecture] 8. ResNet [4], Fast-RCNN - 라온피플 아카데미 - Part I. Machine Learning Part V. Best CNN Architecture Part VII. Semantic Segmentat... blog.naver.com - ROI를 먼저 잡고, CNN을 돌리며, 그 ROI를 그대로 projection해서, 그 안에서 ROI pooling layer(SPP Net에서 한 pyramid와 같은 방식)를 적용한다. - 마지막에 classifying을 위한 softmax와, object class의 위치를 출력하기 위한 bbox(bounding .. 2021. 9. 23.
[SPPNet] Spatial Pyramid Pooling (대충봄) SPPNet에서 나온 아이디어 - RCNN이 AlexNet을 이용하다 보니, 이미지 크기를 제한시켜야 한다는 단점이 있었다. - selective search를 통해 2000개의 후보 영역을 찾고, 그것을 224 224로 바꿔야 했는데, 그 과정에서 이미지 왜곡이 심해 정보가 많이 손상되었다. - SPPNet에서는, 이미지 크기는 그대로 두고, Conv Layer 거치게 하고, 그 다음에 SPP(Spatial Pyramid Pooling)을 거쳐 FCL(Fully connected Layer) 로 들어갈 때 크기를 맞춰주게 하였다. 방법 기존 RCNN방식 이미지 -> selective search : 2000개의 영역 -> 224x224로 resize -> 각 영역에 CNN돌리기(시간↑) -> FCL에 .. 2021. 9. 22.
CNN 특징 세세한 부분 1. Stride 적용 (해상도 줄이기) - Stride는 입력 영상의 크기가 큰 경우, 연산량을 줄이기 위한 목적으로 입력단과 가까운 쪽에서만 적용을 한다. ((Stride==1) + pooling) vs stride 3,4,5, ... - stride==1이면 경계가 아닌 모든 입력 영상에 대해 convolution 연산을 수행하고, pooling을 하면서 값을 선택적으로 고를 수가 있지만, stride를 크게 하면 그런 선택의 기회가 사라진다. 그래서 통상적으로는 stride 1을 하면서 pooling을 통해 적절한 sub-sampling 과정을 거치는 것이 결과가 좋다. - 그러나 AlexNet에서는 연산량을 줄이기 위해 stride를 크게 했다. (그래픽카드가 그때는 구졋다.. 심지어 2개를 썼.. 2021. 9. 22.
1x1 convolution https://blog.naver.com/laonple/220692793375 [Part Ⅴ. Best CNN Architecture] 5. GoogLeNet [2] - 라온피플 머신러닝 아카데미 - Part I. Machine Learning Part V. Best CNN Architecture Part VII. Semantic Segmentat... blog.naver.com - 차원을 줄이는 역할. - kernel이 1x1 즉, 한 픽셀이라는 것임. - 여러개의 feature-map으로부터 비슷한 성질을 갖는 것을 묶어낼 수 있다. - feature-map의 숫자를 줄일 수 있다. - 연산량을 줄일 수 있다. - 망을 더 깊게 구성할 수 있게 된다. 이는, fully connected layer 와.. 2021. 9. 22.
QnA 1. Cross Entropy가 MSE보다 좋은 이유 - MSE같은 경우는, sigmoid 함수와 같은 활성함수와 같이 사용하면, Gradient Descent 과정에서 편미분을 할 경우 sigmoid의 특성으로 인해 미분값이 거의 0에 가까워 update가 조금씩밖에 되지 않아 학습속도가 느린 문제가 발생. - Cross Entropy의 경우는 이런 문제가 발생하지 않음. 학습속도 저하원인 Cross Entropy 2. 4x4, 5x5 보다 3x3을 쓰면 non linearity가 더 추가된다고 한다. 왜? - 그리고, 3x3 두개를 쌓으면 5x5 역할을 한다고 한다. 왜? : output 이미지 크기가 그렇게 됨. - 아.. 커널을 거친다음에 activation function을 적용하는데, 이렇게되.. 2021. 9. 22.
Keywords 1. Cost Function 2. Activation Function 3. Batch Normalization 4. Drop Out 5. Vanishing Gradient 6. Initialization 7. Optimizer 2021. 9. 19.