QnA

1. Cross Entropy가 MSE보다 좋은 이유

- MSE같은 경우는, sigmoid 함수와 같은 활성함수와 같이 사용하면, Gradient Descent 과정에서 편미분을 할 경우 sigmoid의 특성으로 인해 미분값이 거의 0에 가까워 update가 조금씩밖에 되지 않아 학습속도가 느린 문제가 발생.

- Cross Entropy의 경우는 이런 문제가 발생하지 않음.

학습속도 저하원인

Cross Entropy

2. 4x4, 5x5 보다 3x3을 쓰면 non linearity가 더 추가된다고 한다. 왜?

- 그리고, 3x3 두개를 쌓으면 5x5 역할을 한다고 한다. 왜? : output 이미지 크기가 그렇게 됨.

- 아.. 커널을 거친다음에 activation function을 적용하는데, 이렇게되면 두번 적용하게 되는거니까..

3. DropOut은 과적합 방지 뿐만 아니라, Vanishing Grad도 해결하나?

4. Padding 하게되면 장점은?

- 이미지 가장자리에 대한 정보를 놓치지 않을 수 있다.

5. 각 Layer마다 input의 분포가 달라지면 왜 학습속도가 현저히 느려지나?

6. AlexNet에서 Overlapped pooling 한 이유 : overfitting 가능성 낮췄다는데, 왜?

7. Cross Entropy 는 왜 MSE에서 Sigmoid를 썼을 때 학습속도가 느린것을 해결할 수 있나?(수식적으로)

8. 망이 깊어진다는 것의 의미와 학습 parameter 수가 많아진다는 것의 의미

- 망이 깊어지면 문제해결능력, 즉, 학습 능력이 증가한다고 한다.

- 1x1 conv와 같은 방식을 사용하여, 망이 깊더라도, param 수를 줄일 수 있다. 즉, channel 수가 작으면 망이 깊어도 학습 parameter가 적어서 연산량 많지 않다.

9. ResNet에서 F(x) = 0을 만드는게 목표인데, 이렇게 하면, 입력의 작은 움직임(fluctuation)을 검출하기 쉬워진다는데, 이게 무슨소리?

10. 왜 연산량을 맞춰야함? (이미지 사이즈가 작아지면 연산량을 맞추기 위해 채널수를 증가시킨다)

11. 왜 ResNet에서는 2n개의 같은 채널수를 갖는 층을 2n개로 만들었나? 2n+1은 안됨?

12. VGG 모델의 장점

- 3x3의 작은 크기의 kernel을 사용함으로써 conv의 장점을 잘 살렸고, 뒷딴의 weight들은 input data의 넓은 범위의 특징을 잘 추출하게 됨.

Q. 왜 3x3 kernel을 사용하면 conv 장점을 잘 살리게 됨? conv 장점이 뭐임? 위치정보를 잃지 않는것 아닌가? 그러면 왜 3x3이 이것에 도움이 되는가?

Q. 넓은 범위의 특징을 추출한다는 것은 어떤 의미인가? convolution의 개념을 정확하게 이해해야한다.

13. MLP를 얼마나 해야되나... feature extractor 얼마나 해야하나...

'Deep Learning > CNN' 카테고리의 다른 글

CNN 특징 세세한 부분 (0)	2021.09.22
1x1 convolution (0)	2021.09.22
Keywords (0)	2021.09.19
Hyper Parameters (0)	2021.09.18
[퍼옴] CNN의 parameter 개수와 tensor사이즈 계산하기 (0)	2021.09.03

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

꿈꾸는 다락방

QnA

1. Cross Entropy가 MSE보다 좋은 이유

2. 4x4, 5x5 보다 3x3을 쓰면 non linearity가 더 추가된다고 한다. 왜?

3. DropOut은 과적합 방지 뿐만 아니라, Vanishing Grad도 해결하나?

4. Padding 하게되면 장점은?

5. 각 Layer마다 input의 분포가 달라지면 왜 학습속도가 현저히 느려지나?

6. AlexNet에서 Overlapped pooling 한 이유 : overfitting 가능성 낮췄다는데, 왜?

7. Cross Entropy 는 왜 MSE에서 Sigmoid를 썼을 때 학습속도가 느린것을 해결할 수 있나?(수식적으로)

8. 망이 깊어진다는 것의 의미와 학습 parameter 수가 많아진다는 것의 의미

9. ResNet에서 F(x) = 0을 만드는게 목표인데, 이렇게 하면, 입력의 작은 움직임(fluctuation)을 검출하기 쉬워진다는데, 이게 무슨소리?

10. 왜 연산량을 맞춰야함? (이미지 사이즈가 작아지면 연산량을 맞추기 위해 채널수를 증가시킨다)

12. VGG 모델의 장점

13. MLP를 얼마나 해야되나... feature extractor 얼마나 해야하나...

'Deep Learning > CNN' 카테고리의 다른 글

댓글

티스토리툴바

QnA

1. Cross Entropy가 MSE보다 좋은 이유

2. 4x4, 5x5 보다 3x3을 쓰면 non linearity가 더 추가된다고 한다. 왜?

3. DropOut은 과적합 방지 뿐만 아니라, Vanishing Grad도 해결하나?

4. Padding 하게되면 장점은?

5. 각 Layer마다 input의 분포가 달라지면 왜 학습속도가 현저히 느려지나?

6. AlexNet에서 Overlapped pooling 한 이유 : overfitting 가능성 낮췄다는데, 왜?

7. Cross Entropy 는 왜 MSE에서 Sigmoid를 썼을 때 학습속도가 느린것을 해결할 수 있나?(수식적으로)

8. 망이 깊어진다는 것의 의미와 학습 parameter 수가 많아진다는 것의 의미

9. ResNet에서 F(x) = 0을 만드는게 목표인데, 이렇게 하면, 입력의 작은 움직임(fluctuation)을 검출하기 쉬워진다는데, 이게 무슨소리?

10. 왜 연산량을 맞춰야함? (이미지 사이즈가 작아지면 연산량을 맞추기 위해 채널수를 증가시킨다)

12. VGG 모델의 장점

13. MLP를 얼마나 해야되나... feature extractor 얼마나 해야하나...

'Deep Learning > CNN' 카테고리의 다른 글

관련글

댓글

티스토리툴바