Altiora Petamus
EfficientNet 본문
abstract
CNN은 일반적으로 고정된 리소스 예산으로 개발된 다음 더 많은 리소스를 사용할 수 있는 경우 더 나은 정확도를 위해 확장된다.
본 논문에서는 모델 확장을 체계적으로 연구하고 네트워크 깊이, 폭 및 해상도의 균형을 주의 깊게 조정하면 성능이 향상될 수 있음을 식별한다. 이러한 관찰을 기반으로 단순하면서도 매우 효과적인 복합 계수를 사용하여 깊이/폭/해상도 모든 차원을 균일하게 스케일링하는 새로운 스케일링 방법을 제안한다. 우리는 MobileNet 및 ResNet 확장에 이 방법의 효과를 입증한다. 더 나아가기 위해neural architecture search 을 사용하여 새로운 기본 네트워크를 설계하고 이를 확장하여 이전 ConvNet보다 훨씬 나은 정확성과 효율성을 달성하는 EfficientNets라는 모델 제품군을 얻는다. 특히, EfficientNet-B7은 ImageNet에서 최첨단 84.3%의 상위 1위 정확도를 달성하는 동시에 최고의 기존 ConvNet보다 추론 속도가 8.4배 작고 6.1배 빠르다. 또한 EfficientNets는 훨씬 적은 매개 변수를 사용하여 CIFAR-100(91.7%), 꽃(98.8%), 기타 3개의 전송 학습 데이터 세트에서 잘 전송되고 최첨단 정확도를 달성한다.
요약
- 모델의 깊이, 폭, 해상도를 조정하여 scaling up한다. -> efficientnet
- efficientnet b7은 가장 효과적이고 빠른 모델
Introduction
- ConvNet의 성능을 높이기 위해 scaling up은 널리 쓰임
- ex) ResNet은 더 많은 층을 사용하여 (깊이를 깊게 하여) ResNet-18에서 ResNet-200까지 성능을 향상시킴
- ex) Gpipe 는 기준 모델을 4배 더 크게 확장하여 ImageNet top-1 accuracy를 84.3%까지 달성 - 하지만 ConvNet을 확장하는 프로세스는 아직 제대로 연구되지 않았음 - scaling up은 주로 쓰이지만 이에 대한 근거나 추가적인 연구가 부족
- 크게 3가지의 scaling up 방식 존재 -
1) depth
2) width
3) resolution of input image - 이전의 scaling up방식은 각각 1개의 방식만 적용하는 것이 일반적이나 이 논문에서는 이 방식들의 최적의 조합을 찾아냄.
- 네트워크 폭, 깊이 , 해상도의 모든 차원의 균형을 맞추는 것이 매우 중요 - 각 차원을 일정한 비율로 확장하기만 하면 달성 가능


위 그림은 이 논문에서 달성하고자 하는 compound scaling을 다른 방법들과 비교하기 위해 제시된 사진
compund Model Scaling
compund Model Scaling
- Depth(d)
- 가장 흔한 scale up 기법이며 깊은 망은 더 높은 성능을 내는 것은 흔히 알려진 방법
- 망을 계속해서 깊게 쌓기만 하는 것은 한계가 있다. - skip connection, batch normalization 등의 기술에도 불구하고 vanishing gradient problem등의 훈련 문제가 발생함.
- 예시로 ResNet-1000은 ResNet-101과 비슷한 성능을 내었다. - Width(w)
- 보통 small size models이 width를 scaling 한다.
- width를 넓게 할수록 fine grained feature를 더 많이 capture한다.
- 하지만 넓기만 하고 얕은 모델은 high level features를 capture하기 어렵다. - Resolution(r)
- 해상도가 더 높은 모델을 input image로 사용할 수록 fine grained pattern 을 더 잘 잡는다. ex) Gpipe는 600x600의 해상도를 이용하여 sota를 달성
- 실제로 해상도가 높은면 정확도가 향상되지만 , 매우 높은 해상도에 대해서는 정확도 이득이 감소
- 요약 : 네트워크 폭, 깊이, 해상도의 모든 차원을 확장하면 정확도가 향상되지만 대향 모델의 경우 정확도가 저하됨


alpha, beta , gamma는 grid search 를 통해 찾는다.
이러한 방법을 근거로 기본 모델인 B0라고 한다. (아래 이미지)

b0를 시작으로 compound efficient 를 고정한 채로 alpha , beta , gamma를 찾는다 .
찾아진 값들을 기준으로 compound efficient를 조정하여 모델을 안정화 한다.
이러한 방법으로 b1~ b7생성 (아래 이미지)

experiment
이 논문에서 이용한 compound scaling이 타당한 방법인지 증명하기 위해 MobileNet과 ResNet에도 적용 한 모습 (아래 이미지)

'SSAC X AIffel > 논문 읽기' 카테고리의 다른 글
DEFT (0) | 2021.05.24 |
---|---|
pointRCNN (0) | 2021.05.24 |
gpt2 (0) | 2021.05.24 |
MobileDets (0) | 2021.05.24 |
UPSNet (0) | 2021.05.24 |