Quantization(양자화) in deep learning
- 딥러닝 모델(lightweight deep learning) 을 경량화 할 때 사용되는 기법 중 하나
- 경량화는 크게 두가지로 나뉨
- 모델의 알고리즘을 재설계
- 모델 구조 변경
- 합성곱 필터 기술
- 경량 모델 자동 탐색
- 기존 모델의 파라미터를 줄임
- Weight Pruning
- Quantazation
- Binarization
- 모델의 알고리즘을 재설계
- **quantization(양자화)**는 기존 모델의 파라미터를 줄이는 기법 중 하나이다.
Quantization(양자화)
목적: Inference Time 을 줄이는 것(Training time 이 아님)
- 모델의 파라미터를 lower bit 로 표현하여, 연산과 메모리 access 속도를 높이는 기법
- 보통 FP 32bit 에서 int 8bit 로 변환하는 방식을 자주 사용
Quantization 장점
- 모델의 size(용량) 축소
- 사용 RAM 메모리 절약
- 예측 속도 개선
- 전력 소비 효율과
Quantization 단점
- accuracy 저하
- 기존 모델보다 성능은 떨어지는 것을 감안하고, 양자화 진행
Quantization 종류
- Post Training Quantization
- Train 후 quantize
- Quantiation Aware Training
- Train 중 quantize
참고
'Deep-Learning > CNN' 카테고리의 다른 글
Quantization 기법 (0) | 2022.07.05 |
---|