Quantization 기법
Post Training Quantization
1. Dynamic Quantization (동적 양자화)
- 사전에 Weight(가중치) 를 양자화
- inference 시점에 동적으로 activation을 양자화
- activation 을 FP로 저장해놓고, inference 시점에서 quantize를 진행하고 완료 후 dequantize
장점
- 메모리 로딩 속도 개선
- 연산속도 향상이 미비할 수 있음(inference kernel 연산이 추가 되기 때문)
2. Static Quantization (정적 양자화)
- 사전에 Weight(가중치)와 activation 모두 양자화
- context-switching overhead 감소시키기 위해 activation과 그전 단계의 layer를 합치는 fusion 수행
Quantization-aware training
- Training 중에 Weight(가중치)와 activation 모두 양자화
- fake-quantization modules과 fake-quantization nodes를 양자화가 진행되는 부분에 추가
'Deep-Learning > CNN' 카테고리의 다른 글
Quantization(양자화)란 (0) | 2022.07.05 |
---|