Quantization-aware training

    Quantization 기법

    Quantization 기법 Post Training Quantization 1. Dynamic Quantization (동적 양자화) 사전에 Weight(가중치) 를 양자화 inference 시점에 동적으로 activation을 양자화 activation 을 FP로 저장해놓고, inference 시점에서 quantize를 진행하고 완료 후 dequantize 장점 메모리 로딩 속도 개선 연산속도 향상이 미비할 수 있음(inference kernel 연산이 추가 되기 때문) 2. Static Quantization (정적 양자화) 사전에 Weight(가중치)와 activation 모두 양자화 context-switching overhead 감소시키기 위해 activation과 그전 단계의 layer를 합..