Deep-Learning/CNN

Quantization 기법

ID_DI 2022. 7. 5. 23:23

Quantization 기법

Post Training Quantization

1. Dynamic Quantization (동적 양자화)

  • 사전에 Weight(가중치) 를 양자화
  • inference 시점에 동적으로 activation을 양자화
    • activation 을 FP로 저장해놓고, inference 시점에서 quantize를 진행하고 완료 후 dequantize

장점

  • 메모리 로딩 속도 개선
  • 연산속도 향상이 미비할 수 있음(inference kernel 연산이 추가 되기 때문)

2. Static Quantization (정적 양자화)

  • 사전에 Weight(가중치)와 activation 모두 양자화
  • context-switching overhead 감소시키기 위해 activation과 그전 단계의 layer를 합치는 fusion 수행

Quantization-aware training

  • Training 중에 Weight(가중치)와 activation 모두 양자화
  • fake-quantization modules과 fake-quantization nodes를 양자화가 진행되는 부분에 추가