Deep-Learning/CNN

Quantization(양자화)란

ID_DI 2022. 7. 5. 23:04

Quantization(양자화) in deep learning

  • 딥러닝 모델(lightweight deep learning) 을 경량화 할 때 사용되는 기법 중 하나
  • 경량화는 크게 두가지로 나뉨
    • 모델의 알고리즘을 재설계
      • 모델 구조 변경
      • 합성곱 필터 기술
      • 경량 모델 자동 탐색
    • 기존 모델의 파라미터를 줄임
      • Weight Pruning
      • Quantazation
      • Binarization
  • **quantization(양자화)**는 기존 모델의 파라미터를 줄이는 기법 중 하나이다.

Quantization(양자화)

목적: Inference Time 을 줄이는 것(Training time 이 아님)

  • 모델의 파라미터를 lower bit 로 표현하여, 연산과 메모리 access 속도를 높이는 기법
  • 보통 FP 32bit 에서 int 8bit 로 변환하는 방식을 자주 사용

Quantization 장점

  • 모델의 size(용량) 축소
  • 사용 RAM 메모리 절약
  • 예측 속도 개선
  • 전력 소비 효율과

Quantization 단점

  • accuracy 저하
  • 기존 모델보다 성능은 떨어지는 것을 감안하고, 양자화 진행

Quantization 종류

  1. Post Training Quantization
    • Train 후 quantize
  2. Quantiation Aware Training
    • Train 중 quantize

 

 

 

 

참고

https://velog.io/@jooh95/%EB%94%A5%EB%9F%AC%EB%8B%9D-Quantization%EC%96%91%EC%9E%90%ED%99%94-%EC%A0%95%EB%A6%AC

https://wooono.tistory.com/405