Deep-Learning/CNN

    Quantization 기법

    Quantization 기법 Post Training Quantization 1. Dynamic Quantization (동적 양자화) 사전에 Weight(가중치) 를 양자화 inference 시점에 동적으로 activation을 양자화 activation 을 FP로 저장해놓고, inference 시점에서 quantize를 진행하고 완료 후 dequantize 장점 메모리 로딩 속도 개선 연산속도 향상이 미비할 수 있음(inference kernel 연산이 추가 되기 때문) 2. Static Quantization (정적 양자화) 사전에 Weight(가중치)와 activation 모두 양자화 context-switching overhead 감소시키기 위해 activation과 그전 단계의 layer를 합..

    Quantization(양자화)란

    Quantization(양자화) in deep learning 딥러닝 모델(lightweight deep learning) 을 경량화 할 때 사용되는 기법 중 하나 경량화는 크게 두가지로 나뉨 모델의 알고리즘을 재설계 모델 구조 변경 합성곱 필터 기술 경량 모델 자동 탐색 기존 모델의 파라미터를 줄임 Weight Pruning Quantazation Binarization **quantization(양자화)**는 기존 모델의 파라미터를 줄이는 기법 중 하나이다. Quantization(양자화) 목적: Inference Time 을 줄이는 것(Training time 이 아님) 모델의 파라미터를 lower bit 로 표현하여, 연산과 메모리 access 속도를 높이는 기법 보통 FP 32bit 에서 int..