AI模型常见的压缩技术分类
文章目录
- Pruning
- Quantization
- Knowledge distillation
Pruning
Pruning 把模型里一些不重要的权重砍掉,减少网络模型中参数量和计算量,同时尽量保证模型的性能不受影响。
Quantization
Quantization. 模型量化就是将训练好的深度神经网络的权值,激活值等从高精度转化成低精度的操作过程,例如将32位浮点数转化成8位整型数int8,同时我们期望转换后的模型准确率与转化前相近。
Knowledge distillation
Knowledge distillation 将已经训练好的大模型包含的知识,蒸馏(Distill)提取到另一个小的模型中去。