当前位置：首页 > news >正文

探索Witin-NN Tools量化开源项目：模拟神经网络映射映射到存内芯片的计算过程

news 来源：原创 2024/9/21 14:24:55

引言：

在深度学习的世界里，模型的精度和效率往往如同鱼和熊掌，难以兼得。然而，随着技术的进步，量化技术的出现为我们提供了一种平衡二者的解决方案。witin-nn，一个创新的神经网络量化部署工具，以其独特的存内计算模拟和量化感知训练（QAT），开启了深度学习模型优化的新篇章。

witin-nn框架的设计理念源于对硬件特性的深刻理解与软件优化的不懈追求。它不仅支持从8位到12位的输入和输出量化，还实现了权重的8位量化，通过精确的量化策略，显著提升了模型在硬件上的运行效率，同时最大限度地保留了模型的原始精度。

我们的框架特别适合那些对模型大小和推理速度有着严格要求的应用场景。无论是在智能手机、嵌入式设备还是边缘服务器上，witin-nn都能够提供卓越的性能。它通过模拟电路噪声和量化效应，让模型在训练阶段就适应硬件环境，从而在部署时展现出更加稳定和高效的推理能力。

witin-nn的开源特性，进一步拓宽了其应用边界。它鼓励全球的开发者和研究人员共同参与到模型优化的探索中来，分享知识，贡献代码，共同推动人工智能技术的前进。通过witin-nn，我们不仅提供了一个工具，更是搭建了一个创新和协作的平台。

Witin-NN开源链接：https://github.com/witmem/Witin-NN-Tool-

Witin-NN 技术概述：

witin_nn 框架是基于 PyTorch 开发的，witin_nn 框架主要实现了适配知存科技芯片的量化感知训练（QAT）和噪声感知训练（NAT）方法，目前支持 Linear、Conv2d、ConvTranspose2d、GruCell 等算子。本框架通过在神经网络的正向传播链路上引入输入、权重、偏置以及输出的噪声，干预神经网络的反向传播（参数更新），从而增强网络的泛化能力。具体来说，witin_nn 模拟神经网络映射到知存科技存内芯片计算的过程，支持输入和输出的 8bits~12bits 位宽量化以及权重的 8bits 量化，实现 QAT，并引入模拟电路噪声，实现 NAT。

从训练效果来看，如果以浮点训练的浮点软跑性能作为 baseline，通常在增加量化感知训练（QAT）、噪声感知训练（NAT）之后，部署到芯片的性能会更加逼近 baseline。

量化优势：

1，高效的模型压缩

2，降低能耗

3，提升运行效率

4，精度损失可控

开源项目介绍：

由于知存科技存内计算方案的模拟噪声影响，单纯经过浮点训练的神经网络模型在部署到芯片后往往会出现性能下降，因此有必要引入噪声感知训练，使得神经网络在训练过程中感知到芯片的噪声特性，从而获得部署到芯片的更好性能。

下面以 witin_nn.WitinLinear 算子为例，简述 QAT 及 NAT 计算的过程（输入、输出均量化到 8bits）。

如上所示，输入 x 量化为 uint8 的 NPU_x，权重 weight 量化为 int8 的 NPU_weight，偏置 bias 量化为 128 的整数倍，即 NPU_bias，已知 NPU_x，NPU_weight，NPU_bias，可计算出 NPU_y'，其中引入模拟电路噪声，得到 NPU_y，最终量化为 int8。最终，witin_nn.WitinLinear 算子输出为 NPU_y/y_scale（反量化回到浮点域）。

使用示例

1.4.1 定义一个简单的 torch 神经网络

1.4.2 witin_nn 浮点训练示例

1.4.3 witin_nn 量化训练示例

1.4.3 witin_nn 量化及加噪训练示例

2.5 量化位宽大于 8bit 指导

存算核支持的是 8bits 数据计算，但是为了提高精度，希望量化后输入位宽大于 8bits。witin_nn 将模拟映射到芯片的拆分过程（即低 8 位用模拟计算，高位用数字计算）。需要注意的是，bias 也可能会涉及到拆分以保证映射后模拟计算的输出尽量不出现饱和，在此引入额外参数 bias_d（d 意为 digital）来表示拆出到数字计算的偏置。

下面以 witin_nn.WitinLinear 为例，以 10bits 输入、 10bits 输出说明该过程。