深度卷积神经网络本身的高参数量和计算开销,与嵌入式设备在存储、功耗、算力方面的严格约束之间长期存在结构性矛盾,制约了边缘智能的落地进程。模型量化是当前缓解这一矛盾的主流技术路径之一,在降低内存占用和加快推理速度方面已有较多工程验证,但位宽压缩到4bit及以下时,精度退化和训练收敛困难的问题仍未得到根本性解决。本文提出并实现了面向边缘部署的轻量化系统NeuroEdge-Quant,采用LSQ-BN算法,将单CNN前向融合机制与权重分布感知的步长自适应初始化相结合,在NVIDIA Jetson与Rockchip NPU两类平台上完成系统验证。ImageNet基准测试表明:系统在W4A8(4-bit权重、8-bit激活)配置下,ResNet-50模型体积压缩至原始的1/8,推理延迟降低超过60%,Top-1精度损失仅1.5%;与标准PTQ及传统QAT基线相比,精度损失分别降低6.2和9.2个百分点,在严格能效约束下实现高精度低比特推理部署。
边缘计算;模型量化;LSQ-BN算法;BN折叠;卷积神经网络;实时推理;嵌入式系统
[1]Gartner.What Edge Computing Means for Infrastructure and Operations Leaders[R].Gartner Research,2018.
[2]Han S,Mao H,Dally W J.Deep compression:Compressing deep neural networks with pruning,trained quantization and huffman coding[C]//ICLR,2016.
[3]聂慧,李康顺,苏洋.一种量化因子自适应学习量化训练算法[J].系统仿真学报,2022,34(07):1639-1650.
[4]Esser S K,et al.Learned Step Size Quantization[C]//ICLR,2019.
[5]JACOB B,KLIGYS S,CHEN B,et al.Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE,2018:2704-2713.