为了追求高能效,深度学习加速器大多采用8比特乃至更低位宽的运算单元,尤其是在移动平台上。这样的低位宽加速器采用特殊技术手段可以满足推理任务的精度要求,但是在训练时就不行了,因为训练过程对数值精度的敏感性远远高于推理。怎样扩展架构才能让移动平台上的加速器支持高效的移动端训练呢?
针对这个问题,我们开展了Cambricon-Q的研究。
Cambricon-Q引入了三种新模块:
- SQU支持数据传输过程中的沿途统计和量化;
- QBC管理片上缓存中的混合数据精度和格式;
- NDPO在近存端完成权重更新。
该结构能够支持多种量化训练方法。实验表明,Cambricon-Q在几乎不损失训练精度的前提下,实现了高效的深度学习训练。
论文发表在ISCA 2021。[DOI]