由于现代深度学习技术的不断发展,深度学习任务具有控制逻辑复杂化、宿主-设备交互频繁化的发展趋势;而传统的以CPU为中心的加速器系统宿主-设备交互开销大,交互速度提升缓慢,最终形成“交互墙”问题:交互速度提升与设备计算速度提升之间形成剪刀差。根据阿姆达尔定律,这将严重限制加速器的应用。

针对这一问题,CPULESS加速器提出了融合流水线结构,将系统的控制中心移至深度学习处理器上来,省去独立的宿主CPU芯片;采用面向异常编程方式,能够将标量控制单元和向量运算单元之间的交互开销降至最低。

实验表明,在多种具有复杂控制逻辑的现代深度学习任务上,CPULESS系统相比传统以CPU为中心的GPU系统能够实现10.30倍性能提升,并节约92.99%的能耗。

论文发表在《IEEE Transactions on Computers》。[DOI] [实验源码]