音频DSP将AI推到边缘

文章作者:Jim Steele

专门用于机器学习和音频处理的高级处理器能够以低成本实现实时的边缘推理,同时保持隐私。

一旦局限于具有实际无限资源的云服务器,机器学习就会出于各种原因进入边缘设备,包括降低延迟,降低成本,能源效率和增强的隐私。将数据发送到云以进行解释所需的时间可能是禁止的,例如在自动驾驶汽车中的行人识别。将数据发送到云所需的带宽可能是昂贵的,更不用说云服务本身的成本,例如语音命令的语音识别。

能量是将数据来回发送到服务器与本地处理之间的一种权衡。机器学习计算是复杂的,如果不能有效执行,很容易耗尽边缘设备的电池。Edge决策还可以将对用户隐私至关重要的数据保存在设备上,比如智能手机上通过语音发送的敏感邮件。音频AI是一个丰富的边缘推理例子;一种专门用于音频机器学习用例的新型数字信号处理器(DSP)可以在网络边缘实现更好的性能和新功能。

始终开启的语音唤醒是机器学习最早的例子之一:在唤醒系统的其他部分以决定下一步行动之前,先听一个关键字,比如“Hey Siri”或“OK谷歌”。如果在通用应用程序处理器上运行此关键字检测,则可能需要超过100mW。在一天的过程中,这将耗尽智能手机的电池。因此,第一批实现这一功能的手机将算法移植到一个小DSP上,该DSP运行速度低于5mW。现在,这些相同的算法可以运行在一个专门的音频和机器学习DSP上,在一个智能麦克风中,运行功率小于0.5mW。

一旦为始终开启音频机学习启用了边缘设备,它就可以做更多的事情,而不是在低功耗下进行语音识别:诸如设备是否位于拥挤的餐厅或繁忙的街道,环境音乐识别,超声波室识别,甚至认识到附近有人是否喊叫或笑。这些类型的功能将使新的复杂使用案例能够改进边缘设备并使用户受益。

机器学习边缘推理的最佳性能和能源效率需要大量的硬件定制,表1中收集了一些最具影响力的技术。实现这些特性将提高边缘机器学习推理效率。

神经网络推论所需的大部分算术运算是矩阵矢量乘法。这是因为机器学习模型通常表示为矩阵,其应用于表示为载体的新兴奋剂。改善边缘机学习推断的最常用技术是使矩阵矢量乘法非常有效。融合乘以后跟累积(Mac)是解决此问题的常用方法。

Edge AI DSP.
表格:创建边缘AI DSP的有效技术。

虽然训练阶段对数值精度敏感,但推理阶段可以通过低精度(例如8位)实现接近等效结果。限制精度可以大大降低边缘计算的复杂性。因此,英特尔和德州仪器等处理器公司增加了有限的精密MAC。Texas Instruments'TMS320C6745每循环可以执行8位8位的MAC。此外,Knowles'音频DSP每个循环支持每个8位的16个MAC。

培训和推理阶段都对存储器子系统压力。处理器支持广泛的单词宽度往往改进以适应此功能。英特尔更近期的高性能处理器具有AVX-512,它支持将每个循环传输512位转换为64个乘法器的阵列。Texas Instruments 6745使用64位总线来增加内存带宽。Knowles的高级音频处理器使用128位总线,在大芯片区域和高带宽之间略微平衡。此外,音频机器学习架构(例如RNN或LSTM)通常需要反馈。这对芯片架构进行了额外的要求,因为数据依赖性可以失速流水线架构。

虽然传统的机器学习可以处理原始数据,但音频机器学习算法通常执行频谱分析和特征提取,以提供给神经网络。加速传统的信号处理功能,如fft,音频滤波器,三角函数和对数是必要的能源效率。后续操作通常使用各种非线性向量操作,如sigmoid,实现为双曲切线,或校正线性单位(绝对值函数,所有负数都变为零)。这些复杂的非线性操作在传统处理器上需要很多周期。这些功能的单周期指令也提高了机器学习音频dsp的能源效率。

总之,专门用于机器学习和音频处理的先进处理器,以低成本实现实时始终是始终接受边缘推断,同时保持隐私。通过指令集支持的架构决策能量消耗保持低量,以允许每个周期和更广泛的存储总线进行多次操作以保持低功耗的高性能。随着公司在边缘的专业计算上继续进行创新,利用它的机器学习的使用情况只会增加。

-吉姆·斯蒂尔(Jim Steele)是Knowles Corp的技术战略副总裁

发表评论