模拟机器学习帮助语音控制系统节省电力

文章作者:Richard Quinnell

与始终开启的唤醒词检测相比,可以忽略无声和非语音的系统可以节省相当多的电力。

仅用语音控制机器的能力已经成为许多商业和消费系统的一个流行特性。但语音控制的问题是,设备必须一直在听,这意味着它必须一直通电。不过,新的选择已经出现,可以帮助设计师减少声控设计的功耗。万博投注网址

让机器对语音指令做出适当的回应是一个重大的处理挑战。它要求一个系统首先有一个麦克风来接收声音,一个数字化转换器将声音转换成处理器可以使用的东西,然后有大量的数字信号处理来从声音中提取语音信息。所涉及的处理量将取决于需要识别的命令字的数量。词汇量有限的系统可以使用这样的结构图1本地处理可以进行单词识别,而需要自然语音理解的系统可以使用云计算资源进行进一步处理。

语音控制系统示意图 图1一个典型的语音控制系统必须不断地处理声音以寻找命令字。来源:Aspinity

不幸的是,大多数时候没有语音出现,语音处理和它所消耗的能量都是白费力气。这种浪费可以通过要求用户首先按下按钮或类似的来激活语音处理来避免。但是,如果系统只被语音激活,它必须始终捕捉和处理声音,以避免错过一个命令。这给电池供电的应用程序带来了特别的担忧,因为语音处理的“永远开着”的特性可能会消耗大量的电池。

为了减少浪费精力和节省电力,语音处理系统通常会使用“唤醒”一词来表示激活。这种方法所需的能量更少,因为大多数时候语音处理只需要识别单个特定的单词,而不需要识别其全部功能词汇。因此,系统可以在监听唤醒词时运行一个更简单、功耗更低的处理算法,暂停全部语音处理工作,直到检测到唤醒词。

为了实现这一目标,业界投入了大量的精力来开发功率最小的wake word引擎。通常这些引擎只能识别几个字,让用户选择可能的尾流选项。不过,有些引擎可以识别足够多的单词,从而提供有限形式的语音控制,提供多种命令。不过,对于更复杂的语音控制,唤醒词引擎的目的只是激活更强大、更耗电的处理,及时接收和解释伴随唤醒词而来的语音命令。

这些唤醒词引擎在不断地发展。最近推出的一款产品是Retune的配对产品VoiceSpot单词定位算法,切瓦该公司的低功耗dsp家族。该组合可以进行波束形成和声回波抵消,以提高在有噪声的情况下词识别的可靠性,以及唤醒词识别。该算法的总内存占用小于80kbytes,目标是更小的电池驱动应用程序,如耳塞、智能手表和动作相机。

另一对最近的介绍Cyberon的CSpotter算法与RA6-series瑞萨的微控制器。该算法使用基于音素的建模,支持30多种语言。它可以作为一个唤醒词引擎或提供本地语音控制使用几个不同的命令集。处理器提供一个I2S (ic间声音)接口到数字麦克风,消除了对ADC的需要。

这两种方法,虽然都尽量减少了语音识别任务,但仍然依赖于数字信号处理来进行唤醒字识别。这为始终开机的电力需求设定了一个较低的限制,在电池供电的应用程序中,这仍然可能是一个负担。不过,还有另一种可用的技术,可以为永远开机的唤醒词识别节省更多电力。

模拟机器学习技术是其中的关键。Aspinity已经开发了RAMP(可重构模拟模块处理器)芯片,首先识别声音,然后再尝试确定声音是否在说唤醒词。RAMP芯片能让系统在进行任何语音处理之前先识别出被探测到的声音实际上是语音。这种预先决定甚至允许唤醒词引擎在没有人说话时保持休眠状态,如图2

始终倾听的斜坡设计示意图 图2通过首先确定声音是否是语音,RAMP芯片允许语音处理安全忽略其他类型的声音。来源:Aspinity

该芯片通过训练模拟神经网络来区分人的声音和其他声音,然后向语音处理系统发送激活信号来确定声音是否在说唤醒词。为了确保语音处理具有完整的语音模式,该芯片将捕获的声音缓冲500毫秒在预滚动缓存中。当芯片识别声音为声音时,它将传入的声音——从播放前的数据开始——引导到语音处理系统进行解释。

这种方法允许语音控制系统只保持RAMP芯片的连续供电。语音处理硬件——包括唤醒词引擎——可以在没有人说话时保持休眠状态。在大多数情况下,没有语音的时间段代表系统运行的大部分时间。RAMP芯片和主机微控制器只需要大约25 μA的电流,而典型的唤醒字检测需要几十毫安。因此,与始终开启的唤醒词检测相比,忽略无声和非语音的能力可以节省相当多的电能。

声控领域的这种节能创新很可能会继续出现,将声控操作的潜力扩大到从线路到电池供电的设计。万博投注网址不管用语音控制某个设备是好是坏,不管它的电源是什么,它都将成为一个切实可行的选择。

本文最初发表于经济日报

丰富Quinnell是一名退休工程师和作家,也是EDN的前总编。

相关文章:

留下你的评论