语音指令系统的关键设计考虑

文章作者:Raj Senguttuvan

本文提供了使用语音活动检测(VAD)的低功耗、常开的语音命令系统的设计考虑。

大多数引入市场的产品、设备和技术都实现了语音助手和集成。话虽如此,这些有用的语音助手总是在听激活/唤醒词(比如“ok谷歌”或“Alexa”),这已经不是什么秘密了,这些词通常需要很大的电量。在一个科技飞速发展的世界里,有必要考虑这对能源消耗的影响。

本文提供了使用语音活动检测(VAD)的低功耗、常开的语音命令系统的设计考虑。本文探讨了在选择创建易于使用、节能的语音用户界面(VUI)所需的组件时的权衡和注意事项。

该VAD功能在听唤醒词之前检测环境中的人类声音,这意味着当没有人在家时,你的语音助手不会浪费不必要的能量。据估计,全球有42亿数字语音助手在使用,到2024年,这一数字预计将翻一番。将这种技术应用到语音助手软件和其他依赖语音集成的产品中,将大大降低使用语音助手的人的能源消耗。

有几种硬件体系结构用于实现VUI系统。一般来说,一个典型的语音用户界面实现由麦克风组成,可以是单个麦克风,也可以是连接到用于捕获和处理语音的音频处理器的麦克风阵列。

可以在边缘音频边缘处理器,带内置音频边缘处理器的智能麦克风或标准应用处理器(AP)上的传入音频流。边缘音频处理器针对音频信号的低功耗和低延迟处理进行了优化。除了提供输入音频的专用处理之外,边缘音频处理器还可用于后处理音频输出信号。如果VUI系统连接云,则音频边缘处理器还可以通过具有无线连接的主系统上的芯片(SOC)与云VUI接口通信。本文提出了两种不同的VUI系统实现以及各自的权衡。

超低功耗VAD(语音活动检测)

图1中所示的结构支持使用模拟信号路径的超低功耗Vui,包括模拟麦克风和模拟比较器,以提供唤醒触发器。当检测到声学活动时,模拟信号链会产生一个中断以唤醒音频处理器以进行语音捕获。该设备还可以包括“按钮对话”功能,由此用户推动按钮唤醒音频处理器。

诺尔斯图1 -声音按钮触发尾流
图1所示。超低功耗,始终开机的VUI硬件信号链用于远程控制,无需预滚缓冲。

模拟唤醒麦克风必须始终倾听环境,因此这种麦克风以及比较器,必须消耗很少的功率。在其最简单的唤醒触发模式下具有小于1MW的功耗小于1MW的高效音频处理器的示例,以及用于高级音频处理的1MB内存是知识IA8201。虽然图1所示的方法提供了一种简单的低功耗AAD(声学活动检测)方法,用于遥控器等设备上的始终on Vui,但它具有局限性。此实现唤醒了任何声学信号的音频处理器,可以导致嘈杂情况下的高整体系统功耗。此外,作为云连接的语音用户界面系统需要在捕获字之前捕获唤醒词之前的时段的音频数据以增加唤醒词检测的准确性。这通常被称为前滚动,并且是一种必须对Alexa的设备和其他智能扬声器设备的要求。

Knowles图2 -始终开启关键字触发预滚缓冲
图2。支持预滚缓冲的架构,如智能扬声器。

图2显示了支持智能音箱等设备的预滚缓冲的架构。这些设备通常有更大的电池和/或可能不需要在一次充电的多个月的电池寿命。VUI系统始终处于打开状态,侦听环境并在循环缓冲区中记录预滚。预滚的长度通常为500ms音频数据的量级,用于校准环境噪声水平。

设计始终如一的前端架构有一些不同的方法。音频处理器的选择取决于所使用的麦克风的数量,以及它们是否是模拟的或数字。

上面显示的架构使用了用于语音活动检测的知识IA611,用于波束成形的SPH0655LM4H-1 Cornell II数字麦克风,以及用于音频处理的知识IA8201。Knowles IA611是一个智能麦克风,为系统设计师提供优势,如下所述所述部分所述。

麦克风的选择

对于图1所示的架构,当检测到声学活动时,一个模拟麦克风和比较器被用作触发输入来唤醒音频处理器。醒传麦克风应采用低功率模拟麦克风,信噪比最好大于62 dB。Knowles SiSonic MEMS麦克风组合为尾流麦克风提供了多种选择。例如,SPV1840LR5H-B Kaskade模拟麦克风是一个很好的选择,只需要45µa。总开模拟路径(包括麦克风、放大器和比较器)的功耗小于67µa。市场上有一些压电式麦克风,功率很低(10µA),但它们的信噪比通常很低,这可能会影响系统性能。

对于图2所示的pre-roll缓冲功能架构,具有嵌入式音频处理器和足够内存的麦克风可以在2秒的循环缓冲中连续捕获语音数据,如Knowles IA611,这是始终开启语音活动检测的可行选择。它还带有一个移植语音触发和命令的生态系统,比如亚马逊的Alexa。当检测到关键字时,将预滚缓冲区和发出的语音音频发送到云自动语音识别(ASR)引擎。IA611的始终开机,声音伴流电源为0.39 mA @电池1.8V和90%的效率,使其成为一个良好的选择,在电池操作设备的语音用户界面,如蓝牙扬声器。该设备还接受来自数字麦克风的PDM输入,并可用于支持主机BT-SoC处理器上的波束形成,通过在系统醒来时通过音频。

虽然这种始终开启的电源对于预滚压应用程序是可以接受的,但是对于图1所示的非预滚压体系结构也值得考虑。如前所述,模拟唤醒麦克风将触发任何传入的声音并打开音频处理器。这在嘈杂的环境中可能会有问题,比如当电视开着的时候,那里会有许多虚假的尾迹,导致明显的功率浪费。如果使用语音活动检测而不是低功耗模拟尾流麦克风,系统只会在检测到关键字时打开。这就是为什么在嘈杂的环境中使用语音活动检测麦克风可能比简单的模拟尾流麦克风更有效的逻辑。

图3显示的模拟数据比较了IA611上使用VAD的典型电视遥控器与压电低功耗AAD麦克风和音频处理器在不同的声活动on时间持续时间下的电池寿命。当电视或其他家用电器开着时,或在其他情况下,当有牙牙学语等时,可以出现声音活动。如图3所示,在大约3小时时有一个交叉点,在竞争对手的麦克风上使用模拟AAD与在IA611上使用语音活动检测的功率优势消失。

在开启5小时的声音活动时,语音活动检测解决方案比基于aad的竞争解决方案多提供8天的电池寿命。根据尼尔森2017年发布的一项研究,美国成年人每天看电视的时间接近8小时。随着人们对智能电视、游戏机和其他多媒体设备等联网设备的需求不断增加,典型美国家庭的声音活动时间可能也会继续增加。使用基于智能VAD的唤醒将有助于系统设计者开发更高效的VUI系统。

诺尔斯图3  - 总是在Vad上
图3。远程控制电池寿命与VAD vs AAD。

结论

从智能家居、酒店、数字工作场所、语音支付、智能能源管理、边缘语音和医疗保健,一直到改变工厂车间的工业物联网应用,语音增加了灵活性、效率、可持续性和对新技术的接受度。

用于设计语音用户界面的各种硬件体系结构,以及麦克风部分,根据终端设备的应用程序和设计者的偏好,每种硬件体系结构都服务于略有不同的需求;例如,支持alexa的设备和智能扬声器需要有预滚缓冲能力的架构。

重要的是,电子工程师和设计人员仔细评估了最终设备如何利用语音,他们希望访问的功能,以及从那里开始,相应地确定正确的架构和麦克风组件。

本文最初发表于嵌入式


Raj Senguttuvan - Knowles

Raj Senguttuvan在消费者和工业应用的新技术开发、早期业务开发和项目管理方面拥有超过15年的经验,为包括模拟设备和德州仪器在内的公司提供服务。在Knowles担任战略营销总监期间,他指导系统级开发,推动风险投资和合作,以及物联网和消费者技术(包括音频处理器、算法、麦克风、传感器和接收器)的营销战略。Raj拥有康奈尔大学的工商管理硕士学位和乔治亚理工学院的电气工程博士学位。

留下你的评论