首页»消费电子产品»语音会成为大多数消费电子产品的默认用户界面吗?

语音会成为大多数消费电子产品的默认用户界面吗?

文章作者:Sally Ward-Foxton

语音控制和语音界面已经开始无情地渗透到几乎所有的消费者边缘设备类别。

语音控制和语音界面已经开始无情地渗透到几乎所有的消费者边缘设备类别。语音识别算法和人工智能加速器硬件的进步意味着，即使是电力和成本有限的智能家居设备(甚至是一些愚蠢的设备)也可以使用这项技术。

用户端智能家居设备语音控制背后的驱动因素是明确的。

Alireza Kenarsari Anhari PicoVoice语音控制 — Alireza Kenarsari-Anhari(来源:PicoVoice)

PicoVoice首席执行官阿里雷扎•肯纳萨里-安哈里在接受《电子时报》采访时表示:“易用性和便利性是目前的主要驱动力。”很容易想象，当你想要一杯咖啡的时候，你会站在办公桌前对着家里的咖啡机大喊大叫，或者拿着一篮子湿衣服对滚筒式烘干机发号施令。

nsec时代的以太网延迟测量–100GbE及以上性能的关键

我们假设像这样的智能设备，它们不是便携式的，可以永久访问家庭的WiFi连接-那么为什么不在云端进行语音处理呢?

在这种情况下，边缘人工智能的发展趋势主要是由隐私驱动的，Kenarsari Anhari说，隐私是消费者关心的问题，但对一些企业来说是必须的。可靠性是另一个驱动因素：“如果你的WiFi不工作，洗衣机停止工作有意义吗？”他说。

在某些情况下，延迟也很重要；一些应用程序确实需要实时保证语音工作负载处理，例如游戏。

成本是语音边缘处理的另一个重要驱动因素，因为在云中处理语音数据需要花钱。每次使用云API都要付费的商业模式并不适用于家用电器和消费电子等用例，这些用例的成本较低，每天可能会被多次使用。

PicoVoice的人工智能语音到文本推理引擎设计为在低于1美元的微控制器上独立于云运行该公司的目标是在应用程序中实现语音控制，否则它是不可能实现的。这可能包括消费性可穿戴设备和可听设备，它们正处于需要功率效率和成本效率的交叉点，而基于微控制器的语音解决方案可能会实现这一点。Kenarsari-Anhari说，一个电力和成本优化的解决方案也可以在工业、安全和医疗应用领域打开机遇。

该公司最近推出了一个用于在微控制器上构建语音应用程序的无代码平台Shepherd，该平台与该公司的模型创建软件PicoVoice Console协同工作。Shepherd支持来自ST和NXP的流行Arm Cortex-M微控制器，并支持其他设备。

“我认为语音是一种界面——如果你可以不用编码就建立你的GUI或网站，也许使用WordPress，以类似的方式建立语音界面是下一个合乎逻辑的步骤，”肯纳萨里-安哈里说。“Shepherd授权产品经理和用户体验设计师快速构建原型和迭代，但我们的目标是扩大它的目标用户群。如果每个人都能建立自己的助手呢?他们想叫什么就叫什么——不是Alexa!——并赋予它他们想要的个性。”

虽然开发自然语言处理模型并在没有专业软件的情况下实现它们是完全可能的，但这种方法并不适合所有人。

“当然可以——苹果、亚马逊、谷歌和微软做到了，”他说。“这实际上关系到一个企业是否拥有资源，是否致力于围绕它建立一个组织，是否有能力等待几年。”

未来趋势
语音正成为下一代技术用户的首选界面，Syntiant首席执行官库尔特·布希（Kurt Busch）去年夏天在接受《EE时报》采访时表示。

布希描述了他最小的孩子是如何通过智能手机上的语音界面与朋友们发短信的。布希能阅读，但还太小，不会写字和拼写。

“他的哥哥姐姐们发短信，但他的那一代人比他们早几年就有了手机，”Busch说。“随着时间的推移，对他这一代人和年轻人来说，他们的默认界面是与之对话。”

Busch的观点是，语音将成为“未来的触摸屏”，设备内部处理提供快速、响应性强的界面，首先是在有键盘或鼠标的设备上，然后是在白色家电上。

Syntiant的芯片是专门的人工智能加速器，旨在处理低至极低功耗的消费电子设备中的语音人工智能工作负载。到目前为止，这家初创公司已经在全球销售了超过1000万枚芯片，其中大部分已经用于手机，以实现始终在线的关键字检测。最新的Syntiant芯片，NDP120，能识别“OK谷歌”等热点词，激活280µW以下谷歌助手。

布希还认为，在未来，语音控制将使每个人都能连接和使用技术。

Busch说：“我们认为voice是科技领域伟大的民主化者。”。“世界上有30亿人每天靠2美元生活。我的假设是这些人没有互联网接入，也可能没有通过教育系统。这里的自然界面是[语音]。这就是如何让技术进入当今世界第三个没有与技术互动的领域。我们已经看到发展中国家对语音优先应用的浓厚兴趣，不仅从费用的角度，而且从舒适的角度来看，他们希望让那些以前可能没有机会使用的社会阶层使用语音。”

市场分割
Knowles物联网高级总监Vikram Shirastava告诉《EE时报》，一个像voice一样快速增长的市场的危险在于它可能很快变得极其分散，而不仅仅是在硬件方面。

维克拉姆·什里瓦斯塔瓦·诺尔斯语音控制 — Vikram Shrivastava(来源:Knowles)

Shirastava说：“市场变得支离破碎的原因是，比如说，使用了什么样的语音识别引擎？”。“市场会变得支离破碎，这取决于你是与电视SoC集成，还是内部的一个简单MCU，比如微波炉。你会根据操作系统或声学环境而支离破碎——这仅仅是家吗？外面是门铃吗？不可能有一个一刀切的解决方案。你必须有点f找出每个垂直领域的共同点，并尝试相应地解决语音集成问题。”

Knowles有一个基于dsp的语音控制解决方案，它打算为不同的垂直市场推出不同版本。它的方法是将市场分成具有共同特征的部分，例如家庭遥控器、电视音箱和遥控器可能属于同一组，然后开发针对这组应用的优化解决方案。Shirastava称这种方法“比turnkey低一级”，提供了turnkey的可扩展性，但增加了一些灵活性。

他表示:“我们必须推出一些不同的版本，以解决碎片化的某些方面，以便覆盖我们想要追求的垂直领域。”

诺尔斯最近发布的AISonic蓝牙标准解决方案是一个用于蓝牙连接设备(如智能扬声器、智能家居设备、可穿戴设备和车载语音助手)语音识别的开发工具包。该套件基于Knowles公司的IA8201双核DSP芯片，该芯片是专门为神经网络处理而设计的，其功耗远低于应用处理器。例如，该芯片可以同时处理关键字识别、源分类、波束形成、声回波抵消(AEC)和源方向估计等独立的人工智能模型，功耗低于50 mW。Tensilica的DSP核心上有近400条用于音频和AI处理的自定义指令集扩展，这反过来允许时钟频率降低，以节省电力。