向着精通语音控制又迈进了一步

文章:Max MaxField

XMOS刚刚推出了XVF3510下一代语音处理器,该处理器仅用两个麦克风就能从拥挤的音频环境中提取出单个声音。

那些聪明的人XMOS.刚刚将我们靠近嵌入“耳朵”的一步,以便在我们互动的每个设备中嵌入语音控制。

作为提醒,XMOS是一家无晶圆厂半导体公司,开发语音解决方案,音频产品和多芯微控制器,能够同时执行实时任务,极端数字信号处理(DSP)和控制流程。XMOS微控制器通过其确定性(可预测的)行为来区分。

让我们从底层Xcore多核微控制器技术开始,该技术包括由高速开关连接的多个“处理器瓷砖”。每个处理器磁贴都是传统的RISC处理器,可以同时执行最多八个任务。任务可以通过通道相互通信(可以通过在本地瓦片上连接到远程瓷砖上的任务)或使用内存(仅在同一地块中运行的任务)。

xCORE架构在硬件上提供了许多通常在实时操作系统(RTOS)中看到的元素。这包括任务调度程序、计时器、I/O操作和通道通信。通过消除时间不确定性的来源(中断、缓存、总线和其他共享资源),xCORE设备可以为许多应用程序提供确定性和可预测的性能。任务通常以纳秒的速度响应外部I/O或计时器等事件。这使得编写xCORE设备来执行硬实时任务成为可能,否则就需要专用的硬件。

2017年,XMOS获得了SETEM技术。正如我写在我的专栏“XMOS + SETEM可能是嵌入式语音的游戏变更器:“Setem的chapes和chapesses是先进的盲源信号分离技术的先驱。”他们的专利算法使消费者设备能够在拥挤的音频环境中专注于特定的声音或对话,从而优化语音识别系统的输入。”

我在家里有两个亚马逊回声/点设备,在我的办公室里,我问我的妻子,吉娜华丽,为什么她听到了耳语。“我听说亚马逊的人可能会听我们,”她笑了,吉娜笑了,Alexa笑了......)。我认为这些设备很棒,但它们确实需要七个麦克风数组,这增加了整体解决方案的成本和物理占地面积。

具有多个麦克风允许系统更好地检测和去除噪声,执行回声消除等内容,并确定声音源的位置,例如说话。Of course, when you think about it, we manage to do all of this stuff with just two ears (I don’t know about you, but I don’t think I have enough room on my head to accommodate seven ears without at least one of them getting in the way).

毫不奇怪,XMOS的人们也发现了这一点,这就是为什么他们刚刚推出了他们的新XVF3510的下一代语音处理器,可以只使用两个麦克风从拥挤的音频景观中取出一个拥挤的音频景观。

Xmos xvf3510

XVF3510安装在PCB(源:XMOS)上

运行在XVF3510上的算法包括干扰抵消(消除点噪声源以抵消不需要的背景噪声)、立体声回声抵消(抑制不需要的扬声器回声并允许插入)和自适应延迟估计(动态调整音频参考信号延迟、从而确保回声消除算法提供流畅、实时的体验)。

这些和其他算法使XVF3510能够智能地工作以分析声学环境,并从房间中的每一件声音(包括通过设备本身流出的任何媒体传输)识别和隔离语音命令,从而实现近距离的远场语音捕获精确。

作为本公告的一部分,XMOS的家伙还宣布了一种基于新的XVF3510的VocalFusion开发套件,可用于Alexa语音服务(AVS),这是指亚马逊在其语音控制的AI Assistant,Alexa附近建造的服务套件(退房这个视频看到行动中的开发套件)。

XMOS VF3510

基于XVF3510的VocalFusion开发套件用于亚马逊AVS(来源:XMOS)

在右侧,我们看到一个小型两位麦克风阵列连接到携带XVF3510的电路板。同时,左侧(顶部)的屏蔽插入覆盆子pi(底部)。(请注意,VocalFusion Dev套件不包括Raspberry PI,用于AVS。)

每年订单超过100万台的XVF3510芯片只需要0.99美元(数量较少的产品起价为1.39美元),这款语音处理器将使制造商能够以经济的方式将语音接口嵌入到智能电视和机顶盒等大众消费产品中。

我不知道你是怎么想的,但我对人工智能语音控制的未来感到既兴奋又恐惧。一方面,我可以很容易地想象自己漫步在周围,告诉设备和系统我想让它们做什么来让我的生活更轻松、更愉快。另一方面,我也可以想象这样一个世界,我被各种电器、小玩意、小玩意包围着,它们吵着要吸引我的注意力,我无法让它们停止对我说话。你呢?你是兴奋还是害怕?

发表评论