苹果公司的跨平台Siri虚拟助手在全球有着超过5亿用户,显然,语音识别是苹果感兴趣的重要领域之一。
 
上周,苹果公司发表了一系列预印本研究论文,就如何改进语音触发检测和说话人验证,以及多说话人的语言识别技术进行了研究。
 
沟通只是第一步:揭秘苹果Siri背后的那些技术
扬声器验证和语音触发检测
在第一篇论文中,一组苹果研究人员提出了一个训练过的人工智能模型,这个模型既能执行自动语音识别任务,也能执行说话人识别任务。
 
正如他们在摘要中所解释的,语音助手识别的命令通常以触发短语(例如,“嘿,Siri”)为前缀,检测这个触发短语涉及两个步骤。电脑技巧使用大全
 
首先,人工智能必须确定输入音频中的语音内容是否与触发短语的语音内容匹配(语音触发检测); 第二,人工智能必须确定说话者的语音与注册用户的语音或用户的语音相匹配(语音验证)。
 
这两个任务通常被独立考虑。 但是,一些共同作者假设,语音始发者的知识可能有助于推断声音信号中的语音内容,反之亦然,这将有助于评估这两个属性。
 
对此,研究人员设计了三套能够学习语音和说话人信息的模型,并对一组数据进行训练,这些数据包含超过16000小时的带注释的样本,其中5000小时的音频有语音标签(其余的为说话人标签)。
 
不仅如此,超过100位受试者还使用智能扬声器设备在一系列声学设置中为主体做出了贡献,包括安静的房间,房间中电视或厨房设备的外部噪音以及高音量播放音乐的录音机。
 
值得一提的是,还添加了2000小时连续录音,其中没有来自电视,广播和播客的触发短语,以衡量“误报”率。
 
这些模型显示了学习语音和说话者信息的能力,并且使用相同数量的参数,每个任务至少与基准模型一样准确。
 
实际上,在“多个”设置中,提出的三个模型之一优于说话者验证基准,并且相对于独立于文本的任务,该基准增加了7.6%。
 
研究人员认为,这样的实验结果是十分有趣的,因为这些模型是使用不相关的数据集训练的,也就是说,每个音频样本要么有语音标签,要么有说话人标签,从来没有两者都有。
 
通过对结果的观察,研究人员提出了一种灵活的设计,通过连接不同的任务的训练数据,而不是为每个训练示例获取多个标签,从而在多个相关任务上训练模型。从实用的角度来看,这样能够在两个任务之间共享计算可以节省设备内存、计算时间或延迟,以及消耗的电量/电池。
 
沟通只是第一步:揭秘苹果Siri背后的那些技术
错误触发缓解
在研究中,有一项补充研究减少了错误触发的发生,也就是说,语音助手有意地忽略了像Siri这样的语音助手的语音。
研究人员表示,他们使用了图形神经网络(GNN),这是一种操作在图形结构上的人工智能模型,其中每个节点都与一个标签相关联,目标是在没有基础事实的情况下预测节点的标签。
 
在论文中,研究人员写道:
语音触发的智能助手通常在开始监听用户请求之前就会检测到一个触发短语……错误的触发通常来自于背景噪音或听起来类似于触发短语的语音。因此,减少误触发是构建以隐私为中心的非侵入性智能助手的一个重要方面。
 
在未来的工作中,该团队计划将基于GNN的处理扩展到其他任务,例如用户意图分类。
 
多语种说话人识别
在另一篇论文中,苹果研究人员探索了一种针对多语言使用者量身定制的说话人语言识别系统。
 
他们表示,语音识别系统对大多数语言都有很高的准确性。但是,当有多重语言出现时,这个语言识别系统的表现就不尽如人意了。因此,基于这样的实施情况,研究人员决定开展说话人语言识别系统的工作。
 
值得注意的是,《华盛顿邮报》近期委托进行的一项研究显示,谷歌和亚马逊生产的受欢迎的智能音箱听懂本土用户的语音比听懂非美式口音的概率高出了30%。
 
同时,像Switchboard这样的语料库也已经被证明对来自国内特定地区的使用者存在可测量的倾斜,这个语料库还是被IBM和微软等公司用来衡量语音模型错误率的数据集。
 
针对这种情况,合著者将有关使用模式的知识整合到一个听写系统中,该系统能够为来自60多个地区的演讲者做出决策。
 
其中,声学子模型将根据语音信号所传递的证据进行预测,而上下文感知预测组件则考虑了各种交互上下文信号,通过这两方面的预测,来选择最优的单语自动语音识别系统。
 
据了解,上下文信号包含关于用于发出听写请求的条件的信息,包括关于安装的听写区域,当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息。
 
重要的是,如果语音信号太短,它们有助于依靠声学模型来产生可靠的预测。例如,如果用户同时安装了英语和德语,则德语中的“ nein”和英语中的“ nine”之类的短而含糊的句子可能被否定。
 
此外,为了评估该系统,研究人员还开发了一种称为“平均用户准确性”的自定义指标。他们认为该指标更好地反映了模型中的“人口数量”使用模型。
 
通过为多语种用户严格训练128,000个内部听写话语集以及相应的交互式上下文信息,它在所有语言组合中的平均准确率均达到87%,而与基准相比,最差情况下的准确率提高了60%以上。
 
此外,在团队调整参数以在设备上运行模型的计算量平衡准确性和等待时间之后,平均等待时间从2秒减少到1.2秒,对AUA的影响不超过0.05%。