中国移动研究院首席科学家冯俊兰博士带领人工智能与智慧运营中心语音团队共同撰写的文章《Metafor Low-》被语音国际顶会接收 。
关于
是国际最大且最全面关于言语科学与技术的盛会,由国际语言交流协会()主办,与并列为语音领域两大顶级会议 。
论文摘要
口语语义理解(SLU)将自动语音识别(ASR)和自然语言理解(NLU)视为一个一体化任务,通常存在数据不足的问题 。我们提出一种基于元辅助学习的ASR和NLU联合训练方法,通过仅利用丰富的语音识别标注数据来改善低资源SLU任务的性能 。该方法提供了一个灵活的框架来实现低资源SLU训练任务,无需语义标签参与进一步训练 。具体而言,我们将NLU模型作为标签生成网络,从文本中预测意图和槽位信息;另一方面,构建多任务网络,基于语音同步训练ASR任务和SLU任务,将标签生成网络的预测值作为语义标签传递给多任务网络中的SLU任务,从而实现在没有语义标签情境下的SLU训练 。在公共数据集上的实验证明了该算法的有效性,该方法生成了更适合下游任务NLU的ASR假设 。
01 背景
口语语义理解(SLU)将ASR和NLU联合训练需要大量包含语义标签的语音数据才能取得理想的效果 。一种解决方法是基于迁移学习的方式,基于大规模预训练模型弥补低资源语言语料不足的缺陷,或采用老师-学生模型将资源相对丰富的NLU模型蒸馏给SLU模型 。另一种解决方法是采用语音合成的方式构建语音-语义数据对,从而实现对数据进行增广 。还有一种方法是引入额外信息作为新的输入或者辅助任务 。辅助任务或多任务的方式,仍然需要辅助任务的标签才能进行训练 。
我们提出了基于元辅助学习MAXL(Meta)的SLU建模方案,避免了SLU训练过程中语义标签的参与 。
02模型与方法
图一基于MAXL的SLU建模
如图一所示,我们提出的模型包含两部分:1)多任务网络:同步学习ASR和SLU两个任务;2)标签生成网络(NLU):为SLU任务预测语义标签 。多任务网络的输入是语音信号,NLU网络的输入是语音内容的文本标注(语音识别标注文本) 。NLU的输出为语义预测结果,通过接口层的处理传递给SLU输出层作为预测目标 。在推理阶段,由于接口层使输出结果可导的处理,使SLU无法直接输出可读的结果,因此我们将ASR的预测结果1-best输入给NLU模型得到最终的语义预测 。这样建模的ASR结果更适用于下游任务NLU,同时,NLU模型性能也得到提升 。
2.1 接口层
标签生成网络的输出是由一系列“意图-槽位键-槽位值”三元组组成的列表,长度不固定且无法预置 。但多任务网络的输出长度需要每个批次固定 。另一方面,标签生成网络的输出需要支持梯度回传从而实现标签生成网络的更新 。因此,在输出端之后不能进行取最大值操作,因为这样会破坏网络求梯度 。我们从两个方面考虑了接口层的设计:定长和可导 。
如表1所示:
【Interspeech2022 | 一种基于元辅助学习的低资源口语语义理解方法】表1:两个网络之间接口类型及其属性
文章插图
2.2 模型训练
模型训练分为两步:在每个epoch内部,首先进行普通多任务学习的训练,ASR标签为人工标注的语音内容,SLU标签为NLU预测的结果 。这一步骤使ASR更关注语义相关的部分 。损失函数为:
其中,i为批次索引,x为语音输入,y_asr为语音识别文本标签,为多任务网络f的参数,为标签生成网络g的参数 。
第二步为NLU网络的更新,通过ASR的损失实现 。由于二阶导数的存在,引入算法进行近似求解,从而使网络学习速度提升4~6倍 。损失函数为: