Interspeech2022 | 一种基于元辅助学习的低资源口语语义理解方法( 二 )


其中,K为NLU输出维度,N为批大小 。
03 实验结果
我们首先对比了所提方法与其他方法,如表2所示,基线系统ASR由6000小时普通话训练得到,NLU模型由-MAP文本训练 。可以看到,基线系统由于ASR识别结果不理想导致NLU的F1-score也偏低 。端到端训练使ASR和NLU性能均得到一定提升 。使用-MAP数据微调ASR模型可以使CER显著降低,F1值绝对提升4.33% 。MAXL是标准元辅助学习的算法,First-order是采用加速训练的结果,可以看到二者均获得了较好的NLU预测结果 。最后为了进一步验证NLU的性能,我们对比了直接用真实语义标签进行多任务学习的结果,可以看到First-order仍然取得了相当的结果,这一方面验证了NLU作为标签预测器是可信的,另一方面也验证了用ASR损失训练NLU是有正向收益的 。
表2:本文方法与其他方法对比
由表2我们看到即使ASR性能提升有限,NLU性能也有可能获得较大提升,这说明ASR输出更适于下游NLU任务了 。为了进一步验证该结论,我们采用训练集得到的ASR输出重新训练了NLU,由表3可以看到该NLU性能已经和用人工标注的ASR文本训练得到NLU性能相似(表2,Fine-tuned) 。
表3:训练集ASR性能CER和NLU性能
表4我们对比了不同接口的性能,可以看到几种接口性能接近,但是可导的接口(,)仍然可以获得较好的性能,而且NLU预测网络性能的提升,也说明该网络即使没有语义标签,也从多任务网络的学习中得到了收益 。
表4:不同接口性能对比 。
(, , , 分别表示、NER tag、Sum of 、and slot types)
表5显示出预训练对模型的影响,可以看到ASR和NLU有预训练模型会取得更优的效果,尤其NLU模块预训练起极其关键的作用 。
表5:未使用预训练模型结果
为了验证该方法在无标数据的作用,我们只使用了一半带语义标签的文本数据进行NLU模型预训练,剩余一半进行无语义标签的MAXL训练 。由表6可以看出,在没有语义标签参与训练的情况下,模型语义预测性能仍能得到提升 。
表6:只使用一半语义标签进行NLU模型预训练另一半进行无语义标签的MAXL训练结果
04 总结
本文提出了一种基于MAXL的SLU建模方案用于降低模型对带语义标签的语音数据的需求 。ASR和NLU的联合训练提高了ASR的质量,并成功实现从有监督任务中为无监督任务提取知识,实现没有语义标签参与训练时NLU性能提升 。该结果与我们的假设相一致,即:ASR和NLU之间的作用是双向的,ASR输出会影响NLU性能,同样NLU预测结果也应该反馈给ASR去引导它的预测 。下一步我们将尝试将该方法用于更多数据集以及更复杂的网络结构 。
供稿 | 九天语音团队