ICASSP2023|达摩院语音实验室入选论文全况速览( 二 )


图示:动态加权采样用于掩码语言模型(MLM)的示意图
09Text andPre-
论文作者:倪瑾杰, 马煜坤, 王雯, 陈谦, 黄殿文, Han Lei, Trung Hieu , 张冲, 马斌
作者单位:南洋理工大学,阿里巴巴集团
核心内容:通过学习大量的语音语料库,许多自监督语音模型在近期取得了成功 。通过知识蒸馏,这些模型也可以从在丰富文本资源上预训练的语言模型所编码的知识中受益 。但是,由于文本和语音表征空间之间存在模态差异,因此从文本到语音的知识蒸馏过程更具挑战性 。本研究我们关注如何使用少量数据即可对文本和语音的嵌入空间进行对齐,而无需修改模型结构 。由于现有的研究往往忽略了文本和语音之间的语义和粒度差距,从而影响了蒸馏的效果,我们提出了先验信息自适应知识蒸馏(PAD),它可以自适应地利用可变粒度和先验显著性分布的文本/语音单元,以实现文本和语音预训练模型之间更好的全局和局部对齐 。我们在三个口语理解基准上进行了评估,以展示PAD在转移语言知识方面比其他蒸馏方法更有效 。
图示. 全局和局部对齐都受ASP的影响,以缩小语义差距 。自适应音频段对齐(AASA)可重新组织语音序列,以缩小粒度差距 。
10 :Noise in a Self- Model for
论文作者:黄殿文,张芮熙,叶家祺,杨钊,倪瑾杰,张冲,马煜坤,倪崇嘉,Eng Siong Chng,马斌
论文单位:阿里巴巴集团,南洋理工大学,西安交通大学

ICASSP2023|达摩院语音实验室入选论文全况速览

文章插图
核心内容:自监督学习利用大量未标注语料库训练的语音预训练模型,为构建良好的语音识别模型提供了一种有效的途径 。然而,当前许多模型都是在单一来源的干净语料库上训练的,当在复杂场景中存在噪声时测试表现较差,导致模型识别率降低 。因此,减少噪声对识别率的损失对于实际应用至关重要 。受冗余度简化原则(H. 's - )的启发,我们提出了一种新的训练框架,旨在通过降噪编码来提高模型对噪声的鲁棒性 。基于原始算法,并引入一个辅助损失函数,通过将不同信噪比的噪声对之间的自相关矩阵和交叉相关矩阵驱向单位矩阵,促使模型从输入音频数据中学习到与噪声无关的噪音解耦语音表征 。实验表明,能够显著提高模型在域内、域外噪声场景下的识别效果,同时不影响干净数据集上的效果 。
图示. 最小化潜层特征自相关和交叉相关矩阵驱向单位矩阵 。
11Mixup for Low-
论文作者:黄殿文,张芮熙,叶家祺,张冲,马煜坤,Trung Hieu ,倪崇嘉,Eng Siong Chng,马斌
论文单位:阿里巴巴集团,南洋理工大学
核心内容:基于神经网络技术的关键词识别模型通常需要大量的训练数据才能学习到较好的语音表征,以在大多数智能设备上使用 。然而,随着智能设备越来越趋于个性化,关键词识别模型需要利用少量的用户数据来快速进行领域自适应 。为了应对低资源关键词识别问题,我们提出了一种名为的对比语音混合数据增强算法 。在现有的数据混合增强技术中引入了一个辅助对比损失函数,以最大化原始样本和增强样本之间的相对相似性 。通过加入增强约束,利用同一数据样本的两个不同数据增强样本(即嘈杂混合和干净预混合音频),引导模型学习到更简单但内容信息更丰富的语音表征 。我们在谷歌语音命令数据集上进行实验验证,并将训练集缩小到每个关键词两分半钟以模拟低资源条件,实验结果表明,适用于多种基础模型,并且在性能方面均得到了一致的提高,展现了该方法的有效性 。