ICASSP2023｜达摩院语音实验室入选论文全况速览 _语音

论文单位：阿里巴巴集团
核心内容：随着技术的进步和疫情的推动，线上会议成为越来越普遍的协作沟通方式。在自动语音识别（ASR）的帮助下，我们可以越来越便捷地获取会议音频对应的转写文本（即会议记录）。然而，从会议记录中提取重要信息（如议题、决策、待办等）形成会议纪要，仍然主要依赖于人工整理。因此，很多任务被提出希望机器自动识别重要信息，辅助人工整理会议纪要。其中，行动项识别是在会议记录中自动识别待办的相关内容。行动项识别相关的数据集非常稀缺，为此我们构建并计划开源第一个带有行动项标注的中文会议数据集。在此基础上，我们提出了 -Drop 方法，通过对比学习来更好地建模局部和全局上下文，在行动项抽取表现和鲁棒性方面均取得了更好的效果。此外，我们探索了model的方法，利用不同的预训练模型，提高行动项抽取的表现。
图示.不同上下文建模方式及mble示意图
06 MUG: Aand
论文作者：张庆林，邓憧，刘嘉庆，于海，陈谦，王雯，鄢志杰，刘静林，任意，赵洲
论文单位：阿里巴巴集团，浙江大学
数据集详细信息链接：
核心内容：从视频会议和在线课程中收集信息时，听取长时间的视频/音频记录是非常低效的。即使ASR系统将录音转录成长篇的口语文档，读取ASR转录也只能在一定程度上加快查找信息的速度。众多研究表明，关键词提取、主题分割和摘要等一系列自然语言处理应用显著提高了用户获取重要信息的效率。会议场景是应用这些口语处理能力最有价值的场景之一。然而，缺乏针对这些口语处理任务进行注释的大规模公共会议数据集严重阻碍了它们的发展。为了推动口语处理的进步，我们建立了一个大规模的通用会议理解与生成基准（MUG），用于评估各种口语处理任务的性能，包括主题分割、主题级和会话级摘要、主题标题生成、关键词提取和行动项检测。为了方便MUG基准测试，我们构建并发布了一个全面的长篇口语处理开发的大规模会议数据集，即，其中包括424个涵盖不同主题的普通话会议记录，手动标注了音视频会议下人工转写文稿的SLP任务。在论文中，我们详细介绍了该语料库、SLP任务和评估方法、基线系统及其性能。
07Layer for
【ICASSP2023｜达摩院语音实验室入选论文全况速览】论文作者：马煜坤, Trung Hieu , 倪瑾杰, 王雯, 陈谦, 张冲, 马斌
作者单位：阿里巴巴集团，南洋理工大学
核心内容：端到端口语理解需要有语义标注信息的语音数据，而且可能会受到标注数据不足的影响。最近很多研究工作聚焦在利用未标注的语音数据对语音编码器进行预训练。然而，对于预训练语音表征来说，编码语义信息仍然是一个挑战。现有的研究通过在固定粒度上使用不同的对齐损失来探索从预训练文本模型转移知识。在本文中，我们通过 APLY（一种辅助池化层）解决了从文本到语音表示的可变粒度问题，它明确地融合了全局信息和自适应编码的本地上下文。我们在三个口语理解基准测试上展示了 APLY 的有效性。
图示.跨模态知识蒸馏结构示意图
编码器是学生模型。BERT编码器是预训练文本模型。Layer用于融合多颗粒度信息，以更好地对齐BERT模型中编码的知识。
08for
论文作者：张琳涵，陈谦，王雯，邓憧，，，，
论文单位：阿里巴巴集团，新南威尔士大学，香港科技大学（广州）
核心内容：掩码语言模型（，MLM）被广泛用于预训练语言模型。标准的随机掩码策略会导致预训练语言模型（PLMs）偏向于高频词。对于罕见词的表示学习效果较差，且PLMs在下游任务中的性能受到限制。为了缓解这种频率偏差问题，我们提出了两种简单而有效的加权采样策略，以基于词频和训练损失进行掩码。我们将这两种策略应用于BERT，并获得了加权采样BERT（）。在语义文本相似性基准（，STS）上的实验表明，在句子嵌入方面明显优于BERT 。将与校准方法和提示学习相结合，进一步提高了句子嵌入的性能。我们还研究了在GLUE基准上微调，并表明加权采样也提高了骨干PLM的迁移学习能力。我们进一步分析并提供了如何改善token嵌入的见解。