ICASSP2023论文分享 | DST：基于Transformer的可变形语音 _网络模型

本次分享华南理工大学、优必选研究院等合作在会议发表的论文《DST:for》。该论文提出一个可变形的结构来对语音情感信号进行建模，能够自适应地发现并关注到语音信号中有价值的细粒度情感信息。
论文地址：
代码仓库：
得益于多头自注意机制，在语音情感识别（, SER）领域取得了令人瞩目的成果。与原始的全局注意机制相比，基于局部窗口的注意机制在学习细粒度特征方面更加有效，同时可以极大降低模型的冗余度。然而，情感信息是以多粒度的方式存在的，预先设定的固定窗口会严重降低模型的灵活性。此外，人们难以得到最优的窗口设置。针对上述问题，本文提出一个可变形的结构来对语音情感信号进行建模，记作DST（）。DST可以通过一个轻量的决策网络，根据输入语音的特性动态决定注意机制中的窗口大小。同时，我们引入一个与输入语音信号相关的偏移量来调整注意力窗口的位置，使DST能够自适应地发现并关注到语音信号中有价值的情感信息。我们在和MELD数据库上进行的大量实验，证明了DST的优越性。
由于情感是区分人类和机器最基本的特征之一且语音是日常交流中最基本的工具，因此，通过语音信号分析人类的情感状态是研究界所重点关注的研究方向。由于深度学习的快速发展，许多模型已被提出并在语音情感识别方向取得不错的效果。其中，卷积神经网络、循环神经网络及其变体已被广泛研究和应用在实际生活中。
是近年来广受关注的新架构，并在深度学习领域大放异彩。与以往的模型不同，采用图1(a)中的全局注意机制学习输入信号的全局表征。尽管在SER中的有效性已经得到证实，但在使用进行情感分析时，仍有几个关键点需要特别注意：1）情感信息是多粒度的，这意味着除了语言信号的全局表征，语音中的细节信息也很重要。语言的局部特征，如清晰度和延音，也与情感状态高度相关。2）全局注意机制模式固定，缺乏多样性，不足以捕捉多粒度的情感特征。3）全局注意机制的计算量大，计算冗余，应用时对硬件的要求高。
改进的一个主流做法是将全局注意机制替换为基于局部窗口的注意机制。如图1(b)所示，基于局部窗口的注意机制将注意力范围限制在一个固定的局部窗口。窗口的大小通常被设定为一个较小的值，迫使学习细粒度的特征。然而，固定的窗口严重降低了模型的灵活性。不仅如此，它还削弱了模型的全局学习能力。通常此做法需要对窗口的设置进行大量的人工调整才能确保模型获得最佳的性能。
为了解决上述问题，本文为语言情感识别任务提出一个可变形的架构，称为DST 。我们赋予可变形的能力。在DST中，注意力窗口的大小由一个轻量的决策网络学习而来，无需预先设定窗口的大小。另外，注意力窗口的位置可以通过学习而来的偏移量进行移动。DST的这些性质遵循语言情感信息的本质，同时极大地提高了模型的灵活性。此外，与可变形卷积网络（，DCN）和在视觉领域中使用的类DCN注意力（图1（c））不同，DST对连续的进行建模，使得DST更加遵循语音信号的连续性（图1（d））。在实验部分，我们将对不同的注意力机制进行可视化分析，以便直观地理解各种注意力机制之间的区别。
如图2所示，我们提出的DST由多个DST 堆叠组成。其中，每个DST block主要由可变形的注意模块（，DSA）和前馈网络（Feed-，FFN）组成。配备了DSA模块后，我们的DST能够根据输入的语音信号自适应地决定注意窗口的大小和位置，这极大地提高了模型的灵活性，并能够有效地学习多粒度的情感表征。