ICASSP2023论文分享 | DST：基于Transformer的可变形语音( 二 ) _网络模型

2.1
原始的核心是多头自注意模块（Multi-Head Self-，MSA），它使得在其他深度神经网络中脱颖而出。具体来说，MSA机制可以写成：

文章插图
其中，Q，K，V分别是query，key，value矩阵；dQ是一个缩放因子，h代表注意力头的数量；WQi，WKi，WVi，Wo是可学习的参数矩阵。
2.22.2.1
可变形的注意机制（DSA）是DST的核心。与先前的注意机制不同，DSA能够通过简单的决策网络改变窗口的大小并调整窗口的位置。设Qi中的第j个token为Qji，其中i属于[i,h] 。决策网络首先根据Qji产生窗口的大小sij和偏移量oij：
给定当前位置索引j和偏移量oij，既可以得到关键片段Aij的中心锚点。结合预测的窗口大小sij，可以得出第i个注意力头中第j个query token的注意力窗口左边界Lij和右边界Rij 。计算方法如下：
最后，每个query token通过所提出的DSA机制分别在其变形后的注意力窗口中计算注意力输出。DSA的计算公式如下：
2.2.2End-to-End
为了便于阅读，我们将省略符号的下标。在实践中，决策网络的输出窗口大小s和偏移量o是小数，导致注意力边界L和R也是小数。然而，在公式（8）中，索引操作K[L:R]和V[L:R]要求L和R均为整数。一个简单的解决方法是将L和R四舍五入为整数。然而，上述舍入操作是不可微的，将导致决策网络无法通过反向传播算法进行优化。为了以可微的方式将决策网络添加到计算图中，我们利用预测边界（L和R）与真实边界之间的距离，以及中心与中心锚点（A）之间的距离，为被DSA选中的关键生成权重。具体而言，只有当预测的边界接近真实边界时，第L和R个才会被分配较大的权重。两个中心的权重相互影响，锚点靠近哪一侧，则哪一侧的权重更大。需要注意的是，我们期望中心锚点即是重要片段的中心，因此中心的权重应大于1以增强中心的作用。权重的计算方法如下所示：
最终，决策网络可以以端到端的方式与整个模型一起进行优化。假设当前的索引为3，权重计算和加权过程如图3所示。
3.1and

文章插图
数据集：、MELD
指标：（WA）、（UA）、F1（WF1）
输入特征：采用WavLM模型提取声学特征。和MELD样本的最大序列长度分别设定为326和224 。
3.2and Hyper-
我们使用随机梯度下降算法（SGD）来训练120，其中在数据集上的学习率为5e?4，在MELD数据集上为1e?3 。我们使用warm来调整训练过程中的学习率。决策网络的学习率需要乘以0.1 。batch大小设置为32，注意力头的数量为8，DST 的数量为4 。
3.3and3.3.1with Other
：为了分析DST的优越性，我们实现了其他常见的注意力机制，包括全局注意机制、基于局部窗口的注意机制和类DCN的注意机制，并对它们进行比较。基于局部窗口的注意机制的窗口大小和类DCN的注意机制中采样点的数量设置为输入长度的10％。我们还提供每个query的平均激活数量占输入总量的百分比，方便进行全面的分析。如表1所示，DST在和MELD数据集上的表现都要好于其他的注意机制。其中，使用类DCN注意机制会导致性能显著下降，这表明对语音信号进行连续建模是十分必要的。另外，我们发现在上，每个query的平均激活数量占输入总数量的8.7％，而在MELD上，这个占比增加到12.7％。这种不确定性揭示了手动调整注意力窗口参数的困难性，而让模型自主确定窗口的配置是更好的选择。此外，DST可通过可变形能力学习所有潜在的细粒度和粗粒度情感特征。最后，我们进行了消融实验，我们丢弃了学习而来的窗口大小（-.size）或将学习而来的偏移量重置为零（-.），表1中最后两行的消融结果再次证实了本文所提出的可变形做法的有效性。