【论文笔记】Skills Regularized Task Decomposit( 三 ) _强化学习

3.1Skill
为了将智能体的行为表示为潜在空间Z \{Z} Z 中的向量，作者使用了自编码机制。
考虑到短期范围上的动作序列捕获了智能体对特定任务的行为，我们称之为潜在向量b t b_t bt? 技能嵌入。
编码器q ? q_{\phi} q?? 将状态动作对序列d t = ( s , a ) t ? n : t + n ? 1 d_{t}=(s,a)_{t-n:t + n-1} dt?=(s,a)t?n:t+n?1? 作为输入，将其映射到潜在向量b t ∈ Z b_{t} \in\{Z} bt?∈Z ，而解码器p ? p_{\phi} p?? 则从 b t b_{t} bt? 和s t ? n : t + n ? 1 s_{t-n:t + n-1} st?n:t+n?1? 的组合中重构出输入的动作序列a t ? n : t + n ? 1 a_{t-n:t + n-1} at?n:t+n?1?。

文章插图
Fortheon skillb t ∈ Z b_{t} \in\{Z} bt?∈Z , we useauto- (WAE) with themean(MMD)-basedand a prioronb t b_t bt? .
为了保持技能嵌入b t ∈ Z b_{t} \in\{Z} bt?∈Z 的学习稳定性，我们使用了基于最大平均差异的惩罚项的沃瑟斯坦变分编码器，和b t b_t bt? 的先验分布。
{ b i ^ } i = 1 m ～ P B \{\hat{b_{i}}\}_{i=1}^{m}\sim P_{B} {bi?^?}i=1m?～PB? 是从一个技能嵌入分布的先验中采样得到； λ > 0 \ >0 λ>0 是基于先验分布的正则化超参数；
L P R L_{PR} LPR? 用来限制技能嵌入。
m m m 表示采样得到的{ b , b ^ } \{b,\hat{b}\} {b,b^} 的大小， k : Z × Z → R k:\{Z}\times\{Z}\\{R} k:Z×Z→R 表示正项定义的核。
3.2 Skill- Task
我们将任务看成一些子任务的组合，这些子任务可以被建模成具有隐藏参数的 MDP。
We first view each task as aofwhich can beas aMDP.
对于任务嵌入，我们使用基于沃瑟斯坦变分编码器的模型结构，与先前的技能嵌入的构成类似。
For task , we then use the WAE-based modelto skill.
对于n n n 长度的状态转移的子轨迹τ t = ( s t ? n : t , a t ? n ? 1 : t ? 1 , r t ? n ? 1 : t ? 1 ) τ_{t} = (s_{t?n:t}, a_{t?n?1:t?1}, r_{t?n?1:t?1}) τt?=(st?n:t?,at?n?1:t?1?,rt?n?1:t?1?)
作者使用一个编码器q θ : τ t → z t ∈ Z q_{\theta}:τ_{t}\ z_t \in \{Z} qθ?:τt?→zt?∈Z 来产生Z \{Z} Z 空间下的任务嵌入；
作者使用一个解码器p θ : ( s t , a t , z t ) → ( s t + 1 , r t ) p_{θ} : (s_t, a_t, z_t) \ (s_{t+1}, r_t) pθ?:(st?,at?,zt?)→(st+1?,rt?) 来表达状态转移概率P P P 和奖励函数R R R。
For sub-τ t = ( s t ? n : t , a t ? n ? 1 : t ? 1 , r t ? n ? 1 : t ? 1 ) τ_{t} = (s_{t?n:t}, a_{t?n?1:t?1}, r_{t?n?1:t?1}) τt?=(st?n:t?,at?n?1:t?1?,rt?n?1:t?1?) ofn n n-each, we have anq θ : τ t → z t ∈ Z q_{\theta}:τ_{t}\ z_t \in \{Z} qθ?:τt?→zt?∈Z to yield taskand ap θ : ( s t , a t , z t ) → ( s t + 1 , r t ) p_{θ} : (s_t, a_t, z_t) \ (s_{t+1}, r_t) pθ?:(st?,at?,zt?)→(st+1?,rt?) totheP P P andR R R
所以任务嵌入的训练目标是：（类似于一种 model-based 的方法）
这个是任务嵌入，他的状态、动作以及奖励的获得都会收到品质的影响。因此需要在此处增加正则化，也就是增加在这段状态转移带来的累计奖励。所以作者的 -aware 其实就是增加了前面的奖励正则化？？？
作者给出了总的损失函数：
这使得编码器q θ q_{θ} qθ? 能够在多任务背景中，通过一系列子轨迹生成子任务级别的嵌入（或子任务嵌入）。特别地，每个任务都被表示为与一些具有大量回合收益的轨迹中学习到的高质量技能密切相关。通过更多地使用高质量技能进行任务无关的训练，这种任务分解减少了低质量数据的不良影响，并将任务分解为更可实现的子任务。
作者给出了伪代码。
一般来说先验分布设置成正态分布，更好计算更好采样。