【论文笔记】Skills Regularized Task Decomposit( 四 )


基本过程就是:采样——算损失函数——梯度下降 , 循环然后结束 。
接下来 , 作者提供 skill- 效应的分析 。
设q q q 和p p p 为通过最小化L S E L_{SE} LSE? 中损失函数得到的技能编码器和解码器 , 类似于其他文献中将p p p 视为环境的一部分 。解码器p p p 遵循 MDPM p = ( S , A = Z , P p , R p , γ ) M_p =(S,A = Z,P_p,R_p,\gamma) Mp?=(S,A=Z,Pp?,Rp?,γ)  , 其中高级(技能)动作z t ∈ Z z_t \in \{Z} zt?∈Z 被转换为直接与环境交互的低级(原始)动作a t ~ p ( ? ∣ s t , z t ) a_t\sim p(\cdot|s_t,z_t) at?~p(?∣st?,zt?)。
Karl ,Lee, andJ Lim. “withskill ”. In: arXiv : 2010.11944 (2020).
Nam et al. “Skill-based Meta- ”. In:of 10thon(ICLR). 2022.
此外 , 假设L T E L_{TE} LTE? 中的子轨迹τ \tau τ 和L S E L_{SE} LSE? 中的状态-动作对序列d d d 受限于当前状态 , 获得了针对 MDPM p M_p Mp? 训练的高级策略q θ q_θ qθ? 和q q q。由于q θ q_θ qθ? 的输出包含在M p M_p Mp? 的输入状态中 , 因此我们的目标是最大化q θ q_θ qθ? 和q q q 之间的性能差距 , 其中J p J_{p} Jp? 是 MDPM p M_p Mp? 中的平均回报 。
max ? η ( θ ) = J p ( q θ ) ? J p ( q ) \max\text{ }\eta(\theta)=J_{p}(q_{\theta})-J_{p}(q) maxη(θ)=Jp?(qθ?)?Jp?(q)
根据文献 , 我们得到η ( θ ) = E s ~ d q θ , z ~ q θ [ R s , z q ? V q ( s ) ] \eta(\theta)= E_{s\sim d_{q_{θ}},z\sim q_{θ}} [R^{q}_{s,z} - V_{q}(s)] η(θ)=Es~dqθ??,z~qθ??[Rs,zq??Vq?(s)]  , 其中d q θ d_{q_{θ}} dqθ?? 是由q θ q_θ qθ? 引起的状态访问分布 ,  R s , z q R^{q}_{s,z} Rs,zq? 是由q q q 引起的回合收益 ,  V q V_q Vq? 是q q q 的值函数 。
Sham M.and John . “”. In:of the 19thon(ICML). 2002, pp. 267–274.
在离线强化学习中 , 精确地逼近q θ q_θ qθ? 是困难的 , 因此我们更希望使用q q q 的分布作为q θ q_θ qθ? 的状态访问分布 , 以避免过多的传播误差 。为了实现这一点 , 我们在q q q 和q θ q_θ qθ? 保持紧密接近的限制下 , 优化η ^ ( θ ) = E s ~ q , z ~ q θ [ R s , z q ? V q ( s ) ] \hat{\eta}(\theta)= E_{s\sim q,z\sim q_{θ}} [R^{q}_{s,z} - V^{q}(s)] η^?(θ)=Es~q,z~qθ??[Rs,zq??Vq(s)]
像这种带有显式约束条件的优化 , 都可以用拉格朗日转化成一个非限制的优化 ,  β \beta β 是拉格朗日乘子 。
通过对上述式子右侧关于q θ q_{θ} qθ? 求导 , 并遵循文献中的最优策略推导过程 , 获得了满足下面回报加权条件的闭式解 。
Xue Bin Peng et al. “- :andoff-”. In: arXiv : 1910.00177 (2019).
Kumar, Xue Bin Peng, and. “- ”. In: arXiv : 1912.13465 (2019).
当省略基线项V q ( s ) V_{q}(s) Vq?(s) 并达到常数时 , 我们还发现L S R L_{SR} LSR? 的加权技能正则化损失可以使子任务嵌入与给定任务的高质量技能相匹配 , 从而促进任务分解为可共享和可实现的子任务 。
我的评论:好难啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊!!!!!
4 Databy
在离线强化学习中 , 由于给定的静态数据集可能无法完全代表其相应的真实马尔可夫过程 , 且不允许进一步探索 , 因此强化学习智能体通常会经历次优性能 。
生成模型和噪声用于生成附加轨迹 , 可以使智能体进行本地局部的探索 。
在本节中 , 作者介绍了一种特定于上述任务分解的数据增强方法 , 其中包括质量感知技能正则化 , 以便我们可以解决过度拟合和有限性能问题 。现有的工作旨在通过利用状态增强方法来减少未见状态的不良影响 , 而作者则专注于增强这些轨迹(虚构演示) , 这些轨迹很可能是由高质量的基于技能的学习生成的 。