【论文笔记】Skills Regularized Task Decomposit( 五 )


大概的意思就是通过技能解码器优化执行动作的同时 , 将技能解码器和任务解码器耦合来生成想象的动作 。
然后作者得到了的生成方式:通过状态和浅层变量的信息(技能解码器)的得到动作;通过状态和浅层变量的信息 , 以及生成的动作信息 , 得到想象的下一时刻的状态和想象的奖励 。
Note that in thismodel,p θ p_θ pθ?the same role of the world model inmodel-based RL .
这个也好理解 , model-based 的方法是学习环境的动力学特性 , 这部分相当于学好了环境动力学然后做预测

【论文笔记】Skills Regularized Task Decomposit

文章插图
, it turns out that thein (9)ato, given that the high- skillto theisintop ? p_? p?? .
作者发现 , 通过自己的方法可以生成很好的轨迹 , 这个轨迹跟专家示教轨迹一样 , 这是因为对应这条轨迹的高质量技能被集成到了p ? p_? p?? 中 。
作者通过图片展示了自己生成的轨迹的好坏 。原本的源数据集 , 有好的轨迹和不好的轨迹;但是相比于高斯噪声和专家数据 , 这样的想象的演示数据把质量好的、优势的数据全部集中了 。
5
机器人操作环境 —— Neta-world 无人机环境 —— thedrone
+()
最好的离线强化学习算法;在 TD3 的更新步骤中加入了一个行为克隆的正则化项;包括一个独热编码的任务表示作为状态的一部分 。
一种基于梯度修剪的多任务强化学习算法;使用投影函数来消除梯度之间的方向冲突 。
专为多任务强化学习定制的模块化深度神经网络架构;减轻在单个策略上学习不同任务的负面影响 , 使用一组专门针对多个任务进行训练的模块上的软加权路由路径 , 它还采用了一种损失平衡策略 。
u1s1 , 作者的这种介绍的写法很值得学习啊~~~
-(MR)表示从初始到部分训练的中等策略中学习过程中采样的数据集;(RP)表示在整个学习过程中采样的数据集;-(ME)表示从中等到专家策略中学习过程中采样的数据集 。
请注意 , 除非另有说明 , 否则每个任务的MR、RP和ME数据集分别包含150、100和50个轨迹 。
5.1 Meta-world Tests
MT10(i.e., 10tasks)
The tasks sharesuch as grasp and , so they can be seen asmulti-tasks with, which arewith our task.
这些任务共享通用的基本功能 , 例如抓取和移动 , 因此它们可以被视为具有共享子任务的通用多任务 , 这与我们的任务分解策略是一致的 。
on MT10
TD3+BC andshowfor theof low- , e.g., the row of (MR 10, RP 0, ME 0), butshowsfor theof high-e.g., the row of (MR 0, RP 0, ME 10).
TD3+BC andtheof tasks bytask-muchwhentasks, andtheof the tasks byandtask-by theof its .
TD3+BC和通过分别累积特定于任务的知识来探索任务的正交性 , 在学习不同任务时几乎没有干扰 , 而则通过学习共享技能和通过其模块的组合动态提取特定于任务的知识 , 从而利用任务的共性 。
, our TD3+BCwith one-hot tasktends to learntasks ,that the taskdoes nottheoftasks .
具体来说 , 使用一位有效编码的 TD3+BC 实现倾向于单独学习各个任务 , 考虑到任务编码未明确表示不同任务之间的语义关系 。
study
SRTD-Q: SRTDtheterm
SRTD+N: SRTD with thenoise-based dataused inRL
5.2 A Case Study for -based Drone
实验配置:我们在PEDRA中配置了各种逼真的地图和多样化的风模式 , 以构建一个多任务的无人机飞行环境 。
6Work Multi-task RL