【论文笔记】Skills Regularized Task Decomposit _强化学习

本文开源代码：Taskfor Multi-task
文章目录2.2For Multi-taskRL 3 Taskwith -aware Skill4 Databy5.1 Meta-world Tests 5.2 A Case Study for -based Drone6Work7
研究背景：使用不同离线数据集的强化学习（RL）可以利用多个任务之间的关系和跨这些任务学习到的共同技能，从而使我们能够以数据驱动的方式有效地处理现实世界中的复杂问题。
研究问题：在离线强化学习中，只使用离线数据，与环境的联机交互受到限制，但很难实现多个任务的最优策略，特别是在任务的数据质量不同的情况下。
解决思路：基于技能的多任务强化学习技术 + 由不同品质的行为策略产生的异质数据集
In this paper, wea skill-based multi-task RLonthat arebyof.
具体技术路线：
【【论文笔记】Skills Regularized Task Decomposit】实验设置：tasks and dronetasks
实验结论：我们的多任务离线强化学习方法对不同质量的数据集的混合配置具有鲁棒性。它的表现优于其他最先进的算法。
1
在强化学习领域，离线强化学习研究最近得到了广泛的关注，大量研究表明，利用之前收集的经验和轨迹数据，采用数据驱动的学习机制对各种顺序决策问题是有效的。
, a datafor multi-taskwastothe issue ofdata for real-world. Yet, multi-task RL has not been fullyin.
最近，引入了一种数据共享方法，以解决现实世界控制应用中存在的有限数据问题。这种方法适用于多任务学习，但是在离线背景下，数据共享式的多任务强化学习尚未得到充分的研究。
In theRL , wea novel multi-task model by which afortasks can be data-and itsistoof.
在离线强化学习的背景下，我们提出了一种新颖的多任务模型，通过该模型可以高效地使用数据实现多个任务的单一策略，并且其学习过程对不同质量的异构数据集具有鲁棒性。
**离线强化学习对存在质量差异的数据应具有什么要求？为什么？**在离线强化学习中，不允许与环境进行交互，并且在数据收集过程中可能涉及任意或低性能的行为策略，因此在不同质量的数据上保持学习的鲁棒性非常重要。
InRL wherewith theis notandor low-might bein data , it istotheinon - data.
To this end, wea jointof skill (short-termfrom the ) and task , whichthe taskintovia -aware skill . The modeltheofupon the mixedof - .
作者开发了一个技能（来自数据集中的短动作序列）和任务表征的共同学习的机制，这个学习机制可以通过质量注意力的技能正则化将任务解耦成可实现的子任务。该模型保证了学习策略在不同质量数据集的混合配置下的鲁棒性。
We alsodatabased on high- , thusandtheand scaleof, which isatthat areto beby.
我们还采用基于高质量技能的数据增强方法，从而创建可信的轨迹，并缓解离线数据集的有限质量和规模问题，旨在创建可能由专家策略生成的虚构轨迹。
22.1RL
离线强化学习旨在最大化累积折扣奖励J ( π ) J(\pi) J(π) ，采用与传统强化学习相同的公式；然而，与之不同的是，离线强化学习假定仅使用先前收集的轨迹的静态数据集D = { ( s t , a t , r t , s t + 1 ) } D = \{(s_t, a_t, r_t, s_{t+1})\} D={(st?,at?,rt?,st+1?)} 进行训练。它几乎不考虑与环境的交互。
RLcantheofdata in theofwherewith long timeis .
离线强化学习算法可以增加先前收集的数据在进行序贯决策的领域中的可用性，其中长时间范围内的时间信用分配非常重要。