Deep Reinforcement Learning for Automate( 三 )

< γ < 1的系数,那么我们有
目标是设计一个交易策略,使投资组合价值 r ( s t , a t , s t + 1 ) r(s_t, a_t, s_{t+1}) r(st?,at?,st+1?)在动态环境中的正向累积变化最大化,我们采用深度强化学习方法来解决这个问题 。
IV. STOCK
在训练深度强化交易代理之前,我们仔细搭建模拟真实世界的交易环境,让代理进行交互和学习 。在实际交易中,需要考虑各种信息,例如历史股票价格,当前持有的股份,技术指标等 。我们的贸易代理需要通过环境获取这些信息,并采取上一节定义的行动 。我们使用体育馆来实现我们的环境,训练代理[32],[33],[34] 。
A.for
我们使用一个连续动作空间来建模多只股票的交易 。我们假设我们的投资组合总共有30只股票 。
【Deep Reinforcement Learning for Automate】1)状态空间:我们使用由7部分信息组成的181维向量来表示多只股票交易环境的状态空间: [bt, pt, ht,Mt, Rt, Ct, Xt] 。每个组件的定义如下: