John :是的,这一发现确实让人沮丧 。在对比一组答案时,评分员的每次对比都要经历一个很长的过程,但是我们只会用到整个过程中的小部分信息,而这一小部分信息的对比时间可能长达半小时左右 。
如果我们能提取出更多信息,了解更多他们得出答案的过程,那么可能会更好一点 。所以我们收集了各种其他信息,比如不同维度给出的评分、连贯性和事实准确性等 。
因此,我觉得应该还能做得更好 。但不幸的是,这种看似有点愚蠢的方法其实很难超越 。人们已经尝试了各种办法,比如以人类反馈来代替偏好分数 。此外还有其他的事情可以做,比如可以让模型进行批判性写作或编辑回答 。
Robin :是的,我认为其中一些事情也有可能实现,而且这种收集偏好数据的方法很有效 。
John :是的,我认为这仍然是一个开放的研究领域 。
Robin :再谈谈那些冗长的指令吧 。
John :在完成任何任务时,都需要遵循许多微妙的规则和细节 。因此,在编写指南时,我们不断添加了更多细节,比如你在这种情况下会做什么?在另一种情况下又会怎么做?然而,随着细节的不断增加,这些指令变得非常冗长 。
不过,这个问题还是有办法解决 。发表了相关文章,使用将任务分解成更小的部分并进行训练,人们一次只关注一个部分,以便更好地理解和掌握每个部分的细节和规则 。此外,研究者还训练了多个规则,特定的奖励模型,以更好地捕捉任务的不同方面和细节,并在最后进行合并 。
强化学习与AGI的未来
Robin :自从你发布TRPO和PPO算法以来,强化学习领域取得了哪些重要的进展?
John :在PPO算法之后,出现了基于价值的TD3和SAC算法,这些算法都表现出了相当高的可靠性 。和 Zero是有效的强化学习算法,Zero的样本效率表现令人印象深刻,它能够在使用更少样本的情况下达到很好的效果 。这些算法可能在一些简单的任务(toy task)或基准测试中表现较好,也开始被应用到一些实际问题中,这是非常有意思的 。
近来,离线强化学习( RL)备受关注 。我认为,RLHF就是一种离线强化学习 。因为在训练过程中,它使用的是预先收集的数据集和奖励模型数据集,而无需实时与环境进行交互 。
Robin :RLHF和传统的离线强化学习算法确实有些相似,但是其方法和技术有所不同 。传统的离线强化学习算法通常使用Off-算法,而基于RLHF算法通常使用On-算法和一种奖励模型 。这些差异是否影响了正在执行的任务?
John :我们正在做一项类似基于模型的强化学习(model-based RL)的任务,而奖励模型就是对系统的未知部分的建模 。我们需要考虑到人类因素的影响,而不是仅仅关注机器的输出结果 。
这项任务也类似于使用环境的动力学模型( model of the ),并运行一些策略评估算法()来评估模型的效果 。虽然对抗机器学习模型的在线算法已经是一种成熟的想法,但之前的研究所处的情境与现在已经大不同 。现在我们可以利用训练好的预训练模型,只需进行一些小幅度的策略更新即可实现目标,而不必进行大规模的模型更改 。因此,我们采用了这些在线算法,这也与我们一直在研究上下文赌博机( )的问题有关 。
由于只有一个时间步,例如,收到一个查询并输出一个响应,然后该响应会获得奖励 。因此,在多步骤(multi-step)过程中,不能立即获得奖励分配 。对话就是一个例子,其中涉及到多个步骤,不能在每个步骤中对其进行奖励分配 。相反,必须在对话结束后才能分配奖励 。
另外,当模型与一些难以模拟的真实世界系统进行交互时,不能完全使用相同的方法来解决问题 。为了提高方法的采样效率,可能需要采用一些略有不同的方法 。例如,可以训练一个Q函数或类似的函数来解决问题 。
- 斯坦福等学者对ChatGPT做了在NLP几乎所有任务上的优劣势分析
- chatgpt赋能python:Python读取PNG文件
- 科技云报道:“火到爆炸”的ChatGPT,为何当不了智能客服?
- Cursor--基于ChatGPT的辅助编程软件
- ChatGPT黑化版来了!拉踩TikTok用户智商、写暴力故事等为所欲为
- chatgpt赋能python:Python波形分析:分析信号与数据
- chatgpt赋能python:Python如何读取照片
- 如何实现基于ChatGPT API的C#接入?
- ChatGPT在英文论文润色编辑领域有哪些应用?
- 超详细|ChatGPT论文润色教程