ChatGPT作者John Schulman:我们成功的秘密武器( 六 )


对于特定领域的工作者来说,进行事实内化是很有用的,这样可以在需要用时快速调用,并在脑海中将其进行组合 。
所以这两种说法我都不赞同,我认为,检索至少对当前事务很有用,而且我们也没想过要使神经网络涵盖人类所有的知识 。
另一方面,人类很幸运,已经扩大了模型 。随着吸收的事实知识越来越多,模型在推理和其他事情上也会做得越来越好 。截止目前,我还没有看到任何微型模型可以做大量检索并保存所有权重以进行推理 。
行为克隆、奖励模型、强化学习和拒绝采样
Robin :在这个项目中,你好像使用了多个不同的数据集和不同的训练方法,包括行为克隆( )、奖励模型( )、强化学习( )和拒绝采样( ) 。
John :我们使用的是一种相当标准的方法,该方法实际上是从以前的RLHF工作中改编而来的 。具体流程是,首先使用监督学习来训练一个模型,在这个过程中,人类演示者展示如何完成任务,例如如何从观察映射到动作 。这个过程就是所谓的监督学习或者行为克隆 。
接下来,我们就会训练一个奖励模型或偏好模型 。它会比较两个动作或两条轨迹,然后决定哪一个更好 。在问答的情境下,我们会比较两个答案并判断哪一个更好 。我们使用这个模型来训练一个奖励模型,该模型会给回答打分,回答的好,分就高,反之则低 。
然后我们根据这个奖励函数进行强化学习 。当然,在进行少量的强化学习之后,你可以迭代执行最后两个步骤 。如此一来,就可以利用奖励模型中的一些缺陷或噪声 。如果新数据分布不准确,就需要重新收集更多的样本对,并重新拟合这个偏好模型 。然后再进行一轮强化学习 。这就是完整的RLHF的流水线 。
另外还有一个叫做拒绝采样或者最优端采样(best of end )的想法 。一般来说,你也可以进行其他类型的搜索 。当有了奖励模型后,你可以对一堆样本进行重新排序,并选择最好的做法 。
Robin :这有点像MPC(Model,模型预测控制)?
John :是的 。这取决于我们所处的环境以及所做的事情 。如果处于交互式环境中,就必须模拟环境动态,这一点和MPC很像 。在我们的案例中,唯一需要学习的模型是人类偏好 。比如在问答环境中,我们可以轻易地对一堆操作()进行采样,其中每个操作都是一个完整的答案,并且可以将它们重新排名或搜索答案 。

ChatGPT作者John Schulman:我们成功的秘密武器

文章插图
Robin :就动作空间( space)而言,它是否只是命令列表?还是说它仍然像常规生成模型一样生成?
John :我们正在生成 。在我们的RL任务中,每一回合都有两个阶段 。首先是浏览阶段,模型会搜索、点击并引用相关信息 。比如模型在网页上看到了有用的信息,就会使用quote命令对信息进行引用 。
浏览完成后,模型会发出结束浏览的命令,这都会用token来表示 。但是,我们将这个过程整合到了大的RL任务中,一个大的回合()包含了浏览网页和给出答案两个阶段 。
Robin :这种方法的效果如何?
John :最开始我们不知道它是否会成功 。在我们用 QA做了最初的实验后,很快就开始运行了,很明显浏览部分起了作用,另外如果给模型一些可以引用的文本片段,它们就可以生成优质的长文本 。
为什么不能使用外部反馈
Robin :人工评分员的任务非常复杂,有很长的评分指南和多种类型的反馈 。但是论文最后表示只有最终评级才有用 。我想知道为什么模型不能使用外部反馈,是因为外部反馈太多了还是因为样本不够?