ChatGPT作者John Schulman:我们成功的秘密武器( 四 )


因为模型通过单个token级别进行校准,所以我认为它们在不同环境中需要校准的信息确实不同 。这就是我认为模型不难准确表达出校准信息的原因,或者至少让模型像人一样很好地表达不确定信息,这个问题也并非无法解决,但在实践中,需要解决一些实际的困难 。
AI对齐工作进入第二阶段
Robin :人们对于“AI对齐( AI )”有不同的理解方式,你如何看待RLHF方面的对齐工作?
John :在我看来,AI对齐的主要目标是让模型通过训练知道人类的意图,并在执行任务时做出符合人类期望的行为 。因此,我们需要分辨模型的能力 。例如,当我们给一个原始语言模型提出一个问题时,它可能并不知道我们希望它给出一个完美的答案 。相反,它可能会假设我们只是希望得到一个符合语法和语义规则的回答 。
Robin :的一篇博客讨论了对齐序列( in ),一共包括三个阶段:第一阶段是使用人类反馈训练AI系统,第二阶段是训练AI系统协助人类反馈,第三阶段是训练AI系统进行对齐研究 。所以你目前的工作主要是使用人类反馈训练AI系统,那何时以及如何才能进入其他阶段?
John :我现在正在做第二阶段的工作,即训练AI系统以协助人类反馈 。当我们开始尝试让系统解决更具挑战性的问题时,第二阶段的工作就变得越来越重要 。当模型的性能远低于人类水平或在某些任务上达到人类水平时,监督它们非常容易 。但是,当模型处理的任务非常困难,需要大量不同的技术知识时,就很难提供有效的监督信号 。
为了解决这个问题,我们可以采取一些措施,比如利用两个模型:针对某个问题,一个模型给出相应的答案,然后另一个模型对该答案提出批评意见,指出不足之处 。这样,人们在看完批评意见后,就只需要判断答案是否正确,批评有助于人类更准确地评估答案 。这一想法十分重要,我和同事们正在探索 。此外,也正在做一些工作来协助对齐研究,不过完成这项工作任重而道远 。
Robin : 是博士委员会的成员之一,我非常喜欢他的《人类兼容性(Human )》一书 。他指出,标准强化学习框架通常是基于固定奖励信号的,而这种框架存在一定的问题 。针对该问题,我们需要培养强大的Agent,使其尝试做我们想做的事情,同时对我们的意图保持一种怀疑态度,因为确定的Agent会存在一定问题 。你如何看待这一观点?
John :我完全赞同 的观点 。首先,编写一个简单的奖励函数来捕捉我们的意图是非常困难的 。我们希望Agent能够理解我们的意图,并以最好的方式来实现这些意图,而不是盲目地追求某些极端的结果 。
在构建Agent时,我们应该确保它们保持一种怀疑态度,以便更好地理解我们的意图和目标 。这也可以帮助Agent更加谨慎地采取行动,以确保它们在实现目标的同时也考虑到其他重要的因素 。
提出了一个很好的问题定义,即让AI与人类共同玩一个游戏,该游戏的目标是让AI尝试理解人类的意图,并采取行动尝试满足这一意图,同时保持一定的怀疑态度 。
我认为,如果我们开始思考如何将所描述的目标应用到实践中,就会发现实际上这与以及其他组织正在进行的RLHF研究非常相似 。我们正在努力实现这一目标 。
的想法从何而来
Robin :2021年,你和等人共同发表论文《:基于人类反馈的浏览器辅助问答》,能解释下主要想解决的问题吗?
John :在中,我们将语言模型与网络浏览器相连,以便从网络中检索信息 。这些语言模型可以通过总结网络上的相关信息来写答案,这样一来,如果你对时事热点提问,或者询问一些需要详细科学或技术知识的问题,AI就可以在网络上查找答案,并详细引用其来源 。