ChatGPT作者John Schulman:我们成功的秘密武器( 三 )


因此,模型必须在某个地方进行计算,例如计算当前的风格是什么,或者正在模仿哪种较为小众的风格集合 。至少,在进行监督微调或完全基于人类反馈的训练时,我们可以缩小模型生成的文本风格范围,尝试模仿训练集中最好的人或最好的风格 。
当然,“最好”会有很大的差异,最终得到的内容将取决于我们的指令 。如果我们要求模型生成内容时不要太过于有争议,又要“企业化()”一点,那么生成的内容也就是这样 。因此,我们至少可以将模型限定到一个特定的风格,而不是互联网上所有的风格 。
但我认为,这里面可能还有更多的内容 。模型不仅仅是在学习文本风格,模型内部可能还在试图确定一些语句是否正确 。当然,我上面所说的是关于原始预训练模型 。我认为“预测下一个token”的目标会为我们提供很多信息,这将迫使模型确定语句是否正确 。
对于强化学习微调而言,我认为还会赋予模型更多的潜力去生成可信任的东西,而不是仅仅模仿某种风格,但现在还很难确定模型是否在这样做 。现在还是在引导着模型去获取互联网上那些我们想要的东西,模仿我们想模仿的内容 。而我们想使更多地关注互联网上那些更可信任的东西 。
语言模型的泛化能力
Robin :无论如何,我们应该模仿出互联网上最真实的一面 。你能否谈一下泛化,以及这种模型在分布外(out of )的表现如何?
John :总的来说,语言模型整体上具有惊人的泛化能力 。我认为,像这些在互联网上受过多元化数据训练的预训练模型,它们通常泛化得相当好 。至少对于那些在机器学习早期就接触过这些技术的人来说,这很令人惊讶 。例如,即使是用其他语言,甚至是一种相对罕见的语言提供指令,模型通常也能够很好地遵循,即使整个训练过程中没有任何数据是用该语言编写的指令 。这就是从预训练中延续下来的能力 。
这实际是一个关于奖励模型的问题,举个例子:如果问题有点不同于它所接受的训练,比如在奖励模型的训练数据中稍微偏离一点,那么会发生什么呢?
我认为,RLHF的一个棘手问题是:对奖励模型进行训练时,也就是在训练以获得高奖励,意味着这会利用奖励模型中的错误 。它最终会找到针对奖励模型的对抗示例,但这比正常的分布外行为(out of)更糟糕 。因此,在将奖励模型尽可能地泛化到训练集之外确实存在一些挑战 。

ChatGPT作者John Schulman:我们成功的秘密武器

文章插图
当这些类型的Agent遇到某些难题时会提醒它不知道吗?我认为,如果你问一个模型知识核心的问题,它会知道答案,而且它也知道自己知道答案(这里指的是类的模型) 。但如果你问它关于其知识边缘的问题,那可能回答起来会有困难,必然会出现不准确的情况 。有几篇论文还讨论过这个问题,比如发表的 ,know what they know,发表的toTheirin Words 。这些语言模型以及机器学习中许多其他模型都是为了最大化可能性而进行训练的 。
鉴于已经训练过Agent始终预测输出的分布( of ),因此,对于语言模型,只要给定前缀,它就会预测下一个token的分布,而且通常预测的相当准确 。如果它在预测某项任务有80%的概率,而且每次都是80%,那么它的正确率就为80% 。
这只是训练目标的结果 。训练目标鼓励对模型进行校准,这是因为模型校准可以提高不确定性估计的准确性 。
因此,对于单个token级别,模型肯定经过校准 。问题是,模型校准是否准确?校准后的模型是否能应用于多个token输出的情境中?又或是它们是否可以判断多个token语句的正确性?