ChatGPT作者John Schulman:我们成功的秘密武器( 五 )


在文中,我们主要探讨了两个问题 。首先,我们曾试图将语言模型变成一种Agent,人们在网络上编写了很多不同类型的文本数据,但关于如何实际执行多步骤过程的数据却很少,因此,我们不确定语言模型是否可以实际执行某些迭代过程,我们有很多数据,但这些数据基本上都和写论文、聊天等相关,这是我们在论文中探讨的第一个问题 。
对于这个问题,我认为答案是肯定的 。在这种情况下,我们可以让Agent使用我们提供的工具,比如说搜索、滚动、单击链接等浏览命令 。
其次,我们还探讨了信息的真实性问题,这是语言模型面临的一大难题 。虽然语言模型掌握着海量知识,但如果我们向模型中输入错误的提示,它们可能会输出很多似是而非的废话 。在语言模型领域,如何解决这一问题很值得研究,问题的解决与否也关系着语言模型的发展 。
这个问题很有挑战性,最重要的是,我们要让模型检索、编写带有引用的答案,同时要确保引用来源的可信度 。这样人们就不必再花时间去寻找模型答案的来源,他们可以直接点击引用链接,查看模型答案是否可信 。
在中,我们试图弄清楚如果我们确实给语言模型提供了灵活的Web界面,它能否在引用的帮助下如实回答问题,搞清楚这一点非常重要 。人们搜索的问题五花八门,这些问题可能与科学、历史、时事等相关,人工评分员不一定具备这些问题的相关知识,但他们需要判断细节信息,如果没有引用,这就会成为一件难事 。所以,在一定程度上,我们证明了在引用的帮助下可以在艰深领域内获得良好反馈 。
Robin :的想法从何而来?是深思熟虑之后的结果,还是在论文发表前突然冒出来的?结果怎么样?
John :这个想法其实由来已久 。很久以前,我们在有一个叫作World of Bits的项目(译者注: 项目的前身) 。在那时,我们想要控制Web浏览器来执行涉及互联网的任务,不过当时还为时过早,所以这个想法搁置了几年 。
我们尝试过完整的视觉输入,那时的想法是给Agent输入类似“找出大楼地址”等指示,然后Agent会通过Web、谷歌地图等方法寻找答案,当时我们试图以像素的方式来完成这一切,但显然这种方式并不好,现在我们可以用大型语言模型来处理这些文本信息 。
我们可以从网页中提取文本以获取大部分信息,但暂时还不能与动态网站进行真正地交互,因为这些网站中有大量和图片等内容,除了这些内容之外,我们可以很顺畅地浏览和阅读文本 。因为我们的模型足够好,所以重新考虑将互联网作为环境来使用 。
另一个动机是,在开始使用GPT-3进行尝试之后,我们注意到它在事实准确性和提供的信息可靠性方面存在问题 。因此,我们又开始研究如何使语言模型更具真实性 。我们先进行了头脑风暴,最终决定尝试使用网络进行问答,查找网络上的知识来协助回答问题 。
该项目的原始版本实际上使用了一些常见的问答数据集,例如 QA(其中包含一些基本的常识问题) 。我们在该数据集上进行了一些尝试,试图通过给模型提供网络搜索来提高模型的准确性 。工作开展得很顺利,所以我们又转向了长篇问答,使该项目的工作更进一步 。
Robin :看起来想让语言模型能访问外部知识 。问题是,你认为哪些东西是语言模型可以知道或者允许搜索到的?哪些东西又不能让语言模型访问?这之间有明确的界限吗?
John :有人提倡使用只包含语言的小型模型,我认为这种立场有点极端;还有人建议允许使语言模型知道一切东西,但不能授权其获得外部知识的途径 。我认为,很难将知识、事实性知识与理解区分开来 。人类记不住所有东西,但在需要用到某项知识时,我们可以去查询 。