深度解读 ChatGPT基本原理

一、 是什么1.1、如何使用?
能做的事情非常多,从普通的知识性问答,聊天,对话、教学、科研及时代码生成、代码分析、Debug的能力,都是具备的 。
是一个融合了巨量人类智慧的超级结晶体,拥有了它,你可以随时获取任何领域的知识,通过理解你的问题,整理汇总出比较简单的、简洁的答案输出,这比我们平时自己去百度、搜索然后自己汇总有非常明显的优势,所以这种超强的知识提取和总结能力,真的很令人惊艳,如何使用才能最大化它的作用 。
简单的说,其实就是一句话,提出好的问题,对于来说,问题比答案更重要,因为GPT模型本身就是基于提示()来起作用的,它的回答,取决于你给他的提示的内容和质量,那么怎么才能提出好的问题呢?
1)、增加细节(增加提示的细节和要求)
2)、不断追问(基于生成的内容不断追问)
3)、心存疑问(对于的回答不能盲目相信)
1.2、 是万能的吗?
不是万能的,它的回答没有经过验证,因为这是它的模型自动推理产生的,这就是深度学习神经网络的局限性,在上亿、百亿、甚至千亿的网络参数中,我们不可能知道是哪些参数在发挥作用,也就是说我们不可能知道它的答案到底有多准确,所以本身也有几个明显的问题:
1)、中文训练语料库比英文训练语料库要少,所以中文知识也少
2)、它无法给出这个信息提供的来源,这就跟百度和有本质的不同,在搜索引擎中,我们知道文章是谁写的,所以只能使用它训练的知识
3)、无法获取最新的数据,只能获取训练时间节点的数据来提供知识
当然,以上存在的局限性可能会随着不断的训练和进化,它的答案会越来越好,但是答案可能出错的可能性是永远存在的 。
当一个人一本正经说的时候,我们很容易就觉得他是在说真话,如果他说了很多真话之后,偶尔说几句假话,就非常具有欺骗性了,这就是的问题,所以大家在使用的时候一定要有批判性思维,不能盲从,必须要对答案进行验证 。
1.3、 的底层原理
我们可以让自己来回答一下这个问题吧,目前来看最新的GPT模型回答还算比较准确 。
我们都知道两个非常经典的深度学习模型,一个是RNN,一个是LSTM,循环神经网络,长短时记忆网络主要用于处理序列类型数据的经典模型,而是基于比这两个模型更新的架构 。
二、预训练大语言模型的发展 2.1、 架构出现之前
在架构和与训练大模型出现之前,NLP历史上已经有很多思潮的涌现和发展了,深度学习在NLP领域的突破其实是比较晚的,最早深度学习的突破都集中在计算机视觉领域 。
从2012年开始,模型在图像识别大赛中,取得了很大的突破,这个标志着CNN卷积神经网络的兴起,后来有、VGG 各种深度学习模型的出现,大幅度的提升了图像分类,目标检测、语义分割等CV任务的准确性,在目标检测人脸识别有R-CNN、Fast R-CNN、YOLO SSD一系列算法;语义分割方面也有SENet UNet,再加上生成对抗网络GAN的出现,然后DCGAN、这种图像生成、风格迁移领域都取得了非常显著的进展 。
所以,在2018年以前,CV的发展是风生水起,在NLP领域,虽然有RNN和LSTM,但是并没有特别多的真正落地应用的突破性进展 。
是什么带来了NLP领域第一轮的飞跃呢? 到了2018年之后,两个核心技术就产生了,一个就是,另外一个就是BERT,随着这两个模型的诞生,NLP的节奏逐渐就追上来了,紧接着一系列的与训练大模型像雨后春笋个般的出现了,我们就可以下载这些与训练大模型,然后通过微调,在自己的自然语言处理任务上去使用它们,这里的自然语言处理任务就是我们实际的问题,比如语音识别、文本分类、情感分类、命名实体识别、机器翻译、文本摘要、文本生成等 。