3.2、训练回报模型
让简化版的GPT监督训练之后变得更强,通过人工标注所有输出的优劣势
先让输出很多个答案,然后基于它所生成的答案给他排序,我们只需要人工标注哪个答案是最好的,所以做了大量的这种标注,
3.3、使用 PPO 模型微调 SFT 模型
通过PPO强化学习算法,实现模型的自我优化,强化学习就是让AI在不断的试错过程中自我调整优化策略,然后最大化预期的长期奖励,简单来说,就是让AI自己去不断尝试,前两步学习的模型在强化学习这一步都能派上用场 。
首先用监督版学习的来初始化PPO模型,让模型去指导它,去给回答一个评分,然后AI就基于这个评分去调整自己的参数,试图在下一个回答中得到更高的分数,不断的重复这个过程,这个幼儿版的就成熟起来了,能够自我更新了 。
【深度解读 ChatGPT基本原理】经历这样的三个步骤,一个真正的就训练好了,就能形成我们人类更期待的回答 。
- ChatGPT 自动化办公系列教程 - 提问篇:协助解决 Excel 相关问题
- ChatGPT工作提效之在程序开发中的巧劲和指令(创建MySQL语句、PHP语句
- 如何用ChatGPT举办活动,人类与AI的一次深度对谈
- 人类怎么管好以 ChatGPT 为代表的 AI ?
- 那个帮爷爷卖茶叶的善良女孩,可能是ChatGPT
- Visual ChatGPT:Microsoft ChatGPT 和 VFM 相
- 如何正确使用ChatGPT的Prompts
- chatgpt赋能python:Python爬虫:抓取数据的实用技巧
- 对话 ChatGPT:现象级 AI 应用,将如何阐释「研发效能管理」?
- 鸿蒙到底是不是安卓? ChatGPT的回答令人惊讶!