开箱即用，完整版 ChatGPT 克隆方案，开源了！( 三 ) _模型

相比常见的 FP16 推理，它可将显存消耗降低75%，只损失极少量的吞吐速度与性能。
以 -7B 为例，在使用 4bit 量化推理时，70 亿参数模型仅需大约 4GB 显存即可完成短序列（生成长度为 128 ）推理，在普通消费级显卡上即可完成（例如 RTX 3060 ），仅需一行代码即可使用。
if args.quant == '4bit':model = load_quant(args.pretrained, args.gptq_checkpoint, 4, args.gptq_group_size)
如果采用高效的异步卸载技术()，还可以进一步降低显存要求，使用更低成本的硬件推理更大的模型。
开放协作
尽管已经进一步引入RLHF，但由于算力和数据集有限，在部分场景下的实际性能仍有提升空间。
幸运的是，不同以往 AI 大模型与前沿技术仅由少数科技巨头垄断，、 Face 和等开源社区与初创企业在本轮浪潮中也起到了关键作用。
借鉴开源社区的成功经验，-AI 欢迎各方参与共建，拥抱大模型时代！
可通过以下方式联系或参与：
在发布 issue 或提交 pull(PR)
加入 -AI 用户微信或 Slack 群交流
发送正式合作提案到邮箱 .sg
开源地址：

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码