开箱即用,完整版 ChatGPT 克隆方案,开源了!( 三 )


相比常见的 FP16 推理,它可将显存消耗降低75%,只损失极少量的吞吐速度与性能 。
以 -7B 为例,在使用 4bit 量化推理时,70 亿参数模型仅需大约 4GB 显存即可完成短序列(生成长度为 128 )推理,在普通消费级显卡上即可完成(例如 RTX 3060 ),仅需一行代码即可使用 。
if args.quant == '4bit':model = load_quant(args.pretrained, args.gptq_checkpoint, 4, args.gptq_group_size)
如果采用高效的异步卸载技术(),还可以进一步降低显存要求,使用更低成本的硬件推理更大的模型 。
开放协作
尽管已经进一步引入RLHF,但由于算力和数据集有限,在部分场景下的实际性能仍有提升空间 。
幸运的是,不同以往 AI 大模型与前沿技术仅由少数科技巨头垄断,、 Face 和等开源社区与初创企业在本轮浪潮中也起到了关键作用 。
借鉴开源社区的成功经验,-AI 欢迎各方参与共建,拥抱大模型时代!
可通过以下方式联系或参与:
在发布 issue 或提交 pull(PR)
加入 -AI 用户微信或 Slack 群交流
发送正式合作提案到邮箱 .sg
开源地址:





往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码