相比常见的 FP16 推理,它可将显存消耗降低75%,只损失极少量的吞吐速度与性能 。
以 -7B 为例,在使用 4bit 量化推理时,70 亿参数模型仅需大约 4GB 显存即可完成短序列(生成长度为 128 )推理,在普通消费级显卡上即可完成(例如 RTX 3060 ),仅需一行代码即可使用 。
if args.quant == '4bit':model = load_quant(args.pretrained, args.gptq_checkpoint, 4, args.gptq_group_size)
如果采用高效的异步卸载技术(),还可以进一步降低显存要求,使用更低成本的硬件推理更大的模型 。
开放协作
尽管已经进一步引入RLHF,但由于算力和数据集有限,在部分场景下的实际性能仍有提升空间 。
幸运的是,不同以往 AI 大模型与前沿技术仅由少数科技巨头垄断,、 Face 和等开源社区与初创企业在本轮浪潮中也起到了关键作用 。
借鉴开源社区的成功经验,-AI 欢迎各方参与共建,拥抱大模型时代!
可通过以下方式联系或参与:
在发布 issue 或提交 pull(PR)
加入 -AI 用户微信或 Slack 群交流
发送正式合作提案到邮箱 .sg
开源地址:
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
- 0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5
- 结婚攻略
- ChatGPT怎么用?这几个技巧让你快速完成各种工作!来吧展示!
- 中国发现全球科学记录最完整恐龙胚胎 世界之最恐龙胚胎
- 粉红别墅
- 大连疗养院
- 韩国游轮
- 10本已完结巫妖流西幻小说,我永恒不死不灭,世界将为之颤栗 世界十大禁咒
- 中国内地三大名媛千金,身价个个超百亿,7小时都逛不完自家豪宅 中国十大名媛
- ChatGPT 完全颠覆了我今年的计划