Vicuna:与ChatGPT 性能最相匹配的开源模型

(由2.1生成)前言
最近由UC 、CMU、, 和 UC San Diego的研究人员创建的 -13B,通过在收集的用户共享对话数据中微调 LLaMA获得 。其中使用 GPT-4 进行评估,发现-13B 的性能达到了 和 Bard 的 90% 以上,同时在 90% 情况下都优于 LLaMA 和等其他模型 。训练 -13B 的费用约为 300 美元 。训练和代码[1]以及在线演示[2]已公开 。
到底怎么样?
在官网中通过和、LLaMA、和Bard对比,然后通过GPT4当裁判来打出分数,具体如下 。
问题
-13b vs
【Vicuna:与ChatGPT 性能最相匹配的开源模型】LLaMA-13b vs
vs
Bard vs
可以看出,的回答还是非常棒的,让GPT4来打分,和是十分接近的,远远高于和LLaMA 。
如果大家想试试别的问题,可以自己去尝试[3]哈 。
可换不同类型的不同问题
然而,官方认为评估聊天机器人绝非易事,听过GPT4进行评估是一件十分不严格的事情,但是目前还是无法解决评估的问题,需要后续学者进行进一步探索 。
图1 GPT-4 评估在线demo
可以在线品尝: 。
概述
图2 工作流
图 2 介绍了整体工作流程 。训练是在一天时间在 8 个 A100 上使用FSDP 完成的 。LLaMA、、 和的详细比较如表 1 所示 。
表1 一些模型的对比训练
是通过使用从使用公共 API 收集的大约 7万 用户共享对话微调 LLaMA 基础模型创建的 。为了确保数据质量,将 HTML 转换回并过滤掉一些不合适或低质量的样本 。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度 。
训练方法建立在斯坦福的基础上,并进行了以下改进 。
图3 通过GPT4来评估打分
通过GPT4评估得出的总分
:
-13B: #-
进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)
持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息 。
加入星球,你将获得:
1.每日更新3-5篇最新最优质的的论文速读
2.最新入门和进阶学习资料
4.每日1-3个NLP、搜广推、CV等AI岗位招聘信息
参考资料
[1]
代码:
[2]
demo:
[3]
官方blog: