Vicuna：与ChatGPT 性能最相匹配的开源模型 _评估

(由2.1生成)前言
最近由UC 、CMU、, 和 UC San Diego的研究人员创建的 -13B，通过在收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估，发现-13B 的性能达到了和 Bard 的 90% 以上，同时在 90% 情况下都优于 LLaMA 和等其他模型。训练 -13B 的费用约为 300 美元。训练和代码[1]以及在线演示[2]已公开。
到底怎么样？
在官网中通过和、LLaMA、和Bard对比，然后通过GPT4当裁判来打出分数，具体如下。
问题
-13b vs
【Vicuna：与ChatGPT 性能最相匹配的开源模型】LLaMA-13b vs
vs
Bard vs
可以看出，的回答还是非常棒的，让GPT4来打分，和是十分接近的，远远高于和LLaMA 。
如果大家想试试别的问题，可以自己去尝试[3]哈。
可换不同类型的不同问题
然而，官方认为评估聊天机器人绝非易事，听过GPT4进行评估是一件十分不严格的事情，但是目前还是无法解决评估的问题，需要后续学者进行进一步探索。
图1 GPT-4 评估在线demo
可以在线品尝：。
概述
图2 工作流
图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用FSDP 完成的。LLaMA、、和的详细比较如表 1 所示。
表1 一些模型的对比训练
是通过使用从使用公共 API 收集的大约 7万用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量，将 HTML 转换回并过滤掉一些不合适或低质量的样本。此外，将冗长的对话分成更小的部分，以适应模型的最大上下文长度。
训练方法建立在斯坦福的基础上，并进行了以下改进。
图3 通过GPT4来评估打分
通过GPT4评估得出的总分
:
-13B: #-
进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)
持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。
加入星球，你将获得：
1.每日更新3-5篇最新最优质的的论文速读
2.最新入门和进阶学习资料
4.每日1-3个NLP、搜广推、CV等AI岗位招聘信息
参考资料
[1]
代码:
[2]
demo:
[3]
官方blog: