Baichuan-7B LLaMA-Vicuna-13B 和 Baichuan-Vicuna-7B 的对比评测数据(由GPT4打分,供大家参考)

368yc8dk  于 5个月前  发布在  其他
关注(0)|答案(8)|浏览(87)

问题

首先,感谢百川团队以及 baichuan-vicuna-7b 的工作。考虑到大家可能对于经过SFT后的模型性能感兴趣( #37 ),在此分享一下使用 FastChat 的评估集由 GPT4 进行打分后的 Baichuan Vicuna 7b的评测结果:

https://baichuan-vicuna-eval.pleisto.app/

考虑到 baichuan-vicuna-7b 主要是用 ShareGPT 数据集做的训练,中文数据占比相对较小,因此直接拿 FastChat 的英文评估集进行评测,并和同样基于 ShareGPT数据集训练的 LLaMA Vicuna 13B 进行横向对比,可能是比较有实际意义的。
由GPT4生成的评测总结如下:
根据提供的评分数据,我们可以对两个LLM模型 baichuan-vicuna-7bllama-vicuna-13b 进行详细分析。首先,我们将分别计算每个任务的平均分,然后对模型进行总体评价。
写作任务:
baichuan-vicuna-7b :(9 + 9 + 9 + 9 + 9 + 8 + 7 + 9 + 7 + 8) / 10 = 8.5
llama-vicuna-13b :(8.5 + 9 + 9 + 10 + 9 + 9 + 9 + 9 + 8 + 9) / 10 = 9.05
角色扮演任务:
baichuan-vicuna-7b :(8 + 5 + 4 + 9 + 9 + 8 + 8 + 8 + 8 + 8) / 10 = 7.5
llama-vicuna-13b :(9 + 10 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9) / 10 = 9.1
常识知识:
baichuan-vicuna-7b :(9 + 8 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9) / 10 = 8.9
llama-vicuna-13b :(8.5 + 9 + 9 + 8.5 + 9 + 8.5 + 8.5 + 10 + 8.5 + 9) / 10 = 8.85
费米问题:
baichuan-vicuna-7b :(5 + 4 + 5 + 4 + 7 + 2 + 6 + 5 + 4 + 6) / 10 = 4.8
llama-vicuna-13b :(8 + 8 + 7 + 9 + 9 + 8 + 8 + 8 + 7 + 8) /

omjgkv6w

omjgkv6w1#

你好,感谢你的分享。我不太明白你的问题。你是在问有没有人对7b或chatgpt进行评测对比吗?如果是的话,我可以帮你搜索一下相关信息。

dly7yett

dly7yett2#

你好,@0xDing ,感谢你的分享。这两天我一直在刷,终于等到了评测。有对比7b或chatgpt的评测吗?毕竟7b和13b模型的大小也有很大差距。

由于GPT4的token比较贵,所以暂时没有进行直接评测。你可以在查看 https://baichuan-vicuna-eval.pleisto.app/ 上 chatgpt和llama-vicuna的答案来进行间接比较。

e5nszbig

e5nszbig3#

@0xDing 感谢工作分享,方便分享下其在sharegpt数据上的训练损失情况吗?

ux6nzvsh

ux6nzvsh4#

感谢工作分享,请问能否方便分享一下在sharegpt数据上的训练损失情况?

我只对权重进行了评测的工作。baichuan-vicuna-7b的权重文件由fireballoon训练,可以在https://huggingface.co/fireballoon/baichuan-vicuna-7b/discussions找到。

qlvxas9a

qlvxas9a5#

不错啊,一个7b的中英文模型,在英文评测集上也跑出跟llama 13b接近的效果

0g0grzrc

0g0grzrc7#

请问LLaMA-Vicuna-13B的权重在哪里下载?有相应的微调代码吗?

tcomlyy6

tcomlyy68#

请问LLaMA-Vicuna-13B的权重在哪里下载?有相应的微调代码吗?
https://huggingface.co/lmsys/vicuna-13b-delta-v1.1
https://github.com/lm-sys/FastChat

相关问题