Baichuan-7B LLaMA-Vicuna-13B 和 Baichuan-Vicuna-7B 的对比评测数据(由GPT4打分，供大家参考)

368yc8dk 于 5个月前发布在其他

关注(0)|答案(8)|浏览(88)

问题

首先，感谢百川团队以及 baichuan-vicuna-7b 的工作。考虑到大家可能对于经过SFT后的模型性能感兴趣( #37 ),在此分享一下使用 FastChat 的评估集由 GPT4 进行打分后的 Baichuan Vicuna 7b的评测结果：

https://baichuan-vicuna-eval.pleisto.app/

考虑到 baichuan-vicuna-7b 主要是用 ShareGPT 数据集做的训练，中文数据占比相对较小，因此直接拿 FastChat 的英文评估集进行评测，并和同样基于 ShareGPT数据集训练的 LLaMA Vicuna 13B 进行横向对比，可能是比较有实际意义的。
由GPT4生成的评测总结如下：
根据提供的评分数据，我们可以对两个LLM模型 baichuan-vicuna-7b 和 llama-vicuna-13b 进行详细分析。首先，我们将分别计算每个任务的平均分，然后对模型进行总体评价。
写作任务：
baichuan-vicuna-7b :(9 + 9 + 9 + 9 + 9 + 8 + 7 + 9 + 7 + 8) / 10 = 8.5
llama-vicuna-13b :(8.5 + 9 + 9 + 10 + 9 + 9 + 9 + 9 + 8 + 9) / 10 = 9.05
角色扮演任务：
baichuan-vicuna-7b :(8 + 5 + 4 + 9 + 9 + 8 + 8 + 8 + 8 + 8) / 10 = 7.5
llama-vicuna-13b :(9 + 10 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9) / 10 = 9.1
常识知识：
baichuan-vicuna-7b :(9 + 8 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9) / 10 = 8.9
llama-vicuna-13b :(8.5 + 9 + 9 + 8.5 + 9 + 8.5 + 8.5 + 10 + 8.5 + 9) / 10 = 8.85
费米问题：
baichuan-vicuna-7b :(5 + 4 + 5 + 4 + 7 + 2 + 6 + 5 + 4 + 6) / 10 = 4.8
llama-vicuna-13b :(8 + 8 + 7 + 9 + 9 + 8 + 8 + 8 + 7 + 8) /