优享资讯 | 如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一？开源潜力真的有这么大吗?

知乎热榜 ( ) • 2024-06-16 11:45

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一？开源潜力真的有这么大吗?

卜寒兮的回答

我感觉开源这玩意某种程度上跟 b 站的鬼畜文化挺像的，假如某个视频不让大家二创，作者把版权牢牢攥在手里，或者动不动发个律师函，那么大家也不会想和你玩，最后只有敬而远之了，作者也失去了跟社区互动的机会。

但是如果一个视频撒开了让大家玩、进行二创，那么这个视频就会越来越火，整个鬼畜区都会活跃起来，自然就有了更多机会被人了解和认可。

想想如果不是 ikun 们夜以继日的二创，鸽鸽篮球打得再好，也很难一直保持这样的热度啊。):

开源大模型也是这样，相当于开源企业告诉大家别有什么顾虑，咱们一起“整活”，为社区做贡献，那么自然会吸引更多的企业和开发者使用他们的模型，用户收得到了好处和方便，企业也收获到更多反馈和跟社区交流了的机会，最后一同让整个开源社区更加进步，属实是双赢的行为。

过去的一年，开源大模型真的比闭源的大模型取得了更多的进展和成就么？

另外，题目中提到的 LiveBenchAI 是这两天刚发布的一个大模型评测标准，由 Abacus AI 联合杨立昆等团队推出，亮点是考虑了越来越严重的测试集污染的问题，并且有 ground-truth 答案作为客观的参考。

为了限制潜在的污染，LiveBench每月发布新问题，并且这些问题基于最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介。
每个问题都有可验证的客观真值答案，这使得难题可以在不使用大语言模型评审的情况下准确且自动地评分。
LiveBench目前包含18项跨6个类别的多样化任务，并且我们会随着时间的推移发布新的、更难的任务。^[1]