知乎热榜 ( ) • 2024-05-03 01:11
pinkman的回答

AGI的一个重要标准就是模型能完成各种各样的任务,因此我们做了一个包含大量多模态任务的评测集,包含识别,感知,规划,应用等在内的162个多模态任务。


评测结果表明目前最强的开源模型已经略微超过了GPT4V,其中包括shlab的InternVL和阿里的Qwen-VL,不过都还只是达到了及格线,我们论文通过任务地图,误差分析等工具给出了未来多模态模型需要提升的方向,欢迎大家关注。

论文:arxiv.org/pdf/2404.1600

主页:mmt-bench.github.io/