优享资讯 | 聚焦｜胡泳：万模大战，数据为王？大语言模型当破除规模迷思

财新网 - 首页 ( ) • 2024-05-08 14:56

“最好的数据就是更多的数据”的数据迷信已经破灭，更大的模型并不意味着更好的结果。应更好地鼓励人们生产更多高质量的数据，而不是听任平台借助算法不断增加用户在其上花费的时间，仅仅是为了大量生产价值低劣的数据

: 谷歌的人工智能应用BardAI（或ChatBot）、OpenAI的应用ChatGPT和其他人工智能应用的图标。图：视觉中国

引言

　　自2022年11月OpenAI首次向公众开放聊天机器人ChatGPT以来，不管是科技精英、媒体从业者还是普罗大众都惊叹于这一被称为大语言模型（large language model，LLM）的生成式人工智能所拥有的类人智慧、应用前景和社会潜力。不仅Alphabet、Meta、亚马逊和英伟达等全球科技巨头都训练了自己的大语言模型，并给予它们以诸如PaLM、Titan、Megatron、Chinchilla等令人眼花缭乱的命名，那些尚未加入这场“万模大战”的新型公司和传统企业也正在围绕生成式革命而重新部署、设计、规划产品和未来商业模式。然而，在大语言模型和生成式人工智能一路高歌猛进的过程中，也始终充斥着担忧和批判的声音，其中一种强烈的声音指向一个似乎已成共识的问题，那就是大语言模型之“大”。