优享资讯 | 如何看待最近王小川、江南春、陈向东三位大佬为「阿里云」点赞？

知乎热榜 ( ) • 2024-04-22 22:21

溪亭日暮的回答

谁如果能替我省钱，我也会实名制点赞。

都说大模型可以让“人人都是开发者”，但其中最底层的逻辑就在于云计算和许多AI工具的普及，只不过，还有许多人看不清楚而已。

数字化转型是一个不转不行的过程。

那我们做一个简单的假设，如果所有传统企业老板在转型的过程中，都以“一己之力”，那么流程大抵如下：先从大厂挖人做大模型，卷ChatGPT、再卷通义千问；然后发广告、做视频、搞直播，宣传自己的技术如何如何，最后变现。但是毕竟数字化转型是为了管理端和业务端服务的，而非仅仅为了“炫技”。如果你是做新媒体的，这就相当于“曲线求国”了。可话说回来，明明两点之间直线最短，你为什么要走曲线呢？

大模型行业有一个名词叫做“套壳”。从个人角度而言，“套壳”其实并不是什么丢人的事儿，与其反复造轮子，不如借力打力。对于传统行业数字化转型一样，既然知道做大模型成本高、支出贵，那你直接借用成熟的大模型好了；云服务器贵，那你直接上云好了。

一、大模型时代的AI基础设施：云计算

有一位自己创业的朋友用阿里云归档存储，做公司服务器的每周备份。他跟我说过一句话：说白了，效率提高的背后就是AI工具进化了，而AI工具的基础设施就是云计算和云存储。

关于云计算是什么可能不用过多赘述，实际上它就是一种将可伸缩、弹性、共享的物理和虚拟资源池以按需自服务的方式供应和管理，并提供网络访问的模式。在大模型时代，“上云”总是和性价比绑定出场。

像是题主提到的百川智能这类大模型厂商，在其训练模型的过程中大概面对三个共性需求：大规模的算力资源支持、运维易用性和稳定性、模型推理效率和成本。

图源网络

大模型这几年确实非常火，但是训练大模型一个逃不开的话题就是“烧钱”，就拿GPT-4来说，其训练规模大概在13万亿个tokens左右，预估的训练成本大概是6400万美元。由于大模型的训练需要消耗大量的GPU计算资源，因此现在许多厂商选择“上云”替代搭建云服务器。尤其是基于阿里云云计算的支持，百川智能建立起了2千卡以上规模集群，可以进行长时间、高效率的模型生产和迭代。之前走“月更”路线的百川智能，现在也开始变成了“半月更”了。

Claude等大模型，图源网络

在MT-Bench、IFEval等对齐榜单的评测中，Baichuan 3超越了GPT-3.5。

由于大模型训练涉及算力、网络、存储、大数据、AI框架、AI模型等多方面技术，因此对于大模型厂商而言，与其自建复杂高性能网络、集群管理和调度系统和AI开发平台，不如将目光转向一体化的AI开发平台。道理很简单，肯德基为什么不让每个门店养鸡、捉鸡、烤鸡，而是要做中央厨房，因为一体化的AI开发平台就像中央厨房，可以简化模型训练流程、支持快速上线、降低运维难度，同时还能实现稳定性。依然拿百川智能举例，据说，百川智能的整体方案基本上可以在2天内完成部署、投入使用，相当于把两个月的活儿缩短到了两天干。

实际上，百川如今走的路正是大模型厂商现在或者是将来要走的。一言以蔽之，大模型训练需要消耗巨大的计算资源，而云计算可以提供弹性资源调度能力，像买燃气费一样按需获取并快速释放大规模GPU集群等硬件资源。这也是为什么阿里云成为了AI时代领先企业的共同选择。

大模型时代，就应该是一个分工合作的时代，各自聚焦擅长的领域，把1+1做到真正的大于2，比如阿里云提供的先进AI、普惠算力都能够成为其中之“1”。

二、如果没有云计算，传统企业何去何从？

传统企业数字化转型的基建变了又变，“三十年河东、三十年河西”，过去云是IT的一部分，但是如今IT是云的一部分。

简单来说，早期的云计算就是IaaS和Paas，用来提供基础的计算资源和服务。但是到今天，云计算的涵义有了延展，它已经成为一个集成了各种先进技术和服务的综合平台。这个平台能够支持从数据处理、存储，到复杂的人工智能应用等一系列功能。下至芯片指令级别，到网络存储、云主机、云服务器，上至云原生架构、微服务架构、大数据技术、数据库技术、容器化部署、Serverless，乃至于视频云服务，以及大型网络数据中心之间的资源调度等等。

云计算部分产品，图源阿里云官网

分众传媒和阿里云的结合就是对Serverless的一次探索。

图源：阿里云官网

分众传媒的核心业务是广告投放与效果展示，尤其是电梯广告，其中包含广告设计、视频处理到投放排期和统计等等。主打的就是静态海报和电梯屏幕广告，用分众传媒自己的话说，城市人口4亿人，其中就有3亿人看分众传媒的电梯广告。

基于阿里云云原生应用架构，支持了手机APP和视频终端等多种业务应用，如员工接入、CRM、视频处理、图片识别、数据上报、数据分析和新兴的视频直播业务。具体来说，比如你告诉Serverless 计算平台，每周六周日有两百万处理量，需要在两天完成，其中高峰是早上九到十点或者下午三到四点，就可以实现资源的自动弹性收缩；同时，也可以提供大规模的识别能力，对于200万张静态电梯海报的每周上刊任务，可以实时监控图片上刊情况，一旦图片放错或放反，系统会自动通知相关人员，确保问题在一小时内得到解决。可以说，用阿里云，让企业开启AI时代领先之道。

三、大模型时代有哪些上云姿势

一个不得不承认的事实是，云计算正在大幅度降低开发者和初创企业的试错成本。云计算提供了一个低成本、高效率的开发环境，让低初级的开发者、初创企业以及传统企业极大地降低了应用开发的试错成本。

用一个直观的例子来说，就是从买“计算机”变成了买“计算”。云计算和云服务从“稀缺资源”变成了像水电煤气一样的基础设施。

概括而言，有两种主要的上云姿势：一种是保守型上云，也就是在较低的成本范围内保证数据的可控性和可用性；另一种则是大刀阔斧式的改革，将底层架构彻底云原生化，虽然成本较高，但是长期来看收益明显。

就拿AIGC产品刚刚冒头的那一次“盛况”——妙鸭相机的刷屏来说，或者至少在我朋友圈的刷屏。其实为什么妙鸭相机生成一个照片，用户需要等待十几个小时，就是因为照片的生成需要大量的GPU算力资源，如果在高峰期大概需要几千台GPU服务器才能满足。用脑子想想也知道，几千台GPU服务器很难线下部署。

图源网络

它其实就是阿里云+全球云基础设施在云计算应用的一个很好的例子，在用户获得“美美哒”的写真之前，妙鸭相机需要对用户上传的照片进行微调训练，同时完成短时间的在线推理。而这些工作的完成，都基于阿里云在全球的3000多个边缘计算节点，以及阿里云提供的十万卡以上GPU规模的算力，同时可承载多个万亿参数大模型同时在线微调训练和推理，这样才能保证低延时和高弹性。

当然，之所以说试错成本低，也包括字面意义上的含义。今年年初阿里云全线下调云产品官网售价，平均降价幅度超过20%，最高降幅达55%，涉及100多款产品、500多个产品规格等等。

图源：阿里云官网

写在最后：

熟悉我的都知道，我自己也会带一些研究生，以前每到他们毕业，都会说一句，希望我们顶峰相见。

到了现在，或许可以说，我们“云”上见。