优享资讯 | AI时代企业想保持领先，如何选择用云，为什么选择阿里云？

知乎热榜 ( ) • 2024-04-22 22:21

OwlLite的回答

AI严格来说不算什么新的词汇，在这个词被提出的近百年之内，其内涵一直在被丰富，其最热门的主题一直在变化之中，其社会影响力和影响范围也在一直被扩大。直到如今以生成式AI(AIGC, 大模型)为主题的新一轮风潮，重塑了大众对AI的理解。

与此同时，AI研发和应用作为一个产业，其规模和应用价值也一直在以指数级速度增长，以至于“算力”问题越来越被注意到。一些专注于AI算力的公司，其利润和市值也走到了难以置信的水平。

AI软件市场指数级增长

无论从大众的生活感知，还是从AI对一些行业的重塑角度来看，AI时代显然已经到来。由于算力成本和计算资源可得性方面的问题，目前的初期计算成本、维护成本非常高昂。如果一家初创企业或者中小企业试图使用自身的资源搭建基建环境，会相比于以前的AI研发要付出更高的综合成本和风险。这是因为：

1）计算硬件成本显著更高，无论是计算单元的成本，研发所需要的计算单元数量还是全过程的时长，都相比以往增加超过一个数量级；

2）数据存储和预处理的压力更大，研发所需要的数据量级要大很多，很多场景下甚至直接使用全网可得数据；

3）计算资源的可靠性要求更高并且可靠性/稳定性跟成本直接相关。在以上高成本条件下，一个研发过程的中断很可能需要对一些重要过程的进行重试，也就是计算/存储资源和时间成本的浪费。

从长期来看，AI必然走进每一个人的生活，影响生活的方法面面，各方面的成本必须大幅下降，但短期来看，我们不能期望计算、存储成本在可预期的时间内以指数级速度下降。

AI跟云计算融合度越来越高

在大模型时代，基础模型(Foundation Models)中绝大部分是企业界发布的，其训练、推理都是在云端完成。即便是大学发布，其所依赖的基础计算资源也非常庞大，也都是在云计算集群上完成的。云计算和AI因此越来越发展成了相互关联的两个市场，并且相互促进发展。

云计算和AI的关系的基础在于“自动化”——云计算让整个AI算法和应用的研发过程以及“背后的资源”都变得标准化、模块化和弹性化，从而让AI开发者更专注于算法和应用的创新本身，而更少担心基础硬件和软件方面的困难。在2019年，德勤发布的报告^[1]中表明，70%的公司通过云服务来获取AI应用支持，65%的AI应用搭建在云服务上。在如今这个大模型时代，这些比例只会继续增加。

模型训练数据规模指数级增长

具体地，在数据方面，大模型所依赖的超大规模数据的存储、预处理，让独立服务器越来越难以应对。这些数据可能是结构化的，也可能是非结构化的甚至更为原始的。在大模型的训练全周期中，这些数据要经过多次的清洗、筛选、标定、结构化等处理过程，从而保障数据的多样性、分布的均衡性、数据质量以及数据的规模都达到理想水平。这些处理过程可能耗费的计算时间比训练模型本身更长。而目前似乎只有云计算能够提供如此规模的处理能力、流程的灵活性以及全过程的稳定性。

典型的大模型数据预处理过程

在模型训练方面，数十万GPU和CPU协同工作数周甚至更久，是大模型训练的家常便饭。一个不稳定的自建集群或者云计算集群的一个出错，都可能让整个过程功亏一篑，从而产生数百万甚至上亿的计算成本。基础模型训练完毕之后的量化、微调、部署等过程也需要极高的计算资源的灵活性和弹性。这些问题目前似乎也只有云计算能够应对。

大模型的这些基本特质，让它天然的跟云计算具有极高的融合度。目前我们能看到的大模型，他们基本上从出身开始就是云原生的。

比如2023年王小川创立的百川智能，很快就发布了多个版本的开源基础模型。这背后就是 阿里云+先进AI技术体系 所保障的。在百川大模型的训练过程中，基于PAI+灵骏的大模型基础设施，百川智能在2天内就完整具备的大模型训练平台能力。基于AIMaster的弹性容错、日志采集与监控等，同时结合百川智能异步Checkpoint等能力，实现了最长一个月任务无人接入不中断的长世间、大规模（千卡级别）计算资源的稳定性。这些共同保障了百川智能平均每月迭代一款模型的研发速度。

同时由于整个研发过程都是基于 阿里云+超大规模普惠算力 ，大模型场景下的数据生产、模型训练、在线业务、搜索增强、AI生态共建等多领域都有比较成熟和稳定的基建和生态保障，也大大加快的其在垂直领域的应用落地。

AI时代的应用弹性更大、周期更短，迭代更快

AI大模型以及微调小模型的应用，表现出更为丰富多样的特质。相比于以往，以LLM为基础的模型对输入数据的模态宽容度更高，文字、图像、语音等都可以作为输入，并且结构化要求更低。这让应用的自由度大幅增加，应用的形态也大规模增长，竞争也更为激烈。由于基本技术的开源和标准化，一个toC/B模型从开发到应用的时间，可能只有数周，迭代周期也更短。这都决定了，在一些应用场景，计算资源的弹性非常高。

比如高途在家直播课要求很高的教育质量，但是近万辅导老师的服务水平的保障和把控是一个难点，这些老师如能提供高效、标准化的服务，对各方来说无疑会产生共赢效果。阿里云跟高途在很短的时间内联合研发了大模型提效方案，基于客户服务和辅导的SOP的流程和大模型的理解、生成能力，构建智能客服助手。在该应用场景下，计算资源的需求在上课时间和非上课时间存在质的差异，无疑要求机构的计算弹性。阿里云+超大规模普惠算力 在不断降本的同时，把稳定性和计算弹性做到极致，为各方实实在在的节省了成本。

总结

阿里云自己开发了通义千问(Qwen)大模型，性能优秀，产生了广泛的行业影响，已经称为中国落地最深、应用最广的大模型。大量开发者基于Qwen开发了自己的模型和应用，基于Qwen的行业模型涉及各行各业，包括心理行业、医疗行业、教育、自动假设、计算机等。

通过通义千问大模型的开发训练以及生态建设，阿里云在大模型的训练和应用方面积累了丰富的经验，并且对阿里云的AI基建进行了针对性的优化。全新升级的人工智能平台PAI, 底层采用HPN 7.0新一代AI集群网络架构，支持高达10万卡量级的集群可扩展规模，超大规模分布式训练加速比高达96%，远超业界水平。这些基础能力让我们在大模型训练任务中，可节省超过50%算力资源。也让 阿里云成为AI时代领先企业的共同选择。

目前，中国一半大模型公司运行在阿里云上，包括百川智能等大批头部企业及机构均在阿里云上训练大模型。

用阿里云，开启AI时代领先之道 成为越来越具有现实意义的关键词。