知乎热榜 ( ) • 2024-04-22 22:21
OwlLite的回答

AI严格来说不算什么新的词汇,在这个词被提出的近百年之内,其内涵一直在被丰富,其最热门的主题一直在变化之中,其社会影响力和影响范围也在一直被扩大。直到如今以生成式AI(AIGC, 大模型)为主题的新一轮风潮,重塑了大众对AI的理解。

与此同时,AI研发和应用作为一个产业,其规模和应用价值也一直在以指数级速度增长,以至于“算力”问题越来越被注意到。一些专注于AI算力的公司,其利润和市值也走到了难以置信的水平。

AI软件市场指数级增长

无论从大众的生活感知,还是从AI对一些行业的重塑角度来看,AI时代显然已经到来。由于算力成本和计算资源可得性方面的问题,目前的初期计算成本、维护成本非常高昂。如果一家初创企业或者中小企业试图使用自身的资源搭建基建环境,会相比于以前的AI研发要付出更高的综合成本和风险。这是因为:

1)计算硬件成本显著更高,无论是计算单元的成本,研发所需要的计算单元数量还是全过程的时长,都相比以往增加超过一个数量级;

2)数据存储和预处理的压力更大,研发所需要的数据量级要大很多,很多场景下甚至直接使用全网可得数据;

3)计算资源的可靠性要求更高并且可靠性/稳定性跟成本直接相关。在以上高成本条件下,一个研发过程的中断很可能需要对一些重要过程的进行重试,也就是计算/存储资源和时间成本的浪费。

从长期来看,AI必然走进每一个人的生活,影响生活的方法面面,各方面的成本必须大幅下降,但短期来看,我们不能期望计算、存储成本在可预期的时间内以指数级速度下降。

AI跟云计算融合度越来越高

在大模型时代,基础模型(Foundation Models)中绝大部分是企业界发布的,其训练、推理都是在云端完成。即便是大学发布,其所依赖的基础计算资源也非常庞大,也都是在云计算集群上完成的。云计算和AI因此越来越发展成了相互关联的两个市场,并且相互促进发展。

云计算和AI的关系的基础在于“自动化”——云计算让整个AI算法和应用的研发过程 以及“背后的资源”都变得标准化、模块化和弹性化,从而让AI开发者更专注于算法和应用的创新本身,而更少担心基础硬件和软件方面的困难。在2019年,德勤发布的报告[1]中表明,70%的公司通过云服务来获取AI应用支持,65%的AI应用搭建在云服务上。在如今这个大模型时代,这些比例只会继续增加。

模型训练数据规模指数级增长

具体地,在数据方面,大模型所依赖的超大规模数据的存储、预处理,让独立服务器越来越难以应对。这些数据可能是结构化的,也可能是非结构化的甚至更为原始的。在大模型的训练全周期中,这些数据要经过多次的清洗、筛选、标定、结构化等处理过程,从而保障数据的多样性、分布的均衡性、数据质量 以及 数据的规模都达到理想水平。这些处理过程可能耗费的计算时间比训练模型本身更长。而目前似乎只有云计算能够提供如此规模的处理能力、流程的灵活性 以及 全过程的稳定性。

典型的大模型数据预处理过程

在模型训练方面,数十万GPU和CPU协同工作数周甚至更久,是大模型训练的家常便饭。一个不稳定的自建集群或者云计算集群的一个出错,都可能让整个过程功亏一篑,从而产生数百万甚至上亿的计算成本。基础模型训练完毕之后的量化、微调、部署等过程也需要极高的计算资源的灵活性和弹性。这些问题目前似乎也只有云计算能够应对。

大模型的这些基本特质,让它天然的跟云计算具有极高的融合度。目前我们能看到的大模型,他们基本上从出身开始就是云原生的。

比如2023年王小川创立的百川智能,很快就发布了多个版本的开源基础模型。这背后就是 阿里云+先进AI技术体系 所保障的。在百川大模型的训练过程中,基于PAI+灵骏的大模型基础设施,百川智能在2天内就完整具备的大模型训练平台能力。基于AIMaster的弹性容错、日志采集与监控等,同时结合百川智能异步Checkpoint等能力,实现了最长一个月任务无人接入不中断的长世间、大规模(千卡级别)计算资源的稳定性。这些共同保障了百川智能平均每月迭代一款模型的研发速度。

同时由于整个研发过程都是基于 阿里云+超大规模普惠算力 ,大模型场景下的数据生产、模型训练、在线业务、搜索增强、AI生态共建等多领域都有 比较成熟和稳定的基建和生态保障,也大大加快的其在垂直领域的应用落地。

AI时代的应用弹性更大、周期更短,迭代更快

AI大模型以及微调小模型的应用,表现出更为丰富多样的特质。相比于以往,以LLM为基础的模型对输入数据的模态宽容度更高,文字、图像、语音等都可以作为输入,并且结构化要求更低。这让应用的自由度大幅增加,应用的形态也大规模增长,竞争也更为激烈。由于基本技术的开源和标准化,一个toC/B模型从开发到应用的时间,可能只有数周,迭代周期也更短。这都决定了,在一些应用场景,计算资源的弹性非常高。

比如高途在家直播课要求很高的教育质量,但是近万辅导老师的服务水平的保障和把控是一个难点,这些老师如能提供高效、标准化的服务,对各方来说无疑会产生共赢效果。阿里云跟高途在很短的时间内联合研发了大模型提效方案,基于客户服务和辅导的SOP的流程和大模型的理解、生成能力,构建智能客服助手。在该应用场景下,计算资源的需求在上课时间和非上课时间存在质的差异,无疑要求机构的计算弹性。阿里云+超大规模普惠算力 在不断降本的同时,把稳定性和计算弹性做到极致,为各方实实在在的节省了成本。

总结

阿里云自己开发了通义千问(Qwen)大模型,性能优秀,产生了广泛的行业影响,已经称为中国落地最深、应用最广的大模型。大量开发者基于Qwen开发了自己的模型和应用,基于Qwen的行业模型涉及各行各业,包括心理行业、医疗行业、教育、自动假设、计算机等。

通过通义千问大模型的开发训练以及生态建设,阿里云在大模型的训练和应用方面积累了丰富的经验,并且对阿里云的AI基建进行了针对性的优化。全新升级的人工智能平台PAI, 底层采用HPN 7.0新一代AI集群网络架构,支持高达10万卡量级的集群可扩展规模,超大规模分布式训练加速比高达96%,远超业界水平。这些基础能力让我们在大模型训练任务中,可节省超过50%算力资源。也让 阿里云成为AI时代领先企业的共同选择

目前,中国一半大模型公司运行在阿里云上,包括百川智能等大批头部企业及机构均在阿里云上训练大模型。

用阿里云,开启AI时代领先之道 成为越来越具有现实意义的关键词。