新聞 | iThome ( ) • 2024-04-02 00:21

SEEDS(Scalable Ensemble Envelope Diffusion Sampler)模型能够生成比传统方法多一个量级的样本。

Google发表最新的天气预报研究,其采用一种称为机率扩散模型(Probabilistic Diffusion Model)的生成式人工智慧技术,开发出SEEDS(Scalable Ensemble Envelope Diffusion Sampler)天气预报模型。SEEDS可以有效地大规模产生天气预报系集(Ensemble),成本仅为传统物理预报模型的一小部分,而这是原本仅被用于生成式人工智慧应用的机率扩散模型,在天气预报上的创新应用。

机率扩散模型是一种基于机器学习的生成式人工智慧技术,模型的运作主要分为二步骤,第一步骤是添加杂讯,从原始资料逐步增加随机杂讯,直到资料完全变成随机杂讯,这个过程被称为前向扩散,以图片当作例子,就像是在一张清晰的图片逐渐添加杂讯点,直到图片上满是随机杂讯。

第二步骤则是移除杂讯,机率扩散模型进行反向扩散,学习将充满杂讯的资料移除杂讯,最终恢复出接近原始资料的新资料。同样以图片为例,也就是清理满是杂讯的图片,尝试恢复出原来的景物,或是创造出全新的图片。

机率扩散模型中的机率性,指的便是去杂讯的过程,模型在每一步都会考虑多种去杂讯的可能路径,每一条路径都可能产生略有不同的结果。这代表即便机率扩散模型处理非常相似的杂讯资料,最后也能生成多种且高品质的资料样本。

机率扩散模型的这种能力,使其成为可以生成高度复杂且多样化资料的强大工具,而在天气预报的应用中,就能够从有限的初始预测出发,生成一系列可能的未来天气状况,也就是系集预报,反应未来天气的不确定性和多样性。

科学家在创建天气预报系统的时候,需要将天气混沌(Chaos)的特性考虑进去。即便是微小的初始条件差异,随著时间的推移便会呈现指数增长,人们之所以无法对天气进行单一预测,是因为单是一个预测,并无法量化天气的不确定性。

为了适应这种不确定性,天气预报组织在计算系集预报时,会于在初始条件加入合成杂讯,以及在物理过程加入随机性,利用天气模型中快速的错误增长率,使得系集中的预测各有不同,进而量化天气条件的不确定性。

虽然机率预测是有效的,但是要生成这些预测,需要在大型超级电脑上,执行多次高度复杂的数值天气模型,而这是一个非常耗费运算资源的过程,许多天气预报组织,只能负担生成大约10到50个系集成员的规模,而这个数量可能不足以用来评估罕见且高度影响天气的事件,研究人员表示,要评估罕见气候事件需要更大的系集,使用一万个成员组合的系集,可能才有办法预测到发生机率为1%的事件。也就是说,成员少于100的系集,不可能可以预测出极端天气事件。

而Google研究人员所开发的SEEDS,效能远超过数值天气预报系统,并且可以根据数值天气预报系统一到两次的预报,产生大型系集。SEEDS生成的系集能够提供与真实情况类似的可信预测,特别是在预测极端天气事件的准确度上,SEEDS表现也非常出色。

最重要的是,与需要超级电脑耗费数小时运算的传统天气预测相比,SEEDS模型的计算成本几乎可以被忽略,在Google云端TPUv3-32执行个体上,每3分钟可以产生256个系集成员,借由部署更多的加速器,就可以扩展更高的吞吐量。

SEEDS的具体贡献在于利用生成式人工智慧技术,提高天气预测效率。SEEDS只要使用2个预测种子,就能够快速生成大量的系集预报。SEEDS提供了一种高效混合方法,把数值天气预报系统作为输入,就能产生额外的预测。

SEEDS高效运算的特性,在节省运算资源的同时,也能够更频繁地发出预报,提高天气预测的品质和可用性。而且SEEDS不只可用于天气预测,也增加了气候风险评估领域的可能性,提升科学家准确量化未来气候不确定性的能力。