优享资讯 | Sora首批专业级视频公布，OpenAI要给好莱坞亿点点震撼

资讯-虎嗅网 ( ) • 2024-03-27 00:10

Sora首批专业级视频公布，OpenAI要给好莱坞亿点点震撼

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇，题图：由Sora生成

随着生成式 AI 的浪潮汹涌而至，即使是好莱坞这个长久以来被视为电影梦工厂的圣地，也迎来了变革的十字路口。

几天前，据彭博社报道，OpenAI 计划与好莱坞达成合作，鼓励电影制作人将 Sora 整合到工作流中，以此来拓展 OpenAI 在娱乐行业的影响力。

而在今天，一群与 OpenAI 合作的艺术家们用七部超现实主义大片给好莱坞的导演们“打了个样板”，并向整个影视行业发出了一次强有力的呼吁：

是时候该正视 AI 在艺术创作中的角色了。

一、教好莱坞导演“拍”短片

shy kids ，“空中梦想家”

位于多伦多的 shy kids 是一家多媒体制作公司，他们利用 Sora 讲述了一个关于气球人的故事。

短片的三位核心成员 Walter Woodman、Sidney Leeder 和 Patrick Cederberg 表示，Sora 的到来让他们能够将那些难以实现的故事变为现实。

您目前设备暂不支持播放
视频来自 @dotey（已翻译），下同

导演 Walter 对 Sora 在创作过程中的表现给予了高度评价，“Sora 在创造看似真实的作品方面表现得非常出色，但更兴奋的是，它能够带来超越现实的创意。这不仅仅是技术上的突破，更是抽象表现主义进入一个全新阶段的标志。”

对整个行业来说，“来自世界各地、内心充满着想要迸发的故事的人们，终于有了一个机会，向世界展示他们心中的宇宙。”

Paul Trillo，导演

Paul Trillo 是一位跨领域的艺术家、作家及导演，他的作品获得《滚石》和《纽约客》等权威媒体的高度评价。

Paul 荣获 19 次 Vimeo Staff Picks 奖项，这是Vimeo 平台对其顶尖短片的认可。

您目前设备暂不支持播放

“与 Sora 合作，我首次感受到了作为电影制作人的绝对自由，”他表示。“不再受时间、财力或他人意见的束缚，我可以更加大胆且充满激情地探索和实验。”

Sora 的力量在于，当我们不再复制旧有的东西，而是创造出全新的、以往我们无法想象的可能时，它能展现出惊人的能力。

Nik Kleverov，创意总监 / Native Foreign

坐落于洛杉矶的加州，Native Foreign 是一家获得艾美奖提名的创意机构，以精湛的品牌叙事、动效与标题设计，以及生成式 AI 的工作流程方面的专长而闻名。

您目前设备暂不支持播放

作为联合创始人的 Nik Kleverov 正在利用 Sora“将概念视觉化，并为品牌伙伴的创意快速打磨迭代”，在他看来，预算将不再限制创意的叙事。

Nik 还分享了他的制作体验：“我是那种习惯于动态思维的创意工作者，因此当我在 Sora 中工作时，感觉就像能够将任何想法变为现实。”

August Kamp，艺术家/音乐家

August Kamp 是一位多才多艺的艺术家，身兼音乐家、研究者、创意倡导者和跨学科艺术家多重身份。

对于 August 而言，Sora 的出现标志着一个历史性的突破。她曾感受到自己的艺术创作受限于想象力与现实可能性之间的张力，而 Sora 为她提供了一个全新的解决路径。

您目前设备暂不支持播放

能够如此直接地打造和精炼电影级视觉效果，为我开辟了前所未有的艺术创作道路……

我真的非常期待，随着这些工具的未来发展，我们还能接触到哪些新的故事讲述形式。

Josephine Miller，创意总监

Josephine Miller 是伦敦 Oraar Studio 的联合创始人及创意总监，她领导的工作室擅长 3D 视觉、增强现实和数字时尚的设计。

您目前设备暂不支持播放

Josephine 对于 Sora 带来的影响同样有着深刻的体会：

“Sora 为我开启了一个全新的领域，让那些我多年梦想中的构思成为可能，这些构思以往因为技术壁垒而难以实现……

这种快速将想法以高品质概念化的能力，不仅对我的创意过程构成了挑战，也促进了我的故事讲述技巧的成长。它使我能够在更少的技术束缚下，将我的想象力转化为现实。”

Don Allen Stevenson III，数字增强现实/混合现实艺术家

Don Allen III 是一位在梦工厂动画开始其职业生涯的多领域创作者，演说家和顾问，一直专注于探索混合现实、虚拟现实和人工智能的应用，不断推动创意和技术的界限。

我一直有个念头，创造一些我脑海中觉得有趣的增强现实异种生物。

有了 Sora，我现在能更简便地对这些构思进行初步实现，再进一步完善出 3D 角色，将它们置入增强现实环境中。

您目前设备暂不支持播放

Don 特别强调了 Sora 的特别之处：“它打破了传统的物理定律和思维框架的束缚。”

他认为使用 Sora 可以使得他能够从技术的限制中解放出来，转而专注于无拘无束的创造性思考。“开启了即刻呈现想象和快速打造原型的新世界。”

同时，Don 也提到：“这让我能更有效地分配我的时间和精力，在正确的方向上深入挖掘，进一步增强我创作的角色想要传达的情感深度。”

Alex Reben，雕塑家/艺术家，OpenAI 的驻地艺术家

Alexander Reben 这十年来致力于创作探讨 AI 中人性幽默与荒谬的艺术作品。

他通过手工将 AI 生成的图像转换成三维模型，并将这些模型具象化于现实世界中，创造出一系列引人深思的雕塑作品。

您目前设备暂不支持播放

亚历克斯分享了他对 Sora 的看法：“我开始将 Sora 作为开发三维雕塑的新起点。我深入研究了摄影测量学及其在雕塑创作中的应用潜力，这一探索过程让我感到无比兴奋。

特别是，将视频转换成三维模型的可能性，让我意识到我们有能力将 AI 系统的应用推向一个全新的维度。”

二、Hollywood？Sorawood！

一周前，Factorial Funds 发布了一篇深入分析的文章，对 Sora 的运行成本进行了详细估算。

尽管有关 Sora 技术的详细信息虽然有限，但 Factorial Funds 研究人员认为可以将 Sora 看作是 DiT（Diffusion Transformers）在视频生成方面的扩展，并在推算过程中参考了 DiT 论文的数据。

DiT-XL 模型有 675M 参数，使用了大约 1021 FLOPS 的总计算量，相当于大约 0.4 个英伟达 H100 运行一个月。

假设视频以 24fps 编码，1 分钟的视频包含 1440 帧。考虑到 Sora 的空间和时间压缩的技术特性，如果按 DiT 论文的 8 倍压缩率，原本 1440 帧的视频在潜在空间中可能只需要 180 帧来表示。因此，相较于 DiT 处理图像，处理视频的计算量至少增加了 180 倍。

由于估计 Sora 的模型参数数量可能远超 675M，所以假设该模型为 20B 参数的模型，这意味着相比于 DiT，Sora 的计算需求增加了 30 倍。此外，Sora 训练的数据集比 DiT 也要大，这进一步增加了计算需求，乘数在 4 到 10 倍之间。

综合考量上述各项因素之后，研究人员估算出 Sora 训练一个月所需的计算资源大约在 4211-10528 块 H100 之间。

训练计算是一次性的大量计算，而推理计算虽然较小，但随着模型的广泛应用，会被频繁调用。

平衡点是指花费在推理上的计算量超过训练所需计算量的时刻。基于 DiT 到 Sora 的推算，Sora 每生成一段视频的计算成本约为 708×10^15 FLOPS，相当于每块 H100 GPU 大约每小时能生成 5 分钟视频。

在生成 1530 万到 3810 万分钟视频后，推理计算将超过训练计算。考虑到 YouTube 每天上传的视频量约为 4300 万分钟，这个平衡点在实际应用中很快就会达到。

不过，需要说明的是，上述许多数字都是估计值，并且依赖于简化的假设，并不一定为准确的数据。例如，它们没有考虑 GPU 的实际 FLOPS 利用率、内存容量和内存带宽的限制以及推测解码等先进技术。

研究人员估算了使用 Sora 生成覆盖一些主流视频平台内容所需 H100 GPU 的数量。由上文推算可知，每块 H100 每小时能制作 5 分钟的视频，也就意味着每块 H100 每天能制作大约 120 分钟的视频。

TikTok 每天总视频数大约为 3.4 亿，平均时长约为 30 秒，那 TiKtok 每天大约产生约 1.7 亿分钟的视频，同理，YouTube 每天产生的视频总时长约为 4.3 亿分钟。

假设 AI 参与视频生成的比例为 15%（大部分视频时长低于 2 分钟），那么 AI 每天产生的视频时长：8500 万 + 6500 万 = 1.07 亿分钟。

也就是说，仅仅为了支持 Tiktok 和 YouTube 上的创作者社区，所需英伟达 H100 GPU 的总量约为 89000 块。

然而上述的推算还算偏保守，因为还需要考虑其他因素：

首先，在实际情况中，GPU 的计算能力可能会受到内存限制和通信瓶颈的影响，导致实际可用的计算能力低于理论最大值。因此，认为 50% 的利用率更为现实，这意味着为了达到相同的计算效果，所需的 GPU 数量需要增加一倍。

其次，视频制作的需求在一天中不是均匀分布的，而是集中在某些高峰时段。在这些高峰时段，由于需求激增，需要更多的 GPU 来处理这些额外的计算任务，这可能导致所需的 GPU 数量再次翻倍。

在制作视频时，创作者通常会制作多个候选版本，然后从中选择最佳的一个上传。研究人员估计，平均每上传一个视频，会制作两个候选视频。这意味着实际的视频制作过程需要的计算资源是单个视频的三倍，因此所需的 GPU 数量也还需要增加一倍。

综合考虑这些因素，研究人员得出了一个保守的估计，即在高峰时段，大约需要 72 万块 H100 GPU 来满足实际需求。

附上原文链接：https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works

作为对比，Meta CEO 扎克伯格曾宣布为了推进 AGI，将豪砸上百亿美元购买 35 万个有价无市的 H100 GPU，而这一数字还只是覆盖 Tiktok 和 YouTube 所需计算资源的一半。

不久前，好莱坞知名制片人兼导演泰勒·派瑞在接触 Sora 没几天后，突然宣布搁置筹备了长达四年的 8 亿美元制片厂扩建计划，成了 Sora 诞生的首个受害者。

由于 Sora 和我看到的东西，所有这一切都被无限期搁置。

这一表态在影视行业引起了不少的恐慌，如今看来，倘若上文推算的数据属实，那么 Sora 要想短时间抢走影视工作者的饭碗，似乎还有一段长路要走。

此外，美国《纽约客》杂志的一篇报道指出，ChatGPT 每天用电量是美国家庭平均用电量的 1.7 万多倍。并且随着生成式 AI 的进一步普及，耗电量还会持续攀升。

马斯克也曾发出警告，未来两年内，行业的主要障碍将由“缺硅”转为“缺电”，并或将成为 AI 发展的新瓶颈。

但这些只不过是技术发展道路上的短暂性难题，随着时间的推移，算力的限制和资源等外在因素的桎梏也是最容易被攻克的一环。

就 Sora 目前展现出的技术成果来看，生成画面的震撼足以掩盖音效上的瑕疵，而且我们至今仍未窥见 OpenAI 的弹药库里是否还藏着音效界的 ChatGPT。

即使 OpenAI 尚未发展此类技术，市场上先进的 ElevenLabs、以及近日爆火的 Suno 等音效工具也完全有能力填补 Sora 在工作流中的最后一块空白。

因此，可预见的是，在不远的将来，影视制作将变得前所未有的简单——仅需一部剧本，就能一键生成一部完整的电影作品。

而剧本创作的门槛，早在 ChatGPT 问世之后，就已经成了生成式 AI 最先颠覆的领域。

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇