优享资讯 | 强大到不敢给普通人用！史诗级大模型Sora如何让众行业一夜变天？

InfoQ 推荐 ( ) • 2024-05-01 14:15

视频生成模型“新王登基”，Sora 何以成为全球焦点？

2023 年以来，多模态视频生成技术取得了显著的进展和突破，从 Runway 到 Pika 再到年末的 VideoPoet，视频生成模型进入到加速阶段。2024 年 2 月，OpenAI 旗下视频生成模型 Sora 正式对外发布。Sora 一名源于日文“空”（そら sora），取自天空之意，以示其无限的创造潜力。与 Runway、Pika、VideoPoet 等“前辈”相比，Sora 在视频生成效果和质量上具有明显优势。也正因如此，Sora 一经发布就在全球范围内掀起了讨论热潮，迅速成为当前最受关注的模型之一。

“Sora 的出现时间要比我们预想的要早很多，OpenAI 已经提前带来了惊喜”。WeShop 唯象 GM 吴海波在接受 InfoQ 采访时提到，从技术层面来看，Sora 并没有引入全新的理论框架，而是将现有技术进行了新的整合。自从 Sora 问世以来，人们对其背后的技术进行了深入分析。比如，Meta 的谢赛宁曾在 Twitter 上进行拆解，其认为 Sora 所采用的 DiT 结构，就是基于他在 ICCV 2023 发布的 DiT（Diffusion Transformer）思路构建的，这也是支撑 Sora 的一个重要基础。

在模型架构方面，Runway、Pika 等模型底层采用的是扩散模型（Diffusion Model）技术，利用高斯噪音和 prompt，再通过 U-Net 对噪音进行解析，实现逐帧的渲染。虽然 prompt 通过 Transformer 技术得到了前后文的联系，但视频生成中却没有较大时间轴或前后联系的概念，从而导致先前的视频只能生成三四秒，画面跳跃跳帧等问题严重。

而 Sora 利用 Transformer 替代 Diffusion 的 U-Net，不限制原始视频的尺寸，不仅能通过 Transformer 技术保证前后的连贯性，还能保证生成视频在各个画幅比例下都有很好的表现，从而生成时长更长、效果更好的视频。

目前，Sora 能够生成 1 分钟的视频，深圳市鼎盛方圆科技发展有限公司创始人黄鸿波表示，理论上来看，Sora 是能够生成生成更长时间的视频的，但其中的不确定性会更多，也会需要更高的算力。“从零到一很简单，但再想往上则需要质的飞跃，难度比较大”。

比起生成的视频时长，黄鸿波认为，Sora 这类视频生成模型更应解决的是如何保持人物一致性和场景一致性。这两点都是目前业内比较难以克服的难题。以人物为例，一段完整的视频中不仅存在主角，还存在配角和各种人物关系。在电影和电视剧的实际拍摄中，人是真实存在不会改变的，但 Sora 或其他目前现存的技术都无法保证人物的一致性。人物的每次生成，脸型、肤色、眼睛大小、痣的位置等都会发生变化。场景同样如此，不同的镜头会从不同角度进行拍摄，但周围的场景需要有一些变化。“从目前的视频演示来看，Sora 已经趋近完美，如果能解决人物一致性和场景一致性的问题，基本上就能达到影视公司想要的结果了”。

此外，Sora 对“世界模型”的实现方式也存在一定争议。OpenAI 声称 Sora“扩展视频生成模型是构建物理世界通用模拟器的一条可行之路”。英伟达高级研究科学家 Jim Fan 也断言，Sora 是一个数据驱动的物理引擎，是一个可学习的模拟器，或“世界模型”。但也有人对此提出质疑。图灵奖得主 Yann LeCun 认为 Sora 并不理解物理世界，甚至称 Sora 对“世界模型”的实现方式注定是死路一条。

具体来说，Sora 在生成视频时依赖于文本指令，这些文本描述了场景和意义。如果 Sora 能够理解视频内容，并在给定一段视频后，补充出更长的视频，且前后情节逻辑一致，那么这将是一个重要的进步。这将表明 Sora 不仅仅是通过视觉理解事物，而是能够从更深层次上理解视频内容。

“长期来看，如果 Sora 能够在视频中实现首尾呼应，比如在电影中常见的前后呼应的情节，这表明它具有更长的因果链理解能力。这将是一个重要的里程碑，表明 Sora 越来越像是一个世界模型，能够理解物理定律和社会规则。”吴海波提到，目前，Sora 还处于一个比较早期的阶段，类似于早期的 GPT-3——它展现出了一定的能力，但尚未达到 ChatGPT 那样的成熟度。“但它的进步速度很快，2024 年值得我们期待，届时应该会有许多新的进展出现。”

Sora如何重塑千行百业？

当前，Sora 还未正式对外开放。在近日的一场专访中，Sora 的核心团队成员表示 Sora 太过强大，还不能让普通人很快就用到，OpenAI 正在收集用户反馈，还有很多安全工作要做。而根据 OpenAI CTO Mira Murati 此前的说法，“Sora 最快在今年内开放公测”。

作为一个基础模型，Sora 无疑会对各行各业产生影响，在影视、电商、游戏行业中，Sora 一定会带来新的想象力。其中，影视行业将会成为 Sora 的首选。

目前，影视行业的制作流程涉及多个环节。编剧完成剧本后，会寻找合适的导演合作。在好莱坞或国内的大型制片厂，他们通常会先找普通演员拍摄样品，需要将 90 分钟的电影精华部分浓缩，拍摄成 30 至 40 分钟的样片，用于向投资人展示电影的内容、故事情节、人物设定以及特效应用等。只有当投资人认可了故事的创新点和市场潜力后，才会决定投资。不过，这类样片的制作成本相当高，每分钟的制作费用在 1 至 2 万元之间。

如果引入 Sora 这类视频生成模型，将大幅降低制作成本，成本可能压缩至每分钟数千元。此外，Sora 还能免除影视制作的场景搭设、威亚特效、影视后期等工作，显著提高制作效率。

“在与北京影视行业的合作中，我发现他们在拍摄电视剧和电影时，经常遇到一些无法通过常规手段拍摄的镜头，如宇宙大爆炸、地月轨道等场景，这些都需要依赖 3D 后期制作来完成。但这类镜头的制作成本极高。以电影行业常见的 25 帧/秒为例，一个 2 至 3 秒的镜头就包含约 70 帧的画面，按照帧计费的 3D 后期制作费用，这样短暂的镜头也需要投入上千甚至上万的成本。”黄鸿波介绍道，有了 Sora 技术后，影视公司可以将那些特效制作成本高昂或无法通过演员实际拍摄的场景，通过 Sora 或类似的视频生成模型来展现。“Sora 不仅对影视行业有益，它对传统广告制作、游戏和流媒体方面也有一定的影响，一些画面镜头的拍摄通过 AI 在几分钟内就能完成，节省了大量的人力物力。”

在电商行业中，Sora 这类视频生成模型也带来了新的想象力。

传统的产品视频拍摄需要模特、场景布置、拍摄以及后期制作等多个环节，而 Sora 只需输入相应的文本描述或图片，即可在短时间内生成逼真的视频，极大地提高了电商营销素材制作效率。此外，商家可以利用 Sora 生成产品在不同场景下的视频，或者展示产品在不同空间布局下的效果，从而提升消费者的购买意愿。

虽然 Sora 在视频生成方面取得了显著进步，但要想真正应用在电商行业中，仍面临一些挑战。“目前，用户可以通过提交指令给Sora，Sora会在一段时间后生成视频反馈给用户。这种交互方式虽然令人兴奋，但也存在局限性，因为它缺乏明确的控制和交互方式。”吴海波提到，以电商为例，商家可能更希望基于某个已有商品生成视频内容，在将实体商品与视频结合方面，Sora 目前还无法满足需求。Sora 无法将商家的商品巧妙地融入视频中，并展示商品在真实场景中的应用，让潜在顾客直观地了解商品。

“尽管 Sora 已经展示了在自由发挥状态下的创造力，但我们还不清楚如何将这些技术与现有电商平台有效结合，如何让它按照我们的需求生成内容，还有待进步一的优化。”吴海波表示，要想在电商行业中进一步拓展 Sora 技术的应用范围，还需要不断研究并探索新的方法，以实现商品与视频的完美结合。

游戏作为较早落地 AIGC 技术的行业之一，在制作过程中也可引入 Sora 这类视频生成模型。黄鸿波提到，目前游戏行业比较容易落地的是大场景、风格转换和季节转换类型。

比如，可以借助 Sora 技术，实现游戏中的季节转换等场景，通过每个季节 2-3 秒的场景交替生成游戏内的视频，这样不仅可以提升游戏的视觉体验，还能有效减少游戏的制作开发成本。游戏内的服装道具也可以通过 Sora 来完成。而对于游戏人物的动作，如跑步和飞翔，传统的制作方法通常涉及到底模建模、骨骼绑定以及动作合成。现在这些工作也可以通过 AI 技术来完成，在最后由人工进行必要的补充和调整，以确保动作的真实性更加出色。

此外，光影和材料的仿真也是游戏制作中的重要环节，这些同样可以通过 AI 技术实现。例如，当角色从两米高的地方跳下时，不同材质的服装（如丝绸、粗布、盔甲）会产生不同的漂浮效果、落地速度和声音，这些细节在游戏和电影制作中都有着专门的处理流程。

四足动物的动作设计是游戏行业的痛点之一。人类的走路和跑步动作相对自然，但四足动物的动作往往难以协调。而这类问题正是 Sora 这类技术可以发挥优势的地方。特别是像猫狗等常见的动物，由于不涉及复杂的 IP 和版权问题，更适合作为实践案例来解决动作设计上的挑战。

不过，相较视频生成模型，图片生成模型在技术上已经更为成熟，这使得其在多个行业中的应用更加广泛和深入。

“目前在游戏行业中应用最多的还是文生图模型。一般拥有自己 IP 的企业都会利用已有的形象素材，训练自家的文生图模型，生成视频或相关角色的形象参考”。据黄鸿波介绍，所有的文生图、文生视频、角色设计生成、形象设计生成，都无法直接采用生成产物，只是给设计人员一些灵感和启发，让他们以此为参考进行设计和开发。以一个海岛家园类的游戏为例，可以让 Stable Diffusion 等工具生成大量的海岛、家园、游戏风格设计图，给美术的同学一些启发，这也是目前企业内多数的落地形式。

在电商行业中，图片生成模型也已得到广泛应用。吴海波提到，相较于视频生成技术，图片生成技术已经发展得更为成熟，因此在这一领域的应用也更为迅速。去年，核心团队来自蘑菇街的 AI 商拍工具 WeShop 上线，WeShop 正是基于 Stable Diffusion 模型提供 AI 智能商品图生成服务。目前，WeShop 主要服务于两类用户：一类是供应链为主的工厂老板，他们可以利用 WeShop AI 将商品图片转换成不同模特和背景的图片；另一类是计划拓展海外市场的电商，他们可以通过 WeShop AI 将国内商品图片适配到适合海外市场的模特场景中。

“展望图片生成技术的未来，我认为 Sora 的成功表明模型规模的重要性，我们预期图片领域的基础模型也将取得显著进步。业界的技术路线和思路正趋于一致，大家都认识到需要引入 DiT 结构。尽管目前还有一条尝试纯 Transformer 基础架构的路线，类似于GPT，但尚未超越现有技术。然而，随着 Sora 证明了大模型的有效性，我们可以预见将有更多资源投入到图片生成领域，推动其向前发展。这一点或许尚未得到广泛关注，但我坚信图片生成技术很快将迎来重大突破。”吴海波总结道。

担心被 Sora 们取代？

Sora 给不同行业带来巨大变革可能得同时，也给就业市场带来了挑战，越来越多的从业者开始担心，自己终将被 Sora 们所取代。首当其冲的是影视行业从业者，不少声音开始讨论“特效公司要死了吗”“导演、后期是不是都要失业了”。

对此，受访专家们普遍持乐观态度。以 CG 技术的出现为例，当年 CG 技术崭露头角时，许多动画师曾担忧自己的工作可能会受到威胁。然而，事实并非如此。实际上，CG 技术并未降低制作电影或动画的成本，反而使得成本有所上升。与此同时，CG 技术让人们能够创作出更高质量、更具视觉震撼力的作品，这反而激发了画师和导演的创造力，使他们能够制作出更为精彩的内容，也进一步提升了整个行业的标准。

吴海波认为，面对 CG 技术这样的革新，我们应该积极拥抱变化，从中寻找新的机遇，而不是一味地担忧和抵触。如果我们固执地坚持旧有的工作方式而不愿适应，那么确实可能会面临问题。但与此同时，新技术也为我们打开了更广阔的市场，提升了行业的上限，并为我们提供了更多尝试不同角度和方法的可能性。“如果你坚持认为自己被新技术替代了，这或许是一种无法避免的心态。然而，我认为，有些工作被新技术解放，实际上是一件好事。换个角度看，我们可以说自己是从原有的束缚中得到了解放，迎来了新的机遇和挑战。”

Sora 同样如此。目前来看，Sora 仍只是一款工具，并不能完全取代某一职位或环节，而是帮助人们更好地提升工作效率。以影视拍摄流程为例，尽管有 ChatGPT 这样的大语言模型协助，剧本编写仍需编剧来把控故事情节和故事性。分镜镜头的策划也需要导演来完成，因为模型生成的成品往往缺乏灵魂，需要人类加入细节、个人的情感和灵魂。同样，演员也是不可或缺的角色，因为观众既有人注重故事情节，也有人喜欢看明星的表演，如果取代了明星，电影就失去了其独特的意义。

那么，Sora 究竟带来了什么，又能取代什么呢？

黄鸿波认为，Sora 确实能加速视频和电影的制作效率，降低生产成本，并有可能取代部分特效制作公司的流程。但需要注意的是，这并非完全的取代，而是借助 Sora 完成一个大致的 demo，为特效公司提供思路，并替代部分相对简单的特效制作。原本需要十天才能完成的工作，现在可能只需要三五天就能完成。必须明确的是，任何技术的诞生都只是一种工具，其存在的目的是为了服务于人类。因此，完全的取代并不存在，工具的作用更多的是降低成本、提升效率。

写在最后：参与到 AI 变革中来

近两年，AI 技术的快速演变和不断创新的特性超乎了所有人的预期，一个又一个创新模型的发布让人们不断惊叹于 AI 的潜力和能力。时代之下，更应该保持对 AI 技术发展的关注，随时准备迎接新的突破和变化，通过不断学习和适应新技术，在 AI 技术的浪潮中找到自己的位置，参与到 AI 变革中来。

“我们现在的目标是首先参与到这场变革中来，将自己转变为一个 AI Native 的公司。我们从蘑菇街独立出一个团队来开发 WeShop，就是希望以创业团队的心态来完成这个项目。如果我们仍然使用传统的业务模式和资源来应用 AI 技术，我们可能会错过未来真正的大机会。因此，我们保持创业团队的状态，摒弃过去的包袱，以便在 AI Native 的环境中创造出新物种，抓住未来的机会。”吴海波认为，当前 AI 技术在电商领域的变革性影响难以清晰描绘，但其一定会为整个行业带来深刻变革，这不仅仅局限于在现有电商平台上增加智能问答功能或 AI 拍照等改进，而是当 AI 技术普及到一定程度时，人们将会见证一个全新的电商生态系统的崛起。

对于影视和游戏行业，AI 带来的变革同样在发生，但目前都还缺少一个完整可落地的方案——一个能将文生图、文生视频等单一化工具串联起来的综合性工具。

黄鸿波认为，理想的情况是，只需要手稿和文字描述，就能直接流程化生成包括 2D 图像、3D 模型、立绘、骨骼绑定以及动作生成等在内的完整一套内容。对于游戏行业而言，这样的综合性工具能够极大地提升开发效率。通过输入文字描述和手稿，工具能够自动处理生成游戏所需的各种资源，从而大大减轻开发者的负担。同样，影视行业也迫切需要这样的解决方案。只需要提供脚本，工具便能直接分析出完整的故事情节梗概，并基于这一情节生成围绕其展开的视频内容。这样不仅能确保画面风格的统一性和一致性，还能提高影视制作的效率和质量。