新聞 | iThome ( ) • 2024-03-27 00:11

Meta发展出可用语言表示场景的场景生成新模型SceneScript,SceneScript的特色在于,程式不需要依赖写死的规则,可透过端对端机器学习直接推断房间的几何形状,并将其转换为建筑元素的近似值。该方法使得重建房间3D程式变得更加高效且轻巧,只需要数个位元组的记忆体,就可产生清晰且完整的几何形状,而且具有可解释性,使用者可以简单地阅读和编辑这些表示。

开发人员参考大型语言模型预测单字的方法开发SceneScript。Llama等大型语言模型具有预测下一个Token的能力,可以根据前面的单字来预测句子的下一个单字,像是输入句子The cat sat on the……则模型会预测下一个单字可能是mat或是floor。SceneScript运用相同的概念,只不过SceneScript模型预测的并非是一般语言Token,而是预测像是墙或是门等建筑Token。

SceneScript模型经大量的资料训练,能够将视觉资料编码为场景基本表示,并将其解码为描述房间布局的语言。也就是说,SceneScript能够根据视觉资料分析,和描述场景结构成文字,并使用这些描述重建出复杂的环境。

通常大型语言模型会使用网路上大量的资料进行训练,但是目前物理空间还没有可以用来训练端到端模型所需要的资料量,因此SceneScript开发团队放弃使用物理环境资料,并且创建了一个Aria室内环境合成资料集。Aria资料集包含10万个完全独特的室内环境,每个环境都使用SceneScript语言进行描述,并配有走过每个场景的模拟影片。

开发团队使用专门用于加速人工智慧与机器学习研究的Aria眼镜,来收集室内环境资料,并使用这些资料模拟出不同的室内环境。由于所有模拟训练都不涉及真实世界个人资料,使得模型训练过程可以在确保隐私的前提下进行,而且在训练完成之后,也可以使用Aria眼镜来验证模型,确认模型扩展用于物理环境的能力。

开发人员提到,SceneScript的优点之一是可扩展性,只需要在Aria合成环境资料集中的「门」添加附加参数,就可以训练网路来准确预测物理环境中门开启和关闭的程度。此外,透过在架构语言添加新特征,SceneScript便可以准确预测物体的位置,并进一步将这些物件拆解成组成元件,像是沙发在SceneScript语言表示为一组几何形状,包含了垫子、椅脚和扶手,设计师可以使用这些细节来创建真正适用于各种物理环境的增强实境内容。

SceneScript可以用于生成精确的室内地图,对于开发混合实境和增强实境头戴装置非常重要,SceneScript也替大型语言模型提供了推理物理空间的必要词汇,不仅扩展大型语言模型的应用范围,也使其能更精确地理解和回答关于物理世界的复杂问题,在数分之一秒内就可以回答像是粉刷房间需要的油漆量等问题。开发人员认为,SceneScript是增强实境头戴装置的重要里程碑,能够连起物理和数位世界。