优享资讯 | 苹果展示多模态AI训练框架4M、支援21种模态的AI模型

新聞 | iThome ( ) • 2024-07-03 12:20

图片来源:

苹果

苹果本周公开展示具备文字、声音、图像理解能力的多模态AI模型训练框架4M，及支援21种模态资料的多模态模型。

4M模型框架全名为极多模态掩码模型（Massively Multimodal Masked Modeling），为苹果与瑞士洛桑联邦理工学院（EPFL）合作开发。研究团队于去年12月首先在2023年神经资讯处理系统（NeurIPS 2023）大会上发表，并向大众开源。今年的最新成果中，研究团队展示4M-21模型，为一any to any视觉模型，可支援21种模态任务和模态。

4M模型及相关技术上，苹果解释，传统视觉机器学习模型只能用于专门化的特定模态或任务，新近的大型语言模型则具备多模态识别能力，而4M则是更进一步的多种模态模型训练方法。它运用掩码建模（masked modeling）方法，来训练出单一统合式transformer encoder-decoder，输出、输入都可支援多模态资料，涵括文字、几何图、语义模态，以及现有艺术模型DINOv2和ImageBind的神经网路特征地图。

苹果说，4M模型框架能以很少量的随机词元（token）训练并有效扩充以训练模型，其主要优点包括可适用多种视觉识别任务，经过微调后，也能在新任务或新模态资料上有效预测，并能训练出现今最夯的生成式模型。

在最新的研究进展下，研究团队将4M扩展为21种模态资料，加入了包括人类姿势和体形、SAM（Segment Anything Model）instances、以及metadata，还提出了针对特定模型的词元化（tokenization）方法。研究团队也成功以4M框架扩展到30亿参数的模型，还能结合视觉与语言资料来进行训练。

研究团队本周也释出了二种模型，包括4M-7及4M-21的程式码和模型。4M-21全名为An Any-to-Any Vision Model for Tens of Tasks and Modalities，研究团队声称练出的模型具备未经微调（out-of-box）的极佳视觉识别效能、可执行任何条件及可操控（any-conditional & steerable）生成、跨模态撷取、支援多种感测器资料混合的能力。研究人员指出，透过4M及4M-21的研究，他们展示了可解决了多模态资料输入任务，比现行模型多3倍，而且完全不损及效能。

VenturBeat指出，这次公布是苹果过去极少见透明化宣传的行为，显示为了在AI业务上急起直追，苹果逐渐改变行为作风。在6月的WWDC上，苹果宣布将在iOS 18、macOS Sequoia加入和OpenAI ChatGPT的整合，也可能再引入Google Gemini或其他AI模型功能。