澎湃新闻 - 首页头条 ( ) • 2024-06-14 20:28

北京智源人工智能研究院推出大模型“全家桶”。

6月14日,2024北京智源大会在中关村展示中心开幕,北京智源人工智能研究院(简称智源研究院)推出大模型“全家桶”。

智源研究院院长王仲远表示,现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力,并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线,从而让模型具备了初步的多模态理解和生成能力。但这并不是让人工智能感知、理解物理世界的终极技术路线,而是应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力,向世界模型演进。未来,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时,大模型这一技术手段可为科学研究提供新的知识表达范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近通用人工智能的终极目标。

智源研究院此次推出的大模型“全家桶”,包括智源多模态大模型、具身智能大模型、生物计算大模型等。

针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型Tele-FLM-1T。该模型与百亿级的52B版本、千亿级的102B版本共同构成Tele-FLM系列模型。Tele-FLM系列模型仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3T tokens的训练,训练出万亿稠密模型Tele-FLM-1T。

针对大模型幻觉等问题,智源研究院自主研发了通用语义向量模型BGE(BAAI General Embedding)系列,基于检索增强RAG技术,实现数据之间精准的语义匹配,支持大模型调用外部知识的调用。

行业现有的多模态大模型多为对于不同任务而训练的专用模型,例如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。每类模型都有对应的架构和方法,例如对于视频生成,行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,例如目前Sora还做不到图像和视频的理解。为了实现多模态、统一、端到端的下一代大模型,智源研究院推出Emu3原生多模态世界模型,采用智源自研多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现图像、视频、文字的统一输入和输出。

在具身大模型方面,对于具身智能通用抓取能力,智源针对跨任意形状和材质的泛化难题,突破95%的真机实验成功率,实现商业级动作执行水平。借助这项技术,即使在复杂光线透射、反射的情况下,机器人依然能准确感知透明、高反光物体的形状和姿态,并预测出高成功率的抓取位姿。

在分级具身大模型系统方面,智源研发了能够从失败中重思考、再尝试的铰接物体操作大模型系统SAGE。该系统结合三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识,使大模型驱动的机器人能够在任务执行失败时重新思考并再次尝试新的交互方式,实现传统机器人技术无法企及的智能性和鲁棒性。此外,智源研究院探索了生成式人工智能在分子生物学中的应用,推出全原子生物分子模型OpenComplex 2,以及实时孪生心脏计算模型。