InfoQ 推荐 ( ) • 2024-04-15 15:48

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

AI创新不止步,金山办公、谷歌、OpenAI、蚂蚁集团接连升级或推出新产品,持续拓展应用范围。大模型基础研究不断取得突破,能解码mRNA非翻译区序列的大模型为预测mRNA功能和设计mRNA疫苗新序列提供了新的可能。同时,亚马逊云科技、阿里云通义千问、aiXcoder 等企业或团队也开源了各自的大模型,提升了AI在视频生成、文本控制、代码编写等领域的能力。此外,多家公司在具身智能领域取得了新进展。谷歌、英特尔推出了一系列AI相关更新和新产品,推动了行业基础设施能力的发展。本文将为你揭示这些新品的魅力和价值。

二、具体内容

大模型持续更新

大语言模型

4月7日,亚马逊云科技宣布,Mistral AI的Mistral Large模型现已在Amazon Bedrock平台上正式可用。

开源领域

4月7日,阿里云通义千问再次开源了一款大语言模型——拥有320亿参数的Qwen1.5-32B。4月7日,北大-兔展AIGC联合实验室发布了复现OpenAI公司的sora 的开源Open-Sora-Plan v1.0.0模型。该模型大幅提升了视频生成质量和文本控制能力,能生成10秒、24 FPS的1024×1024视频及高分辨率图像,并支持华为昇腾910b等国产AI芯片的训练与推理。4 月 9 日,aiXcoder 团队开源了全自研 aiXcoder 7B 代码大模型。该模型专注于代码生成与补全任务,提供了个性化训练、私有化部署和定制化开发的解决方案,以满足不同企业的特定需求。Mistral AI开源了Mistral 8X22B大模型,共有1760亿个参数,Context长度为6.5万个 token,可通过Torrent下载。

科研领域

普林斯顿大学王梦迪领导的研究团队开发了全球首个能够解码mRNA非翻译区序列的大模型。这一模型的应用目标是精确预测mRNA转录为蛋白质的功能,并设计用于mRNA疫苗的新序列。该研究的论文为「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」,已被《Nature Machine Intelligence》采纳。朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3:知识的 Scaling Laws》用海量实验为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。该研究探讨了三种合成数据类型:bioS、bioR和bioD,分别代表使用英语模板编写的人物传记、由LlaMA2模型辅助撰写的人物传记,以及可以控制细节的虚拟知识数据。研究重点在于分析基于GPT2、LlaMA和Mistral的语言模型架构。

应用探索

新产品新应用/功能

4月9日,金山办公发布了专为组织和企业设计的办公新质生产力平台WPS 365。该平台集成了升级的WPS Office、新发布的WPS AI企业版及WPS协作,实现了文档、AI、协作的无缝整合。用户仅需一个工具,即可调用各类主流大模型。谷歌升级了Gemini 1.5 Pro大语言模型,为其新增音频分析能力,可直接从音频文件中提取关键信息,无需转换为文字。4月10日,OpenAI宣布GPT-4 Turbo with Vision版现已对外开放,用户现可通过API接口对其进行访问。此外,该功能支持使用JSON模式和函数进行调用。4月11日,蚂蚁集团的智能研发平台CodeFuse新增了一项新功能——“图生代码”,该功能允许开发人员通过产品设计图快速生成相应的代码,显著提高了前端页面开发的效率。目前,这项新功能正处于内部测试阶段。

智能体

4月9日,在Google Cloud Next 2024大会上,谷歌推出Vertex AI Agent Builder,是一个帮助企业构建AI智能体的新工具,它使得构建和部署生成式对话智能体变得简单快捷。

具身智能

逐际动力的人形机器人CL-1在最新视频中展示了其改进的上楼梯和跑步能力,同时在实时地形感知、全身运动控制和硬件性能上都有所提升。CL-1能够交替上楼梯,流畅完成跑步动作,并优化了运动控制和硬件结构,实现了更强的稳定性和动力性能。斯坦福大学的ALOHA家务机器人团队发布了最新研究Yell At Your Robot,使用者能够通过喊话纠正机器人的错误动作。机器人能动态提升动作水平、调整策略,并根据反馈不断自我改进。

基础设施

4月9日,曾担任特斯拉Autopilot项目负责人以及OpenAI科学家的Andrej Karpathy推出了一个创新项目,名为“llm.c”,该项目通过仅1000行代码便能在CPU和fp32精度下实现对GPT-2模型的训练。4月9日,在Google Cloud Next 2024大会上,谷歌宣布了一系列AI相关的更新和新产品。Gemini 1.5 Pro在Vertex AI平台上提供了公共预览版。谷歌还推出了三大开源工具:Max Diffusion、Jetstream和MaxText,这些工具旨在支持生成式AI项目和基础设施。在硬件方面,谷歌云宣布推出首款自主研发的Arm处理器Axion,据称其性能比竞争对手高出30%,能效提高了60%。此外,谷歌推出的CodeGemma是基于Gemma模型的代码生成和补全工具,它提供了智能代码补全、高准确性和多语言支持,能够简化开发人员的工作流程。Google DeepMind发布的RecurrentGemma是一系列开放权重语言模型,基于Griffin架构,通过局部注意力和线性循环实现快速推理。Google Vids是谷歌推出的AI视频创建工具,它允许用户在Google Workspace中与其他工具如文档和表格一起制作视频,并支持实时协作。最后,Gemini Code Assist是谷歌推出的企业级AI代码完成和辅助工具,旨在提供更准确的代码建议和处理大段代码的能力。4月10日,在Vision 2024大会上,英特尔展示了由其子公司Habana Labs开发的最新款高性能AI加速器——Gaudi 3,并计划在2024年第三季度正式推出。

报告预告

Sora来袭,国内如何迅速跟上?开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,其能力是否有所提升和刷新?Devin和智能编码助手是同一条赛道上的不同节点?多家企业宣布All in AI,对市场意味着什么?InfoQ研究中心即将发布的《2024 年第 1 季度大模型监测报告》,即将给出答案。