优享资讯 | 巨头们火力全开：AI应用边界再扩张

InfoQ 推荐 ( ) • 2024-04-15 15:48

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

AI创新不止步，金山办公、谷歌、OpenAI、蚂蚁集团接连升级或推出新产品，持续拓展应用范围。大模型基础研究不断取得突破，能解码mRNA非翻译区序列的大模型为预测mRNA功能和设计mRNA疫苗新序列提供了新的可能。同时，亚马逊云科技、阿里云通义千问、aiXcoder 等企业或团队也开源了各自的大模型，提升了AI在视频生成、文本控制、代码编写等领域的能力。此外，多家公司在具身智能领域取得了新进展。谷歌、英特尔推出了一系列AI相关更新和新产品，推动了行业基础设施能力的发展。本文将为你揭示这些新品的魅力和价值。

二、具体内容

大模型持续更新

大语言模型

4月7日，亚马逊云科技宣布，Mistral AI的Mistral Large模型现已在Amazon Bedrock平台上正式可用。

开源领域

4月7日，阿里云通义千问再次开源了一款大语言模型——拥有320亿参数的Qwen1.5-32B。4月7日，北大-兔展AIGC联合实验室发布了复现OpenAI公司的sora 的开源Open-Sora-Plan v1.0.0模型。该模型大幅提升了视频生成质量和文本控制能力，能生成10秒、24 FPS的1024×1024视频及高分辨率图像，并支持华为昇腾910b等国产AI芯片的训练与推理。4 月 9 日，aiXcoder 团队开源了全自研 aiXcoder 7B 代码大模型。该模型专注于代码生成与补全任务，提供了个性化训练、私有化部署和定制化开发的解决方案，以满足不同企业的特定需求。Mistral AI开源了Mistral 8X22B大模型，共有1760亿个参数，Context长度为6.5万个 token，可通过Torrent下载。

科研领域

普林斯顿大学王梦迪领导的研究团队开发了全球首个能够解码mRNA非翻译区序列的大模型。这一模型的应用目标是精确预测mRNA转录为蛋白质的功能，并设计用于mRNA疫苗的新序列。该研究的论文为「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」，已被《Nature Machine Intelligence》采纳。朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3：知识的 Scaling Laws》用海量实验为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。该研究探讨了三种合成数据类型：bioS、bioR和bioD，分别代表使用英语模板编写的人物传记、由LlaMA2模型辅助撰写的人物传记，以及可以控制细节的虚拟知识数据。研究重点在于分析基于GPT2、LlaMA和Mistral的语言模型架构。

应用探索

新产品新应用/功能

4月9日，金山办公发布了专为组织和企业设计的办公新质生产力平台WPS 365。该平台集成了升级的WPS Office、新发布的WPS AI企业版及WPS协作，实现了文档、AI、协作的无缝整合。用户仅需一个工具，即可调用各类主流大模型。谷歌升级了Gemini 1.5 Pro大语言模型，为其新增音频分析能力，可直接从音频文件中提取关键信息，无需转换为文字。4月10日，OpenAI宣布GPT-4 Turbo with Vision版现已对外开放，用户现可通过API接口对其进行访问。此外，该功能支持使用JSON模式和函数进行调用。4月11日，蚂蚁集团的智能研发平台CodeFuse新增了一项新功能——“图生代码”，该功能允许开发人员通过产品设计图快速生成相应的代码，显著提高了前端页面开发的效率。目前，这项新功能正处于内部测试阶段。

智能体

4月9日，在Google Cloud Next 2024大会上，谷歌推出Vertex AI Agent Builder，是一个帮助企业构建AI智能体的新工具，它使得构建和部署生成式对话智能体变得简单快捷。

具身智能

逐际动力的人形机器人CL-1在最新视频中展示了其改进的上楼梯和跑步能力，同时在实时地形感知、全身运动控制和硬件性能上都有所提升。CL-1能够交替上楼梯，流畅完成跑步动作，并优化了运动控制和硬件结构，实现了更强的稳定性和动力性能。斯坦福大学的ALOHA家务机器人团队发布了最新研究Yell At Your Robot，使用者能够通过喊话纠正机器人的错误动作。机器人能动态提升动作水平、调整策略，并根据反馈不断自我改进。

基础设施

4月9日，曾担任特斯拉Autopilot项目负责人以及OpenAI科学家的Andrej Karpathy推出了一个创新项目，名为“llm.c”，该项目通过仅1000行代码便能在CPU和fp32精度下实现对GPT-2模型的训练。4月9日，在Google Cloud Next 2024大会上，谷歌宣布了一系列AI相关的更新和新产品。Gemini 1.5 Pro在Vertex AI平台上提供了公共预览版。谷歌还推出了三大开源工具：Max Diffusion、Jetstream和MaxText，这些工具旨在支持生成式AI项目和基础设施。在硬件方面，谷歌云宣布推出首款自主研发的Arm处理器Axion，据称其性能比竞争对手高出30%，能效提高了60%。此外，谷歌推出的CodeGemma是基于Gemma模型的代码生成和补全工具，它提供了智能代码补全、高准确性和多语言支持，能够简化开发人员的工作流程。Google DeepMind发布的RecurrentGemma是一系列开放权重语言模型，基于Griffin架构，通过局部注意力和线性循环实现快速推理。Google Vids是谷歌推出的AI视频创建工具，它允许用户在Google Workspace中与其他工具如文档和表格一起制作视频，并支持实时协作。最后，Gemini Code Assist是谷歌推出的企业级AI代码完成和辅助工具，旨在提供更准确的代码建议和处理大段代码的能力。4月10日，在Vision 2024大会上，英特尔展示了由其子公司Habana Labs开发的最新款高性能AI加速器——Gaudi 3，并计划在2024年第三季度正式推出。

报告预告

Sora来袭，国内如何迅速跟上？开源在大模型市场进程中的价值正在被重新定义吗？人型机器人重回视野，其能力是否有所提升和刷新？Devin和智能编码助手是同一条赛道上的不同节点？多家企业宣布All in AI，对市场意味着什么？InfoQ研究中心即将发布的《2024 年第 1 季度大模型监测报告》，即将给出答案。