InfoQ 推荐 ( ) • 2024-04-22 14:30

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,开源领域迎来多项技术成果更新:开源大语言模型迎来 Meta Llama3 和微软的 WizardLM 2,CodeQwen1.5-7B 加入开源代码领域,Mistral-22b-v0.2 在开源中探索 MOE 与稠密模型的转换,Mini-Gemini 和 Hugging Face 开源的视觉语言模型 Idefics2 则是在开源多模态模型中不断演进。

除了技术演进外,商业领域裁员与融资并存。之前占据融资热点的 AI 明星企业 Stability AI 和 Tome 相继宣布裁员计划,与之相对的则是大模型领域动辄数亿美元的融资。这也为诸多公司敲下了警钟,在应用淘汰赛中,如何在可控成本下,找寻能赚取稳定现金流的场景,是 AI 产品能否持续运营的关键。并且随着市场竞争的加剧,这一淘汰赛正在迅速展开。

二、具体内容

大模型持续更新

4 月 12 日,知识管理厂商印象笔记宣布其自研大语言模型被正式命名为「印象大模型」,并已根据《生成式人工智能服务管理暂行办法》及相关法律法规完成模型备案,其 AI 产品印象 AI 也迎来多项功能更新,未来将为更多用户提供包含阅读、总结在内的多项智能化知识管理服务。4 月 14 日,OpenAI 在官宣日本办事处的同时,宣布推出针对日语优化 GPT-4 定制模型。Open AI 表示,以 Speak 为代表的本地企业已经可以使用自定义模型,该模型在翻译和总结日语文本方面提供了更高的性能。最重要的是,其运行速度比 GPT-4 Turbo 快三倍,这样的成本效益将成为满足当地各种需求的合适选择。4 月 17 日,MiniMax 稀宇科技 正式发布其 MoE 模型 abab 6.5系列,该系列包含abab 6.5 和 abab 6.5s,其中abab 6.5 包含万亿参数,并支持 200k tokens 的上下文长度,abab 6.5s 同样支持 200k tokens 的上下文长度,但更高效,可以在1 秒内处理近 3 万字的文本。

多模态领域

4 月 13 日,xAI 在其官网推文中宣布推出多模态模型 Grok-1.5 Vision,这也意味着,除了文本信息,Grok 现在还可以处理各种包含图表、表格、截图和照片在内的视觉信息,并将于近期邀请现有的 Grok 用户进行测试。4 月 15 日,香港中文大学终身教授贾佳亚团队提出的开源多模态模型 Mini-Gemini 宣布其 130亿参数的 demo 上线 Hugging Face。此前于 3 月 28 日,Mini-Gemini 即宣布其代码、模型、数据已经全部开源。4 月 16 日,Hugging Face 更新了其视觉语言模型 Idefics2。该模型能够理解和生成基于图像和文本的文字回复,并且在 OCR 识别能力方面显著增强。

开源领域

4 月 13 日,Mistral AI 在发布 Mistral-22b-v0.1 仅仅两天之后,宣布开源 Mistral-22b-v0.2。该模型实现了从MOE到稠密(Dense)模型的转换,并且其训练数据是 v0.1 的 8 倍。相较于v0.1, v0.2 在数学才能和编程能力获得明显提升,并且在多轮对话中也能保持高度的对话流畅性。Mistral AI 同时宣布 v0.3 已经在训练过程中,并将有更多 220 亿参数的模型发布,直到其找到将 MOE 压缩的最佳成果。4 月 15 日,微软发布并开源其新一代大语言模型系列 WizardLM 2,此系列包括三个模型,分别是WizardLM-2 8x22B(MOE)、WizardLM-2 70B 和 WizardLM-2 7B。但 4 月 16 日,微软宣布因为其不熟悉新模型的发布流程,未能对 WizardLM 2 进行毒性测试(toxicity testing),并已将代码文件从 Github 以及 Hugging Face 上删除,在完成测试后会尽快重新发布。4 月 16 日,通义千问团队开源了基于 Qwen1.5 的代码模型 CodeQwen1.5-7B 及其对话模型。CodeQwen1.5-7B 支持 92 种编程语言,并且能够处理最长 64 K的上下文输入,并展现出了优秀的代码生成、长序列建模、代码修改等能力。4 月 17 日,AGI 公司 Zyphra Technologies 宣布推出其新一代开源基础模型 Zamba-7B。这个 70 亿参数的模型定位于 AI 设备的装载上,并声称在基准测试中优于 LLaMA 1、LLaMA 2-7B。同时其模型权重也即将开源,以供大家判断实际效果。4 月 17 日,昆仑万维宣布其基座大模型——天工 3.0 开启公测。天工3.0 拥有 4000 亿参数,是目前全球最大的开源 MoE 大模型(但目前在 Github 和 ModelScope 未见其开源项目)。同时,天工3.0 新增了图表对比生成、研究模式、增强模式、扩图修图等功能。4 月 18 日,Meta 正式发布 Llama3,目前已经上架官网和 Hugging Face。此次开源的 Llama3 共包括2个模型,Meta-Llama-3-8B 和 Meta-Llama-3-70B。在 MMLU、GPQA、HumanEval、GSM-8K、MATH 这五个评测集的表现上,不仅超过了 Mistral 7B,甚至部分评测集中,Meta-Llama-3-8B模型的得分超过了Meta-Llama-2-70B。而且在未来几个月内,Meta 还会推出更多的版本。

应用探索

新产品新功能/插件

4 月 16 日,Poe 宣布推出其3.0版本,并新增多机器人聊天功能,用户可以通过@指令,在不同任务场景下调用多个大模型进行对话,以发挥不同大模型的优势。Poe 致力成为对话 AI 应用商店,提供变现工具和企业服务。4 月 16 日,Adobe 宣布推出一款适配 Adobe Acrobat Reader 和 Adobe Acrobat 的 AI 助手——Adobe Acrobat AI Assistant,以帮助用户快速处理、检索、阅读和总结吸收 PDF 文档中的内容。目前,该功能仅支持英文,预计未来还会扩展至更多语言。4 月 16 日,Adobe 宣布了 Premiere Pro 全新版本的更新计划,本次更新中包含了为第三方 AI 视频生成模型添加插件。这意味着在 Adobe Firefly 自身的能力之外,用户即将可以直接通过 Adobe 工具体系调用 OpenAI Sora、Runway Gen-2 和 Pika。4 月 17 日,昆仑万维宣布基于天工 3.0 打造的天工 SkyMusic 登录天工 APP ,并开启全面公测。天工 SkyMusic可以生成 80 秒 44100Hz 采样率双声道立体声歌曲,支持生成说唱、民谣、放克、古风、电子等多种音乐风格,还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。同时,也支持参考音乐与方言歌曲两种生成方式。4 月 18 日,钉钉 AI 助理市场(AI Agent Store)正式上线,首批将推出超过 200 个 AI 助理,覆盖企业服务、效率工具、财税法务、教育学习等类别。根据钉钉披露,截至 2024 年 3 月底,钉钉 AI 已超过 220 万家企业使用,月活跃企业超过 170 万家。

终端AI

4 月 12 日,蔚来宣布端云多模态大模型 NOMI GPT 正式启动推送。NOMI GPT 内置的认知中枢、情感引擎和端侧多模态感知架构赋予了 NOMI 与用户进行开放式问答的交互能力。本次升级后,用户可在车内体验到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI场景生成在内的多项全新交互体验。4 月 17 日,Rewind 宣布推出一款可穿戴 AI 设备 Limitless。Limitless 可以记录用户的日常对话内容,并利用 AI 进行会议准备、实时传译、记录和总结。这款产品预计在 2024 年 8 月份发货,预计售价为 99 美元。4 月 18 日,联想在 TechWorld 2024 上发布了内嵌个性化 AI 智能体「联想小天」的AI PC 系列产品,价格从 5999 到 17999 元不等,目前已开启预购。

其他

4 月 12 日,已发布大模型安全基座和AI生成内容检测基座的瑞莱智慧在其公众号宣布,已经完成新一轮战略融资。本轮融资由光源资本担任独家财务顾问,投资方包括北京市人工智能产业投资基金等。4 月 13 日,估值 3 亿美元的 AI 初创公司 Tome 解雇了 12 名员工,在解雇之前该团队拥有 59 名员工。 Tome 产品专注于 AI 生成 PPT,截至 4 月初,Tome 付费专业版每月收入约为 30 万美元。4 月 15 日,微软在其官网宣布,其将向阿联酋 AI 公司 G42 投资 15 亿美元,并持有少数股权和董事会席位。G42 将在微软云计算平台 Azure 上运行其人工智能应用和服务,来为中东地区、中亚和非洲国家的各行各业提供先进的 AI 解决方案。4 月 16 日,根据媒体消息,由王小川创立的百川智能正在进行新一轮数亿美元的融资,本轮融资也将成为今年以来国内AI领域最大的融资之一。4 月 18 日,根据内部电子邮件,Stability AI新任命的联席CEO Shan Shan Wong和Christian Laforte宣布,Stability AI 裁员 20 多名员工,这涉及这个 200人 团队的 10%。此前于 3 月 23 日,Stability AI 宣布其 CRO Emad Mostaque 离职,并退出董事会。

报告预告

Sora来袭,国内如何迅速跟上?开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,其能力是否有所提升和刷新?Devin和智能编码助手是同一条赛道上的不同节点?多家企业宣布All in AI,对市场意味着什么?InfoQ研究中心即将发布的《2024 年第 1 季度大模型监测报告》,即将给出答案。