优享资讯 | AI趋势周报第250期：Google一篇论文揭示LLM如何处理无限长文字输入

新聞 | iThome ( ) • 2024-04-14 18:49

AI趋势周报第250期：Google一篇论文揭示LLM如何处理无限长文字输入

Google团队设计一种无限注意力机制，能将压缩的记忆纳入普通注意力机制中，并将遮罩的局部注意力和长期线性注意力机制，结合在单一个Transformer区块。

图片来源:

萤幕截图

重点新闻(0405～0411)

LLM Google 文长

Google一篇论文揭示LLM如何处理无限长文字输入

Google最近揭露一种Transformer大型语言模型（LLM）的新扩展方法，可利用有限的记忆体和运算资源，来处理无限长的文字输入。Google在《Leave No Context Behind》论文中说明这项新方法，他们设计一种无限注意力（Infini-attention）机制，将压缩的记忆纳入普通注意力机制中，并将遮罩的局部注意力和长期线性注意力机制，结合在单一个Transformer区块，能让模型具备完整的上下文知识。

这个无限注意力机制，可重复使用标准注意力的键、值和查询状态，来进行长期记忆整合与检索。有别于丢弃旧的键值（KV），无限注意力方法将旧键值储存在压缩的记忆体，并用注意力查询状态来检索值，以便处理之后的序列。这个修改Transformer注意力层的作法，能支援模型的连续预训练和微调，进而让LLM可以处理无限长度的文字。

经测试，使用这个方法的模型，在长文语言模型测试基准中，表现都比基准模型要好，甚至可实现114倍的理解率。他们也发现，10亿参数的LLM采用该方法，可将输入值长度扩展至100万个序列，还能实现密钥检索任务。最后，他们实验显示，采用无限注意力机制的80亿参数模型，在文长50万的书籍摘要任务中能达到SOTA表现。（详全文）

LLM 苹果 UI

让LLM更懂萤幕内容！苹果揭新模型Ferret-UI

就在6月份的年度技术大会WWDC 2024前，苹果发表一项大型语言模型（LLM）最新研究成果，自建一套Ferret-UI大语言模型，更懂行动装置使用者介面（UI）的互动和细腻需求。苹果团队在论文中表示，虽然GPT-3这类LLM可执行多种任务，但仍难以理解UI互动，特别是行动装置领域。

这是因为，行动装置UI画面和自然图像很不一样，UI画面具有特定长宽比例，画面上的物件也较小，比如icon图示和文字，这些特性在自然图像上很难见到。为解决这些挑战，Ferret-UI采用了任意解析度的机制，能处理不同长宽比的萤幕，还能放大细节、增强提取的视觉特征。Ferret-UI接著对每个子图像分别编码，来避免丢失关键的视觉资讯。

此外，Ferret-UI还采用一种新的资料管理方法，从各种UI任务中收集训练样本，这些任务包括图示辨识、寻找文字和小工具列表。这些任务让Ferret-UI学会认识UI元素的语义和空间定位，因此能进行更广泛的任务。除了基础任务，Ferret-UI也进行特定任务训练，如生成详细描述、感知对话理解和功能推理。为评估Ferret-UI，团队还建立一个涵盖各种UI任务的基准测试，与其他开源LLM和GPT-4V相比，Ferret-UI表现更好，尤其是在基础UI任务和高阶推理能力上。若苹果将Ferret UI整合到智慧助理Siri中，可实现无缝的应用程式整合、推进自然语言导航等。（详全文）

Gemini Google 生成式AI

Google生成式AI助理Gemini for Google Cloud正式亮相

在本周举行的Google Cloud Next '24上，Google正式发表Gemini for Google Cloud，是一款以大型语言模型Gemini驱动的生成式AI助理，按不同功能分为不同助理，包括Gemini Code Assist、Gemini Cloud Assist、Gemini in Security Operations、Gemini in BigQuery、Gemini in Looker和Gemini in Databases等。Google将Gemini打造成统一的AI品牌，不只于今年2月将聊天机器人Bard更名为Gemini，还以Gemini品牌全面取代先前发表的AI助理Duet AI。

其中，Gemini Code Assist是先前的Duet AI for Developers，可协助开发者在VS Code和JetBrains等热门程式编辑器中建置应用程式。Gemini Cloud Assist则是应用程式生命周期管理工具，能提供有关应用程式的设计、部署、管理和排除故障的个人化建议。Gemini in Security Operations则是继承Duet AI in Security Operations，新版已将Gemini整合至Chronicle安全营运平台，能更轻松侦测、调查与回应威胁。

Gemini in BigQuery可协助资料工程师和分析师，用自然语言从海量资料中分析或找出有价值的资讯。Gemini in Looker则是商业智慧工具，可以聊天方式与资料库对话，或用来建立图表和报告。Gemini in Databases则让Database Studio具备生成、摘录SQL的能力，也允许使用者从Database Center中管理所有资料库或资料库迁移。（详全文）

生成式AI 外挂 Google Workspace

Google Workspace新添多种生成式AI外挂

Google Workspace是生产力工具，现有30多亿名用户和1,000多万名付费用户。去年Google大举投入AI，也为Workspace的Gmail、Docs、Sheets等应用内建Gemini。这次在今年度Next'24开发者大会上，Google宣布新添更多AI加持的应用，如Google Vids是款商务AI影片制作App，可制作行销、客服或业务训练等影片，还能协助用户配音。Vids预计今年6月提供Workspace Labs更多人测试，之后由Gemini for Google Workspace方案开放订阅。

再来，Google Workspace也加入AI会议与讯息、AI安全等2项付费AI外挂功能。AI会议和讯息外挂可用于Meet用户会议，像是专业摄影棚等级的摄影、打灯、音效、预览版的「会议笔记」、聊天重点摘要和即时翻译字幕功能。AI安全外挂可自动为公司Google Drive上的档案与文件自动分类和加入防护，Google表示，该功能是以企业组织独有资料训练出AI模型后，用这些模型持续侦测和评估Drive的现有与新档案。AI会议和讯息、以及AI安全收费皆为每人每月10美元。（详全文）

LLM 联发科 生成式AI

联发科推出生成式AI服务平台、最新繁中LLM

联发科技日前一口气发表生成式AI服务平台MediaTek DaVinci（又称达哥）和繁中大型语言模型MR BreeXe。首先，达哥最初是为集团内部开发，目的是要提高生产力，平台内建API库、提示优化引擎、扩充外挂库、模型库和分析引擎等重要元件。其中，外挂库可用来扩充生成式AI模型知识、减少AI幻觉，模型库则包含常见的大型语言模型（LLM），如Google Gemini、GPT-3.5/4V、Whisper、Claude 3和AWS Bedrock服务等，联发科技自己最新打造的模型BreeXe也纳入其中。

今年，联发科技优化该平台，新添智慧助理架构，能让使用者不必写任何程式码，就能打造自己的智能秘书。这个版本的平台就是达哥2.0，还具备4个主要商店，包括AI模型、扩充外挂、提示范本、知识库（DVCs）等，另也配备许多功能，包括DocChat、VideoChat、WebChat和Plug-ins。另一方面，这次揭露的繁中模型MR BreeXe是以Mixtral 8x7B模型为基础，以大量繁中资料预训练而成，在繁体中文基准测试TMMLU+和MT Bench TW上超越GPT-3.5。该模型也对台湾常见的地端应用特别优化，要提高产业界使用生成式AI和检索增强生成（RAG）的体验。使用者可透过达哥平台使用MR BreeXe，它还支援全地端与部分地端场景，也能依需求进行少样本学习和微调客制化。（详全文）

LLM Mistral AI Mixtral 8x22B

Mistral AI开源1,760亿参数模型Mixtral 8x22B

去年4月才成立的AI业者Mistral AI最近就释出新版的开源模型Mixtral 8x22B，采稀疏混合专家（SMoE）架构、支援1,760亿个参数和6.5万个Token的脉络长度，已由Mistral AI的官方X帐号、Together API和Hugging Face发布，成为目前最大的开源模型之一。

迄今Mistral AI已释出3款开源模型，包括去年9月发表的Mistral 7B（Mistral-tiny），去年12月发表的Mixtral 8x7B（Mistral-small）和这次推出的Mixtral 8x22B，它们皆采Apache 2.0授权，允许开发者免费下载，并在自己的设备或伺服器上执行。Mixtral 8x22B的基准测试表现不错，在大规模多工语言理解MMLU的成绩为77.3，胜过前一代Mixtral 8x7B的71.88，也超越GPT-3.5、Claude 3低阶版Haiku、Gemini 1.0 Pro，但仍不及GPT-4和Claude 3 Sonet/Opus。在基础常识推论HellaSwag测试中，Mixtral 8x22B得分为88.9，仅不及GPT-4、Claude 3 Sonet/Opus和Gemini 1.5 Pro；但它在GSM8K数学测试中的得分为76.5，明显不及GPT-4、Claude 3和Gemini的各种模型。不过，使用者可下载微调模型，打造为适合自己任务需求的模型。（详全文）

GPT-4 Turbo with Vision 视觉 OpenAI

OpenAI GPT-4 Turbo with Vision上线

OpenAI最近加入视觉能力的基础模型GPT-4 Turbo with Vision已正式上线，供付费用户存取。现在，付费客户可透过API存取，也能用JSON模式或函式呼叫方式发出请求。

GPT-4 Turbo with Vision是OpenAI的大型多模态模型，整合自然语言处理和视觉理解能力，可分析用户上传的图片并以文字回应。最新模型和GPT-4 Turbo同样具有128K个Token脉络，且训练资料已更新到2023年12月。GPT-4 Turbo with Vision去年12月已先行整合到微软Azure AI服务。（详全文）

OpenAI 模型微调 延迟

OpenAI扩大AI模型微调功能

日前，OpenAI公布AI模型微调功能，让企业或开发者自行微调AI模型，同时也提供企业辅助微调或从头打造AI模型的服务。进一步来说，OpenAI在去年8月就推出GPT-3.5模型的微调API，已有数千家企业和开发商用来训练上万个模型。这个微调API不只能让模型更理解训练内容，还比普通ChatGPT单一提示支援更多范例，可提高回应结果品质，同时降低成本与延迟性。

在这个基础上，OpenAI再增加微调功能，包括周期（epoch-based）为基础检查点，减少过度拟合必须再训练的困扰；比较性Playground UI，可同时比较多个模型输出结果，或检视在单一提示下的微调效果；整合第三方平台，第一批包括Weights和Bias，方便开发者将微调的资料分享到其他软体；大量参数配置，允许从Dashboard设定，以及微调能力的改善，支援输入超大量参数、检视详细训练量测值等。若企业需要帮忙微调，OpenAI也推出自订模型方案，由一组OpenAI技术人员协助企业训练与优化特定领域的模型。（详全文）

图片来源／Google、苹果、OpenAI

摄影／王若朴

AI近期新闻

1. Meta揭露最新一代AI晶片MTIA

2. 吴恩达开设LLM非结构化资料处理课程

3. Google新推2款Gemma系列模型，分别用于程式开发和研究

资料来源：iThome整理，2024年4月