优享资讯 | Google抢攻边缘GAI的两大关键策略

新聞 | iThome ( ) • 2024-05-03 06:59

为了让手机更好地执行LLM模型，Google提出了新框架，在原本的Android作业系统中新增了AI Core层，这是一个新的Android系统层级服务，可用来提供Gemini Nano模型的存取，同时提供模型管理、runtime和安全性等功能，来提供模型更新并确保模型输出的安全性。（图片来源／Google Cloud）

「我们的目的是透过边缘GAI开源模型Gemma向开发者社群提供Gemini中可用功能。」Google Cloud执行长Thomas Kurian在Next会前一场亚太媒体活动上这样强调，Google 将现有的Gemini模型推出了一个在Android装置上跑的轻量版本，同时推出一个相同技术的开源版本，也就是Gemma。Gemini要利用Gemma抢占边缘GAI应用市场，同时借助开源社群将Gemini影响力扩大到更多应用领域。这是Google在边缘AI的一大重要策略。

靠庞大而成熟的Android生态系，瞄准行动装置端中的GAI模型

Google去年底推出了可以在手机上执行推论的轻量版Gemini Nano模型，让原本只在云端伺服器上执行的Gemini模型，现在能够瘦身进到行动装置中，可离线执行生成式AI应用。

Google不只率先推出能在手机上执行的GAI模型，还利用其庞大而成熟的Android生态系，使得Google在下一波边缘GAI浪潮中，比起其他竞争对手更具优势。尤其，现今全球拥有超过30亿台Android装置，包括行动装置、边缘设备及IoT装置等，未来都可以使用Google的GAI模型。

Google一开始先将Gemini Nano整合到自家旗舰手机Pixel 8 Pro系列中，随后在三星Galaxy S24手机中开始提供Gemini Nano模型的支援。在Next大会上，Google扩大了其支援的装置，新增了Oppo和OnePlus两款手机品牌，而且不限于旗舰机型，未来甚至中阶手机也能够执行。例如联发科二款新晶片组未来将支援Gemini Nano，包括中阶的Mediatek Dimensity 8300等。

Google迄今并未没有透露具体的硬体限制，但需要执行Gemini Nano模型，从现有手机硬体规格来看，除了配备AI晶片Tensor G3，以满足生成式AI模型推论的运算需求之外，同时得要配备至少8GB或以上的记忆体。

为了在行动装置中能更好地执行LLM语言模型，Google提出了新框架，在原本的Android作业系统中新增了AI Core层，这是一个新的Android系统层级服务，可用来提供Gemini Nano模型的存取，同时提供模型管理、runtime和安全性等功能，以此提供模型更新并确保模型输出的安全性。

透过AI Core，开发者可以很容易在Android装置上建立和执行LLM，并可以透过SDK与AI Core进行沟通，让在OS上执行的App使用Gemini的功能。

AI Core提供了LoRA模型微调功能，可以执行利用LoRA进行微调的推理，同时也能够调度底层的硬体，如TPU或VPU，来支援模型推论所需的运算需求。目前AI Core仅包含在Android 14版本中，因此要使用AI Core，需将作业系统升级至该板本。

安卓手机上现有的3种GAI应用

Google初期在Android行动装置中提供3类Gemini应用，包括录音App摘要、Gboard中的智慧回复和聊天传讯改写。举例来说，在Pixel 8 Pro手机的转录工具App中，Gemini Nano模型可以提供会议音档的重点摘要。而在Gboard工具上则会根据键盘上的上下文输入提供下一段文字的建议。在聊天讯息中，则能够根据对话内容提供内容改写的建议，并可在离线情况下执行这些装置上的GAI应用。

不过，现阶段这些应用仍处于私人Beta测试阶段，仅提供特定的开发人员进行测试使用。

除了可离线执行装置上GAI应用，使用者也可以利用Gemini API在行动装置中执行较复杂的多模态AI任务，例如经由网路使用云端上的中型模型，如Gemini 1.0 Pro，就能够在手机上使用功能更强的Gemini助手回应和处理各种Workspace内容。

在一场Android装置GAI技术发展演讲中，Google Android开发者关系工程师Thomas Ezan提到将GAI模型部署到Android装置上的好处在于，资料可以就近在手机装置上处理不需要传云，对于企业隐私保护性也较高，而且模型回应速度更即时，甚至遇到断网也不怕。此外，企业执行模型推论增加的云端成本也能降低。

Thomas Ezan指出，Google目标是要让每支App，都能够使用生成式AI功能，甚至还要将Gemini变成是下一代App的关键必备能力。他预告接下来，还有其他功能陆续推出，包括装置上个人化GAI功能。

Google初期在Android行动装置中提供3类Gemini应用，包括录音摘要、Gboard键盘智慧回复和聊天传讯改写。举例来说，Pixel 8 Pro手机使用者可以在转录工具App中使用Gemini Nano模型提供会议音档的重点摘要。此外，Gemini也能够根据键盘上的上下文输入提供文字的建议，而且聊天讯息对话过程中，也能根据原始内容提供改写的建议。（摄影／余至浩）

Gemini要利用相同技术的GAI开源模型Gemma进军边缘AI

Google在边缘AI策略，除了推出可在装置上跑的Gemini Nano模型，还将另一款采用相同技术研发的边缘GAI模型Gemma开源，要借助开源社群的力量将Gemini影响力向外扩散到更多应用领域之中，这是Google在边缘AI另一大重要策略。

Gemma是Google在今年2月释出的一款轻量级边缘GAI开源模型，用来挑战脸书Meta的LlaMa。Gemma正式采用Apache-2.0授权释出，因此其更易于散播，并且可以在桌机、笔电，甚至行动装置、IoT装置上执行。

Gemma采用与Gemini模型系列相同的架构、训练资料和训练方法，利用了6兆个Tokens的资料集（包含网路文档、数学和程式码）进行训练，而且同样基于安全与负责任的AI原则设计。不过，与Gemini不同的是，Gemma并非多模态模型，仅能支援单一资料型态，目前仅支援英语输入。

Gemma发布后，Google随后将Gemma和其商用GAI模型Gemini API并列在Google AI for developer页面的GAI工具列表中，提供给开发人员使用，表明对其未来发展的重视。

在会前一场亚太媒体活动上，Thomas Kurian透露对于这款边缘GAI模型未来发展的企图，他强调：「Gemma建立在与Gemini相同的基础技术和能力上，目的是吸引开发者生态系统的加入，并透过Gemma向开发者社群提供Gemini中可用功能。」

不只能够透过社群回馈持续提高和改进Gemma模型的能力，Google同时也能将这些改进应用在正式的商用Gemini产品中，使模型表现越来越好，甚至借助开源社群的力量将Gemini影响力向外扩散到更多应用领域。

借助开源力量将Gemini影响力向外扩散到更多应用领域

开发人员现在已经可以在Android装置中安装和执行Gemma，透过MediaPipe 释出的实验性LLM推论API，可以支援包括Gemma 2B模型在内的推论任务。Gemma现阶段提供了70 亿和20 亿参数两种版本，前者用在GPU和TPU上的应用部署和开发，后者则是专用在CPU为主的装置应用上。

不过在GPU的装置上执行20亿和70亿的Gemma模型，分别需要至少8GB以上和24GB以上的记忆体。

Google虽然不是唯一一家将自家GAI模型开源的公云业者，例如微软最近释出了SLM模型Phi-3-min，同样可以在行动装置上执行。但是Google在Next大会上进一步在云端LLM开发平台Vertex中开始提供Gemma系列模型，包括程式码生成模型CodeGemma等，让企业可以在自家LLM应用中开始采用。

此外，Google在其GDC分散式云端服务中开始提供Gemma模型的支援，进一步将Gemma应用到了靠近资料所在的企业边缘环境，例如工厂等。