前段时间的WWDC,苹果终于如愿以偿公布了AI的相关消息。从iPhone、iPad到Mac,无不被生成式AI覆盖。与安卓阵营只是简单地把大模型塞进手机里不一样,这次苹果用他们的做法告诉了大家,什么才是LLMs+OS的正确打开方式。

在生成式AI的浪潮下,今年的苹果开发者大会WWDC 2024AI毫不意外的成为了大会绝对的主角。

从iPhone、iPad到Mac,无不被生成式AI覆盖。大家早已期待的新 Siri 只是苹果 AI 能力的一小部分,横空出世的Apple Intelligence才是这次的重头戏,从图像到文本,从iPhone、iPad到Mac,Apple Intelligence让苹果全系产品有了史诗级升级。

相较于安卓厂商对于大模型的小打小闹,只是简单将大模型作为Copilot塞进手机里,除了更新语音助手外,就是找几个还算能唬人的场景加上大模型的能力,最后还明目张胆将其定义为AI手机,这次苹果用他们的做法告诉了大家,什么才是LLMs+OS的正确打开方式。

苹果,重新定义了AI:Apple Intelligence

01. Apple Intelligence是什么?

Apple Intelligence定义为iPhone、iPad和Mac的个人智能系统,利用苹果芯片的能力来理解和创建语言和图像,以及跨应用采取行动。

苹果 CEO 蒂姆・库克说:苹果的目标一直是构建以人为本,最为易用方便的个人设备,提升人们的生活效率。

在这个目标下,苹果提出了他们的AI产品理念:体验足够强大、直观易用、完全整合到系统体验中、个性化且保护隐私,于是他们基于苹果自研的A 和 M系列芯片,走了一条自研本地大模型加三方云端大模型的策略。

在其他厂商疯狂砸钱买GPU训练模型的时候,在想方设法将大模型塞进手机存储的时候,苹果却换了种做法,不卷大模型,不卷本地化,还能给用户提供更好的使用体验!

这点就能看出来,苹果的出发点一直是为了提升用户的生活体验,他们明白自己做的是产品,而不是拿着锤子找钉子,死卷大模型。

库克表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

先具体看看Apple Intelligence能做什么?

简单来说,跟录音、GPS等一样,苹果将AI融入IOS系统,为用户和开发者系统提供一系列原生AI能力。可以说,这些都是原生的人类 API。

文本工具writing tool

在苹果的自带的文本应用如邮件、备忘录、Safari浏览器、Pages、Keynote和三方应用如微信、小红书等中,提供文本润色、重写,校对,改写(如语气变化)、总结和文本转表格等能力。

在它的帮助下,无论是写文章、发帖,为用户解锁了提升写作和更有效沟通的新方式。

图像工具

Image Playground,只需几秒钟即可生成素描、插图、动画三种风格。这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。

Image Wand可以将你的素描草图转换为 Notes 应用中的相关图像。使用手指或 Apple Pencil 在你的草图周围画一个圆圈,Image Wand 会分析其周围的内容以产生互补的视觉效果。

还可以生成emoj表情等等。

Siri新升级

在Apple Intelligence的加持下,Siri变得更自然、更能理解我们了!

除了更好的自然语言理解和多轮交互外,Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。

比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。

最牛的来了,Siri也可以完成跨app操作。

例如“将我起草的电子邮件发送给 April 和 Lilly”,Siri 知道您引用的是哪封电子邮件以及它在哪个应用程序中。当然这些增强功能,也并不限于苹果开发的APP。

那如果复杂任务Siri无法用本地模型执行,则会主动询问是否可以叫ChatGPT处理,同时ChatGPT也被集成到了系统的writing tool中,可以改写润色等。

隐私保障

苹果出了一个“私有云计算”的概念:“不得不上云运作”的AI功能,将在使用苹果芯片的专用服务器上启用云计算模式,确保用户数据的私密性和安全性。

02. Apple Intelligence背后的大模型

Apple Intelligence 由多个功能强大的大模型组成,这些模型专门用于辅助完成用户的日常任务,并可以根据用户的当前活动进行动态调整。

这些模型可以分为三类:

本地模型(On-Device Language Model)

这部分包含3B的语言模型、扩散模型DIffusion Model和用于Xcode的编程模型,另外还有用来做 RAG 的 Semantic Index (语义索引)和 App Intents Toolbox(应用意图工具箱)。

这些模型都针对日常的任务进行了一系列的微调,帮助用户完成各种系统级的任务。

比如前面提到的文本工具的摘要、润色、改写、回复邮件、图像生成、通知进行优先级的排序、跨应用的交互等。

此外在这些微调模型之上有个适配器(Adapters),适配器是覆盖在通用基础模型上的一小批模型权重。它们可以动态加载和交换,使基础模型能够针对手头的任务即时进行专门化。

简单来说就是根据任务来给模型选择合适的权重,让模型轻松适应不同领域专家的角色。

私有云计算(Server-Based language Model)

这个基于服务器的大语言模型,对于本地模型满足不了要求的任务,苹果会传到云端运算。

为了确保数据的安全性,苹果采用了私人云计算技术。每当用户的设备发起请求时,它会通过一个端对端加密的通道与特定的私有云计算集群进行连接。仅限于被指定的集群有权限解开这些加密的请求数据。应答数据发送回用户后,相关信息不会被存储,且苹果公司也不具备访问这些数据的能力。

第三方 LLMs

如果苹果自己的大模型搞不定的任务怎么办?

那就交给现在专门的模型厂商处理,专业的人做专业的事情嘛!

目前已经接入了 OpenAI 的 GPT-4o,但按照苹果的说法,后续还会有更多家的模型接入,比如Gemini 等。

另外,考虑到国家政策,苹果在不同国家地区的接入的大模型厂商可能不同,那Open AI和Meta的大模型肯定在国内无法使用,没有通过工信部备案,根据之前的传闻,国内首先接入的应该就是百度的文心一言了!

03. App Intents:给开发者的Framework

刚才讲了,苹果希望可以跨应用完成用户的需求,比如使用Siri就能直接完成邮件发送,图像修改等,不需要进入 app 里面,这个体验很丝滑流畅。

  1. 苹果允许操作系统和应用程序的所有部分通过「函数调用」进行互操作;内核进程 LLM 可根据用户查询安排和协调它们之间的工作
  2. 无摩擦。苹果以一种高度流畅、快速、always on 和上下文的方式全面集成这些功能。无需四处复制粘贴信息、提示工程等。还对用户界面进行了相应调整。

但具体要怎么实现呢?那就得用到给开发者提供的App intents工具,这又是一次操作系统厂商和开发者的博弈战。

App Intents 框架提供的功能可将三方的 app 操作、内容与跨平台的系统体验(包括 Siri、Spotlight、小部件、控件等)深度集成。借助 Apple Intelligence 和 App Intents 增强功能,Siri 会获得在 app 内和跨 app 执行操作的能力。

如此,开发者们可以允许用户通过以下方式使用自己的产品:

  • 与Siri互动,也可以利用Apple Intelligence的个人环境感知和行动能力
  • 通过Spotlight建议和搜索进入产品,比如微信。
  • 等等。。

举个例子,比如邮件应用,他们通过App Intents框架向苹果提供一个操作来表示某个意图,比如发邮件或者删除邮件。然后,用户可以随时要求Siri代表他们执行这些意图,无论此时有没有打开邮件应用。

简单来说,苹果一方面让开发者将意图理解能力引入App中,方便Siri等调用App的功能,一方面又可以将Apple提供的文本、图像等功能集成到App中。

这才应该是AI OS真正干的事情!

本文由 @小布Bruce 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

收藏已收藏{{ postmeta.bookmark }} 点赞已赞{{ postmeta.postlike }}