苹果,终于曝光了在 AI 方面的进展。

苹果 AI,给手机   AI 打了一个样

与上个月谷歌在 I/O 的发布会上,一共提起了 AI 这个词 121 次不同,当地时间 6 月 10 日,苹果在 WWDC24 的前一个小时里,几乎一次 AI 都没有提到。尽管这场 WWDC 发布会,早已注定要聚焦于 AI。

直到发布会进度过半,苹果才终于端出了这道主菜,Apple Intelligence。虽然同样可以简写为 AI,但苹果最终选择将自己的 AI 命名为「苹果智能」。介绍时,库克特别强调他们想要打造的,是超越「人工智能」(Artificial Intelligence)的「个人智能」(Personal Intelligence)。

与其他大模型「大力出奇迹」的发展理念不同,苹果在打造自己的 AI 时,采用了相对谨慎,颗粒度也更细的开发模式,各项功能定义得更加明确清晰,但也显得不那么「神奇」。

发布会上,苹果官宣了与 OpenAI 的合作。用户将可以通过 Siri,直接调用 GPT-4o 的接口来进行对话,但并没有将 GPT 与手机功能做更深的结合。

无论如何,苹果代表的,是十亿级的移动设备用户,更高频的使用场景。这可能是 AI 真正变得「有用」的开端。

苹果智能是什么?

将 AI 与智能手机结合,早已不是新鲜事,苹果所采取的思路,与一众 Android 厂商,依然是类似的。

简单来说,手机厂商要把 AI 的输入端,从用户输入 prompt,改造成模型主动感知手机上「正在发生的一切」作为 prompt。同时也把 AI 的输出端,从单纯的输出信息,变成调用 App,实现各种行为功能。

苹果用了 5 个词来总结 AI 的特性:性能强劲,直觉易用,功能整合,个性定制,隐私安全。

功能上,苹果主要围绕文字、图像和交互三个模块,打造了苹果智能的功能。

文字功能主要围绕短信和邮件两个场景展开,用户可以选中一段文字,然后进行各种 AI 优化,包括语法检查、重写,生成总结、要点、列表……用户也可以用自然语言描述自己的改写需求,比如改得更简略一点,将语气变得友善随意或专业一点。

基于这套语言模型,苹果也做了 *** 录音、转文字、生成总结,以及自动识别短信、邮件内容,将优先级高的内容放到前面显示。苹果会将这类内容标记为「可能重要」。

使用 AI 生成 genmoji 在信息应用里使用|图片来源:Apple

图像功能则主要是「生成图片」。苹果智能可以自动提取各种场景下的文字作为 prompt,生成图片。比如发短信时根据输入的文字内容生成图片、emoji(苹果将其命名为 genmoji);在 iPad 上根据用户画的草图或写下的文字,提取关键信息生成图片。以及苹果也加入了不少手机厂商已经做了的「照片智能消除」功能,可以将照片里无关的路人抠掉,并自动生成一部分图像填充空白。

最后,也是相对比较关键的,则是对交互的改进。苹果表示 AI 将开启 Siri 的全新时代。Siri 将可以理解更复杂的语言文本,进行更自然的交互,而且 Siri 会自动利用设备上的各种信息来「理解语境」,更好地解读用户的需要。

这部分功能描述起来比较复杂。比如用户不记得自己的身份证号了,问 Siri,Siri 就可以从相册里,找出护照的照片,提取号码,让用户填入。只不过 Siri 能感知的信息将包括日历、备忘录、短信、邮件等等……

Apple Intelligence 会登陆所有苹果终端设备|图片来源:Apple

除此之外,用户有不知道怎么操作的功能,也可以直接用自然语言描述给 Siri 听,Siri 会帮忙找到对应的操作 *** ,这也将极大改变用户使用手机的方式。

最后,苹果也将 ChatGPT 整合进了智能系统。在处理文字和使用 Siri 的过程中,如果用户想要调用性能更强的云端模型,可以切换使用 GPT-4o 来生成信息,也可以绑定自己的 GPT Plus 账户,利用其他模型。

把 AI 做细

因为 AI 要利用用户最敏感的隐私信息来作为输入,苹果自然会把隐私保护视为重中之重。

苹果智能的模型是跑在设备本地的,苹果没有公布关于这个端侧模型的任何信息,但只有搭载了 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 Mac 和 iPad 才支持苹果 AI,可见它对芯片 NPU 的性能要求很高。

但苹果 AI 依然无法做到 100% 的本地运行,在需要的时候,它也会利用云端算力来进行处理。苹果表示,这部分处理的过程中,不会留存任何用户数据,只会在处理用户主动请求时上传信息,并且通过可验证的隐私机制来保证安全,苹果将这套系统称为「私密云计算」(Private Cloud Compute)。

苹果 AI 也会接入 ChatGPT,不过使用前会先询问用户|图片来源:Apple

至于调用 GPT 的部分,苹果会在用户选择调用 GPT 之前进行询问确认,并会提示 GPT 返回的结果不一定事实正确。

所以,苹果AI可以分为苹果自研的端侧模型、云端模型加上 GPT 三套系统,这套架构本身并不复杂,但依然有很多细节问题悬而未决。

比如其中最重要的,就是 AI 要如何利用第三方 App 的问题。目前苹果已经公布了之一批 AI 配套的开发工具,开发者可以利用接口,将自己 App 的功能接入到 AI 系统里。这种开发模式有点类似于过去的「快捷指令」,实际上开发者,特别是那些大公司,最终可能并不会很积极地进行适配。

举一个例子,想要通过苹果的 AI 搜索 iMessage 里的某一条聊天记录、图片可能很方便,从 AI 上线之一天就能有很好的支持。但如果用户在记日历的时候,问 Siri 昨天某某同事在飞书、微信上跟他约好的时间是几点,AI 系统很可能就无法顺利获取这部分信息。

类似的问题还体现在,这些「私人信息」要如何跨设备流转?比如用户在 Mac 上想要问 Siri 过去几天的运动状况,而运动健康信息是储存在 iPhone 上的。目前苹果没有公布任何跨设备的信息流转机制,所以很可能就无法获取这部分信息。

WWDC 主演讲上发布的关于 Apple Intelligence 的所有信息|图片来源:Apple

大模型更大的革命之处,就在于它拥有一个「完整的知识库」。

因为这个知识库几乎无所不包,所以才体现为大模型能力的涌现,让人感觉无论你问它什么,怎么问,它总能给出答案。而要把这套系统搬到手机上,将用户的全部个人信息整合成一个「知识库」,供用户随时获取,但同时又要保证隐私安全,这在产品设计和逻辑上将会是巨大挑战。

任何产品想要突破使用率的瓶颈走向普及,就一定要保证交互的成功率,用户在得到自己想要的东西。就像语音助手过去从未真正普及的主要原因还是交互的失败率太高,而到了 AI 的时代,它依然要面临同样的问题。

苹果在AI上,才刚刚打了一个地基。

国内用户能期待什么?

根据苹果公布的信息,Apple Intelligence 之一批将仅支持英语,且也要等到秋季才会推送测试版本。目前已经推送的之一波开发者版本的新系统,尚未搭载苹果的 AI。

苹果表示明年会加入更多功能、语言和平台。大概率是在苹果 AI 的这套系统里,GPT 最终像 Safari 搜索引擎一样,可以被替换。此前有消息曝出苹果与百度正在就大模型接口的合作进行沟通,应该替换的就是这一部分。

而苹果 AI 真正核心的端侧模型和云端模型,既然都是苹果自研,只要能通过国内的合规流程,国内用户依然有较大希望能顺利用上。

利用模型能力,颠覆计算设备的交互界面,并重构个人的数据组织结构,这是自大模型诞生之初就存在的想象。但大多数做模型和应用的公司,都很难染指计算设备的核心系统,包括过程中的隐私安全问题也让苹果这样的厂商不得不保持万分谨慎。

但现在,无论如何,这艘大船已经起航。