蘋(píng)果 AI,給手機(jī)+AI 打了一個(gè)樣
蘋(píng)果,終于曝光了在 AI 方面的進(jìn)展。
與上個(gè)月谷歌在 I/O 的發(fā)布會(huì)上,一共提起了 AI 這個(gè)詞 121 次不同,當(dāng)?shù)貢r(shí)間 6 月 10 日,蘋(píng)果在 WWDC24 的前一個(gè)小時(shí)里,幾乎一次 AI 都沒(méi)有提到。盡管這場(chǎng) WWDC 發(fā)布會(huì),早已注定要聚焦于 AI。
直到發(fā)布會(huì)進(jìn)度過(guò)半,蘋(píng)果才終于端出了這道主菜,Apple Intelligence。雖然同樣可以簡(jiǎn)寫(xiě)為 AI,但蘋(píng)果最終選擇將自己的 AI 命名為「蘋(píng)果智能」。介紹時(shí),庫(kù)克特別強(qiáng)調(diào)他們想要打造的,是超越「人工智能」(Artificial Intelligence)的「?jìng)€(gè)人智能」(Personal Intelligence)。
與其他大模型「大力出奇跡」的發(fā)展理念不同,蘋(píng)果在打造自己的 AI 時(shí),采用了相對(duì)謹(jǐn)慎,顆粒度也更細(xì)的開(kāi)發(fā)模式,各項(xiàng)功能定義得更加明確清晰,但也顯得不那么「神奇」。
發(fā)布會(huì)上,蘋(píng)果官宣了與 OpenAI 的合作。用戶將可以通過(guò) Siri,直接調(diào)用 GPT-4o 的接口來(lái)進(jìn)行對(duì)話,但并沒(méi)有將 GPT 與手機(jī)功能做更深的結(jié)合。
無(wú)論如何,蘋(píng)果代表的,是十億級(jí)的移動(dòng)設(shè)備用戶,最高頻的使用場(chǎng)景。這可能是 AI 真正變得「有用」的開(kāi)端。
01
蘋(píng)果智能是什么?
將 AI 與智能手機(jī)結(jié)合,早已不是新鮮事,蘋(píng)果所采取的思路,與一眾 Android 廠商,依然是類(lèi)似的。
簡(jiǎn)單來(lái)說(shuō),手機(jī)廠商要把 AI 的輸入端,從用戶輸入 prompt,改造成模型主動(dòng)感知手機(jī)上「正在發(fā)生的一切」作為 prompt。同時(shí)也把 AI 的輸出端,從單純的輸出信息,變成調(diào)用 App,實(shí)現(xiàn)各種行為功能。
蘋(píng)果用了 5 個(gè)詞來(lái)總結(jié) AI 的特性:性能強(qiáng)勁,直覺(jué)易用,功能整合,個(gè)性定制,隱私安全。
功能上,蘋(píng)果主要圍繞文字、圖像和交互三個(gè)模塊,打造了蘋(píng)果智能的功能。
文字功能主要圍繞短信和郵件兩個(gè)場(chǎng)景展開(kāi),用戶可以選中一段文字,?cè)缓筮M(jìn)行各種 AI 優(yōu)化,包括語(yǔ)法檢查、重寫(xiě),生成總結(jié)、要點(diǎn)、列表……用戶也可以用自然語(yǔ)言描述自己的改寫(xiě)需求,比如改得更簡(jiǎn)略一點(diǎn),將語(yǔ)氣變得友善隨意或?qū)I(yè)一點(diǎn)。
基于這套語(yǔ)言模型,蘋(píng)果也做了電話錄音、轉(zhuǎn)文字、生成總結(jié),以及自動(dòng)識(shí)別短信、郵件內(nèi)容,將優(yōu)先級(jí)高的內(nèi)容放到前面顯示。蘋(píng)果會(huì)將這類(lèi)內(nèi)容標(biāo)記為「可能重要」。
圖像功能則主要是「生成圖片」。蘋(píng)果智能可以自動(dòng)提取各種場(chǎng)景下的文字作為 prompt,生成圖片。比如發(fā)短信時(shí)根據(jù)輸入的文字內(nèi)容生成圖片、emoji(蘋(píng)果將其命名為 genmoji);在 iPad 上根據(jù)用戶畫(huà)的草圖或?qū)懴碌奈淖?,提取關(guān)鍵信息生成圖片。以及蘋(píng)果也加入了不少手機(jī)廠商已經(jīng)做了的「照片智能消除」功能,可以將照片里無(wú)關(guān)的路人摳掉,并自動(dòng)生成一部分圖像填充空白。
最后,也是相對(duì)比較關(guān)鍵的,則是對(duì)交互的改進(jìn)。蘋(píng)果表示 AI 將開(kāi)啟 Siri 的全新時(shí)代。Siri 將可以理解更復(fù)雜的語(yǔ)言文本,進(jìn)行更自然的交互,而且 Siri 會(huì)自動(dòng)利用設(shè)備上的各種信息來(lái)「理解語(yǔ)境」,更好地解讀用戶的需要。
這部分功能描述起來(lái)比較復(fù)雜。比如用戶不記得自己的身份證號(hào)了,問(wèn) Siri,Siri 就可以從相冊(cè)里,找出護(hù)照的照片,提取號(hào)碼,讓用戶填入。只不過(guò) Siri 能感知的信息將包括日歷、備忘錄、短信、郵件等等……
除此之外,用戶有不知道怎么操作的功能,也可以直接用自然語(yǔ)言描述給 Siri 聽(tīng),Siri 會(huì)幫忙找到對(duì)應(yīng)的操作方法,這也將極大改變用戶使用手機(jī)的方式。
最后,蘋(píng)果也將 ChatGPT 整合進(jìn)了智能系統(tǒng)。在處理文字和使用 Siri 的過(guò)程中,?cè)绻脩粝胍{(diào)用性能更強(qiáng)的云端模型,可以切換使用 GPT-4o 來(lái)生成信息,也可以綁定自己的 GPT Plus 賬戶,利用其他模型。
02
把 AI 做細(xì)
因?yàn)?AI 要利用用戶最敏感的隱私信息來(lái)作為輸入,蘋(píng)果自然會(huì)把隱私保護(hù)視為重中之重。
蘋(píng)果智能的模型是跑在設(shè)備本地的,蘋(píng)果沒(méi)有公布關(guān)于這個(gè)端側(cè)模型的任何信息,但只有搭載了 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 Mac 和 iPad 才支持蘋(píng)果 AI,可見(jiàn)它對(duì)芯片 NPU 的性能要求很高。
但蘋(píng)果 AI 依然無(wú)法做到 100% 的本地運(yùn)行,在需要的時(shí)候,它也會(huì)利用云端算力來(lái)進(jìn)行處理。蘋(píng)果表示,這部分處理的過(guò)程中,不會(huì)留存任何用戶數(shù)據(jù),只會(huì)在處理用戶主動(dòng)請(qǐng)求時(shí)上傳信息,并且通過(guò)可驗(yàn)證的隱私機(jī)制來(lái)保證安全,蘋(píng)果將這套系統(tǒng)稱(chēng)為「私密云計(jì)算」(Private Cloud Compute)。
至于調(diào)用 GPT 的部分,蘋(píng)果會(huì)在用戶選擇調(diào)用 GPT 之前進(jìn)行詢問(wèn)確認(rèn),并會(huì)提示 GPT 返回的結(jié)果不一定事實(shí)正確。
所以,蘋(píng)果AI可以分為蘋(píng)果自研的端側(cè)模型、云端模型加上 GPT 三套系統(tǒng),這套架構(gòu)本身并不復(fù)雜,但依然有很多細(xì)節(jié)問(wèn)題懸而未決。
比如其中最重要的,就是 AI 要如何利用第三方 App 的問(wèn)題。目前蘋(píng)果已經(jīng)公布了第一批 AI 配套的開(kāi)發(fā)工具,開(kāi)發(fā)者可以利用接口,將自己 App 的功能接入到 AI 系統(tǒng)里。這種開(kāi)發(fā)模式有點(diǎn)類(lèi)似于過(guò)去的「快捷指令」,實(shí)際上開(kāi)發(fā)者,特別是那些大公司,最終可能并不會(huì)很積極地進(jìn)行適配。
舉一個(gè)例子,想要通過(guò)蘋(píng)果的 AI 搜索 iMessage 里的某一條聊天記錄、圖片可能很方便,從 AI 上線第一天就能有很好的支持。但如果用戶在記日歷的時(shí)候,問(wèn) Siri 昨天某某同事在飛書(shū)、*上跟他約好的時(shí)間是幾點(diǎn),AI 系統(tǒng)很可能就無(wú)法順利獲取這部分信息。
類(lèi)似的問(wèn)題還體現(xiàn)在,這些「私人信息」要如何跨設(shè)備流轉(zhuǎn)?比如用戶在 Mac 上想要問(wèn) Siri 過(guò)去幾天的運(yùn)動(dòng)狀況,而運(yùn)動(dòng)健康信息是儲(chǔ)存在 iPhone 上的。目前蘋(píng)果沒(méi)有公布任何跨設(shè)備的信息流轉(zhuǎn)機(jī)制,所以很可能就無(wú)法獲取這部分信息。
大模型最大的革命之處,就在于它擁有一個(gè)「完整的知識(shí)庫(kù)」。
因?yàn)檫@個(gè)知識(shí)庫(kù)幾乎無(wú)所不包,所以才體現(xiàn)為大模型能力的涌現(xiàn),讓人感覺(jué)無(wú)論你問(wèn)它什么,怎么問(wèn),它總能給出答案。而要把這套系統(tǒng)搬到手機(jī)上,將用戶的全部個(gè)人信息整合成一個(gè)「知識(shí)庫(kù)」,供用戶隨時(shí)獲取,但同時(shí)又要保證隱私安全,這在產(chǎn)品設(shè)計(jì)和邏輯上將會(huì)是巨大挑戰(zhàn)。
任何產(chǎn)品想要突破使用率的瓶頸走向普及,就一定要保證交互的成功率,用戶在得到自己想要的東西。就像語(yǔ)音助手過(guò)去從未真正普及的主要原因還是交互的失敗率太高,而到了 AI 的時(shí)代,它依然要面臨同樣的問(wèn)題。
蘋(píng)果在AI上,才剛剛打了一個(gè)地基。
03
國(guó)內(nèi)用戶能期待什么?
根據(jù)蘋(píng)果公布的信息,Apple Intelligence 第一批將僅支持英語(yǔ),且也要等到秋季才會(huì)推送測(cè)試版本。目前已經(jīng)推送的第一波開(kāi)發(fā)者版本的新系統(tǒng),尚未搭載蘋(píng)果的 AI。
蘋(píng)果表示明年會(huì)加入更多功能、語(yǔ)言和平臺(tái)。大概率是在蘋(píng)果 AI 的這套系統(tǒng)里,GPT 最終像 Safari 搜索引擎一樣,可以被替換。此前有消息曝出蘋(píng)果與吉印通正在就大模型接口的合作進(jìn)行溝通,應(yīng)該替換的就是這一部分。
而蘋(píng)果 AI 真正核心的端側(cè)模型和云端模型,既然都是蘋(píng)果自研,只要能通過(guò)國(guó)內(nèi)的合規(guī)流程,國(guó)內(nèi)用戶依然有較大希望能順利用上。
利用模型能力,顛覆計(jì)算設(shè)備的交互界面,并重構(gòu)個(gè)人的數(shù)據(jù)組織結(jié)構(gòu),這是自大模型誕生之初就存在的想象。但大多數(shù)做模型和應(yīng)用的公司,都很難染指計(jì)算設(shè)備的核心系統(tǒng),包括過(guò)程中的隱私安全問(wèn)題也讓蘋(píng)果這樣的廠商不得不保持萬(wàn)分謹(jǐn)慎。
但現(xiàn)在,無(wú)論如何,這艘大船已經(jīng)起航。
來(lái)源:極客公園