7 月 31 日消息,蘋果公司最新發布論文 [PDF],分享了關于 Apple Intelligence 模型的相關細節,部分性能已經超過 OpenAI 的 GPT-4。
模型簡介
蘋果在論文中介紹了 Apple Foundation Model(下文簡稱 AFM)模型,共有以下兩款:
· AFM-on-device:本地運行,30 億參數,可以在 iPhone、iPad 等設備上高效運行;
· AFM-server:蘋果尚未公布參數等細節。
訓練數據來源
蘋果表示訓練數據集包括從出版商處獲得授權的數據、經過策劃的公開或開源數據集以及我們的網絡爬蟲 Applebot 抓取的公開信息組成。
蘋果強調注重保護用戶隱私,數據混合物中不包括蘋果用戶的私人數據。
據《紐約時報》報道,蘋果公司在 2023 年底與 NBC、Condé Nast 和 IAC 等多家出版商達成了價值至少 5000 萬美元的多年期協議,在出版商的新聞檔案中訓練模型。
蘋果的 AFM 模型還在 GitHub 上托管的開源代碼上進行了訓練,特別是 Swift、Python、C、Objective-C、C++、JavaScript、Java 和 Go 代碼。
論文稱,為了提高 AFM 模型的數學技能,蘋果公司特別在訓練集中加入了來自網頁、數學論壇、博客、教程和研討會的數學問題和答案。
蘋果利用了高質量、可公開獲得的數據集(論文中未提及名稱),這些數據集“擁有允許用于訓練...... 模型的許可證”,并經過過濾以去除敏感信息。
AFM 模型的訓練數據集約有 6.3 萬億個 token(token 是小塊數據,通常更容易被生成式人工智能模型吸收)。相比之下,這還不到 Meta 用來訓練其旗艦文本生成模型 Llama 3.1 405B 的 token 數量(15 萬億)的一半。
訓練硬件
根據論文描述,蘋果公司使用 8192 片 TPUv4 芯片訓練 AFM-server 模型;2048 片 TPUv5p 芯片訓練 AFM-on-device 模型。
每個 v5p pod 由 8960 個芯片組成,每秒的浮點運算(FLOPS)和內存分別是 TPU v4 的兩倍和三倍,訓練模型的速度快了近三倍。
模型性能
根據論文描述,蘋果自研大模型在指令遵循、文本總結方面測試超 GPT-4。
蘋果公司的數據顯示,AFM-server 有害輸出違規率為 6.3%,明顯低于 GPT-4 的 28.8%。同樣,在設備上,AFM 7.5% 的違規率低于 Llama-3-8B(由 Facebook 母公司 Meta 訓練)21.8% 的得分。
在電子郵件、信息和通知匯總方面,設備上的 AFM 的滿意度分別為 71.3%、63% 和 74.9%。研究論文還指出,這三個模型分別領先于 Llama、Gemma 和 Phi-3 模型。附上相關性能結果如下: