編者按:AI 的技術(shù)浪潮正讓社會方方面面發(fā)生著深刻的變革。來自海量傳感器、攝像頭的視覺、聲音等數(shù)據(jù),對延時、隱私以及可靠性有嚴格要求的場景,邊緣 AI 的發(fā)展勢在必行。面對邊緣側(cè)形態(tài)各異的設(shè)備與豐富應(yīng)用,大模型、智能體在邊緣側(cè)的落地需要具備更高性能和能效的邊緣計算平臺。
當前,AI 不斷賦予邊緣設(shè)備更加先進的智能屬性,在工業(yè)自動化、智慧城市和智能家居等領(lǐng)域,OEM 廠商、軟件開發(fā)者們正在積極尋求營建邊緣 AI 推理生態(tài)系統(tǒng),釋放 AI 的巨大價值。
面對邊緣側(cè)形態(tài)各異的設(shè)備與豐富應(yīng)用,大模型、智能體在邊緣側(cè)的落地需要具備更高性能和能效的邊緣計算平臺。
日前,Arm 發(fā)布了以全新基于 Armv9 架構(gòu)的 Arm Cortex-A320 以及對 Transformer 網(wǎng)絡(luò)具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣 AI 計算平臺,支持運行超 10 億參數(shù)的端側(cè) AI 模型,并將推動邊緣 AI 領(lǐng)域在未來多年內(nèi)的持續(xù)發(fā)展。
Arm 物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健指出,全新的邊緣AI計算平臺實現(xiàn)了 CPU 和 AI 加速器的深度配合。Cortex-A320 可以為 Ethos-U85 提供更高的內(nèi)存容量與帶寬,讓大模型在 Ethos-U85 上的執(zhí)行如虎添翼。任何開發(fā)者們不希望在 Ethos-U85 上運行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更靈活有效地在 CPU 上執(zhí)行。這使智能物聯(lián)網(wǎng)與消費類電子生態(tài)系統(tǒng)能夠在正確的時間,并在合適的地方運行最適合的工作負載。
全新Cortex-A320:首個基于 Armv9 架構(gòu)的超高能效 CPU
Arm Cortex-A320 CPU 的推出具有重要的里程碑意義。
作為首個基于 Armv9 架構(gòu)的超高能效 CPU,在 ML 性能方面,Cortex-A320 相較于前代Cortex-A35 提升了高達 10 倍的 ML 計算能力。此外,它的能效比較 Cortex-A520提升了 50%。在標量計算性能方面,Cortex-A320 的性能比前代 Cortex-A35 提高了 30%,帶來了更強的通用計算能力。
馬健表示,Cortex-A320 充分利用了 Armv9 增強的安全性和 AI 計算特性,這些特性已經(jīng)在其他市場得到廣泛應(yīng)用,而 Arm 如今將其引入物聯(lián)網(wǎng)領(lǐng)域。
安全性方面,Secure EL2增強了TrustZone內(nèi)部的隔離性,支持更安全地運行軟件容器;指針驗證/分支目標識別(PACBTI)可有效緩解跳轉(zhuǎn)和返回編程中的指針安全隱患;內(nèi)存標記擴展(MTE)則通過內(nèi)存標記機制,使黑客更難利用漏洞進行攻擊,提高整體系統(tǒng)安全性。
計算性能方面,增強的Neon和可伸縮向量擴展(SVE2)技術(shù),可提供更高效的ML計算能力;支持如BFloat16等新數(shù)據(jù)類型,提高AI計算的精度和能效;新增的矩陣乘法指令優(yōu)化了AI和ML計算性能,加速神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
跨越邊緣 AI 軟件開發(fā)和部署復(fù)雜性障礙
邊緣 AI 普及面臨的最主要障礙之一是軟件開發(fā)和部署的復(fù)雜性,這正是 Armv9 邊緣 AI 計算平臺軟件生態(tài)系統(tǒng)發(fā)揮優(yōu)勢的關(guān)鍵所在。
2024年,Arm 推出了 Kleidi 軟件庫,并將其引入了智能手機和服務(wù)器市場,它包含優(yōu)化 AI 負載在 Arm CPU 上執(zhí)行的 KleidiAI 和加速機器視覺的 KleidiCV。如今,Arm 將 Kleidi 也擴展到了物聯(lián)網(wǎng)領(lǐng)域。
KleidiAI 是一套專為 AI 框架開發(fā)者設(shè)計的計算內(nèi)核,讓開發(fā)者可以無縫地在 Arm CPU 上獲取最佳性能,適用于各類設(shè)備。它支持如 Neon 和 SVE2 等 Armv9 架構(gòu)的關(guān)鍵特性,大幅提升了 AI 的計算效率。此外,KleidiAI 已集成到常見的物聯(lián)網(wǎng) AI 框架中,如 Llama.cpp 和 ExecuTorch 或 LiteRT(通過 XNNPACK),加速了 Meta Llama 3 和 Phi-3 等關(guān)鍵模型的性能。例如,在 Llama.cpp 上運行微軟的 Tiny Stories 數(shù)據(jù)集時,KleidiAI 為新的 Cortex-A320 帶來了高達 70% 的性能提升。
寫在最后
Arm全新的邊緣 AI 計算平臺代表了 Arm 為未來邊緣計算和 AI 處理提出的新范式,該平臺對物聯(lián)網(wǎng)生態(tài)系統(tǒng)所能夠帶來的影響值得期待。相信全新 Arm 邊緣 AI 計算平臺將成為新一輪物聯(lián)網(wǎng)創(chuàng)新的催化劑。Armv9 架構(gòu)的特性、先進的 AI 功能和全面軟件支持的結(jié)合,將為 OEM 廠商和開發(fā)者創(chuàng)造新的可能性。