2020年對Intel而言實在不是友好的一年。雖然Intel的財報仍未表現出大問題,但Intel在很多領域的前景是不樂觀的。在《2021年十大熱點應用趨勢展望》中,我們提到了在PC處理器領域,“AMD將吃下‘半壁江山’”,這源自AMD Zen架構處理器的強勢;蘋果M1的問世則為這個趨勢火上澆了一勺油;與此同時,數據中心市場顯現出的市場趨勢是,CPU逐漸被邊緣化,英偉達DPU在這方面顯現出的野心是相當顯著的。
PassMark的CPU市場份額數據雖然有幸存者偏差,但在截至今年1月12日的數據更新中,AMD的桌面CPU市場份額已經達成自2006年以來,首次對Intel的超越——當然兩者的筆記本市場份額仍然相差較大,畢竟OEM客戶是Intel的基本盤。在整個x86 CPU市場,AMD的份額總體剛剛突破了40%(PassMark)。
來源:PassMark,注意這組數據帶有明顯的幸存者偏差,僅供參考[1]
Intel十多年來,在PC處理器技術上的碾壓級優勢,似乎在這短短2年內便徹底喪失——不僅是Skylake這種年邁架構表現的弊端,而且在10nm工藝遲遲無法大規模量產的情況下,7nm又雙叒叕延后了半年。
AMD Zen架構進步在我以往的不少文章里,都有比較詳細的闡述,Zen 3已經事實上在單核和多核性能上實現了對Intel處理器的全面趕超——雖然Intel的marketing仍然相當頑強。而蘋果Mac系列在拋棄Intel處理器之后,自研的M1芯片則可以說幾乎讓整個x86陣營汗顏,僅3.2GHz的主頻、低很多的功耗,就能將Intel最高端的Core i9踩在腳下,并徹底無視Intel最新的Tiger Lake(十一代酷睿)。
所以美國西部時間1月13日,英特爾宣布新任CEO Pat Gelsinger的即將上任,換下Bob Swan。事實上在此之前,Intel首席工程官Dr. Venkata (Murthy)的離職就能夠從公司管理層面,顯現Intel對現狀的反思。
本文篇幅較長,這里給出導讀,讀者可根據自己的興趣,做選擇性閱讀。
● x86處理器做大小核設計的背景
● 大小核設計的意義
● Intel的初代大小核處理器Lakefield實際表現
● Lakefield的小核心Tremont(可選讀)
● Lakefield的封裝技術(可選讀)
● Intel大小核處理器面臨的問題和展望
x86陣營也開始做大小核
有關M1芯片為何能達到這個程度,我會另外撰文詳述。M1的逆天表現雖然不是本文要談的重點,不過M1的出現卻已經向市場證明,Arm在PC高性能領域是大有可為的,與此同時還能兼顧低功耗。從極客灣測試的數據來看,日常工作中,M1版MacBook Pro的功耗之低,與整個x86陣營都是有量級差距的:B站看個視頻,M1功耗在0.5-0.7W,而Intel Tiger Lake需要4-4.5W;待機功耗,M1達到了震驚PC處理器市場的0.02W,而Tiger Lake是1.1W。MacBook如今的續航因此可以達到20小時甚至更高。
這其實并不讓人意外,畢竟Arm平臺的大小核(big.LITTLE)設計早已是Arm芯片參與者做慣了的事。Arm過去始終在移動平臺活躍,而手機之類移動設備對功耗是非常敏感的,所以處理器采用大小核心搭配是必須的。
而x86陣營的參與者,如Intel就是自PC處理器起家的,PC對功耗更不敏感(尤其是桌面PC)。所以PC處理器也更傾向于通過提升頻率(而不是增加更多專用單元)來提升性能,自然也不存在“小核”設計。兩者功耗上的差距顯得相當順理成章。
但在持續提頻的道路上,移動辦公逐漸風行的當下,Intel也一早就意識到了功耗需要有越來越高的優先級。這兩天在美國進行的CES大會上,Intel再度提到了規劃中的“混合x86產品”Alder Lake,也就是x86版的大小核設計。去年Intel的Architecture Day 2020上,Intel正式宣布Alder Lake路線圖:未來的Alder Lake處理器,會將高性能計算核心(Golden Cove)與“高效率”核心(Gracemont)放到一起。
將其比作Intel版的M1芯片并不合理,畢竟Intel要做此類處理器的意愿也不是M1出現后才有的,不過兩者大方向總算是趨同的。Alder Lake會面向桌面和移動兩個平臺推出(這里的移動主要只是筆記本或同類設備),這顆規劃中的芯片也事實上成為x86陣營針對Arm大小核設計思路的反擊(主要是驍龍8cx和蘋果M1這類芯片)。不過在規劃上,Alder Lake需要等到今年下半年。而且Intel在這種大小核設計方案上,也還處在試探期。
在Alder Lake之前,Intel在Architecture Day 2018上展示了其初代“混合x86處理器”產品:Lakefield,也是將Core(酷睿)和Atom(靈動)架構處理器核心放到一起,作為Intel版本的大小核。
如今Alder Lake相關消息仍然很少,本文嘗試以Lakefield為依據,從技術角度談談x86陣營推行這種混合處理器,能否在Intel最艱難的歷史時期,幫助Intel重回PC處理器市場巔峰——以及這種“混合”“大小核”設計究竟有多大價值。
另一方面,Lakefield處理器雖然目前的出貨還非常少,而且由于規格定義并不面向高端PC(與筆記本)市場,但它幾乎可以認為濃縮了Intel當下最先進的一批技術。所以對Lakefield剖析,也能更全面地了解Intel如今在PC處理器市場的處境和底牌。
而且Lakefield不僅標志著Intel PC處理器的未來規劃,也預示了PC處理器整個市場的未來,即便它本身只是x86指令處理器的試水之作。(要知道AMD這邊到現在其實都還沒有自家的“小”核心設計,雖然早期架構的改款還是可以考慮)
大小核有意義嗎?
從蘋果開始為MacBook采用M1芯片,以及微軟積極擁抱Arm推類似Surface Pro X這樣的Arm筆記本設備(和Window on Arm)就不難發現,x86在筆記本這樣注重移動性的設備上顯得不夠高效。拋開兼容性問題不談,Surface Pro X在采用高通處理器以后,續航就遠高于x86版本的Surface;新版MacBook就更不用說了。
如前文所述,Arm的低功耗與其很早就推big.LITTLE(以及DynamiQ靈活搭配)設計是有很大關系的(更多原因我將在M1架構分析中闡述)。這種大小核設計,在面對輕度工作負載時選擇小核心,而在需求高性能時則用大核心去跑任務。這種方案基于一個事實:兩種核心在不同的性能區間,其功耗表現是大不一樣的。
Lakefield“大小核”的整體設計大致上可以反映這個思路。Lakefield搭配的大小核分別是Sunny Cove(十代酷睿上的核心)和Tremont(最新的Atom核心),具體是1顆Sunny Cove搭配4顆Tremont。Arm陣營如今頗為常見的搭配方法是4+4,或者1+3+4/2+2+4,越來越多的手機芯片傾向于大中小三簇核心的搭配方法。
用一張圖大致能夠說明,大小核設計帶來效率提升的價值:
這張圖是Intel官方提供解釋Lakefield兩種核心,在不同性能下的功耗情況的:橫軸代表相對性能,縱軸代表相對功耗,隨性能提升,功耗也在提升。
左邊這張展示的是單線程下,兩種核心的性能與功耗關系(橙色代表Sunny Cove-SNC,藍色代表Tremont-TNT);右邊這張圖標識的則是多線程性能與功耗關系。比較顯然的一個結論是,僅看單線程情況,在較低性能狀態下,小核心能夠達成更低的功耗;但到了高性能區間,小核心的功耗反而會崩,此時大核心的效率會更好。
更具體地說,在相對性能低于58%時,Tremont核心效率高很多,而在性能高于58%時,Sunny Cove顯然是更好的選擇。當然多線程性能又是不同的,畢竟Sunny Cove核心在Lakefield中就只有一個。Intel提供的數字是,Tremont在能效上打敗Sunny Cove時,最高可以達成Sunny Cove 70%的性能;性能水平介于Sandy Bridge(2-3代酷睿)和Haswell(4代酷睿,2013-2014年)之間——整數性能與Haswell相近,同時效率會高很多。
事實上,Lakefield并不通過任務負載性能需求高低來決定用哪種核心工作。在Intel的定義中,Sunny Cove針對需要快速響應,以及與用戶體驗切身相關的線程;而Tremont則針對要求多線程性能的相關任務,以及需要在較高效模式下跑的非用戶相關后臺任務。比如視頻編碼工作,通??紤]用四個Tremont核心來跑,Windows后臺任務也交由Tremont完成;類似用戶點擊開始菜單、滾動網頁這種操作,要求快速響應,則交給Sunny Cove。
x86初代大小核處理器的性能怎么樣?
Lakefield(酷睿i5-L16G7)的其他參數還包括CPU基頻1.4GHz,大核心的最高睿頻3.0GHz(全核最高1.8GHz),不支持超線程,TDP 7W;核顯為Gen11(GT2 64EU,500MHz,頻率遠低于Ice Lake);堆疊了8GB LPDDR4-4267內存;計算die部分的工藝為10nm。
從這些配置來看,就知Lakefield在性能表現上可能并不怎么樣,定位的就是低功耗便攜式或者一些二合一設備。尤其多線程工作基本全部交給Tremont去完成——這讓Lakefield在很多情況下變身Atom處理器——對不起酷睿的名頭。
即便有一顆Sunny Cove大核,也不支持超線程。另外比較重要的一點是,原本Sunny Cove是支持AVX-512指令的,但因為Tremont小核不支持,所以為了達成“混合CPU”的這種大小核設計,唯有令兩者對支持的指令完全達成一致,所以Sunny Cove也就閹割了對AVX-512指令的支持,另外閹割的還包括了AVX、AVX2,以及Tremont小核心的GFNI、ENCLV、CLDEMOTE等指令。
像這樣異構核心方案,在指令方面需要滿足木桶最低板的原則(或者跨所有核心的ISA兼容性),在Arm世界也同樣適用。否則線程在大小核之間遷移時就會出問題。所以Cortex-A55作為Arm處理器的小核心被用了這么多年不動搖,也是這個道理。
來源:AnandTech[2],四顆Tremont核心簇的面積和一顆Sunny Cove相差無幾
無論AnandTech還是WikiChip,都認為從Lakefield的die shot來看,Sunny Cove核心部分的AVX-512相關的單元并未被實際移除,雖然Intel宣稱是“移除”了的。
Intel宣傳的數字是,相比Amber Lake i7-8500Y(Intel的超低壓處理器,TDP 5W),Lakefield的多線程性能高24%,單線程則快12%,圖形性能提升70%——這些變化實則都在預期內。以及有大核心的加持,web性能高出33%,效率提升17%——這一點對比的顯然就是單純的四核Atom了??深A期的是看B站會比以前省電……
另外比較重要的是每瓦性能提升24%(相比Amber Lake),待機功耗“大幅降低”,達到2.5mW左右——這就和前文列出M1的待機功耗數字差不多了。達成最高的效率原本就是這種設計的重要目的。蘋果在發布會上最愛談的就是每瓦性能以表現芯片的高效率。在Architecture Day 2020上,Intel就宣稱Alder Lake將能夠達成Intel有史以來最高每瓦性能——當然這是Lakefield后續產品了,也是Intel的預期。
當前針對Lakefield尚無十分系統的性能測試。已經上市的Lakefield產品主要包括了聯想ThinkPad X1 Fold、三星Galaxy Book S以及微軟Surface Book Neo。NotebookCheck的實測數據是,Lakefield(i5-L16G7)綜合性能(也包括了核顯性能)弱于超低壓的酷睿i5-8210Y和四代酷睿42 85U。
來源:NotebookCheck[3]
這個數據可能并不是很合理,一方面在于NotebookCheck用于跑分測試的Cinebench版本(R15與R20)在多線程性能測試中甚至都無法用上Lakefield的Sunny Cove大核(但卻的確能反映其實際使用情況,因為如前文所述,Lakefield中的Sunny Cove并不像很多人理解的那樣,是簡單用于“高負載”任務),另一方面和OEM廠商的具體實施方案有關。
Cinebench R23似乎是目前唯一能夠實現5核全開的測試,但網上找不到R23的Lakefield跑分??傊甃akefield大致上也就用來做word或者ppt文檔以及看看網頁和愛奇藝了。
有關Tremont小核心(選讀)
很多同學抱怨我文章寫太長,所以更全面的微架構分析文章,后續我會發到我的面包板專欄,感興趣的同學可以前往關注。本文我只簡單聊聊Lakefield中的小核心Tremont,畢竟大核心的Sunny Cove其實算是非常知名了,Intel十代酷睿的Ice Lake用的就是這個核心。而且Lakefield也實在談不上“高性能”,它本身更重在“低功耗”上。
Tremont相比前代(Goldmont Plus,2017年)主要是提升單線程性能,IPC有超過30%的提升。作為Atom處理器中的一款產品,它重在考量每核功耗與每核面積。所以前文給出的die shot就能看出,Lakefield中的Tremont四核心簇整體尺寸才相當于一個Sunny Cove。
來源:WikiChip[4]
從“小”核心的角度來說,Tremont與知名的Arm Cortex-A55小核心并不是一個量級。Tremont首先是個亂序核心,前端解碼寬度6-wide(雖然是分兩組),這就決定了它比A55這樣的選手還是壯實多了。這一點和蘋果的思路就很像(2019年蘋果A12的Tempest小核心,在性能上幾乎達到了Cortex-A72的程度)。
其余具體的微架構可參見上圖,包括allocation 4-wide,re-order buffer增加至208條(+119%),后端有10個執行端口,雙load/store管線;L2 cache最高可配置4.5MB,L1-D cache增加33%,L2 TLB(頁表緩存)增加到1024-entry;另外還有新指令引入——不過對Lakefield而言,這一點就不存在了,前文已經提到。感覺整體看起來,這都不像是個“小”核心。
其最大的變化在前端,包括分支預測單元升級——接近于“大”核心級別的精度(兩級結構);以及最重要的解碼寬度變化。不過這個所謂的“6-wide”寬度并不是類似酷睿5-wide那類方案(1個復雜decoder,4個簡單decoder,再加μop cache),實際上是兩組3-way對稱解碼。每一組都有自己的指令流。配合分支預測器,預測指令流可以進第二組(上圖的Cluster 1),不打斷第一組(Cluster 0)的工作,兩組并行預測、讀取、解碼。
這種實際上的3-wide設計,相比真正的6-wide解碼要節省面積和功耗,沒有μop cache。Intel宣稱這種設計能夠平衡資源。Tremont也支持僅開其中一組的模式,預期實現更低的每核峰值功耗。更多包括re-order buffer加深、執行引擎和存儲子系統拓寬等,本文皆不再贅述。還有一些額外的特性,比如RDT技術支持,可實現帶寬分配、QoS、優先級之類的操作(服務器芯片中常見);Speed Shift技術;信任安全啟動;內存加密等。
當大小核遇上3D封裝(選讀)
拋開更微觀的層面不談,Lakefield整體看來還是比較草率的,包括1+4的這種組合方式,及其表現出的實際性能。Lakefield之所以沒有加入更多的Sunny Cove大核心,很大程度應該也是受限于Sunny Cove核心的體積和功耗。以Lakefield如今計算die占據的82mm?來看,及其預定義的尺寸,它很難再塞入更多CPU核心,何況Sunny Cove的功耗也實在不算低。
所以我們才說,Lakefield很像Intel針對“混合”或者大小核設計的一個試水,和打怪升級的必經之路。而作為一款實驗性質的作品,Lakefield不僅有Intel最新的大小核,而且在封裝上也算是集Intel芯片制造廠的大成了。它用上了傳說中的Foveros 3D芯片堆疊技術,也是Intel首款采用這種封裝方案的芯片。
前面談的這些CPU大小核、GPU等都是Lakefield的計算die(計算die上另外還包括了圖像處理單元IPU、LPDDR4X內存控制器、Gen11 Display engines等),采用的是Intel的10nm工藝(與Ice Lake一致,理論上屬于Intel的二代10nm工藝);有關Intel 10nm工藝本文不再詳述,詳情參見我的面包板專欄文章。
而在計算die之下,還有個base die。下面的這片base die主要是處理器外設的active interposer(主動中介層)。Active interposer相比傳統passive interposer,不只是用于連接的中介層,本身也發揮功能邏輯的作用,其上包含各種PCIe 3.0、各種I/O控制、音頻codec、安全等。Base die所用的制造工藝是22FFL——22FFL并不是早期的22nm工藝,而是14nm的功耗優化版(更稀疏的版本),針對的就是更高效的IO。22FFL則必然又在成本上顯著低于10nm了,這也屬于典型的chiplet設計和制造思路。
計算die和base die之間采用50μm間距bump的die-to-die互聯(Foveros Die to Die Interface),承載信號(數據)和供電的連接。這種互聯應該是3D堆疊方案上的絕對難點。Intel宣稱其最大傳輸速率是500MT/s(mega-transfers per second),而且每bit數據傳輸耗能0.2pJ(皮焦)。0.2pJ在die間數據傳輸的耗能量級上可以認為是非常小的,這應該也是實現低功耗的一部分。
值得一提的是,IO部分Lakefield僅給到了PCIe 3.0六條通道支持,這就決定了其IO連接會相當捉襟見肘。ThinkPad X1 Fold為Lakefield配套的SSD,僅拿到PCIe 3.0 x2的通道,帶寬因此大受限制;配獨立GPU什么的,那也是想都不用想的了。[5]從這樣的小細節也能看出Lakefield試水的本質。
最后在Lakefield整個封裝的最上層是內存(Package on Package),有4GB和8GB兩種規格可選,應該是來自其他內存制造商的定制方案。值得一提的是,內存與中間的計算die之間并沒有采用什么黑科技連接方式,與CPU的通訊是需要經由最底層的package轉道再經過base die之后,再到compute die的。它也沒有M1芯片那樣的Unified Memory Architecture特性。
這樣的堆疊方案下,散熱會成為一個大問題,Intel為此似乎還是頗費了一番功夫的,不過現階段主要在不同IP模塊的設計上做到減少局部的高溫聚集點、互聯金屬層厚度控制等,所以散熱在設計上有更高的優先級;另外Intel還探討過在兩個die之間采用“流體通道(fluidic channes)”的可行性——這就屬于未來的方向了。有關Lakefield封裝細節,AnandTech的文章中有比較詳細的闡述[2],我也會在面包板專欄再行刊文。
經過這種Foveros 3D堆疊后,Lakefield芯片整體達成了12x12x1mm的三圍尺寸。板級設計也就可以更為緊湊,相比之前的低功耗CPU實施方案,主板可以減少60%的尺寸。加上LTE modem的話,整體主板尺寸總算是可以和高通的設計比一比了。
Lakefield真的能成嗎?
最后來稍稍總結一下Intel在Lakefield處理器上現存的問題。首先Lakefield基本上是很難獲得市場大范圍的肯定的,即便它塞入了Intel這么多最尖端的研究成果。不過Lakefield作為Intel首款涉足大小核設計的處理器產品,其積累經驗的作用也明顯大于市場本身。下一代的Alder Lake才是值得觀察的關鍵。
所以這個問題應當換成Intel的大小核設計能成嗎?
事實上Intel在這種非其傳統強項的處理器產品中,遭遇的問題可能是形形色色的。從具體到抽象總結這種處理器“能成嗎”的關鍵:
其一是scheduler(調度)。Intel此前并沒有設計大小核處理器的經驗,Windows也始終不曾有不同類型的核心間做線程(進程)遷移的scheduler(微軟和高通勾搭上之后,必然有密切合作在不同CPU設計間管理負載的scheduler,但至少x86是沒有的;不過從Wikichip的介紹來看,Intel似乎也提交過非一致指令集的異構核心一起工作,針對操作系統的算法和加強[6][7])。要知道Android和Arm在這方面可是有著比較長期的演進的,包括線程遷移對實際體驗造成的影響;蘋果就更不用說了。
Cinebench更早版本在做Lakefield多核性能測試時,并不會啟用Sunny Cove大核可能就能說明一些問題(但AnandTech猜測這可能是功耗或者熱聚集考量所致)。
傳言未來的Alder Lake預計會包含8+8的設計,這其中的線程調度就不只是Intel如今列出、如上圖這樣Lakefield簡單的網頁瀏覽場景了。那將更考驗Intel的功力。
第二是處理器本身的性能。Lakefield宣傳中似乎的確有著不錯的功耗表現,但性能實在是不大夠看。這應該并不是什么大問題,一方面在于Lakefield本身就不定位在高性能,另一方面則是這款產品試水和積累經驗的成分居多。在Architecture Day 2020之上,Raja Koduri表示Intel從Lakefield身上學到了很多東西,Alder Lake未來會聚焦到性能上。
終極問題大概是,在性能和效率上Intel能否做到蘋果M1那樣的程度。M1芯片表現出的性能和效率,我個人看來是基于三個要素共同構成的:其一是超寬的處理器架構,其二是有針對性地添加一些專用單元,其三則是對自家封閉生態超乎尋常的掌控力(令其能夠很隨意地做出同一內存架構這樣的東西)。
這將在未來M1的文章中做詳述。這三要素可認為是僅有蘋果這種掌控從芯片設計到開發生態,到消費終端產品銷售全環節的企業才有的資源。比如前兩者,超寬處理器架構和專用單元是需要以die面積(即成本)為代價的,蘋果可以這么玩是基于其終端產品的高利潤與高銷量;對于Intel、高通這種單純賺取處理器利潤的廠商,這種玩法非常不經濟(x86還存在變長指令不利于解碼寬度拓寬這樣的現實問題)。要達到M1的性能水平不難,但效率就沒那么簡單了。
還有其他的一些妥協,比如說前文提到的為實現指令的對稱性,Lakefield不支持AVX指令——這原本可是Sunny Cove主打的升級特性;再比如3D堆疊的兩層die分別用了兩個PMIC(電源管理IC)。這些其實都表明Lakefield的不成熟,不過這些問題未來都有解決的辦法。
最后更抽象的是,是Intel的速度問題。這里的速度是指Intel行事與決策的響應速度。不說Skylake縫縫補補新三年舊三年,最典型的是芯片制造工藝已經落后于臺積電,且可預期的未來,行進速度還將非常緩慢。比如下半年大小核處理器Alder Lake要用上10nm Enhanced SuperFin(應該是第四代10nm工藝),這還是預期中的。屆時的市場格局或許都不好說了,以及7nm工藝遙遙無期(最早一批7nm要等到2022年下半年或2023年上半年)。
若以多年前Intel在PC處理器市場的地位,這些問題或許都不足多慮。AMD推土機推了那么多年,蘋果也還偏安在iPhone上,Intel有的是時間;但在如今這般光景下,情況就相當不樂觀了。
好在2021年下半年也還不算遙遠。Intel即將上任的CEO Pat Gelsinger也有多年技術背景,這預計也會加快Intel技術推進速度,這正是目前Intel最需要的。Intel在去年的ISA Extensions Reference手冊上確認,Alder Lake還將加入新指令支持[8],包括LBR、HLAT、SERIALIZE,其中LBR可用于分支提速,對性能還有價值。從多方面來看,傳說中擁有最高每瓦性能表現的Alder Lake都成為Intel規劃的產品線中讓人最為期待的處理器,并且真正讓我們看到Intel在大小核設計上的實力。