大主宰txt全集下载,国际完美世界下载,辰东

HBM隨著AI需求的飆升愈發成為首選內存

日期： 2024-11-25

來源：芯智訊

關鍵詞： AI HBM 高性能計算 AI加速器圖形處理單元

隨著最先進的 AI 加速器、圖形處理單元和高性能計算應用程序需要快速處理的數據量不斷激增，高帶寬內存（HBM）的銷量正在飆升。

目前HBM庫存已售罄，這是由于對開發和改進 ChatGPT 等大型語言模型的大量努力和投資。HBM 是存儲創建這些模型所需的大量數據的首選內存，通過添加更多層來提高密度而進行的更改，以及 SRAM 縮放的限制，正在火上澆油。

Rambus 高級副總裁兼硅 IP 總經理 Neeraj Paliwal 表示：“隨著大型語言模型（LLM）現在超過一萬億個參數并繼續增長，克服內存帶寬和容量方面的瓶頸對于滿足 AI 訓練和推理的實時性能要求至關重要。

至少這種勢頭在一定程度上是先進封裝的結果，在許多情況下，與平面 SoC 相比，先進封裝可以提供更短、更快、更強大的數據路徑。“領先的 [封裝] 正在大放異彩，”ASE 投資者關系主管 Ken Hsiang 在最近的財報電話會議上表示。“無論是 AI、網絡還是其他正在開發中的產品，對我們先進的互連技術及其各種形式的需求看起來都非常有希望。”

這就是 HBM 恰好適合的地方。“HBM 架構將掀起一股大浪潮 — 定制 HBM，”三星半導體副總裁兼 DRAM 產品規劃主管 Indong Kim 在最近的一次演講中說。“AI 基礎設施的普及需要極高的效率和橫向擴展能力，我們與主要客戶達成一致，基于 HBM 的 AI 定制將是關鍵的一步。PPA — 功耗、性能和面積是 AI 解決方案的關鍵，定制將為 PPA 提供重要價值。

過去，經濟學嚴重限制了 HBM 的廣泛采用。硅中介層價格昂貴，在 FEOL 晶圓廠的存儲單元中處理大量硅通孔（TSV）也是如此。“隨著 HPC、AI 和機器學習的需求，中介層的尺寸顯著增加，”ASE 工程和技術營銷高級總監 Lihong Cao 說。“高成本是 2.5D 硅中介層 TSV 技術的主要缺點，”

雖然這限制了其對大眾市場的吸引力，但對成本不太敏感的應用（例如數據中心）的需求仍然強勁。HBM 的帶寬是任何其他內存技術都無法比擬的，使用帶有微凸塊和 TSV 的硅中介層的 2.5D 集成已成為事實上的標準。

但客戶希望獲得更好的性能，這就是為什么 HBM 制造商正在考慮修改凸塊、凸塊下和模塑材料，同時從 8 層到 12 層再到 16 層 DRAM 模塊能夠以閃電般的速度處理工藝數據。HBM3E（擴展）模塊的處理速度為每秒 4.8 TB（HBM3），在 HBM4 上有望達到 1 TB/s。HBM4 實現這一目標的一種方法是將數據線數量從 HBM3 中的 1,024 條增加到 2,048 條。

如今，有三家公司生產 HBM 內存模塊——美光、三星和 SK 海力士。盡管它們都使用硅通孔和微凸塊來可靠地提供其 DRAM 堆棧和隨附器件以集成到高級封裝中，但每家公司都采取了略有不同的方法來實現這一目標。三星和美光在每個凸塊級別都加入了非導電膜（NCF）并使用熱壓縮（TCB）粘合。與此同時，SK海力士正在繼續采用模塑底部填充物（MR-MUF）的倒裝芯片質量回流焊工藝，該工藝只需一個步驟即可將堆棧密封在高導電性模塑材料中。

HBM 中的垂直連接是使用銅 TSV 和堆疊 DRAM 芯片之間的縮放微凸塊完成的。較低的緩沖器/邏輯芯片為每個 DRAM 提供數據路徑。可靠性問題在很大程度上取決于回流焊、粘合和模具背面研磨過程中的熱機械應力。識別潛在問題需要測試高溫工作壽命（HTOL）、溫度和濕度偏差（THB）以及溫度循環。結合預處理和無偏濕度和應力測試（uHAST）來確定級別之間的粘附水平。此外，還需要進行其他測試，以確保長期使用時沒有微凸塊，例如短路、金屬橋接或芯片和微凸塊之間的界面分層。混合鍵合是替代 HBM4 代產品微凸塊的一種選擇，但前提是無法滿足良率目標。

△圖 1：實現最大數據吞吐量的 HBM 堆棧。資料來源：Rambus

正在開發的另一項進展涉及 3D DRAM 設備，它與 3D NAND 一樣，可以將存儲單元側向轉動。“3D DRAM 堆疊將大大降低功耗和面積，同時消除來自中介層的性能障礙，”三星的 Kim 說。“將內存控制器從 SoC 重新定位到基礎芯片將啟用更多指定用于 AI 功能的邏輯空間。我們堅信定制 HBM 將開啟性能和效率的新水平。緊密集成的內存和代工廠功能將為大規模部署提供更快的上市時間和最高的質量。

△圖 2：三星的 DRAM 路線圖和創新。來源：Semiconductor Engineering/MemCon 2024

這里的總體趨勢是將 logic 移近內存，以便在內存中或附近進行更多處理，而不是將數據移動到一個或多個處理元素。但從系統設計的角度來看，這比聽起來要復雜得多。

“這是一個激動人心的時刻。AI 如此炙手可熱，HBM 就是一切。各種存儲器制造商都在與時間賽跑，成為率先生產下一代 HBM 的公司，“Lam Research 先進封裝技術總監 CheePing Lee 說。

下一代是 HBM4，JEDEC 正忙于為這些模塊制定標準。與此同時，JEDEC 將 HBM3E 標準的最大內存模塊厚度從 720 毫米擴大到 775 毫米，該標準仍然允許 40μm 厚的小芯片。HBM 標準規定了每個引腳的傳輸速率、每個堆棧的最大芯片、最大封裝容量（以 GB 為單位）和帶寬。與這些標準相伴的設計和流程簡化有助于以更快的速度將 HBM 產品推向市場 - 現在每 2 年一次。即將推出的 HBM4 標準將定義 24 Gb 和 32 Gb 層，以及 4 層、8 層、12 層和 16 層 TSV 堆棧。

HBM 的演變

高帶寬內存的開發可以追溯到 2008 年的研發工作，以解決與計算內存相關的功耗和占用空間增加的問題。“當時，GDDR5 作為最高頻段的 DRAM，被限制為 28 GB/s（7 Gbps/引腳 x 32 個 I/O），”三星的 Sungmock Ha 和同事說。[1] “另一方面，HBM Gen2 將 I/O 數量增加到 1,024 個，而不是將頻率降低到 2.4Gbps 以實現 307.2 GB/s。從 HBM2E 開始，采用 17nm 高 k 金屬柵極技術，達到每引腳 3.6Gbps 和 460.8 GB/s 帶寬。現在，HBM3 新推出了每引腳 6.4Gbps 的傳輸速率，具有 8 到 12 個芯片堆棧，與上一代相比，帶寬提高了約 2 倍。

這只是故事的一部分。HBM 一直在向加工靠攏以提高性能，這為多種加工選擇打開了大門。

Mass Reflow 是最成熟和最便宜的焊接選擇。“一般來說，只要有可能，就會使用大規模回流焊，因為安裝的資本支出很大，而且成本相對較低，”Amkor 工程和技術營銷副總裁 Curtis Zwenger 說。“Mass Reflow 繼續為將裸片和高級模塊連接到封裝基板提供了一種經濟高效的方法。然而，隨著性能期望的提高，以及 HI 模塊和先進基板的解決方案空間，凈效應之一是 HI（異構集成）模塊和基板的翹曲量增加。熱壓縮和 R-LAB（反向激光輔助鍵合）都是對傳統 MR 的工藝改進，可以更好地處理 HI 模塊級別和封裝級別的更高翹曲。

微凸塊金屬化經過優化，以提高可靠性。如果微凸塊和焊盤之間的互連在細間距應用中使用帶有助焊劑和底部填充的常規回流焊工藝，則底部填充空隙滯留和剩余的助焊劑殘留物會導致凸塊之間滯留。為了解決這些問題，預涂非導電薄膜（NCF）可以在一步粘合工藝中取代助焊劑、底部填充和粘合工藝，而不會捕獲底部填充空隙和剩余的助焊劑殘留物。

三星在其 12 層 HBM3E 中使用了帶有熱壓縮鍵合的薄 NCF，據稱其具有與 8 層堆棧相同的高度規格，帶寬高達 1,280 GB/s，容量為 36 GB。NCF 本質上是帶有固化劑和其他添加劑的環氧樹脂。該技術有望帶來更多好處，尤其是在更高的堆棧中，因為該行業正在尋求減輕更薄芯片帶來的芯片翹曲。三星每一代都會擴大其 NCF 材料的厚度。訣竅是完全填充凸塊周圍的底部填充區域（為凸塊提供緩沖），使焊料流動，不留下空隙。

SK 海力士在其 HBM2E 一代產品中首次從 NCF-TCB 轉換為大規模回流成型底部填充。導電模具材料是與其材料供應商合作開發的，可能采用專有的注射方法。該公司使用其質量回流焊工藝展示了更低的晶體管結溫。

HBM 中的 DRAM 堆棧放置在緩沖芯片上，隨著公司努力在該基礎芯片上實現更多邏輯以降低功耗，同時還將每個 DRAM 內核連接到處理器，緩沖芯片的功能正在不斷增長。每個晶片都被拾取并放置在載體晶圓上，焊料經過回流焊，最終堆棧成型，經過背面研磨、清潔，然后切割。臺積電和 SK 海力士宣布，該代工廠未來將向這家存儲器制造商供應基礎芯片。

“人們對邏輯上的內存非常感興趣，”Synopsys 的研發總監 Sutirtha Kabir 說。“記憶邏輯是過去研究的東西，這也不能排除。但這些都將在功率和散熱方面面臨挑戰，而這些挑戰是相輔相成的。直接影響將是熱誘導應力，而不僅僅是裝配體級應力。而且你很可能會使用混合鍵合，或者非常細間距的鍵合，那么熱問題對那里的機械應力有什么影響呢？

來自該基本邏輯的熱量也會在 logic 和 DRAM 芯片 1 之間的接口處產生熱機械應力。由于 HBM 模塊靠近處理器放置，因此來自邏輯的熱量不可避免地會散發到存儲器中。“我們的數據顯示，當主機芯片溫度升高 2°C 時，HBM 端的結果至少會增加 5°C 到 10°C，”SK 海力士高級技術經理 Younsoo Kim 說。

其他問題需要通過 NCF TCB 流程解決。在高溫和高壓下發生的熱壓粘合會引起 2.5D 裝配問題，例如凸塊和底層鎳焊盤之間的金屬橋接或界面分層。TCB 是一種低通量工藝。

對于任何多小芯片堆棧，翹曲問題都與飾面材料的膨脹系數（TCE）不匹配有關，這會在加工和使用過程中隨著溫度循環而產生應力。壓力往往集中在痛點上 — 基礎芯片和第一個內存芯片之間，以及微凸塊水平。具有仿真功能的產品模型可以幫助解決此類問題，但有時這些問題的全部范圍只能在實際產品上觀察到。

結論

AI 應用依賴于多個 DRAM 芯片、TSV、一個可以包含內存驅動器的基本邏輯芯片以及多達 100 個去耦電容器的成功組裝和封裝。與圖形處理器、CPU 或其他處理器的結合是一個精心編排的組裝，其中所有移動部件必須齊心協力地組合在一起，以形成高產量和可靠的系統。

隨著行業從 HBM3 過渡到 HBM4，制造高水平 DRAM 堆棧的工藝只會變得更加復雜。但供應商和芯片制造商也在密切關注低成本的替代方案，以進一步提高這些極快且必要的存儲芯片堆棧的采用率。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

HBM隨著AI需求的飆升愈發成為首選內存

日期： 2024-11-25

來源：芯智訊

相關內容