跳至主要內容

imec揭示系統-技術協同優化,緩解3D HBM-on-GPU熱瓶頸 | 三建產業資訊

技術文章

imec揭示系統-技術協同優化,緩解3D HBM-on-GPU熱瓶頸

imec揭示系統-技術協同優化,緩解3D HBM-on-GPU熱瓶頸

在2025年IEEE國際電子元件會議(IEDM)上,先進半導體技術研究中心imec發表了首份針對3D高頻寬記憶體(HBM)疊加於GPU(圖形處理器)上的熱系統與技術協同優化(STCO)研究。這是一種針對下一代人工智慧(AI)應用非常有潛力的計算架構。

imec指出,透過結合技術層面與系統層面的散熱策略,GPU的最高溫度可在真實AI訓練工作負載下,從140.7°C降至70.8°C,相當於現行2.5D整合技術。這結果展示跨層優化(意指同時協同調整各個抽象層級中的控制參數)與廣泛技術專長結合的強大優勢,這正是imec的獨特之處。

Imec說明,將高頻寬記憶體(HBM)堆疊直接整合在GPU上,為構建下一代面向資料密集型AI工作負載的計算架構提供了一個吸引人的方法。相比現行2.5D整合技術(HBM堆疊環繞於一至兩個GPU的矽中介層上),這種3D HBM-on-GPU技術在計算密度(單晶片封裝內含四個GPU)、每個GPU的記憶體容量及GPU與記憶體間頻寬上有大幅躍進。然而,這種積極的3D整合方式因為局部功率密度高和垂直熱阻增加,容易出現散熱問題。

在2025 IEDM會議上,imec發表首份3D HBM-on-GPU整合的完整熱模擬研究,不僅找出熱瓶頸,還提出增加此架構熱可行性的策略。imec研究團隊展示了如何協同優化技術層面與系統層面的散熱方案,在真實AI訓練負載下,使GPU峰值溫度從141.7°C降至70.8°C。

本熱模擬模型採用四個HBM堆疊,每堆疊含12層混合鍵合DRAM晶粒,透過微凸點(microbumps)直接與GPU晶粒接合,冷卻系統設置於HBM頂部。以業界代表性功率曲線為基礎,模擬功率分布與局部熱點,並與2.5D基準模型比較。

未採取任何熱緩解策略時,3D模型的GPU峰值溫度達141.7°C,遠高於GPU與HBM運作所能承受的溫度;而在相同冷卻條件下,2.5D積體化的溫度最高為69.1°C,仍在可接受範圍內。基於此結果,研究團隊進一步評估製程與系統層面熱管理策略對熱性能的協同效益。

imec系統技術計劃總監James Myers表示,將GPU核心頻率減半後,峰值溫度從120°C降至低於100°C,達成了記憶體運作的關鍵目標。雖然這會導致28%的工作負載效能損失(即AI訓練步驟的減速),但整體封裝效能仍因3D配置帶來的更高吞吐密度而優於2.5D基準。我們目前正利用此方法研究其他GPU/HBM配置,例如將GPU堆疊於HBM上方,以預測未來的熱限制。

資料來源:imec