闕志克/中國在AI晶片戰的反攻號角

H20是輝達因應拜登政府二○二三年的出口管制條例,為中國市場特別設計的AI加速器晶片。今年四月,川普政府禁止輝達出售H20給中國;到了七月,川普政府政策轉向,允許中國進口H20。然而,此時中國政府意識到在AI技術自主化的道路上,適當保護剛起步的國內AI加速器產業有其戰略必要性,於是以網路安全為由積極勸阻本土企業購買H20。這項措施讓H20在中國的銷售大幅緊縮,也迫使輝達放慢其產能。
美國政府限制先進AI晶片流入中國的主要目的,是減緩中國在大語言模型(LLM)及其衍生產品的研發進程。LLM的訓練和推理過程需大量數據,所以能充分支援LLM的硬體須具備高效能的資料存取和運算能力。是故,拜登政府在制定AI加速器出口管制政策時,特意禁止運算能力優於某個門檻,且通訊效能也超過特定閾值的AI加速器出口到中國。
當第一版AI晶片出口管制政策公布時,輝達迅速修改現有GPU產品,將其通訊性能降至規定閾值以下,而推出了A800(A100的降規版)和H800(H100的降規版)。於此同時,輝達也推出運算效能略低於閾值,但通訊效能卻高於H100的H20,拜登政府竟也放行。
事實證明,對許多LLM運算而言,H20的整體效能甚至比禁令清單中的AI加速器更優異,因為這些運算的效能主要取決於底層硬體的通訊吞吐量,而非其計算速度;也就是說,H20儼然形成美國AI晶片出口管制政策的漏洞,美國政府卻直到今年四月才堵住。
ChatGPT3.5發表後,輝達就貫注於LLM的訓練和推理,全力解決LLM運算受限於記憶體存取速度所造成的效能瓶頸;推出GPU整合高頻寬記憶體(HBM)以加快資料存取速度,GPU間直接互連以促進多個GPU協同工作的網路技術NVLink。如果沒有HBM和NVLink,執行LLM運算的GPU很可能將大部分時間花在等待資料的存取上,且GPU的運算速度愈快,等待資料的時間就愈長。
現今全力追趕輝達的中國AI加速器公司,大多無法使用最尖端的半導體製程,所以運算速度較慢且功耗較高,也無能利用最先進的HBM技術。在這種限制下,填滿與輝達產品效能差距的唯一方法,就是使用更多GPU,增強GPU間的通訊效能,並針對特定LLM演算法客製化系統架構,華為的CloudMatrix 384正是這套手法的代表作。
這個系統最創新的特色是具高度擴展性、由光信號鏈路和電子網路交換機組成、稱為統一匯流排的互聯網路。該網路讓每個運算單元都能直接連結其他運算單元和存取系統中的任何記憶體,讓系統裡的所有運算與記憶體資源均可靈活動態分配。
雖然CloudMatrix 384的總體效能與性價比仍不如輝達最先進產品,但約略已在同一級別。鑑於中國過去從一到N成功擴張諸如太陽能板、電池和電動車等各產業的出色紀錄,華為的AI超算系統能否在中國市場與輝達真正並駕齊驅,應該只是時間的問題。(作者為清華大學合聘教授)
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言