闕志克／中國在AI晶片戰的反攻號角

2025-09-16 00:04 聯合報／闕志克

半導體

大陸市監總局稱，輝達違反大陸「反壟斷法」，決定進一步調查。路透

Ｈ20是輝達因應拜登政府二○二三年的出口管制條例，為中國市場特別設計的ＡＩ加速器晶片。今年四月，川普政府禁止輝達出售Ｈ20給中國；到了七月，川普政府政策轉向，允許中國進口Ｈ20。然而，此時中國政府意識到在ＡＩ技術自主化的道路上，適當保護剛起步的國內ＡＩ加速器產業有其戰略必要性，於是以網路安全為由積極勸阻本土企業購買Ｈ20。這項措施讓Ｈ20在中國的銷售大幅緊縮，也迫使輝達放慢其產能。

美國政府限制先進ＡＩ晶片流入中國的主要目的，是減緩中國在大語言模型（ＬＬＭ）及其衍生產品的研發進程。ＬＬＭ的訓練和推理過程需大量數據，所以能充分支援ＬＬＭ的硬體須具備高效能的資料存取和運算能力。是故，拜登政府在制定ＡＩ加速器出口管制政策時，特意禁止運算能力優於某個門檻，且通訊效能也超過特定閾值的ＡＩ加速器出口到中國。

當第一版ＡＩ晶片出口管制政策公布時，輝達迅速修改現有ＧＰＵ產品，將其通訊性能降至規定閾值以下，而推出了A800（A100的降規版）和H800（H100的降規版）。於此同時，輝達也推出運算效能略低於閾值，但通訊效能卻高於H100的Ｈ20，拜登政府竟也放行。

事實證明，對許多ＬＬＭ運算而言，Ｈ20的整體效能甚至比禁令清單中的ＡＩ加速器更優異，因為這些運算的效能主要取決於底層硬體的通訊吞吐量，而非其計算速度；也就是說，Ｈ20儼然形成美國ＡＩ晶片出口管制政策的漏洞，美國政府卻直到今年四月才堵住。

ChatGPT3.5發表後，輝達就貫注於ＬＬＭ的訓練和推理，全力解決ＬＬＭ運算受限於記憶體存取速度所造成的效能瓶頸；推出ＧＰＵ整合高頻寬記憶體（ＨＢＭ）以加快資料存取速度，ＧＰＵ間直接互連以促進多個ＧＰＵ協同工作的網路技術NVLink。如果沒有ＨＢＭ和NVLink，執行ＬＬＭ運算的ＧＰＵ很可能將大部分時間花在等待資料的存取上，且ＧＰＵ的運算速度愈快，等待資料的時間就愈長。

現今全力追趕輝達的中國ＡＩ加速器公司，大多無法使用最尖端的半導體製程，所以運算速度較慢且功耗較高，也無能利用最先進的ＨＢＭ技術。在這種限制下，填滿與輝達產品效能差距的唯一方法，就是使用更多ＧＰＵ，增強ＧＰＵ間的通訊效能，並針對特定ＬＬＭ演算法客製化系統架構，華為的CloudMatrix 384正是這套手法的代表作。

這個系統最創新的特色是具高度擴展性、由光信號鏈路和電子網路交換機組成、稱為統一匯流排的互聯網路。該網路讓每個運算單元都能直接連結其他運算單元和存取系統中的任何記憶體，讓系統裡的所有運算與記憶體資源均可靈活動態分配。

雖然CloudMatrix 384的總體效能與性價比仍不如輝達最先進產品，但約略已在同一級別。鑑於中國過去從一到Ｎ成功擴張諸如太陽能板、電池和電動車等各產業的出色紀錄，華為的ＡＩ超算系統能否在中國市場與輝達真正並駕齊驅，應該只是時間的問題。（作者為清華大學合聘教授）

AI 輝達晶片半導體