美政府低估中國 AI 之爭議:NIST 報告與技術現實之間的落差
2026 年 5 月 4 日發佈的 NIST 評估報告面臨低估中國 AI 技術實力的批評。史丹福 HAI 等獨立機構的數據顯示兩國間的差距僅為 2.7%,DeepSeek 和阿里巴巴的突飛猛進正威脅著美國的技術霸權。
2026 年 5 月 4 日,美國國家標準暨技術研究院 (NIST) 下屬的人工智能安全研究院 (CAISI) 發佈評估結果,稱中國的主要 AI 模型與美國模型相比仍有顯著差距。然而,技術社群和行業專家對政府的這份發佈表示強烈懷疑。批評者指出,NIST 使用的評估方法論是為有利於美國的前沿模型而設計的,並刻意忽略了 DeepSeek 和阿里巴巴等中國實驗室所取得的急劇效率提升。
NIST 的 CAISI 評估在評測 DeepSeek V4 Pro 時應用了「性價比篩選」,將除了 GPT-5.4 mini 以外的所有美國主要模型排除在比較對象之外。這與其說是反映技術現實,不如說是為了配合政策目的而採用的便利方法論。
NIST 的此次評估與布魯金斯學會 (Brookings Institution) 先前的分析一致,即中國的 AI 模型落後美國尖端模型數月以上。布魯金斯學會主張,美國模型在數學推理、代碼生成、長期代理任務等廣泛基準測試中保持領先。然而,政府方面的這種觀點與實際市場中觀察到的技術指標存在相當大的距離。
史丹福 HAI 的 2026 年現實檢測:2.7% 的差距
根據史丹福大學人本人工智能研究院 (HAI) 於 2026 年 3 月發佈的 AI 指數報告,美中頂尖模型之間的性能差距僅為 2.7%。自 2025 年初以來,兩國模型的性能排名多次更替,競爭激烈。特別是自 2025 年 2 月 DeepSeek-R1 錄得與美國頂尖模型相當的性能後,兩國差距在個位數百分比內反覆波動,主流分析認為實際上已達到技術平衡狀態。
- DeepSeek V3.2 在數學推理及編碼評估中超越了 GPT-4.5,證明了其技術優勢。
- 阿里巴巴的通義千問 3 235B (Qwen 3 235B) 模型在 Open LLM 排行榜上獲得了 S 級 (S-tier) 評級,技術推理能力獲得認可。
- Meta 的 Llama 4 Scout 提供 1,000 萬代幣 (token) 的上下文窗口,雖然保住了開源領導者地位,但中國模型的追趕速度正壓倒性襲來。
- 中國 AI 初創公司 MiniMax 於 2026 年 1 月通過香港 IPO 籌集了 6.19 億美元,充實了資本實力。
儘管美國實施芯片出口管制,中國企業仍利用高度高效的架構和「合規型」芯片突破技術限制。英偉達 (NVIDIA) 的 H20 芯片雖是為規避美國的訓練性能閾值規定而設計,但在推理性能方面甚至錄得比 H100 更快的速度。中國實驗室為克服這些硬件限制,採取了極大化算法效率的策略,這在結果上起到了削弱美國運算資源優勢的作用。
隨著技術現實與政府評估之間的落差擴大,美國國會開始要求進行更客觀的診斷。2026 年 5 月 2 日,美國國會議員開始推動一項法案,強制對中國的 AI 能力進行首次全面審查。根據該法案,相關報告必須在 2027 財年國家安全及國務院預算案通過後 180 天內提交。這反映了對現有政府評估的不信任,同時也暗示未來 180 天的精密調查將成為重塑美國對華技術戰略的決定性契機。
基礎設施差距:美國維持的最後堡壘
雖然模型性能方面的差距已經縮小,但在數據中心基礎設施和資本投資規模方面,美國仍保持強勁領先。根據 MeriTalk 的報告,美國在大規模運算資源和電力基礎設施保障方面領先於中國,這成為訓練下一代模型的關鍵競爭優勢。雖然中國的技術效率抵消了硬件短缺,但物理基礎設施的絕對規模差異仍是待解決的課題。
美國企業正投入天文數字般的資本以擴充基礎設施,這與中國初創公司在私募資本市場面臨的困難形成對比。儘管像 MiniMax 這樣的公司持續成功融資,但由美國大科技公司主導的基礎設施投資速度被視為國家層面的戰略資產。在模型性能趨於平準化的情況下,這種基礎設施優勢很可能成為美國唯一的差異化因素。
最終,未來 180 天內進行的全面審查結果預計將成為決定美國未來戰略方向的分水嶺。美國是會進一步加強現有的出口管制並加快技術封鎖,還是會將戰略重心轉向加速國內基礎設施建設和技術創新,都取決於這份報告。中國 AI 模型展現出的驚人韌性和效率,正對美國維持技術霸權的戰略提出根本性的質疑。
| 模型 | 開發者 | 核心優勢 | 基準測試狀態 |
|---|---|---|---|
| DeepSeek V3.2 | DeepSeek (中國) | 數學與編碼 | 超越 GPT-4.5 |
| GPT-5.4 mini | OpenAI (美國) | 通用知識 | NIST CAISI 基準 |
| Qwen 3 235B | 阿里巴巴 (中國) | 技術推理 | Open LLM 排行榜 S 級 |
| Llama 4 Scout | Meta (美國) | 上下文窗口 (1,000 萬) | 開源領導者 |
頂尖中美模型在專業基準測試中的比較。




本內容僅供資訊與評論用途,並不構成投資建議。
加入這篇文章的討論
看看其他讀者的想法,也可以留下你的意見。