編者按:本文來自微信公眾號(hào) 量子位(ID:QbitAI),作者:夢(mèng)晨,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
為什么AI算力霸主永遠(yuǎn)是英偉達(dá)?
不算不知道,一算嚇一跳:在英偉達(dá)平臺(tái)每花一美元,獲得的性能是AMD的15倍。
盡管英偉達(dá)賣的更貴,但只要買齊一套,就更省錢。

來自Signal65的一份最新詳盡報(bào)告揭示了這個(gè)現(xiàn)實(shí),一定條件下生成同樣數(shù)量的token,英偉達(dá)的成本只有AMD的十五分之一。
這份報(bào)告基于SemiAnalysis Inference MAX的公開基準(zhǔn)測(cè)試數(shù)據(jù),時(shí)間跨度從2025年10月到12月,覆蓋了從密集模型到前沿MoE推理模型的全場(chǎng)景測(cè)試。

黃仁勛的“買的越多,省的越多”原來是真的。

MoE時(shí)代:8卡系統(tǒng)撞上Scaling天花板
AI模型正在經(jīng)歷一場(chǎng)架構(gòu)革命,打開Artificial Analysis排行榜就會(huì)發(fā)現(xiàn),智能度排名前十的開源模型清一色都是MoE(Mixture of Experts,專家混合)推理模型。

另一項(xiàng)來自O(shè)penRouter的數(shù)據(jù)顯示,超過50%的token流量正在被路由到推理模型上。

MoE架構(gòu)的核心思路是把模型參數(shù)拆分成多個(gè)專門化的“專家”子網(wǎng)絡(luò),每個(gè)token只激活其中一小部分。
以經(jīng)典的DeepSeek-R1為例,它擁有6710億總參數(shù),但每個(gè)token只激活370億——這讓它能以更低的計(jì)算成本提供前沿級(jí)別的智能。

問題隨之而來。當(dāng)專家分布在多塊GPU上時(shí),GPU之間的通信延遲會(huì)導(dǎo)致計(jì)算單元空閑等待數(shù)據(jù),這些空閑時(shí)間直接轉(zhuǎn)化為服務(wù)商的成本。
報(bào)告指出,無論是英偉達(dá)B200還是AMD MI355X,所有8卡系統(tǒng)在超出單節(jié)點(diǎn)規(guī)模后都會(huì)撞上“擴(kuò)展天花板”(scaling ceiling)。
英偉達(dá)GB200 NVL72的解法是把72塊GPU通過NVLink連接成一個(gè)單一域,提供130 TB/s的互聯(lián)帶寬。
在軟件層面,整個(gè)系統(tǒng)就像一塊巨型GPU一樣運(yùn)作。配合英偉達(dá)Dynamo推理框架的分離式預(yù)填充-解碼調(diào)度和動(dòng)態(tài)KV緩存路由,這套架構(gòu)能夠有效突破8卡系統(tǒng)的通信瓶頸。
模型越復(fù)雜,英偉達(dá)的優(yōu)勢(shì)越明顯
報(bào)告測(cè)試了三類典型模型:模型越復(fù)雜,英偉達(dá)的優(yōu)勢(shì)越明顯。
在密集模型Llama 3.3 70B上,英偉達(dá)B200對(duì)比AMD MI355X的領(lǐng)先幅度相對(duì)溫和。
在基線交互性(30 tokens/sec/user)下,B200的性能約為MI355X的1.8倍;當(dāng)交互性要求提升到110 tokens/sec/user時(shí),這一差距擴(kuò)大到6倍以上。

中等規(guī)模的MoE模型GPT-OSS-120B開始讓差距變得更加顯著。
這款OpenAI開源模型擁有1170億總參數(shù),但每個(gè)token只激活約51億參數(shù)。在2025年12月的測(cè)試數(shù)據(jù)中,100 tokens/sec/user交互性下B200的性能接近MI355X的3倍。
在更符合推理模型需求的250 tokens/sec/user條件下,差距擴(kuò)大到6.6倍。

兩個(gè)平臺(tái)的絕對(duì)性能相比10月都有顯著提升,英偉達(dá)的峰值吞吐從約7000 tokens/sec躍升至14000以上,AMD則從約6000提升到8500左右,但相對(duì)差距反而拉大了。

真正的分水嶺出現(xiàn)在前沿推理模型DeepSeek-R1上。
這款模型集MoE路由、大參數(shù)規(guī)模和高強(qiáng)度推理生成于一身,對(duì)基礎(chǔ)設(shè)施的要求極為苛刻。
測(cè)試結(jié)果顯示:在25 tokens/sec/user交互性下,GB200 NVL72的每GPU性能是H200的10倍、MI325X的16倍;在60 tokens/sec/user下,相比H200的優(yōu)勢(shì)擴(kuò)大到24倍,相比MI355X達(dá)到11.5倍;在75 tokens/sec/user下,GB200 NVL72的性能是B200單節(jié)點(diǎn)配置的6.5倍,是MI355X的28倍。

更關(guān)鍵的是,GB200 NVL72能夠達(dá)到競(jìng)爭(zhēng)平臺(tái)根本無法企及的水平,在28卡配置下可以輸出超過275 tokens/sec/user,而MI355X在相當(dāng)吞吐水平下的峰值只有75 tokens/sec/user。
Token經(jīng)濟(jì)學(xué):貴了1.86倍,便宜了15倍
直覺上,性能更強(qiáng)的平臺(tái)應(yīng)該更貴。事實(shí)也確實(shí)如此:根據(jù)Oracle Cloud的公開定價(jià),GB200 NVL72的每GPU每小時(shí)價(jià)格為16美元,MI355X為8.60美元,前者是后者的1.86倍。
如果參照CoreWeave的定價(jià),GB200 NVL72相比上一代H200的價(jià)格也貴了約1.67倍。

但報(bào)告的計(jì)算揭示了一個(gè)反直覺的結(jié)論:
在25 tokens/sec/user交互性下,GB200 NVL72的性能優(yōu)勢(shì)為5.85倍,除以1.86倍的價(jià)格溢價(jià),每美元性能仍是MI355X的3.1倍。
在75 tokens/sec/user交互性下,28倍的性能優(yōu)勢(shì)除以1.86倍的價(jià)格,每美元性能達(dá)到MI355X的15倍,這意味著生成同等數(shù)量的token,英偉達(dá)平臺(tái)的成本只有AMD的十五分之一。

與上一代產(chǎn)品的對(duì)比同樣驚人。
報(bào)告估算在DeepSeek-R1的典型工作負(fù)載下,GB200 NVL72相比H200的性能提升約20倍。

而GB200 NVL72價(jià)格僅上漲1.67倍,換算下來每美元性能提升約12倍,單token成本降至H200的十二分之一。

MoE推理讓網(wǎng)絡(luò)成為推理成本的瓶頸,而機(jī)柜級(jí)的GB200 NVL72恰好解決了這個(gè)問題。價(jià)值的衡量標(biāo)準(zhǔn)正在從單純的算力轉(zhuǎn)向“每美元能產(chǎn)出多少智能”。
報(bào)告在結(jié)論中指出,AMD的競(jìng)爭(zhēng)力并未被完全否定——在密集模型和容量驅(qū)動(dòng)的場(chǎng)景下,MI325X和MI355X仍有用武之地。
AMD的機(jī)柜級(jí)解決方案Helios也在開發(fā)中,可能在未來12個(gè)月內(nèi)縮小差距。
但就當(dāng)前的前沿推理模型而言,從芯片到互聯(lián)到軟件的端到端平臺(tái)設(shè)計(jì),已經(jīng)成為成本效益的決定性因素。
參考鏈接:
[1]https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。







