編者按:本文來自微信公眾號(hào)“硅星人Pro”,作者:周一笑,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
Scaling Law撞墻了,這話AI圈已經(jīng)聽了一年多。
從Gary Marcus的減收益批評(píng),到坊間關(guān)于 OpenAI下一代模型“Orion” 進(jìn)展不順的傳聞,再到 GPT-5 發(fā)布時(shí)不少人感到“并不驚艷”。進(jìn)步是有的,但沒有那種讓人眼前一亮的躍升。連 Ilya 都說,我們正從擴(kuò)展時(shí)代回到研究時(shí)代。大力出奇跡的配方,似乎真的到頭了。
然后Gemini 3來了。Gemini 3 不只是變強(qiáng),而是跨越了過去兩年 Google 所有被批評(píng)的點(diǎn),第一次在全面維度,能力、推理、速度、成本、生態(tài),真正追上和整體超越 OpenAI??床坏饺魏螇?。
關(guān)鍵是,Gemini 3不是靠換一套全新架構(gòu)做到的。Google說,突破來自預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段的配方升級(jí)。具體怎么升級(jí)的,外界只能猜測(cè),也許是Google積累了25年的獨(dú)家數(shù)據(jù)終于派上用場(chǎng),也許是找到了處理數(shù)據(jù)的新技術(shù)。但不管原因是什么,Google愿意公開說"預(yù)訓(xùn)練仍有改進(jìn)空間",這本身就是一個(gè)信號(hào):Scaling的兩條主線:預(yù)訓(xùn)練和后訓(xùn)練,都還沒走到頭。

大模型訓(xùn)練變成了“重資產(chǎn)游戲”
Gemini聯(lián)合負(fù)責(zé)人Oriol Vinyals說得更直接:2.5到3.0之間的性能躍遷是他們見過最大的一次,“看不到任何墻”。
同一時(shí)間,馬斯克的xAI宣布其超算集群Colossus已擴(kuò)展到20萬塊GPU,目標(biāo)是100萬塊。OpenAI、Anthropic、微軟也在砸下數(shù)千億美元擴(kuò)建數(shù)據(jù)中心。
如果Scaling Law真的死了,這些人在賭什么?
墻不存在
先看最直接的證據(jù)。
Gemini 3證明了算法改進(jìn)遇上更好的算力,預(yù)訓(xùn)練Scaling依然有效。前DeepMind的研究科學(xué)家Oriol Vinyals把Gemini 3的提升歸功于預(yù)訓(xùn)練和后訓(xùn)練的雙重改進(jìn),不是換了一套全新的方法論,而是把現(xiàn)有方法做得更好,換句話說,不是Scaling不行了,是之前的方法還不夠好。
黃仁勛提出了一個(gè)更系統(tǒng)的框架:現(xiàn)在有三條Scaling曲線同時(shí)在起作用,預(yù)訓(xùn)練Scaling、后訓(xùn)練Scaling、以及推理時(shí)Scaling(test-time compute)。傳統(tǒng)的預(yù)訓(xùn)練Scaling是用更多數(shù)據(jù)和算力訓(xùn)練更大的模型;后訓(xùn)練Scaling是通過RLHF、DPO等技術(shù)在訓(xùn)練后繼續(xù)優(yōu)化;推理時(shí)Scaling則是讓模型在回答問題時(shí)花更多時(shí)間“思考”,比如OpenAI的o1系列。
Sam Altman在2025年初的博客里寫得更直白。他說,模型的智能水平大致等于用于訓(xùn)練和運(yùn)行它的資源的對(duì)數(shù)。這聽起來像是壞消息,但反過來理解,只要你愿意持續(xù)投入,模型就會(huì)持續(xù)變好。曲線沒有彎曲,只是斜率需要用對(duì)數(shù)坐標(biāo)來理解。

Google DeepMind的CEO Demis Hassabis態(tài)度同樣明確。他在一次公開活動(dòng)上說,現(xiàn)有系統(tǒng)的擴(kuò)展必須推到極限,因?yàn)樗辽贂?huì)是最終AGI系統(tǒng)的關(guān)鍵組成部分,甚至可能就是全部。
如果Scaling Law真的撞墻了,你很難解釋為什么整個(gè)行業(yè)還在以前所未有的速度往里砸錢。這些人在賭什么?即使退一步說,算力可以用于推理而非訓(xùn)練,但這種規(guī)模的投入也需要模型能力的持續(xù)提升來支撐,否則推理什么呢,一個(gè)能力停滯的模型,值得為它建造價(jià)值萬億美元的基礎(chǔ)設(shè)施嗎?
他們吵的不是同一件事
不過,如果你仔細(xì)聽各方的表態(tài),會(huì)發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,大家嘴里說的Scaling Law,可能根本不是同一個(gè)東西。
傳統(tǒng)意義上的Scaling Law很簡(jiǎn)單:更多數(shù)據(jù)、更大模型、更多算力,等于更強(qiáng)性能。這是2020年OpenAI那篇著名論文確立的范式,也是過去幾年大模型競(jìng)賽的底層邏輯。如果你說的是這條曲線,那確實(shí)在放緩。數(shù)據(jù)快被用完了,單純堆參數(shù)的邊際收益在下降,這是事實(shí)。
但現(xiàn)在行業(yè)里討論的Scaling,早就不只是這一個(gè)維度了。
黃仁勛提出的三階段框架就是一個(gè)例子。預(yù)訓(xùn)練是第一階段,相當(dāng)于讓模型上大學(xué),獲取廣泛的基礎(chǔ)知識(shí)。后訓(xùn)練是第二階段,相當(dāng)于讀研,針對(duì)特定領(lǐng)域深造。測(cè)試時(shí)計(jì)算是第三階段,相當(dāng)于讓模型在回答問題之前先想一想,而不是脫口而出。o1、DeepSeek-R1這些推理模型的出現(xiàn),本質(zhì)上就是在第三階段做文章。
還有一個(gè)更有意思的視角,來自IBM的一檔播客Mixture of Experts。幾位嘉賓討論Gemini 3的時(shí)候提出了一個(gè)觀點(diǎn):我們是不是應(yīng)該把它叫做Scaling Experimentation Law,而不是Scaling Law?他們的意思是,算力增加的真正作用,不是直接轉(zhuǎn)化成智能,而是讓研究人員能夠更快地跑實(shí)驗(yàn)、試錯(cuò)、迭代。更多的算力等于更快的實(shí)驗(yàn)速度,等于更好的算法,最終等于更強(qiáng)的模型。這才是Scaling的真正含義。所以哪怕繼續(xù)Scale的收益下降,頭部公司也有不能不跟的博弈壓力。
從這個(gè)角度看,Ilya Sutskever說的回歸研究時(shí)代,和其他人說的Scaling Law沒死,其實(shí)并不矛盾。Ilya的意思是,那個(gè)簡(jiǎn)單粗暴的配方用完了,不能再指望光靠堆資源就能出奇跡。但他從來沒說算力不重要,他說的是我們帶著大型計(jì)算機(jī)回到了研究時(shí)代。算力是前提,但不再是唯一的變量。
當(dāng)然,Ilya的表態(tài)也不能完全當(dāng)作純粹的技術(shù)判斷來聽。他現(xiàn)在在做Safe Superintelligence,走的是少商業(yè)化、重基礎(chǔ)研究的路線。說擴(kuò)展時(shí)代結(jié)束、研究時(shí)代回歸,某種程度上也是在為自己的新公司找一個(gè)差異化的敘事。
所以,與其問Scaling死沒死,不如問,哪條曲線在放緩、哪條曲線在加速。

各方立場(chǎng)
說到立場(chǎng)和利益,這場(chǎng)爭(zhēng)論里每個(gè)人的位置其實(shí)都很清楚。
英偉達(dá)是最明顯的。無論Scaling Law怎么演變,無論你是堆預(yù)訓(xùn)練、堆后訓(xùn)練還是堆推理,都需要GPU。三條曲線變成一條還是十條,對(duì)他來說沒區(qū)別,只要大家還在Scaling,他就是賣鏟子的那個(gè)人。所以他當(dāng)然要說沒死,而且要說還有三條。
OpenAI、Google、Anthropic這些模型公司也是一樣。他們正在建造或者規(guī)劃中的數(shù)據(jù)中心,投資規(guī)模是百億甚至千億美元級(jí)別的。這些錢已經(jīng)花出去了,或者已經(jīng)承諾出去了。這時(shí)候說Scaling Law失效,相當(dāng)于說自己在做一筆糟糕的投資。從公司利益的角度,他們必須相信,也必須讓投資人相信,Scaling仍然有效。
馬斯克的xAI也是這個(gè)邏輯。他多次警告,目前 AI 最大的中長(zhǎng)期瓶頸會(huì)從芯片,轉(zhuǎn)向電力生產(chǎn)和電網(wǎng),數(shù)據(jù)中心和 AI 集群會(huì)在未來幾年吃掉極其可觀的全球電力,對(duì)電網(wǎng)形成硬約束。再結(jié)合他瘋狂堆GPU、建算力超級(jí)工廠/超級(jí)集群的行為,很難說他主觀上相信再堆算力也沒什么提升。
看起來站在另一邊的是Ilya和他的SSI。但仔細(xì)想想,他的位置其實(shí)也合理。SSI融資規(guī)模和OpenAI、Google不在一個(gè)量級(jí),拼算力拼不過。這時(shí)候說Scaling時(shí)代結(jié)束、研究突破更重要,既是技術(shù)判斷,也是競(jìng)爭(zhēng)策略。他需要讓投資人相信,有另一條路可以通向超級(jí)智能,而那條路也許不需要萬億美元的基礎(chǔ)設(shè)施。
另一種是“世界模型派”,Yann LeCun和李飛飛都認(rèn)為靠現(xiàn)在這一套 LLM 路線,怎么 scale 都很難做出真正AGI。Yann LeCun創(chuàng)辦了一家專注世界模型的公司AMI,他認(rèn)為L(zhǎng)LM很有用,但只是“高級(jí)自動(dòng)補(bǔ)全”,真正通用的智能需要世界模型 + 自監(jiān)督學(xué)習(xí) + 規(guī)劃 + 持久記憶 + 具身交互 的新架構(gòu)。
李飛飛創(chuàng)立的 World Labs 把賭注壓在 world models 和空間智能上,主攻能重建和生成 3D 世界的基礎(chǔ)模型,而不是再做一套更大的聊天 LLM。從這個(gè)意義上說,它們都代表了一條有別于“單純把語言模型做大”的 scaling 路線,世界模型意味著學(xué)到環(huán)境的動(dòng)態(tài)和結(jié)構(gòu),而不是只學(xué) token。
所以這場(chǎng)爭(zhēng)論,與其說是技術(shù)分歧,不如說是各方在自己的位置上講述對(duì)自己有利的不同版本的故事。
DeepSeek的一句話
在這場(chǎng)爭(zhēng)論里,中國AI公司是一個(gè)特殊的存在,而DeepSeek可能是最有代表性的案例。
過去一年,DeepSeek靠著極高的算力利用效率,用遠(yuǎn)低于硅谷同行的成本做出了能打的模型。這一度被解讀為Scaling Law的反例,你看,不用砸那么多錢也能做出好東西。
但這可能是一個(gè)誤讀。
DeepSeek真正證明的是,架構(gòu)優(yōu)化和工程能力可以讓你在同樣的算力預(yù)算下獲得更好的結(jié)果。用他們自己的話說,是把Scaling曲線往更省算力的方向平移了。但曲線本身還在那里,你想往上走,還是要投入更多資源。
這一點(diǎn)在DeepSeek-V3.2的技術(shù)報(bào)告里說得很清楚。他們?cè)诮Y(jié)論部分直接承認(rèn),模型在世界知識(shí)廣度上的不足,根本原因是總訓(xùn)練算力比前沿閉源模型少。要補(bǔ)這個(gè)短板,只有一個(gè)辦法,擴(kuò)大預(yù)訓(xùn)練算力。

翻譯成白話:我們要買更多卡了。這可能會(huì)在接下一代模型上應(yīng)驗(yàn)。
對(duì)中國AI公司來說,這是一個(gè)現(xiàn)實(shí)的處境。算法優(yōu)化、工程效率,這些是現(xiàn)階段的護(hù)城河,但不是永久的。長(zhǎng)期來看,如果Scaling Law繼續(xù)有效,算力就是繞不過去的坎。而在芯片受限的情況下,這意味著要么找到其他的路,要么在有限的資源里把效率做到極致。

苦澀的教訓(xùn):只要我 GPU 足夠多、算力足夠大,我就能碾壓你們
Scaling Law死了,Scaling Law萬歲
回到最初的問題,Scaling Law到底死沒死?
從目前的證據(jù)來看,答案是沒有。Gemini 3的表現(xiàn)、各家公司的持續(xù)投入、技術(shù)演進(jìn)的方向,都指向同一個(gè)結(jié)論,Scaling仍然有效,只是方式變了。
過去那種簡(jiǎn)單粗暴的配方,更大、更多、更強(qiáng),確實(shí)在遇到瓶頸。但Scaling的內(nèi)涵正在變化。預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí)計(jì)算,三個(gè)階段都有各自的增長(zhǎng)曲線。算力的價(jià)值也從直接轉(zhuǎn)化成智能,變成了加速實(shí)驗(yàn)和迭代的基礎(chǔ)設(shè)施。
對(duì)頭部廠商而言,Scaling不僅是技術(shù)問題,更是資產(chǎn)負(fù)債表問題。已經(jīng)宣布和在建的數(shù)據(jù)中心項(xiàng)目,未來會(huì)持續(xù)壓在頭上,要求模型能力不斷提高來消化這些投入。
所以這不意味著一切都很樂觀,模型在變強(qiáng),但變強(qiáng)的速度是否足以支撐當(dāng)前的估值和投資規(guī)模,這是另一個(gè)問題。
華爾街有句話:“趨勢(shì)是你的朋友,直到它不是。”Scaling Law也一樣,它會(huì)一直有效,直到它不有效。但那一天,顯然還沒到來。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。







