編者按:本文來自微信公眾號 星海情報局(ID:junwu2333),作者:星海老局,創(chuàng)業(yè)邦經(jīng)授權轉載。
1957年10月4日,蘇聯(lián)成功發(fā)射了"斯普特尼克1號"人造衛(wèi)星。消息傳出后,從華盛頓到倫敦,整個西方都陷入了震驚和恐慌——因為這意味著:西方國家開始在技術上落后于非西方的國家。
從此之后,"斯普特尼克時刻"也就成了一個專有詞匯,特指那些使得西方國家陷入技術落后局面的事件。
現(xiàn)在,"斯普特尼克時刻"又來了:頂著各種制裁,用著遠低于美國科技企業(yè)的預算,一家中國企業(yè)開發(fā)的AI大模型,竟然實現(xiàn)了近似于GPT-4o大模型的效果。
更重磅的是:就在今天中午時分,DeepSeek已經(jīng)登頂了中國和美國的應用商店,超過了ChatGPT,成為了最受歡迎的AI應用。這個歷史性的時刻,至少在目前十年內絕無僅有。
這家中國企業(yè),叫幻方量化。他們開發(fā)的AI大模型,就是這幾天爆火的Deepseek(深度求索)?!逗谏裨挘何蚩铡繁澈蟮哪莻€男人,Yocar馮驥將其稱為“國運級別的科技成果”。
今天,我們就來聊聊Deepseek,看它為何能成為AI界的"斯普特尼克"。
01不傳統(tǒng)的技術路線
從技術原理上來說,Deepseek的成功,尤其是最新一代deepseek R1的成功,來自于它所采用的RL強化學習策略,這是它以極低的成本卻可以實現(xiàn)和GPT-4o差不多效果的根本原因。
要理解這種顛覆性,得先看清傳統(tǒng)AI的局限。
在之前的文章里,我們就認為當下AI的故事很可能已經(jīng)講不下去了——因為以GPT為代表的傳統(tǒng)AI,其策略的本質是"在人類監(jiān)督下的猜字謎游戲"——GPT們其實并不會思考,它們雖然會生成看上去還挺靠譜的回答,但它們做出這些回答并不是它們了解事物運行的原理,而是這樣回答有更大概率被人類所接受。
這種猜字謎的游戲,最多也就是生成一些"看似靠譜實則無法深究"的東西,根本沒有辦法投入現(xiàn)實、轉化為生產(chǎn)力工具。早期繪畫AI經(jīng)常把人畫出六個指頭也是類似的原因——AI根本不知道人的手掌上應該有幾個指頭,它只是生成一個"乍一看還可以"的東西。
但deepseek不一樣,deepseek是真的會“思考”,或者說“推理”的。

以現(xiàn)在爆火的deepseek R1來說,它完全拋棄了那種"猜字謎"的訓練方式,轉而采用了之前在圍棋和智能駕駛領域常用的RL策略(強化學習)。
如果說以前的策略是人類告訴AI什么是對的什么是錯的,AI只是在人類的指導下對人類進行模仿。那么RL就是人類僅僅起一個"引進門"的作用,剩下的"修行"就全部靠AI自己慢慢學習了。
這種"修行"在最初階段或許很笨拙,但越訓練AI的能力就越強——關鍵在于AI不需要遵循人類的生理極限。人類要吃飯睡覺,但AI不用,在高性能芯片的加持下,AI訓練一年所見識過的棋局、游戲,往往比一個職業(yè)棋手、職業(yè)電競玩家十輩子見過的都多——老司機哪怕開一輩子車,最多也就開個幾百萬公里。但自動駕駛AI只要開始訓練,公里數(shù)就是以億為單位計算了。
簡而言之就是:RL策略,是真正地讓AI學會認識世界、了解事物規(guī)律,而不是亦步亦趨地迎合人類的口味——這也就是為什么很多人在看到deepseek的成功后都認為2025年將會是RL強化學習的元年。
沒辦法,RL策略現(xiàn)在看來確實是太誘人了。
02技術突破帶來的降本增效
當技術路線換道超車,成本結構就會發(fā)生核爆式變革。
因為底層的技術路線上顛覆了以GPT為代表的傳統(tǒng)AI,所以deepseek R1把性價比拉高到了一個不可思議的程度——相比起硅谷那群人動輒數(shù)億數(shù)十億美金的投資和數(shù)萬張顯卡的超級集群,我們僅僅靠著2000多張顯卡和600萬美元左右的成本就實現(xiàn)了近似乃至更好的效果。
用美國META公司一位匿名員工的話來說:"META內部一個負責AI項目的高管年薪拿出來,就足夠訓練deepseek了,而這樣高薪的高管,META有幾十個。"
......我只能說:跟著這群蟲豸在一起,怎么能搞好AI呢?
同時,這波操作直接改寫了游戲規(guī)則。deepseek的顛覆式創(chuàng)新也向外界傳播了一個信息:不需要那么高的投入,也不需要那么多英偉達的GPU,你也可以做出很棒的大模型——OpenAI訓練GPT-4耗費約6300萬美元和25000張A100顯卡,而Deepseek R1僅用600萬美元達到可比效果,甚至可能用的還是國產(chǎn)顯卡。

數(shù)據(jù)最能說明問題:RL策略使模型在對話輪次、任務復雜度等維度實現(xiàn)80%的收斂速度提升,數(shù)據(jù)利用率提高5倍以上。
黃仁勛一覺醒來,感覺自己家的地基被人刨了,因為AI的泡沫眼看著就要被戳破了——在傳統(tǒng)技術路徑下,90%的算力消耗在試錯過程中,而Deepseek的自主學習機制能將無效訓練降低60%。RL策略對并行計算的需求較傳統(tǒng)架構下降40%,這使得國產(chǎn)顯卡在特定計算任務中能達到英偉達GPU 75%的能效比。
這就帶來了更大的打擊:算力市場上的格局將會被重構——隨著華為昇騰910B等國產(chǎn)芯片在RL框架中表現(xiàn)持續(xù)優(yōu)化,美國試圖通過A100/H100禁運遏制中國AI發(fā)展的策略正加速失效——國產(chǎn)顯卡又不是不能用,那我為啥還要高價進口呢?既然如此,那么美國的"小院高墻"的制裁路線還有意義嗎?靠芯片靠GPU還能卡住東方大國的脖子嗎?
03結語
deepseek的爆火背后的幾點觀察
毫無疑問,deepseek確實是取得了巨大的成功,而且使用體驗的確遠超GPT系列的大模型,尤其是R1版本特有的思考過程,真的不再是單純模仿人類,而是真的有自己的想法,甚至比人類更全面、更周密。
綜上所述,老局有這么幾點觀察:
第一,RL路線的含金量已經(jīng)不再需要懷疑,必然會是下一個階段AI大模型的核心策略。這也意味著我們向著真正的“人工智能”開始了前進。
第二,靠著堆顯卡、堆資本來發(fā)展AI的“Scaling law”的價值需要被重新審視,這不意味著Scaling law的崩盤,反而可能是Scaling law的二階段形態(tài)。因為雖然定價已經(jīng)虛高了,并不需要這么多錢也可以實現(xiàn)很棒的效果,但不意味著英偉達就是割韭菜——不得不承認,如果有更好的條件,AI必然會有更大的進步。
第三,AI行業(yè)可能真的沒有什么核心的護城河,模型技術的超越將會是常態(tài)。今天deepseek超越了OpenAI,明天指不定有人也能超越deepseek——整個行業(yè)的格局沒有固化,中美AI競爭的大局還早著呢。
第四,deepseek的成功確實意味著之前一個階段里美國的“小院高墻”制裁策略失效了。但對我們來說,硬件上的突破和國產(chǎn)替代之路遠未結束。國產(chǎn)GPU還要繼續(xù)發(fā)力,這是基礎性的力量,不能因為deepseek的成功,就覺得咱們已經(jīng)不需要再警惕英偉達的技術優(yōu)勢了。
本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表,版權歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。







