編者按:本文來自微信公眾號 “三易生活”(ID:IT-3eLife),作者:三易菌,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
時(shí)隔八年,在生成式人工智能問世之后,谷歌又搞了一次“AI棋王爭霸賽”,OpenAI o4-mini、DeepSeek-R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美兩國AI業(yè)界的頂流模型,將捉對廝殺。

據(jù)谷歌方面介紹,此次比賽旨在通過策略游戲中的正面交鋒,評估并推動AI模型在復(fù)雜推理和決策能力上的進(jìn)步,從而解決現(xiàn)有基準(zhǔn)測試難以跟上模型發(fā)展速度的問題。同時(shí)他們此次賽事也是為了宣傳自己的Kaggle Game Arena平臺,而后者則是谷歌推出的一個(gè)全新的、公開的基準(zhǔn)測試平臺。

與目前常規(guī)的AI基準(zhǔn)測試不同,Kaggle Game Arena的測試題目是“策略游戲”。谷歌之所以推出一個(gè)讓AI玩游戲的平臺,是因?yàn)楫?dāng)下傳統(tǒng)的AI基準(zhǔn)測試已經(jīng)陷入瓶頸,難以反映旗艦?zāi)P偷恼鎸?shí)能力。簡單來說,或?yàn)槊?、或?yàn)槔腁I廠商,已經(jīng)將各種AI基準(zhǔn)測試給玩壞了,所以作為業(yè)界巨頭,谷歌選擇站出來正本清源。
其實(shí)在這一輪AI浪潮中,“錢不值錢了”是一個(gè)很特別的現(xiàn)象。以往獨(dú)角獸通常指的是成立時(shí)間較短,估值超過10億美元、且未上市的科技創(chuàng)新企業(yè)??涩F(xiàn)在只要?jiǎng)?chuàng)始人有一定的技術(shù)背景,一家AI初創(chuàng)企業(yè)拿到10億美元的估值幾乎像吃飯喝水一樣簡單。
甚至出現(xiàn)了Builder.ai這種宣稱人工智能編程,實(shí)際上全靠印度程序員手寫代碼的騙子公司。對于這一現(xiàn)象,金融業(yè)給出的答案是他們對AI革命可能會帶來的機(jī)遇“錯(cuò)失恐懼”(FOMO),并促使其揮舞著鈔票投向一切像模像樣的AI公司,因此也造就了圍繞AI的非理性繁榮。

如此一來,創(chuàng)業(yè)者利用彌漫在投資市場的AI FOMO情緒推高公司估值也在情理之中。那么,要如何讓自己的AI初創(chuàng)公司變得更有價(jià)值呢?由于當(dāng)下的AI技術(shù)實(shí)在過于高深,投資者們判斷一家AI公司實(shí)力的方法很簡單,跑分高的就是好標(biāo)的。
“不服跑個(gè)分”順勢也就成為了一眾AI企業(yè)宣傳自己產(chǎn)品的核心手段,如果有經(jīng)常關(guān)注AI相關(guān)消息,想必就會對LMArena基準(zhǔn)測試、大模型競技場Chatbot Arena等榜單不陌生。當(dāng)跑分成績與融資捆綁在一起,一個(gè)讓數(shù)碼愛好者、手游玩家熟悉的操作也開始浮出水面,那就是“刷榜”。

目前市面上評測大模型能力的基準(zhǔn)測試可謂五花八門,主要包括知識推理、數(shù)學(xué)和編程。以知名AI開源社區(qū)HuggingFace出品的榜單為例,其主要是評測大模型遵循指令的能力,以及AI模型在長文本中進(jìn)行多步驟推理能力等方面。
與PC上的3DMark、手機(jī)上的安兔兔一樣,AI基準(zhǔn)測試也是通過設(shè)定一系列客觀且可復(fù)現(xiàn)的場景,來測試AI模型在不同領(lǐng)域的能力。然而為了可復(fù)現(xiàn)和一致性,AI基準(zhǔn)測試自然就會缺乏靈活性,所以也就有了“刷榜”的空間。AI模型通過自身的記憶能力在一次次測試中記下基準(zhǔn)測試數(shù)據(jù)集中的題目,然后再針對性的進(jìn)行訓(xùn)練,最終就可以跑出高分。

例如在GSM8K、MATH等測試AI模型數(shù)學(xué)能力的測試集中,GPT-4o、Gemini 1.5 Pro等模型動輒就能獲得80%以上的超高正確率,甚至還出現(xiàn)了基準(zhǔn)測試一方主動配合AI廠商刷榜的情況。此前在今年春季,Meta的新一代開源模型Llama 4史詩級翻車,出現(xiàn)了跑分力壓群雄,實(shí)際表現(xiàn)卻一言難盡的情況。對此就有AI研究人員發(fā)現(xiàn),Llama4在發(fā)布前針對大模型競技場Chatbot Arena測試了27個(gè)不同版本,卻只公開了最佳成績。
由此不難發(fā)現(xiàn),基準(zhǔn)測試已經(jīng)變得越來越難以衡量AI模型,特別是擁有目前最高水平的“State-of-the-Art”模型。因此谷歌就開發(fā)了Kaggle Game Arena,搞了場“AI國際象棋棋王爭霸賽”來作為擂臺,讓各大廠商的旗艦?zāi)P陀行愠錾舷薜臋C(jī)會。

那么為何谷歌會選擇游戲來作為測試大模型能力的場景呢?按照他們的說法,游戲這種在既定規(guī)則下的隨機(jī),非常適合衡量AI的智能,有明確的規(guī)則約束AI,就使得它不會放飛自我,足夠強(qiáng)的隨機(jī)性又能讓其展現(xiàn)出能力上限。此外,游戲也具備結(jié)果可衡量、過程可視化、推理可驗(yàn)證,以及零和博弈的特點(diǎn)。
事實(shí)上,游戲與AI業(yè)界有著密不可分的關(guān)系。以O(shè)penAI為例,對于普通人而言,這個(gè)名字走入視野是因?yàn)閯潟r(shí)代的ChatGPT,而對于《DOTA2》的玩家來說,OpenAI在2019年就給他們留下了難以磨滅的印象。彼時(shí),OpenAI的OpenAI Five程序輕而易舉地?fù)魯×斯谲姂?zhàn)隊(duì)OG,初步向外界證明了AI不僅征服了棋類對弈,在更復(fù)雜的電子競技游戲中也能壓倒人類。

根據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對話時(shí)的說法,通過為《DOTA2》開發(fā)OpenAI Five,OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)榱恕盎谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)”,而后者就正是ChatGPT表現(xiàn)出比以往AI產(chǎn)品更為智能的關(guān)鍵。
如果AI能打好游戲,不僅可以證明智能水平,而且會有極高的商業(yè)化前景。要知道游戲廠商可是做夢都想要獲得更智能的NPC,用來提升玩家體驗(yàn)的。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。







