AI跑分越來越?jīng)]意義，谷歌說不如讓AI一起玩游戲

三易生活·2025-08-12

AI能打好游戲這件事，其實(shí)還有極高的商業(yè)化前景。

編者按：本文來自微信公眾號 “三易生活”（ID：IT-3eLife），作者：三易菌，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

時(shí)隔八年，在生成式人工智能問世之后，谷歌又搞了一次“AI棋王爭霸賽”，OpenAI o4-mini、DeepSeek-R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美兩國AI業(yè)界的頂流模型，將捉對廝殺。

據(jù)谷歌方面介紹，此次比賽旨在通過策略游戲中的正面交鋒，評估并推動AI模型在復(fù)雜推理和決策能力上的進(jìn)步，從而解決現(xiàn)有基準(zhǔn)測試難以跟上模型發(fā)展速度的問題。同時(shí)他們此次賽事也是為了宣傳自己的Kaggle Game Arena平臺，而后者則是谷歌推出的一個(gè)全新的、公開的基準(zhǔn)測試平臺。

與目前常規(guī)的AI基準(zhǔn)測試不同，Kaggle Game Arena的測試題目是“策略游戲”。谷歌之所以推出一個(gè)讓AI玩游戲的平臺，是因?yàn)楫?dāng)下傳統(tǒng)的AI基準(zhǔn)測試已經(jīng)陷入瓶頸，難以反映旗艦?zāi)Ｐ偷恼鎸?shí)能力。簡單來說，或?yàn)槊?、或?yàn)槔腁I廠商，已經(jīng)將各種AI基準(zhǔn)測試給玩壞了，所以作為業(yè)界巨頭，谷歌選擇站出來正本清源。

其實(shí)在這一輪AI浪潮中，“錢不值錢了”是一個(gè)很特別的現(xiàn)象。以往獨(dú)角獸通常指的是成立時(shí)間較短，估值超過10億美元、且未上市的科技創(chuàng)新企業(yè)?？涩F(xiàn)在只要?jiǎng)?chuàng)始人有一定的技術(shù)背景，一家AI初創(chuàng)企業(yè)拿到10億美元的估值幾乎像吃飯喝水一樣簡單。

甚至出現(xiàn)了Builder.ai這種宣稱人工智能編程，實(shí)際上全靠印度程序員手寫代碼的騙子公司。對于這一現(xiàn)象，金融業(yè)給出的答案是他們對AI革命可能會帶來的機(jī)遇“錯(cuò)失恐懼”（FOMO），并促使其揮舞著鈔票投向一切像模像樣的AI公司，因此也造就了圍繞AI的非理性繁榮。

如此一來，創(chuàng)業(yè)者利用彌漫在投資市場的AI FOMO情緒推高公司估值也在情理之中。那么，要如何讓自己的AI初創(chuàng)公司變得更有價(jià)值呢？由于當(dāng)下的AI技術(shù)實(shí)在過于高深，投資者們判斷一家AI公司實(shí)力的方法很簡單，跑分高的就是好標(biāo)的。

“不服跑個(gè)分”順勢也就成為了一眾AI企業(yè)宣傳自己產(chǎn)品的核心手段，如果有經(jīng)常關(guān)注AI相關(guān)消息，想必就會對LMArena基準(zhǔn)測試、大模型競技場Chatbot Arena等榜單不陌生。當(dāng)跑分成績與融資捆綁在一起，一個(gè)讓數(shù)碼愛好者、手游玩家熟悉的操作也開始浮出水面，那就是“刷榜”。

目前市面上評測大模型能力的基準(zhǔn)測試可謂五花八門，主要包括知識推理、數(shù)學(xué)和編程。以知名AI開源社區(qū)HuggingFace出品的榜單為例，其主要是評測大模型遵循指令的能力，以及AI模型在長文本中進(jìn)行多步驟推理能力等方面。

與PC上的3DMark、手機(jī)上的安兔兔一樣，AI基準(zhǔn)測試也是通過設(shè)定一系列客觀且可復(fù)現(xiàn)的場景，來測試AI模型在不同領(lǐng)域的能力。然而為了可復(fù)現(xiàn)和一致性，AI基準(zhǔn)測試自然就會缺乏靈活性，所以也就有了“刷榜”的空間。AI模型通過自身的記憶能力在一次次測試中記下基準(zhǔn)測試數(shù)據(jù)集中的題目，然后再針對性的進(jìn)行訓(xùn)練，最終就可以跑出高分。

例如在GSM8K、MATH等測試AI模型數(shù)學(xué)能力的測試集中，GPT-4o、Gemini 1.5 Pro等模型動輒就能獲得80%以上的超高正確率，甚至還出現(xiàn)了基準(zhǔn)測試一方主動配合AI廠商刷榜的情況。此前在今年春季，Meta的新一代開源模型Llama 4史詩級翻車，出現(xiàn)了跑分力壓群雄，實(shí)際表現(xiàn)卻一言難盡的情況。對此就有AI研究人員發(fā)現(xiàn)，Llama4在發(fā)布前針對大模型競技場Chatbot Arena測試了27個(gè)不同版本，卻只公開了最佳成績。

由此不難發(fā)現(xiàn)，基準(zhǔn)測試已經(jīng)變得越來越難以衡量AI模型，特別是擁有目前最高水平的“State-of-the-Art”模型。因此谷歌就開發(fā)了Kaggle Game Arena，搞了場“AI國際象棋棋王爭霸賽”來作為擂臺，讓各大廠商的旗艦?zāi)Ｐ陀行愠錾舷薜臋C(jī)會。

那么為何谷歌會選擇游戲來作為測試大模型能力的場景呢？按照他們的說法，游戲這種在既定規(guī)則下的隨機(jī)，非常適合衡量AI的智能，有明確的規(guī)則約束AI，就使得它不會放飛自我，足夠強(qiáng)的隨機(jī)性又能讓其展現(xiàn)出能力上限。此外，游戲也具備結(jié)果可衡量、過程可視化、推理可驗(yàn)證，以及零和博弈的特點(diǎn)。

事實(shí)上，游戲與AI業(yè)界有著密不可分的關(guān)系。以O(shè)penAI為例，對于普通人而言，這個(gè)名字走入視野是因?yàn)閯潟r(shí)代的ChatGPT，而對于《DOTA2》的玩家來說，OpenAI在2019年就給他們留下了難以磨滅的印象。彼時(shí)，OpenAI的OpenAI Five程序輕而易舉地?fù)魯×斯谲姂?zhàn)隊(duì)OG，初步向外界證明了AI不僅征服了棋類對弈，在更復(fù)雜的電子競技游戲中也能壓倒人類。

根據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對話時(shí)的說法，通過為《DOTA2》開發(fā)OpenAI Five，OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)榱恕盎谌祟惙答伒膹?qiáng)化學(xué)習(xí)（RLHF）”，而后者就正是ChatGPT表現(xiàn)出比以往AI產(chǎn)品更為智能的關(guān)鍵。

如果AI能打好游戲，不僅可以證明智能水平，而且會有極高的商業(yè)化前景。要知道游戲廠商可是做夢都想要獲得更智能的NPC，用來提升玩家體驗(yàn)的。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。