編者按:本文來自微信公眾號(hào) 來源:新智元(ID:AI_era),編輯:編輯部,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
就在昨天,OpenAI憋出個(gè)大招,放出了o3和o4-mini。
據(jù)稱,這些模型首次實(shí)現(xiàn)了「用圖像思考」,堪稱視覺推理巔峰之作。
而有這樣一類圖像推理題,讓國(guó)內(nèi)每年都有幾百萬考生受盡折磨。
看到下面這些熟悉的題,參加過國(guó)考或省考的你,是不是DNA動(dòng)了?

圖形推理題,在公務(wù)員考試中常常被考生吐槽:題難、奇葩,邏輯怪異,套路滿滿,甚至十分「反人類」!


既然如今的AI這么強(qiáng),讓人類考生直呼變態(tài)的圖形推理,它們做得出嗎?
CMU的研究者,這次就用公務(wù)員考試真題來實(shí)測(cè)了一把!
他們建立了一個(gè)將多模態(tài)推理與領(lǐng)域知識(shí)分離的新基準(zhǔn)——VisualPuzzles,來考驗(yàn)AI的視覺拼圖解決能力。
具體來說,研究者從多個(gè)來源精心挑選或改編了1168道圖文邏輯題,其中一個(gè)重要來源便是中國(guó)國(guó)家公務(wù)員考試行測(cè)中的邏輯推理題(沒錯(cuò),真·考公難度)。

論文鏈接:https://arxiv.org/abs/2504.10342
項(xiàng)目鏈接:https://neulab.github.io/VisualPuzzles/
而測(cè)試結(jié)果,可以說令人震驚:
最強(qiáng)模型的正確率也只有57.5%,都低于人類5%最差水平
普通開源模型的正確率更慘淡,僅有約30%~40%
相比之下,人類頂尖選手的正確率可以接近滿分,可見在純邏輯推理方面,模型與人仍有明顯鴻溝
看來,模型們還是上不了岸了啊……

此次研究的其他發(fā)現(xiàn)如下。
知識(shí)≠推理:在像MMMU這樣的知識(shí)密集型基準(zhǔn)上,推理與知識(shí)有很強(qiáng)的相關(guān)性,但在VisualPuzzles上則不然
更大的模型=更好的知識(shí),但不一定有更好的推理能力
「思考」模式并不總是有效。更多的token=更好的知識(shí)回憶≠更好的推理

不同模型在VisualPuzzles上的表現(xiàn),成績(jī)從高到低排列;其中前3行為人類前5%,前50%和倒數(shù)5%
模型 vs 人類
如何測(cè)試多模態(tài)大模型的能力?
即便取得好成績(jī),AI到底是學(xué)會(huì)了推理,還是說只是記下了特定領(lǐng)域知識(shí)?
現(xiàn)有的多模態(tài)基準(zhǔn)測(cè)試,往往將推理能力與領(lǐng)域?qū)I(yè)知識(shí)混為一談,難以單獨(dú)評(píng)估通用推理能力。
CMU提出的VisualPuzzles,目的就是針對(duì)視覺推理的基準(zhǔn),同時(shí)故意減少對(duì)專業(yè)知識(shí)的依賴。
VisualPuzzles包含五大類題型:算法推理、類比推理、演繹推理、歸納推理和空間推理。
實(shí)驗(yàn)表明,與像MMMU等過去的基準(zhǔn)相比,VisualPuzzles需要的領(lǐng)域特定知識(shí)明顯更少,而對(duì)復(fù)雜推理的要求更高,從而能更準(zhǔn)確地評(píng)估真正的多模態(tài)推理能力。
評(píng)估結(jié)果顯示,最先進(jìn)的多模態(tài)大語(yǔ)言模型在VisualPuzzles上的表現(xiàn),始終落后于人類水平。
而且在知識(shí)密集型基準(zhǔn)上表現(xiàn)強(qiáng)勁的模型,在專注推理且依賴較少知識(shí)的任務(wù)上,未必能夠取得成功。

圖1:模型在VisualPuzzles上的準(zhǔn)確率與人類表現(xiàn)百分位數(shù)的比較。所有評(píng)估的模型都低于人類5百分位數(shù)(57.5%)
有趣的是,具有顯式「思考」(think)模式的模型并不總是比基礎(chǔ)版本好。
此外,增強(qiáng)推理的技術(shù)手段,在不同模型和任務(wù)類型中收效參差不齊。
研究者并未發(fā)現(xiàn)模型規(guī)模與性能存在明確關(guān)聯(lián)。
這說明當(dāng)前的推理策略還不能很好地泛化到VisualPuzzles。
大模型「顯眼包」解題大賞
下面,我們來看一看o1、Gemini-2.5 Pro、Claude-3.7-Sonnet這些頂尖的明星大模型,在做公務(wù)員考試行測(cè)中的邏輯推理題時(shí),都會(huì)是什么樣子。
(人類選手們也可以試試,看這些題自己能不能做得出。)

下面這道題中,給出了一對(duì)按特定角度排列的椅子,答題人需要選擇與題干中椅子角度相匹配的選項(xiàng)。

Claude-3.7-Sonnet針對(duì)這道題開啟了思考模型,一通操作猛如虎——
「這些椅子相隔180度,它們是以側(cè)面視角展示的。從角度來看,任何一個(gè)選項(xiàng)都是正確的。然而,更仔細(xì)地觀察它們的具體方向:原始椅子以完美的側(cè)面視角展示。選項(xiàng)A展示了與問題中的排列最匹配的最干凈的側(cè)面視圖,所以我選A?!?/p>

然而,這道題的正確答案是C。

下面這道題,要求數(shù)出圖中的三角形比正方形多幾個(gè),看起來是小學(xué)數(shù)學(xué)題的級(jí)別。

Claude-3.7-Sonnet-Thinking經(jīng)過一番長(zhǎng)長(zhǎng)的思考,給出答案D,然而正確答案是C。

下圖中有幾個(gè)左手?Claude-3.7-Sonnet-Thinking表示答案是B,然而正確答案是C。


以上這幾道,只是小試牛刀而已。接下來,就要上讓人類考生都瑟瑟發(fā)抖的公考行測(cè)題了,準(zhǔn)備好。


Claude-3.7-Sonnet-Thinking給出的答案是C,然而正確答案是A。

然而這次不能怪它做錯(cuò)了,我們自己也沒做出來……
而接下來這道題,Claude-3.7-Sonnet-Thinking的表現(xiàn)就十分亮眼了。


這次,模型經(jīng)過一番推理后,給出了正確答案——C!

這道判斷村莊道路圖的題,有一定難度。


模型給出了答案D,然而正確答案是C。
下面這道題,對(duì)人類來說是很簡(jiǎn)單的,但Claude-3.7-Sonnet-Thinking依然做錯(cuò)了,它給出的答案是A。

而有時(shí)對(duì)人類看起來并不直觀、有一定難度的題,模型卻反而能做對(duì),比如下面這道。

Claude-3.7-Sonnet-Thinking給出了正確答案——C。

總體而言,行測(cè)中這類找規(guī)律的歸納題,模型偶爾能做對(duì)。


在空間題中,模型也有一定概率能得出正確答案。
有趣的是,有些對(duì)人類很簡(jiǎn)單的題,它反而不行,證明了AI模型的空間推理能力跟人腦還是有差距。





最后,想問問人類讀者:你做對(duì)了幾道題,贏過AI了嗎?
三個(gè)不等式
正如前文所言,新研究主要揭示了3個(gè)「不等式」:
1. 知識(shí)≠推理
2. 更大的模型=更好的知識(shí)≠更好的推理
3. 更多的token≠更好的推理
知識(shí)≠推理
在非專業(yè)場(chǎng)景中評(píng)估通用推理能力的核心在于,厘清推理能力與領(lǐng)域?qū)I(yè)知識(shí)的邊界。
為此,研究人員提出了一個(gè)專注視覺推理、并有意弱化對(duì)專業(yè)知識(shí)依賴的基準(zhǔn)數(shù)據(jù)集——VisualPuzzles。
下面,我們就來看看這個(gè)VisualPuzzles,到底有多難:
題型多樣:包括算法類、類比類、邏輯類、歸納類、空間類五大推理類型,覆蓋了常見的邏輯與思維模式。
難度分布:Easy/Medium/Hard分別占比46%/39%/15%,涵蓋從入門到骨灰級(jí)的思維挑戰(zhàn)。
多模態(tài)選項(xiàng):57%是圖片選項(xiàng),43%是文字選項(xiàng),這樣可以測(cè)試模型對(duì)不同模態(tài)信息的推理整合。
語(yǔ)言要求低:題干大部分使用基礎(chǔ)英文詞匯,以降低閱讀障礙,突出對(duì)視覺和邏輯本身的考察。
其中,五大推理類別具體為:
1. 算法推理:涉及對(duì)算法規(guī)則進(jìn)行推理。
2. 類比推理:需要分析一對(duì)實(shí)體之間的關(guān)系。
3. 演繹推理:通過已知前提推理得出邏輯結(jié)論。
4. 歸納推理:側(cè)重于從觀察到的模式中概括出規(guī)則。
5. 空間推理:需要解釋和操作空間關(guān)系。

表1:VisualPuzzles的題型和難度分布等統(tǒng)計(jì)數(shù)據(jù)
除了難度極高之外,VisualPuzzles相比于現(xiàn)有的基準(zhǔn),還更能反映模型的推理能力,而不是對(duì)知識(shí)的記憶能力。
為了證明這一點(diǎn),研究者特意做了一波驗(yàn)證:
首先,讓GPT-4o為兩類數(shù)據(jù)集各50道隨機(jī)選題生成「知識(shí)概念檢查清單」。
其中,每份清單包含針對(duì)原始問題所需背景知識(shí)的具體提問。比如說,如果某題需理解兩條物理定律,那么清單會(huì)要求分別解釋這兩條定律。通過統(tǒng)計(jì)每道題對(duì)應(yīng)的檢查清單條目數(shù)量,可量化問題的知識(shí)密集程度。
結(jié)果顯示,對(duì)于單道題平均需要的知識(shí)點(diǎn):MMMU是3.9個(gè),VisualPuzzles是1.1個(gè)。

表3:每個(gè)實(shí)例在MMMU與VisualPuzzles上生成的平均知識(shí)概念問題數(shù)量
接著,測(cè)量模型在兩個(gè)基準(zhǔn)測(cè)試上的知識(shí)準(zhǔn)確率(即正確回答知識(shí)檢查清單問題的能力)。
其中,知識(shí)準(zhǔn)確率和推理能力無關(guān),反映了模型在不依賴推理的情況下,已經(jīng)掌握的所需知識(shí)量。
結(jié)果顯示:
VisualPuzzles:多數(shù)模型知識(shí)準(zhǔn)確率超過90%
MMMU:大多數(shù)模型準(zhǔn)確率不足60%,較小模型常低于50%
只有最大規(guī)模的模型在MMMU上接近80%準(zhǔn)確率
也就是說,MMMU對(duì)領(lǐng)域?qū)I(yè)知識(shí)的強(qiáng)依賴性,而VisualPuzzles所需知識(shí)儲(chǔ)備已普遍存在于現(xiàn)有模型中——基本沒有「超綱題」。
如果推理成績(jī)和知識(shí)掌握程度的相關(guān)性高更高,那么可以說知識(shí)=推理。
但下圖描述了知識(shí)準(zhǔn)確率和推理準(zhǔn)確率的相關(guān)性:
在MMMU中(左圖),知識(shí)掌握程度和推理成績(jī)相關(guān)性高達(dá)0.8
在VisualPuzzles中(右圖),這一相關(guān)性降至0.4
也就是說,在VisualPuzzles中模型無法只靠自己學(xué)過的知識(shí)點(diǎn),答出實(shí)際需要推理的題目。

圖2(下):推理準(zhǔn)確率與知識(shí)準(zhǔn)確率之間的關(guān)系散點(diǎn)圖及趨勢(shì)線
更大的模型≠能答對(duì)題
現(xiàn)在,我們已經(jīng)有了不「超綱」且很難通過「背題」答出來的測(cè)試集,接下來就可以測(cè)測(cè)模型的表現(xiàn)了。
圖2(上)繪制了推理準(zhǔn)確率和模型參數(shù)規(guī)模的關(guān)系,可以看到:
MMMU:模型參數(shù)規(guī)模越大,知識(shí)準(zhǔn)確率越高,更大的參數(shù)規(guī)模通常轉(zhuǎn)化為更高的整體基準(zhǔn)表現(xiàn)。
VisualPuzzles:與MMMU不同,如果只擴(kuò)大參數(shù)數(shù)量,那并不能保證在VisualPuzzles上的表現(xiàn)更好。
換句話說,需要知識(shí)時(shí),大模型參數(shù)規(guī)模越大、預(yù)訓(xùn)練知識(shí)越多,可能推理越出色。
但在不需要專業(yè)知識(shí)、只考察純邏輯思維等推理能力的時(shí)候,大模型就開始力不從心了。

圖2(上):MMMU和VisualPuzzles上準(zhǔn)確率與模型規(guī)模之間的關(guān)系散點(diǎn)圖及趨勢(shì)線
長(zhǎng)文本≠好推理
按道理說,像是o1,Claude-3.7-Sonnet-Thinking,Gemini-2.0-Flash-Thinking這些看起來「更會(huì)思考」的推理模型,應(yīng)該在邏輯難題上表現(xiàn)更好。
然而在實(shí)際的測(cè)試中,它們雖然確實(shí)會(huì)輸出更長(zhǎng)、更詳細(xì)的回答,但正確率并沒有顯著提高。

表4:解決基準(zhǔn)問題時(shí)所需的邏輯推理步驟百分比

圖3:推理模型與其通用對(duì)照模型在VisualPuzzles上的準(zhǔn)確率和平均完成token數(shù)的比較
究其原因,可能有以下幾點(diǎn):
1. 更多文字≠更深入的邏輯推理
模型往往只是在其輸出中添加了許多「推理裝飾」,但缺乏真正的推理深度。本質(zhì)上,它仍然在沿用與非思維增強(qiáng)版相同的推理模式。
2. 在知識(shí)型題目上有效,但在純邏輯題上收效甚微
在需要調(diào)用大量專業(yè)知識(shí)(如醫(yī)學(xué)、法律、物理定律)的題目上,長(zhǎng)文本有助于「回憶」相關(guān)知識(shí)。
但在VisualPuzzles這樣依賴邏輯推理(而非記憶庫(kù))的測(cè)試中,它們就顯得力不從心。
推理套路不一定管用
為了更好地理解這種差異,研究者分析了模型在長(zhǎng)思維鏈中,常用的兩種推理策略:
Branching(分支推理)
Revalidation(回溯驗(yàn)證)
如圖4所示,分析揭示了基準(zhǔn)之間的顯著對(duì)比,其中:
左圖比較了Claude-3.7-Sonnet和Claude-3.7-Sonnet-Thinking在MMMU和VisualPuzzles上的準(zhǔn)確率
中圖顯示了每種推理模式的頻率
右圖展示了這些推理模式與基準(zhǔn)準(zhǔn)確率的相關(guān)性
可以看到,在對(duì)知識(shí)依賴更強(qiáng)的任務(wù)(如MMMU)中,這些策略可以幫助模型回憶更多事實(shí),從而提高正確率。
然而在VisualPuzzles上,這些行為雖然出現(xiàn)得更為頻繁,但成效卻幾乎為零。
也就是說,模型可能只是走個(gè)過場(chǎng),并沒有真推理。

圖4:Claude-3.7-Sonnet-Thinking推理模式在MMMU和VisualPuzzles上的比較
值得一提的是,模型在MMMU和VisualPuzzles中的回答策略,是有明顯差異的。
在MMMU中,模型傾向于采用基于選項(xiàng)的策略——即利用提供的選項(xiàng)早期排除不太可能的答案,并選擇最相關(guān)的選項(xiàng),通常在不顯式解決問題的情況下進(jìn)行。
相反,在VisualPuzzles中,模型更頻繁地采用「回答優(yōu)先」策略,即在比較結(jié)果與選項(xiàng)之前,獨(dú)立嘗試解決問題。

表5:回答策略
模型為何「一路滑鐵盧」?
對(duì)此,研究者分析認(rèn)為:
模型對(duì)空間信息理解仍不穩(wěn)定:視覺感知環(huán)節(jié)常出錯(cuò),尤其涉及物體位置、形狀與角度等
最大且最致命的問題依然是:缺乏深層邏輯推理能力

圖7:Claude-3.7-Sonnet-Thinking的錯(cuò)誤分布
推理能力可以「遷移」嗎?
對(duì)于人類而言,每個(gè)推理類別可能涉及不同的認(rèn)知或心理過程,因此一個(gè)類別的表現(xiàn)可能無法遷移到另一個(gè)類別。
但對(duì)于模型來說,其相關(guān)性熱圖講述了一個(gè)不同的故事。
研究者觀察到推理類別之間存在顯著的強(qiáng)相關(guān)性,相關(guān)值從0.11到高達(dá)0.94不等。
特別是,算法推理和演繹推理之間的相關(guān)性很高(0.94),而算法-類比和演繹-類比等其他組合也表現(xiàn)出較強(qiáng)的關(guān)聯(lián)。這表明模型的表現(xiàn)傾向于在不同類別之間進(jìn)行泛化。
然而,這種泛化可能只是因?yàn)槟P驼诶媚承┩ㄓ玫摹副砻婺J健够蚪輳?,并不代表具備了真正多樣化的推理能力?/p>

圖6:推理類別之間的相關(guān)性熱圖(所有評(píng)估模型的平均值)
總結(jié)
VisualPuzzles的出現(xiàn)揭示了一個(gè)重要的事實(shí):
依靠記憶力(大規(guī)模訓(xùn)練中的知識(shí))不足以讓模型在真正的推理題中表現(xiàn)出色;
大模型的推理能力仍與人類存在顯著差距,尤其在不依賴專業(yè)知識(shí)、純邏輯思維的場(chǎng)景中。
這也為未來的多模態(tài)大模型發(fā)展指明了努力方向:
如何在訓(xùn)練過程中強(qiáng)化推理結(jié)構(gòu)而非單純依賴知識(shí)?
如何設(shè)計(jì)出兼具復(fù)雜邏輯與通用認(rèn)知的新型網(wǎng)絡(luò)或推理模塊?
是否還能擴(kuò)展到多圖、多步驟或動(dòng)態(tài)場(chǎng)景的推理?
總之,在不斷擴(kuò)大規(guī)模、補(bǔ)充知識(shí)的同時(shí),也別忘了走向真正的理解與推理。
畢竟,上岸不光要背知識(shí)點(diǎn),更要有「硬核邏輯」做支撐!
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。







