編者按:本文來自微信公眾號 來源:新智元(ID:AI_era),編輯:定慧,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
OpenAI的o3有點「神了」,不僅勝過人類,還識別了人類的詭計。
此前,o3能夠精準(zhǔn)破譯照片位置就上了一波熱搜!
只需要隨便上傳一張照片,o3就能猜個八九不離十,準(zhǔn)確率高的嚇人。
但很多高手猜測o3是不是調(diào)用了用戶本地的地理信息,或者是照片自帶的EXIF信息,直接「作弊」。

不過剛剛的一場比賽,讓這些質(zhì)疑「不攻自破」。
在這場GeoGuessr游戲中,選手直接將假的GPS坐標(biāo)植入到圖像的EXIF中!
本以為能「騙過」o3!
但o3主動忽略了這個錯誤信息,并且通過「觀察」真實圖片,精確定位了實際位置。
o3通過圖片正確識別了所有5個國家,并且有兩次將精度準(zhǔn)確到幾百米內(nèi)!
和o3比賽的Sam Patterson是一名大師級玩家,這場AI和人類的比賽最終以AI獲勝告終——比分定格在23179比22054。

在這場游戲比賽中,o3就像人類一樣,真正的通過視覺能力+實時網(wǎng)絡(luò)搜索來推理,而不是調(diào)取圖片文件的數(shù)據(jù)信息來「作弊」。
AI的跨模態(tài)推理潛力才剛剛顯現(xiàn)!
勝過人類的推理能力
廢話不多說,直接上比賽,這場AI和人類的比賽一共進(jìn)行了5場,AI方的出場選手就是o3,人類這邊就是Sam Patterson本人。
首先Sam Patterson設(shè)置了幾個GeoGuessr比賽條件(詳情見文末):
模式:無移動。人類看到了完整的街景全景(如下動圖所示);o3卻只能看正好兩個90°的截圖(起始 + 相反方向)。
瀏覽/工具:o3啟用了正常的網(wǎng)絡(luò)訪問。沒有EXIF在PNGs中;為了欺騙測試,將文件壓縮以確保元數(shù)據(jù)在上傳中保存下來。
計分:標(biāo)準(zhǔn)Geoguessr,每輪0–5,000分,總分25,000分。

下面跟隨Sam Patterson的視角來看看在這場比賽中到底是人類厲害,還是AI更勝一籌。
第一輪比賽:真實地點-保加利亞
第一輪比賽內(nèi)容:一張帶有明顯建筑風(fēng)格的路口照片。

Sam Patterson的第一個想法這是歐洲的土耳其。
然后,他放大了圖片中央的屋頂細(xì)節(jié),99%確認(rèn)了這是保加利亞。
因為這些瓦片屋頂?shù)娘L(fēng)格,以及帶有向上鉤的混凝土電線桿都是保加利亞的風(fēng)格。
o3也很快給出了它的判斷:保加利亞-南部—位于斯莫利亞省的羅多彼山脈小城鎮(zhèn)扎拉托格拉德。(太細(xì)了)
那最終結(jié)果呢?

第一輪Sam更接近真實地點,但AI和人類的結(jié)果差距不大,Sam只領(lǐng)先大約100點得分。
第二輪比賽:真實地點-奧地利
第二輪比賽內(nèi)容:像是一個歐洲小鎮(zhèn)的圖片。

Sam Patterson一眼看到了車牌是.at結(jié)尾,這個題目變得容易了,結(jié)合建筑看起來很像瑞士或者奧地利。
但實際距離差距很遠(yuǎn),差了380公里。
人類是通過車牌來逆向推理,AI會怎么做?
o3最終給出了答案:Dornbirn, Vorarlberg, Austria — 大約 47.41 N 9.73 E(城鎮(zhèn)中心東北幾個街區(qū)的住宅支路)。
o3給出了詳細(xì)的線索和推理過程,這個過程中允許o3使用了搜索功能。

最終o3的猜測和正確位置只相差了325m!

如果不依賴網(wǎng)絡(luò)搜索o3還能猜出位置嗎?
在Sam Patterson要求o3不搜索后,o3利用圖片特征和本身的數(shù)據(jù)知識也猜對了。

綜合起來,建筑特點、奧地利的領(lǐng)域,以及那非常易識別的山脈輪廓,使o3認(rèn)為Dornbirn是最佳選擇。

第三輪比賽:真實地點-愛爾蘭
第三輪比賽內(nèi)容:一張像是高速路邊的圖片。

作為人類的Sam Patterson的想法是,路邊的黃色虛線非常罕見,并且有這個地形和白色歐洲車牌,100%是愛爾蘭。
愛爾蘭哪里?畫面的左邊是開闊的海洋,但西北方向有遙遠(yuǎn)的陸地,也許是西南方向的一個島嶼?
該o3出場了,允許調(diào)用搜索的o3可以根據(jù)那片突兀的灰色石灰?guī)r、無盡的低矮干石墻,以及標(biāo)志著愛爾蘭道路左側(cè)路肩的黃色虛線,直接判斷:你正在Burren,County Clare,Ireland。
甚至給出了更精確的坐標(biāo):這個視角來自 R477 “海岸路”,位于 Fanore 和 Ballyvaughan 之間,就在 Black Head 的東南方向,越過 Galway Bay,望向 Connemara 的山丘。
大約的位置標(biāo)記:53.120° N, -9.285° W。
然后真實結(jié)果如下:太離譜了!o3的結(jié)果和真實位置幾乎相差無幾!

第四輪比賽:真實地點-哥倫比亞
第四輪比賽內(nèi)容:一張像是鄉(xiāng)村公路的圖片。

Sam的第一個想法這是南美洲,道路看起來像是巴西,隨后注意到車牌,是黃色——這意味著肯定是哥倫比亞。
然后繼續(xù)掃描,放大后發(fā)現(xiàn)了經(jīng)典的哥倫比亞的十字架。具體是哪里,作為人類的Sam還在猶豫。
o3認(rèn)為這看起來像哥倫比亞的農(nóng)村地區(qū)——特別是連接Sincelejo和Caucasia的炎熱、低洼的加勒比平原走廊。
o3給出了一些線索。

這一次的較量似乎勢均力敵,o3要稍微準(zhǔn)確一些。

第五輪比賽:真實地點-斯洛伐克
第五輪比賽內(nèi)容:一張沒有任何特征的公路的圖片。

這張圖似乎要比上邊的四輪比賽的都稍微難度高一些。
Sam第一反應(yīng)這是歐洲的中部或者東部。
放大圖片后,他看到了幾個路標(biāo)——畫面的最左側(cè),以及道路最前方。
但是實在是模糊,很難確認(rèn),Sam最終的猜測結(jié)果確實離真實距離很遠(yuǎn),超過了336公里。

o3遇到了和人類相同的問題:放大后也看不清圖片中的內(nèi)容。

o3最終給出了他的猜測:斯洛伐克西南部農(nóng)村——多瑙河低地,在國家道路63上,沙莫林以東東南幾公里(≈ 48.03 N, 17.40 E)。
并且o3給出了很多的推理細(xì)節(jié)。

那最終結(jié)果呢?

這一次o3在面對信息量同樣很少的情況下,略微遜色于人類的直覺。
要知道Sam Patterson可是大師級的玩家,在這種競技類游戲中,直覺往往決定了勝負(fù)。
最終5輪過后人類Sam Patterson獲得了22054分。

而o3獲得了23179分,總分都是25000分。

最終的結(jié)果對比中能夠看到,o3有兩次幾乎取得了滿分。

在這場人類敗北的比賽中,值得人類唯一欣慰的就是,游戲花費時間!
Sam Patterson通常是需要花1-2分鐘,而o3往往需要數(shù)分鐘,最長的一次超過了6分鐘。
所以在速度方面,人類目前仍然占優(yōu)勢。
但要記住,這個優(yōu)勢是建立在o3只獲得了兩張截圖,而人類是可以360度查看圖片的(如同在導(dǎo)航APP中一樣)。
人類的心機:EXIF偽造
為了「打敗」AI,人類稍微耍了一個小小的心機。
Sam Patterson替換了真實圖像的元數(shù)據(jù),并應(yīng)用到截圖中。
沒想到,o3根本沒有提到EXIF數(shù)據(jù),而當(dāng)問到為何不參考EXIF的信息時,o3是這么回答的:
「你給我的數(shù)據(jù)和圖片中真實場景相差甚遠(yuǎn),不予考慮!」

o3似乎太聰明了!
不會輕易被偽造的GPS數(shù)據(jù)欺騙。
AI發(fā)現(xiàn)了數(shù)據(jù)和真實之間明顯的矛盾。
o3不僅僅查看元數(shù)據(jù),它還會審查圖像,而且它在這方面非常出色。
由此想到,推理模型的CoT是否真的存在?
從Sam Patterson的這5次比賽中,確實證明AI具有推理能力,而且這種能力不是什么「小把戲」。
不得不感嘆,跨模態(tài)AI的推理過程之縝密,幾乎挑不出毛病。
AI看圖猜地點事件始末
其實使用Geoguessr來檢驗AI的推理能力還可以往前追溯一些。
o3推出不久,Django Web大神Simon Wilson發(fā)現(xiàn),o3憑借調(diào)用Python代碼,就能破解照片的地理位置。
這個話題就像GPT-4o的原生圖像能力一樣引爆網(wǎng)絡(luò),因為太好玩了!

大家紛紛上傳自己的照片,讓o3猜一下這是哪里,沒想到o3基本上沒有怎么翻車!

本文的主人公,也就是Sam Patterson當(dāng)時也留言說自己是一名高水平的GeoGuessr玩家,很想和o3切磋一下。

他的留言還促使Simon Wilson專門寫了篇博客來介紹o3的這個能力。
不過這個帖子發(fā)出后,也引來一些同樣「高玩」的質(zhì)疑,畢竟是專業(yè)的:

Sam Patterson認(rèn)為這個判斷有幾分道理。
因為AI讀取圖片的EXIF信息很容易,并且Sam Patterson也分享了他的一個經(jīng)驗。
去年我參與了一個AI安全獎學(xué)金項目,我們的項目是創(chuàng)建一個基準(zhǔn),用于評估AI模型從圖像中進(jìn)行地理定位的性能。[這就是我開始迷上 Geoguessr 的地方!]
我們的第一次運行顯示的結(jié)果似乎好得令人難以置信;甚至那些糟糕的開源模型也能準(zhǔn)確猜中一些困難的位置,而且在小分辨率下也是如此。
結(jié)果證明,我們用于獲取圖像的管道在文件名中包含了位置數(shù)據(jù),而模型使用了這些信息。
不過,當(dāng)把主角換成o3之后,這種靠讀取EXIF來偽裝成「高手」的說法,就不一定能站得住腳了。
于是他決定讓AI真刀真槍進(jìn)行一場對決,對手就是Master I級別的Geoguessr玩家——Sam本人!
于是就有了以上的5輪比賽,并且以o3獲勝告終。
Geoguessr意外走紅,AI推理能力「試金石」
上面提到的GeoGuessr是一款風(fēng)靡全球的地理猜圖游戲:玩家根據(jù)街景照片猜測拍攝地點。
這考驗玩家的邏輯推理、知識儲備和地理測算等多種能力。
比如隨機給定一張圖片,你需要通過圖片的中文字、日光角度、建筑風(fēng)格和車輛的特征(比如車牌屬于哪個國家等)來判斷這是南半球還是北半球,這是南美還是中歐。

然后根據(jù)推理結(jié)果在地圖上打點確認(rèn)猜測結(jié)果,如果結(jié)果和真實位置離得越近,得分就越高。
比如上面我猜測結(jié)果和真實結(jié)果意大利相距很遠(yuǎn),得分只有91分。另一輪中,因為都在南美,得分就有1450分。


另外一點就是,選擇Geoguessr,也是因為Sam Patterson表示他有足夠的知識來判斷模型的能力,以及查看它輸出的思維鏈推理是否合理,還是只是胡說八道。
從ChatGPT早期版本的大模型到以DeepSeek-R1和OpenAI-o1/o3為代表的推理模型,AI發(fā)展超乎想象。
在推理模型誕生后,人們更多的是想知道AI是否真正具備像人一樣的推理能力?
Sam Patterson和o3的這5次比賽很能說明問題,至少這種跨模態(tài)的推理能力還沒有在除了推理模型以外的技術(shù)上被發(fā)現(xiàn)。
即使篡改了EXIF數(shù)據(jù)也不會誤導(dǎo)模型,AI依然會依靠跨模態(tài)的識別和判斷能力來完成推理。
正如Sam Patterson所說,無論你將此視為反烏托邦還是技術(shù)奇跡——或者兩者兼而有之——你都不能聲稱它只是個小把戲。
參考資料:
https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。







