編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),編輯:Aeneas 好困,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
昨天剛剛被曝出AGI五級(jí)路線圖,今天OpenAI的新項(xiàng)目Strawberry也被曝出了。
不過,大家其實(shí)對(duì)它都很熟悉——就是曾經(jīng)的Q*。
聽聞消息的馬斯克,也補(bǔ)上這么一句評(píng)論——「以前的說法是,AI末日是回形針災(zāi)難,沒想到是永遠(yuǎn)的草莓田?!?/p>

根據(jù)路透社在5月份看到的內(nèi)部文件,OpenAI團(tuán)隊(duì)正在全力研究Strawberry項(xiàng)目。
Strawberry具體是如何運(yùn)作,即使在OpenAI內(nèi)部也是高度保密的。
因此,何時(shí)公開發(fā)布,時(shí)間也是未知。

從AGI五級(jí)路線圖來看,具有推理能力還能自主可靠瀏覽網(wǎng)頁的Strawberry,可能已經(jīng)到了L2的級(jí)別
而就在本周,OpenAI剛在內(nèi)部會(huì)議上展示了某個(gè)demo,據(jù)稱推理能力接近人類水平。
結(jié)合路線圖的曝光,一切都太巧了。
對(duì)此,網(wǎng)友們紛紛猜測(cè),OpenAI一定還在憋個(gè)大的。
顯著提高AI模型的推理能力
文件顯示,Strawberry模型的目的,是為了使公司的AI不僅能生成查詢答案,還能提前計(jì)劃,足夠自主且可靠地瀏覽互聯(lián)網(wǎng),進(jìn)行OpenAI所稱的「深度研究」。
而這個(gè)目標(biāo),根據(jù)對(duì)十多位AI研究人員的采訪,目前尚未有任何AI模型實(shí)現(xiàn)。
路透社表示,Strawberry就是去年的Q*,后者在OpenAI內(nèi)部已經(jīng)實(shí)現(xiàn)突破。

當(dāng)被問詢到Strawberry的更多細(xì)節(jié)時(shí),OpenAI發(fā)言人表示——
我們希望我們的AI模型能像我們一樣看待和理解世界。對(duì)新AI能力的持續(xù)研究是行業(yè)中的常見做法,大家普遍相信,這些系統(tǒng)的推理能力會(huì)隨著時(shí)間的推移而改善。
知情人士表示,OpenAI希望Strawberry的創(chuàng)新能顯著提高其AI模型的推理能力,并補(bǔ)充說,Strawberry涉及了一種AI模型在經(jīng)過非常大的數(shù)據(jù)集預(yù)訓(xùn)練后的一種特殊處理方式。
而路透社采訪的研究人員表示,推理是AI達(dá)到人類或超人類智能的關(guān)鍵。
雖然LLM可以飛速總結(jié)密集文本、撰寫優(yōu)美文章,但在解決對(duì)人類很直觀的常識(shí)性問題時(shí),如識(shí)別邏輯謬誤和玩井字棋時(shí),表現(xiàn)并不佳,常常出現(xiàn)幻覺。
研究者表示,在AI背景下的推理,就需要一個(gè)模型讓AI能提前計(jì)劃,反映物理世界的運(yùn)作,并且可靠地解決復(fù)雜的多步驟問題。
改進(jìn)AI模型的推理能力,被認(rèn)為是解鎖這些模型潛力的關(guān)鍵。有了推理能力,模型在進(jìn)行重大科學(xué)發(fā)現(xiàn)、規(guī)劃構(gòu)建新的軟件應(yīng)用上,都會(huì)有可觀的提升。
Sam Altman此前也曾表示,今后AI領(lǐng)域最重要的進(jìn)展,將「圍繞推理能力展開」。
而其他巨頭,如谷歌、Meta、微軟等,都在嘗試不同技術(shù),來改進(jìn)AI模型的推理能力。
沿著目前的路線,有可能實(shí)現(xiàn)讓LLM將想法和長期規(guī)劃納入其預(yù)測(cè)方式嗎?圖靈三巨頭之一的LeCun對(duì)此持唱衰態(tài)度。
他堅(jiān)決認(rèn)為,LLM不具備類人的推理能力。

后訓(xùn)練,能讓LLM學(xué)會(huì)推理嗎
要克服這些挑戰(zhàn),對(duì)OpenAI來說Strawberry就是關(guān)鍵。最近幾個(gè)月,OpenAI曾私下向開發(fā)者和外部人士暗示過,即將發(fā)布具有顯著先進(jìn)推理能力的技術(shù)。
據(jù)悉,Strawberry包括一種被稱為「后訓(xùn)練」的特殊方法,即在OpenAI的生成式AI模型已經(jīng)在大量通用數(shù)據(jù)上「訓(xùn)練」后,調(diào)整基礎(chǔ)模型以特定方式優(yōu)化其性能。
模型開發(fā)的后訓(xùn)練階段涉及「微調(diào)」等方法,這一過程幾乎如今所有的LLM都在用,比如RLHF。
知情人士表示,Strawberry類似于斯坦福大學(xué)在2022年開發(fā)的一種方法——「自我教導(dǎo)推理者」(Self-Taught Reasoner,簡(jiǎn)稱STaR)。

論文地址:https://arxiv.org/abs/2203.14465
論文作者之一,斯坦福教授Noah Goodman表示,STaR使AI模型能夠通過迭代創(chuàng)建自己的訓(xùn)練數(shù)據(jù),來「自我提升」到更高的智能水平。
理論上,可以讓語言模型實(shí)現(xiàn)超越人類水平的智能。

結(jié)果顯示,在算術(shù)、數(shù)學(xué)文字題和常識(shí)推理中,STaR能夠有效地將少量的少樣本提示轉(zhuǎn)化為大量的推理數(shù)據(jù)集,從而顯著提升性能。在CommonsenseQA上,STaR比少樣本基線提高了35.9%,比直接預(yù)測(cè)答案的微調(diào)基線提高了12.5%,其表現(xiàn)與一個(gè)大30倍的微調(diào)模型相當(dāng)(72.5%對(duì)73.0%)。
另一項(xiàng)OpenAI希望讓Strawberry具備的能力之一,是執(zhí)行長時(shí)間任務(wù)(LHT),這指的是需要模型提前計(jì)劃,并在較長時(shí)間內(nèi)執(zhí)行一系列動(dòng)作的復(fù)雜任務(wù)。
文件顯示,為了實(shí)現(xiàn)這一目標(biāo),OpenAI正在創(chuàng)建、訓(xùn)練和評(píng)估被稱為「深度研究」數(shù)據(jù)集的模型。
OpenAI非常希望模型能夠利用這些能力,通過一個(gè)稱為「CUA」的計(jì)算機(jī)使用Agent來自主瀏覽網(wǎng)絡(luò),并根據(jù)其發(fā)現(xiàn)采取行動(dòng)來進(jìn)行研究。
此外,OpenAI還計(jì)劃測(cè)試其在軟件和機(jī)器學(xué)習(xí)工程師工作中的應(yīng)用能力。
神秘項(xiàng)目疑似Strawberry加持
就在2024年7月初的一次全員會(huì)議上,OpenAI內(nèi)部曾對(duì)一個(gè)神秘研究項(xiàng)目做了展示。
據(jù)稱,它所展現(xiàn)出的推理能力,已經(jīng)達(dá)到了類人的水平。
結(jié)合前文的信息,路透懷疑這可能與Strawberry有關(guān),但目前還無法確定。
而同一時(shí)間曝光出的這張通往AGI的路線圖,似乎也印證了OpenAI即將會(huì)有新的進(jìn)展。

可以看到,OpenAI將最終抵達(dá)AGI終點(diǎn),劃分了五大等級(jí):
L1:聊天機(jī)器人,具有對(duì)話能力的AI。
L2:推理者,像人類一樣能夠解決問題的AI。
L3:智能體,不僅能思考,還可以采取行動(dòng)的AI系統(tǒng)。
L4:創(chuàng)新者,能夠協(xié)助發(fā)明創(chuàng)造的AI。
L5:組織者,可以完成組織工作的AI。
OpenAI表示,我們目前正處在第一級(jí)別,不過很快會(huì)達(dá)到第二個(gè)級(jí)別,即推理者。
所謂推理者,也就是指可以解決博士水平的基本問題的系統(tǒng)。
OpenAI CTO曾透露,OpenAI接下來將致力于研究在特定任務(wù)上博士級(jí)別的智能,也許就在一年或一年半之后實(shí)現(xiàn)。
也就是說,我們還有18月的時(shí)間,即將看到級(jí)別二的下一代模型。

Q*重出江湖
2023年11月,OpenAI的神秘Q*項(xiàng)目,引爆整個(gè)AI社區(qū)。
泄露出來的信息,Q*的能力,是能夠解決小學(xué)階段的數(shù)學(xué)問題。
雖然在大多數(shù)人看來,這并不是什么令人印象深刻的事,但這的確是朝向AGI邁出的一大步,堪稱重要的技術(shù)里程碑。
因?yàn)镼*解決的,是以前從未見過的數(shù)學(xué)題。
Ilya做出的突破,使OpenAI不再受限于獲取足夠的高質(zhì)量數(shù)據(jù)來訓(xùn)練新模型,而這,正是開發(fā)下一代模型的主要障礙。
那幾周內(nèi),Q*的演示一直在OpenAI內(nèi)部流傳,所有人都很震驚。

據(jù)悉,OpenAI的一些人認(rèn)為Q*可能是OpenAI在AGI上取得的一個(gè)突破。AGI的定義是:「在最具經(jīng)濟(jì)價(jià)值的任務(wù)中,超越人類的自主系統(tǒng)」
所以,Q*究竟是啥呢?
這要從一項(xiàng)1992年的技術(shù)Q-learning說起。
簡(jiǎn)單來說,Q-learning是一種無模型的強(qiáng)化學(xué)習(xí)算法,旨在學(xué)習(xí)特定狀態(tài)下某個(gè)動(dòng)作的價(jià)值。其最終目標(biāo)是找到最佳策略,即在每個(gè)狀態(tài)下采取最佳動(dòng)作,以最大化隨時(shí)間累積的獎(jiǎng)勵(lì)。
斯坦福博士Silas Alberti由此猜測(cè),Q*很可能是基于AlphaGo式蒙特卡羅樹搜索token軌跡。下一個(gè)合乎邏輯的步驟是以更有原則的方式搜索token樹。這在編碼和數(shù)學(xué)等環(huán)境中尤為合理。

隨著幾位AI大佬的下場(chǎng),大家的觀點(diǎn),愈發(fā)不謀而合了。
AI2研究科學(xué)家Nathan激動(dòng)地寫出一篇長文,猜測(cè)Q假說應(yīng)該是關(guān)于思想樹+過程獎(jiǎng)勵(lì)模型。并且認(rèn)為Q*假說很可能和世界模型有關(guān)!


文章地址:https://www.interconnects.ai/p/q-star
他猜測(cè),如果Q*(Q-Star)是真的,那么它顯然是RL文獻(xiàn)中的兩個(gè)核心主題的合成:Q值和A*(一種經(jīng)典的圖搜索算法)。

A*算法的一個(gè)例子
GPT-4o放出新演示
話說,OpenAI最近似乎沒有多大動(dòng)靜了。
最近的技術(shù)進(jìn)步,我們可以從OpenAI開發(fā)者體驗(yàn)主管Romain Huet在舊金山人工智能工程師世界博覽會(huì)上的分享中感受一下。
這些分享主要是產(chǎn)品演示,包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine(未發(fā)布),
雖然示例有所不同,但用到的模型能力,與5月份在巴黎VivaTech活動(dòng)上所展示的基本一致。

在這個(gè)演示中,主管讓GPT-4o表演了多種語調(diào),比如激情四射版、悄悄話版等。
GPT-4o可以即時(shí)聽懂Huet的命令,立馬做出正確的反應(yīng),在場(chǎng)觀眾給出歡呼。
,時(shí)長02:01
接下來,Huet向ChatGPT出示了金門大橋的手繪圖,讓它猜猜自己在哪里。
ChatGPT馬上猜出來這是哪個(gè)大橋,并說出Huet在舊金山,還認(rèn)出了他在紙上的手寫字——「Bonjour Developer」!
隨后,Huet又迅速給了它一堆任務(wù),比如認(rèn)出查理芒格的書,隨機(jī)翻一頁后迅速總結(jié)書頁大意等等,ChatGPT沒有任何遲疑,迅速給出了正確答案,效率令人驚嘆。
,時(shí)長02:14
下一步,Huet把prompt發(fā)給Sora,Sora立馬就生成的符合要求的視頻——自然紀(jì)錄片風(fēng)格的叢林中的樹蛙。
美麗的自然紀(jì)錄片中,一個(gè)極近特寫鏡頭拍攝了一只五彩繽紛的樹蛙在霧氣彌漫的濃密叢林中攀爬樹枝和樹葉,拍攝時(shí)間為白天。使用35mm膠片進(jìn)行遠(yuǎn)攝,并帶有景深效果。
,時(shí)長00:36
隨后,Huet從視頻中提取了6幀,然后把這6幀發(fā)給了GPT-4o Vision,讓它描述自己看到了什么。
很快,一段內(nèi)容詳實(shí)的故事就被創(chuàng)作了出來:
在霧氣彌漫的濃密森林深處,一只色彩斑斕的青蛙小心翼翼地沿著覆蓋苔蘚的樹枝前行。它明亮的綠色身體上點(diǎn)綴著醒目的黑黃圖案,在茂密的植被中顯得格外顯眼。
在這條危險(xiǎn)的路徑上,青蛙保持警覺。每一步都很慎重,粘性的腳趾牢牢抓住粗糙的樹皮。樹枝輕輕搖晃,顯示出它精妙的平衡感。
到達(dá)樹枝的邊緣時(shí),青蛙評(píng)估著前方的空隙。突然,它爆發(fā)出一股能量,躍了過去。但就在后腿推離時(shí),腳滑了一下。短暫地懸在空中,青蛙笨拙但安全地落回樹枝上。
盡管有些失誤,這只堅(jiān)韌的兩棲動(dòng)物重新站穩(wěn)了腳跟,展示了野生環(huán)境中生命的頑強(qiáng)。它毫不氣餒,準(zhǔn)備進(jìn)行下一次跳躍,堅(jiān)定不移。
最后,Huet展示了voice engine的神奇功能。
他先錄了一段自己的語音,然后把剛才Sora生成的樹蛙視頻發(fā)給voice engine,下一秒,上面那段樹蛙視頻的長故事,就用他的聲音被讀了出來!觀眾們掌聲雷動(dòng)。
然后,這段故事又被Voice Engine用法語、日語重新讀了一遍(感覺翻譯的淘汰又近了一步)。
在產(chǎn)品層面,OpenAI已經(jīng)做到了如此先進(jìn)的地步,如果再加上Strawberry的推理能力,OpenAI離AGI的實(shí)現(xiàn),恐怕是要很近了。
參考資料:
https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
https://www.youtube.com/watch?v=yJHw33cVeHo
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。







