編者按:本文來自微信公眾號 機(jī)器之心(ID:almosthuman2014),編輯:編輯部,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
斯坦福大學(xué)教授李飛飛創(chuàng)業(yè)公司 World Labs 又推出了新成果!
上個(gè)月,World Labs 發(fā)布了空間智能模型 Marble,「只需一張圖片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼?!?/p>
就在今天,一個(gè)可以實(shí)時(shí)、持續(xù)運(yùn)行并保持 3D 一致性的生成式世界模型 RTFM 問世了,并且該模型在單個(gè) H100 GPU 上就能跑起來。
RTFM 的全稱為「Real-Time Frame Model」,即實(shí)時(shí)幀模型。

根據(jù)官方介紹,RTFM 并不會(huì)顯式地構(gòu)建世界的 3D 表示。相反,它以一張或多張 2D 圖像作為輸入,直接生成同一場景在不同視角下的全新 2D 圖像。
在技術(shù)上,RTFM 可以被視為一種學(xué)習(xí)型渲染器:它是一種端到端訓(xùn)練的自回歸擴(kuò)散 Transformer,基于大規(guī)模視頻數(shù)據(jù)進(jìn)行訓(xùn)練,最終僅通過觀察訓(xùn)練集中的樣本就學(xué)會(huì)了建模 3D 幾何、反射、陰影等特征。

另外,RTFM 還可以用于從稀疏拍攝的照片中重建真實(shí)世界的場景。

World Labs 團(tuán)隊(duì)認(rèn)為,生成式世界模型必然會(huì)對計(jì)算能力提出要求,甚至可能擴(kuò)展到超出當(dāng)今 LLM 的需求。但他們相信,生成式世界模型是未來渲染和空間智能領(lǐng)域至關(guān)重要的研究方向。
評論區(qū)的大家直呼不可思議。

接下來看 RTFM 的技術(shù)細(xì)節(jié)。
世界模型需要巨大的算力
世界模型能夠?qū)崟r(shí)重建、生成并模擬持久的、可交互的、物理上準(zhǔn)確的世界。
過去一年生成式視頻建模的突破,正逐漸延伸到生成式世界建模的領(lǐng)域。
但隨著技術(shù)的發(fā)展,有一點(diǎn)愈發(fā)清晰:生成式世界模型的計(jì)算需求將遠(yuǎn)超當(dāng)今的大語言模型。
舉例來說,生成一段 4K 分辨率、60 幀每秒的交互式視頻流,就需要每秒輸出超過 10 萬個(gè) token(相當(dāng)于《弗蘭肯斯坦》或《哈利?波特與魔法石》整本書的長度)。
而若要讓這些生成內(nèi)容在一小時(shí)以上的交互中保持一致性與持續(xù)性,模型需要處理超過一億個(gè) token 的上下文。
以今天的計(jì)算基礎(chǔ)設(shè)施來看,這既不可行,也不具經(jīng)濟(jì)可行性。
圖靈獎(jiǎng)得主 Rich Sutton 所著《苦澀的教訓(xùn)(The Bitter Lesson)》中談到:那些能隨著算力提升而優(yōu)雅擴(kuò)展的簡單方法,最終會(huì)在人工智能領(lǐng)域占據(jù)主導(dǎo)地位,因?yàn)樗鼈兡軌虺掷m(xù)受益于計(jì)算成本的指數(shù)級下降,而這種下降正是推動(dòng)整個(gè)科技進(jìn)步的核心力量。
生成式世界模型正好契合這一趨勢:它們將在計(jì)算成本持續(xù)降低的未來中充分受益。
這引出了一個(gè)自然的問題:生成式世界模型是否被當(dāng)今的硬件條件所限制?還是說,我們已經(jīng)有辦法在今天就提前預(yù)覽這項(xiàng)技術(shù)的雛形?
為了回答這一問題,團(tuán)隊(duì)從一個(gè)簡單的目標(biāo)出發(fā):設(shè)計(jì)出一個(gè)足夠高效、今天就可以部署的生成式世界模型,并且能夠隨著算力的增長持續(xù)擴(kuò)展。他們希望構(gòu)建一個(gè)可以在單張 H100 GPU 上運(yùn)行的模型,既能保持交互式的幀率,又能提供無論你與之互動(dòng)多長時(shí)間都能持續(xù)存在的世界體驗(yàn)。
可擴(kuò)展性:作為學(xué)習(xí)型渲染器的世界模型
傳統(tǒng)的 3D 圖形渲染使用顯式的三維表示(例如三角網(wǎng)格、高斯點(diǎn)云等)來建模世界,并通過渲染生成二維圖像。這類方法依賴人工設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)與算法,來模擬三維幾何、材質(zhì)、光照、陰影、反射等多個(gè)要素。幾十年來,它們一直是計(jì)算機(jī)圖形學(xué)的可靠主力技術(shù),但在擴(kuò)展數(shù)據(jù)量和算力方面卻并不容易。
RTFM 采用了完全不同的方法。它基于最近在生成式視頻建模方面的進(jìn)展,訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)模型,該模型輸入一個(gè)或多個(gè)場景的二維圖像,無需構(gòu)建任何顯式的三維表示,就能從新的視角生成該場景的二維圖像。RTFM 是一種自回歸擴(kuò)散式 Transformer 模型,作用于幀序列之上,端到端地在大規(guī)模視頻數(shù)據(jù)上訓(xùn)練,以預(yù)測在已有幀條件下的下一幀。
如前所述,RTFM 可以被視為一個(gè)學(xué)習(xí)型渲染器。它的輸入圖像被轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)的激活(KV 緩存),這些激活以隱式方式表示整個(gè)世界;在生成新幀時(shí),網(wǎng)絡(luò)通過注意力機(jī)制從這種表示中讀取信息,從而生成與輸入視角一致的新視圖。這一從輸入視圖轉(zhuǎn)換為世界表示、再從表示中渲染新圖像的機(jī)制,是通過數(shù)據(jù)端到端學(xué)習(xí)得到的,而非人工設(shè)計(jì)。RTFM 通過在訓(xùn)練中觀察諸如反射、陰影等復(fù)雜視覺效果,從而學(xué)會(huì)了對它們進(jìn)行建模。
通過將 RTFM 與 Marble 結(jié)合,可以從單幅圖像創(chuàng)建 3D 世界。RTFM 可以渲染復(fù)雜的效果,例如光照和反射,這些效果是通過端到端的數(shù)據(jù)學(xué)習(xí)而來的。

RTFM 模糊了重建和生成之間的界限,在傳統(tǒng)的計(jì)算機(jī)視覺領(lǐng)域,重建和生成是兩個(gè)不同的任務(wù)。RTFM 這項(xiàng)技術(shù) 打破了這兩者之間的界限。它不是分別處理重建和生成,而是用同一個(gè)模型同時(shí)處理這兩種情況:
當(dāng)輸入視角很多時(shí),RTFM 的任務(wù)變得容易 —— 因?yàn)榇蠖鄶?shù)信息都已有,它就更像是在做重建。
當(dāng)輸入視角很少時(shí),模型只能基于已有信息猜測出其他視角的內(nèi)容,行為更像是生成。

另外,現(xiàn)實(shí)世界的一個(gè)關(guān)鍵特性是持久性:當(dāng)你移開視線時(shí),世界不會(huì)憑空消失或完全改變;無論你離開多長時(shí)間,總是可以返回到之前到過的位置。
但對于自回歸幀生成模型來說,實(shí)現(xiàn)這一點(diǎn)是一大挑戰(zhàn)。因?yàn)槭澜缰煌ㄟ^一幀幀的二維圖像隱式表示,要實(shí)現(xiàn)持久性,模型必須在用戶探索過程中不斷推理和記憶越來越多的幀。這意味著每生成一幀所需的計(jì)算成本會(huì)不斷上升,最終模型所能記住的世界范圍將受限于其計(jì)算資源。
RTFM 通過為每一幀建模其在三維空間中的姿態(tài)(即位置和朝向),巧妙地繞過了這個(gè)問題。
配合上下文調(diào)度(context juggling)機(jī)制,RTFM 能夠在保持高效的同時(shí),在大場景中保留住幾何結(jié)構(gòu),實(shí)現(xiàn)真正意義上的世界持久性。

如果你還沒有嘗試過 RTFM,現(xiàn)在就去體驗(yàn)吧:https://rtfm.worldlabs.ai/
播客鏈接:https://www.worldlabs.ai/blog/rtfm
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。







