吊打Sora？Runway全新視頻大模型發(fā)布：演示效果絕了

智能Pro·2024-06-20

視頻大模型畫餅?zāi)募覐?/div>

編者按：本文來自微信公眾號智能Pro（ID：zhinengpro），作者：大月亮，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

自從OpenAI公布了Sora，視頻生成領(lǐng)域正式按下了行業(yè)加速鍵，許多國內(nèi)外企業(yè)紛紛發(fā)力，不僅研究發(fā)布專門用于視頻生成的垂直大模型，還將手里的技術(shù)封裝成一個個人人能用的AIGC產(chǎn)品。

隨著新玩家數(shù)量的劇增，這場視頻生成領(lǐng)域的戰(zhàn)爭愈演愈烈，其中受到?jīng)_擊最大的自然是老牌同類競品模型，比如Pika、SDV、谷歌、Meta，還有在昨天發(fā)布了第三代視頻生成模型Gen-3 Alpha的Runway。

Gen-3很香，但你暫時用不了

Runway深夜發(fā)布的各種演示視頻展示出了電影級的畫面細節(jié)，直接震驚了全體網(wǎng)友。Gen-3與之前的旗艦視頻模型Gen-2相比，在模型生產(chǎn)速度和保真度方面有了重大提升，同時對生成視頻的結(jié)構(gòu)、風(fēng)格和運動提供了細粒度的控制。

Runway表示，Gen-3 Alpha具有高保真視頻、精細動作控制、逼真人物生成、多模態(tài)輸入、專業(yè)創(chuàng)作工具、增強安全、高質(zhì)量訓(xùn)練等特點。在這次模型的訓(xùn)練過程中，匯集了研究者、工程師和藝術(shù)家的集體智慧和努力。正是這種跨學(xué)科的協(xié)作精神，使得Gen-3 Alpha模型能夠理解和表達多種風(fēng)格和電影概念。

官方展示視頻時長為10秒，人物生成中的人物面部細節(jié)和情感營造方面比較細膩，場景、風(fēng)景生成中的元素、光影沒有太大的違和感。友情提示，以下展示內(nèi)容因為要轉(zhuǎn)換為GIF，所以畫質(zhì)均有不同程度壓縮，想看原視頻的朋友可以去Runway官網(wǎng)復(fù)習(xí)下。

女子乘坐車輛穿過明暗交替的街道，外部光源照射在面部的變化十分自然，車外穿梭的車輛也沒有出現(xiàn)斷層等違和場景。

圖源：Runway

男子似乎在類似電影院的昏暗地方觀看影視作品，雙眼微紅、眼球轉(zhuǎn)動、眨眼以及嘴部輕微抽動等細節(jié)還原度非常高。

圖源：Runway

一間破舊的屋子，地面被魔法轉(zhuǎn)化成植物門，植物在陽光下隨風(fēng)飄揚，隨著鏡頭向前推進展現(xiàn)更多細節(jié)。

一團火焰漂浮半空，在街道游蕩，火焰細節(jié)明顯比其他元素要難掌握，邊緣有些飄忽，加上虛化背景上的人們也有滑行的動作，這個視頻算是暴露了Gen-3的缺點。

圖源：Runway

接下來是本人最喜歡的一個視頻，電影級別的鏡頭推進仿佛一下就將人們帶進了宏大的異世界，如果小雷沒有記錯的話，侏羅紀(jì)公園、金剛等電影經(jīng)常用這種鏡頭。鏡頭背景太廣，因此也不奢望能展示多少細節(jié)，至少大體看上去沒發(fā)現(xiàn)什么瑕疵。

圖源：Runway

盡管大家看到基于Gen-3生成的短視頻都很激動，但還是得稍微冷靜冷靜，因為Runway暫時不提供Gen-3的使用。預(yù)計還要再過幾天，它才會向Runway訂閱用戶開放，包括企業(yè)客戶和Runway創(chuàng)意合作伙伴計劃中的創(chuàng)作者。

也就是說，普通用戶短時間內(nèi)還是無法使用Gen-3，只能用Gen-2解解饞。說起來，小雷還沒體驗過Runway的視頻生成模型，Gen-2就Gen-2吧，通過對比看看Gen-3的升級幅度是不是真有那么大。

體驗完Gen-2，我才明白Gen-3升級力度有多大

進入生成界面，小雷立馬感受到了Runway與視頻生成產(chǎn)品的不同。用戶不僅可以采用“傻瓜式”一鍵輸入關(guān)鍵詞生成，還能對主體運動強度、相機控制、運動軌跡、等細節(jié)進行微調(diào)，至于風(fēng)格、縱橫比、清晰度也是標(biāo)配了。

圖源：Runway

但也有要強烈吐槽的地方，那就是視頻生成需要排隊，用戶要么等待，要么只能選擇升級訂閱套餐，也就是付費。小雷體驗過這么多國內(nèi)外視頻生成大模型應(yīng)用，這是我第一次遇到這種情況。

圖源：Runway

這是小雷生成的第一個視頻，生成4s的視頻花了大概2分鐘，原本想生成一個CGI風(fēng)格的荒原視頻，但這效果直接給我來了一記重?fù)?。看這個視頻時直接讓我想起了CS畫風(fēng)，草叢“蠕動”異常難看，視頻中所有房子的屋頂均有不同程度的頻閃，給人一種置身異次元空間的感覺。

圖源：Runway

第二個視頻的關(guān)鍵詞是“臉上有雀斑的紅發(fā)年輕人注視窗外”，最終呈現(xiàn)結(jié)果大家看看就好，能感覺Gen-2在努力營造光線在人物面部漸變的層次感，然而效果并不自然，人物臉上的雀斑沒識別到，脖子被胡須侵襲成了蛇皮狀，人物想眨眼又眨不了的樣子一言難盡。

圖源：Runway

生成了兩個視頻后，小雷實在體驗不下去了，感覺Gen-2的水平還停留在2023年視頻生成模型剛出來的階段，與現(xiàn)在市面上其他視頻生成模型完全不在一個檔次上。無論是人物還是風(fēng)景，基于Gen-2生成視頻給人的最大感受就是不真實，也難怪Runway對Gen-3的描述是“巨大提升”。

體驗完Gen-2這個上代旗艦，小雷才真正感受到Gen-3的強大。不與其他視頻生成模型比較，Runway在超越自己這件事上就已經(jīng)贏了。

小雷注意到不少網(wǎng)友可能是拿到了內(nèi)測資格，在網(wǎng)上分享自己的試用作品，視頻效果與官方展示視頻大體相同，因此大家也不用擔(dān)心未來Gen-3公開版本“縮水”的情況。不過在Gen-3真正上線前，大家還是得耐心等待。

視頻生成模型競爭，進入加速階段

Runway成立于2018年，是國外一家在線視頻剪輯制作網(wǎng)站。團隊起初積極將AI技術(shù)運用到視頻處理中，開發(fā)了根據(jù)文本生成圖像、根據(jù)圖像生成風(fēng)格化變體、圖像延展外繪、根據(jù)文本生成 3D 貼圖紋理、視頻局部無損放大等功能，主要用于降低視頻創(chuàng)作的門檻，幫助人們輕松制作出內(nèi)容強大且富有創(chuàng)意的視頻內(nèi)容，這也為其接下來推出的文生視頻生成技術(shù)打下基礎(chǔ)。

Runway本次發(fā)布的第三代視頻生成模型Gen-3 Alpha，在官方公布視頻中的效果可以稱得上是驚艷。雖然不知道大規(guī)模運用后的效果如何，但就目前來說，個人認(rèn)為已經(jīng)超越了Sora。而且Sora自從今年2月發(fā)布以來，至今仍無法公開使用，給其他視頻生成模型留下了充足的追趕時間。

事實上，就在Sora發(fā)布的那個月，國內(nèi)文生視頻領(lǐng)域便已開始升溫。清華大學(xué)公布的文生視頻專利、中國首部文生視頻AI動畫片《千秋詩頌》播出、國內(nèi)首個音視頻多媒體大模型萬興“天幕”正式公測等國內(nèi)文生視頻成果，如雨后春筍般涌現(xiàn)。

近期，快手直接上線了可靈視頻生成大模型及可靈AI應(yīng)用，號稱第一個普通人也能用的文生視頻應(yīng)用。小雷受邀進行了內(nèi)測體驗，在視頻質(zhì)量上，雖然依舊無法徹底解決復(fù)雜交互情況下的物理規(guī)律難題，但作為面向普通用戶的免費大模型應(yīng)用，小雷認(rèn)為沒有太多可挑剔的地方，畢竟這個瑕疵是整個行業(yè)都暫時無法解決的。

Sora暫時“擱淺”，其他文生視頻的不斷涌現(xiàn)，讓整個行業(yè)陷入前所未有的競爭格局，視頻生成領(lǐng)域正處于變革加速期。

據(jù)市場調(diào)研機構(gòu)Gartner研究預(yù)測，到2030年，預(yù)計人工智能將主導(dǎo)數(shù)字內(nèi)容的創(chuàng)造，占到總量的90%。根據(jù)預(yù)測，全球人工智能生成內(nèi)容（AIGC）的市場規(guī)模將從2022年的108億美元顯著增長，到2032年將達到1181億美元。

理想的市場預(yù)期大概率會催生更激烈的行業(yè)競爭，文生視頻下階段的競爭重點或許將圍繞落地應(yīng)用和商業(yè)化展開。越來越多企業(yè)把應(yīng)用和模型同步去做優(yōu)化、迭代，單一大模型的參數(shù)堆疊和技術(shù)提升已不再是大模型行業(yè)競爭的首要因素。

假如Sora一鴿再鴿，遲遲不推出落地應(yīng)用，前期積累的行業(yè)影響力恐怕只會為他人做嫁衣。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。