編者按:本文來自微信公眾號 智能Pro(ID:zhinengpro),作者:大月亮,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
自從OpenAI公布了Sora,視頻生成領(lǐng)域正式按下了行業(yè)加速鍵,許多國內(nèi)外企業(yè)紛紛發(fā)力,不僅研究發(fā)布專門用于視頻生成的垂直大模型,還將手里的技術(shù)封裝成一個個人人能用的AIGC產(chǎn)品。
隨著新玩家數(shù)量的劇增,這場視頻生成領(lǐng)域的戰(zhàn)爭愈演愈烈,其中受到?jīng)_擊最大的自然是老牌同類競品模型,比如Pika、SDV、谷歌、Meta,還有在昨天發(fā)布了第三代視頻生成模型Gen-3 Alpha的Runway。
Gen-3很香,但你暫時用不了
Runway深夜發(fā)布的各種演示視頻展示出了電影級的畫面細節(jié),直接震驚了全體網(wǎng)友。Gen-3與之前的旗艦視頻模型Gen-2相比,在模型生產(chǎn)速度和保真度方面有了重大提升,同時對生成視頻的結(jié)構(gòu)、風(fēng)格和運動提供了細粒度的控制。
Runway表示,Gen-3 Alpha具有高保真視頻、精細動作控制、逼真人物生成、多模態(tài)輸入、專業(yè)創(chuàng)作工具、增強安全、高質(zhì)量訓(xùn)練等特點。在這次模型的訓(xùn)練過程中,匯集了研究者、工程師和藝術(shù)家的集體智慧和努力。正是這種跨學(xué)科的協(xié)作精神,使得Gen-3 Alpha模型能夠理解和表達多種風(fēng)格和電影概念。
官方展示視頻時長為10秒,人物生成中的人物面部細節(jié)和情感營造方面比較細膩,場景、風(fēng)景生成中的元素、光影沒有太大的違和感。友情提示,以下展示內(nèi)容因為要轉(zhuǎn)換為GIF,所以畫質(zhì)均有不同程度壓縮,想看原視頻的朋友可以去Runway官網(wǎng)復(fù)習(xí)下。
女子乘坐車輛穿過明暗交替的街道,外部光源照射在面部的變化十分自然,車外穿梭的車輛也沒有出現(xiàn)斷層等違和場景。

圖源:Runway
男子似乎在類似電影院的昏暗地方觀看影視作品,雙眼微紅、眼球轉(zhuǎn)動、眨眼以及嘴部輕微抽動等細節(jié)還原度非常高。

圖源:Runway
一間破舊的屋子,地面被魔法轉(zhuǎn)化成植物門,植物在陽光下隨風(fēng)飄揚,隨著鏡頭向前推進展現(xiàn)更多細節(jié)。
一團火焰漂浮半空,在街道游蕩,火焰細節(jié)明顯比其他元素要難掌握,邊緣有些飄忽,加上虛化背景上的人們也有滑行的動作,這個視頻算是暴露了Gen-3的缺點。

圖源:Runway
接下來是本人最喜歡的一個視頻,電影級別的鏡頭推進仿佛一下就將人們帶進了宏大的異世界,如果小雷沒有記錯的話,侏羅紀(jì)公園、金剛等電影經(jīng)常用這種鏡頭。鏡頭背景太廣,因此也不奢望能展示多少細節(jié),至少大體看上去沒發(fā)現(xiàn)什么瑕疵。

圖源:Runway
盡管大家看到基于Gen-3生成的短視頻都很激動,但還是得稍微冷靜冷靜,因為Runway暫時不提供Gen-3的使用。預(yù)計還要再過幾天,它才會向Runway訂閱用戶開放,包括企業(yè)客戶和Runway創(chuàng)意合作伙伴計劃中的創(chuàng)作者。
也就是說,普通用戶短時間內(nèi)還是無法使用Gen-3,只能用Gen-2解解饞。說起來,小雷還沒體驗過Runway的視頻生成模型,Gen-2就Gen-2吧,通過對比看看Gen-3的升級幅度是不是真有那么大。
體驗完Gen-2,我才明白Gen-3升級力度有多大
進入生成界面,小雷立馬感受到了Runway與視頻生成產(chǎn)品的不同。用戶不僅可以采用“傻瓜式”一鍵輸入關(guān)鍵詞生成,還能對主體運動強度、相機控制、運動軌跡、等細節(jié)進行微調(diào),至于風(fēng)格、縱橫比、清晰度也是標(biāo)配了。

圖源:Runway
但也有要強烈吐槽的地方,那就是視頻生成需要排隊,用戶要么等待,要么只能選擇升級訂閱套餐,也就是付費。小雷體驗過這么多國內(nèi)外視頻生成大模型應(yīng)用,這是我第一次遇到這種情況。

圖源:Runway
這是小雷生成的第一個視頻,生成4s的視頻花了大概2分鐘,原本想生成一個CGI風(fēng)格的荒原視頻,但這效果直接給我來了一記重?fù)?。看這個視頻時直接讓我想起了CS畫風(fēng),草叢“蠕動”異常難看,視頻中所有房子的屋頂均有不同程度的頻閃,給人一種置身異次元空間的感覺。

圖源:Runway
第二個視頻的關(guān)鍵詞是“臉上有雀斑的紅發(fā)年輕人注視窗外”,最終呈現(xiàn)結(jié)果大家看看就好,能感覺Gen-2在努力營造光線在人物面部漸變的層次感,然而效果并不自然,人物臉上的雀斑沒識別到,脖子被胡須侵襲成了蛇皮狀,人物想眨眼又眨不了的樣子一言難盡。

圖源:Runway
生成了兩個視頻后,小雷實在體驗不下去了,感覺Gen-2的水平還停留在2023年視頻生成模型剛出來的階段,與現(xiàn)在市面上其他視頻生成模型完全不在一個檔次上。無論是人物還是風(fēng)景,基于Gen-2生成視頻給人的最大感受就是不真實,也難怪Runway對Gen-3的描述是“巨大提升”。
體驗完Gen-2這個上代旗艦,小雷才真正感受到Gen-3的強大。不與其他視頻生成模型比較,Runway在超越自己這件事上就已經(jīng)贏了。
小雷注意到不少網(wǎng)友可能是拿到了內(nèi)測資格,在網(wǎng)上分享自己的試用作品,視頻效果與官方展示視頻大體相同,因此大家也不用擔(dān)心未來Gen-3公開版本“縮水”的情況。不過在Gen-3真正上線前,大家還是得耐心等待。
視頻生成模型競爭,進入加速階段
Runway成立于2018年,是國外一家在線視頻剪輯制作網(wǎng)站。團隊起初積極將AI技術(shù)運用到視頻處理中,開發(fā)了根據(jù)文本生成圖像、根據(jù)圖像生成風(fēng)格化變體、圖像延展外繪、根據(jù)文本生成 3D 貼圖紋理、視頻局部無損放大等功能,主要用于降低視頻創(chuàng)作的門檻,幫助人們輕松制作出內(nèi)容強大且富有創(chuàng)意的視頻內(nèi)容,這也為其接下來推出的文生視頻生成技術(shù)打下基礎(chǔ)。
Runway本次發(fā)布的第三代視頻生成模型Gen-3 Alpha,在官方公布視頻中的效果可以稱得上是驚艷。雖然不知道大規(guī)模運用后的效果如何,但就目前來說,個人認(rèn)為已經(jīng)超越了Sora。而且Sora自從今年2月發(fā)布以來,至今仍無法公開使用,給其他視頻生成模型留下了充足的追趕時間。
事實上,就在Sora發(fā)布的那個月,國內(nèi)文生視頻領(lǐng)域便已開始升溫。清華大學(xué)公布的文生視頻專利、中國首部文生視頻AI動畫片《千秋詩頌》播出、國內(nèi)首個音視頻多媒體大模型萬興“天幕”正式公測等國內(nèi)文生視頻成果,如雨后春筍般涌現(xiàn)。
近期,快手直接上線了可靈視頻生成大模型及可靈AI應(yīng)用,號稱第一個普通人也能用的文生視頻應(yīng)用。小雷受邀進行了內(nèi)測體驗,在視頻質(zhì)量上,雖然依舊無法徹底解決復(fù)雜交互情況下的物理規(guī)律難題,但作為面向普通用戶的免費大模型應(yīng)用,小雷認(rèn)為沒有太多可挑剔的地方,畢竟這個瑕疵是整個行業(yè)都暫時無法解決的。
Sora暫時“擱淺”,其他文生視頻的不斷涌現(xiàn),讓整個行業(yè)陷入前所未有的競爭格局,視頻生成領(lǐng)域正處于變革加速期。
據(jù)市場調(diào)研機構(gòu)Gartner研究預(yù)測,到2030年,預(yù)計人工智能將主導(dǎo)數(shù)字內(nèi)容的創(chuàng)造,占到總量的90%。根據(jù)預(yù)測,全球人工智能生成內(nèi)容(AIGC)的市場規(guī)模將從2022年的108億美元顯著增長,到2032年將達到1181億美元。
理想的市場預(yù)期大概率會催生更激烈的行業(yè)競爭,文生視頻下階段的競爭重點或許將圍繞落地應(yīng)用和商業(yè)化展開。越來越多企業(yè)把應(yīng)用和模型同步去做優(yōu)化、迭代,單一大模型的參數(shù)堆疊和技術(shù)提升已不再是大模型行業(yè)競爭的首要因素。
假如Sora一鴿再鴿,遲遲不推出落地應(yīng)用,前期積累的行業(yè)影響力恐怕只會為他人做嫁衣。
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。







