12月22日-23日,以“智能涌現(xiàn)·發(fā)現(xiàn)未來(lái)”為主題的網(wǎng)易未來(lái)大會(huì)在浙江杭州舉辦。在AGI 論壇“AI
三人行”圓桌對(duì)話上,南京大學(xué)智能科學(xué)與技術(shù)學(xué)院副教授易子立、「靈動(dòng)AI」創(chuàng)始人雷海波、AI 繪畫(huà)知名博主娜烏斯嘉三人,共同就《AI
生成視頻往何處去?》分享精彩觀點(diǎn),英諾天使基金合伙人王晟為本次對(duì)話主理人。
易子立首先教授表示,隨著AI
熱潮的來(lái)臨,很多企業(yè)已經(jīng)在嘗試使用AI工具,但文生圖、文生視頻的技術(shù)仍有待進(jìn)一步成熟。目前,AI生成視頻的主要技術(shù)路徑是擴(kuò)散模型,未來(lái)的趨勢(shì)有可能是歸回大模型訓(xùn)練的方式。國(guó)外在視頻生成底層技術(shù)方面具有一定的領(lǐng)先優(yōu)勢(shì),國(guó)內(nèi)在像2D
數(shù)字人、AI 社交這樣的細(xì)分應(yīng)用上表現(xiàn)更好。相信伴隨算力水平的提升和技術(shù)范式的革新,將來(lái)國(guó)內(nèi)有可能在某些方面超越國(guó)外。
「靈動(dòng)AI」 創(chuàng)始人雷海波
“「靈動(dòng)AI」是將生成式AI圖像技術(shù)應(yīng)用于營(yíng)銷設(shè)計(jì)端的創(chuàng)業(yè)企業(yè),我們過(guò)去20年一直在視覺(jué)設(shè)計(jì)和視覺(jué)影像行業(yè)探索”?!胳`動(dòng)AI」 創(chuàng)始人雷海波在談及視覺(jué)大模型話題時(shí)表示,過(guò)去做設(shè)計(jì)社區(qū)、媒體和設(shè)計(jì)平臺(tái),幾乎每天都與設(shè)計(jì)師、設(shè)計(jì)機(jī)構(gòu)打交道。據(jù)我所知,目前國(guó)內(nèi)一些頂尖藝術(shù)設(shè)計(jì)類高校,已在日常教學(xué)和設(shè)計(jì)項(xiàng)目中應(yīng)用了文生圖等大模型。因此,AI在生圖領(lǐng)域的能力毋庸置疑,但生成視頻,落地應(yīng)用可能還需要半年到1年的時(shí)間。
面對(duì)國(guó)內(nèi)大模型廠商為何競(jìng)爭(zhēng)不過(guò)國(guó)外的問(wèn)題。他直言,造成這一現(xiàn)象的原因,不僅僅是技術(shù)、算力、數(shù)據(jù)集方面的差距,從設(shè)計(jì)的維度來(lái)看,國(guó)內(nèi)廠商對(duì)美學(xué)理解還存在欠缺。事實(shí)上,當(dāng)下 Midjourney 生成圖的調(diào)性、氛圍、光影質(zhì)感,已經(jīng)遠(yuǎn)超越人類的表現(xiàn)。如果國(guó)內(nèi)大廠能做出類似 Midjourney 視覺(jué)模型,并結(jié)合高品質(zhì)的數(shù)據(jù)集,配合行業(yè)認(rèn)知和產(chǎn)業(yè)化落地能力,垂直應(yīng)用層面一定是有很大機(jī)會(huì)的。
被問(wèn)及「靈動(dòng)AI」的落地應(yīng)用場(chǎng)景,他回答的簡(jiǎn)單而直接,“我們主要是面向前綴場(chǎng)景,比如營(yíng)銷,特別是電商營(yíng)銷。過(guò)去,數(shù)億的商家和數(shù)十億的SKU(單款商品)的營(yíng)銷物料都是靠人工來(lái)實(shí)現(xiàn)的?,F(xiàn)在試想,如果上傳的商品信息既能在文字、圖像等模態(tài)上保持不變,又能夠與文字、圖片、視頻等模態(tài)模型實(shí)現(xiàn)很好的融合,從而為商家產(chǎn)出AI商品圖、海報(bào)、短視頻,甚至是3D交互內(nèi)容,這個(gè)市場(chǎng)需求是很大的。今年,「靈動(dòng)AI」主要發(fā)力點(diǎn)在文生圖、垂類模型的研發(fā)及探索行業(yè)應(yīng)用,但我們看到了文生圖、圖生視頻對(duì)創(chuàng)意生產(chǎn)力帶來(lái)的解放,更期待AI在3D領(lǐng)域的高質(zhì)量生成能力”。
作為AI領(lǐng)域的知識(shí)博主和模型訓(xùn)練師,娜烏斯嘉認(rèn)為,AI在視頻生成領(lǐng)域歸結(jié)為四類場(chǎng)景:原視頻風(fēng)格轉(zhuǎn)化、瞬息全宇宙、圖生視頻、場(chǎng)景轉(zhuǎn)換視頻。目前主要是廣告制作、預(yù)告片制作、推文和短視頻創(chuàng)作等領(lǐng)域嘗試較多。在圖片生成方面, AI 已能達(dá)到各種炫目的效果,但在視頻生成領(lǐng)域由于控制手段較少,表現(xiàn)力受到一定限制。例如:人物表情在視頻中的一致性不夠,容易出現(xiàn)“恐怖谷效應(yīng)”。她希望在視頻生成效果控制上,技術(shù)能夠做到更加精準(zhǔn)。但在AI的世界里,創(chuàng)造性的想法一定是大于技術(shù)。
英諾天使基金合伙人王晟
站在投資人的角度,王晟表示,目前生成式視頻的熱度非常高。今年,風(fēng)險(xiǎn)投資主要表現(xiàn)為兩端集中:一是資金端集中,只有部分VC敢于真正的出手;二是項(xiàng)目端集中,VC的資金主要投向了計(jì)算能力相關(guān)項(xiàng)目,如GPU、芯片、高速無(wú)損網(wǎng)絡(luò)、大模型等。明年,大家比較期待的是多模態(tài)模型領(lǐng)域,以及多模態(tài)能力的落地應(yīng)用。
當(dāng)然,AI作為一項(xiàng)智能技術(shù),需要全社會(huì)不斷地對(duì)它加深認(rèn)知,需要政府、科學(xué)家、企業(yè)、媒體、資本等共同參與,這樣才能促使其獲得更好的良性發(fā)展。
據(jù)悉,「靈動(dòng)AI」目前已上線近千個(gè)商品圖場(chǎng)景,初步形成AI工具矩陣。由于擁有特定風(fēng)格場(chǎng)景的LoRA模型,多個(gè)億級(jí)參數(shù)的專用AI模型以及智能審美評(píng)價(jià)系統(tǒng),在主體控制下,使生成商品圖呈現(xiàn)獨(dú)特的視覺(jué)特征和美學(xué)調(diào)性,從而為企業(yè)級(jí)用戶提供更好的服務(wù)。
相關(guān)稿件