“追趕”O(jiān)penAI的中國(guó)公司們,步子邁得越來(lái)越大了。
6月6日,快手發(fā)布了AI視頻生成模型“可靈”,視頻生成時(shí)長(zhǎng)直接趕超Sora達(dá)到了120秒,且已在快影App中對(duì)創(chuàng)作者開放邀測(cè)。過(guò)去幾天中,一些自稱獲得測(cè)試資格的博主po出了他們使用“可靈”直出的AI視頻,一直不太高調(diào)的快手AI在海內(nèi)外社交媒體迅速出圈。
X博主發(fā)布的帶有“可靈”水印的視頻
在Sora剛剛推出的時(shí)候,其生成的視頻時(shí)長(zhǎng)和效果被一些創(chuàng)作者認(rèn)為非常適合短視頻創(chuàng)作,很可能會(huì)給今天的短視頻行業(yè)帶來(lái)顛覆,還引發(fā)了“Sora殺死剪映”的熱議。
如今,Sora尚未對(duì)剪映出手,但抖音的老對(duì)手快手卻正在借助“可靈”在AI視頻生成賽道給快影上提速。對(duì)于5月中旬剛剛推銷過(guò)一波AI大模型產(chǎn)品的抖音集團(tuán)而言,與快手的戰(zhàn)火正在燒向AI。
內(nèi)容之爭(zhēng)是根本
在Sora對(duì)標(biāo)大戰(zhàn)中,快手發(fā)力AI的戰(zhàn)術(shù)目標(biāo),更像是要繞到對(duì)手身后圍繞“內(nèi)容創(chuàng)作者資源”展開一場(chǎng)“偷襲”。
說(shuō)到短視頻平臺(tái)對(duì)AI視頻生成技術(shù)上的關(guān)注,就不得不分析一下AI生成的視頻內(nèi)容,對(duì)于用戶的價(jià)值,以及這些內(nèi)容對(duì)用戶的影響心智。
“Sora類模型生成的內(nèi)容*的問(wèn)題是‘聽起來(lái)很酷’。”AI類視頻創(chuàng)作者阿達(dá)(化名)告訴虎嗅,粉絲需要的是有新鮮感或者有情緒價(jià)值、內(nèi)容價(jià)值的視頻,Sora類視頻的特點(diǎn)是“逼真”,但只是模仿真實(shí)世界的AI視頻,不管是開汽車還是東京漫步,對(duì)于用戶來(lái)說(shuō)基本上提供不了任何價(jià)值,而新鮮感也會(huì)很快淡化。
“你*次刷到AI視頻,一個(gè)老虎邁著有點(diǎn)畸形的步伐往前走,你可能覺(jué)得有趣。但你刷到第二條類似內(nèi)容時(shí)大概率就不會(huì)停留了?!卑⑦_(dá)認(rèn)為,有那么多有趣的“真”視頻,用戶為什么要花時(shí)間去看AI生成的“假”視頻。
“可靈”生成的AI視頻
很多短視頻平臺(tái)對(duì)AI視頻的態(tài)度亦是如此——從用戶視角去判斷價(jià)值。
多位AI視頻和數(shù)字人內(nèi)容創(chuàng)作者對(duì)虎嗅表示,有些視頻平臺(tái)似乎不鼓勵(lì)A(yù)I合成內(nèi)容,這類視頻分到的流量不多,有的甚至?xí)幌蘖鳌?/p>
除此之外,AI內(nèi)容的真實(shí)、安全性亦是平臺(tái)要考慮的問(wèn)題。AI換臉、造假,以及各種深度偽造的詐騙案件屢見不鮮,如果大量逼真的AI合成視頻涌入平臺(tái),很可能會(huì)給視頻平臺(tái)帶來(lái)更大的甄別壓力。目前,各大內(nèi)容平臺(tái)都有相關(guān)限制,AI生成內(nèi)容均會(huì)標(biāo)注“作品疑似AI合成,請(qǐng)謹(jǐn)慎甄別”。
不過(guò),對(duì)于快手來(lái)說(shuō),AI視頻模型的價(jià)值可能并不在用戶側(cè)。
多年以來(lái),快手一直試圖調(diào)整自己與抖音在用戶畫像上的差異,并適度淡化“下沉”標(biāo)簽,而這就意味著快手需要豐富“內(nèi)容供給”,擴(kuò)大內(nèi)容種類、風(fēng)格,而關(guān)鍵資源正是創(chuàng)作者。目前來(lái)看,在快影當(dāng)中提供AI生成視頻功能,很可能是吸引優(yōu)秀創(chuàng)作者的一個(gè)好方法。
截至發(fā)稿,快影App中顯示的“可靈”內(nèi)測(cè)申請(qǐng)人數(shù)已超40000。據(jù)虎嗅了解,其中相當(dāng)多的申請(qǐng)者是創(chuàng)作者和創(chuàng)作團(tuán)隊(duì)。從目前來(lái)看,“可靈”無(wú)疑是給快影做了一波大營(yíng)銷。
此外,AI視頻生成功能還能拉攏更多“新生”的創(chuàng)作者力量。
某MCN機(jī)構(gòu)負(fù)責(zé)人告訴虎嗅,從過(guò)去一年短視頻平臺(tái)的熱點(diǎn)內(nèi)容看,未來(lái)一段時(shí)間里平臺(tái)對(duì)高質(zhì)量?jī)?nèi)容的判斷大概會(huì)聚焦在以下方面:能夠引起廣泛用戶參與、與文化自信和教育相關(guān)、具有社會(huì)責(zé)任感、提供實(shí)用信息、娛樂(lè)性強(qiáng)、能夠激發(fā)UGC創(chuàng)作,以及能夠建立個(gè)人品牌和影響力。
AI視頻生成功能簡(jiǎn)化了視頻制作流程,在“引起廣泛用戶參與、激發(fā)UGC創(chuàng)作”這兩方面能起到積極作用。對(duì)于創(chuàng)作者來(lái)說(shuō),一方面能夠幫助傳統(tǒng)圖文創(chuàng)作者基于已有內(nèi)容做視頻創(chuàng)作,加速內(nèi)容遷移。另一方面也可以降低普通用戶參與視頻創(chuàng)作的門檻。
在短視頻之爭(zhēng)中,其他短視頻平臺(tái)玩家似乎也關(guān)注到了AI視頻的創(chuàng)作者邏輯,正在持續(xù)加碼AI視頻模型。
5月中旬召開的騰訊云產(chǎn)業(yè)峰會(huì)上,騰訊首次公布了混元的16秒視頻生成能力,并提出2-3個(gè)月內(nèi)開放文生視頻API接口的計(jì)劃,以及2024年第三季度視頻生成時(shí)長(zhǎng)突破30秒的目標(biāo)(在騰訊云的一次媒體溝通會(huì)中,混元大模型相關(guān)負(fù)責(zé)人曾表示年內(nèi)可以達(dá)到60秒)。
相比抖音和快手,視頻號(hào)的優(yōu)勢(shì)是龐大的用戶規(guī)模,眼下的短板之一則是內(nèi)容供給豐富度,然而視頻號(hào)在內(nèi)容廣度和深度方面仍與抖音和快手存在明顯差距。短視頻和直播平臺(tái)的內(nèi)容質(zhì)量對(duì)培養(yǎng)用戶習(xí)慣和增加使用時(shí)長(zhǎng)至關(guān)重要,同時(shí)龐大的內(nèi)容庫(kù)也是平臺(tái)變現(xiàn)的基礎(chǔ)。
如此看來(lái),視頻號(hào)遇到的挑戰(zhàn)和機(jī)會(huì)似乎與快手暗合,都是要加速吸引站外創(chuàng)作者來(lái)豐富內(nèi)容生態(tài),并促進(jìn)現(xiàn)有優(yōu)質(zhì)圖文創(chuàng)作者向視頻遷移。
AI競(jìng)賽中的成本思考
過(guò)去一年多時(shí)間里,抖快在AI領(lǐng)域的“軍備大賽”有日漸升溫趨勢(shì)。
抖音集團(tuán)關(guān)于AI的動(dòng)作和傳聞一直沒(méi)斷過(guò),從10億美元購(gòu)買GPU,到利用API“扒“ChatGPT數(shù)據(jù),再到豆包在國(guó)內(nèi)AI應(yīng)用榜奪冠,抖音集團(tuán)一直是AI行業(yè)里低調(diào)的明星。反觀快手,在生成式AI方面的動(dòng)作卻似乎不多,*自研大模型“快意”直到2023年底,才加入到第三批網(wǎng)信辦大模型備案。
在AI視頻方面,抖音集團(tuán)雖然沒(méi)有Sora類的強(qiáng)大AI視頻生成模型,但也發(fā)布了PixelDance、MagicVideo、AnimateDiff-Lightning等視頻模型,目前抖音集團(tuán)也有專門的AIGC產(chǎn)品即夢(mèng)(Dreamina),可以完成一些短視頻生成功能。
除了AI模型和產(chǎn)品方面的研究,抖音集團(tuán)在基礎(chǔ)設(shè)施方面投入巨大。在前面提到的10億美金采購(gòu)GPU傳聞外,抖音集團(tuán)旗下的火山引擎,在當(dāng)下的國(guó)產(chǎn)大模型價(jià)格戰(zhàn)中,亦是“打響*槍”的廠商??焓值脑苹A(chǔ)設(shè)施關(guān)注范圍則相對(duì)較小,以音視頻和AI領(lǐng)域?yàn)橹鳌?/p>
在AI視頻方面,快手的進(jìn)程也不高調(diào),但并非風(fēng)平浪靜。2024年5月初,快手專家研究員王鑫濤曾在一次學(xué)術(shù)會(huì)議中做過(guò)一次題為《視頻生成的初探及可控性研究》的分享,其中就提到了快手的視頻生成方案Tune-A-Video。
技術(shù)tips:
Tune-A-Video的關(guān)鍵是“時(shí)空自注意力機(jī)制”。這種技術(shù)可以結(jié)合空間(圖像)和時(shí)間(視頻幀序列)上的信息,以提高視頻生成和處理的效果。假設(shè)視頻內(nèi)容是一只小狗在草地上跑。時(shí)空自注意力機(jī)制的工作過(guò)程是:
空間自注意力會(huì)分析每一幀中小狗身體的各個(gè)部分,例如頭、腿、尾巴之間的關(guān)系。
時(shí)間自注意力會(huì)關(guān)注每一幀中小狗的位置和姿勢(shì)變化,確保小狗在跑步的過(guò)程中動(dòng)作是連貫的,不會(huì)出現(xiàn)瞬間移動(dòng)或姿勢(shì)不連貫的現(xiàn)象。
綜合考慮這些信息后,模型能夠生成一個(gè)流暢、自然的跑步小狗的視頻,即使用戶修改了小狗的顏色或背景場(chǎng)景,生成的視頻仍能保持運(yùn)動(dòng)的一致性和視覺(jué)上的連貫性。
技術(shù)之爭(zhēng)的背后,一定潛藏著對(duì)未來(lái)商業(yè)化的謀篇布局。然而AI技術(shù)如何商業(yè)化,目前仍是短視頻以及很多行業(yè)討論的核心問(wèn)題之一。
AI視頻模型要商業(yè)化至少需要解決兩個(gè)問(wèn)題,*是技術(shù)層面的視頻生成質(zhì)量和效率,第二是成本。
從Runway、Pika等AI公司的3、4秒視頻模型,到OpenAI推出Sora,很多業(yè)內(nèi)人士也沒(méi)想到技術(shù)發(fā)展會(huì)如此之快。Sora之后,各家AI公司的追趕速度更是令人咋舌。
“AI生成視頻的質(zhì)量可能不會(huì)長(zhǎng)期困擾行業(yè),但成本問(wèn)題很難解決?!币晃魂P(guān)注AI視頻的投資人告訴虎嗅,視頻模型的算力需求比語(yǔ)言模型大很多,優(yōu)化的難度也更高。“從ChatGPT和Sora的開放程度就能看出來(lái),ChatGPT可以開放給億級(jí)用戶,而Sora至今只有少數(shù)人試過(guò)。”
主流猜測(cè)認(rèn)為Sora模型參數(shù)量約為30億,其訓(xùn)練數(shù)據(jù)可能包括過(guò)去五年的YouTube所有視頻。投資機(jī)構(gòu)Factorial Funds發(fā)表的一篇博文分析認(rèn)為,Sora模型的一次訓(xùn)練大概需要4200~10500塊英偉達(dá)H100 GPU 訓(xùn)練1個(gè)月。
30億參數(shù)相比于GPT-4的1.8萬(wàn)億參數(shù),訓(xùn)練成本會(huì)低很多。然而視頻模型與語(yǔ)言模型相比,更大的開支在推理端。
舉個(gè)例子,要生成一個(gè)2分鐘的視頻,在不考慮視頻的連貫性和時(shí)空一致性的情況下,把AI視頻拆成一幀一幀的圖片。
按照某國(guó)內(nèi)AI公司最近公布的AI圖片生成*折扣價(jià)算,生成1張圖片的價(jià)格*0.06元,1秒25幀,花費(fèi)1.5元,120秒的視頻成本為180元。
以快手開啟的“可靈“邀測(cè)為例,假設(shè)“可靈”上線后3天內(nèi)的內(nèi)測(cè)申請(qǐng)者全部通過(guò),每人每天試驗(yàn)20分鐘視頻,則每天的測(cè)試開銷約7200萬(wàn)元。快手2024Q1期內(nèi)利潤(rùn)41億元,如果要滿足全部“可靈”測(cè)試需求的話,2個(gè)月可能就要面臨虧損了。
“可靈”內(nèi)測(cè)申請(qǐng)?zhí)峤煌ㄖ?/p>
這還只是按生成單張圖片計(jì)算的價(jià)格,如果要保證這25幀圖片連續(xù)一致,價(jià)格會(huì)成倍上漲。一位AI視頻模型開發(fā)者告訴虎嗅,AI視頻生成的難點(diǎn)在于保持多個(gè)圖片的一致性,相比于普通的AI圖片生成,算力消耗和成本會(huì)大幅提升。
現(xiàn)階段要大規(guī)模實(shí)現(xiàn)AI視頻生成的商業(yè)化落地,推理成本更是天文數(shù)字。
Factorial Funds在Sora分析博文中提到,目前TikTok每天上傳的視頻總時(shí)長(zhǎng)約1700萬(wàn)分鐘,YouTube為4300萬(wàn)分鐘。
假設(shè)AI視頻模型真的成為生產(chǎn)力,可能會(huì)滲透到50%的TikTok短視頻和15%的YouTube視頻中,這樣的滲透率之下,峰值算力需求可能達(dá)到72萬(wàn)塊H100 GPU。按目前國(guó)內(nèi)的GPU價(jià)格,每天的成本將超過(guò)千億。
不過(guò),這種試算在今天看來(lái)其實(shí)意義不大。AI視頻模型要真的大規(guī)模滲透,模型成本和效率可能需要比今天低幾個(gè)數(shù)量級(jí)。到時(shí)候全球市場(chǎng)上主流GPU的算力如何,使用成本如何也是未知數(shù)。
抖快之外,創(chuàng)業(yè)公司也在入局
6月6日奇績(jī)創(chuàng)壇2024春季創(chuàng)業(yè)營(yíng)路演上半場(chǎng)的最后一個(gè)項(xiàng)目*科技,展示了一款A(yù)I視頻生成大模型“視界一粟YiSu”。
您目前設(shè)備暫不支持播放*科技的視頻展示
這款模型生成視頻的原生時(shí)長(zhǎng)為16秒,最長(zhǎng)可達(dá)1分鐘,據(jù)*科技介紹,該模型對(duì)算力需求不高,已經(jīng)可以實(shí)現(xiàn)“端側(cè)”運(yùn)行,相關(guān)應(yīng)用接近Sora效果。
項(xiàng)目介紹結(jié)束,現(xiàn)場(chǎng)數(shù)百位投資人罕見地爆發(fā)了喝彩和掌聲,資本對(duì)AI視頻生成技術(shù)的關(guān)注仍在持續(xù)發(fā)酵。
在天使輪的*科技路演同天,AI視頻生成技術(shù)的主力生數(shù)科技和Pika,先后宣布了最新融資,兩家公司融資額不相上下,生數(shù)科技宣布獲得數(shù)億元人民幣,Pika則籌集到8000萬(wàn)美元。
AI視頻模型公司的研究大多集中在提高視頻質(zhì)量和降低推理成本。多數(shù)研發(fā)AI視頻生成模型的團(tuán)隊(duì)均表示已經(jīng)在工程方面有所突破,算力需求正在下降。生數(shù)科技CEO唐家渝則表示,“生數(shù)科技的團(tuán)隊(duì)已經(jīng)積累了完整高效的工程化經(jīng)驗(yàn),擁有在大規(guī)模GPU集群上實(shí)現(xiàn)高效兼容、低成本的模型訓(xùn)練經(jīng)驗(yàn)?!蹦壳吧鷶?shù)科技和清華大學(xué)聯(lián)合開發(fā)的模型Vidu視頻生成時(shí)長(zhǎng)已達(dá)到32秒。
在抖快這樣的短視頻巨頭的競(jìng)爭(zhēng)中,獨(dú)立AI公司的優(yōu)勢(shì)在于早期的技術(shù)積累和更“輕快”的開發(fā)模式。
然而這些公司目前的融資規(guī)模和當(dāng)前的市場(chǎng)體量匹配度并不高,如果AI視頻模型真要落在短視頻這樣的ToC賽道的話,獨(dú)立AI公司在沒(méi)有巨大技術(shù)突破的情況下,很可能會(huì)傾向于“擇木而棲”。
巨頭們對(duì)于這些AI公司的態(tài)度也在逐漸曖昧。
細(xì)看生數(shù)科技的這輪融資,其中新增了百度。雖然生數(shù)科技的早期投資人中有百度風(fēng)投的身影,但百度風(fēng)投與百度之間其實(shí)只是VC和LP的關(guān)系,而百度在過(guò)去一年多里對(duì)模型公司“親自”出手,只有生數(shù)科技這一次。
雖然百度在剛剛推出文心大模型后不久,就提出過(guò)一些Text2Video的相關(guān)模型和技術(shù),并演示了AI文生視頻功能,但后續(xù)一直沒(méi)有正式發(fā)布相關(guān)模型或產(chǎn)品。
目前,包括硅谷巨頭在內(nèi)的多數(shù)平臺(tái)型大公司在AI視頻模型方面均沒(méi)有公布過(guò)大額投入。