肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

當(dāng)前位置: 首頁 ? 資訊 ? 熱點(diǎn) ? 正文

12家創(chuàng)業(yè)公司+4家大廠全景圖:誰會成為中國版Sora?

作者:趙健 來源: 甲子光年 265507/29

一年前,ChatGPT 的爆火很快在大語言模型領(lǐng)域催生了“百模大戰(zhàn)”。一年后,Sora 橫空出世再次驚艷世人,這一次是否會掀起新一輪的 AI 視頻領(lǐng)域的百模大戰(zhàn)?近期,DiT(Diffusion Transformer)論文的作者謝賽寧在朋

標(biāo)簽: AI視頻 公司 創(chuàng)業(yè)

一年前,ChatGPT 的爆火很快在大語言模型領(lǐng)域催生了“百模大戰(zhàn)”。一年后,Sora 橫空出世再次驚艷世人,這一次是否會掀起新一輪的 AI 視頻領(lǐng)域的百模大戰(zhàn)?

近期,DiT(Diffusion Transformer)論文的作者謝賽寧在朋友圈分享了他對 Sora 的看法,其中核心資源的排序是——人才*、數(shù)據(jù)第二、算力第三,其他都沒有什么是不可替代的。

國內(nèi)有哪些團(tuán)隊、哪些人才正在從事 AI 視頻行業(yè)?

為此,「甲子光年」基于公開資料與現(xiàn)有信息,整理了國內(nèi) 12 家創(chuàng)業(yè)公司與 4 家大廠的 AI 視頻團(tuán)隊信息。

這些信息不僅給產(chǎn)品愛好者較為全面的 AI 生成視頻模型總結(jié),也給更多的關(guān)注人工智能技術(shù)走向的 AI 從業(yè)者們一份技術(shù)與人才指南。

(以下公司按公司名首字母排序,歡迎補(bǔ)充。)

12家創(chuàng)業(yè)公司:產(chǎn)品、落地兩手抓

HeyGen

HeyGen 成立于 2020 年 11 月,核心創(chuàng)始成員有兩位,是上海同濟(jì)大學(xué)的校友。

HeyGen 聯(lián)合創(chuàng)始人、CEO 徐卓(Joshua Xu),是卡內(nèi)基梅隆大學(xué)計算機(jī)碩士。徐卓是早期 Snapchat 員工(2014 年 - 2020 年),關(guān)鍵工程負(fù)責(zé)人。在 Snapchat 的 6 年里,徐卓領(lǐng)導(dǎo)了多個關(guān)鍵工程領(lǐng)域,例如廣告平臺、推薦系統(tǒng)、機(jī)器學(xué)習(xí)平臺(Barista)和 AI 相機(jī)。

HeyGen 聯(lián)合創(chuàng)始人、CPO(首席產(chǎn)品官)梁望(Wayne Liang),是卡內(nèi)基梅隆大學(xué)人機(jī)交互碩士。梁望是前字節(jié)跳動美國設(shè)計主管,領(lǐng)導(dǎo)企業(yè)軟件和內(nèi)部產(chǎn)品創(chuàng)新的設(shè)計;Smule 前設(shè)計總監(jiān),領(lǐng)導(dǎo)國際設(shè)計團(tuán)隊設(shè)計數(shù)百萬日活產(chǎn)品,領(lǐng)導(dǎo)了視頻和直播等關(guān)鍵舉措,使 UGC 內(nèi)容增長了 10 倍以上。

HeyGen 聯(lián)合創(chuàng)始人、CEO徐卓(左)與 HeyGen 聯(lián)合創(chuàng)始人、CPO 梁望(右)

HeyGen 總部位于洛杉磯,成立三個月后便從紅杉中國和真格基金獲得了 200 萬至 300 萬美元的種子輪融資。2023年 11 月 29 日,HeyGen 宣布獲得由 Conviction Partners 領(lǐng)投的 560 萬美元新一輪投資,估值達(dá)到 7500 萬美元。此時,HeyGen 只有 25 名員工。

HeyGen 在 2022 年 9 月推出 AI 視頻創(chuàng)作工具,僅用 7 個月的時間實(shí)現(xiàn)了 100 萬美元的 ARR(年度經(jīng)常性收入),然后又于 10 月份達(dá)到 1000 萬美元。如今,這一數(shù)字已經(jīng)躍升至 1800 萬美元。

官網(wǎng):https://www.heygen.com/

HiDream.ai(智象未來)

HiDream.ai 成立于 2023 年 3 月,是一家專注于構(gòu)建視覺多模態(tài)(文本、圖片、視頻、3D等)基礎(chǔ)模型及應(yīng)用的生成式 AI 公司。

HiDream.ai 創(chuàng)始人兼CEO梅濤,是人工智能、計算機(jī)視覺和多媒體領(lǐng)域的全球知名學(xué)者,加拿大工程院外籍院士,IEEE/IAPR/CAAI Fellow,曾擔(dān)任京東集團(tuán)副總裁和微軟研究院資深研究員。他發(fā)表的論文被引用超過三萬余次,先后榮獲 15 項(xiàng)*論文獎,擁有 70 多項(xiàng)專利,并主導(dǎo)研發(fā)了多款全球數(shù)百萬日活用戶的商業(yè)產(chǎn)品。

HiDream.ai創(chuàng)始人兼CEO梅濤

HiDream.ai 團(tuán)隊中,博士、碩士占 90% 以上,核心團(tuán)隊成員曾任職于微軟、百度、騰訊、華為、京東、字節(jié)跳動等全球 500 強(qiáng)公司的核心技術(shù)團(tuán)隊。

2023 年 4 月,HiDream.ai 核心技術(shù)成員組隊,完成由阿爾法公社、中喝大種子一號基金參與的種子輪融資;12月,HiDream.ai 完成由科大訊飛領(lǐng)投的天使輪融資。

HiDream.ai 的產(chǎn)品 Pixeling(皮克象)V1.0 已經(jīng)于 2023 年 8 月上線。

官網(wǎng):https://hidream.ai/#/

M?bius

M?bius 是一款上線于 2024 年 1 月 4 日的 AI 視頻模型,團(tuán)隊只有三個人:AI 算法工程師 LogicQ,軟件工程師 Peki(劉佩),財務(wù) Zhao。

1 月 14 日,Peki 在 Reddit 上發(fā)布了 2 個帖子,沖上了 Reddit 熱搜。當(dāng)時,Peki 發(fā)布了一個特斯拉汽車視頻,比較了M?bius 和 Runway 的效果,結(jié)果被一個小哥罵的狗血淋頭,因?yàn)?M?bius 效果太好,以至于讓他認(rèn)為視頻是惡意剪輯故意詆毀 Runway 的。

Peki 告訴「甲子光年」,M?bius 目前的模型缺陷主要有2個——畸變,當(dāng)角色大幅度運(yùn)動時容易產(chǎn)生畸變扭曲;角色一致性,需要所有時長中角色保持一致,也就是語義連貫。這些問題的核心是基礎(chǔ)模型,當(dāng)基礎(chǔ)模型要達(dá)到一定的智能,真正對物理理解,問題就會解決。Peki 表示正在努力。

盡管如此,Peki 自信地表示,如果與全球范圍內(nèi)進(jìn)行產(chǎn)品對比,M?bius 和 Sora 差距是一定是最小的。

M?bius 上線之后,零廣告推入情況下,至今已為用戶生成了數(shù)百萬的視頻,并獲取了可觀的收入。

官網(wǎng):https://mobius.any-vision.com/

Morph studio

Morph Studio 成立于 2022 年,專注于 text-to-video 生成技術(shù)與社區(qū)平臺,通過 SD+自研模型技術(shù)幫助用戶實(shí)現(xiàn)短視頻快速生成,其視頻生成模型已經(jīng)于去年8月上線 Discord。

2023 年 5 月,Morph Studio 宣布已完成數(shù)百萬美元種子輪融資,由百度風(fēng)投單獨(dú)投資。

Morph Studio 創(chuàng)始人徐懷哲為香港科技大學(xué)人工智能方向博士創(chuàng)業(yè),師從倪明選教授和沈向洋教授,曾在微軟小冰參加AI音樂生成研發(fā)。Morph Studio 的兩位聯(lián)合創(chuàng)始人趙世豪、殷子欣都是香港科技大學(xué)人工智能博士。

Morph Studio 創(chuàng)始人徐懷哲

除了技術(shù)團(tuán)隊外,Morph Studio 也加強(qiáng)了其產(chǎn)品團(tuán)隊的實(shí)力,貓眼電影簽約制作人、上海國際電影節(jié)評委,前硅谷頭部 AIGC 公司核心成員海辛也于近期加入 Morph Studio。

官網(wǎng):https://www.morphstudio.com/

Neverends

NeverEnds 在 2023 年 12 月上線。

「甲子光年」*獲悉,Neverends 的聯(lián)合創(chuàng)始人,為 Llama 中文社區(qū)聯(lián)合發(fā)起人曲東奇。曲東奇畢業(yè)于東南大學(xué),德國亥姆霍茲研究中心訪問學(xué)者。曲東奇也是《Llama大模型實(shí)踐指南》一書的作者之一。

官網(wǎng):https://neverends.life/

愛詩科技AIsphere

愛詩科技成立于 2023 年 4 月,已經(jīng)完成了數(shù)千萬元人民幣天使輪融資。

愛詩科技創(chuàng)始人、CEO 王長虎深耕計算機(jī)視覺、人工智能領(lǐng)域 20 年,曾任字節(jié)跳動視覺技術(shù)負(fù)責(zé)人,參與了抖音和TikTok等產(chǎn)品從 0 到 1 的建設(shè)和發(fā)展,搭建了字節(jié)跳動視覺算法平臺和業(yè)務(wù)中臺,主導(dǎo)了字節(jié)跳動視覺大模型從0到1的建設(shè)。王長虎曾任微軟亞洲研究院主管研究員,發(fā)表國際論文百余篇,擁有專利數(shù)百項(xiàng)。

愛詩科技創(chuàng)始人、CEO王長虎

愛詩科技團(tuán)隊成員來自清華、北大、中科院等*學(xué)府,曾任職于字節(jié)、微軟亞洲研究院、快手、騰訊等頭部機(jī)構(gòu)的核心技術(shù)團(tuán)隊,擁有世界一流的計算機(jī)視覺算法攻堅能力和解決系統(tǒng)工程問題的經(jīng)驗(yàn)。

愛詩科技的視頻生成工具 Pixverse,支持 4K 高清視頻生成,在運(yùn)動準(zhǔn)確性、一致性和豐富性等方面取得了進(jìn)展。愛詩科技將在 2024 年 3 月發(fā)布新版本的多模態(tài)視頻生成大模型。

官網(wǎng):https://aisphere.tech/

李白人工智能實(shí)驗(yàn)室(LibAI Lab )

李白人工實(shí)驗(yàn)室是杭州王道控股有限公司旗下的專注計算機(jī)視覺和生成式人工智能算法、產(chǎn)品研發(fā)的技術(shù)團(tuán)隊,成立于 2018 年,由唐勇博士領(lǐng)導(dǎo)成立。

唐勇畢業(yè)于美國賓夕法尼亞州立大學(xué),在美國知名 500 強(qiáng)企業(yè)擔(dān)任技術(shù)學(xué)科專家,高級工程師等。其他成員均畢業(yè)于國內(nèi)外知名高校,清華、北大、浙大、英國*理工和美國常青藤范圍等。

李白人工智能實(shí)驗(yàn)室創(chuàng)始人、CEO唐勇

李白人工智能實(shí)驗(yàn)室在圖像生成方面已經(jīng)有不少積累,推出的產(chǎn)品有神采PromeAI、圖可麗tukeli.net、cutout.pro等國內(nèi)外在線工具網(wǎng)站及多個App、小程序。其中 cutout.pro 項(xiàng)目海外月活超千萬用戶,海外站更是躋身圖像編輯工具分類排名前十;神采 PromeAI 項(xiàng)目榮獲 AI 產(chǎn)品榜出海 20 強(qiáng)。

去年 10 月 31 日-11 月 2 日,由李白人工智能實(shí)驗(yàn)室團(tuán)隊攜手阿里云等團(tuán)隊制作的李白數(shù)字展亮相云棲大會。

近期,李白人工智能實(shí)驗(yàn)室神采 PromeAI 也上線了圖生視頻功能。

官網(wǎng):https://www.ishencai.com/

毛線球科技(6PenArt)

6Pen 成立于 2022 年 4 月,產(chǎn)品正式上線于 7 月,從 AI 繪畫工具起步,逐步打造 AIGC 社區(qū)。

6Pen 同時提供兩個模型:一個是基于 Disco Diffusion 的模型「西瓜」,優(yōu)點(diǎn)是圖片效果好,但速度非常慢,成本會非常高;另一個是小模型「南瓜」,可以用更快的速度去生成圖片。據(jù)介紹,用戶普遍做法是先采用「南瓜」繪圖,如果畫作滿意,繼續(xù)使用參考圖的方式傳輸?shù)健肝鞴稀鼓P?,也就?Disco Diffusion上,再進(jìn)行一次重新生成。

自上線以來,6Pen 通過 10 余項(xiàng)產(chǎn)品功能創(chuàng)新,獲得純自發(fā)增長,4 個月積累了百萬優(yōu)質(zhì)注冊用戶,付費(fèi)率超過 5%,上線首月即開始盈利。6Pen 文字生成視頻模式也正在內(nèi)測中。

2023 年 6 月,6Pen 獲得奇績創(chuàng)壇的 A 輪融資。

6Pen 是一個非常年輕的團(tuán)隊。6Pen CEO 王登科出生于 1994 年,為 10 年內(nèi)容創(chuàng)作者、連續(xù)創(chuàng)業(yè)者,曾獨(dú)立開發(fā)過被 App Store 推薦的 App,打造過創(chuàng)作者經(jīng)濟(jì)社區(qū)「面包多」。前段時間爆紅網(wǎng)絡(luò)的“哄哄模擬器”,就是由他開發(fā)。

6Pen CTO 邵萬博出生于 1995 年,曾在字節(jié)負(fù)責(zé) IoT 云平臺項(xiàng)目,實(shí)現(xiàn)字節(jié)教育硬件云服務(wù)、AILab 機(jī)器人云服務(wù)的從無到有,包括整體架構(gòu)設(shè)計與核心功能開發(fā)。

方軻為 Al 負(fù)責(zé)人,4年快手 AI 工作經(jīng)驗(yàn),核心算法研發(fā),曾獲得快手內(nèi)部技術(shù)突破獎。

官網(wǎng):https://6pen.art/

生數(shù)科技

生數(shù)科技成立于 2023 年 3 月,由瑞萊智慧 RealAI、螞蟻集團(tuán)和 BV 百度風(fēng)投聯(lián)合孵化,聚焦于多模態(tài)生成式大模型與應(yīng)用產(chǎn)品開發(fā)。前瑞萊智慧副總裁唐家渝出任CEO

生數(shù)科技CEO唐家渝

生數(shù)科技由清華人工智能研究院副院長朱軍教授帶領(lǐng),核心成員來自清華大學(xué)人工智能研究院,該團(tuán)隊長期致力于貝葉斯機(jī)器學(xué)習(xí)的基礎(chǔ)理論和高效算法研究,是目前在擴(kuò)散概率模型領(lǐng)域發(fā)表論文成果最多的國內(nèi)團(tuán)隊,并培養(yǎng)出了多名生成式 AI 領(lǐng)域重要的研究者。

生數(shù)科技于 2023 年初開源了基于 Transformer 的多模態(tài)擴(kuò)散大模型 UniDiffuser,實(shí)現(xiàn)基于一個底層模型完成文生圖、圖文聯(lián)合生成、圖文改寫等多種生成任務(wù)。生數(shù)科技也正從 0 到 1 打造著產(chǎn)業(yè)級的多模態(tài)深度生成式大模型,覆蓋文本、圖像、3D 模型、音視頻等多個模態(tài)。目前該大模型正在快速迭代中。

2023 年 6 月,生數(shù)科技完成了近億元的天使輪融資。此輪融資由螞蟻集團(tuán)領(lǐng)投,BV百度風(fēng)投、卓源資本跟投,估值達(dá) 1 億美元;8 月,生數(shù)科技完成了數(shù)千萬元天使+輪融資,由錦秋基金*投資。

在商業(yè)模式上,生數(shù)科技面向圖像創(chuàng)作、3D 資產(chǎn)創(chuàng)建等細(xì)分場景打造垂類應(yīng)用,服務(wù)范圍覆蓋C、B 兩端。

官網(wǎng):http://shengshu-ai.com

徐圖智能

徐圖智能成立于 2023 年 6 月,由 IEEE Fellow、香港大學(xué)教授徐東成立。

徐圖智能CEO徐東

徐東擔(dān)任徐圖智能 CEO,他于 2001 年和 2005 年在中國科學(xué)技術(shù)大學(xué)取得學(xué)士和博士學(xué)位,目前擔(dān)任香港大學(xué)計算機(jī)系教授。他曾在微軟亞洲研究院、香港中文大學(xué)和哥倫比亞大學(xué)從事研究工作,并在南洋理工大學(xué)和悉尼大學(xué)任教。

徐東教授在計算機(jī)視覺、多媒體信號處理以及機(jī)器學(xué)習(xí)等領(lǐng)域做出了重要貢獻(xiàn),在 IEEE Transactions 和國際*會議上發(fā)表了 150 余篇論文,其中兩篇論文分別獲得 T-MM 2014 *論文獎和 CVPR 2010 *學(xué)生論文獎。徐東教授是 IEEE 和 IAPR Fellow,于 2018 和 2021 年兩次入選科睿唯安(Clarivate Analytics)高被引學(xué)者,同時也擔(dān)任 ACM Computing Surveys(CSUR)資深副主編。

藝映 AI

藝映 AI 是由 MewXAI 團(tuán)隊開發(fā)的AI視頻生成工具,可以由文本、圖像生成AI視頻??梢詫⑽谋久枋鲛D(zhuǎn)換為視頻動畫,也可以上傳圖片將其變?yōu)閯討B(tài)視頻,適用于多種場景,如抖音短視頻、小說推文、AI 短片、AI 電影等制作。

除了 AI 視頻生成工具「藝映AI」之外,MewXAI 還包含了 AI 繪畫、AI 二維碼、AI 藝術(shù)字等多種 AIGC 創(chuàng)作工具。

MewXAI 由美團(tuán)資深前端工程師華益峰創(chuàng)立,華益峰是一位出生于 1995 年的年輕獨(dú)立開發(fā)者。除了 MewXAI 之外,華益峰還創(chuàng)立了木及簡歷、goenhance.ai(面向海外市場的視頻生成工具)等產(chǎn)品。

官網(wǎng):https://www.artink.art/

右腦科技(RightBrain AI)

右腦科技成立于 2022 年 9 月,是一家專注研發(fā) AI 圖像和視頻生成的初創(chuàng)公司, 致力于將 AIGC 技術(shù)應(yīng)用于圖像及視頻領(lǐng)域,賦能創(chuàng)作,讓想象成為具象。

右腦科技有三位核心創(chuàng)始成員,均畢業(yè)于北京大學(xué)。

梁建是北京大學(xué)計算機(jī)科學(xué)碩士,曾在微軟亞洲研究院任職,長期從事視覺生成研究,代表作女媧系列 NUWA、NUWA Infinity。

右腦科技聯(lián)合創(chuàng)始人梁建

史杰是北京大學(xué)智能系統(tǒng)碩士,曾在微軟亞洲研究院,女媧項(xiàng)目組從事 Diffusion 模型研究;曾任商湯研究員,負(fù)責(zé)擴(kuò)散視頻生成模型研究。

周呈華是北京大學(xué)軟件工程碩士,曾在微軟亞洲搜索技術(shù)中心(Search Technology Center Asia,STCA)、智源研究院從事視覺生成研究,參與智源悟道·文生圖模型、國畫模型研發(fā)。

右腦科技已經(jīng)完成了陸奇博士創(chuàng)立的奇績創(chuàng)壇的種子輪,以及光速中國等一線 VC 數(shù)千萬天使輪融資。

產(chǎn)品層面,右腦科技先后推出了 AI 繪畫創(chuàng)作平臺 Vega AI,以及 AI 視頻創(chuàng)作平臺 Video Studio。

官網(wǎng):https://rightbrainai.cn/

大廠:有錢有人,論文多于產(chǎn)品

阿里:周靖人、薄列峰領(lǐng)銜

在視頻生成領(lǐng)域,阿里巴巴通義實(shí)驗(yàn)室開發(fā)了開源視頻生成模型和代碼系列VGen,具備非常先進(jìn)和完善的視頻生成系列能力,包含了如下內(nèi)容:

VideoComposer:具有高度靈活可控性的視頻合成

I2VGen-XL: 通過視頻擴(kuò)散模型進(jìn)行高質(zhì)量圖像到視頻的生成。

HiGen:分層時空解耦技術(shù)用于文本生成視頻(T2V)

TF-T2V:使用無文本視頻訓(xùn)練的規(guī)?;谋镜揭曨l模型的生成方法

InstructionVideo:通過人類反饋,優(yōu)化視頻擴(kuò)散模型

DreamVideo:用定制主題和動作可控視頻生成模型

VideoLCM:基于潛在性一致模型(LCM)優(yōu)化視頻模型生成速度

2023 年 11 月,阿里發(fā)布了關(guān)于 I2VGen-XL 的論文,署名作者有 9 位:Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan,Zhiwu Qing, Xiang Wang, Deli Zhao,以及阿里云 CTO 周靖人。

12 月,阿里巴巴智能計算研究院發(fā)布了最新AI應(yīng)用:Animate Anyone,只需一張人物照片,結(jié)合骨骼動畫,就能生成人體動畫視頻。通義千問風(fēng)靡一時的“一鍵跳科目三”功能就是來自于此。

Animate Anyone 的論文有 6 位作者:胡立、高鑫、張鵬、Ke Sun、張邦與薄列峰

其中,*作者胡立,浙江大學(xué)碩士畢業(yè)后加入阿里達(dá)摩院,在 COCO、DAVIS 等大型知名 Benchmark 競賽上取得多項(xiàng)*,在 CVPR/ICCV/ECCV 等頂會上發(fā)表多篇論文。

該項(xiàng)目的核心負(fù)責(zé)人薄列峰,是阿里巴巴集團(tuán) XR 實(shí)驗(yàn)室負(fù)責(zé)人。

阿里巴巴集團(tuán) XR 實(shí)驗(yàn)室負(fù)責(zé)人薄列峰

薄列峰博士畢業(yè)于西安電子科技大學(xué),先后在芝加哥大學(xué)豐田研究院和華盛頓大學(xué)從事博士后研究,在國際頂會和期刊論文 80 余篇,論文被引用超 1.1 萬次。其中,他的博士學(xué)位論文曾獲得全國百篇優(yōu)秀博士論文獎,RGB-D 物體識別論文榮獲機(jī)器人權(quán)威會議 ICRA *計算機(jī)視覺論文獎。

薄列峰曾就職于亞馬遜西雅圖總部,任首席科學(xué)家,從事 Amazon Go 無人零售店的基礎(chǔ)算法研究和工程落地。2017年,薄列峰加入京東,后加入京東數(shù)字科技集團(tuán)AI實(shí)驗(yàn)室首席科學(xué)家,研究范圍覆蓋機(jī)器學(xué)習(xí),深度學(xué)習(xí),計算機(jī)視覺,自然語言處理,語音等多個領(lǐng)域。

2022 年,薄列峰加入阿里巴巴達(dá)摩院,現(xiàn)在為通義實(shí)驗(yàn)室 XR 實(shí)驗(yàn)室負(fù)責(zé)人。

百度:肖欣延領(lǐng)銜

2024 年 1 月 19 日,百度推出了一款視頻生成模型 UniVG,其特點(diǎn)在于針對高自由度和低自由度兩種任務(wù)分別采用不同的生成方式,以更好地平衡兩者之間的關(guān)系。

該模型論文有 5 位作者:Ludan RUAN、Lei TIAN、Chuanwei HUANG、Xu ZHANG、肖欣延。

其中,肖欣延為百度文心一格總架構(gòu)師。肖欣延長期從事自然語言處理相關(guān)研究和應(yīng)用,已發(fā)表CCF A/B 類論文 30 余篇獲授權(quán)發(fā)明專利 50 余項(xiàng)并獲中國專利優(yōu)秀獎1項(xiàng),相關(guān)成果已在百度的搜索、推薦、百家號、小度、輸入法、百度云等業(yè)務(wù)中得到廣泛應(yīng)用。

百度文心一格總架構(gòu)師肖欣延

騰訊:單瀛領(lǐng)銜

騰訊近期推過兩個視頻生成模型項(xiàng)目,*個是在 2023 年 12 月,北京大學(xué)、騰訊 AI Lab 與香港科技大學(xué)三家聯(lián)合發(fā)布一款視頻生成模型AnimateZero。

AnimateZero 是一種基于視頻擴(kuò)散模型的零樣本圖像動畫生成器。研究人員提出了一種分步生成視頻的方法,將外觀和運(yùn)動過程解耦,提高生成效率和可控性。通過零樣本修改,還能將 T2V 模型轉(zhuǎn)換為 I2V 模型,使其成為零樣本圖像動畫生成器。在應(yīng)用方面,AnimateZero 介紹了通過文本控制動作、視頻編輯、幀插值、循環(huán)視頻生成和真實(shí)圖像動畫等多種應(yīng)用場景。

在該項(xiàng)目中,騰訊AILab 有 4 位作者參與,分別為寸曉東、Yong Zhang、Xintao Wang 與單瀛。

單瀛,騰訊杰出科學(xué)家、ARC Lab &AILab CVC總監(jiān)。單瀛博士曾擔(dān)任微軟雷德蒙研究院博士后研究員,SRI International 資深研究員和微軟科研主管,在國際*會議和刊物上發(fā)表 120 多篇論文,并擁有多項(xiàng)美國/國際專利。2018 年底單瀛加入騰訊公司內(nèi)容和平臺事業(yè)群(PCG),創(chuàng)立了ARC Lab 并擔(dān)任中心主任,同時兼任騰訊 AI Lab 視覺計算中心主任、QB 搜索技術(shù)負(fù)責(zé)人,致力于多模態(tài)內(nèi)容生成、理解、學(xué)習(xí)中的算法研究和應(yīng)用推廣。

騰訊杰出科學(xué)家、ARC Lab &AILab CVC總監(jiān)單瀛

寸曉東,騰訊 AI Lab 視覺計算中心研究員,本科畢業(yè)于西安電子科技大學(xué)計算機(jī)系,碩士與博士畢業(yè)于澳門大學(xué)計算機(jī)與信息科學(xué)系,導(dǎo)師是潘治文教授。加入騰訊之前,寸曉東先后在阿里巴巴、??低曆芯吭?、華為諾亞方舟實(shí)驗(yàn)室工作。目前,寸曉東正在使用與 AIGC 相關(guān)的技術(shù),研究設(shè)計新穎的圖像/視頻生成、翻譯和編輯應(yīng)用(特別是在動漫游戲領(lǐng)域)。

Yong Zhang,騰訊 AI Lab 高級研究員,研究方向是AIGC。在加入騰訊之前,Yong Zhang 于 2018 年在中國科學(xué)技術(shù)院自動化研究所(CASIA)獲得了博士學(xué)位,導(dǎo)師是胡包鋼教授和董未名教授,他們都是國家模式識別實(shí)驗(yàn)室(NLPR)的成員。在加入 CASIA 之前,Yong Zhang 于 2012 年在湖南大學(xué)獲得了自動化專業(yè)的工學(xué)學(xué)士學(xué)位。從 2015 年 9 月到 2017 年 9 月,Yong Zhang 在倫斯勒理工學(xué)院(RPI)的智能系統(tǒng)實(shí)驗(yàn)室(ISL)擔(dān)任聯(lián)合博士生,導(dǎo)師是 Qiang Ji 教授。

Xintao Wang,目前是騰訊 ARC Lab 和騰訊 AI Lab 的高級研究員,領(lǐng)導(dǎo)視覺內(nèi)容生成(AIGC)方面的工作。 此前,Xintao Wang 獲得了香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)博士學(xué)位, 導(dǎo)師為 Chen Change Loy 教授和湯曉鷗教授。早些時候,Xintao Wang 獲得了浙江大學(xué)的學(xué)士學(xué)位 。

騰訊近期推出的第二個視頻生成項(xiàng)目,是在 2024 年 1 月推出的 VideoCrafter2。VideoCrafter2 是一個視頻處理工具,致力于提高視頻的視覺質(zhì)量、動態(tài)效果以及概念組合。通過獨(dú)特的算法和先進(jìn)的技術(shù),VideoCrafter2 能夠生成精美影片。

VideoCrafter2 參與成員有7位:Haoxin Chen、Yong Zhang、寸曉東、Menghan Xia,Xintao Wang、Chao Weng、單瀛,大部分成員也參與了上述 AnimateZero 項(xiàng)目。

Haoxin Chen目前是騰訊的研究員,主要研究文本到視頻的生成。在此之前,Haoxin Chen 畢業(yè)于華南理工大學(xué),獲得學(xué)士和碩士學(xué)位。

Menghan Xia,騰訊AI Lab 視覺計算中心的一名研究員,目前專注于基礎(chǔ)生成模型(AIGC)、多模態(tài)學(xué)習(xí)和面部運(yùn)動合成。Menghan Xia 于 2021 年在香港中文大學(xué)(CUHK)獲得了計算機(jī)科學(xué)與工程博士學(xué)位,導(dǎo)師是黃田津教授;于 2014 年獲得了武漢大學(xué)攝影測量與遙感專業(yè)的工學(xué)學(xué)士學(xué)位,以及 2017 年獲得了模式識別與智能系統(tǒng)專業(yè)的工學(xué)碩士學(xué)位,兩位導(dǎo)師都是姚劍教授。在攻讀博士學(xué)位期間,Menghan Xia自 2019 年 3 月起與 Adobe Research進(jìn)行了為期一年的合作,并在 2021 年夏天在微軟亞洲研究院(MSRA)進(jìn)行了研究實(shí)習(xí)。

字節(jié)跳動:馮佳時、李航領(lǐng)銜

字節(jié)跳動有多個 AI 視頻研究團(tuán)隊,其中一個在新加坡。

2023 年 12 月,新加坡國立大學(xué)的 Show Lab 聯(lián)合字節(jié)跳動發(fā)布了一款視頻模型 MagicAnimate(https://showlab.github.io/magicanimate/)——一種基于擴(kuò)散模型的人體圖像動畫框架,旨在增強(qiáng)時間一致性、忠實(shí)地保留參考圖像并提高動畫保真度。

字節(jié)跳動有 5 名研究人員參與。其中,馮佳時曾為新加坡國立大學(xué)電子與計算機(jī)工程系的助理教授,研究興趣包括計算機(jī)視覺和機(jī)器學(xué)習(xí)。馮佳時教授目前已經(jīng)加入 TikTok 擔(dān)任研究科學(xué)家,正在組建一個新的基礎(chǔ)研究團(tuán)隊。

字節(jié)跳動研究科學(xué)家馮佳時

其他成員包括:

Jianfeng Zhang,字節(jié)跳動研究科學(xué)家,致力于3D生成模型和數(shù)字人生成/動畫方面的工作。Jianfeng Zhang本科畢業(yè)于武漢大學(xué),博士畢業(yè)于新加坡國立大學(xué)。Jianfeng Zhang 曾在 meta Reality 實(shí)驗(yàn)室、TikTok 和 Sea AI 實(shí)驗(yàn)室實(shí)習(xí)。

Jun Hao Liew,畢業(yè)于新加坡國立大學(xué),曾在Adobe 計算機(jī)視覺研究院實(shí)習(xí),現(xiàn)在為字節(jié)跳計算機(jī)視覺科學(xué)家。

嚴(yán)漢書,字節(jié)跳動新加坡的一名研究科學(xué)家,團(tuán)隊專注于開發(fā)高效且可控的視頻/圖像生成模型,并將它們應(yīng)用于創(chuàng)意編輯任務(wù)。嚴(yán)漢書在新加坡國立大學(xué)博士畢業(yè),研究興趣在于機(jī)器學(xué)習(xí)和計算機(jī)視覺,目標(biāo)是探索能夠解決工程和科學(xué)領(lǐng)域中具有挑戰(zhàn)性問題的原則性機(jī)器學(xué)習(xí)算法。

Chenxu Zhang,字節(jié)跳動 Intelligent Creation Lab 的一名研究科學(xué)家,本科畢業(yè)于北京航空航天大學(xué)軟件工程專業(yè),碩士畢業(yè)于計算機(jī),博士畢業(yè)于德克薩斯大學(xué)達(dá)拉斯分校計算機(jī)。Chenxu Zhang 的研究興趣包括計算機(jī)圖形學(xué)、計算機(jī)視覺和人工智能,重點(diǎn)關(guān)注會說話的面部生成、會話手勢合成、帶有人類運(yùn)動的去模糊NeRF、文本/圖像到3D,以及有情感會說話的數(shù)字人。

2024 年 1 月,字節(jié)跳動新加坡團(tuán)隊再次發(fā)布新的模型,名為 MagicVideo-V2(https://magicvideov2.github.io/),將文本到圖像模型、視頻運(yùn)動生成器、參考圖像嵌入模塊和幀插值模塊集成到端到端視頻生成管道中。受益于這些架構(gòu)設(shè)計,MagicVideo-V2 可以生成具有出色保真度和平滑度的美觀、高分辨率視頻。通過大規(guī)模用戶評估,它表現(xiàn)出了優(yōu)于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等*文本轉(zhuǎn)視頻系統(tǒng)的性能。

該論文共有 12 位作者,其中就包括上一篇論文的作者Jun Hao Liew、嚴(yán)漢書與馮佳時。MagicVideo-V2 的*作者為王偉民。

王偉民本科畢業(yè)于新加坡南洋理工大學(xué),碩士畢業(yè)于新加坡國立大學(xué),畢業(yè)后先后在新加坡房地產(chǎn)交易所、醫(yī)藥公司MSD、印度尼西亞的互聯(lián)網(wǎng)科技公司 GO-JEK 做數(shù)據(jù)相關(guān)工作,在亞馬遜做機(jī)器學(xué)習(xí)研究科學(xué)家,并于 2020 年加入字節(jié)跳動,是字節(jié)跳動視頻生成模型的負(fù)責(zé)人。

字節(jié)跳動視頻生成模型負(fù)責(zé)人王偉民

2022 年 4 月,王偉民參加了新加坡國家研究基金會下屬人工智能研究計劃「AI Singapore」發(fā)起的“可信任媒體挑戰(zhàn)” ,在為期五個月的挑戰(zhàn)中擊敗了來自世界各地的469個團(tuán)隊獲得了*名,以開發(fā)用于檢測深度偽造或數(shù)字修改視頻剪輯的* AI 模型。

其他團(tuán)隊成員還包括:

Zhijie Lin,畢業(yè)于浙江大學(xué),現(xiàn)在為字節(jié)跳動研究員;

陳碩, TikTok 新加坡的一名研究科學(xué)家,本科就讀于南京郵電大學(xué)物聯(lián)網(wǎng)學(xué)院;碩士就讀于清華大學(xué)電子工程系,導(dǎo)師是廖慶敏教授和周飛博士;博士就讀于阿姆斯特丹大學(xué),導(dǎo)師是Cees Snoek教授和Pascal Mettes博士。陳碩曾作為訪問學(xué)生在深圳先進(jìn)技術(shù)研究院多媒體研究中心學(xué)習(xí),導(dǎo)師是喬宇教授。

Chetwin Low,曾在新加坡國立大學(xué)做學(xué)生導(dǎo)師與本科研究助理,目前在TikTok做計算機(jī)視覺研究實(shí)習(xí)生。

Tuyen Hoang,畢業(yè)于新加坡南洋理工大學(xué),現(xiàn)在為字節(jié)跳動算法工程師。

Jie Wu,字節(jié)跳動 Intelligent Creation Lab 的一名計算機(jī)視覺工程師,本科與碩士畢業(yè)于汕頭大學(xué),曾在百度計算機(jī)視覺視覺技術(shù)部(VIS)實(shí)習(xí),師從人機(jī)物智能融合實(shí)驗(yàn)室的李冠彬教授和林倞教授。

Daquan Zhou,新加坡國立大學(xué)畢業(yè)生。

2024 年 2 月,春節(jié)假期之前,字節(jié)跳動研究院又推出了一款新的AI視頻生成產(chǎn)品Boximator(https://boximator.github.io/#Demo),可以通過文本控制生成視頻中人物或物體的動作。Boximator 是基于 MagicVideo-V2 模型發(fā)布的一款視頻模型產(chǎn)品 Demo,將會在未來2~3個月內(nèi)正式推出。

Boximator 論文共有 7 位作者,分別為Jiawei Wang*、Yuchen Zhang*、Jiaxin Zou、Yan Zeng、Guoqiang Wei、Liping Yuan 與 Hang Li。最后一位作者為李航,字節(jié)跳動研究院負(fù)責(zé)人。

字節(jié)跳動研究院負(fù)責(zé)人李航

李航是北京大學(xué)、南京大學(xué)客座教授, IEEE Fellow、ACM 杰出科學(xué)家、CCF 高級會員,本科就讀于日本京都大學(xué)電氣工程系,1998年在日本東京大學(xué)獲得計算機(jī)科學(xué)博士學(xué)位。

1990 年至 2001 年,李航曾在日本 NEC 公司中央研究所擔(dān)任研究員,期間從事了 NEC 文本數(shù)據(jù)挖掘產(chǎn)品的開發(fā)。2001 年至 2012 年,李航就職于微軟亞洲研究院,任研究員、主任研究員、高級研究員。2012 年至 2017 年,李航在華為諾亞方舟實(shí)驗(yàn)室任首席科學(xué)家、實(shí)驗(yàn)室主任,2017年離職加入字節(jié)跳動。

2019年,李航作為*華人當(dāng)選 ACL Fellow,當(dāng)選理由為“他對信息檢索,特別是排序?qū)W習(xí)做出了基礎(chǔ)性貢獻(xiàn),在深度學(xué)習(xí)和對話生成方面做出了突出貢獻(xiàn),并且促進(jìn)了中國自然語言處理(NLP)的發(fā)展和商業(yè)化。”

除了上述三個項(xiàng)目,字節(jié)跳動還在北美籌建團(tuán)隊。據(jù)「甲子光年」*獲悉,英偉達(dá)高級科學(xué)家、VideoPoet項(xiàng)目負(fù)責(zé)人蔣路,已經(jīng)加入 TikTok 北美團(tuán)隊。

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,信息僅供參考,不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有,如有侵權(quán)或其它問題請及時告之,本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財中網(wǎng)合作