近日,全球首個(gè)大一統(tǒng)的多模態(tài)視頻、圖片創(chuàng)作工具"可靈O1"正式上線??伸`O1基于全新的視頻和圖像模型,以自然語言作為語義骨架,配合視頻、圖片、主體等多模態(tài)描述,將所有生成和編輯任務(wù)融合于一個(gè)全能引擎之中,為用戶搭建全新的多模態(tài)創(chuàng)作流,實(shí)現(xiàn)從靈感到成品的一站式閉環(huán)。

大一統(tǒng)模型,解決視頻創(chuàng)作的所有難題
作為首個(gè)大一統(tǒng)多模態(tài)視頻模型,可靈O1基于MVL(Multi-modal Visual Language,多模態(tài)視覺語言)理念,打破了傳統(tǒng)單一視頻生成任務(wù)的模型邊界,將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪、視頻修改變換、風(fēng)格重繪、鏡頭延展等多種任務(wù),融合于同一個(gè)全能引擎之中,使得用戶無需在多個(gè)模型及工具間跳轉(zhuǎn),即可一站式完成從生成到修改的全部創(chuàng)作流程。
依托可靈視頻O1模型的深層語義理解力,用戶上傳的圖片、視頻、主體、文字——在可靈O1眼中,皆是指令。模型打破了模態(tài)限制,能夠綜合理解一張照片、一段視頻或一個(gè)主體,甚至一個(gè)角色的不同視角,精準(zhǔn)生成各種細(xì)節(jié)。

可靈O1的多模態(tài)指令輸入?yún)^(qū),讓繁瑣的剪輯后期變成了簡(jiǎn)單的對(duì)話。用戶無需手動(dòng)遮罩或關(guān)鍵幀,只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」,模型即可讀懂影像邏輯,從局部的主體替換,到整體的視頻風(fēng)格重繪,自動(dòng)完成像素級(jí)的語義重構(gòu)。此外,如圖片/主體參考;指令變換(視頻增加、刪除內(nèi)容、切換景別/視角、視頻修改任務(wù)等)、視頻參考、首尾幀、文生視頻等能力也一并支持。
針對(duì)AI視頻難以落地的痛點(diǎn)——角色與場(chǎng)景的一致性,可靈O1底層強(qiáng)化了對(duì)輸入圖像及視頻的理解。 它能像人類導(dǎo)演一樣,“記住”主角、道具和場(chǎng)景。無論鏡頭如何流轉(zhuǎn),主體特征始終穩(wěn)定如一。 此外,該模型展現(xiàn)了強(qiáng)大的多主體融合能力。用戶可以自由組合多個(gè)不同主體,或?qū)⒅黧w與參考圖混搭。即便是在復(fù)雜的群像戲或互動(dòng)場(chǎng)景中,模型也能獨(dú)立鎖定并保持每一位角色或道具的特征,確保“主角”在不同鏡頭中實(shí)現(xiàn)工業(yè)級(jí)的特征統(tǒng)一。

不再局限于單點(diǎn)任務(wù),而是支持“技能組合”。 用戶可以要求可靈O1“在視頻中增加主體的同時(shí)修改背景”,或者“在圖片參考生成時(shí),同步修改風(fēng)格”。這種一次生成多種創(chuàng)意變化的能力,極大地拓展了創(chuàng)作的自由度,讓創(chuàng)意的化學(xué)反應(yīng)成為可能。

敘事時(shí)長(zhǎng)自由定義,讓每一段故事都有其獨(dú)特的呼吸感。可靈O1將定義時(shí)間的權(quán)力交還給創(chuàng)作者,支持3-10秒自由生成。無論是短促的視覺沖擊,還是悠長(zhǎng)的故事鋪陳,都由用戶自由掌控。 值得注意的是,作為統(tǒng)一模型的一部分,可靈O1的首尾幀能力也將支持3-10秒的生成時(shí)長(zhǎng)選擇(即將發(fā)布),這將進(jìn)一步增強(qiáng)敘事的張弛度。

一同登場(chǎng)的還有可靈圖像O1模型,可實(shí)現(xiàn)從基礎(chǔ)圖像生成到高階細(xì)節(jié)編輯全鏈路無縫銜接,用戶既可通過純文本生成圖像,也可上傳最多10張參考圖進(jìn)行融合再創(chuàng)作。 該模型具備四大核心優(yōu)勢(shì):特征高度保持,讓主體元素穩(wěn)定不偏差;細(xì)節(jié)修改精準(zhǔn)響應(yīng),讓每一處調(diào)整都符合預(yù)期;風(fēng)格調(diào)性準(zhǔn)確把控,讓畫面氛圍始終統(tǒng)一;超豐富想象力,讓創(chuàng)意呈現(xiàn)更具張力,真正實(shí)現(xiàn)“所想即所得”。
一個(gè)模型,搞定影視、自媒體、廣告電商等多視頻創(chuàng)作場(chǎng)景
全新的可靈O1集生成與編輯于一體,可廣泛適用于影視、自媒體、廣告電商等多種場(chǎng)景。無論是從零構(gòu)建的敘事生成,還是對(duì)既有素材的深度重塑,可靈O1都能根據(jù)不同需求,靈活調(diào)用其參考、編輯的能力,輕松完成創(chuàng)作。
在影視創(chuàng)作領(lǐng)域,憑借可靈O1的超強(qiáng)一致性的圖片(主體)參考,配合主體庫功能,可以精準(zhǔn)鎖定每個(gè)分鏡的角色及服化道,輕松創(chuàng)作生成多個(gè)連貫的影視鏡頭;而對(duì)于視頻后期、自媒體創(chuàng)作者來說,可通過簡(jiǎn)單對(duì)話式的提示詞,如輸入“刪除背景中的路人”、“讓天空變藍(lán)”,就能讓可靈O1自動(dòng)完成像素級(jí)的智能修補(bǔ)與重構(gòu)。

針對(duì)傳統(tǒng)線下廣告實(shí)拍成本高,制作周期長(zhǎng)的問題。如今用戶只需上傳商品圖、模特圖和場(chǎng)景圖,配合簡(jiǎn)單指令描述,即可快速生成多個(gè)酷炫的商品展示廣告,大幅降低實(shí)拍成本。針對(duì)模特約拍麻煩、更換背景/服裝需要重復(fù)拍攝等問題,使用可靈O1,能搭建你的永不落幕的虛擬T臺(tái):上傳模特 + 服裝實(shí)拍圖,輸入指令,完美還原服飾的質(zhì)感和細(xì)節(jié),批量生產(chǎn)高質(zhì)量的 Lookbook 視頻。

據(jù)悉,可靈O1能實(shí)現(xiàn)上述強(qiáng)大而全面的功能,源于在技術(shù)底座上的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂,構(gòu)建了全新的生成式底座。融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長(zhǎng)上下文,實(shí)現(xiàn)了多任務(wù)的深度融合與統(tǒng)一。
