全球首個(gè)大一統(tǒng)多模態(tài)視頻模型?可靈O1發(fā)布讓P視頻像P圖一樣簡(jiǎn)單

每日快訊

2025

12/03

00:04

評(píng)論

近日，全球首個(gè)大一統(tǒng)的多模態(tài)視頻、圖片創(chuàng)作工具"可靈O1"正式上線?？伸`O1基于全新的視頻和圖像模型，以自然語言作為語義骨架，配合視頻、圖片、主體等多模態(tài)描述，將所有生成和編輯任務(wù)融合于一個(gè)全能引擎之中，為用戶搭建全新的多模態(tài)創(chuàng)作流，實(shí)現(xiàn)從靈感到成品的一站式閉環(huán)。

大一統(tǒng)模型，解決視頻創(chuàng)作的所有難題

作為首個(gè)大一統(tǒng)多模態(tài)視頻模型，可靈O1基于MVL（Multi-modal Visual Language，多模態(tài)視覺語言）理念，打破了傳統(tǒng)單一視頻生成任務(wù)的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪、視頻修改變換、風(fēng)格重繪、鏡頭延展等多種任務(wù)，融合于同一個(gè)全能引擎之中，使得用戶無需在多個(gè)模型及工具間跳轉(zhuǎn)，即可一站式完成從生成到修改的全部創(chuàng)作流程。

依托可靈視頻O1模型的深層語義理解力，用戶上傳的圖片、視頻、主體、文字——在可靈O1眼中，皆是指令。模型打破了模態(tài)限制，能夠綜合理解一張照片、一段視頻或一個(gè)主體，甚至一個(gè)角色的不同視角，精準(zhǔn)生成各種細(xì)節(jié)。

可靈O1的多模態(tài)指令輸入?yún)^(qū)，讓繁瑣的剪輯后期變成了簡(jiǎn)單的對(duì)話。用戶無需手動(dòng)遮罩或關(guān)鍵幀，只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」，模型即可讀懂影像邏輯，從局部的主體替換，到整體的視頻風(fēng)格重繪，自動(dòng)完成像素級(jí)的語義重構(gòu)。此外，如圖片/主體參考；指令變換（視頻增加、刪除內(nèi)容、切換景別/視角、視頻修改任務(wù)等）、視頻參考、首尾幀、文生視頻等能力也一并支持。

針對(duì)AI視頻難以落地的痛點(diǎn)——角色與場(chǎng)景的一致性，可靈O1底層強(qiáng)化了對(duì)輸入圖像及視頻的理解。它能像人類導(dǎo)演一樣，“記住”主角、道具和場(chǎng)景。無論鏡頭如何流轉(zhuǎn)，主體特征始終穩(wěn)定如一。此外，該模型展現(xiàn)了強(qiáng)大的多主體融合能力。用戶可以自由組合多個(gè)不同主體，或?qū)⒅黧w與參考圖混搭。即便是在復(fù)雜的群像戲或互動(dòng)場(chǎng)景中，模型也能獨(dú)立鎖定并保持每一位角色或道具的特征，確保“主角”在不同鏡頭中實(shí)現(xiàn)工業(yè)級(jí)的特征統(tǒng)一。

不再局限于單點(diǎn)任務(wù)，而是支持“技能組合”。用戶可以要求可靈O1“在視頻中增加主體的同時(shí)修改背景”，或者“在圖片參考生成時(shí)，同步修改風(fēng)格”。這種一次生成多種創(chuàng)意變化的能力，極大地拓展了創(chuàng)作的自由度，讓創(chuàng)意的化學(xué)反應(yīng)成為可能。

敘事時(shí)長(zhǎng)自由定義，讓每一段故事都有其獨(dú)特的呼吸感。可靈O1將定義時(shí)間的權(quán)力交還給創(chuàng)作者，支持3-10秒自由生成。無論是短促的視覺沖擊，還是悠長(zhǎng)的故事鋪陳，都由用戶自由掌控。值得注意的是，作為統(tǒng)一模型的一部分，可靈O1的首尾幀能力也將支持3-10秒的生成時(shí)長(zhǎng)選擇（即將發(fā)布），這將進(jìn)一步增強(qiáng)敘事的張弛度。

一同登場(chǎng)的還有可靈圖像O1模型，可實(shí)現(xiàn)從基礎(chǔ)圖像生成到高階細(xì)節(jié)編輯全鏈路無縫銜接，用戶既可通過純文本生成圖像，也可上傳最多10張參考圖進(jìn)行融合再創(chuàng)作。該模型具備四大核心優(yōu)勢(shì)：特征高度保持，讓主體元素穩(wěn)定不偏差；細(xì)節(jié)修改精準(zhǔn)響應(yīng)，讓每一處調(diào)整都符合預(yù)期；風(fēng)格調(diào)性準(zhǔn)確把控，讓畫面氛圍始終統(tǒng)一；超豐富想象力，讓創(chuàng)意呈現(xiàn)更具張力，真正實(shí)現(xiàn)“所想即所得”。

一個(gè)模型，搞定影視、自媒體、廣告電商等多視頻創(chuàng)作場(chǎng)景

全新的可靈O1集生成與編輯于一體，可廣泛適用于影視、自媒體、廣告電商等多種場(chǎng)景。無論是從零構(gòu)建的敘事生成，還是對(duì)既有素材的深度重塑，可靈O1都能根據(jù)不同需求，靈活調(diào)用其參考、編輯的能力，輕松完成創(chuàng)作。

在影視創(chuàng)作領(lǐng)域，憑借可靈O1的超強(qiáng)一致性的圖片（主體）參考，配合主體庫功能，可以精準(zhǔn)鎖定每個(gè)分鏡的角色及服化道，輕松創(chuàng)作生成多個(gè)連貫的影視鏡頭；而對(duì)于視頻后期、自媒體創(chuàng)作者來說，可通過簡(jiǎn)單對(duì)話式的提示詞，如輸入“刪除背景中的路人”、“讓天空變藍(lán)”，就能讓可靈O1自動(dòng)完成像素級(jí)的智能修補(bǔ)與重構(gòu)。

針對(duì)傳統(tǒng)線下廣告實(shí)拍成本高，制作周期長(zhǎng)的問題。如今用戶只需上傳商品圖、模特圖和場(chǎng)景圖，配合簡(jiǎn)單指令描述，即可快速生成多個(gè)酷炫的商品展示廣告，大幅降低實(shí)拍成本。針對(duì)模特約拍麻煩、更換背景/服裝需要重復(fù)拍攝等問題，使用可靈O1，能搭建你的永不落幕的虛擬T臺(tái)：上傳模特 + 服裝實(shí)拍圖，輸入指令，完美還原服飾的質(zhì)感和細(xì)節(jié)，批量生產(chǎn)高質(zhì)量的 Lookbook 視頻。

據(jù)悉，可靈O1能實(shí)現(xiàn)上述強(qiáng)大而全面的功能，源于在技術(shù)底座上的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂，構(gòu)建了全新的生成式底座。融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長(zhǎng)上下文，實(shí)現(xiàn)了多任務(wù)的深度融合與統(tǒng)一。

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型?可靈O1發(fā)布讓P視頻像P圖一樣簡(jiǎn)單

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型?可靈O1發(fā)布 讓P視頻像P圖一樣簡(jiǎn)單

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型?可靈O1發(fā)布讓P視頻像P圖一樣簡(jiǎn)單

用 eSIM 取代手機(jī)卡，究竟難在哪里？

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！