萬(wàn)相 2.6 系列模型的發(fā)布,再度印證了一件事,只要阿里云提提速,全球大模型產(chǎn)業(yè)就會(huì)上一個(gè)強(qiáng)度。
阿里云將大模型戰(zhàn)火燒到了多模態(tài)領(lǐng)域,這在行業(yè)預(yù)期之內(nèi)。今年以來(lái),多模態(tài)模型的調(diào)用量大規(guī)模增長(zhǎng),因?yàn)殡S著大模型的加速落地,行業(yè)很快發(fā)現(xiàn),文本能解決的問(wèn)題有限,現(xiàn)實(shí)世界天然就是多模態(tài)的輸入輸出形態(tài),多模態(tài)模型預(yù)計(jì)成為未來(lái)一段時(shí)間產(chǎn)業(yè)競(jìng)爭(zhēng)的主線。
行業(yè)預(yù)期之外的是,阿里云在多模態(tài)領(lǐng)域的追趕和落地效率。以往阿里云并不以多模態(tài)模型見(jiàn)長(zhǎng),不過(guò)就像谷歌聯(lián)合創(chuàng)始人謝爾蓋布林所言,真正解決問(wèn)題的是算法改進(jìn),過(guò)去十年里,算法層面的進(jìn)步,其實(shí)跑得比算力提升還快。
阿里目前沒(méi)有披露整體算法的技術(shù)細(xì)節(jié),有據(jù)可查的是,通義萬(wàn)相在模型結(jié)構(gòu)上集成了多項(xiàng)創(chuàng)新技術(shù),可對(duì)輸入?yún)⒖家曨l進(jìn)行多模態(tài)聯(lián)合建模與學(xué)習(xí),參考具有時(shí)序信息的主體情緒、姿態(tài)和多角度全面視覺(jué)特征,同時(shí)提取音色、語(yǔ)速等聲學(xué)特征,在生成階段作為參考條件控制,實(shí)現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移。
在 AI 軍備競(jìng)賽中,新模型往往只是阿里云的沖鋒號(hào),更值得關(guān)注的,是阿里云三位一體的 " 打擊 " 能力:首先拿出世界第一梯隊(duì)級(jí)別的閉源模型,掌握技術(shù)和商業(yè)的主動(dòng)權(quán),然后做該領(lǐng)域的全開源,應(yīng)用門檻大幅降低,應(yīng)用生態(tài)加速繁榮,最后是讓 AI 落地到產(chǎn)業(yè),阿里云提供體系化的工程能力。
大模型,阿里云為何這么 " 卷 "
在所有關(guān)于 AI 的敘事邏輯中,模型都是原點(diǎn),但是,對(duì)于要不要自研模型,縱使頭部廠商也有分歧。
例如早期 OpenAI 和微軟的合作,憑借對(duì) OpenAI 的前瞻性投資,微軟拿到了 GPT 大模型的優(yōu)先使用權(quán),但 OpenAI 并不滿足于成為微軟體系內(nèi)的模型供應(yīng)商,雙方早期緊密的綁定關(guān)系早已出現(xiàn)裂痕。
AWS 信奉模型自由," 沒(méi)有一個(gè)大模型能滿足所有客戶 ",于是 AWS 引入各大模型托管到自家平臺(tái),然而,頂級(jí)模型具有稀缺性,要么在競(jìng)爭(zhēng)對(duì)手那,要么模型企業(yè)傾向于自己提供服務(wù),用戶無(wú)法獲得最好的模型體驗(yàn)。
和微軟、AWS 不同,阿里云堅(jiān)定地走上了另一條路,堅(jiān)定自研大模型,尋根究底的話,在于不同廠商對(duì)模型的認(rèn)知不同。如果把模型視作最根本的核心競(jìng)爭(zhēng)力,那么就必然要掌握在自己手中,反之則可以通過(guò)合作等方式來(lái)補(bǔ)足。
阿里云的觀點(diǎn)是,未來(lái)模型將運(yùn)行在所有計(jì)算設(shè)備中,并具備可持久記憶,端云聯(lián)動(dòng)的運(yùn)行狀態(tài),甚至可以隨時(shí)更新參數(shù),自我迭代,類似今天的 OS 運(yùn)行在各種環(huán)境之中。
對(duì)于一個(gè)操作系統(tǒng)級(jí)別的新技術(shù),阿里巴巴理所當(dāng)然地選擇舉全公司之力投入。隨著時(shí)間的推移,微軟和亞馬遜也紛紛加大自研模型的投入,不再過(guò)度依賴其他模型廠商的供應(yīng),這也從側(cè)面印證了阿里云早期戰(zhàn)略預(yù)判的正確性。
回到模型本身,自研領(lǐng)先的閉源模型,對(duì)云廠商而言不僅是技術(shù)的象征,更是一種戰(zhàn)略級(jí)資源。通義千問(wèn)旗艦?zāi)P?Qwen3-Max 性能超過(guò) GPT5、Claude Opus 4 等,躋身全球前三,頂尖閉源模型吸引了大量開發(fā)者、企業(yè)和合作伙伴在其上構(gòu)建應(yīng)用,形成高粘性網(wǎng)絡(luò)效應(yīng),阿里云得以在產(chǎn)業(yè)鏈上占據(jù)主動(dòng)權(quán)。
再以萬(wàn)相 2.6 系列為例,國(guó)內(nèi)用戶也能使用到 Sora2 級(jí)別的能力,其不僅是全球功能最全的視頻生成模型,該系列模型面向?qū)I(yè)影視制作和圖像創(chuàng)作場(chǎng)景進(jìn)行了全面升級(jí),也是國(guó)內(nèi)首個(gè)支持角色扮演功能的視頻模型,同時(shí)支持音畫同步、多鏡頭生成及聲音驅(qū)動(dòng)等功能。
模型領(lǐng)域有突出的馬太效應(yīng),一步領(lǐng)先,步步領(lǐng)先。萬(wàn)相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動(dòng)作生成、角色扮演及通用視頻編輯等 10 多種視覺(jué)創(chuàng)作能力,已廣泛應(yīng)用于 AI 漫劇、廣告設(shè)計(jì)和短視頻創(chuàng)作等領(lǐng)域。
自研領(lǐng)先閉源模型,是云廠商從技術(shù)能力到商業(yè)生態(tài)、從競(jìng)爭(zhēng)壁壘到戰(zhàn)略主動(dòng)權(quán)的核心引擎,也是未來(lái)競(jìng)爭(zhēng)格局中最關(guān)鍵的籌碼。
阿里開源的意義,還是被低估了
中國(guó)廠商素來(lái)在開源技術(shù)圈聲量不大,拿得多貢獻(xiàn)得少,到了大模型時(shí)代,阿里云成為國(guó)內(nèi)最早開源自研大模型的 " 大廠 ",也是全球唯一一家積極研發(fā)先進(jìn) AI 模型并且全方位開源的云計(jì)算廠商,業(yè)界率先實(shí)現(xiàn) " 全尺寸、全模態(tài) " 的全面開源。
阿里內(nèi)部達(dá)成共識(shí),通義千問(wèn)選擇開放路線,是為了打造 AI 時(shí)代的 Android。在 LLM 時(shí)代,開源模型創(chuàng)造的價(jià)值和能滲透的場(chǎng)景,會(huì)遠(yuǎn)遠(yuǎn)大于閉源模型。
海外企業(yè)反而開始秘而不宣,不論是 OpenAI、Anthropic 這些大模型廠商,還是谷歌等巨頭,甚至一開始走開源路線的 Meta,都走上了閉源路線。
從 2023 年至今,阿里通義團(tuán)隊(duì)已開源 300 多款模型,包含大語(yǔ)言模型千問(wèn) Qwen 及視覺(jué)生成模型萬(wàn)相 Wan 等兩大基模系列。
「全模態(tài)」指的是開源文本生成模型、視覺(jué)理解 / 生成模型、語(yǔ)音理解 / 生成模型、文生圖及視頻模型等;「全尺寸」指的是開源模型覆蓋 0.5B、0.6B、1.5B、1.7B、3B、4B、7B、8B、14B、30B、32B、72B、110B、235B、480B 等參數(shù),同時(shí) Qwen 支持中、英、法、德、西、俄、日、韓、越、阿拉伯等 119 種語(yǔ)言及方言。
阿里提供了各種場(chǎng)景下的更好模型,這是由市場(chǎng)決定的,客戶需求分散,行業(yè)場(chǎng)景千差萬(wàn)別,預(yù)算、時(shí)延、部署要求完全不同,某種程度上和 AWS" 沒(méi)有一個(gè)大模型能滿足所有客戶 " 的理念類似,但是阿里云優(yōu)先由自己來(lái)提供大語(yǔ)言模型、多模態(tài)模型,以及不同尺寸、不同成本、不同部署形態(tài)的模型組合。
對(duì)于全球開發(fā)者而言,Qwen 開源模型已經(jīng)成為依賴,美國(guó) AI 專家 Nathan Lambert 發(fā)出 " 硅谷建立在 Qwen 之上 " 的驚嘆,谷歌前 CEO 施密特甚至表示擔(dān)心這將削弱美國(guó)技術(shù)領(lǐng)導(dǎo)力,因?yàn)榇蠖鄶?shù)國(guó)家和公司會(huì)選擇開源的中國(guó)開源大模型。
截至目前,通義千問(wèn) Qwen 衍生模型數(shù)量已突破 18 萬(wàn),遠(yuǎn)超 Meta Llama 系列模型;通義千問(wèn) Qwen 在全球下載量超 7 億,據(jù)彭博統(tǒng)計(jì),截至 2025 年 10 月,千問(wèn) Qwen 下載量也已超越 Llama 模型,通義成為事實(shí)意義上的全球第一 AI 開源模型。
開源對(duì)于阿里云也大有裨益,作為 AI 和云計(jì)算市場(chǎng)的追趕者,開源模型讓更多企業(yè)和開發(fā)者參與,也讓阿里云成為底層規(guī)范和實(shí)踐的參考,吸引更多的用戶使用阿里云生態(tài),這是一個(gè)雙贏局面。
在一個(gè)高度依賴算力、數(shù)據(jù)和資本的賽道里,大模型天然有走向 " 寡頭化 " 的風(fēng)險(xiǎn)。少數(shù)公司掌握最強(qiáng)模型、最先進(jìn)算力,其余玩家只能圍繞 API 做應(yīng)用,行業(yè)創(chuàng)新的天花板被提前鎖死。
阿里的開源,在某種程度上拉低了這條門檻。它讓更多開發(fā)者、中小企業(yè)和行業(yè)玩家,有機(jī)會(huì)直接參與到底層模型與工程體系中,而不是永遠(yuǎn)停留在調(diào)用者的位置。
體系化 AI 工程,大模型深入產(chǎn)業(yè)場(chǎng)景
過(guò)去一年,阿里云 AI 算力增長(zhǎng)超 5 倍,AI 存力增長(zhǎng) 4 倍多,頭部車企正在基于 Qwen-VL 定制了自己的 VLA 和世界模型,數(shù)十家具身智能企業(yè)在和通義進(jìn)行合作,甚至連競(jìng)爭(zhēng)對(duì)手在進(jìn)行具身領(lǐng)域的技術(shù)探索中,也使用了 Qwen 系列模型。
這說(shuō)明,阿里云的能力邊界早已超出模型之外,有了頂級(jí)閉源模型作標(biāo)桿,開源模型實(shí)現(xiàn)能力下沉和生態(tài)繁榮,阿里云讓前沿模型轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值的關(guān)鍵,就在于體系化的 AI 服務(wù)。
過(guò)去兩年中,產(chǎn)業(yè)鏈廠商都在加速推出各類工具和服務(wù),以支持生成式 AI 的完整工程化流水線,不再局限于對(duì)生成式 AI 模型進(jìn)行簡(jiǎn)單的提示(prompt)調(diào)用,而是蔓延到數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練 / 精調(diào)、模型管理、評(píng)估、觀測(cè)等模型全生命周期工具。
以時(shí)下火熱的自動(dòng)駕駛和具身智能為例,需要多模態(tài)模型端到端的服務(wù)。其中,汽車自動(dòng)駕駛需處理采集車與量產(chǎn)車回傳的海量圖像數(shù)據(jù),傳統(tǒng) CV 小模型的語(yǔ)義理解弱、泛化差、準(zhǔn)確率低。
采用通義千問(wèn)多模態(tài)大模型 Qwen3-VL 后,可一次性為圖像打上數(shù)百個(gè)語(yǔ)義標(biāo)簽,泛化能力與檢索準(zhǔn)確率較傳統(tǒng)方案提升 50% 以上,車企既可直接調(diào)用其云端服務(wù)處理難例場(chǎng)景,又可依托其開源開放特性自主微調(diào)模型,大幅降低標(biāo)注與迭代成本。該方案已落地比亞迪、卓馭、元戎等廠商。
在具身智能研發(fā)中,Qwen-VL 在云端數(shù)據(jù)標(biāo)注階段,可顯著提升標(biāo)注效率與數(shù)據(jù)質(zhì)量,在端側(cè),面向 Vision-Language-Action(VLA)架構(gòu)的具身智能企業(yè)基于 Qwen-VL 開展后訓(xùn)練,加速了具身智能系統(tǒng)的工程化落地與高效迭代。
工程化能力的優(yōu)勢(shì)就在于它將模型的能力轉(zhuǎn)化為可復(fù)用、可擴(kuò)展、可落地的業(yè)務(wù)工具,極大降低了標(biāo)注成本、訓(xùn)練成本和迭代時(shí)間,同時(shí)保證了系統(tǒng)的穩(wěn)定性與可控性。
智能硬件也是多模態(tài)模型一個(gè)充滿想象空間的市場(chǎng),雷鳥 V3 AI 眼鏡融合 Qwen-VL、Qwen-Audio,AI 識(shí)別準(zhǔn)確率達(dá) 98%;創(chuàng)維電視和閨蜜機(jī)依托 Qwen-VL 與 CosyVoice,實(shí)現(xiàn) 99% 意圖識(shí)別精度的深度內(nèi)容搜索;聽力熊 V8 基于 Qwen-Omni 和 Qwen-VL 能力,通過(guò)拍照觸發(fā) AI 講解,交互頻次翻倍。多模態(tài)能力正讓 AI 深度融入物理世界,重塑終端體驗(yàn)。
此外,在金融場(chǎng)景非結(jié)構(gòu)化數(shù)據(jù)的處理階段,Qwen-VL 可實(shí)現(xiàn)材料解析效率提升 70% 以上,定損、投研等流程從小時(shí)級(jí)壓縮至分鐘級(jí)。
來(lái)源:鈦媒體
結(jié)合如上實(shí)踐來(lái)看,體系化 AI 工程的核心,就是把大模型的能力從實(shí)驗(yàn)室搬到產(chǎn)業(yè)場(chǎng)景,其中涉及到復(fù)雜的場(chǎng)景拆解和能力重組,它不僅包括模型本身的訓(xùn)練和優(yōu)化,還涵蓋數(shù)據(jù)采集與標(biāo)注、算力調(diào)度、分布式訓(xùn)練、推理加速、微調(diào)與定制化部署等全鏈路能力,這也是阿里云作為云廠商的先天優(yōu)勢(shì)。
三位一體的全棧 AI 體系,使得阿里云有能力完成 AI 價(jià)值傳導(dǎo)的閉環(huán),真正把大模型從實(shí)驗(yàn)室推向現(xiàn)實(shí)世界,把能力優(yōu)勢(shì)轉(zhuǎn)化為產(chǎn)業(yè)競(jìng)爭(zhēng)力,也讓整個(gè)行業(yè)的格局隨之重塑。
