2025年10月28日,由中國(guó)人工智能學(xué)會(huì)組織的“多模態(tài)數(shù)字專(zhuān)家關(guān)鍵技術(shù)及產(chǎn)業(yè)應(yīng)用”科技成果鑒定會(huì)在北京舉行。經(jīng)專(zhuān)家委員會(huì)嚴(yán)格評(píng)審,云知聲研發(fā)的“多模態(tài)醫(yī)療垂類(lèi)大模型”“芯上端側(cè)小模型精煉化”和“多模態(tài)情智兼?zhèn)鋽?shù)字人”三項(xiàng)技術(shù)成果,均達(dá)到“國(guó)際領(lǐng)先”水平。

鑒定會(huì)現(xiàn)場(chǎng)
本次鑒定會(huì)匯聚了人工智能領(lǐng)域的頂尖專(zhuān)家力量,鑒定委員會(huì)由中科院自動(dòng)化所副所長(zhǎng)、中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)劉成林擔(dān)任主任,加拿大工程院外籍院士梅濤擔(dān)任副主任,聯(lián)合其他6位領(lǐng)域內(nèi)權(quán)威專(zhuān)家共同組成。專(zhuān)家組通過(guò)聽(tīng)取技術(shù)報(bào)告、觀摩成果演示、審閱檢測(cè)資料,并經(jīng)過(guò)多輪深入質(zhì)詢(xún)與論證,最終形成鑒定意見(jiàn)。整個(gè)評(píng)審過(guò)程嚴(yán)謹(jǐn)規(guī)范,充分體現(xiàn)了認(rèn)證的權(quán)威性與公信力。
在科技創(chuàng)新領(lǐng)域,“國(guó)際領(lǐng)先”“國(guó)際先進(jìn)”“國(guó)內(nèi)領(lǐng)先”“國(guó)內(nèi)先進(jìn)”四大等級(jí)是衡量科技成果技術(shù)水平的核心標(biāo)準(zhǔn)。其中,“國(guó)際領(lǐng)先”作為最高評(píng)價(jià)等級(jí),代表該項(xiàng)技術(shù)在全球相應(yīng)領(lǐng)域具備突破性創(chuàng)新,能夠填補(bǔ)國(guó)際技術(shù)空白,且在核心技術(shù)指標(biāo)、實(shí)際性能與應(yīng)用效果上,均顯著優(yōu)于國(guó)際同類(lèi)技術(shù)。此次云知聲三項(xiàng)技術(shù)同時(shí)斬獲這一頂級(jí)認(rèn)證,不僅是對(duì)企業(yè)長(zhǎng)期技術(shù)研發(fā)投入與創(chuàng)新能力的高度肯定,更標(biāo)志著公司在人工智能領(lǐng)域取得重要突破。

多模態(tài)醫(yī)療垂類(lèi)大模型
“多模態(tài)醫(yī)療垂類(lèi)大模型”基于云知聲通用大模型(山海大模型)孵化而成,實(shí)現(xiàn)了對(duì)醫(yī)學(xué)文本、影像(包括X光片、CT、病理切片等)多源異構(gòu)信息的深度融合與統(tǒng)一理解生成。該模型依托海量、多源、異構(gòu)的醫(yī)學(xué)數(shù)據(jù)(涵蓋文獻(xiàn)、研究、臨床記錄及知識(shí)庫(kù))進(jìn)行深度預(yù)訓(xùn)練,通過(guò)精細(xì)化數(shù)據(jù)處理技術(shù)自動(dòng)識(shí)別優(yōu)質(zhì)圖文數(shù)據(jù),并運(yùn)用多模態(tài)分析評(píng)估圖文匹配度,成功構(gòu)建了包含數(shù)億條高質(zhì)量圖文數(shù)據(jù)的訓(xùn)練體系。在此基礎(chǔ)上,創(chuàng)新性地融合了持續(xù)學(xué)習(xí)機(jī)制(增量訓(xùn)練)與知識(shí)檢索增強(qiáng)(RAG)等先進(jìn)知識(shí)注入范式,利用跨模態(tài)語(yǔ)義對(duì)齊技術(shù)不斷完善模型能力。
在實(shí)際醫(yī)療業(yè)務(wù)場(chǎng)景中,該模型已具備病歷生成、醫(yī)學(xué)報(bào)告生成、病歷質(zhì)控及影像報(bào)告質(zhì)控等多項(xiàng)業(yè)務(wù)落地能力。在肝局灶病變良惡性檢測(cè)任務(wù)中,模型準(zhǔn)確率突破90%,為臨床鑒別診斷提供了高度可靠的AI支持。同時(shí),該模型在多項(xiàng)權(quán)威評(píng)測(cè)中表現(xiàn)卓越:不僅斬獲CCKS2023-PromptCBLUE醫(yī)療大模型評(píng)測(cè)A、B榜雙料冠軍,在臨床執(zhí)業(yè)醫(yī)師資格考試中更取得523分(滿(mǎn)分600分)的優(yōu)異成績(jī),大幅超越人類(lèi)考生平均分(365分)。在2025年5月最新發(fā)布的MedBench評(píng)測(cè)榜單中,云知聲山海大模型醫(yī)療深度思考版(UniGPT-Med-U1)以綜合得分93.1分蟬聯(lián)冠軍,并在醫(yī)學(xué)語(yǔ)言理解與醫(yī)學(xué)安全倫理兩個(gè)專(zhuān)項(xiàng)評(píng)測(cè)中分別以122.3分和104.9分的佳績(jī)雙雙登頂,展現(xiàn)出卓越的技術(shù)領(lǐng)先性。
在實(shí)際醫(yī)療業(yè)務(wù)場(chǎng)景中,該模型已具備病歷生成、醫(yī)學(xué)報(bào)告生成、病歷質(zhì)控及影像報(bào)告質(zhì)控等多項(xiàng)業(yè)務(wù)落地能力。
芯上端側(cè)小模型精煉化
“芯上端側(cè)小模型精煉化”技術(shù)聚焦小樣本持續(xù)學(xué)習(xí)、低資源快速解碼、小參數(shù)模型增強(qiáng)與低比特模型量化等關(guān)鍵技術(shù)路徑,系統(tǒng)性地推進(jìn)AI模型輕量化與效能優(yōu)化。該技術(shù)使大模型能在端側(cè)芯片上高效穩(wěn)定運(yùn)行,在低功耗、低算力的實(shí)際工況下,充分滿(mǎn)足高準(zhǔn)確率與高實(shí)時(shí)性的推理要求。
面向個(gè)性化輕量級(jí)交互控制需求,該技術(shù)提出多種邊緣計(jì)算端側(cè)部署優(yōu)化方法,突破性解決了傳統(tǒng)端側(cè)模型效果差、解碼速度慢等行業(yè)痛點(diǎn)。在保持與大模型相當(dāng)交互效果的同時(shí),成功將模型資源消耗降低百倍以上,顯著提升運(yùn)行效率。
多模態(tài)情智兼?zhèn)鋽?shù)字人
“多模態(tài)情智兼?zhèn)鋽?shù)字人”由云知聲與中國(guó)科學(xué)技術(shù)大學(xué)於俊副教授團(tuán)隊(duì)聯(lián)合研發(fā)。該技術(shù)基于創(chuàng)新的“矛+盾”設(shè)計(jì)思想,在真實(shí)感與人機(jī)交互能力上實(shí)現(xiàn)重要突破。該技術(shù)通過(guò)設(shè)計(jì)全局與局部結(jié)合的自我交互注意模塊,提出多模態(tài)數(shù)據(jù)對(duì)齊與視頻無(wú)損渲染算法,并構(gòu)建了語(yǔ)音內(nèi)容與面部動(dòng)作特征分離的音視頻解耦訓(xùn)練框架。同時(shí),團(tuán)隊(duì)建立了兼顧外部表觀與內(nèi)部器官的人體全周三維重建體系,充分融合人類(lèi)生理特性與統(tǒng)計(jì)學(xué)習(xí)方法,構(gòu)建出高真實(shí)感的合成模型;通過(guò)完善音視頻同步的發(fā)音可視化系統(tǒng),實(shí)現(xiàn)了從語(yǔ)音特征到人體器官參數(shù)的精準(zhǔn)預(yù)測(cè),進(jìn)而達(dá)成人體動(dòng)作與器官狀態(tài)的視聽(tīng)覺(jué)協(xié)同表達(dá)與跨模態(tài)內(nèi)容生成?;诮馄蕦W(xué)精細(xì)的內(nèi)外透視化三維人體合成技術(shù),有效解決了當(dāng)前數(shù)字人技術(shù)中普遍存在的動(dòng)態(tài)表現(xiàn)真實(shí)感不足、內(nèi)外結(jié)構(gòu)割裂及缺乏生理關(guān)聯(lián)等核心難題,最終創(chuàng)造出能說(shuō)會(huì)唱、內(nèi)容豐富、力度多變、行為自然且情感充沛的高保真數(shù)字人。該成果可應(yīng)用于在線客服、虛擬助手、教育培訓(xùn)等多種場(chǎng)景。
在通用人工智能(AGI)浪潮重塑全球產(chǎn)業(yè)格局的背景下,專(zhuān)業(yè)級(jí)“數(shù)字專(zhuān)家”正成為推動(dòng)各行業(yè)生產(chǎn)力躍遷的關(guān)鍵引擎。全球特別是中美產(chǎn)業(yè)變革競(jìng)爭(zhēng)加劇,數(shù)字專(zhuān)家將引領(lǐng)各行業(yè)的生產(chǎn)力變革,成為中美戰(zhàn)略競(jìng)爭(zhēng)的關(guān)鍵。
作為國(guó)內(nèi)AGI技術(shù)產(chǎn)業(yè)化的先驅(qū)者之一,云知聲率先把握戰(zhàn)略機(jī)遇,打通“技術(shù)-場(chǎng)景-數(shù)據(jù)”閉環(huán),構(gòu)建專(zhuān)業(yè)級(jí)大模型及智能體,有效整合專(zhuān)業(yè)知識(shí)、聚焦關(guān)鍵問(wèn)題,通過(guò)行業(yè)知識(shí)增強(qiáng)和強(qiáng)化學(xué)習(xí),致力于專(zhuān)業(yè)級(jí)大模型構(gòu)建,推動(dòng)生產(chǎn)力變革。
通過(guò)打造“通用底座-專(zhuān)業(yè)智能體-端側(cè)芯片優(yōu)化-Atlas基礎(chǔ)設(shè)施”的四層技術(shù)架構(gòu)——通用大模型覆蓋廣度,專(zhuān)業(yè)智能體攻克深度,端云協(xié)同實(shí)現(xiàn)規(guī)?;?,基礎(chǔ)設(shè)施保障進(jìn)化效率,從智慧生活、醫(yī)療、保險(xiǎn)、交通等領(lǐng)域切入,為這些垂直行業(yè)打造數(shù)字專(zhuān)家,形成AI大模型時(shí)代的差異化競(jìng)爭(zhēng)優(yōu)勢(shì)及行業(yè)壁壘。
加上之前的“AI語(yǔ)音自由說(shuō)技術(shù)”,截至目前,云知聲已經(jīng)在四項(xiàng)關(guān)鍵技術(shù)上獲得了“國(guó)際領(lǐng)先認(rèn)證”,全面覆蓋語(yǔ)音技術(shù)、芯片、醫(yī)療大模型、數(shù)字人技術(shù)四大關(guān)鍵賽道,這些成果既筑牢了底層技術(shù)根基,也打通了從技術(shù)研發(fā)到場(chǎng)景落地的完整閉環(huán),為云知聲“打造數(shù)字專(zhuān)家,引領(lǐng)產(chǎn)業(yè)變革”提供了更加強(qiáng)勁的動(dòng)力!
未來(lái),云知聲將繼續(xù)深化“技術(shù)-場(chǎng)景-數(shù)據(jù)”閉環(huán),持續(xù)推動(dòng)AGI技術(shù)的迭代演進(jìn)。通過(guò)拓展技術(shù)上限與應(yīng)用邊界,加速商業(yè)化落地進(jìn)程,致力于將前沿技術(shù)創(chuàng)新轉(zhuǎn)化為實(shí)際生產(chǎn)力,在持續(xù)推動(dòng)產(chǎn)業(yè)智能化升級(jí)的同時(shí),為中國(guó)在全球人工智能競(jìng)爭(zhēng)中貢獻(xiàn)更多突破性成果。
