2025年11月, 網(wǎng)絡安全解決方案的先驅(qū)與全球領導者Check Point軟件技術有限公司與行業(yè)領先、專注于AI代理應用安全的AI原生安全平臺Lakera,聯(lián)合英國人工智能安全研究所(AISI)的研究人員,近日發(fā)布專為AI智能體中大型語言模型(LLM)安全設計的開源安全評估工具——骨干破壞基準測試(backbone breaker benchmark )b3。
b3 基于“威脅快照”的新理念構建,不再模擬人工智能代理從始至終的完整過程,而是聚焦于大語言模型最易暴露漏洞的關鍵節(jié)點。通過在這些精確時刻測試模型,開發(fā)者和模型供應商無需構建復雜的完整代理工作流,即可評估其系統(tǒng)在更真實對抗挑戰(zhàn)中的抗壓能力。
“我們創(chuàng)造b3基準測試,是因為當今人工智能代理的安全性完全取決于其背后的LLM模型,”Check Point旗下公司Lakera的聯(lián)合創(chuàng)始人兼首席科學家Mateo Rojas-Carulla表示。“威脅快照功能讓我們能夠系統(tǒng)性地揭示那些至今仍隱藏在復雜代理工作流中的漏洞。通過向全球開放該基準測試,我們希望為開發(fā)者和模型供應商提供一種切實可行的方法,來衡量并提升其安全態(tài)勢。”
該基準測試結(jié)合了10個具有代表性的代理“威脅快照”,以及通過紅隊對抗測試Gandalf: Agent Breaker收集的19,433個高質(zhì)量眾包對抗攻擊數(shù)據(jù)集。它評估了系統(tǒng)對各類攻擊的易受攻擊性,包括系統(tǒng)提示泄露、釣魚鏈接植入、惡意代碼注入、拒絕服務攻擊以及未授權工具調(diào)用等。
Gandalf: Agent Breaker是一款黑客模擬游戲,挑戰(zhàn)玩家在真實場景中破解并利用AI代理的能力。游戲內(nèi)置的十款通用人工智能應用程序模擬了現(xiàn)實世界中AI代理的行為模式。每款應用均設有不同難度等級、分層防御機制及創(chuàng)新攻擊面,旨在考驗從提示工程到紅隊對抗等全方位技能。部分應用基于聊天交互,其余則需運用代碼級思維、文件處理、內(nèi)存操作或外部工具使用等能力。
Gandalf: Agent Breaker的初始版本誕生于Lakera內(nèi)部的黑客馬拉松競賽,當時藍隊與紅隊試圖為持有秘密密碼的大型語言模型構建最強大的防御與攻擊體系。自2023年發(fā)布以來,它已成為全球規(guī)模最大的紅隊對抗社區(qū),累計生成逾8000萬條數(shù)據(jù)點。這款最初作為趣味游戲開發(fā)的工具,通過揭示生成式AI應用中的現(xiàn)實漏洞,有效提升了人們對“AI優(yōu)先安全”重要性的認知。
