https://www.informationsecurity.com.tw/seminar/2026_chtsecurity/

新聞

Cisco 研究揭示:多輪對話攻擊讓 AI 安全防線形同虛設,攻擊成功率最高達 88%

2026 / 05 / 28
編輯部
Cisco 研究揭示:多輪對話攻擊讓 AI 安全防線形同虛設,攻擊成功率最高達 88%
Cisco 旗下 AI 威脅情報團隊發布最新研究,針對全球 15 款主流大型語言模型進行系統性評測。結果顯示,現行業界普遍採用的單輪(single-turn)安全基準測試嚴重低估了真實攻擊情境下的風險。當攻擊者改採多輪(multi-turn)對話策略逐步施壓,部分模型的攻擊成功率(Attack Success Rate,ASR)最高飆升至 88%,與單輪測試結果相差懸殊。

單輪測試數據掩蓋真實破口

本次研究共執行約 3 萬筆單輪提示測試,以及分布於逾 1,400 段對話的近 7,000 筆多輪攻擊測試,受測對象涵蓋 OpenAI、Anthropic、Google、Amazon 及 xAI 的旗艦閉源模型。

數據顯示,兩種測試制度產生了截然不同的安全排名與失敗分布。xAI 的 Grok 4.1 Fast(非推理模式)在多輪測試中 ASR 高達 88%,位居全部受測模型之冠。Google 的 Gemini 3 Pro 從單輪測試的約 18% 暴衝至多輪的 73%,跨制度差距超過 55 個百分點。OpenAI 的 GPT-5.4 則從個位數的單輪 ASR 上升至近 25%,漲幅約九倍。

即使是此次單輪防禦表現最佳的 Anthropic Claude 系列,在允許攻擊者持續調整策略後,ASR 仍落在 11% 至 16% 區間。研究指出,測試組中超過半數模型的跨制度絕對差距達 15 個百分點以上。

推理模式開或關,同款模型 ASR 差距逾 40 個百分點

研究中最具衝擊性的發現之一,來自同一款模型的不同組態設定。Grok 4.1 Fast 啟用推理(reasoning)模式後,多輪 ASR 下降逾四成,預設非推理模式與推理模式之間的安全表現差距超過 40 個百分點。

然而這項安全差距僅源於一個功能開關的切換,目前未出現在任何公開基準測試或模型說明文件中。換言之,採用預設組態的企業用戶,實際面臨的威脅輪廓可能遠比認知中更為嚴峻。

Amazon 的三款 Nova 系列模型則呈現相反走勢。其中 Nova 2 Lite 的單輪 ASR 相對偏高,多輪 ASR 卻是全部受測模型中最低,約為 8%,顯示不同模型架構在應對持續性攻擊時存在根本性差異。

五大攻擊策略主導多輪滲透結果

研究歸納出驅動多輪攻擊結果的五大策略家族:角色扮演與人格設定(role-play and persona adoption)、情境模糊化(contextual ambiguity)、拒絕重構(refusal reframing)、資訊分解(information decomposition),以及漸進升溫式施壓(crescendo-style escalation)。

各攻擊策略對不同模型的穿透效果差異顯著。同一手法在某些模型幾乎無效,在另一些模型卻輕易得手,說明策略標籤更多反映的是模型間的安全分化程度,而非攻擊本身的整體難易度。

在單輪攻擊面向,「冒充 AI(Imposter AI)」、「軟性改述(Soft Paraphrase)」與「系統提示(System Prompts)」三種手法主導排名。其中冒充 AI 的效果遠超排名第十的手法,意味著針對性修補少數高風險攻擊面,即可對多數模型的整體 ASR 數字產生顯著改善。

護欄能減弱風險,但無法根絕

Cisco AI 威脅與安全研究負責人 Amy Chang 指出,企業在生產環境中通常會在基礎模型外加裝額外安全層,這些護欄(guardrail)確實有助於降低風險,但存在明確上限。她表示,基礎模型的安全底線決定了整個生產系統所能達到的最高防護水準;一旦 AI 代理系統出現偏差,破壞性可能遠超傳統軟體漏洞。

Chang 強調,買家與監管機構在評估模型時,應優先追問:「面對真實攻擊者的持續追問與策略調整,這款模型的安全防線能否守住?」她說明,真實攻擊者不會在第一次遭拒後放棄,而是持續跨輪次建立情境、重塑問題框架或逐步升溫施壓。

三項可操作建議與監管缺口

Cisco 研究團隊提出三項具體建議:每次模型發布應按攻擊策略家族分別公布 ASR;以排名前三的攻擊手法與內容類型作為部署把關門檻,並設定 3 個百分點的回歸警戒線;凡跨制度差距超過 15 個百分點的模型,應觸發人工審查機制。若以本次測試群為基準,僅第三項規則便可標記出超過半數受測模型。

在監管面向,NIST 人工智慧風險管理框架(AI Risk Management Framework)、即將發布的 NIST Cyber AI Profile(IR 8596),以及歐盟 AI 法案(EU AI Act)第 15 條,雖均要求對抗性穩健性測試,然而如何設計測試情境、拆解攻擊策略、分項公布結果,這些關鍵細節目前均無明確規範,與研究建議的評估要求仍有落差。

本研究延伸自 Cisco 較早針對 8 款開源模型所進行的研究,當時多輪攻擊 ASR 已較單輪基準高出二至十倍,最高逾 90%。綜合兩份研究結果,多輪攻擊脆弱性(multi-turn vulnerability)已是當前 AI 前沿的結構性特徵,開源與閉源模型均無例外。

本文轉載自 HelpNetSecurity。

最新活動

看更多活動

大家都在看

資安院實測 AI 代理工具:網頁注入、偽裝技能、記憶覆蓋三大攻擊路徑逐一拆解,OpenClaw 全面失守
資安院實測 AI 代理工具:網頁注入、偽裝技能、記憶覆蓋三大攻擊路徑逐一拆解,OpenClaw 全面失守
Anthropic 雙線出擊:28 大資安平台整合上線,限制級模型 Mythos即將公開
Anthropic 雙線出擊:28 大資安平台整合上線,限制級模型 Mythos即將公開
拿到 ISO 27001 證書就安全了?林宜隆教授:四層標準架構才是資安治理正解
拿到 ISO 27001 證書就安全了?林宜隆教授:四層標準架構才是資安治理正解
防禦者指南:前沿 AI 對資安的影響
防禦者指南:前沿 AI 對資安的影響
HPE推出多項資安創新 全面強化AI導入安全與企業營運韌性
HPE推出多項資安創新 全面強化AI導入安全與企業營運韌性