Cisco 研究揭示：多輪對話攻擊讓 AI 安全防線形同虛設，攻擊成功率最高達 88%

2026 / 05 / 28

編輯部

Cisco 研究揭示：多輪對話攻擊讓 AI 安全防線形同虛設，攻擊成功率最高達 88%

Cisco 旗下 AI 威脅情報團隊發布最新研究，針對全球 15 款主流大型語言模型進行系統性評測。結果顯示，現行業界普遍採用的單輪（single-turn）安全基準測試嚴重低估了真實攻擊情境下的風險。當攻擊者改採多輪（multi-turn）對話策略逐步施壓，部分模型的攻擊成功率（Attack Success Rate，ASR）最高飆升至 88%，與單輪測試結果相差懸殊。

單輪測試數據掩蓋真實破口

本次研究共執行約 3 萬筆單輪提示測試，以及分布於逾 1,400 段對話的近 7,000 筆多輪攻擊測試，受測對象涵蓋 OpenAI、Anthropic、Google、Amazon 及 xAI 的旗艦閉源模型。

數據顯示，兩種測試制度產生了截然不同的安全排名與失敗分布。xAI 的 Grok 4.1 Fast（非推理模式）在多輪測試中 ASR 高達 88%，位居全部受測模型之冠。Google 的 Gemini 3 Pro 從單輪測試的約 18% 暴衝至多輪的 73%，跨制度差距超過 55 個百分點。OpenAI 的 GPT-5.4 則從個位數的單輪 ASR 上升至近 25%，漲幅約九倍。

即使是此次單輪防禦表現最佳的 Anthropic Claude 系列，在允許攻擊者持續調整策略後，ASR 仍落在 11% 至 16% 區間。研究指出，測試組中超過半數模型的跨制度絕對差距達 15 個百分點以上。

推理模式開或關，同款模型 ASR 差距逾 40 個百分點

研究中最具衝擊性的發現之一，來自同一款模型的不同組態設定。Grok 4.1 Fast 啟用推理（reasoning）模式後，多輪 ASR 下降逾四成，預設非推理模式與推理模式之間的安全表現差距超過 40 個百分點。

然而這項安全差距僅源於一個功能開關的切換，目前未出現在任何公開基準測試或模型說明文件中。換言之，採用預設組態的企業用戶，實際面臨的威脅輪廓可能遠比認知中更為嚴峻。

Amazon 的三款 Nova 系列模型則呈現相反走勢。其中 Nova 2 Lite 的單輪 ASR 相對偏高，多輪 ASR 卻是全部受測模型中最低，約為 8%，顯示不同模型架構在應對持續性攻擊時存在根本性差異。

五大攻擊策略主導多輪滲透結果

研究歸納出驅動多輪攻擊結果的五大策略家族：角色扮演與人格設定（role-play and persona adoption）、情境模糊化（contextual ambiguity）、拒絕重構（refusal reframing）、資訊分解（information decomposition），以及漸進升溫式施壓（crescendo-style escalation）。

各攻擊策略對不同模型的穿透效果差異顯著。同一手法在某些模型幾乎無效，在另一些模型卻輕易得手，說明策略標籤更多反映的是模型間的安全分化程度，而非攻擊本身的整體難易度。

在單輪攻擊面向，「冒充 AI（Imposter AI）」、「軟性改述（Soft Paraphrase）」與「系統提示（System Prompts）」三種手法主導排名。其中冒充 AI 的效果遠超排名第十的手法，意味著針對性修補少數高風險攻擊面，即可對多數模型的整體 ASR 數字產生顯著改善。

護欄能減弱風險，但無法根絕

Cisco AI 威脅與安全研究負責人 Amy Chang 指出，企業在生產環境中通常會在基礎模型外加裝額外安全層，這些護欄（guardrail）確實有助於降低風險，但存在明確上限。她表示，基礎模型的安全底線決定了整個生產系統所能達到的最高防護水準；一旦 AI 代理系統出現偏差，破壞性可能遠超傳統軟體漏洞。

Chang 強調，買家與監管機構在評估模型時，應優先追問：「面對真實攻擊者的持續追問與策略調整，這款模型的安全防線能否守住？」她說明，真實攻擊者不會在第一次遭拒後放棄，而是持續跨輪次建立情境、重塑問題框架或逐步升溫施壓。

三項可操作建議與監管缺口

Cisco 研究團隊提出三項具體建議：每次模型發布應按攻擊策略家族分別公布 ASR；以排名前三的攻擊手法與內容類型作為部署把關門檻，並設定 3 個百分點的回歸警戒線；凡跨制度差距超過 15 個百分點的模型，應觸發人工審查機制。若以本次測試群為基準，僅第三項規則便可標記出超過半數受測模型。

在監管面向，NIST 人工智慧風險管理框架（AI Risk Management Framework）、即將發布的 NIST Cyber AI Profile（IR 8596），以及歐盟 AI 法案（EU AI Act）第 15 條，雖均要求對抗性穩健性測試，然而如何設計測試情境、拆解攻擊策略、分項公布結果，這些關鍵細節目前均無明確規範，與研究建議的評估要求仍有落差。

本研究延伸自 Cisco 較早針對 8 款開源模型所進行的研究，當時多輪攻擊 ASR 已較單輪基準高出二至十倍，最高逾 90%。綜合兩份研究結果，多輪攻擊脆弱性（multi-turn vulnerability）已是當前 AI 前沿的結構性特徵，開源與閉源模型均無例外。

本文轉載自 HelpNetSecurity。

單輪安全基準測試多輪對話策略 ASR 冒充 AI