新聞
觀點
解決方案
活動
訂閱電子報
資安人粉絲團
聯絡我們
關於我們
合作詢問
隱私權政策
香港商法蘭克福展覽有限公司台灣傳媒分公司
110 台北市信義區市民大道六段288號8F
886-2-8729-1099
新聞
觀點
解決方案
活動
訂閱電子報
訂閱電子報
新聞
觀點
解決方案
活動
新聞
您現在位置 : 首頁 >
新聞
Cisco 研究揭示:多輪對話攻擊讓 AI 安全防線形同虛設,攻擊成功率最高達 88%
2026 / 05 / 28
編輯部
Cisco 旗下 AI 威脅情報團隊發布最新研究,針對全球 15 款主流大型語言模型進行系統性評測。結果顯示,現行業界普遍採用的單輪(single-turn)安全基準測試嚴重低估了真實攻擊情境下的風險。當攻擊者改採多輪(multi-turn)對話策略逐步施壓,部分模型的攻擊成功率(Attack Success Rate,ASR)最高飆升至 88%,與單輪測試結果相差懸殊。
單輪測試數據掩蓋真實破口
本次研究共執行約 3 萬筆單輪提示測試,以及分布於逾 1,400 段對話的近 7,000 筆多輪攻擊測試,受測對象涵蓋 OpenAI、Anthropic、Google、Amazon 及 xAI 的旗艦閉源模型。
數據顯示,兩種測試制度產生了截然不同的安全排名與失敗分布。
xAI 的 Grok 4.1 Fast(非推理模式)在多輪測試中 ASR 高達 88%,位居全部受測模型之冠
。Google 的 Gemini 3 Pro 從單輪測試的約 18% 暴衝至多輪的 73%,跨制度差距超過 55 個百分點。OpenAI 的 GPT-5.4 則從個位數的單輪 ASR 上升至近 25%,漲幅約九倍。
即使是此次單輪防禦表現最佳的 Anthropic Claude 系列,在允許攻擊者持續調整策略後,ASR 仍落在 11% 至 16% 區間。研究指出,測試組中超過半數模型的跨制度絕對差距達 15 個百分點以上。
推理模式開或關,同款模型 ASR 差距逾 40 個百分點
研究中最具衝擊性的發現之一,來自同一款模型的不同組態設定。Grok 4.1 Fast 啟用推理(reasoning)模式後,多輪 ASR 下降逾四成,預設非推理模式與推理模式之間的安全表現差距超過 40 個百分點。
然而這項安全差距僅源於一個功能開關的切換,目前未出現在任何公開基準測試或模型說明文件中。換言之,採用預設組態的企業用戶,實際面臨的威脅輪廓可能遠比認知中更為嚴峻。
Amazon 的三款 Nova 系列模型則呈現相反走勢。其中 Nova 2 Lite 的單輪 ASR 相對偏高,多輪 ASR 卻是全部受測模型中最低,約為 8%,顯示不同模型架構在應對持續性攻擊時存在根本性差異。
五大攻擊策略主導多輪滲透結果
研究歸納出驅動多輪攻擊結果的五大策略家族:
角色扮演與人格設定
(role-play and persona adoption)、
情境模糊化
(contextual ambiguity)、
拒絕重構
(refusal reframing)、
資訊分解
(information decomposition),以及
漸進升溫式施壓
(crescendo-style escalation)。
各攻擊策略對不同模型的穿透效果差異顯著。同一手法在某些模型幾乎無效,在另一些模型卻輕易得手,說明策略標籤更多反映的是模型間的安全分化程度,而非攻擊本身的整體難易度。
在單輪攻擊面向,「冒充 AI(Imposter AI)」、「軟性改述(Soft Paraphrase)」與「系統提示(System Prompts)」三種手法主導排名。其中冒充 AI 的效果遠超排名第十的手法,意味著針對性修補少數高風險攻擊面,即可對多數模型的整體 ASR 數字產生顯著改善。
護欄能減弱風險,但無法根絕
Cisco AI 威脅與安全研究負責人 Amy Chang 指出,企業在生產環境中通常會在基礎模型外加裝額外安全層,這些護欄(guardrail)確實有助於降低風險,但存在明確上限。她表示,基礎模型的安全底線決定了整個生產系統所能達到的最高防護水準;一旦 AI 代理系統出現偏差,破壞性可能遠超傳統軟體漏洞。
Chang 強調,買家與監管機構在評估模型時,應優先追問:「面對真實攻擊者的持續追問與策略調整,這款模型的安全防線能否守住?」她說明,真實攻擊者不會在第一次遭拒後放棄,而是持續跨輪次建立情境、重塑問題框架或逐步升溫施壓。
三項可操作建議與監管缺口
Cisco 研究團隊提出三項具體建議:每次模型發布應按攻擊策略家族分別公布 ASR;以排名前三的攻擊手法與內容類型作為部署把關門檻,並設定 3 個百分點的回歸警戒線;凡跨制度差距超過 15 個百分點的模型,應觸發人工審查機制。若以本次測試群為基準,僅第三項規則便可標記出超過半數受測模型。
在監管面向,NIST 人工智慧風險管理框架(AI Risk Management Framework)、即將發布的 NIST Cyber AI Profile(IR 8596),以及歐盟 AI 法案(EU AI Act)第 15 條,雖均要求對抗性穩健性測試,然而如何設計測試情境、拆解攻擊策略、分項公布結果,這些關鍵細節目前均無明確規範,與研究建議的評估要求仍有落差。
本研究延伸自 Cisco 較早針對 8 款開源模型所進行的研究,當時多輪攻擊 ASR 已較單輪基準高出二至十倍,最高逾 90%。綜合兩份研究結果,多輪攻擊脆弱性(multi-turn vulnerability)已是當前 AI 前沿的結構性特徵,開源與閉源模型均無例外。
本文轉載自 HelpNetSecurity。
單輪安全基準測試
多輪對話策略
ASR
冒充 AI
最新活動
2026.06.11
看不見的戰場:看見威脅,從暗網到 AI 時代的企業主動防禦
2026.05.28
超越離線備份:建構企業級「不可變」與「零信任」數據保護防線
2026.05.28
超越離線備份:建構企業級「不可變」與「零信任」數據保護防線
2026.06.03
邁向 AI 驅動的智慧製造,OT & IT 融合與資安防護
2026.06.04
【數位產業署資安輔導資源分享說明會】看得見的防護,讓資安成為企業升級的關鍵戰力
2026.06.09
資安合規與AI應用
2026.06.16
AI驅動的資安威脅偵測
2026.06.17
漢昕科技X2026 Solution Day:AI自動化監控實現零信任架構的動態防禦【6/17台中站】
2026.06.18
從「人工作業」到「AI 自動化維運」:擺脫資安合規與勒索威脅實戰解析
2026.06.24
漢昕科技X2026 Solution Day:AI自動化監控實現零信任架構的動態防禦【6/24高雄站】
2026.06.24
【線上研討會】當駭客在網路裡橫向移動,你知道嗎? Illumio Insights 升級你的資安視野
2026.07.09
7/9-7/10【軟體開發安全意識與 .NET/Java 安全程式開發】兩日集訓班
看更多活動
大家都在看
資安院實測 AI 代理工具:網頁注入、偽裝技能、記憶覆蓋三大攻擊路徑逐一拆解,OpenClaw 全面失守
Anthropic 雙線出擊:28 大資安平台整合上線,限制級模型 Mythos即將公開
拿到 ISO 27001 證書就安全了?林宜隆教授:四層標準架構才是資安治理正解
防禦者指南:前沿 AI 對資安的影響
HPE推出多項資安創新 全面強化AI導入安全與企業營運韌性
資安人科技網
文章推薦
區塊鏈藏指令、Google 行事曆傳路徑:GlassWorm 供應鏈攻擊基礎設施遭聯合摧毀
NetApp 攜手 Red Hat 強化 Red Hat OpenShift 部署的資料保護與擴充能力
Fortinet發表全新FortiGate G系列搭載自研ASIC晶片加速技術