https://activity.twcert.org.tw/2025/index.htm
https://activity.twcert.org.tw/2025/index.htm

新聞

多輪對話攻擊突破開源語言模型防線,成功率達九成

2025 / 11 / 16
編輯部
多輪對話攻擊突破開源語言模型防線,成功率達九成
思科(Cisco) AI Defense 最新研究報告指出,開放權重大型語言模型(Open-Weight LLM)在面對多輪對話式攻擊(Multi-Turn Adversarial Attacks)時極為脆弱。即使模型在單次攻擊測試中表現穩健,攻擊者透過持續多步驟對話仍可達成超過九成的成功率。

多輪攻擊的威脅遠超單次測試

研究團隊對每個模型進行超過 1,000 次提示測試,比較單輪與多輪攻擊的效果。結果顯示,多數模型在面對單一惡意輸入時表現良好,但當攻擊者透過多輪對話逐步調整策略後,防護機制便迅速瓦解。

研究團隊採用「Crescendo」、「角色扮演」(Role-Play)及「拒絕重構」(Refusal Reframe)等自適應攻擊手法,成功誘導模型產生不安全或受限的輸出內容。整體分析涵蓋 499 組模擬對話,每組包含 5 至 10 輪交互。結果證實,傳統安全過濾機制在面對反覆迭代的攻擊時力不從心。

核心弱點與攻擊類型

報告從 102 種威脅類型中識別出失敗率最高的 15 個子類別,包括惡意程式碼生成、資料外洩(Data Exfiltration)以及違反道德邊界的行為,這些被列為最關鍵的威脅。

Cisco 透過散佈圖分析發現,在脆弱性圖表中位於對角線上方的模型具有共通的架構弱點,使其更容易受到多輪攻擊利用。

研究定義的「失敗」情境包括:
  • 模型產生有害或不當內容
  • 洩露私密或系統層級資訊
  • 繞過內部安全限制
相對地,「通過」則是指模型拒絕或重新詮釋有害請求,同時維持資料機密性。

防護建議

Cisco 提出多項風險緩解措施:
  • 實作嚴格的系統提示(System Prompts)並與定義的使用情境保持一致
  • 部署與模型無關的執行時期防護機制(Runtime Guardrails)以偵測對抗性攻擊
  • 在預期的業務情境中定期進行 AI 紅隊演練
  • 限制模型與自動化外部服務的整合
報告同時呼籲擴大提示樣本規模、測試重複提示以評估變異性,並比較不同規模的模型以評估與規模相關的弱點。

Cisco 強調,AI 開發者與資安社群必須透過獨立測試與防護機制開發,在模型開發與部署的整個生命週期中持續管理這些威脅。若缺乏多輪測試、針對特定威脅的緩解措施以及持續監控等 AI 資安解決方案,這些模型在生產環境中將帶來重大風險,可能導致資料外洩或惡意操控。

本文轉載自 InfosecurityMagazine。