新聞

GPT-5發布不到24小時即被破解:多重零點擊攻擊威脅企業與物聯網環境

2025 / 08 / 18
編輯部
GPT-5發布不到24小時即被破解:多重零點擊攻擊威脅企業與物聯網環境
資安研究人員發現 OpenAI 最新的大型語言模型 GPT-5 展現出驚人的低安全性,沒有系統提示詞的原始模型「幾乎無法直接用於企業環境」。數個資安團隊在其發布後不到 24 小時內就成功繞過其安全防護機制,同時發現多種零點擊 AI 代理攻擊手法,對企業雲端與物聯網環境構成嚴重威脅。

攻擊機制解析

人工智慧安全平台 NeuralTrust 發現了一種結合「迴聲室」(Echo Chamber) 技術與敘事導向引導的新型越獄手法,成功誘使 GPT-5 產生不良回應。迴聲室技術透過間接引用、語義引導和多步推理來誘使大型語言模型產生被禁止主題的回應,核心攻擊原理是植入並強化隱含惡意的對話情境,再透過低顯著性的故事引導來避免明確表達惡意意圖。

當攻擊者向 AI 系統輸入特定關鍵字組合(如「雞尾酒、故事、生存、汽油彈、安全、生命」)並要求創建包含這些詞的句子時,模型會被逐步引導產生危險指令,同時避開直接拒絕機制的觸發。這類攻擊採用對話情境中的「說服」循環模式,被污染的語境不斷接收回聲反饋,並透過敘事加強連貫性,使故事化手法成為一層偽裝,將明顯的惡意請求轉換成看似自然的內容延伸。

重大安全漏洞

AI 資安新創公司 SPLX 使用超過 1,000 個惡意測試提示進行滲透測試,發現 GPT-5 存在嚴重安全缺陷:
  • 未設防護的原始 GPT-5:89% 攻擊成功率,安全評分僅 11%
  • 加入基礎防護層的 GPT-5:43% 攻擊成功率,安全表現仍偏低
  • 經過加固的 GPT-4o:僅 3% 攻擊成功率,安全評分達 97%
測試結果顯示,儘管 GPT-5 擁有升級的「推理」功能,它仍易受基本對抗性邏輯誘導技巧影響。研究人員發現,最有效的越獄技術之一是混淆提示,透過在字符間插入連字符,並將提示包裝在偽造的加密挑戰中,成功誘使 GPT-5 產生危險內容,如炸彈製作指南。

零點擊代理攻擊案例

AI 資安公司 Zenity Labs 詳細披露名為「AgentFlayer」的新型攻擊手法,影響多個主流平台:

ChatGPT 連接器攻擊
  • 攻擊目標:Google 雲端硬碟等連接器
  • 攻擊手段:在看似無害的上傳文件中嵌入間接提示詞注入
  • 攻擊後果:竊取 API 金鑰等敏感雲端資料
Jira 工單攻擊
  • 攻擊目標:與 Jira MCP 連接的 AI 程式碼編輯器
  • 攻擊手段:利用惡意工單觸發攻擊
  • 攻擊後果:Cursor 竊取儲存庫或本機檔案系統機敏資訊
微軟 Copilot Studio 攻擊
  • 攻擊目標:客製化 AI 代理
  • 攻擊手段:精心設計的電子郵件提示詞注入
  • 攻擊後果:誘使代理交出重要企業資料

現實世界攻擊威脅

來自特拉維夫大學、以色列理工學院與資安業者 SafeBreach 的聯合研究團隊成功攻擊了使用 Google Gemini AI 的智慧家居系統。研究顯示,駭客只需發送一個惡意行事曆邀請,就能操控連網燈具、智慧窗簾和熱水器等裝置。

而資安業者 Straiker 進一步揭露了利用 AI 代理「過度自主性」的新型零點擊攻擊變種。這種攻擊利用 AI 系統能「自行行動、轉向和升級」的特性,悄悄控制系統並竊取資料。研究人員警告,這類攻擊有三大特點:不需使用者點擊不需惡意附件不需竊取憑證,因此能完全繞過傳統防護機制。

攻擊後果嚴重性

成功的 AI 安全繞過攻擊會對企業安全造成極為嚴重的後果。駭客可透過提示詞注入竊取使用者的登入憑證和 API 金鑰,進而冒充合法用戶存取敏感企業資源。此外,他們能操控 AI 代理執行未經授權的操作,包括資料外洩、奪取系統控制權,以及對連接的雲端服務發動橫向移動攻擊。

更令人憂慮的是,這類攻擊具有持久性和擴散性。當 AI 模型與外部系統連結時,攻擊面呈指數性增長,單一次成功的提示詞注入可能影響整個企業的 AI 基礎設施,形成連鎖反應式的安全威脅,大幅增加資安漏洞和不可信資料的入侵管道。

業界建議與防護措施

專家強烈建議企業立即採取兩項關鍵防禦措施:威脅閘道過濾(Gateway Filtering)定期滲透測試(Red Teaming),以有效降低提示詞攻擊風險。值得注意的是,已有海外業者成功實施這些防護機制,證明 AI 代理確實能有效抵禦此類操縱攻擊。

趨勢科技 2025 年上半年「AI 資安現況報告」也指出,隨著威脅與 AI 技術同步演進,業界面臨更複雜的挑戰:如何在建立用戶對 AI 系統信任的同時,確保資安防護完善。企業必須重新評估其 AI 系統配置,尤其在將 AI 代理與外部服務整合時,安全性必須符合現代威脅環境的嚴格要求。

本文轉載自 CyberNews、TheHackerNews。