https://www.informationsecurity.com.tw/seminar/2025_GOV/
https://www.informationsecurity.com.tw/seminar/2025_GOV/

新聞

Google強化AI安全防護 對抗間接提示詞注入攻擊

2025 / 06 / 30
編輯部
Google強化AI安全防護 對抗間接提示詞注入攻擊
Google推出多項安全措施整合至自家的生成式AI中,以減輕間接提示詞注入等攻擊手法,並增強代理型AI系統的整體資安防護能力。隨著AI技術日趨成熟,相關的安全威脅也不斷演進,促使科技巨頭必須採取更積極的防護策略。

間接提示詞注入威脅分析

Google生成式AI資安團隊表示,與攻擊者直接在提示詞中輸入惡意指令的直接提示詞注入不同,間接提示詞注入涉及在外部資料來源中隱藏惡意指令。這些外部來源可能包括電子郵件、文件,甚至行事曆邀請,它們會誘騙AI系統外洩敏感資料或執行其他惡意行為。

這種攻擊手法的隱蔽性使其特別危險,因為AI系統往往難以區分使用者的真實指令與嵌入在擷取資料中的操控性指令。攻擊者可以透過看似正常的文件或訊息,向AI系統植入惡意指令,進而竊取資料或執行未授權操作。

Google分層防禦策略與防護機制

Google的「分層」防禦策略,目的在提高攻擊者對其系統發動攻擊的難度、成本和複雜性。這些防護措施包括模型強化、引入專門設計的機器學習模型來標記惡意指令,以及系統層級的安全防護。此外,Gemini還內建一系列額外防護機制,進一步增強模型韌性。

Google實施的防護措施涵蓋多個層面。提示詞注入內容過濾器能夠過濾惡意指令,確保生成安全回應。安全思維強化技術在不可信資料中插入特殊標記,確保模型避開內容中可能存在的對抗性指令,此技術稱為「spotlighting」。

在技術層面,Google採用Markdown淨化與可疑URL編輯機制,利用Google安全瀏覽功能移除潛在惡意URL,並使用markdown淨化器防止外部圖片URL被渲染,從而預防EchoLeak等資安漏洞同時,系統要求使用者確認後才能完成高風險操作,並提供終端使用者安全緩解通知,包括提醒使用者可能遭遇提示詞注入攻擊。

新興威脅與適應性攻擊

據Google觀察,駭客使用適應性攻擊的頻率日益增加。這些攻擊被特別設計成能夠透過自動化紅隊測試來進化和適應,進而繞過正在測試的防禦機制,使基本的防護措施失效。這種動態攻擊手法對傳統的靜態防護機制構成嚴重挑戰。

Google DeepMind曾表示,間接提示詞注入構成了真實的資安挑戰,AI模型經常難以區分使用者的真實指令與嵌入在擷取資料中的操控性指令。該團隊認為,針對間接提示詞注入的全面防護需要深度防禦機制,並在AI系統各層級實施防護措施,從模型本身辨識受攻擊狀態的能力,到應用程式層級的防護,再到服務基礎設施的硬體防護。

此發展出現之際,最新研究已持續發現多種技術能繞過大型語言模型的安全防護並產生不良內容。這些技術包括字元注入攻擊,以及干擾模型對提示詞上下文解釋的方法,這些方法利用了模型在分類過程中過度依賴學習特徵的弱點。

另一項由Anthropic、Google DeepMind、蘇黎世聯邦理工學院及卡內基美隆大學研究團隊於上個月發表的研究發現,大型語言模型可能在近期「開啟漏洞變現的新途徑」。這些模型不僅能比傳統工具更精準地竊取密碼與信用卡資料,還能設計變種惡意程式,並為特定目標量身打造客製化攻擊。

該研究指出,大型語言模型為駭客開啟了新的攻擊管道,使他們能利用模型的多模態能力擷取個人識別資訊,並分析遭入侵環境中的網路設備,從而產生極具說服力的目標式釣魚網頁。同時,大型語言模型存在一個明顯弱點:它們缺乏發現常用軟體應用程式中全新零時差漏洞的能力。不過,研究顯示這些模型仍能自動化識別未經安全稽核程式中的基本安全弱點。

未來發展與防護策略

研究人員指出,三年前的模型完全無法完成研究中列出的任務,而三年後,若被用於惡意目的,模型可能具備更多有害能力。他們認為,更深入了解不斷演變的威脅態勢、開發更強大的防禦機制,以及將語言模型應用於防禦領域,是重要的研究方向。

隨著AI技術的快速發展,資安防護措施也必須同步演進。企業和研究機構需要持續監控新興威脅,並投資開發更先進的防禦技術,以確保AI系統的安全性和可信度。

Google在AI安全防護方面的努力反映了整個產業對於AI系統安全性的重視。從間接提示詞注入到代理失準現象,這些新興威脅要求業界採取更全面的防護策略。雖然目前的防護機制已有一定成效,但面對不斷演進的攻擊手法,持續的研發投入和跨產業合作將是確保AI系統安全的關鍵。

本文轉載自 TheHackerNews。