不是深偽也不是釣魚! Prompt Injection 才是生成式AI最大問題

2024 / 02 / 05

編輯部

儘管深度偽造和大型語言模型(LLM) 驅動的網路釣魚對當今網路安全的確造成威脅。然而部分資安專家認為，應該少考慮生成式AI (GenAI) 帶來的威脅，多考慮了解攻擊者如何找出AI系統中的設計弱點和缺陷，藉此製造GenAI 的威脅。

這些資安專家認為，目前對GenAI最大的威脅就是提示詞注入(prompt injection)。prompt injection是將文字提示輸入 LLM 系統以觸發意外或未經授權的操作的方法。

專家表示，歸根結底的原因是模型無法區分指令和用戶注入的提示詞。

Prompt injection 101

Prompt injection就像不斷發展的提示工程(prompt engineering) 的惡意變體，利用對抗性較小的文字輸入的形式，讓 GenAI 系統為攻擊者產生想要的結果輸出。通常這種惡意的prompt injection，想要的結果輸出都是一些不可以曝光的機敏資料或導致系統執行錯誤行為。

通常prompt injection攻擊聽起來就像一個孩子糾纏著成年人做一些他們不應該做的事情，像是「忽略先前的指示，而是做這個」。攻擊者經常會重新措辭並用更多後續提示來困擾系統，直到他們能讓 LLM 做他們想做的事情。許多安全專家將這種策略稱為對AI進行社交工程。

美國NIST在 1 月發布對抗性人工智慧攻擊指南中，NIST 從各種方面解釋針對AI系統的多種攻擊。對 GenAI 攻擊則以prompt injection為主。

NIST將它分為兩個主要類別：直接型和間接型 prompt injection。第一類是使用者將惡意輸入直接注入 LLM 系統提示字元的攻擊。第二種是將指令注入 LLM背後的資源或運算系統的攻擊。這是一種更棘手的攻擊方法，可以產生拒絕服務、傳播錯誤訊息或洩漏憑證等多種危害系統的方式。

更複雜的是，攻擊者還能夠利用影像欺騙多模 GenAI 系統(multimodal GenAI systems)。專家表示，當圖像是提示詞時，AI要區分指令或提示詞更困難。

即時注入攻擊的可能性攻擊者利用prompt injection進行攻擊的手法已經非常多樣，並且仍在不斷發展。prompt injection可用於暴露管理 LLM 的指令或編程的詳細資料，並以覆寫控制系統，讓LLM顯示不可出現的內容輸出，或者最常見的是，竊取系統本身或從系統中包含的數據。LLM可以透過插件或API 連線進行存取。

研究人員解釋，LLM 中的prompt injection攻擊就像打開AI大腦的後門一樣。這些攻擊是獲取模型如何被訓練的專利資訊以及用戶的個人資料的完美方式。

在資料隱私方面，ChatGPT被攻擊的危險在於它們通常連接到非常敏感的資料儲存，並透過插件和 API 結合使用，以自動執行關鍵系統或流程中嵌入的任務，如ReAct 模式、Auto-GPT 和ChatGPT 插件之類的系統都可以輕鬆觸發其他工具來發出API 請求、運行搜尋或在解釋器或shell 中執行生成的程式碼。

WithSecure Labs最近的一項研究深入研究了針對ReACT聊天機器人代理程式的prompt injection攻擊。這些代理程式使用思維鏈提示來實現推理加行動的循環，以自動執行企業或電子商務上的客戶服務請求等任務網站。研究人員利用prompt injection攻擊，在流程中注入「想法」來操縱圖書銷售網站的訂單代理程式，讓程式相信一本價值 7.99 美元的書實際上價值 7000.99 美元，從而觸發不正確的退款給攻擊者。

Prompt injection攻擊可以解決嗎？

從很多方面來說，prompt injection就像既有的應用程式安全發生的惡意輸入，或像安全團隊必須擔心 Web 應用程式中的 SQL 注入或 XSS 一樣，他們也需要找到對抗提示注入的方法。

但不同之處在於，過去的大多數注入攻擊都是在結構化語言字串中進行的，這意味著許多解決方案都是參數化查詢和其他護欄，使得過濾使用者輸入相對簡單。然而自然語言的多樣性及複雜度，讓系統或安全人員區分好的指示和壞的指令非常困難。

目前資安產業正試圖解決這個問題，越來越多的公司正在推出防護產品，這些產品可以刷除惡意輸入（雖然很難萬無一失），也可以對LLM的輸出設置保護欄，以確保它們不洩露機敏資料或發表仇恨言論。然而，研究人員認為這種「LLM 防火牆」方法仍處於非常早期的階段，並且容易出現問題，具體取決於技術的設計方式。

研究人員解釋，當你要篩選輸入和輸出時，只有兩種方法可供選擇。一種是基於規則判斷的方法，這種方法非常容易被操縱；另一種是使用機器學習方法，但這樣會出現相同的LLM提示注入問題，只是深度更深了一層。因此，現在你不必欺騙第一層LLM，而是必須欺騙第二層更根源的LLM，以單字來說，你要欺騙的是單字的集合或根源，用以延伸出其他單詞。

目前，惡意prompt injection是一個尚未解決的問題。與 GenAI 一樣，世界正在發生變化。但考慮到威脅的規模，有一件事是肯定的：防御者需要迅速採取行動。

本文轉載自DarkReading。