微軟推新工具PyRIT主動識別生成式AI風險

2024 / 02 / 23

編輯部

微軟發布名為 PyRIT (Python Risk Identification Tool)的開放自動測試框架，以主動識別生成式AI風險。

這個紅隊工具目的是「讓全球每個組織都能夠負責任地利用最新的AI進步來進行創新」。

微軟表示，PyRIT 可用於評估配置大型語言模型(LLM)的端點抵禦不同攻擊的強健性，如虛構幻覺、誤用、偏見和騷擾等禁用內容。

它也可找出AI系統的安全風險，如惡意軟體生成和隱私洩漏風險。

PyRIT 具有五個介面，包含：目標、數據集、評分引擎、支持多種攻擊策略的能力，以及用JSON 或數據庫的形式儲存中間輸入和輸出交互的記憶元件。

評分引擎提供兩種選項對目標 AI 系統的輸出進行評分，包含允許紅隊使用傳統的機器學習分類器或利用 LLM 端點進行自我評估。

微軟表示，這樣設計可以讓研究人員獲得關於他們的模型和整個推理管道在不同傷害面向的基準表現，並能夠將該基線與模型的未來版本進行比較。

微軟同時強調，PyRIT不是任何對生成式AI進行紅隊探測工具替代品。PyRIT利用生成提示詞來標示「風險熱點」以評估AI的安全性及需要進一步調查的區塊。PyRIT應該被視為紅隊演練的支援工具。手動紅隊探測雖然費時，但識別潛在的盲點通常是需要的。自動化工具用在大規模探測，也不能取代手動探測。兩者交互使用，才能全面評估AI系統的安全性。

微軟認為，對生成式 AI 進行紅隊測試需要同時探測安全風險及負責任 AI 風險。但是執行上還有許多概念要突破，因為不同的生成式 AI 架構間存在巨大差異。

生成式 AI 相關的安全測試受到極大關注。近期Protect AI 揭露多個流行的 AI 供應鏈平台，如 ClearML、Hugging Face、MLflow 和 Triton伺服器的關鍵漏洞，可能會導致任意程式碼執行和敏感訊息外洩。

本文轉載自TheHackerNews。

AI in Action 生成式AI 可信任 AI AI 資安提示詞安全