https://secutech.tw.messefrankfurt.com/taipei/zh-tw/programme-events/AIoT_SecurityForum.html
https://secutech.tw.messefrankfurt.com/taipei/zh-tw/programme-events/AIoT_SecurityForum.html

新聞

Meta 推 LlamaFirewall 框架以防止 AI 越獄、注入攻擊及不安全程式碼

2025 / 05 / 02
編輯部
Meta 推 LlamaFirewall 框架以防止 AI 越獄、注入攻擊及不安全程式碼
Meta 近日宣布推出 LlamaFirewall,這是一個針對人工智慧(AI)系統安全設計的開源框架,旨在防範新興網路風險,包括提示詞注入、越獄攻擊和不安全程式碼等威脅。

據 Meta 介紹,這個框架整合了三個主要防護機制:PromptGuard 2、Agent Alignment Checks 和 CodeShield。PromptGuard 2 設計用於即時檢測直接越獄和提示詞注入嘗試,而 Agent Alignment Checks 能夠檢查代理推理過程,防範可能的目標劫持和間接提示詞注入情況。CodeShield 則是一個線上靜態分析引擎,旨在防止 AI 代理生成不安全或危險的程式碼。

Meta 在 GitHub 專案描述中表示:「LlamaFirewall 提供一個靈活的即時防護框架,用於保護 LLM 驅動的應用程式。該架構採用模組化設計,使安全團隊和開發人員能夠構建層次化防禦,涵蓋從原始輸入處理到最終輸出操作的全過程,適用於簡單的聊天模型和複雜的自主代理。」

除了 LlamaFirewall,Meta 還發布了 LlamaGuard 和 CyberSecEval 的更新版本,分別用於更好地檢測各種常見違規內容,以及評估 AI 系統的網路安全防禦能力。CyberSecEval 4 還包括一個名為 AutoPatchBench 的新基準測試,專門用於評估大型語言模型(LLM)代理自動修復各種通過模糊測試識別的 C/C++ 漏洞的能力,這一方法被稱為 AI 驅動修補。

「AutoPatchBench 提供了一個標準化的評估框架,用於評估 AI 輔助漏洞修復工具的有效性,」該公司表示。「這一基準測試旨在促進對各種 AI 驅動方法修復模糊測試發現的錯誤的能力和局限性的全面理解。」

此外,Meta 還推出了名為「Llama for Defenders」的新計畫,幫助合作組織和 AI 開發者獲取開放、早期存取和封閉的 AI 解決方案,以解決特定安全挑戰,例如檢測用於詐騙、欺詐和網路釣魚攻擊的 AI 生成內容。

這些公告的同時,WhatsApp 還預覽了一項名為「Private Processing」的新技術,該技術允許使用者利用 AI 功能而不會損害其隱私,方法是將請求轉移到安全、保密的環境中。

Meta 表示,「我們正與安全社群合作審核和改進我們的架構,並將繼續在公開環境中與研究人員合作建構和加強 Private Processing,然後才會在產品中推出。」

本文轉載自thehackernews。