AI 模型遭中國企業大規模蒸餾竊取　Anthropic 強化安全防線並推出 AI 漏洞掃描工具反擊

2026 / 02 / 25

編輯部

AI 模型遭中國企業大規模蒸餾竊取　Anthropic 強化安全防線並推出 AI 漏洞掃描工具反擊

美國人工智慧公司 Anthropic 於 2 月 23 日發布部落格文章揭露，中國三家 AI 企業 DeepSeek、Moonshot AI 與 MiniMax 透過約 2.4 萬個詐欺帳號，對其大型語言模型 Claude 發動超過 1,600 萬次模型蒸餾攻擊（Model Distillation Attack），意圖竊取模型能力以訓練自家競爭模型。與此同時，Anthropic 也宣布推出 AI 驅動的程式碼安全掃描工具 Claude Code Security，以 AI 技術協助企業偵測與修補軟體漏洞，展現其在 AI 安全攻防兩端同步強化的策略佈局。

三家中國 AI 企業涉及大規模蒸餾竊取行動

模型蒸餾（Model Distillation）是一種合法的 AI 訓練技術，透過讓較小的模型學習較強模型的輸出結果來加速開發。然而，當這項技術被用於大規模自動化查詢以複製他方模型能力時，便構成惡意濫用。

Anthropic 指出，三家中國 AI 企業的攻擊行為各有不同目標，但手法如出一轍，均利用詐欺帳號與代理服務繞過平台安全機制與區域存取限制，大規模存取 Claude 模型。其中，MiniMax 的查詢量最為龐大，累計超過 1,300 萬次交互，主要集中在代理式編碼與工具編排領域。Moonshot AI 則產生超過 340 萬次交互，聚焦於代理推理、程式碼分析、電腦使用代理與電腦視覺工作流程。

DeepSeek 雖然交互次數相對較少，約 15 萬次，但手法更為精密。Anthropic 研究人員發現，DeepSeek 的查詢集中於跨領域推理任務，並運用基於評分標準的評量工作流程，實質上將 Claude 轉化為強化學習的獎勵模型。此外，DeepSeek 還嘗試生成針對敏感查詢的政策安全版本回應，顯示其試圖在規避安全護欄的同時複製模型的審核能力。

Anthropic 透過 IP 位址關聯分析、請求中繼資料、基礎設施指標以及業界夥伴的類似行為通報，確認了這三項蒸餾攻擊行動的歸因。目前 Anthropic 基於安全考量，並未在中國提供 Claude 的商業存取服務。

非法蒸餾恐引發國安層級風險

Anthropic 在文章中特別警告，非法蒸餾取得的模型可能被用於原始模型已建立防護機制的惡意用途，包括生物武器開發與惡意網路攻擊活動。Anthropic 指出，外國實驗室蒸餾美國模型後，可將這些未受保護的能力導入軍事、情報與監控系統，使威權政府得以部署前沿 AI 執行攻擊性網路行動、假訊息散布與大規模監控。

資安公司 Closed Door Security 執行長 William Wright 也警告，蒸餾威脅不僅限於大型 AI 實驗室。他表示，任何建置客製化 AI 聊天機器人或助理的企業都面臨類似風險，因為攻擊者不需要存取程式碼或訓練資料，只需要對模型提問就能竊取商業智慧財產。

Anthropic 多層次防禦措施與 Claude Code Security 上線

針對蒸餾攻擊，Anthropic 已部署多項安全控制措施，包括建立 API 流量中攻擊模式的偵測系統、開發思維鏈引出與協同帳號活動的偵測工具、強化高風險帳號的驗證機制，以及在產品、API 與模型層級部署防濫用措施。

在防禦端的佈局上，Anthropic 同步推出 Claude Code Security 功能，目前以限量研究預覽版提供給企業版與團隊版客戶使用。該工具能掃描程式碼庫中的安全漏洞並建議修補方案，Anthropic 強調其能力超越傳統靜態分析工具，可如同人類安全研究員般理解程式碼邏輯，追蹤應用程式中的資料流，並辨識規則式工具可能遺漏的漏洞。

Claude Code Security 採用多階段驗證流程重新分析結果以過濾誤報，同時為每個漏洞指派嚴重性評級與信心分數。Anthropic 強調該系統採用「人在迴圈」（Human-in-the-Loop, HITL）設計，所有修補建議均須經開發人員審核批准後才會套用。

從蒸餾攻擊的揭露到安全掃描工具的推出，Anthropic 的雙線行動凸顯了 AI 產業正面臨的新型態安全挑戰。當 AI 模型本身成為攻擊目標，同時也成為防禦利器時，「以 AI 對抗 AI 威脅」已從概念走向實踐，企業在擁抱 AI 技術的同時，也須重新審視 AI 資產保護與安全防禦策略。

DeepSeek 模型蒸餾攻擊 HITL AI 安全安全掃描