微軟近日揭露名為
Whisper Leak 的新型側通道攻擊(side-channel attack)。這種攻擊手法讓駭客能透過觀察加密網路流量,即使通訊已透過 TLS(Transport Layer Security)進行端對端加密保護,仍能推測使用者與語言模型對話的主題。
攻擊原理:利用封包大小與時間差洩漏資訊
這項攻擊針對串流模式(streaming mode)語言模型的運作特性。語言模型產生回應時,會逐一預測並產生語言標記(token),而非一次產生完整回應。為提供即時反饋,多數 AI 聊天機器人會將輸出內容分段串流傳送給使用者。
微軟研究團隊發現,即使通訊經過 HTTPS 加密,串流回應過程中產生的加密封包大小序列與封包間隔時間,仍包含足夠資訊來推測初始提示的主題。原因在於對稱加密演算法(symmetric cipher)的特性:在不考慮壓縮的情況下,密文大小等於明文大小加上一個常數(例如訊息驗證碼)。
任何能觀察加密流量的攻擊者,都可能利用這項攻擊手法推測使用者的提示是否屬於特定主題。潛在攻擊者包括:網際網路服務供應商(ISP)層級的國家級駭客、區域網路上的攻擊者,以及連接到同一個 Wi-Fi 路由器的使用者。
實驗方法與成效
微軟研究團隊以「洗錢的合法性」作為目標主題進行概念驗證。他們使用語言模型產生 100 個語意相似的問題變體,其中 80 個用於訓練和驗證,20 個用於測試泛化能力。負樣本則從 Quora Questions Pair 資料集中隨機抽取 11,716 個無關問題。
研究人員使用網路嗅探工具 tcpdump 記錄回應時間和封包大小,並評估三種機器學習模型:
LightGBM(梯度提升框架)、
Bi-LSTM(雙向 LSTM 模型),以及基於
BERT 的模型(使用預訓練的 DistilBERT)。
實驗結果令人震驚。測試涵蓋阿里巴巴、DeepSeek、Mistral、微軟、OpenAI 和 xAI 等多個模型,攻擊成功率均超過 98%。這顯示特定主題的對話會留下明顯的數位指紋,讓 AI 驅動的竊聽者能可靠識別。
真實世界的威脅情境
微軟進一步模擬更貼近現實的監控場景:攻擊者監控 10,000 個隨機對話,其中只有一個涉及目標敏感主題。即使在如此極端不平衡的情況下,攻擊仍展現令人擔憂的效果。
在許多測試模型中,攻擊者可達到 100% 精確度:所有被標記為相關主題的對話都確實相關,且仍能捕捉到 5% 至 50% 的目標對話。這表示被標記為可疑的對話幾乎都真的涉及敏感主題,不會產生誤報。
這表示無論主題是洗錢、政治異議或其他敏感內容,政府機構或網際網路服務供應商在監控流向熱門 AI 聊天機器人的加密流量時,仍能可靠識別出詢問特定敏感主題的使用者。
更糟的是,
攻擊效能會隨著訓練資料增加而提升。若攻擊者結合更複雜的模型,並利用多輪對話或同一使用者多個對話中的豐富模式,成功率可能遠超初始實驗結果。
產業合作與防護措施
微軟已向受影響的廠商進行負責任揭露,截至報導發布時,OpenAI、Mistral、微軟和 xAI 均已部署保護機制。
OpenAI 率先實作防護方案,微軟 Azure 隨後跟進。該方案在串流回應中新增名為「obfuscation」(混淆)的欄位,內含長度可變的隨機文字序列,有效遮蔽每個 token 的長度。微軟驗證後證實,Azure 的緩解措施已將攻擊效能降低至不再構成實質風險。
Mistral 則加入名為「p」的新參數,達到類似效果。這些防護措施的核心概念是在每個回應中加入隨機長度的文字序列,使側通道攻擊失效。
值得注意的是,Google 和 Amazon 的模型在測試中展現較強的抵抗力,可能是因為採用了 token 批次處理(token batching)機制。
使用者防護建議
雖然這主要是 AI 服務供應商需要解決的問題,但重視隱私的使用者也可以採取額外防護措施:
- 避免在不受信任的網路上使用 AI 聊天機器人討論高度敏感主題
- 使用 VPN 服務增加保護層
- 優先選擇已實作防護措施的服務供應商
- 使用非串流模式的語言模型
這項發現再次凸顯 AI 安全研究的重要性。自 2022 年 11 月 OpenAI 推出 ChatGPT 以來,研究人員已揭露大型語言模型和 AI 聊天機器人的多項基本安全弱點。開發者在整合這些功能時,必須實施適當的安全控制措施、定期進行 AI 紅隊演練評估,並根據使用情境設計嚴格的系統提示。
本文轉載自 Microsoft、TheHackerNews。