新聞

AI新創公司Perplexity遭指控繞過網站防護機制,獲取未經授權的網頁內容

2025 / 08 / 18
編輯部
AI新創公司Perplexity遭指控繞過網站防護機制,獲取未經授權的網頁內容
Cloudflare 指控 AI 公司 Perplexity 使用隱匿手法繞過網站防護機制,這些機制原本是設計來阻擋自動爬蟲收集網站資料。

根據 Cloudflare 表示,多位客戶投訴 Perplexity 即使面對封鎖措施,仍能查看並收集其網站資訊。這些封鎖是透過 robots.txt 檔案實施,且為一種常見工具,用來告知搜尋引擎爬蟲哪些網站區域可存取或不可存取。

經測試,Cloudflare 工程師確認 Perplexity 的官方爬蟲系統(負責掃描和索引網頁內容的自動化程式)已被成功封鎖。然而,Cloudflare 指出 Perplexity 仍使用其他隱蔽手法獲取未經授權的網頁內容。

爭議後續發展

Cloudflare 已將 Perplexity 從其認證爬蟲列表中移除,並更新安全規則以偵測和阻擋「隱匿式爬取」行為。Cloudflare 強調,值得信賴的網路爬蟲應該透明操作、遵循網站擁有者的指示,並明確說明其用途。

此爭議發生前不久,Cloudflare 才剛推出新工具,讓網站營運者能完全阻擋 AI 爬蟲或向其收費。這項舉措是更廣泛討論的一環,焦點在於 AI 業者如何收集大量線上資料來訓練其系統。

隨後,Perplexity 發言人 Jesse Dwyer 回應外媒表示,Cloudflare 的指控誇大其詞,並稱該部落格文章僅是一場銷售宣傳。Dwyer 進一步指出,Cloudflare 所提供的截圖並未顯示任何實際資料收集的證據,且文中提到的某個機器人「根本不屬於我們公司」。

這家 AI 公司先前已多次面臨類似指控。今年初,英國 BBC 曾對 Perplexity 提起法律訴訟,原因是該公司未經授權擷取其內容。雖然 Perplexity 只是眾多捲入網路資料擷取爭議的 AI 公司之一,但也有部分媒體機構選擇與 AI 公司簽訂授權協議,其中就包括與 Perplexity 的合作關係。

隨著人工智慧資料蒐集與網路隱私間的緊張關係日益升溫,Cloudflare 等網路基礎設施供應商正在努力賦予網站擁有者更多控制權,使網站擁有者能自行決定 AI 系統是否可以收集其內容,以及如何收集。

本文轉載自 CySecurityNews。