Cloudflare 公開指責 Perplexity AI 使用隱秘的、未聲明的網絡爬蟲來繞過網站設置的標準機器人限制。 Cloudflare 在一篇詳細的博客文章中聲稱,Perplexity 不僅忽略 robots.txt 指令,而且還使用備用 IP 範圍和隱藏的用戶代理來掩蓋其網絡抓取基礎設施的活動。
重點是指控Perplexity 正在規避用於防止不必要的索引或抓取的通用網絡標準。當爬蟲程序在沒有正確識別自身身份的情況下訪問站點時,或者當它通過誤導性的用戶代理字符串歪曲自己或來自與公司已知的機器人網絡無關的基礎設施來主動避免檢測時,就會發生這種情況。根據 Cloudflare 的說法,這正是 Perplexity 一直在做的事情。
Cloudflare 指出,該活動涉及的 IP 與 Perplexity 聲明的爬蟲信息不匹配。它說 Perplexity 的公共爬蟲,名為 PerplexityBot,確實尊重選擇退出規則。然而,有問題的流量來自完全不同的基礎設施,具有通用或空的用戶代理,並且即使網站明確禁止爬蟲,也會繼續請求數據。 Cloudflare 聲稱,當他們阻止這些機器人時,流量會切換到另一個網絡再次嘗試,這表明這是故意規避。
Perplexity 回應稱,它只訪問公共網頁,並將爬行活動歸因於第三方提供商。該公司沒有直接否認在其產品中使用這些數據。然而,Cloudflare 認為,這種回應迴避了核心問題:流量仍然在沒有遵循明確發布的限制的情況下訪問網站,並且可以追溯到 Perplexity 的後端操作。
Cloudflare 更廣泛的擔憂是,一些人工智能公司越來越忽視網絡標準,而在抄襲內容的基礎上構建商業產品。該帖子強調,數百萬使用 Cloudflare 服務的網站已經制定了規則來阻止特定的爬蟲或所有自動化機器人,並且任何善意行事的人都必須遵守這些規則。 Cloudflare 還表示,它正在努力加強其機器人緩解工具,並已開始更積極地阻止此類規避技術。
這種緊張局勢正值人工智能公司如何獲取訓練數據受到越來越多的審查之際。隨著人工智能領域競爭的加劇,越來越多的公司被發現突破道德數據收集的界限。這個涉及 Perplexity 的案例加劇了關於透明度、許可以及人工智能工具應如何訓練的更廣泛的爭論。
