私有 GitHub 存儲庫在私有化後仍可通過 Copilot 訪問

安全研究人員發現,數千個 GitHub 存儲庫曾經可以公開訪問,但後來變成了私有,但仍然可以通過 GitHub Copilot 等人工智能驅動的工具進行訪問。這個問題凸顯了互聯網上數據暴露的持久性,其中的信息,即使是短暫公開的,在受到限制很久之後也可以被生成人工智能係統保留和利用。

GitHub Copilot 由 GitHub 與 OpenAI 和 Microsoft 合作開發,是一款基於 AI 的編碼助手,可以向開發人員建議代碼片段和補全。它已經接受了大量公開可用代碼的訓練,使其能夠提供上下文相關的建議。但是,此培訓數據包括來自培訓時公開但後來變為私有的存儲庫的代碼。因此,Copilot 仍可能根據這些現在私有存儲庫中的內容生成代碼建議。

這種情況引起了人們對數據隱私和安​​全的嚴重擔憂。開發人員無意中暴露了公共存儲庫中的敏感信息,即使持續時間很短,也可能會發現這些數據已被 AI 模型攝取,並且仍然可以通過 Copilot 等工具間接訪問。這強調了公開共享代碼時謹慎行事的重要性,以及一旦信息在網上曝光後完全撤回信息的挑戰。

為了回應這些擔憂,GitHub 實施了一些功能來增強透明度和對 AI 生成的代碼建議的控制。例如,Visual Studio 現在支持 GitHub Copilot 補全的代碼引用,允許開發人員驗證建議是否基於公共代碼,這可能會產生許可問題。此功能提供有關找到的任何公共代碼匹配的詳細信息,使開發人員能夠就將建議的代碼合併到其項目中做出明智的決定。

儘管採取了這些措施,該事件還是提醒人們,數據一旦公開就具有持久性。建議開發人員在公開之前徹底審查其代碼中的敏感信息,並註意,即使在將存儲庫設為私有之後,以前公開的數據仍然可以通過基於先前公開數據訓練的人工智能工具來訪問。

參見:Windows 11 版 Copilot 改進了文件搜索和 Copilot Vision

來源:Techcrunch