ChatGPT-5 的幻覺較少,但仍然會犯錯誤

OpenAI 的 GPT-5 已作為該公司迄今為止最先進的人工智能模型推出,在準確性和推理方面有了重大改進。該公司強調的關鍵變化之一是幻覺的顯著減少,幻覺是人工智能產生虛假或誤導性信息時使用的術語。這一改進旨在使模型對於復雜任務更加可靠,無論是回答問題、協助研究還是生成創意內容。

該模型的新“思維”模式,結合更好的訓練數據和完善的安全機制,旨在提供對不確定性更準確、更透明的響應。當 GPT-5 不知道某些事情時,它也更有可能承認,而不是提供一個自信但不正確的答案。這些更新代表了 OpenAI 持續努力解決對先前人工智能模型的最大批評之一——它們經常產生令人信服但實際上不正確的信息。

根據系統卡對於 GPT-5,幻覺的減少是可測量的,並且在不同模式下有所不同:

  • GPT-5-瀏覽思維:4.5% 幻覺率
  • GPT-5-main:幻覺率9.6%
  • o3:幻覺率12.7%
  • GPT-4o:幻覺率12.9%

儘管取得了這些進步,GPT-5 也並非完美無缺。測試表明,雖然與 GPT-4o 相比,幻覺率有所下降,但該模型仍然會犯基本錯誤。示例包括拼寫錯誤、錯誤識別地理位置以及創建不存在的詳細信息。這些錯誤凸顯出,雖然準確性有所提高,但模型保證事實正確性的能力仍然有限。這意味著用戶在依賴人工智能生成的內容做出重要決策之前應繼續驗證它。

閱讀更多:

GPT-5的推出也引發了關於如何向公眾展示人工智能的爭論。公告期間使用的視覺效果和宣傳材料後來因歪曲某些統計數據而受到批評,促使公司做出澄清。這不僅引發了對人工智能響應透明度的質疑,還引發了對其能力如何傳達的質疑。

GPT-5 的改進標誌著 AI 可靠性向前邁進了一步,但也提醒我們,沒有一個 AI 模型是完美的。即使幻覺發生率降低,該技術仍然依賴於數據模式,而不是對事實的真正理解。對於教育、新聞、醫療保健和其他高風險領域的應用,人類監督仍然至關重要。

總體而言,GPT-5 距離更值得信賴的 AI 助手的目標更近了,但仍需謹慎。該模型在推理、創造力和會話能力方面的優勢顯而易見,但在處理事實精度方面的弱點也很明顯。隨著人工智能技術的不斷發展,流暢性和準確性之間的平衡仍將是對話的核心。