ChatGPT-5 的幻觉较少，但仍然会犯错误

OpenAI 的 GPT-5 已作为该公司迄今为止最先进的人工智能模型推出，在准确性和推理方面有了重大改进。该公司强调的关键变化之一是幻觉的显着减少，幻觉是人工智能产生虚假或误导性信息时使用的术语。这一改进旨在使模型对于复杂任务更加可靠，无论是回答问题、协助研究还是生成创意内容。

该模型的新“思维”模式，结合更好的训练数据和完善的安全机制，旨在提供对不确定性更准确、更透明的响应。当 GPT-5 不知道某些事情时，它也更有可能承认，而不是提供一个自信但不正确的答案。这些更新代表了 OpenAI 为解决对先前人工智能模型最大的批评之一所做的持续努力，即它们经常产生令人信服但实际上不正确的信息。

根据系统卡对于 GPT-5，幻觉的减少是可测量的，并且在不同模式下有所不同：

GPT-5-浏览思维：4.5% 幻觉率
GPT-5-main：幻觉率9.6%
o3：幻觉率12.7%
GPT-4o：幻觉率12.9%

尽管取得了这些进步，GPT-5 也并非完美无缺。测试表明，虽然与 GPT-4o 相比，幻觉率有所下降，但该模型仍然会犯基本错误。示例包括拼写错误、错误识别地理位置以及创建不存在的详细信息。这些错误凸显出，虽然准确性有所提高，但模型保证事实正确性的能力仍然有限。这意味着用户在依赖人工智能生成的内容做出重要决策之前应继续验证它。

GPT-5的推出也引发了关于如何向公众展示人工智能的争论。公告期间使用的视觉效果和宣传材料后来因歪曲某些统计数据而受到批评，促使公司做出澄清。这不仅引发了关于人工智能响应的透明度的问题，还引发了关于其能力如何传达的问题。

GPT-5 的改进标志着 AI 可靠性向前迈进了一步，但也提醒我们，没有一个 AI 模型是完美的。即使幻觉发生率降低，该技术仍然依赖于数据模式，而不是对事实的真正理解。对于教育、新闻、医疗保健和其他高风险领域的应用，人类监督仍然至关重要。

总体而言，GPT-5 距离更值得信赖的 AI 助手的目标更近了，但仍需谨慎。该模型在推理、创造力和会话能力方面的优势显而易见，但在处理事实精度方面的弱点也很明显。随着人工智能技术的不断发展，流畅性和准确性之间的平衡仍将是对话的核心。

Related articles