炸锅！外媒曝ChatGPT新模型 o4 mini“AI幻觉率”竟达48%

2025-04-21

近期，OpenAI 正式推出了其最新一代推理型 AI 模型——“o3”与“o4 mini”。尽管这两款新模型在性能上较前代产品实现了显著提升，但随之而来的 AI 幻觉问题却愈发凸显。所谓 AI 幻觉，即生成式人工智能在生成内容时，会虚构出并不存在的信息，并将其作为事实呈现。

海外知名 IT 专业媒体 TechCrunch 援引相关数据报道称，OpenAI 新发布的 o3 模型在测试中，有 33% 的问题出现了 AI 幻觉现象，这一比例是 o1 模型（16%）和 o3 mini 模型（14.8%）的两倍有余。而 o4 mini 模型的幻觉率更是高达 48%，其表现出的不稳定性甚至超过了包括 GPT-4o 在内的现有模型。这一结论是基于 OpenAI 的 PersonQA 基准测试评估结果得出的。

16 日，OpenAI 以“新款能将图像融入思考的 AI 模型”为宣传点，盛大发布了这些新模型。官方介绍称，这些模型不仅具备图像识别能力，更能在推理过程中有效运用视觉信息。具体而言，o3 和 o4 mini 模型能够分析用户上传的图画、图表、图形等内容，并具备处理模糊或旋转图像的能力。

在性能测试方面，以编码相关的 SWE 基准测试为例，o3 模型得分 69.1%，o4 mini 模型得分 68.1%，不仅超越了前代模型 o3 mini（49.3%），也高于竞争对手 Claude3.7Sonnet 模型（62.3%）。然而，尽管技术层面取得了进步，但 AI 幻觉的出现率却较以往有所上升。这与以往新模型推出时 AI 幻觉问题逐步改善的趋势形成了鲜明对比。

针对这一现象，OpenAI 尚未给出明确解释。在技术报告中，公司分析称：“随着模型需要处理的用户请求量不断增加，不仅正确结果的生成量在增加，错误结果的生成量似乎也在上升。” 并表示，为查明 AI 幻觉现象增加的确切原因，“还需开展更多研究”。

人工智能行业专家认为，此次事件可能会引发对推理型模型可靠性的更多质疑。特别是在法律、会计、税务等对准确性要求极高的行业领域，若 AI 幻觉问题得不到有效解决，相关行业引入推理型 AI 模型的可能性或将降低。

OpenAI 方面表示：“在所有问题领域完全消除‘幻觉’仍是一项持续的研究课题”，并承诺“将继续努力提升模型的准确性和可靠性”。