近期,OpenAI 正式推出了其最新一代推理型 AI 模型——“o3”与“o4 mini”。尽管这两款新模型在性能上较前代产品实现了显著提升,但随之而来的 AI 幻觉问题却愈发凸显。所谓 AI 幻觉,即生成式人工智能在生成内容时,会虚构出并不存在的信息,并将其作为事实呈现。
海外知名 IT 专业媒体 TechCrunch 援引相关数据报道称,OpenAI 新发布的 o3 模型在测试中,有 33% 的问题出现了 AI 幻觉现象,这一比例是 o1 模型(16%)和 o3 mini 模型(14.8%)的两倍有余。而 o4 mini 模型的幻觉率更是高达 48%,其表现出的不稳定性甚至超过了包括 GPT-4o 在内的现有模型。这一结论是基于 OpenAI 的 PersonQA 基准测试评估结果得出的。
16 日,OpenAI 以“新款能将图像融入思考的 AI 模型”为宣传点,盛大发布了这些新模型。官方介绍称,这些模型不仅具备图像识别能力,更能在推理过程中有效运用视觉信息。具体而言,o3 和 o4 mini 模型能够分析用户上传的图画、图表、图形等内容,并具备处理模糊或旋转图像的能力。
在性能测试方面,以编码相关的 SWE 基准测试为例,o3 模型得分 69.1%,o4 mini 模型得分 68.1%,不仅超越了前代模型 o3 mini(49.3%),也高于竞争对手 Claude3.7Sonnet 模型(62.3%)。然而,尽管技术层面取得了进步,但 AI 幻觉的出现率却较以往有所上升。这与以往新模型推出时 AI 幻觉问题逐步改善的趋势形成了鲜明对比。
针对这一现象,OpenAI 尚未给出明确解释。在技术报告中,公司分析称:“随着模型需要处理的用户请求量不断增加,不仅正确结果的生成量在增加,错误结果的生成量似乎也在上升。” 并表示,为查明 AI 幻觉现象增加的确切原因,“还需开展更多研究”。
人工智能行业专家认为,此次事件可能会引发对推理型模型可靠性的更多质疑。特别是在法律、会计、税务等对准确性要求极高的行业领域,若 AI 幻觉问题得不到有效解决,相关行业引入推理型 AI 模型的可能性或将降低。
OpenAI 方面表示:“在所有问题领域完全消除‘幻觉’仍是一项持续的研究课题”,并承诺“将继续努力提升模型的准确性和可靠性”。