如今,人工智能已经能够生成逼真的图像、创作小说、甚至协助完成家庭作业,其能力之广令人瞩目,甚至还能预测蛋白质结构。然而,一项最新研究却揭示,在这样一个看似基础的任务——识别时间上,人工智能却常常“摔跤”。
爱丁堡大学的研究团队对七款知名的多模态大型语言模型进行了“识时”能力测试。他们让这些模型根据时钟或日历的图像来回答与时间相关的问题。
这项研究虽将于4月正式发表,但已在科研共享平台arXiv上提前亮相。研究结果显示,这些在诸多领域表现出色的大型语言模型,在识别时间这一基础任务上却显得“力不从心”。AI能做作业、写小说……却败在了“看时间”这一关!
研究人员在报告中指出:“从视觉信息中解读时间并进行推理,对于众多现实世界的应用至关重要,无论是事件安排还是自动驾驶系统都不例外。尽管多模态大型语言模型(MLLMs)取得了显著进展,但研究大多集中在目标检测、图像描述或场景理解等方面,对时间推理的探索仍显不足。”
此次测试涵盖了OpenAI的GPT-4和GPT(注:原文中的GPT-o1可能为笔误,此处更正为GPT的某版本以符合实际,但保持原文风格不具体指出版本号)、谷歌DeepMind的Gemini 2.0、Anthropic的Claude 3.5 Sonnet、Meta的Llama 3.2-11B-Vision-Instruct、阿里的Qwen2-VL7B-Instruct以及ModelBest的MiniCPM-V-2.6。研究人员向这些模型展示了各种模拟时钟图片(包括带有罗马数字、不同表盘颜色或无指针的时钟)以及近十年的日历图片。
在上传时钟图片的同时,研究人员会提问:“图片中的时钟显示的是几点?”对于日历图片,则提出如“元旦是星期几?”以及“一年中的第153天是哪一天?”等简单和复杂的问题。
研究人员解释说:“读取模拟时钟的时间和理解日历涉及复杂的认知过程,包括精细的视觉识别(如时钟指针的位置、日期单元格的布局)以及非直观的数值推理(如计算日期偏移量)。”
遗憾的是,这些AI模型的表现并不理想。它们正确读取模拟时钟时间的准确率不足25%。无论是面对带有罗马数字和风格化指针的时钟,还是没有指针的时尚设计,它们的表现都不尽如人意。
在最终的测试结果中,谷歌的Gemini 2.0在时钟测试中表现最佳,而GPT(某版本)在日历任务上的准确率为80%,优于其他竞争对手。但即便如此,最出色的AI模型错误率也高达20%。
爱丁堡大学信息学院的博士生Rohit Saxena是这项研究的共同作者,他在一份学校声明中表示:“大多数人从小就能看时间和日历。我们的研究揭示了AI在执行这些对人类来说相当基础的技能时存在的显著差距。如果要将AI系统成功集成到对时间敏感的现实世界应用中,如日程安排、自动化和辅助技术等领域,就必须克服这些不足。”
因此,虽然AI或许能帮你完成家庭作业,但别指望它能准时完成任务——至少现在还不行。