当前位置：首页 » 新闻资讯

OpenAI的AI语音转写工具Whisper，尽管标榜接近“人类水平”，却遭遇严重幻觉问题

2024-10-29

172

工程师发现，在长达100多小时的转录中，约半数内容存在错误解读。

更令人震惊的是，美联社揭露，有医疗机构已采用基于Whisper的工具来转录医患对话，这一消息迅速在网络上引起轩然大波。

据报道，包括明尼苏达州曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统，已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具，并已完成了约700万次医疗就诊的转录。

这一消息引发了网友的广泛担忧。

值得注意的是，OpenAI此前已明确警告，该工具不宜在“高风险领域”使用。

针对此次曝光的问题，OpenAI发言人回应称，公司将在模型更新中纳入相关反馈机制以改进性能。

Whisper：OpenAI的开源语音识别系统遭遇挑战

Whisper是OpenAI于2022年9月推出的开源自动语音识别（ASR）系统，采用编码器-解码器Transformer架构，经过68万小时多语言和多任务监督网络数据的训练，能够进行多语言转录。

该系统发布后迅速获得广泛应用，GitHub上已收获70.2k个星标，并被集成在ChatGPT的某些版本中，同时成为Oracle和微软云计算平台的内置服务，为全球数千家公司提供支持。

然而，近期多位研究人员和工程师反映，在工作中频繁遇到Whisper产生的幻觉问题。

例如，密歇根大学的一位研究员在检查音频转录时，发现每10份中有8份存在幻觉；一位机器学习工程师指出，在他分析的超过100小时转录中，约半数内容出现错误；还有开发者表示，在他创建的26000份转录中，几乎每一份都发现了幻觉问题。

这种问题甚至出现在录制良好的短音频样本中，计算机科学家在审查的超过13000个清晰音频片段中发现了187个幻觉现象。

工程师和研究人员表示，他们从未见过其他AI驱动的转录工具像Whisper这样频繁地产生幻觉。

幻觉原因尚不清楚，但开发者指出，这些虚构内容往往发生在停顿、有背景声音或音乐播放时。

OpenAI曾提醒不要在决策情境中使用Whisper

尽管OpenAI此前已提醒不要在决策情境中使用Whisper，因其准确性上的缺陷可能导致结果出现明显偏差，但仍有医疗机构选择采用基于Whisper的工具。

Nabla公司表示，其针对医疗语言对模型进行了微调，用于转录和总结患者交流。然而，在得知Whisper可能存在幻觉问题后，Nabla表示正在解决此问题，但由于“数据安全原因”，其工具会删除原始音频，无法将生成的AI文本与原始录音进行比较。

此外，Whisper还被用于为聋人和听力障碍者创建字幕。此次幻觉问题曝光后，有人敦促OpenAI尽快解决此问题。

OpenAI研究员William Saunders表示，如果公司愿意优先考虑，这个问题似乎是可以解决的。他强调，如果过于自信于Whisper的功能并将其集成到其他系统中，将引发更多问题。

OpenAI发言人回应称，公司持续研究如何减少幻觉现象，并感谢研究人员的发现。同时表示，公司将在模型更新中融入相应反馈机制以改进性能。

9na导航网 - 专注Ai工具库！