OpenAI宣布其强大的智能体Deep Research已经面向所有ChatGPT Plus、Team、Edu和Enterprise用户推出,不再仅限于Pro用户。同时,OpenAI还发布了Deep Research系统卡,详细介绍了这一智能体的相关信息。
Deep Research是OpenAI本月初推出的一款智能体,它能够利用推理来综合大量在线信息,为用户完成多步骤研究任务,助力用户进行深入、复杂的信息查询与分析。自发布以来,OpenAI已经对Deep Research进行了一系列升级。
OpenAI发布的Deep Research系统卡报告,详细介绍了在发布Deep Research之前所开展的安全工作,包括外部红队测试、根据准备度框架进行的风险评估,以及OpenAI为解决关键风险领域而采取的缓解措施。
Deep Research是一种新的智能体能力,它针对复杂任务在互联网上进行多步骤研究。该模型基于为网页浏览进行了优化的OpenAI o3早期版本,能够搜索、解读和分析互联网上的大量文本、图像和PDF,并根据遇到的信息做出必要的调整。此外,它还可以读取用户提供的文件,并通过编写和执行Python代码来分析数据。
OpenAI表示,他们相信Deep Research可以帮助人们应对多种多样的情形。在发布之前,OpenAI对Deep Research进行了严格的安全测试、准备度评估和治理审查。他们还进行了额外的安全测试,以更好地了解与Deep Research浏览网页的能力相关的增量风险,并增加了新的缓解措施。
在模型数据和训练方面,Deep Research的训练数据是专门为研究用例创建的新浏览数据集。该模型学习了核心的浏览功能、如何在沙盒环境中使用Python工具,以及如何通过对这些浏览任务进行强化学习训练来推理和综合大量网站以查找特定信息或撰写综合报告。
在风险识别、评估和缓解方面,OpenAI与外部红队成员团队合作,评估了与Deep Research能力相关的关键风险。他们还为个人信息和隐私、不允许的内容等领域开发了新的评估方法。对于准备度评估,OpenAI使用了自定义支架来引出模型的相关能力。
准备度框架评估显示,Deep Research在网络安全、说服、CBRN(化学、生物、放射、核)、模型自主性等方面均被评为中等风险。这是模型首次在网络安全方面被评为中等风险。OpenAI也报告了置信区间以反映评估结果的内在变化。
在对比模型中,缓解后的Deep Research模型在SWE-Lancer上表现最佳,解决了大约46-49%的IC SWE任务和47-51%的SWE Manager任务。这一结果展示了Deep Research的强大能力和潜力。
总的来说,OpenAI对Deep Research的发布和推广持谨慎态度,他们进行了全面的安全测试和风险评估,并采取了相应的缓解措施。未来,随着Deep Research的不断升级和完善,它有望为更多用户带来便捷和高效的信息查询与分析体验。