Nature：OpenAI 的“深度研究”工具让科学家们惊喜_新闻中心

2025-04-07 新闻中心

　　科技巨头 OpenAI 推出了一款名为“深度研究”的付费访问工具，该工具将来自数十或数百个网站的信息综合成一份长达数页的引用报告。该工具效仿了谷歌 12 月发布的类似工具，充当个人助理，在数十分钟内完成相当于数小时的工作。

　　许多尝试过它的科学家对它撰写文献概要或完整评论论文甚至发现知识空白的能力印象非常深刻。其他人则不那么热情。“如果是人类做这件事，我会想：这需要做很多工作，”加州莫菲特菲尔德湾区环境研究所的数据科学家凯尔·卡巴萨雷斯 (Kyle Kabasares) 在在线视频评论中说。

　　科学家们纷纷涌向 DeepSeek：他们怎么样去使用这一轰动一时的 AI 模型

　　这些公司将这些工具作为迈向可处理复杂任务的人工智能“代理”的一步。观察的人说，OpenAI 于 2 月 2 日发布的深度研究工具之所以引人注目，是因为它结合了o3 大型语言模型(LLM) 改进的推理能力和搜索互联网的能力。谷歌表示，其深度研究工具目前基于 Gemini 1.5 Pro，而不是其领先的推理模型 2.0 Flash Thinking。

　　许多用户对这两款工具印象非常深刻。加州旧金山初创公司 FutureHouse 的化学家兼人工智能专家 Andrew White 表示，谷歌的产品“真正利用了谷歌在搜索和计算方面的优势”，让用户快速了解某个主题，而 o3 的推理能力则为 OpenAI 的报告增添了复杂性。

　　康涅狄格州法明顿杰克逊实验室的免疫学家 Derya Unutmaz 可以免费使用 OpenAI 授予的 ChatGPT Pro 进行医学研究，他表示 OpenAI 的深度研究报告“非常令人印象非常深刻”、“让人信服”，与已发表的评论论文一样好甚至更好。“我认为撰写评论已经过时了。”

　　怀特预计，这样的AI系统可用于更新人工撰写的评论。“权威评论不可能每 6 个月由 [人工] 更新一次。”

　　但许多人警告称，所有基于 LLM 的工具有时都不准确或具有误导性。OpenAI 的网站承认，其工具“尚处于早期阶段，存在局限性”：它可能会引用错误、产生幻觉、无法区分权威信息和谣言，也无法准确传达其不确定性。该公司预计，随着使用次数和时间的增加，这样一些问题会得到一定的改善。谷歌的 Deep Research 有一个免责声明，上面写着“Gemini 可能会出错，因此请仔细检查”。

　　德国埃尔朗根马克斯普朗克光科学研究所AI科学家实验室负责人马里奥·克伦指出，这些工具并不是按照科学家通常所说的方式来进行“研究” 。他说，科学家们花费数年时间研究一个主题并提出新的想法。“这种能力尚未被[人工智能]证明，”克伦说，并补充道，“也许很快就会有，但现在谁也不知道。”

　　OpenAI 已经对其深度研究工具进行了测试。例如，它在人类的最后考试 (HLE) 中表现良好，这是一项包含 3,000 个问题的基准测试，涵盖从语言学到科学等所有的领域的专家级知识，并且对于法学硕士来说，它比其他现在被人工智能超越的常见测试（如 GPQA）要难得多。OpenAI 的产品在 HLE 的纯文本问题中以 26.6% 的成绩名列榜首。

　　该公司还根据 GAIA 基准1测试了其系统，该基准于 2023 年开发，用于测试使用多步推理和网页浏览来回答问题的人工智能。公共 GAIA 排行榜由来自全球公司 H2O.ai 的代理领衔，该代理由旧金山公司 Anthropic 的 Claude 3.5 Sonnet 提供支持，最高级别得分为 40.82%。OpenAI 的深度研究得分为 58.03%。

　　谷歌表示，目前还没有关于该工具的基准测试结果能分享。怀特表示，OpenAI 选择的基准测试依赖于具有简短、可验证答案的问题，而这样一些问题可能不太适合生成长答案且没明确正确答案的工具。“我认为这些基准测试将会逐渐消失，取而代之的是功能性基准测试，”他说，例如人类对文章质量和实用性的评估。例如，怀特之前曾撰写过一篇论文，其中人类专家对从AI编写的和人类编写的式科学主题摘要中摘取的陈述进行盲目评分；人工智能赢了2。

　　这两款产品都有其他限制。它们都无法提取付费信息，这中间还包括许多科学论文。这是“一个重大问题”，支持开放科学的 Unutmaz 说。“获取这些知识比以往任何一个时间里都重要，”他说。一些科学家在网上论坛上提议，他们应该能够将他们的期刊密码插入 AI 工具，并推测使用 OpenAI 的新“操作员”代理来做到这一点。OpenAI 的首席执行官 Sam Altman 在推特上回应道：“我们确实需要在这里想出办法。”

　　爱思唯尔（Elsevier）：洞察 2024：科研人员对AI的态度报告

　　前瞻：2025 年人形机器人产业高质量发展蓝皮书 - 人形机器人量产及商业化关键挑战

　　美国国家标准技术研究院（NIST）：2024 年度美国制造业统计数据报告（英文版）

　　中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

　　兰德公司 2024 人工智能项目失败的五大最终的原因及其成功之道 - 避免 AI 的反模式英文版

　　Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来英文版

　　兰德公司 2024 AI和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版

　　Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察英文版

　　电子行业专题报告：2025 年万物 AI 面临的十大待解难题 - 241209

　　NeurIPS 2024 论文：智能体不够聪明怎么办？让它像学徒一样持续学习

　　Chainalysis：2024 年密码货币地理报告密码货币采用的区域趋势分析

　　经合组织成年人是不是具备在一直在变化的世界中生存所需的技能 199 页报告

　　《全球导航卫星系统（GNSS）软件定义无线电：历史、当前发展和标准化工作》最新综述

　　DARPA 主动社会工程防御计划（ASED）《防止删除信息和捕捉有害行为者（PIRANHA）》技术报告

　　世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造英文版

　　经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展的新趋势英文版

　　科尔尼 2024 年全球AI评估 AIA 报告追求更高层次的成熟度规模化与影响力英文版

　　国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告渗透度替代效应及对不平等状况英文版

　　MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119

　　当地时间4月5日，2025世界泳联跳水世界杯瓜达拉哈拉站比赛场馆内，中国跳水队运动员全红婵在女子十米台决赛夺得银牌后，接受了新华社记者独家专访，一起听听她说了什么吧。

　　当地时间4月2日，美国总统特朗普在白宫宣布对贸易伙伴征收所谓的“对等关税”措施。其中，不断讨好美国“倚美谋独”的当局被狠狠打脸——台湾地区被加征32%关税。靴子落地，台湾民众怒斥：台积电白给了，武器白买了，结果还被美国征收32%高关税。

　　4月4日上午，韩国就尹锡悦弹劾案作出宣判，8名宪法法官一致认为，尹锡悦严重违反了宪法和法律，宣布尹锡悦被罢免。4月4日，在韩国首都首尔，韩国代理院长文炯培宣读尹锡悦弹劾案裁决书。

　　睡觉也有最佳“黄金时间”不是11点也不是12点（人民日报）#睡觉 #熬夜#肥胖

　　对等关税9日生效，美民众破防，恐慌囤货，中国商品在美国超市被抢购一空。全美上演1200多场抗议活动反对特朗普各项政策。（剪辑：祁泉）#关税 #特朗普关税大棒 #关税在即美国人疯狂囤货

　　胡塞武装称打击美“杜鲁门”号航母为首的多艘战舰还打击了一艘为“杜鲁门”号航母提供补给的美军补给舰

　　其中，广州市番禺区剑桥郡加拿达外国语学校和广州市番禺区加拿达外国语学校合并，广州市番禺区加拿达外国语学校于2025年春季学期结束后终止办学。

　　男子相亲订婚支付34.99万元彩礼，分手后起诉女方返还，经调解女方返还17.5万元

　　订婚时，按照习俗，李某某家给了初某某家34.99万元彩礼。可是没有想到，订婚后两人矛盾不断，感情迅速降温，不久就闹到了分手的地步。

　　反正，这个周末，很多美国人正急着干两件事。看新闻报道，周末的华盛顿、纽约、波士顿、芝加哥、洛杉矶，等等等等，几乎所有的美国城市，都有大型的街头抗议活动，抗议特朗普在瞎搞，抗议特朗普不顾美国人死活。

　　北京‬时间‬4月‬6日‬，迎来了‬2025跳水世界杯墨西哥赛，女子10米台决赛，陈芋汐419.35分夺得冠军，全红婵414.40摘银。值得一提的‬是‬，陈芋汐‬和‬全红婵‬包揽了‬冠军‬和‬亚军‬，总分‬远远‬超过‬第三名‬337.

　　在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持文、编辑小娄2022年12月29日这天，消失在大众视野许久的央视主持人朱军在社交平台上更新了一则内容。

[上一篇] 中国校企数篇论文被ICLR 2025选用新颖课题“让机器人‘自主进化’”获“关心”

[下一篇] 职坐标：未来高薪行业中的A与深度学习的崛起