OpenAI宣布推出AI Agent评测基准PaperBench

作者：新媒网时间：2025-04-03 阅读数：269 +人阅读

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。（界面）

>新媒网版权及免责声明:

1、凡本网注明“来源：新媒网全媒体、新媒网官方等账号”及标有原创的所有作品，版权均属于新媒网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非新媒网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。>
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

标签：

上一篇:供需两端高效促消费，财政政策“后手”力度可期

下一篇:Netflix升级电视端语言功能

新媒网

新媒体行业门户平台_电商品牌增长社区

OpenAI宣布推出AI Agent评测基准PaperBench

新媒网

猜你喜欢

浪潮软件：不存在应披露而未披露的重大信息

天猫双11美妆品牌增速爆发：前30分钟20个品牌破亿，8个单品破亿

全国铁路4月9日实行新的货物列车运行图

胖东来：为帮扶企业调改，公司整体销售损失约19亿