OpenAI宣布推出AI Agent评测基准PaperBench
作者:新媒网时间:2025-04-03 阅读数:9 +人阅读
当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。(界面)
>新媒网版权及免责声明:
1、凡本网注明“来源:新媒网全媒体、新媒网官方等账号”及标有原创的所有作品,版权均属于新媒网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非新媒网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。>
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。

新媒网
新媒体行业门户平台_电商品牌增长社区
