当地时间周四(9月25日) ,人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。
这项测试名为GDPval,是一次初步尝试 ,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近 。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。
OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。
这并不意味着OpenAI的模型会立刻取代人类工作 。尽管一些CEO预测AI在几年内就会取代人类,但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过 ,这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。
GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融 、制造业和政府等领域 。测试覆盖了44种职业,从软件工程师到护士再到记者。
在首个版本GDPval-v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果 ,并挑选出更优者。
例如,某项任务要求投行人员为“最后一公里配送行业 ”制作竞争格局分析,并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算 。
结果显示 ,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。
而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的模型。
OpenAI对此解释称,之所以Claude得分更高 ,部分原因是其倾向于生成更美观的图表,而非纯粹性能更优 。
需要说明的是,大多数职业的工作远不止提交研究报告 ,而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。
尽管如此 ,OpenAI仍认为GDPval的进展具有重要意义 。
OpenAI首席经济学家Aaron Chatterji在接受采访时表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。
“因为模型在某些事情上已经变得很擅长 ,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情 ,”Chatterji说。
OpenAI评估负责人Tejal Patwardhan表示,她对GDPval的进步速度感到鼓舞 。
Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%(胜出或持平人类) ,而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。
股票开户比较好的:怎样在手机上买卖股票-OpenAI新模型o3“抗命不遵” Claude Opus 4威胁人类!“失控”背后:AI应该“踩刹车”了?
手机股票行情软件排名:股票香港开户怎么办理-8月12日龙虎榜复盘:“金开大道”10.86亿元净买入寒武纪
股票开户手续费怎么收:软件股票排名-美消费者信心指数跌至三年低点 政府关门与高物价双重打击
股票配资实盘论坛:手机股票行情软件排名-下周一停牌!宏辉果蔬传来大消息!下周10股解禁市值均超过10亿元
股票开户有哪些要求:国内股票交易软件排名-机构调研丨产品供不应求!这家正极材料龙头称涨价商务谈判已取得较好效果
股票开户需要那些流程:十大股票软件品牌排名-清越科技涉嫌财务数据虚假记载遭证监会立案!下周解禁股出炉
正规股票配资官网-上网配资炒股-办理股票配资提示:文章来自网络,不代表本站观点。
3月24日,业内权威专家表示,MLF(中期借贷便利)不再有统一的中标利率,标志着MLF利率的政策属性完全退出。3月24日...
记者王珍中国国际经济交流中心副理事长、国务院发展研究中心原副主任王一鸣周一在“中国发展高层论坛2025...
3月24日,海洋王照明科技股份有限公司(以下简称“海洋王”,002724.SZ)早盘一字跌停,此后股价拉涨,尾盘封涨停板...
国海富兰克林基金国富深化价值基金经理刘晓日前发表了对 2025 年市场的展望。刘晓指出,国内经济正处于复苏通道,市场大幅...
记者|赵阳戈年初,证监会就修改《证券发行与承销管理办法》部分条款向社会公开征求意见,市场也将注意力投向了...
3月24日,易方达国证自由现金流ETF公开发售。该产品跟踪国证自由现金流指数,这个指数是什么?有哪些优势?投资价值如何?...
沪深两市成交额连续第44个交易日突破1万亿,较昨日此时缩量超900亿。...
记者辛圆3月25日,博鳌亚洲论坛旗舰报告《亚洲经济前景及一体化进程2025年度报告》(以下简称《报告》...