当前位置:数智频道首页 > 人工智能 > 正文

OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%

科技媒体ZDNet报道,OpenAI推出了一项名为GDPval的全新AI评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,弥补学术测试与实际应用之间的差距。

OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%

虽然大量AI工具涌入市场并承诺提升生产力,但其在企业中的实际效果却参差不齐。为解决这一问题,OpenAI发布了一套名为GDPval的评估体系,其目标是“衡量AI在具有经济价值的真实世界任务中的表现”,提供一个更贴近实践的评判标准。

OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%

GDPval的设计深度模拟了真实工作场景,覆盖了对美国GDP贡献最高的九大行业中的44个职业,共计1320项具体任务。这些任务由平均拥有14年相关领域经验的专业人士创建,确保了其真实性和复杂性。与传统依赖文本提示的评测不同,GDPval要求AI模型处理文件、生成幻灯片和格式化文档等多模态交付物,以检验模型在实际工作环境中的综合能力。

OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%

在首轮测试中,OpenAI邀请行业专家对多个前沿模型的输出进行盲评,包括自家的GPT-5、GPT-4o以及Anthropic的Claude Opus 4.1、谷歌的Gemini 2.5 Pro等。评测结果显示,Claude Opus 4.1凭借在文档格式、幻灯片布局等方面的出色表现成为综合性能最佳的模型;而GPT-5则在特定领域知识的准确性方面领先。

OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%

研究还显示,从2024年春季发布的GPT-4o到预计2025年夏季发布的GPT-5,模型性能提升超过一倍。此外,前沿模型完成GDPval任务的速度比行业专家快约100倍,成本也仅为后者的百分之一。不过,这些数据仅反映了纯粹的模型推理成本,并未包含现实工作中必要的人工监督、迭代和集成步骤。

OpenAI承认GDPval目前存在局限性,作为一个初期版本,该基准主要进行一次性任务评估,尚无法衡量模型处理需要多轮修改的复杂项目或应对充满模糊性的现实工作的能力。例如,它无法评估模型根据客户反馈修改方案或处理数据异常等动态、交互式的任务。未来,OpenAI计划进一步改进GDPval,覆盖更多行业和更难自动化的任务,并会发布部分数据集供研究人员使用。

热点推送

本周关注

MORE