OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

2025-12-24 09:00:02 来源：IT之家 A+A-

科技媒体ZDNet报道，OpenAI推出了一项名为GDPval的全新AI评估基准，旨在衡量前沿模型在真实经济价值任务中的表现，弥补学术测试与实际应用之间的差距。

虽然大量AI工具涌入市场并承诺提升生产力，但其在企业中的实际效果却参差不齐。为解决这一问题，OpenAI发布了一套名为GDPval的评估体系，其目标是“衡量AI在具有经济价值的真实世界任务中的表现”，提供一个更贴近实践的评判标准。

OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

GDPval的设计深度模拟了真实工作场景，覆盖了对美国GDP贡献最高的九大行业中的44个职业，共计1320项具体任务。这些任务由平均拥有14年相关领域经验的专业人士创建，确保了其真实性和复杂性。与传统依赖文本提示的评测不同，GDPval要求AI模型处理文件、生成幻灯片和格式化文档等多模态交付物，以检验模型在实际工作环境中的综合能力。

OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

在首轮测试中，OpenAI邀请行业专家对多个前沿模型的输出进行盲评，包括自家的GPT-5、GPT-4o以及Anthropic的Claude Opus 4.1、谷歌的Gemini 2.5 Pro等。评测结果显示，Claude Opus 4.1凭借在文档格式、幻灯片布局等方面的出色表现成为综合性能最佳的模型；而GPT-5则在特定领域知识的准确性方面领先。

OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

研究还显示，从2024年春季发布的GPT-4o到预计2025年夏季发布的GPT-5，模型性能提升超过一倍。此外，前沿模型完成GDPval任务的速度比行业专家快约100倍，成本也仅为后者的百分之一。不过，这些数据仅反映了纯粹的模型推理成本，并未包含现实工作中必要的人工监督、迭代和集成步骤。

OpenAI承认GDPval目前存在局限性，作为一个初期版本，该基准主要进行一次性任务评估，尚无法衡量模型处理需要多轮修改的复杂项目或应对充满模糊性的现实工作的能力。例如，它无法评估模型根据客户反馈修改方案或处理数据异常等动态、交互式的任务。未来，OpenAI计划进一步改进GDPval，覆盖更多行业和更难自动化的任务，并会发布部分数据集供研究人员使用。

热点推送

OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

科技媒体ZDNet报道，OpenAI推出了一项名为GDPval的全新AI评估基准，旨在衡量前沿模型在真实经济价值任务中的表现，弥补学术测试与实际应用之间的差距
2025-12-24AI，OpenAI
生产力利器：罗技 MX Master 4 鼠标实物图曝光，新增拇指键、优化握持手感

9月27日，科技媒体Notebook Check发布了一组实物图片，展示了罗技尚未发布的旗舰办公鼠标MX Master 4
2025-12-24MX，Master，4
OPPO ColorOS 国庆水印限时上线，9 月 27 日-10 月 9 日可用

OPPO ColorOS 宣布国庆水印限时上线，让每张假日照片都充满家国情怀，更具纪念意义。用户可以通过两种方式开启限定水印：第一种是打开「相机」，点击右上角的设置按钮，选择水印并开启限定水印；第二种是在拍摄时直接选择限定水印
2025-12-24OPPO，ColorOS，国庆水印
格力电器：“董明珠健康家”在全国已建设 970 多家

格力电器于9月26日晚在互动平台透露，自今年3月董明珠健康家首店在北京落地以来，全国已建设了970多家门店。消费者对非空调品类的关注度和购买量显著增长。公司将根据“成熟一家，开设一家”的原则稳步推进门店的新建和改造
2025-12-24格力电器，董明珠健康家
12.99 万元起 2026 款一汽-大众高尔夫车型上市：车机升级 SOP 3.0 系统，新增发动机远程启动

一汽-大众宣布旗下2026款高尔夫车型上市，新车定位为年度改款，主要对配置进行了调整。全系搭载1.5T发动机，指导价格区间为12.99万至15.89万元
2025-12-24高尔夫
华为鸿蒙智选小豚当家智能摄像头鲸瞳 Max 现身：500 万像素双摄、支持星闪，822.36 元起

华为鸿蒙智选小豚当家智能摄像头鲸瞳 Max 现已在京东上架，预约价 822.36 元起。这款摄像头采用 500 万像素双摄设计，下半部分的摄像头支持 340° 自由旋转
2025-12-24华为鸿蒙智选，鲸瞳，Max
直面英特尔 Nova Lake，AMD Zen 6 处理器被曝同样采用 144/288MB 末级缓存方案

关于2026年的CPU新品，无论是AMD还是英特尔在桌面端都将采用Refresh式更新。然而，下下代Zen 6及Nova Lake预计将带来巨大提升
2025-12-24Nova，Lake，AMD
美国得州应用商店年龄验证法被叫停，法官称其违宪

美国一名联邦法官暂停了得克萨斯州一项要求移动应用商店对用户进行年龄验证的法律，该法律原定于明年1月1日生效
2025-12-24应用商店，年龄验证
华为 Mate Xs 折叠屏手机获 HarmonyOS 4.2.0.121 更新：搭麒麟 990 5G 芯，发布距今已近 6 年

华为官方团队账号 @MateP手机软件维护宣布，华为Mate Xs折叠屏手机现已可升级至HarmonyOS 4.2.0.121版本。此次更新主要优化了部分使用场景的体验，并加入了安全补丁
2025-12-24华为，Mate，Xs
苹果 iPhone 18 Pro / Max 前瞻：更小灵动岛、首发 2nm 工艺 A20 芯片

科技媒体发布文章，汇总了现有消息，前瞻苹果计划在2026年秋季发布的iPhone 18 Pro系列。预计新机将在维持现有尺寸基础上进一步优化外观和性能
2025-12-24iPhone，18，Pro
捷豹燃油车谢幕：最后一辆 F-Pace 已下线

捷豹索利哈尔工厂悄然下线了最后一辆F-Pace车型，标志着一个时代的结束。这一事件意义重大，因为这不仅是F-Pace生产的终结，也是该品牌生产的最后一辆燃油动力车型
2025-12-24F，Pace，捷豹
荣耀 Play10A 5G 手机上架：5300mAh 大电池，提供 4+128GB 存储及三种配色

荣耀Play10A 5G今日在京东上架并开放预约。该手机提供4+128GB和6+128GB两种存储版本，颜色方面有海湖青、墨岩黑、碧空蓝三种选择
2025-12-24荣耀Play10A，5G
钉钉联合通义推出 Fun-ASR 语音识别大模型，能听懂家装、畜牧等十大行业黑话

钉钉与通义实验室语音团队合作推出了新一代语音识别大模型Fun-ASR，该模型能够理解家装、畜牧等十大行业的专业术语，并支持企业专属模型定制训练
2025-12-24钉钉，通义，人工智能
1299 元华硕 B850M 天选主板开售：3 个 M.2 接口，2.5G 网口 + WiFi 6

华硕宣布TX GAMING B850M WIFI W天选主板新品正式开售，首发价1299元
2025-12-24华硕，天选，B850M
工信部推动制定首个电器电子产品有害物质管控强制性国家标准，2027 年 8 月 1 日实施

近日，我国发布了电器电子产品有害物质管控领域的首个强制性国家标准《电器电子产品有害物质限制使用要求》（GB 26572—2025），该标准由工业和信息化部提出并归口管理，中国电子技术标准化研究院联合多家单位共同研制
2025-12-24工信部，中国，RoHS
Jeep 经典 SUV 切诺基回归，变身油电混动车型

在2023年停产一年后，Jeep切诺基正式回归。全新2026款车型比上一代更大，科技配置更丰富，并首次搭载混合动力系统。这款车对Jeep来说，在竞争激烈的中型SUV市场中至关重要
2025-12-24jeep，切诺基
消息称 vivo Y500 手机搭载天玑 7300 处理器 + 8200mAh 电池

博主 @数码闲聊站爆料称，vivo Y500 采用直屏加居中大圆镜头设计，搭载2.5GHz天玑7300处理器，内置8200mAh超大电池
2025-12-24vivo，Y500，天玑
2025 年 Q3 全球蜂窝物联网模组出货量同比增长 10%，高通继续主导 5G 和高端 LTE 市场

分析机构Counterpoint公布了2025年第三季度全球蜂窝物联网模组与芯片的追踪报告，显示该季度全球蜂窝物联网模组出货量同比增长10%。增长主要集中在新兴市场和价格敏感市场
2025-12-23Cat1，bis，移远通信
我国 5G 基站总数达 483 万个，比上年末净增 57.9 万个

工信部昨日发布了2025年前11个月通信业经济运行情况。数据显示，电信业务收入累计完成16096亿元，同比增长0.9%。按照上年不变价计算的电信业务总量同比增长9.1%
2025-12-235G，基站，工信部
“大空头”伯里：英伟达“制造高功耗 GPU 战略”或使中国在 AI 竞赛中领先美国

迈克尔·伯里认为，英伟达不断强化一种叙事：只有制造功耗越来越高的GPU才能推动AI进步。然而，这种策略可能让美国在与中国的AI竞争中处于不利地位。他在评论一条将英伟达称为“AI社区黑帮老大”的帖子时写道：“完全正确，而且很遗憾
2025-12-23英伟达，伯里
曜越推出 MAGCurve 360 Ultra ARGB 一体水冷散热器：冷头曲面屏、配磁吸拼接设计风扇，2299 元起

曜越推出了一款名为MAGCurve 360 Ultra ARGB的一体水冷散热器，该产品冷头采用曲面屏设计，并配备磁吸拼接ARGB风扇，起售价为2299元
2025-12-23曜越，散热器
快手：遭到灰黑产攻击，正在修复处理中，已报警

12月22日22时左右，快手平台多个直播间出现了涉黄内容。对此，快手回应表示，当时平台遭受了黑灰产攻击，已紧急处理并修复问题。快手坚决抵制违规内容，并将相关情况上报给相关部门，同时向公安机关报警
2025-12-23快手，黑灰产，黑灰产攻击
十年前马斯克拍板设计，消息称特斯拉电动车门过去十年导致美国 15 人葬身火海

特斯拉因电动车门设计面临审查。2016年初，特斯拉在设计Model 3时，团队在加州帕洛阿尔托市和洛杉矶郊区霍桑市召开了一系列会议，讨论车门开启方式。部分工程师主张采用机械式车门把手，担心电动控制系统存在潜在安全风险
2025-12-23特斯拉，电动车门，马斯克
小米 17 Ultra 手机首发徕卡 2 亿像素光学变焦：行业首获徕卡 APO 光学认证，非“数码裁切”

小米手机官方近日继续为即将发布的小米17 Ultra预热，新机将首发「徕卡2亿像素光学变焦」。这枚镜头是行业首个75-100mm全2亿像素光学直出镜头，并且是首个获得徕卡APO光学认证的手机镜头
2025-12-23小米，17，Ultra
曜越推出 Toughpower i2000W 数字电源：4 组原生 12V-2×6 输出

Thermaltake 曜越在官网上线了 Toughpower i2000W 电源。该电源长度为 180mm，符合 ATX 3.1 规范，并拥有 80 PLUS 230V EU 白金转换效率认证
2025-12-23电源，曜越，数字电源
诺兰导演新作《奥德赛》中文预告首发，明年 7 月北美上映

环球影业今晚发布了克里斯托弗·诺兰导演的新作《奥德赛》的中文预告，这部史诗巨制将于2026年7月17日在北美上映
2025-12-23环球影业，IMAX，奥德赛
微软 CEO 纳德拉被曝亲自抓 AI 产品：每周开会、反复问进展、施压负责人

微软CEO萨提亚·纳德拉近期频繁参与公司内部一个由约100名核心技术人员组成的Teams频道，只要他认为AI产品表现不佳，便会直接在其中表达不满
2025-12-23微软，纳德拉，人工智能
“粤车南下”明日零时起正式实施，首批中签广东车主可驾车驶入香港市区

“粤车南下”驶入香港市区的政策将于12月23日零时起正式实施。首批中签车主可在预约的日子来港最多3日，包括出行和回程当日。运输署提醒车主，出行前需确保在车窗左前方展示电子国际通行许可证，并安装符合格式规定的香港车牌
2025-12-23粤车南下，香港市区，港珠澳大桥
零刻 NAS 型迷你主机 ME Pro 首销：英特尔 N95 + 12G RAM，1848 元起

零刻旗下NAS型迷你主机ME Pro已在京东开启首销
2025-12-23零刻，NAS，型迷你主机
前董事锐评为何英特尔代工业务难吸引人：最大问题是既当伙伴又当对手

英特尔前董事大卫・约菲指出，英特尔代工业务在吸引客户方面遇到困难，主要原因是公司既作为竞争者又作为代工伙伴的角色冲突。在帕特・基辛格离任后，新任CEO陈立武领导下的英特尔逐步稳定
2025-12-23英特尔