当前位置:数智频道首页 > 人工智能 > 正文

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

OpenAI今日发布了GPT-5.4系列模型,包括面向ChatGPT和API的GPT-5.4 Thinking版本以及面向复杂任务的GPT-5.4 Pro版本。这是首次将前沿推理、编码和智能体能力整合至单一模型中,旨在提升专业工作的效率和准确性。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

在ChatGPT中,GPT-5.4 Thinking新增“思考过程预览”功能,处理复杂查询时预先展示推理思路,用户可以实时调整方向,减少沟通次数,更快获得满意结果。此功能已在网页版和Android应用上线,iOS版本即将推出。新模型还增强了深度网络研究能力,特别是在处理高度具体的查询时,能够更好地保持长上下文连贯性。对于需要较长时间思考的问题,GPT-5.4 Thinking可维持对对话前序步骤的更强意识,确保答案在整个过程中保持相关性和连贯性。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

Codex和API层面,GPT-5.4是首个具备原生计算机使用能力的通用模型,支持通过截图和键盘鼠标指令操作计算机,完成跨应用的复杂工作流程。GPT-5.4系列模型支持高达100万tokens的上下文窗口,使智能体能够规划、执行和验证长周期任务。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

GPT-5.4在专业工作领域实现了大幅突破。在测试的44个职业领域的GDPval基准中,GPT-5.4在83.0%项目上达到或超过行业专业水平,而前代GPT-5.2为70.9%。内部投行级电子表格建模任务测试中,GPT-5.4平均得分为87.3%,远高于GPT-5.2的68.4%。演示文稿评估中,评审者更偏好GPT-5.4生成的演示文稿,主要优势在于更强的美学设计、更丰富的视觉变化以及更有效的图像生成运用。在减少错误方面,GPT-5.4单个陈述的错误率降低33%,完整回答中出现任一错误的可能性降低18%。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

GPT-5.4在计算机使用基准测试中表现优异,在OSWorld-Verified基准(通过截图和键盘鼠标操作PC桌面环境)上实现75.0%的成功率,远超GPT-5.2的47.3%,甚至超过人类表现(72.4%)。WebArena-Verified浏览器使用测试中,GPT-5.4结合DOM和截图驱动交互时成功率达67.3%;Online-Mind2Web测试中,仅凭观察截图即可实现92.8%的成功率。视觉感知能力方面,GPT-5.4在MMMU-Pro视觉理解与推理测试中取得81.2%的成功率,优于GPT-5.2的79.5%。OmniDocBench文档解析测试中,GPT-5.4的平均错误率降至0.109。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench Pro基准上与之持平或表现更优,同时延迟更低。Codex中的“/fast”模式可提升1.5倍token速度,保持同等智能水平。“工具搜索”功能使该系列模型高效处理各种工具,在Scale的MCP Atlas基准测试中,启用工具搜索后,在保持相同准确率的前提下,总token消耗量减少47%。GPT-5.4在网络搜索能力上也得到增强,在BrowseComp基准上性能较GPT-5.2提升了17个百分点,GPT-5.4 Pro更是创下了89.3%的新高。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

GPT-5.4延续了GPT-5.3-Codex的安全防护措施,并引入新的开源评估“CoT可控性”,测试发现GPT-5.4 Thinking控制其思维链的能力较低,有利于安全监控。定价方面,GPT-5.4 API每token价格高于GPT-5.2,但更高的token效率可降低许多任务的总token消耗。批量处理和Flex定价为标准API费率的一半,优先处理为两倍。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

GPT-5.4 Thinking即日起面向ChatGPT Plus、Team和Pro用户开放,取代GPT-5.2 Thinking。GPT-5.2 Thinking将在模型选择器的“遗留模型”部分保留三个月,直至2026年6月5日退役。Enterprise和Edu计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro面向Pro和Enterprise计划用户开放。API中,GPT-5.4将以gpt-5.4名称提供支持,GPT-5.4 Pro则以gpt-5.4-pro名称提供给需要极致性能的开发者;Codex中的GPT-5.4支持1M上下文窗口的实验性功能。

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家

热点推送

本周关注

MORE