
宝子们,被 Gemini 和 Claude 压制一个月后,OpenAI 终于放大招,下一代旗舰 GPT-5.4 正式发布啦👏!
成绩炸裂,实力开挂直接跳到 5.4 版本,是「推理 + 编程」的合流跨越。GDPval 胜率 83%,叫板人类专家;SWE-Bench Pro 编程第一,FrontierMath 数学第一,ARC-AGI-2 抽象推理新高,直接把竞品甩在身后💥。


- 首个全能,电脑操控
GPT-5.4 是首个拥有「原生电脑使用」能力的通用模型。在 OSWorld-Verified 上成功率达 75%,超过上一代、人类和刚登顶的 Opus 4.6。它能像人一样操作电脑,发邮件、排日程轻松搞定,视觉感知和文档解析能力也大幅提升✨。
- 知识工作,样样精通
在 GDPval 测试中,它以 83.0% 追平超专业人士,上一代才 70.9%。能做 PPT、Excel、排班表,还比很多专业人士强。人类在 68.0% 的情况更偏好它生成的 PPT👍。
幻觉降低,推理编程一体幻觉率暴降 33%,是 OpenAI 最讲求事实的模型。它还继承了 GPT-5.3-Codex 编程能力,一个模型搞定推理和代码。在 SWE-Bench Pro 测试中准确率高,Token 效率也高,速度快,复杂前端任务表现卓越🎯。
- 工具进化,搜索升级
引入「工具搜索」功能,Token 使用量狂砍 47%。智能体工具调用更精准,网络搜索能力大幅升级,Pro 版反超 Claude Opus 4.6。
中途可调,高效对话
GPT-5.4 Thinking 思考时可随时介入调整,省掉多轮沟通成本,一次对话出结果。
- 详细跑分:全维度碾压

GPT-5.4 全维度碾压,OpenAI 重回王座,AI 格局又变天啦!宝子们是不是也超期待😎。


Post a reply