GPT-5.4 实测！能力恐怖到超乎想象😱

宝子们，被 Gemini 和 Claude 压制一个月后，OpenAI 终于放大招，下一代旗舰 GPT-5.4 正式发布啦👏！
成绩炸裂，实力开挂直接跳到 5.4 版本，是「推理 + 编程」的合流跨越。GDPval 胜率 83%，叫板人类专家；SWE-Bench Pro 编程第一，FrontierMath 数学第一，ARC-AGI-2 抽象推理新高，直接把竞品甩在身后💥。

首个全能，电脑操控

GPT-5.4 是首个拥有「原生电脑使用」能力的通用模型。在 OSWorld-Verified 上成功率达 75%，超过上一代、人类和刚登顶的 Opus 4.6。它能像人一样操作电脑，发邮件、排日程轻松搞定，视觉感知和文档解析能力也大幅提升✨。

知识工作，样样精通

在 GDPval 测试中，它以 83.0% 追平超专业人士，上一代才 70.9%。能做 PPT、Excel、排班表，还比很多专业人士强。人类在 68.0% 的情况更偏好它生成的 PPT👍。

幻觉降低，推理编程一体幻觉率暴降 33%，是 OpenAI 最讲求事实的模型。它还继承了 GPT-5.3-Codex 编程能力，一个模型搞定推理和代码。在 SWE-Bench Pro 测试中准确率高，Token 效率也高，速度快，复杂前端任务表现卓越🎯。

工具进化，搜索升级

引入「工具搜索」功能，Token 使用量狂砍 47%。智能体工具调用更精准，网络搜索能力大幅升级，Pro 版反超 Claude Opus 4.6。
中途可调，高效对话

GPT-5.4 Thinking 思考时可随时介入调整，省掉多轮沟通成本，一次对话出结果。

详细跑分：全维度碾压

GPT-5.4 全维度碾压，OpenAI 重回王座，AI 格局又变天啦！宝子们是不是也超期待😎。

Leave a ReplyCancel Reply