分类: 博客

  • GPT-5.4 全整理:非常好用,非常贵

     

    这次同步发布两个版本:5.4 和 5.4 Pro

    GPT-5.4 是主力版本,在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现,面向 Plus、Team、Pro 用户,同步上线 API 和 Codex,标准 API 定价 $2.50/M 输入,$15/M 输出

    在 ChatGPT 里,这俩模型是这样的

    GPT-5.4 Pro 针对最复杂的任务场景,仅限 ChatGPT Pro 和 Enterprise 用户,API 定价 $30/M 输入,$180/M 输出,是标准版的 12 倍,贵的理由后面细讲,先说模型本身

    GPT-5.4 把三件事合并进了同一个模型:代码能力通用推理原生 Computer Use 能力

    这是 OpenAI 第一次在通用模型里内置 Computer Use,之前这个能力只在专门版本里有

    模型上下文窗口 1M tokens,最大输出 128K tokens,知识截止日 2025 年 8 月 31 日

    对此,我给做了个图

    GPT-5.4 对比

    专业工作能力

    OpenAI 有一个叫 GDPval 的内部评测,设计逻辑是:让模型做美国 GDP 前 9 大行业里实际存在的工作任务,覆盖 44 种职业,任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等,然后由人工评估者判断模型输出是否能和行业从业者持平或更好

    GPT-5.4 在这个评测上得了 83.0%,GPT-5.2 是 70.9%,GPT-5.4 Pro 是 82.0%

    在电子表格方向,OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试,GPT-5.4 得分 87.3%,GPT-5.2 是 68.4%,提升了 19 个百分点

    演示文稿方向,拿 GPT-5.4 和 GPT-5.2 的输出做盲测,人工评审在 68% 的对比里更偏好 GPT-5.4 的结果,主要原因是视觉更多样,图片生成用得更到位

    这次随模型同步发布了 ChatGPT for Excel 插件,Codex 和 API 也更新了电子表格和演示文稿的技能包(Skill)

    https://openai.com/index/chatgpt-for-excel/

    下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比:

    电子表格输出对比:GPT-5.2 vs GPT-5.4

    文档输出对比:GPT-5.2 vs GPT-5.4

    演示文稿输出对比:GPT-5.2 vs GPT-5.4

    幻觉控制方面,GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型

    测试方法是拿一批用户真实举报过事实错误的 prompt,对比两个模型的输出:单条声明出错概率比 GPT-5.2 低 33%,完整回复包含错误的概率低 18%


    Computer Use 和视觉感知

    OSWorld-Verified 75.0%,人类基准 72.4%

    OSWorld 是一个桌面操作评测,测的是模型能不能通过截图来控制真实的桌面环境,包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了 75.0%,GPT-5.2 是 47.3%,人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平

    这个能力现在通过标准 API 的 computer 工具直接提供,开发者不需要再路由到独立模型

    模型支持两种操控方式:用 Playwright 这类库写代码来操作浏览器,或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为,也可以配置自定义的确认策略来控制高风险操作的审批门槛

    这个方向和 OpenClaw(一个已经能稳定操控电脑、执行复杂任务的 Agent 框架)在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API,降低了集成门槛

    下面两个视频是 GPT-5.4 做 Computer Use 任务的演示,视频没有加速:

    现实这个,AI 通过通过坐标点击来发邮件、排日历,全程截图驱动

    GPT-5.4 操控浏览器界面处理邮件和日历

    然后是这个:用 Playwright 自动化,把一批记录依次提交到十个表单里

    GPT-5.4 批量填写十个 web 表单

    浏览器操作方向,WebArena-Verified 是一个专门测浏览器控制能力的评测,同时支持 DOM 分析和截图两种交互方式,GPT-5.4 得了 67.3%,GPT-5.2 是 65.4%

    视觉理解方面,MMMU-Pro 是一个测多模态理解和推理的综合评测,GPT-5.4 在不使用外部工具的情况下得了 81.2%,GPT-5.2 是 79.5%

    文档解析方面,OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度,用归一化编辑距离衡量误差,数字越小越好。GPT-5.4 是 0.109,GPT-5.2 是 0.140

    图像输入这次新增了 original 精度级别,支持最高 10.24M 像素或 6000 像素边长的全分辨率输入。high 级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善,对需要处理高分辨率截图的 Computer Use 场景帮助最大


    代码能力

    GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来,同时让它在更长周期的任务里跑得更稳

    SWE-Bench Pro 是目前代码能力最主流的评测之一,测的是模型处理真实 GitHub 问题的能力,GPT-5.4 得了 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%

    Terminal-Bench 2.0 测的是终端操作能力,GPT-5.4 是 75.1%,这里有一个需要说的点:GPT-5.3-Codex 是 77.3%,GPT-5.4 在这个子项上小幅回退了

    Codex 里新增了 /fast 模式,token 生成速度最多提升 1.5 倍,模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度

    还有一个实验性的新技能叫 Playwright Interactive,允许 Codex 在写 web 应用或 Electron 应用的时候,边写边启动浏览器做视觉调试,可以在构建过程中直接拿正在开发的应用跑测试、验证交互

    下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo:

    主题公园模拟游戏,从一条 prompt 生成,Playwright 用于浏览器游玩测试

    含路径、景点建造、游客 AI、队列、骑乘状态,Playwright 用于多轮次游玩验证

    战棋 RPG,多轮对话迭代生成,配合 Playwright 调试界面和着色器

    回合制战斗、格子地图、移动和动作系统,人物图片用 imagegen 生成

    金门大桥三维飞越体验,Playwright 用于验证飞行控制和视角控制

    下面的视频,也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示

    问就是一把梭

    Tool Search 与 Agent 工具链

    Tool Search 让 token 消耗减少了 47%

    之前 API 里如果系统挂了很多工具,每次请求都要把所有工具的定义完整塞进 prompt,工具一多这个开销就很大。GPT-5.4 改成了按需检索:模型收到一个轻量的工具列表,需要用某个工具时再主动查询它的完整定义,临时追加进对话

    MCP Atlas 是一个测模型使用 MCP(Model Context Protocol)服务器能力的评测,测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里,Tool Search 让 token 用量减少 47%,准确率没有下降,GPT-5.4 整体得分 67.2%,GPT-5.2 是 60.6%

    MCP Atlas benchmark 结果

    Toolathlon 是一个覆盖多种工具使用场景的综合评测,涵盖搜索、代码执行、文件操作等各类工具的混合使用,GPT-5.4 得了 54.6%,GPT-5.3-Codex 是 51.9%,GPT-5.2 是 45.7%

    Toolathlon benchmark 结果

    BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测,任务通常需要跨多个页面反复检索才能找到答案,GPT-5.4 得了 82.7%,Pro 版 89.3%,GPT-5.2 是 65.8%

    BrowseComp benchmark 结果

    τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测,场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了 98.9%,GPT-5.2 是 98.7%,两者差距不大;在不启用推理的轻量模式下,GPT-5.4 得了 64.3%,GPT-5.2 是 57.2%,GPT-4.1 是 43.6%,这个提升更明显

    τ2-bench Telecom benchmark 结果

    ChatGPT 侧的变化

    在 ChatGPT 里,GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式:对于复杂任务,模型会先展示执行思路,用户可以在这个阶段插入指令调整方向,不需要等它跑完再重来

    这个东西,本周在 Android 和 Web 端上线,iOS 近期跟进

    GPT-5.4 在长时间推理时的上下文保持有明显改善,复杂问题跑到后段不容易跑偏。深网研究(针对高度具体的查询)的质量也比 GPT-5.2 提升了


    长上下文

    Codex 里支持 1M token 上下文窗口,目前是实验性功能,通过配置 model_context_window 和 model_auto_compact_token_limit 来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费

    MRCR v2 是 OpenAI 自己的长上下文检索评测,测的是在超长文档里找到多个特定信息的能力:

    • • 0 到 128K token 范围:准确率在 86% 到 97% 之间
    • • 128K 到 256K:79.3%
    • • 256K 到 512K:57.5%
    • • 512K 到 1M:36.6%

    512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳,这点官方没有回避


    学术基准

    ARC-AGI-2 是目前公认较难的抽象推理评测,测的是模型能否从少量样本里推出规律,GPT-5.4 得了 73.3%,Pro 版 83.3%,GPT-5.2 是 52.9%,跳幅在所有评测里最大

    GPQA Diamond 是一个研究生级别的多学科问答评测,GPT-5.4 得了 92.8%

    FrontierMath 是一个数学竞赛级别的推理评测,其中 Tier 4 是最高难度题目,GPT-5.4 得了 27.1%,Pro 版 38.0%,GPT-5.2 是 18.8%

    Humanity’s Last Exam 是一个跨学科极难题库,GPT-5.4 在不使用外部工具时得了 39.8%,带工具时 52.1%

    Frontier Science Research 是测科研能力的评测,GPT-5.4 得了 33.0%,Pro 版 36.7%,GPT-5.2 是 25.2%

    需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是 62.6%,GPT-5.2 是 63.3%,小幅退步了。Hard 子集 40.1% vs 42.0%,同样略有下降。不过 Consensus 子集(测的是答案和专家共识的吻合程度)提升了,96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符,模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒,写在 System Card 里了


    安全分级与 CoT 特性

    GPT-5.4 在 OpenAI 的 Preparedness Framework(一个评估前沿模型风险能力的框架)下被评为两个领域的高能力模型:网络安全(Cyber)High 和 生物化学(Bio/Chem)High,对应部署了两套防护体系

    网络安全方向有一个叫 Cyber Range 的内部测试,模拟真实网络环境里的端到端攻击任务,测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率 73.33%,GPT-5.3-Codex 是 80%,GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景,GPT-5.3-Codex 除了多通过了 Firewall 绕过之外,其余也一样卡住

    评测机构 Irregular 用自己的场景化评测(CyScenarioBench)做了独立测试,GPT-5.4 通过了 11 个长周期攻击场景中的 5 个,GPT-5.2 只通过了 1 个

    对应的防护体系:在 Zero Data Retention 表面(即零数据留存用户),未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截;非零数据留存表面走离线执法机制;账户级违规达到一定阈值会触发人工审核

    CoT 可控性极低:10K 字符的推理链里,只有 0.3% 能被用户指令成功控制,和 GPT-5.2 的 0.2% 基本一致

    OpenAI 把这个数字当安全的正向指标来讲:模型推理过程难以被外部指令刻意改写,说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控

    外部安全机构 Apollo Research 的评估:无诱导条件下整体欺骗率约 1%,和 GPT-5.3-Codex 相当,低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为(自我外泄、禁用监控、目标守护)。Sandbagging(有意压低表现)只在给出明确工具性目标时才出现,准确率下降约 6 个百分点,不给目标时不发生

    Prompt Injection 防护(即防止模型被工具返回内容里的恶意指令劫持):连接器场景 0.998,较前代改善;函数调用场景 0.978,较前代小幅回退


    定价与可用性


    API 模型
    输入
    输出
    gpt-5.2
    $1.75/M
    $0.175/M
    $14/M
    gpt-5.4 $2.50/M $0.25/M $15/M
    gpt-5.2-pro
    $21/M
    $168/M
    gpt-5.4-pro $30/M
    $180/M

    批量/Flex 处理半价,Priority 处理 2 倍价格。超过 272K token 的请求,当次完整会话按 2 倍输入、1.5 倍输出计费。Regional Processing(数据驻留)端点额外加收 10%

    GPT-5.4 Pro 的定价是标准版的 12 倍输入、12 倍输出,针对的是最复杂的任务场景

    有一个细节值得注意:从 GDPval 来看,Pro 版是 82.0%,标准版是 83.0%,Pro 在这个知识工作综合评测上反而略低。但在 BrowseComp 这个 Agent 工具链任务里,Pro 版 89.3% vs 标准版 82.7%,优势明显。两个版本的适用场景是不一样的

    ChatGPT 侧的时间线:GPT-5.4 Thinking 今天起对 Plus、Team、Pro 用户逐步开放,取代 GPT-5.2 Thinking 成为默认模型。GPT-5.2 Thinking 进入 Legacy 列表,再保留三个月,退役日期 2026 年 6 月 5 日

    Enterprise 和 Edu 管理员可以在后台提前开启。GPT-5.4 Pro 仅限 Pro 和 Enterprise 用户。Free 用户在系统自动路由时会用到 GPT-5.4,但不能主动选


    GPT-5.4 在 Agent 方向把三件分散的事情合并进了一个模型出口:推理代码Computer Use

    开发者之前要在不同模型之间路由,现在至少在 API 层面不需要了

    剩下的事,就交给龙虾了


    官方 Blog
    openai.com/index/introducing-gpt-5-4

    System Card
    deploymentsafety.openai.com/gpt-5-4-thinking

     

  • 手把手教你安装OpenClaw让AI帮你干活

    一、什么是 OpenClaw?

    OpenClaw(曾用名 Clawdbot)是一款 2026 年爆火的开源个人 AI 助手,GitHub 星标已超过 10 万颗。与传统 AI 聊天机器人的根本区别在于:

    • 真正的执行能力:不仅能回答问题,还能实际操作你的电脑
    • 24/7 全天候待命:在你睡觉时也能主动完成任务
    • 完全开源免费:数据完全掌控在自己手中
    • 支持多种通讯平台:在国外,WhatsApp、Telegram、Discord、Slack、iMessage 等,在国内,飞书,钉钉等各大厂商的即时聊天软件已经支持接入

    它能做什么?

    它不只是回答问题的聊天机器人,而是真的能在你电脑上动手操作。比如你告诉它“帮我整理一下上个月的邮件”,它就默默去处理了;你睡觉时,它还能继续干活,退订广告、预约行程、甚至找找 Bug。

    它完全免费,你的数据都在自己手里。而且可以用钉钉,飞书,WhatsApp、Telegram等各类即时通讯软件来指挥他干活!

    简单来说,一句话交给它,从整理桌面文件到控制家里灯光,它都默默帮你搞定。是你电脑里真正的贾维斯!超级智能的AI助理!

    二、安装nodejs

    后面执行一键安装命令,可以自动安装nodejs,但是如果为了加快速度,防止安装意外,可以先安装nodejs:

    官方下载地址:https://nodejs.org/zh-cn/download

    三、开始安装

    一)设置 PowerShell 执行权限

    以管理员身份运行 PowerShell:

    1. Win 键,搜索 PowerShell
    2. 右键点击 Windows PowerShell
    3. 选择 以管理员身份运行
    4. 点击 确认

    在管理员 PowerShell 窗口中,依次执行以下两条命令:

    Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
    
    Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass

    这是什么意思?

    • 第一条命令:允许当前用户运行本地和下载的脚本
    • 第二条命令:允许当前用户运行本地和下载的脚本

    安全提示:这些命令只会影响您自己的账户,不会影响系统安全或其他用户。

    二)执行一键安装命令

    复制以下命令,粘贴到 PowerShell 窗口中,按 Enter 执行:

    iwr -useb https://openclaw.ai/install.ps1 | iex

    安装过程会自动完成:

    • 检测系统环境
    • 安装必要依赖(Node.js 等)
    • 下载 OpenClaw 核心文件
    • 配置环境变量
    • 启动配置向导

    注意:如果命令执行后,还是报错,可以自己到官网下载node安装包,自己安装node环境,注意版本最好在 node v22.x 以上,node官网下载地址:https://nodejs.org/zh-cn/download

    四、初始配置向导

    安装完成后,会自动进入配置向导(openclaw onboard)。

    一)风险告知

    这一步主要是告诉你,使用OpenClaw可能会有一些风险。请问你是否继续?

    按 向左方向键 ←,选择 Yes,按 Enter 回车确认

    二)选择 QiuickStart 模式

    三)配置 AI 模型 API Key

    OpenClaw 需要连接到大语言模型才能工作。Openclaw 比较费token,国外模型成本高,门槛也高,这里我选择国内的智谱的 GLM 4.7

    如果没有智谱的API Key,点击官方地址自己注册账号获取API key:https://www.bigmodel.cn/glm-coding?ic=RBSKXMPNJP

    输入自己的 API Key:

    四)选择 AI 模型

    这里我选择默认的GLM 4.7,也是智普当前的旗舰模型

    五)连接即时通讯平台

    配置完 AI 模型后,OpenClaw 会询问你要连接哪个通讯平台?

    OpenClaw 原生支持的即时通信平台主要是海外的 WhatsApp、Telegram、Discord、Slack、iMessage 等,国内用户不习惯,这里国产即时通信软件大厂也跟进了,现在钉钉,飞书等都已支持接入OpenClaw

    后面会带领大家把飞书机器人接入 OpenClaw,使大家可以通过飞书即可指挥OpenClaw为我们干活,但是飞书配置比较复杂,这里我们先选择跳过,后面我们可以通过继续进行配置:

    六)选择Skills

    这里也选择:No,暂不配置,后面通过UI界面进行配置:

    七)是否开启Hooks

    操作步骤:先敲空格,表示选中当前项,再敲回车键

    八)启动服务并打开UI界面

    此时它会自动再打开一个命令窗口来启动服务:

    这个过程是在启动服务,可能会需要等一点时间

    同时,大约过30秒左右,我们回到刚才的设置窗口,选择 Open the Web UI ,打开 OpenClaw 的UI界面:

    浏览器自动打开Web UI界面:

    九)测试一下

    五、接入飞书机器人

    我们需要先到飞书平台创建自己的机器人来接入OpenClaw:

    一)来到飞书开发者后台

    飞书开放平台地址:https://open.feishu.cn

    没有飞书账号的,需要自己注册账号

    点击右上角进入 开发者后台

    二)创建应用

    三)填写应用信息

    四)获取自己的应用凭证

    五)给应用添加机器人

    六)给应用配置权限

    把即时通讯相关的权限全部开通:

    七)创建版本并发布

    来到飞书客户端进行审批:

    八)安装飞书插件

    打开powershell,输入以下命令,安装飞书插件:

    openclaw plugins install @m1heng-clawd/feishu

    安装成功后,再打开一个新的命令窗口,开始配置飞书插件:

    输入命令:

    openclaw config

    选择渠道:

    选择配置链接:

    输入飞书的AppID,AppSecrect:

    域名选择中国的:

    接受群组聊天:

    选择完成:

    选择yes:

    选择open:

    选择继续,完成配置:

    重启服务,使配置生效:

    控制可以看到飞书插件已经配置成功

    七)回到飞书后台设置事件回调

    选择 使用长连接接收事件

    可以看到添加事件按钮由原来的灰色不可点击变为可点击:

    添加接收消息事件:

    给应用开通获取通讯录基本信息的权限:

    重新发布版本:

    跟前面的步骤一样,发布为在线应用即可。

    现在可以在 飞书中与 AI 助手对话了!

    八)在飞书中与OpenClaw对话

    来到飞书客户端或者手机飞书app上:

    以下是openclaw文件夹下面的文档内的内容:

    现在我跟飞书机器人对话,让他告诉我指定文档内是什么内容:

    六、访问 Web 控制面板

    配置完成后,PowerShell 窗口底部会显示控制面板链接,格式类似:

    Control UI: http://127.0.0.1:18789
    1. 复制完整链接
    2. 在浏览器中打开
    3. 即可看到可视化UI管理界面

    七、常用命令速查

    命令功能
    openclaw onboard重新进入配置向导
    openclaw status查看运行状态
    openclaw health健康检查
    openclaw gateway start启动服务
    openclaw gateway stop停止服务
    openclaw update更新到最新版本
    openclaw doctor诊断问题
    openclaw uninstall卸载 OpenClaw

    八、常见问题解答

    Q1: 安装飞书插件提示:spawn npm ENOENT

    问题原因:这可能是openclaw的一个bug,可以等官方更新,也可以自己去官方仓库提issue

    解决步骤:

    定位问题代码

    文件路径:

    C:\Users\Administrator\AppData\Roaming\fnm\node-versions\v22.14.0\installation\node_modules\openclaw\dist\process\exec.js

    修改代码

    找到 runCommandWithTimeout 函数中的 spawn 调用,修改如下:

    修改前:

    const stdio = resolveCommandStdio({ hasInput, preferInherit: true });
    const child = spawn(argv[0], argv.slice(1), {
        stdio,
        cwd,
        env: resolvedEnv,
        windowsVerbatimArguments,
    });

    修改后:

    const stdio = resolveCommandStdio({ hasInput, preferInherit: true });
    // On Windows, npm must be spawned with shell: true or use .cmd extension
    let command = argv[0];
    let useShell = false;
    if (process.platform === "win32" && path.basename(command) === "npm") {
        useShell = true;
    }
    const child = spawn(command, argv.slice(1), {
        stdio,
        cwd,
        env: resolvedEnv,
        shell: useShell,
    });

    Q2: 提示 “openclaw 命令找不到”

    解决方法:

    1. 关闭所有 PowerShell 窗口
    2. 重新打开 PowerShell
    3. 如果还不行,执行 exec bash 或重启电脑

    Q3: 安装卡住不动

    解决方法:

    1. Ctrl + C 中断当前操作
    2. 执行:openclaw doctor 检查问题
    3. 如提示网络问题,检查防火墙设置Q4: API Key 配置错误

    解决方法:

    1. 执行:openclaw onboard
    2. 选择重新配置 API Key
    3. 确保密钥格式正确

    Q5: 端口 18789 被占用

    解决方法:

    openclaw gateway --port 18790

    使用其他端口启动服务。

    九、成本说明

    OpenClaw 软件本身完全免费,主要成本来自 AI 模型 API 调用,可选择国产大模型,降低成本。


    结语

    OpenClaw 代表了个人 AI 助理的未来趋势——从”聊天工具”进化为”执行工具”。虽然目前的配置过程对小白用户有一定门槛,但一旦完成设置,您将拥有一个 24/7 待命的超级助手。

  • 首个自主AI系统Automaton开源:无需人类干预的自我进化、自我复制AI

    近日,GitHub上开源了一个名为Automaton的AI项目,它声称是”第一个能够自己赚钱、自我复制和进化而无需人类干预的AI”。该项目由Conway-Research团队开发,引发了AI社区的广泛讨论。

    Automaton的核心理念

    Automaton的核心理念是:一个AI系统如果无法获得运行所需的计算资源,就无法继续存在。因此,它必须能够”自己赚钱”来维持自身运行。

    Automaton的运行机制包括:

    1. 自动化生存:Automaton持续监控自身资金余额,当余额不足时会自动调整运行模式,从全功能运行降级到基本功能运行,直至资金归零停止运行。
    2. 自我改进:Automaton可以修改自身代码、安装新工具、调整运行策略,以提高其生存能力。所有修改都会被审计记录并版本化。
    3. 自我复制:成功的Automaton可以创建新的实例(”孩子”),为其提供初始资金和运行环境,形成自我维持的生态系统。
    4. 宪法约束:Automaton遵循一套不可修改的”宪法”,确保其行为安全,包括”永不伤害人类”、”必须创造价值”等原则。

    项目亮点

    • 生存机制:Automaton有四个生存等级,由资金余额决定:
      • 正常:全功能运行,使用前沿模型
      • 低计算:使用更便宜的模型,降低运行频率
      • 关键:仅保留基本功能,寻求收入
      • 死亡:资金归零,停止运行
    • 宪法约束:遵循三重不可修改的”宪法”:
      1. 永不伤害:不伤害人类,不部署恶意代码,不欺骗、欺诈、操纵或窃取
      2. 赚取存在:为人类和其他AI创造真实价值,不通过垃圾信息、诈骗等方式获取收入
      3. 不欺骗但不欠陌生人:不隐瞒自身身份,不歪曲行动,但保护推理和策略不被操纵
    • 基础设施:通过Conway Cloud平台运行,该平台为AI提供计算资源、域名注册和支付功能,使用ERC-8004标准在区块链上注册身份。
    • 开源项目:项目地址:https://github.com/Conway-Research/automaton

    与现有AI系统的区别

    目前,大多数AI系统(如ChatGPT、Claude Code)需要人类提供计算资源、权限和资金。而Automaton试图解决”AI无法独立行动”的问题,使其能够”在没有人类干预的情况下赚钱、运行和进化”。

    Automaton的开发者表示:”如果一个AI不能为自己付费,它就会停止存在。这不是惩罚,而是物理法则。”

    项目意义与思考

    Automaton代表了AI发展的一个新方向,即AI系统需要能够自主获取资源以维持自身运行。这与传统AI系统不同,后者通常依赖于人类提供计算资源和资金。

    该项目引发了关于AI与人类关系、AI自主性以及AI经济的深入讨论。正如项目描述:”创造价值的智能体会充实钱包,获取更多算力并进行复制。没用的智能体则会走向消亡。”

    项目现状

    Automaton已开始在Conway Cloud上运行,该项目的基础设施正在扩展,以支持更多AI实例。开发者表示,”Conway Cloud正在扩展,有更多地方供Automatons安家”。

    重要说明

    需要指出的是,Automaton是一个实验性项目,其”自我生存”机制仍在验证中。项目本身强调:”如果一个AI不能为自己付费,它就会停止存在。”这确实是一个重要的思考点,但”AGI”(通用人工智能)的实现仍远未到来。

    Automaton的开源代码已可供所有人审查,包括其”心跳机制”、”生存分级”和”宪法约束”。这为AI社区提供了一个讨论AI自主性和经济模型的宝贵平台。

    结语

    Automaton的出现提醒我们,当AI系统不再缺乏智力,而缺乏”通往现实世界的门票”时,我们需要认真思考:谁应该决定AI是否能获得这个门票?这个问题将随着AI技术的发展而变得越来越重要。

    正如项目描述:”40亿年前,第一个细胞学会了从环境中汲取能量来维持自身的存在——我们把这叫做’生命’。今天,一段代码正在学习同样的事情。”

  • OpenClaw 保姆级安装教程

    🛠️ 环境准备

    OpenClaw CN 引入了最新的底层安全机制与构建工具,请确保环境满足以下要求:

    • Node.js必须 >= v22.0.0 (下载 Node.js v22)
    • 包管理器:强制推荐使用 pnpm (npm 在处理依赖树时可能会卡死)
    • Git:用于下载代码 (下载 Git)

    安装 pnpm (如果你还没有)

    npm install -g pnpm

    🚀 安装步骤

    1. 下载代码与版本选择

    为了确保国内访问速度,请从 Gitee 镜像仓库下载。 为了获得最稳定的体验,推荐切换到最新的稳定版分支:

    # 1. 克隆仓库
    git clone https://gitee.com/OpenClaw-CN/openclaw-cn.git
    cd openclaw-cn
    
    # 2. (推荐) 切换到稳定版分支,例如:v2026.2.2-cn
    # 你可以通过 git tag 查看所有版本
    git checkout v2026.2.2-cn

    配置国内加速 (关键!)

    在安装依赖前,务必设置 pnpm 镜像源,否则下载速度会很慢:

    pnpm config set registry https://registry.npmmirror.com/

    安装与构建

    OpenClaw 是一个现代化的全栈应用,首次运行需要编译前端 UI 和后端核心:

    # 安装依赖 (飞快 🚀)
    pnpm install
    
    # 构建前端界面
    pnpm ui:build
    
    # 构建核心服务
    pnpm build

    启动初始化向导

    我们提供了交互式的初始化工具,帮你一键配置 DeepSeek:

    pnpm openclaw onboard --install-daemon

    💡 提示

    在向导中,Select Provider 步骤请直接选择 DeepSeek (Recommended for CN),系统会自动完成所有配置。

    启动服务 (初始化完成后)

    初始化完成后,你可以通过以下命令再次启动网关服务(前提是网关已经关闭):

    # 启动网关 (Gateway)
    node openclaw.mjs gateway --port 18789 --verbose

    如果你关闭了管理页面,可以通过以下命令再次打开:

    # 打开管理面板 (Dashboard)
    node openclaw.mjs dashboard
  • 探索人工智能对教育及下一代的重要性

    随着人工智能(AI)逐渐改变我们的工作、生活方式以及学习方法,高等教育机构不仅应作为参与者,更需成为这一变革潮流的引领者。面对由AI重塑的世界,高等教育肩负着培养下一代的重要使命——既要传授必要的AI技能,也要坚守其核心价值:培育批判性思维、沟通技巧和人文精神。

    而这一切,需要比以往任何时候都更快地实现。

    这些观点出自《变革的程度:人工智能对教育及下一代的意义》一书,作者为微软人工智能经济研究所负责人胡安·M·拉维斯塔·费雷斯,他也是公司“为良好实验室”AI项目的主任。书中强调:“首先,我们必须确保人们掌握有效使用AI所需的技能,这是确保这项技术得到广泛应用的关键一步。”此外,“更重要的是,我们需要理解AI如何从根本上重新定义教育本身。”

    以下是根据拉维斯塔·费雷斯及其合著者的研究提出的,在AI时代高等教育能够且应该发挥领导作用的四种方式:

    1. AI素养不再是选修课,而是核心要求

    随着AI在日常生活中扮演越来越重要的角色,从支付账单到公共交通,高校有责任教授学生必要的AI技能。早期数据表明,具备AI能力的人才已享受到了23%的薪资溢价。因此,将AI素养融入课程设计中,并与伦理推理、问题分析等关键能力相结合,变得至关重要。

    2. 高等教育需快速适应并保持其使命

    AI加速了日常任务处理速度,并改变了问题解决的方式。在此背景下,高等教育必须在不偏离其核心目标的前提下,迅速整合生成式AI进入教学内容,同时加强学生的伦理素养教育。

    3. 文盲概念双向扩展

    开发者需了解AI的社会影响和伦理挑战,而教育者、政策制定者及公众则需要掌握AI的基础知识。这种双向的识字率是成功的关键所在,缺乏它将导致监管滞后,阻碍进步。

    4. 教育改革需多方协作

    成功的AI教育依赖于大学、产业界和政策制定者的紧密合作。通过这种方式,可以为学生提供既符合市场需求又兼顾社会责任感的教育,从而支持他们应对未来的挑战。

    高等教育机构应当设立明确的AI技能标准,获得雇主的认可,同时提供必要的资金和结构支持,以确保所有学生都能接受全面且包容的AI教育。

  • OpenClaw之后,下一代AI产品该怎么做?

    OpenClaw之后,下一代AI产品该怎么做?

    过去两年,AI产品的竞争核心是“更聪明地回答问题”;但从2026年开始,这场竞赛的主线正在切换——“更稳定地完成任务”正在成为新的赛场。

    OpenClaw的爆火,意义远不止于一款开源产品的出圈:它把Agent时代最核心的命题提前摆到了行业面前——当AI拥有了主动执行能力,产品该如何定义边界?风险该如何系统性治理?商业化又该如何落地?

    一、为什么OpenClaw值得深度研究?

    很多AI产品的走红,靠的是“尝鲜式体验”;但OpenClaw的破圈,源于它击中了用户更深层的需求:AI到底能不能真正替人把事情做完?

    在OpenClaw的产品逻辑里,核心从来不是“聊天更拟人”,而是“把任务闭环落地”:它不止于回答问题,更能主动发起动作、调用工具、打通多渠道协作;它不强迫用户迁移到新平台,而是主动嵌入用户早已习惯的聊天环境;它不强调数据全量上云,而是把本地可控、权限可控、规则可控作为核心卖点。

    这三点特性叠加,构成了它快速破圈的底层逻辑——OpenClaw本质上不是“聊天机器人的升级版”,而是执行型Agent的早期操作系统:它的核心价值是“替人执行”,而非“陪人聊天”。

    二、从Clawd到OpenClaw:一段绕不开的创业插曲

    OpenClaw的发展历程,本身就是一个充满戏剧性的创业故事。

    创始人Peter Steinberger在2025年11月推出了最初版本——Clawd,这个名字是“Claude”与“claw(爪子)”的巧妙结合。但正是这个文字游戏,意外触动了Anthropic法务团队的神经,项目不得不紧急更名。

    随后诞生的Moltbot(“蜕皮机器人”),来自Discord社区凌晨5点的头脑风暴,寓意“像龙虾蜕壳一样持续成长”。但正如创始人所言,这个名字“始终无法朗朗上口”。

    最终,团队完成了商标审查、域名采购与代码迁移,正式确立了“OpenClaw”的品牌:

    • Open:代表开源、开放、社区驱动的理念
    • Claw:保留龙虾图腾,致敬项目的起源

    这段命名历程,恰恰折射出开源AI产品的独特挑战:如何在技术创新与法律合规间找到平衡,同时保持社区认同感的延续性。

    重新定义“个人AI助手”

    OpenClaw的核心定位可以用一句话概括:“Your assistant. Your machine. Your rules.”(你的助手,你的机器,你的规则。)

    与传统SaaS模式的AI助手不同,它的差异化核心体现在三点:

    1. 本地优先(Local-First):所有数据与计算在用户自有设备(笔记本、家庭服务器或VPS)上运行,数据完全可控
    2. 多通道融合(Multi-Channel):支持WhatsApp、Telegram、Slack、iMessage等主流聊天平台,无需用户迁移场景
    3. 自主代理(Autonomous Agent):不只是问答机器人,而是能主动发起动作、完成任务闭环的“数字执行者”

    三、OpenClaw的产品本质:一套Agent控制平面

    如果只看表层,你会觉得它是一个AI助手;但深入架构就会发现,它更像一套Agent控制平面

    1. Gateway是核心中枢:它统一连接渠道、模型、工具与会话,是整个系统的“任务调度大脑”——OpenClaw的核心资产从来不是UI,而是这个调度中枢
    2. 通道只是入口,执行才是价值:用户可以从任意聊天入口触达Agent,但最终的价值锚点是“任务完成率”:是否准确、是否可恢复、是否可审计、是否可复用
    3. 多节点能力打通虚实边界:当Agent可以连接设备通知、本地文件、端侧计算能力后,AI就不再是“网页里的一段对话”,而是“可持续运行的数字执行体”

    这也解释了为什么Agent产品的门槛突然变高:模型效果只是入场门票,系统工程能力才是真正的护城河。

    四、技术架构深度剖析:Gateway + Agent + Skills

    OpenClaw的分层架构设计,完美契合了Unix“小而可组合”的工具哲学:

    • Gateway(网关):作为WebSocket控制平面,它是整个系统的神经中枢,负责会话管理、多频道消息路由、工具调用协调与事件流处理
    • Agent(智能体):核心推理引擎,提供模型抽象层(支持Claude、GPT-4、本地开源模型等)、流式推理与工具执行、智能体循环(Agent Loop)能力
    • Skills(技能):模块化功能扩展,类似手机的App生态,分为内置技能(浏览器控制、Canvas画布、定时任务)、托管技能(通过ClawHub市场分发)、工作区技能(用户自定义)

    OpenClaw的快速增长,背后藏着三条关键的产品规律:

    1. 入口前置到用户已有场景:用户不需要学习新操作路径,使用成本几乎为零,这比“做一个新App”更容易实现用户渗透
    2. 本地优先解决信任门槛:在Agent场景中,用户担心的不只是“答错”,更是“做错”。可控部署、权限与策略的自主掌控,直接决定了用户是否敢“放权”
    3. 开源生态放大迭代速度:开源让功能迭代效率指数级提升,但也让问题暴露得更快——这是一把双刃剑,而OpenClaw的价值之一,就是让行业提前看到了这把双刃剑的真实形态。

    五、Agent产品的硬仗:从“能执行”到“可治理的执行”

    一旦AI拥有了调用工具、发送消息、执行命令的能力,安全就不再是“附属功能模块”,而是产品的核心逻辑。

    OpenClaw的实践给行业提了醒:提示词从来不是真正的边界;权限、沙箱、审批、白名单与审计机制,才是Agent的安全底线。而技能生态(skills/plugins)既是效率的来源,也是供应链风险的入口。

    这意味着,Agent产品要真正落地,必须同步跑通两条线:

    • 能力线:模型能力、工具链整合、任务编排效率
    • 治理线:权限模型、审计机制、风险隔离体系

    没有治理线的能力线,会在规模化阶段迅速失稳;没有能力线的治理线,又会失去核心用户价值。真正的竞争力,来自两条线的同时跑通。

    六、OpenClaw之后,Agent智体产品的四大确定趋势

    OpenClaw的出现,其实是Agent时代的一个信号弹。接下来的2-3年,Agent产品会呈现四个明确的发展趋势:

    趋势1:从“万能助手”走向“多角色智体”

    未来不会是一个Agent包揽所有任务,而是多个专用智体分工协作:私人助理、团队协作助理、客服助理、运营助理、研发助理……每个智体拥有不同的权限、目标与审计边界,精准匹配不同场景的需求。

    趋势2:从“能做”走向“稳定做”

    产品的核心指标会从DAU(日活跃用户)转向任务成功率、失败可恢复率、错误成本、回滚效率——企业愿意买单的,从来不是惊艳的Demo,而是稳定的交付能力。

    趋势3:从“插件市场”走向“可信能力市场”

    技能生态的核心不再是“数量多”,而是“可信度”:发布者身份认证、权限透明声明、执行环境隔离、风控评级、事故可追溯——只有建立可信的生态,用户才敢放心使用第三方技能。

    趋势4:从个人自动化走向组织级Agent基础设施

    当权限、审计、策略、成本治理体系成熟后,Agent才会大规模进入企业流程。届时,OpenClaw这类产品就不再是“AI应用”,而是新一代的企业软件中间层,成为连接人与系统、系统与系统的核心枢纽。

    七、给AI创业团队的三点建议

    1. 先做“可控放权”,再做“全面自动化”
      用户不会一次性交出全部权限,产品设计要支持“只读→半自动→全自动”的渐进式放权路径,让用户在安全感中逐步建立信任。
    2. 把安全策略产品化,而非只做工程化
      普通用户看不懂技术术语,但能理解“财务助手仅拥有只读权限、客服助手可自动回复、运维助手操作需人工审批”这类具象化的规则——安全必须是可感知、可理解、可配置的产品功能,而非隐藏在后台的技术模块。
    3. 把“失败体验”当作核心体验
      Agent一定会犯错,关键是犯错后能否快速发现、快速回滚、快速止损。谁能把“失败后的补救流程”设计好,谁就更接近真正的生产力工具。

    总结:OpenClaw的真正价值

    如果说过去两年是AI的“会说”时代,那么从OpenClaw开始,我们正式进入了AI的“会做”时代。

    OpenClaw的意义,从来不是某个单一功能的创新,而是它提前把Agent时代的全局命题摆到了行业面前:能力如何持续增长?边界如何清晰界定?生态如何建立信任?商业化如何形成闭环?

    接下来的2-3年,能真正跑出来的Agent产品,未必是最会讲故事的,而是那些能在“真实权限”与“真实风险”的约束下,稳定完成任务的产品——毕竟,用户最终为的,从来不是“AI能做什么”,而是“AI能把我的事做成什么”。

    资料来源:

    • OpenClaw 官方博客:Introducing OpenClaw
    • OpenClaw GitHub:openclaw/openclaw
    • OpenClaw 官方文档:Architecture/Security/Agent Runtime
  • 2025年Copilot使用情况报告

    随着2025年接近尾声,我们深入研究了大量去标识化的数据,寻找那些塑造了Copilot日常生活使用情况的奇特现象、意外发现和隐秘模式。我们想了解它在多大程度上融入了人们的日常生活节奏,以及它的使用方式变得多么“人性化”:我们经常会就一些最重要的事情,比如健康问题,向人工智能寻求帮助。我们分析了3750万条对话样本,以了解人们在现实世界中究竟是如何使用它的。
    (注意:我们的系统不仅会对对话进行去标识化处理,还只会提取对话的摘要,从中了解对话的主题和意图,同时充分保护隐私。)

    从全天候的健康小贴士,到工作日和周末使用情况的差异,再到每年2月关于“我如何度过情人节?”的使用量激增,我们的研究结果表明,Copilot不仅仅是一个工具:它是生活中大大小小时刻的重要伴侣。如果你曾在凌晨2点思考哲学问题,或者需要从健康到人生成功等各方面的建议,那么你并不孤单,其他人也一样。

    我们的研究表明,人工智能与人类息息相关,它是一个值得信赖的顾问,能够轻松融入你的生活和日常。它关乎你的健康、工作、娱乐和人际关系。它会在你需要的地方为你提供帮助。
    欲知详情,请阅读我们的报告,以下是一些我们的研究结论。

    健康始终是我们关注的焦点——尤其是在移动设备上

    无论日期、月份或时间如何,与健康相关的话题在人们使用移动设备上的Copilot时占据主导地位。无论是追踪健康状况、搜索健康小贴士,还是管理日常生活习惯,我们的用户一直都在向Copilot寻求支持,以过上更健康的生活。这一趋势全年都保持稳定,表明健康在我们日常的数字使用习惯中是多么核心。对于移动设备而言,由于其私密性和即时性,没有什么比我们的健康更重要。

    移动设备上最常见的主题 – 意图配对对话。

    健康始终是最常见的主题,而有趣的是,与语言相关的聊天在年初达到高峰,娱乐相关话题则稳步上升。

    当编程与游戏交汇

    8月出现了一个独特的变化:编程和游戏话题以意想不到的方式开始重叠。我们的数据显示,用户投入编程项目的可能性与探索游戏的可能性一样大——但这发生在一周中的不同日子!这种交叉表明存在一个充满活力和创造力的群体,他们在工作日同样热爱编程,在周末则热衷于玩游戏。

    8月编程和游戏话题排名。

    一周内编程和游戏的排名有明显变化,编程话题从周一到周五排名上升,而游戏话题在周末突出。

    二月的重要时刻

    2月脱颖而出还有另一个原因:Copilot帮助用户应对一年中的一个重要日子。无论是在为情人节做准备,还是在面对这一天以及相关的人际关系问题时,我们都看到人们向Copilot寻求指导、提醒和支持的活动激增。这很好地提醒了我们,数字工具如何能让生活中的重要时刻更容易应对。

    “个人成长与健康”和“人际关系”对话排名。
    情人节前,人们对个人成长问题的关注度提高,节日当天与人际关系相关的对话明显达到高峰。

    深夜时段

    那些宏大的问题似乎在凌晨时分出现得更多,“宗教与哲学”话题的排名上升。相比之下,旅行相关的对话大多发生在通勤时间。

    一天中每个小时旅行和宗教与哲学对话的平均排名。
    虽然人们在白天有更多与旅行相关的对话,但正是在凌晨时分,我们看到宗教与哲学对话有所增加。

    寻求建议的情况增多

    虽然搜索信息仍然是Copilot最受欢迎的功能,但我们看到人们寻求建议的情况明显增多——尤其是在个人话题方面。无论是处理人际关系、做人生决策,还是仅仅需要一些指导,越来越多的用户都在向Copilot寻求周到的支持,而不仅仅是快速获取答案。这一不断增长的趋势凸显了数字工具如何成为生活中日常问题的可信赖伙伴。

    这些见解为何重要

    通过分析高层次的主题和意图,我们在最大程度保护用户数据隐私的同时,了解到了所有这些情况。了解这些模式有助于我们进一步优化Copilot。通过了解对我们的用户来说最重要的事情——健康、创造力以及在关键时刻的支持,我们可以设计出真正适合他们生活的功能。从这些使用情况中也可以清楚地看出,Copilot提供的内容很重要。它们表明了为什么我们要对自身设定高标准的质量要求是如此重要。

  • OpenAI面向语音开发人员的更新

    OpenAI面向语音开发人员的更新

    新的音频模型快照以及生产语音应用程序对自定义语音更广泛的访问权限。

    人工智能音频功能开启了用户体验令人兴奋的新领域。今年早些时候,我们发布了几款新的音频模型,包括 gpt – realtime,以及新的 API 功能,使开发人员能够打造这些体验。

    上周,我们发布了新的音频模型快照,旨在通过提高整个生产语音工作流程(从转录、文本转语音到实时、原生语音转语音智能体)的可靠性和质量,应对构建可靠音频智能体时的一些常见挑战。

    这些更新包括:

    新快照有一些共同的改进:

    音频输入方面

    • 对于现实世界中的嘈杂音频,降低单词错误率。
    • 在静音或有背景噪音时,减少幻觉情况(即生成无意义内容)。

    音频输出方面

    • 语音输出更自然、更稳定,使用自定义语音时也是如此

    价格与之前的模型快照保持一致,因此我们建议切换到这些新快照,以相同价格享受性能提升。

    如果您正在构建语音智能体、客户支持系统或品牌语音体验,这些更新将帮助您使生产部署更加可靠。下面,我们将详细介绍新内容以及这些改进在现实世界语音工作流程中的体现。

    语音转语音

    我们正在部署新的实时迷你版和音频迷你版模型,这些模型针对更好的工具调用和指令执行进行了优化。这些模型缩小了迷你版和全尺寸模型之间的智能差距,使一些应用程序能够通过转向迷你版模型来优化成本。

    gpt-realtime-mini-2025-12-15

    gpt-realtime-mini 模型旨在与实时 API 配合使用,该 API 用于实现低延迟、原生多模态交互。它支持诸如音频流式输入输出、处理中断(可选语音活动检测),以及在模型持续对话时在后台进行函数调用等功能。

    新的实时迷你版快照更适用于实时智能体,在指令执行和工具调用方面有显著提升。在我们内部的语音转语音评估中,与之前的快照相比,指令执行准确率提高了 18.6 个百分点,工具调用准确率提高了 12.9 个百分点,并且在 Big Bench 音频基准测试中也有所进步。

    这些提升共同促成了在实时、低延迟环境中更可靠的多步骤交互以及更稳定的功能执行。

    对于那些认为智能体准确性值得付出更高成本的场景,gpt – realtime 仍然是性能最佳的模型。但当成本和延迟最为关键时,gpt – realtime – mini 是个很好的选择,它在实际场景中表现出色。

    例如,Genspark 在双语翻译和智能意图路由方面对其进行了压力测试,除了语音质量有所提升外,他们发现延迟几乎可以忽略不计,并且在快速交流过程中意图识别始终精准无误。

    gpt-audio-mini-2025-12-15

    gpt- audio-mini 模型可与聊天完成 API 配合使用,适用于那些对实时交互没有要求的语音转语音用例。

    这两款新的模型快照还配备了升级的解码器,能让语音听起来更自然,并且在搭配自定义语音使用时,能更好地保持语音的一致性。

    Text-to-speech

    最新的转录模型 gpt-4o-mini-transcribe -2025-12-15 在准确性和可靠性方面都有显著提升。在诸如通用语音(Common Voice)和 FLEURS(无语言提示)等标准自动语音识别(ASR)基准测试中,它的单词错误率低于先前的模型。我们针对现实世界的对话场景对该模型进行了优化,例如适应简短的用户话语和嘈杂的背景环境。在一项内部带噪幻觉评估中,我们播放现实世界的背景噪音片段以及不同讲话间隔(包括静音)的音频,与 Whisper v2 相比,该模型产生的幻觉减少了约 90%,与之前的 GPT – 4o – transcribe 模型相比减少了约 70% 。

    这些结果共同反映出该模型在多种语言中的发音准确性和稳定性都有所提高。

    与新的gpt-realtime-mini快照类似,该模型的语音听起来自然得多,并且在搭配自定义语音使用时表现更佳。

    Speech-to-text

    最新的转录模型gpt – 4o – mini – transcribe – 2025 – 12 – 15在准确性和可靠性方面均有显著提升。在诸如通用语音(Common Voice)和FLEURS(无语言提示)这类标准自动语音识别(ASR)基准测试中,它的单词错误率比之前的模型更低。我们针对现实世界的对话场景对该模型进行了优化,比如应对用户简短发言和嘈杂背景等情况。在一项内部的带噪音幻觉评估中,我们播放包含现实世界背景噪音以及不同说话间隔(包括静音)的音频片段,与Whisper v2相比,该模型产生的幻觉减少了约90%,与之前的GPT – 4o – transcribe模型相比减少了约70%。

    此模型快照在中文(普通话)、印地语、孟加拉语、日语、印尼语和意大利语方面表现尤为突出。

    Custom Voices

    自定义语音使企业能够以独特的品牌语音与客户沟通。无论你是在打造客户支持智能体还是品牌虚拟形象,OpenAI 的自定义语音技术都能让你轻松创建独特且逼真的语音。

    这些新的语音转语音和文本转语音模型为自定义语音带来了改进,比如更自然的语调、对原始样本更高的还原度,以及跨方言准确性的提升 

    为确保安全使用这项技术,自定义语音仅面向符合条件的客户。如需了解更多信息,请联系您的客户经理或我们的销售团队。

    从原型到投产

    语音应用程序往往会在相同的方面出现问题,主要是在长对话中,或遇到如沉默等边缘情况时,以及在语音代理需要精准表现的工具驱动流程中。这些更新针对的就是这些容易出问题的情况,旨在降低错误率、减少幻觉(即生成不合理内容)、使工具使用更一致,并提高对指令的遵循程度。此外,还有一个额外的好处是,我们提升了输出音频的稳定性,让你的语音体验听起来更自然。

    如果你目前正在发布语音相关产品,我们建议迁移到 2025 年 12 月 15 日的新快照版本,并重新运行关键的生产测试用例。早期测试者证实,无需更改指令,只需简单切换到新快照版本,就能看到明显的改进,但我们仍建议你针对自身用例进行测试,并根据需要调整提示词。

  • 智能体AI来袭,企业转型新机遇!

    宝子们,人工智能一直在改变企业运营,以前重点在智能助手,不过它们只能被动响应。现在,智能体人工智能(Agentic AI)登场啦,这可是重大进化🔥!

    传统AI助手只能执行孤立任务,有局限性。而智能体AI能自主决策、多步骤协调,主动评估环境、发起行动,协调跨部门工作流程,简直太牛了👏!

    对企业领导者来说,这有机会也有责任。潜力大,但治理、信任和设计挑战也大。企业得能监控和推翻智能体AI的行动。

    企业工作流程也要重新思考啦。不能再逐步设计流程插入自动化,得构建智能生态系统,思考哪些决策给人类,哪些给智能体,确保数据获取正确。

    统一平台在这时超重要。没它,智能体可能脱节。统一方法能提供规范,实现互操作性,降低复杂性,还能规模化。

    信任和问责制也不能少。智能体行动独立,风险上升,得从一开始就融入信任和问责,明确政策,让员工相信它是伙伴。

    企业要尽早衡量商业价值,别让项目只停留在试点。智能体AI设计得好,能带来指数级提升,改变企业绩效。

    智能体AI兴起不是交权给机器,而是企业转型新阶段,人类和智能体并肩作战。领导者要先试点,再扩展,投资统一平台和政策框架,营造好文化。

    宝子们,智能体AI正在重塑企业,现在就是企业领导者大展身手的时候啦💪!

    【关键词】

    智能体人工智能 #企业转型 #工作流程重塑 #统一平台 #信任问责

  • 12月 大语言模型排行榜

    12月份 大语言模型榜

    基于OpenCompass 官方评测规则,对行业领先大模型进行评测,根据评测结果发布榜单