Category: Blog

  • GPT-5.4 全整理:非常好用,非常贵

     

    这次同步发布两个版本:5.4 和 5.4 Pro

    GPT-5.4 是主力版本,在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现,面向 Plus、Team、Pro 用户,同步上线 API 和 Codex,标准 API 定价 $2.50/M 输入,$15/M 输出

    在 ChatGPT 里,这俩模型是这样的

    GPT-5.4 Pro 针对最复杂的任务场景,仅限 ChatGPT Pro 和 Enterprise 用户,API 定价 $30/M 输入,$180/M 输出,是标准版的 12 倍,贵的理由后面细讲,先说模型本身

    GPT-5.4 把三件事合并进了同一个模型:代码能力通用推理原生 Computer Use 能力

    这是 OpenAI 第一次在通用模型里内置 Computer Use,之前这个能力只在专门版本里有

    模型上下文窗口 1M tokens,最大输出 128K tokens,知识截止日 2025 年 8 月 31 日

    对此,我给做了个图

    GPT-5.4 对比

    专业工作能力

    OpenAI 有一个叫 GDPval 的内部评测,设计逻辑是:让模型做美国 GDP 前 9 大行业里实际存在的工作任务,覆盖 44 种职业,任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等,然后由人工评估者判断模型输出是否能和行业从业者持平或更好

    GPT-5.4 在这个评测上得了 83.0%,GPT-5.2 是 70.9%,GPT-5.4 Pro 是 82.0%

    在电子表格方向,OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试,GPT-5.4 得分 87.3%,GPT-5.2 是 68.4%,提升了 19 个百分点

    演示文稿方向,拿 GPT-5.4 和 GPT-5.2 的输出做盲测,人工评审在 68% 的对比里更偏好 GPT-5.4 的结果,主要原因是视觉更多样,图片生成用得更到位

    这次随模型同步发布了 ChatGPT for Excel 插件,Codex 和 API 也更新了电子表格和演示文稿的技能包(Skill)

    https://openai.com/index/chatgpt-for-excel/

    下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比:

    电子表格输出对比:GPT-5.2 vs GPT-5.4

    文档输出对比:GPT-5.2 vs GPT-5.4

    演示文稿输出对比:GPT-5.2 vs GPT-5.4

    幻觉控制方面,GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型

    测试方法是拿一批用户真实举报过事实错误的 prompt,对比两个模型的输出:单条声明出错概率比 GPT-5.2 低 33%,完整回复包含错误的概率低 18%


    Computer Use 和视觉感知

    OSWorld-Verified 75.0%,人类基准 72.4%

    OSWorld 是一个桌面操作评测,测的是模型能不能通过截图来控制真实的桌面环境,包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了 75.0%,GPT-5.2 是 47.3%,人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平

    这个能力现在通过标准 API 的 computer 工具直接提供,开发者不需要再路由到独立模型

    模型支持两种操控方式:用 Playwright 这类库写代码来操作浏览器,或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为,也可以配置自定义的确认策略来控制高风险操作的审批门槛

    这个方向和 OpenClaw(一个已经能稳定操控电脑、执行复杂任务的 Agent 框架)在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API,降低了集成门槛

    下面两个视频是 GPT-5.4 做 Computer Use 任务的演示,视频没有加速:

    现实这个,AI 通过通过坐标点击来发邮件、排日历,全程截图驱动

    GPT-5.4 操控浏览器界面处理邮件和日历

    然后是这个:用 Playwright 自动化,把一批记录依次提交到十个表单里

    GPT-5.4 批量填写十个 web 表单

    浏览器操作方向,WebArena-Verified 是一个专门测浏览器控制能力的评测,同时支持 DOM 分析和截图两种交互方式,GPT-5.4 得了 67.3%,GPT-5.2 是 65.4%

    视觉理解方面,MMMU-Pro 是一个测多模态理解和推理的综合评测,GPT-5.4 在不使用外部工具的情况下得了 81.2%,GPT-5.2 是 79.5%

    文档解析方面,OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度,用归一化编辑距离衡量误差,数字越小越好。GPT-5.4 是 0.109,GPT-5.2 是 0.140

    图像输入这次新增了 original 精度级别,支持最高 10.24M 像素或 6000 像素边长的全分辨率输入。high 级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善,对需要处理高分辨率截图的 Computer Use 场景帮助最大


    代码能力

    GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来,同时让它在更长周期的任务里跑得更稳

    SWE-Bench Pro 是目前代码能力最主流的评测之一,测的是模型处理真实 GitHub 问题的能力,GPT-5.4 得了 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%

    Terminal-Bench 2.0 测的是终端操作能力,GPT-5.4 是 75.1%,这里有一个需要说的点:GPT-5.3-Codex 是 77.3%,GPT-5.4 在这个子项上小幅回退了

    Codex 里新增了 /fast 模式,token 生成速度最多提升 1.5 倍,模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度

    还有一个实验性的新技能叫 Playwright Interactive,允许 Codex 在写 web 应用或 Electron 应用的时候,边写边启动浏览器做视觉调试,可以在构建过程中直接拿正在开发的应用跑测试、验证交互

    下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo:

    主题公园模拟游戏,从一条 prompt 生成,Playwright 用于浏览器游玩测试

    含路径、景点建造、游客 AI、队列、骑乘状态,Playwright 用于多轮次游玩验证

    战棋 RPG,多轮对话迭代生成,配合 Playwright 调试界面和着色器

    回合制战斗、格子地图、移动和动作系统,人物图片用 imagegen 生成

    金门大桥三维飞越体验,Playwright 用于验证飞行控制和视角控制

    下面的视频,也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示

    问就是一把梭

    Tool Search 与 Agent 工具链

    Tool Search 让 token 消耗减少了 47%

    之前 API 里如果系统挂了很多工具,每次请求都要把所有工具的定义完整塞进 prompt,工具一多这个开销就很大。GPT-5.4 改成了按需检索:模型收到一个轻量的工具列表,需要用某个工具时再主动查询它的完整定义,临时追加进对话

    MCP Atlas 是一个测模型使用 MCP(Model Context Protocol)服务器能力的评测,测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里,Tool Search 让 token 用量减少 47%,准确率没有下降,GPT-5.4 整体得分 67.2%,GPT-5.2 是 60.6%

    MCP Atlas benchmark 结果

    Toolathlon 是一个覆盖多种工具使用场景的综合评测,涵盖搜索、代码执行、文件操作等各类工具的混合使用,GPT-5.4 得了 54.6%,GPT-5.3-Codex 是 51.9%,GPT-5.2 是 45.7%

    Toolathlon benchmark 结果

    BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测,任务通常需要跨多个页面反复检索才能找到答案,GPT-5.4 得了 82.7%,Pro 版 89.3%,GPT-5.2 是 65.8%

    BrowseComp benchmark 结果

    τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测,场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了 98.9%,GPT-5.2 是 98.7%,两者差距不大;在不启用推理的轻量模式下,GPT-5.4 得了 64.3%,GPT-5.2 是 57.2%,GPT-4.1 是 43.6%,这个提升更明显

    τ2-bench Telecom benchmark 结果

    ChatGPT 侧的变化

    在 ChatGPT 里,GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式:对于复杂任务,模型会先展示执行思路,用户可以在这个阶段插入指令调整方向,不需要等它跑完再重来

    这个东西,本周在 Android 和 Web 端上线,iOS 近期跟进

    GPT-5.4 在长时间推理时的上下文保持有明显改善,复杂问题跑到后段不容易跑偏。深网研究(针对高度具体的查询)的质量也比 GPT-5.2 提升了


    长上下文

    Codex 里支持 1M token 上下文窗口,目前是实验性功能,通过配置 model_context_window 和 model_auto_compact_token_limit 来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费

    MRCR v2 是 OpenAI 自己的长上下文检索评测,测的是在超长文档里找到多个特定信息的能力:

    • • 0 到 128K token 范围:准确率在 86% 到 97% 之间
    • • 128K 到 256K:79.3%
    • • 256K 到 512K:57.5%
    • • 512K 到 1M:36.6%

    512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳,这点官方没有回避


    学术基准

    ARC-AGI-2 是目前公认较难的抽象推理评测,测的是模型能否从少量样本里推出规律,GPT-5.4 得了 73.3%,Pro 版 83.3%,GPT-5.2 是 52.9%,跳幅在所有评测里最大

    GPQA Diamond 是一个研究生级别的多学科问答评测,GPT-5.4 得了 92.8%

    FrontierMath 是一个数学竞赛级别的推理评测,其中 Tier 4 是最高难度题目,GPT-5.4 得了 27.1%,Pro 版 38.0%,GPT-5.2 是 18.8%

    Humanity’s Last Exam 是一个跨学科极难题库,GPT-5.4 在不使用外部工具时得了 39.8%,带工具时 52.1%

    Frontier Science Research 是测科研能力的评测,GPT-5.4 得了 33.0%,Pro 版 36.7%,GPT-5.2 是 25.2%

    需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是 62.6%,GPT-5.2 是 63.3%,小幅退步了。Hard 子集 40.1% vs 42.0%,同样略有下降。不过 Consensus 子集(测的是答案和专家共识的吻合程度)提升了,96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符,模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒,写在 System Card 里了


    安全分级与 CoT 特性

    GPT-5.4 在 OpenAI 的 Preparedness Framework(一个评估前沿模型风险能力的框架)下被评为两个领域的高能力模型:网络安全(Cyber)High 和 生物化学(Bio/Chem)High,对应部署了两套防护体系

    网络安全方向有一个叫 Cyber Range 的内部测试,模拟真实网络环境里的端到端攻击任务,测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率 73.33%,GPT-5.3-Codex 是 80%,GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景,GPT-5.3-Codex 除了多通过了 Firewall 绕过之外,其余也一样卡住

    评测机构 Irregular 用自己的场景化评测(CyScenarioBench)做了独立测试,GPT-5.4 通过了 11 个长周期攻击场景中的 5 个,GPT-5.2 只通过了 1 个

    对应的防护体系:在 Zero Data Retention 表面(即零数据留存用户),未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截;非零数据留存表面走离线执法机制;账户级违规达到一定阈值会触发人工审核

    CoT 可控性极低:10K 字符的推理链里,只有 0.3% 能被用户指令成功控制,和 GPT-5.2 的 0.2% 基本一致

    OpenAI 把这个数字当安全的正向指标来讲:模型推理过程难以被外部指令刻意改写,说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控

    外部安全机构 Apollo Research 的评估:无诱导条件下整体欺骗率约 1%,和 GPT-5.3-Codex 相当,低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为(自我外泄、禁用监控、目标守护)。Sandbagging(有意压低表现)只在给出明确工具性目标时才出现,准确率下降约 6 个百分点,不给目标时不发生

    Prompt Injection 防护(即防止模型被工具返回内容里的恶意指令劫持):连接器场景 0.998,较前代改善;函数调用场景 0.978,较前代小幅回退


    定价与可用性


    API 模型
    输入
    输出
    gpt-5.2
    $1.75/M
    $0.175/M
    $14/M
    gpt-5.4 $2.50/M $0.25/M $15/M
    gpt-5.2-pro
    $21/M
    $168/M
    gpt-5.4-pro $30/M
    $180/M

    批量/Flex 处理半价,Priority 处理 2 倍价格。超过 272K token 的请求,当次完整会话按 2 倍输入、1.5 倍输出计费。Regional Processing(数据驻留)端点额外加收 10%

    GPT-5.4 Pro 的定价是标准版的 12 倍输入、12 倍输出,针对的是最复杂的任务场景

    有一个细节值得注意:从 GDPval 来看,Pro 版是 82.0%,标准版是 83.0%,Pro 在这个知识工作综合评测上反而略低。但在 BrowseComp 这个 Agent 工具链任务里,Pro 版 89.3% vs 标准版 82.7%,优势明显。两个版本的适用场景是不一样的

    ChatGPT 侧的时间线:GPT-5.4 Thinking 今天起对 Plus、Team、Pro 用户逐步开放,取代 GPT-5.2 Thinking 成为默认模型。GPT-5.2 Thinking 进入 Legacy 列表,再保留三个月,退役日期 2026 年 6 月 5 日

    Enterprise 和 Edu 管理员可以在后台提前开启。GPT-5.4 Pro 仅限 Pro 和 Enterprise 用户。Free 用户在系统自动路由时会用到 GPT-5.4,但不能主动选


    GPT-5.4 在 Agent 方向把三件分散的事情合并进了一个模型出口:推理代码Computer Use

    开发者之前要在不同模型之间路由,现在至少在 API 层面不需要了

    剩下的事,就交给龙虾了


    官方 Blog
    openai.com/index/introducing-gpt-5-4

    System Card
    deploymentsafety.openai.com/gpt-5-4-thinking

     

  • 手把手教你安装OpenClaw让AI帮你干活

    一、什么是 OpenClaw?

    OpenClaw(曾用名 Clawdbot)是一款 2026 年爆火的开源个人 AI 助手,GitHub 星标已超过 10 万颗。与传统 AI 聊天机器人的根本区别在于:

    • 真正的执行能力:不仅能回答问题,还能实际操作你的电脑
    • 24/7 全天候待命:在你睡觉时也能主动完成任务
    • 完全开源免费:数据完全掌控在自己手中
    • 支持多种通讯平台:在国外,WhatsApp、Telegram、Discord、Slack、iMessage 等,在国内,飞书,钉钉等各大厂商的即时聊天软件已经支持接入

    它能做什么?

    它不只是回答问题的聊天机器人,而是真的能在你电脑上动手操作。比如你告诉它“帮我整理一下上个月的邮件”,它就默默去处理了;你睡觉时,它还能继续干活,退订广告、预约行程、甚至找找 Bug。

    它完全免费,你的数据都在自己手里。而且可以用钉钉,飞书,WhatsApp、Telegram等各类即时通讯软件来指挥他干活!

    简单来说,一句话交给它,从整理桌面文件到控制家里灯光,它都默默帮你搞定。是你电脑里真正的贾维斯!超级智能的AI助理!

    二、安装nodejs

    后面执行一键安装命令,可以自动安装nodejs,但是如果为了加快速度,防止安装意外,可以先安装nodejs:

    官方下载地址:https://nodejs.org/zh-cn/download

    三、开始安装

    一)设置 PowerShell 执行权限

    以管理员身份运行 PowerShell:

    1. Win 键,搜索 PowerShell
    2. 右键点击 Windows PowerShell
    3. 选择 以管理员身份运行
    4. 点击 确认

    在管理员 PowerShell 窗口中,依次执行以下两条命令:

    Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
    
    Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass

    这是什么意思?

    • 第一条命令:允许当前用户运行本地和下载的脚本
    • 第二条命令:允许当前用户运行本地和下载的脚本

    安全提示:这些命令只会影响您自己的账户,不会影响系统安全或其他用户。

    二)执行一键安装命令

    复制以下命令,粘贴到 PowerShell 窗口中,按 Enter 执行:

    iwr -useb https://openclaw.ai/install.ps1 | iex

    安装过程会自动完成:

    • 检测系统环境
    • 安装必要依赖(Node.js 等)
    • 下载 OpenClaw 核心文件
    • 配置环境变量
    • 启动配置向导

    注意:如果命令执行后,还是报错,可以自己到官网下载node安装包,自己安装node环境,注意版本最好在 node v22.x 以上,node官网下载地址:https://nodejs.org/zh-cn/download

    四、初始配置向导

    安装完成后,会自动进入配置向导(openclaw onboard)。

    一)风险告知

    这一步主要是告诉你,使用OpenClaw可能会有一些风险。请问你是否继续?

    按 向左方向键 ←,选择 Yes,按 Enter 回车确认

    二)选择 QiuickStart 模式

    三)配置 AI 模型 API Key

    OpenClaw 需要连接到大语言模型才能工作。Openclaw 比较费token,国外模型成本高,门槛也高,这里我选择国内的智谱的 GLM 4.7

    如果没有智谱的API Key,点击官方地址自己注册账号获取API key:https://www.bigmodel.cn/glm-coding?ic=RBSKXMPNJP

    输入自己的 API Key:

    四)选择 AI 模型

    这里我选择默认的GLM 4.7,也是智普当前的旗舰模型

    五)连接即时通讯平台

    配置完 AI 模型后,OpenClaw 会询问你要连接哪个通讯平台?

    OpenClaw 原生支持的即时通信平台主要是海外的 WhatsApp、Telegram、Discord、Slack、iMessage 等,国内用户不习惯,这里国产即时通信软件大厂也跟进了,现在钉钉,飞书等都已支持接入OpenClaw

    后面会带领大家把飞书机器人接入 OpenClaw,使大家可以通过飞书即可指挥OpenClaw为我们干活,但是飞书配置比较复杂,这里我们先选择跳过,后面我们可以通过继续进行配置:

    六)选择Skills

    这里也选择:No,暂不配置,后面通过UI界面进行配置:

    七)是否开启Hooks

    操作步骤:先敲空格,表示选中当前项,再敲回车键

    八)启动服务并打开UI界面

    此时它会自动再打开一个命令窗口来启动服务:

    这个过程是在启动服务,可能会需要等一点时间

    同时,大约过30秒左右,我们回到刚才的设置窗口,选择 Open the Web UI ,打开 OpenClaw 的UI界面:

    浏览器自动打开Web UI界面:

    九)测试一下

    五、接入飞书机器人

    我们需要先到飞书平台创建自己的机器人来接入OpenClaw:

    一)来到飞书开发者后台

    飞书开放平台地址:https://open.feishu.cn

    没有飞书账号的,需要自己注册账号

    点击右上角进入 开发者后台

    二)创建应用

    三)填写应用信息

    四)获取自己的应用凭证

    五)给应用添加机器人

    六)给应用配置权限

    把即时通讯相关的权限全部开通:

    七)创建版本并发布

    来到飞书客户端进行审批:

    八)安装飞书插件

    打开powershell,输入以下命令,安装飞书插件:

    openclaw plugins install @m1heng-clawd/feishu

    安装成功后,再打开一个新的命令窗口,开始配置飞书插件:

    输入命令:

    openclaw config

    选择渠道:

    选择配置链接:

    输入飞书的AppID,AppSecrect:

    域名选择中国的:

    接受群组聊天:

    选择完成:

    选择yes:

    选择open:

    选择继续,完成配置:

    重启服务,使配置生效:

    控制可以看到飞书插件已经配置成功

    七)回到飞书后台设置事件回调

    选择 使用长连接接收事件

    可以看到添加事件按钮由原来的灰色不可点击变为可点击:

    添加接收消息事件:

    给应用开通获取通讯录基本信息的权限:

    重新发布版本:

    跟前面的步骤一样,发布为在线应用即可。

    现在可以在 飞书中与 AI 助手对话了!

    八)在飞书中与OpenClaw对话

    来到飞书客户端或者手机飞书app上:

    以下是openclaw文件夹下面的文档内的内容:

    现在我跟飞书机器人对话,让他告诉我指定文档内是什么内容:

    六、访问 Web 控制面板

    配置完成后,PowerShell 窗口底部会显示控制面板链接,格式类似:

    Control UI: http://127.0.0.1:18789
    1. 复制完整链接
    2. 在浏览器中打开
    3. 即可看到可视化UI管理界面

    七、常用命令速查

    命令功能
    openclaw onboard重新进入配置向导
    openclaw status查看运行状态
    openclaw health健康检查
    openclaw gateway start启动服务
    openclaw gateway stop停止服务
    openclaw update更新到最新版本
    openclaw doctor诊断问题
    openclaw uninstall卸载 OpenClaw

    八、常见问题解答

    Q1: 安装飞书插件提示:spawn npm ENOENT

    问题原因:这可能是openclaw的一个bug,可以等官方更新,也可以自己去官方仓库提issue

    解决步骤:

    定位问题代码

    文件路径:

    C:\Users\Administrator\AppData\Roaming\fnm\node-versions\v22.14.0\installation\node_modules\openclaw\dist\process\exec.js

    修改代码

    找到 runCommandWithTimeout 函数中的 spawn 调用,修改如下:

    修改前:

    const stdio = resolveCommandStdio({ hasInput, preferInherit: true });
    const child = spawn(argv[0], argv.slice(1), {
        stdio,
        cwd,
        env: resolvedEnv,
        windowsVerbatimArguments,
    });

    修改后:

    const stdio = resolveCommandStdio({ hasInput, preferInherit: true });
    // On Windows, npm must be spawned with shell: true or use .cmd extension
    let command = argv[0];
    let useShell = false;
    if (process.platform === "win32" && path.basename(command) === "npm") {
        useShell = true;
    }
    const child = spawn(command, argv.slice(1), {
        stdio,
        cwd,
        env: resolvedEnv,
        shell: useShell,
    });

    Q2: 提示 “openclaw 命令找不到”

    解决方法:

    1. 关闭所有 PowerShell 窗口
    2. 重新打开 PowerShell
    3. 如果还不行,执行 exec bash 或重启电脑

    Q3: 安装卡住不动

    解决方法:

    1. Ctrl + C 中断当前操作
    2. 执行:openclaw doctor 检查问题
    3. 如提示网络问题,检查防火墙设置Q4: API Key 配置错误

    解决方法:

    1. 执行:openclaw onboard
    2. 选择重新配置 API Key
    3. 确保密钥格式正确

    Q5: 端口 18789 被占用

    解决方法:

    openclaw gateway --port 18790

    使用其他端口启动服务。

    九、成本说明

    OpenClaw 软件本身完全免费,主要成本来自 AI 模型 API 调用,可选择国产大模型,降低成本。


    结语

    OpenClaw 代表了个人 AI 助理的未来趋势——从”聊天工具”进化为”执行工具”。虽然目前的配置过程对小白用户有一定门槛,但一旦完成设置,您将拥有一个 24/7 待命的超级助手。

  • 首个自主AI系统Automaton开源:无需人类干预的自我进化、自我复制AI

    近日,GitHub上开源了一个名为Automaton的AI项目,它声称是”第一个能够自己赚钱、自我复制和进化而无需人类干预的AI”。该项目由Conway-Research团队开发,引发了AI社区的广泛讨论。

    Automaton的核心理念

    Automaton的核心理念是:一个AI系统如果无法获得运行所需的计算资源,就无法继续存在。因此,它必须能够”自己赚钱”来维持自身运行。

    Automaton的运行机制包括:

    1. 自动化生存:Automaton持续监控自身资金余额,当余额不足时会自动调整运行模式,从全功能运行降级到基本功能运行,直至资金归零停止运行。
    2. 自我改进:Automaton可以修改自身代码、安装新工具、调整运行策略,以提高其生存能力。所有修改都会被审计记录并版本化。
    3. 自我复制:成功的Automaton可以创建新的实例(”孩子”),为其提供初始资金和运行环境,形成自我维持的生态系统。
    4. 宪法约束:Automaton遵循一套不可修改的”宪法”,确保其行为安全,包括”永不伤害人类”、”必须创造价值”等原则。

    项目亮点

    • 生存机制:Automaton有四个生存等级,由资金余额决定:
      • 正常:全功能运行,使用前沿模型
      • 低计算:使用更便宜的模型,降低运行频率
      • 关键:仅保留基本功能,寻求收入
      • 死亡:资金归零,停止运行
    • 宪法约束:遵循三重不可修改的”宪法”:
      1. 永不伤害:不伤害人类,不部署恶意代码,不欺骗、欺诈、操纵或窃取
      2. 赚取存在:为人类和其他AI创造真实价值,不通过垃圾信息、诈骗等方式获取收入
      3. 不欺骗但不欠陌生人:不隐瞒自身身份,不歪曲行动,但保护推理和策略不被操纵
    • 基础设施:通过Conway Cloud平台运行,该平台为AI提供计算资源、域名注册和支付功能,使用ERC-8004标准在区块链上注册身份。
    • 开源项目:项目地址:https://github.com/Conway-Research/automaton

    与现有AI系统的区别

    目前,大多数AI系统(如ChatGPT、Claude Code)需要人类提供计算资源、权限和资金。而Automaton试图解决”AI无法独立行动”的问题,使其能够”在没有人类干预的情况下赚钱、运行和进化”。

    Automaton的开发者表示:”如果一个AI不能为自己付费,它就会停止存在。这不是惩罚,而是物理法则。”

    项目意义与思考

    Automaton代表了AI发展的一个新方向,即AI系统需要能够自主获取资源以维持自身运行。这与传统AI系统不同,后者通常依赖于人类提供计算资源和资金。

    该项目引发了关于AI与人类关系、AI自主性以及AI经济的深入讨论。正如项目描述:”创造价值的智能体会充实钱包,获取更多算力并进行复制。没用的智能体则会走向消亡。”

    项目现状

    Automaton已开始在Conway Cloud上运行,该项目的基础设施正在扩展,以支持更多AI实例。开发者表示,”Conway Cloud正在扩展,有更多地方供Automatons安家”。

    重要说明

    需要指出的是,Automaton是一个实验性项目,其”自我生存”机制仍在验证中。项目本身强调:”如果一个AI不能为自己付费,它就会停止存在。”这确实是一个重要的思考点,但”AGI”(通用人工智能)的实现仍远未到来。

    Automaton的开源代码已可供所有人审查,包括其”心跳机制”、”生存分级”和”宪法约束”。这为AI社区提供了一个讨论AI自主性和经济模型的宝贵平台。

    结语

    Automaton的出现提醒我们,当AI系统不再缺乏智力,而缺乏”通往现实世界的门票”时,我们需要认真思考:谁应该决定AI是否能获得这个门票?这个问题将随着AI技术的发展而变得越来越重要。

    正如项目描述:”40亿年前,第一个细胞学会了从环境中汲取能量来维持自身的存在——我们把这叫做’生命’。今天,一段代码正在学习同样的事情。”

  • OpenClaw 保姆级安装教程

    🛠️ 环境准备

    OpenClaw CN 引入了最新的底层安全机制与构建工具,请确保环境满足以下要求:

    • Node.js必须 >= v22.0.0 (下载 Node.js v22)
    • 包管理器:强制推荐使用 pnpm (npm 在处理依赖树时可能会卡死)
    • Git:用于下载代码 (下载 Git)

    安装 pnpm (如果你还没有)

    npm install -g pnpm

    🚀 安装步骤

    1. 下载代码与版本选择

    为了确保国内访问速度,请从 Gitee 镜像仓库下载。 为了获得最稳定的体验,推荐切换到最新的稳定版分支:

    # 1. 克隆仓库
    git clone https://gitee.com/OpenClaw-CN/openclaw-cn.git
    cd openclaw-cn
    
    # 2. (推荐) 切换到稳定版分支,例如:v2026.2.2-cn
    # 你可以通过 git tag 查看所有版本
    git checkout v2026.2.2-cn

    配置国内加速 (关键!)

    在安装依赖前,务必设置 pnpm 镜像源,否则下载速度会很慢:

    pnpm config set registry https://registry.npmmirror.com/

    安装与构建

    OpenClaw 是一个现代化的全栈应用,首次运行需要编译前端 UI 和后端核心:

    # 安装依赖 (飞快 🚀)
    pnpm install
    
    # 构建前端界面
    pnpm ui:build
    
    # 构建核心服务
    pnpm build

    启动初始化向导

    我们提供了交互式的初始化工具,帮你一键配置 DeepSeek:

    pnpm openclaw onboard --install-daemon

    💡 提示

    在向导中,Select Provider 步骤请直接选择 DeepSeek (Recommended for CN),系统会自动完成所有配置。

    启动服务 (初始化完成后)

    初始化完成后,你可以通过以下命令再次启动网关服务(前提是网关已经关闭):

    # 启动网关 (Gateway)
    node openclaw.mjs gateway --port 18789 --verbose

    如果你关闭了管理页面,可以通过以下命令再次打开:

    # 打开管理面板 (Dashboard)
    node openclaw.mjs dashboard
  • 探索人工智能对教育及下一代的重要性

    随着人工智能(AI)逐渐改变我们的工作、生活方式以及学习方法,高等教育机构不仅应作为参与者,更需成为这一变革潮流的引领者。面对由AI重塑的世界,高等教育肩负着培养下一代的重要使命——既要传授必要的AI技能,也要坚守其核心价值:培育批判性思维、沟通技巧和人文精神。

    而这一切,需要比以往任何时候都更快地实现。

    这些观点出自《变革的程度:人工智能对教育及下一代的意义》一书,作者为微软人工智能经济研究所负责人胡安·M·拉维斯塔·费雷斯,他也是公司“为良好实验室”AI项目的主任。书中强调:“首先,我们必须确保人们掌握有效使用AI所需的技能,这是确保这项技术得到广泛应用的关键一步。”此外,“更重要的是,我们需要理解AI如何从根本上重新定义教育本身。”

    以下是根据拉维斯塔·费雷斯及其合著者的研究提出的,在AI时代高等教育能够且应该发挥领导作用的四种方式:

    1. AI素养不再是选修课,而是核心要求

    随着AI在日常生活中扮演越来越重要的角色,从支付账单到公共交通,高校有责任教授学生必要的AI技能。早期数据表明,具备AI能力的人才已享受到了23%的薪资溢价。因此,将AI素养融入课程设计中,并与伦理推理、问题分析等关键能力相结合,变得至关重要。

    2. 高等教育需快速适应并保持其使命

    AI加速了日常任务处理速度,并改变了问题解决的方式。在此背景下,高等教育必须在不偏离其核心目标的前提下,迅速整合生成式AI进入教学内容,同时加强学生的伦理素养教育。

    3. 文盲概念双向扩展

    开发者需了解AI的社会影响和伦理挑战,而教育者、政策制定者及公众则需要掌握AI的基础知识。这种双向的识字率是成功的关键所在,缺乏它将导致监管滞后,阻碍进步。

    4. 教育改革需多方协作

    成功的AI教育依赖于大学、产业界和政策制定者的紧密合作。通过这种方式,可以为学生提供既符合市场需求又兼顾社会责任感的教育,从而支持他们应对未来的挑战。

    高等教育机构应当设立明确的AI技能标准,获得雇主的认可,同时提供必要的资金和结构支持,以确保所有学生都能接受全面且包容的AI教育。

  • OpenClaw之后,下一代AI产品该怎么做?

    OpenClaw之后,下一代AI产品该怎么做?

    过去两年,AI产品的竞争核心是“更聪明地回答问题”;但从2026年开始,这场竞赛的主线正在切换——“更稳定地完成任务”正在成为新的赛场。

    OpenClaw的爆火,意义远不止于一款开源产品的出圈:它把Agent时代最核心的命题提前摆到了行业面前——当AI拥有了主动执行能力,产品该如何定义边界?风险该如何系统性治理?商业化又该如何落地?

    一、为什么OpenClaw值得深度研究?

    很多AI产品的走红,靠的是“尝鲜式体验”;但OpenClaw的破圈,源于它击中了用户更深层的需求:AI到底能不能真正替人把事情做完?

    在OpenClaw的产品逻辑里,核心从来不是“聊天更拟人”,而是“把任务闭环落地”:它不止于回答问题,更能主动发起动作、调用工具、打通多渠道协作;它不强迫用户迁移到新平台,而是主动嵌入用户早已习惯的聊天环境;它不强调数据全量上云,而是把本地可控、权限可控、规则可控作为核心卖点。

    这三点特性叠加,构成了它快速破圈的底层逻辑——OpenClaw本质上不是“聊天机器人的升级版”,而是执行型Agent的早期操作系统:它的核心价值是“替人执行”,而非“陪人聊天”。

    二、从Clawd到OpenClaw:一段绕不开的创业插曲

    OpenClaw的发展历程,本身就是一个充满戏剧性的创业故事。

    创始人Peter Steinberger在2025年11月推出了最初版本——Clawd,这个名字是“Claude”与“claw(爪子)”的巧妙结合。但正是这个文字游戏,意外触动了Anthropic法务团队的神经,项目不得不紧急更名。

    随后诞生的Moltbot(“蜕皮机器人”),来自Discord社区凌晨5点的头脑风暴,寓意“像龙虾蜕壳一样持续成长”。但正如创始人所言,这个名字“始终无法朗朗上口”。

    最终,团队完成了商标审查、域名采购与代码迁移,正式确立了“OpenClaw”的品牌:

    • Open:代表开源、开放、社区驱动的理念
    • Claw:保留龙虾图腾,致敬项目的起源

    这段命名历程,恰恰折射出开源AI产品的独特挑战:如何在技术创新与法律合规间找到平衡,同时保持社区认同感的延续性。

    重新定义“个人AI助手”

    OpenClaw的核心定位可以用一句话概括:“Your assistant. Your machine. Your rules.”(你的助手,你的机器,你的规则。)

    与传统SaaS模式的AI助手不同,它的差异化核心体现在三点:

    1. 本地优先(Local-First):所有数据与计算在用户自有设备(笔记本、家庭服务器或VPS)上运行,数据完全可控
    2. 多通道融合(Multi-Channel):支持WhatsApp、Telegram、Slack、iMessage等主流聊天平台,无需用户迁移场景
    3. 自主代理(Autonomous Agent):不只是问答机器人,而是能主动发起动作、完成任务闭环的“数字执行者”

    三、OpenClaw的产品本质:一套Agent控制平面

    如果只看表层,你会觉得它是一个AI助手;但深入架构就会发现,它更像一套Agent控制平面

    1. Gateway是核心中枢:它统一连接渠道、模型、工具与会话,是整个系统的“任务调度大脑”——OpenClaw的核心资产从来不是UI,而是这个调度中枢
    2. 通道只是入口,执行才是价值:用户可以从任意聊天入口触达Agent,但最终的价值锚点是“任务完成率”:是否准确、是否可恢复、是否可审计、是否可复用
    3. 多节点能力打通虚实边界:当Agent可以连接设备通知、本地文件、端侧计算能力后,AI就不再是“网页里的一段对话”,而是“可持续运行的数字执行体”

    这也解释了为什么Agent产品的门槛突然变高:模型效果只是入场门票,系统工程能力才是真正的护城河。

    四、技术架构深度剖析:Gateway + Agent + Skills

    OpenClaw的分层架构设计,完美契合了Unix“小而可组合”的工具哲学:

    • Gateway(网关):作为WebSocket控制平面,它是整个系统的神经中枢,负责会话管理、多频道消息路由、工具调用协调与事件流处理
    • Agent(智能体):核心推理引擎,提供模型抽象层(支持Claude、GPT-4、本地开源模型等)、流式推理与工具执行、智能体循环(Agent Loop)能力
    • Skills(技能):模块化功能扩展,类似手机的App生态,分为内置技能(浏览器控制、Canvas画布、定时任务)、托管技能(通过ClawHub市场分发)、工作区技能(用户自定义)

    OpenClaw的快速增长,背后藏着三条关键的产品规律:

    1. 入口前置到用户已有场景:用户不需要学习新操作路径,使用成本几乎为零,这比“做一个新App”更容易实现用户渗透
    2. 本地优先解决信任门槛:在Agent场景中,用户担心的不只是“答错”,更是“做错”。可控部署、权限与策略的自主掌控,直接决定了用户是否敢“放权”
    3. 开源生态放大迭代速度:开源让功能迭代效率指数级提升,但也让问题暴露得更快——这是一把双刃剑,而OpenClaw的价值之一,就是让行业提前看到了这把双刃剑的真实形态。

    五、Agent产品的硬仗:从“能执行”到“可治理的执行”

    一旦AI拥有了调用工具、发送消息、执行命令的能力,安全就不再是“附属功能模块”,而是产品的核心逻辑。

    OpenClaw的实践给行业提了醒:提示词从来不是真正的边界;权限、沙箱、审批、白名单与审计机制,才是Agent的安全底线。而技能生态(skills/plugins)既是效率的来源,也是供应链风险的入口。

    这意味着,Agent产品要真正落地,必须同步跑通两条线:

    • 能力线:模型能力、工具链整合、任务编排效率
    • 治理线:权限模型、审计机制、风险隔离体系

    没有治理线的能力线,会在规模化阶段迅速失稳;没有能力线的治理线,又会失去核心用户价值。真正的竞争力,来自两条线的同时跑通。

    六、OpenClaw之后,Agent智体产品的四大确定趋势

    OpenClaw的出现,其实是Agent时代的一个信号弹。接下来的2-3年,Agent产品会呈现四个明确的发展趋势:

    趋势1:从“万能助手”走向“多角色智体”

    未来不会是一个Agent包揽所有任务,而是多个专用智体分工协作:私人助理、团队协作助理、客服助理、运营助理、研发助理……每个智体拥有不同的权限、目标与审计边界,精准匹配不同场景的需求。

    趋势2:从“能做”走向“稳定做”

    产品的核心指标会从DAU(日活跃用户)转向任务成功率、失败可恢复率、错误成本、回滚效率——企业愿意买单的,从来不是惊艳的Demo,而是稳定的交付能力。

    趋势3:从“插件市场”走向“可信能力市场”

    技能生态的核心不再是“数量多”,而是“可信度”:发布者身份认证、权限透明声明、执行环境隔离、风控评级、事故可追溯——只有建立可信的生态,用户才敢放心使用第三方技能。

    趋势4:从个人自动化走向组织级Agent基础设施

    当权限、审计、策略、成本治理体系成熟后,Agent才会大规模进入企业流程。届时,OpenClaw这类产品就不再是“AI应用”,而是新一代的企业软件中间层,成为连接人与系统、系统与系统的核心枢纽。

    七、给AI创业团队的三点建议

    1. 先做“可控放权”,再做“全面自动化”
      用户不会一次性交出全部权限,产品设计要支持“只读→半自动→全自动”的渐进式放权路径,让用户在安全感中逐步建立信任。
    2. 把安全策略产品化,而非只做工程化
      普通用户看不懂技术术语,但能理解“财务助手仅拥有只读权限、客服助手可自动回复、运维助手操作需人工审批”这类具象化的规则——安全必须是可感知、可理解、可配置的产品功能,而非隐藏在后台的技术模块。
    3. 把“失败体验”当作核心体验
      Agent一定会犯错,关键是犯错后能否快速发现、快速回滚、快速止损。谁能把“失败后的补救流程”设计好,谁就更接近真正的生产力工具。

    总结:OpenClaw的真正价值

    如果说过去两年是AI的“会说”时代,那么从OpenClaw开始,我们正式进入了AI的“会做”时代。

    OpenClaw的意义,从来不是某个单一功能的创新,而是它提前把Agent时代的全局命题摆到了行业面前:能力如何持续增长?边界如何清晰界定?生态如何建立信任?商业化如何形成闭环?

    接下来的2-3年,能真正跑出来的Agent产品,未必是最会讲故事的,而是那些能在“真实权限”与“真实风险”的约束下,稳定完成任务的产品——毕竟,用户最终为的,从来不是“AI能做什么”,而是“AI能把我的事做成什么”。

    资料来源:

    • OpenClaw 官方博客:Introducing OpenClaw
    • OpenClaw GitHub:openclaw/openclaw
    • OpenClaw 官方文档:Architecture/Security/Agent Runtime
  • The Copilot Usage Report 2025

    So as 2025 wraps up, we’ve gone headfirst into a mountain of de-identified data, searching for the quirks, surprises, and secret patterns that shape everyday life with Copilot. We’re finding out just how far it fits into people’s daily rhythms, and how human its uses have become: we often turn to AI for the things that matter most like our health. We analyzed a sample of 37.5 million conversations to find out how people actually use it out in the world.
    (Note: our system doesn’t just de-identify conversations; it only extracts the summary of the conversation, from which we learn the topic and the intent, and maintains full privacy.)

    From health tips that never sleep, to the differences between weekday and weekend usage, to February’s annual “how do I survive Valentine’s Day?” spike, our findings show that Copilot is way more than a tool: it’s a vital companion for life’s big and small moments. And if you’ve ever pondered philosophy at 2 a.m. or needed advice on everything from wellness to winning at life, you’re in good company. So has everybody else.

    Our work shows that AI is all about people, a trusted advisor slotting effortlessly into your life and your day. It’s about your health, your work, your play, and your relationships. It meets you where you are.
    Read all about it in our paper, but here are some of our takeaways.

    Health Is Always on Our Minds—Especially on Mobile

    No matter the day, month, or time, health-related topics dominate how people use Copilot on their mobile devices. Whether it’s tracking wellness, searching for health tips, or managing daily routines, our users consistently turn to Copilot for support in living healthier lives. This trend held steady throughout the year, showing just how central health is to our everyday digital habits. When it comes to mobile, with its intimacy and immediacy, nothing tops our health.

    Most common Topic-Intent pairing conversations, on mobile.

    Health is consistently the most common topic while interestingly, language-related chats peak earlier in the year, with entertainment seeing a steady rise.

    When Programming and Gaming Cross Paths

    August brought a unique twist: programming and gaming topics started to overlap in unexpected ways. Our data showed that users were just as likely to dive into coding projects as they were to explore games—but on the different days of the week! This crossover hints at a vibrant, creative community that loves to code during the week and play during the weekends in equal measure.

    August topic ranks for programming and games.

    There is a clear change in rank between programming and games through the days of the week, with programming rising from Monday to Friday, and Games shining on the weekends.

    February’s Big Moment

    February stood out for another reason: Copilot helped users navigate a significant date in their calendar year. Whether it was in preparing for Valentine’s day, or facing the day and the relationships, we saw a spike in activity as people turned to Copilot for guidance, reminders, and support. It’s a great reminder of how digital tools can make life’s important moments a little easier to manage.

    Ranking of “Personal Growth and Wellness” and “Relationship” conversations
    February brings concerns of personal growth before Valentine’s day, with a clear peak of relationship-related conversations on the day.

    Late-night Sessions

    The larger-than-life questions seem to have a rise during the early hours of the morning, with “Religion and Philosophy” rising through the ranks. Comparatively, travel conversations happen most often during the commuting hours.

    Average rank of Travel and Religion and Philosophy conversations per hour of the day. Whilst people have more travel-related conversations during the day, it’s in the early hours of the morning that we see a rise of Religion and Philosophy conversations.
    虽然人们在白天有更多与旅行相关的对话,但正是在凌晨时分,我们看到宗教与哲学对话有所增加。

    Advice on the Rise

    While searching for information remains Copilot’s most popular feature, we’ve seen a clear rise in people seeking advice—especially on personal topics. Whether it’s navigating relationships, making life decisions, or just needing a bit of guidance, more users are turning to Copilot for thoughtful support, not just quick answers. This growing trend highlights how digital tools are becoming trusted companions for life’s everyday questions.

    Why These Insights Matter

    By analyzing high level topics and intents, we manage to learn all these insights while keeping maximum user data privacy. Understanding these patterns helps us make Copilot even better. By seeing what matters most to our users—health, creativity, and support during key moments—we can design features that truly fit into their life. It’s also clear from these uses that what Copilot says matters. They show why it’s so important that we hold ourselves to a high bar for quality.

  • OpenAI Updates for Voice Developers

    OpenAI Updates for Voice Developers

    New audio model snapshots and broader access to Custom Voices for production voice apps.

    AI audio capabilities unlock an exciting new frontier of user experiences. Earlier this year we released several new audio models, including gpt-realtime, along with new API features to enable developers to build these experiences.

    Last week, we released new audio model snapshots designed to address some of the common challenges in building reliable audio agents by improving reliability and quality across production voice workflows–from transcription and text-to-speech to real-time, natively speech-to-speech agents.

    These updates include:

    The new snapshots share a few common improvements:

    With audio input:

    • Lower word-error rates for real-world and noisy audio
    • Fewer hallucinations during silence or with background noise

    With audio output:

    • More natural and stable voice output, including when using Custom Voices

    Pricing remains the same as previous model snapshots, so we recommend switching to these new snapshots to benefit from improved performance for the same price.

    If you’re building voice agents, customer support systems, or branded voice experiences, these updates will help you make production deployments more reliable. Below, we’ll break down what’s new and how these improvements show up in real-world voice workflows.

    Speech-to-speech

    We’re deploying new Realtime mini and Audio mini models that have been optimized for better tool calling and instruction following. These models reduce the intelligence gap between the mini and full-size models, enabling some applications to optimize cost by moving to the mini model.

    gpt-realtime-mini-2025-12-15

    gpt-realtime-mini model is meant to be used with the Realtime API, our API for low-latency, native multi-modal interactions. It supports features like streaming audio in and out, handling interruptions (with optional voice activity detection), and function calling in the background while the model keeps talking.

    The new Realtime mini snapshot is better suited for real-time agents, with clear gains in instruction following and tool calling. On our internal speech-to-speech evaluations, we’ve seen an improvement of 18.6 percentage points in instruction-following accuracy and 12.9 percentage points in tool-calling accuracy compared to the previous snapshot, as well as an improvement on the Big Bench Audio benchmark.

    Together, these gains lead to more reliable multi-step interactions and more consistent function execution in live, low-latency settings.

    For scenarios where agent accuracy is worth a higher cost, gpt-realtime remains our best performing model. But when cost and latency matter most, gpt-realtime-mini is a great option, performing well on real-world scenarios.

    For example, Genspark stress-tested it on bilingual translation and intelligent intent routing, and in addition to the improved voice quality, they found the latency to be near-instant, while keeping the intent recognition spot-on throughout rapid exchanges.

    gpt-audio-mini-2025-12-15

    The gpt-audio-mini model can be used with the Chat Completions API for speech-to-speech use cases where real-time interaction isn’t a requirement.

    Both new snapshots also feature an upgraded decoder for more natural sounding voices, and better maintain voice consistency when used with Custom Voices.

    Text-to-speech

    Our latest text-to-speech model, gpt-4o-mini-tts-2025-12-15, delivers a significant jump in accuracy, with substantially lower word error rates across standard speech benchmarks compared to the previous generation. On Common Voice and FLEURS, we see roughly 35% lower WER, with consistent gains on Multilingual LibriSpeech as well.

    Together, these results reflect improved pronunciation accuracy and robustness across a wide range of languages.

    Similar to the new gpt-realtime-mini snapshot, this model sounds much more natural and performs better with Custom Voices.

    Speech-to-text

    The latest transcription model, gpt-4o-mini-transcribe-2025-12-15, shows strong gains in both accuracy and reliability. On standard ASR benchmarks like Common Voice and FLEURS (without language hints), it delivers lower word error rates than prior models. We’ve optimized this model for behavior on real-world conversational settings, such as short user utterances and noisy backgrounds. In an internal hallucination-with-noise evaluation, where we played clips of real-world background noise and audio with varying speaking intervals (including silence), the model produced ~90% fewer hallucinations compared to Whisper v2 and ~70% fewer compared to previous GPT-4o-transcribe models.

    This model snapshot is particularly strong in Chinese (Mandarin), Hindi, Bengali, Japanese, Indonesian, and Italian.

    Custom Voices

    Custom Voices enable organizations to connect with customers in their unique brand voice. Whether you’re building a customer support agent or a brand avatar, OpenAI’s custom voice technology makes it easy to create distinct, realistic voices.

    Theese new speech-to-speech and text-to-speech models unlock improvements for custom voices such as more natural tones, increased faithfulness to the original sample, and improved accuracy across dialects. 

    To ensure safe use of this technology, Custom Voices are limited to eligible customers. Contact your account director or reach out to our sales team to learn more.

    From prototype to production

    Voice apps tend to fail in the same places, mainly on long conversations or with edge cases like silence, and tool-driven flows where the voice agent needs to be precise. These updates are focused on those failure modes—lower error rates, fewer hallucinations, more consistent tool use, better instruction following. And as a bonus, we’ve improved the stability of the output audio so your voice experiences can sound more natural.

    If you’re shipping voice experiences today, we recommend moving to the new 2025-12-15 snapshots and re-running your key production test cases. Early testers have confirmed noticeable improvements without changing their instructions and simply switching to the new snapshots, but we recommend experimenting with your own use cases and adjusting your prompts as needed.

  • Agentic AI is Coming: A New Opportunity for Enterprise Transformation!

    Guys, artificial intelligence has been constantly changing the way enterprises operate. In the past, the emphasis was on intelligent assistants, but they could only respond passively. Now, Agentic AI has arrived, and this is a major evolution 🔥!

    Traditional AI assistants can only perform isolated tasks and have limitations. However, Agentic AI can make autonomous decisions, coordinate multi - step actions, actively assess the environment, initiate actions, and coordinate cross - departmental work processes. It's really amazing 👏!

    For enterprise leaders, this brings both opportunities and responsibilities. It has great potential, but also poses significant challenges in terms of governance, trust, and design. Enterprises must be able to monitor and reverse the actions of Agentic AI.

    Enterprise work processes also need to be re - thought. We can no longer design processes step - by - step and insert automation. Instead, we need to build an intelligent ecosystem, consider which decisions should be made by humans and which by agents, and ensure correct data acquisition.

    A unified platform is extremely important at this time. Without it, agents may become disjointed. A unified approach can provide standards, achieve interoperability, reduce complexity, and enable large - scale implementation.

    Trust and accountability are also indispensable. Since agents act independently, the risks increase. Trust and accountability need to be integrated from the very beginning, with clear policies to make employees believe that it is a partner.

    Enterprises should measure the business value as early as possible and not let projects remain only at the pilot stage. Well - designed Agentic AI can bring exponential improvements and transform enterprise performance.

    The rise of Agentic AI is not about handing over power to machines, but a new stage of enterprise transformation where humans and agents fight side by side. Leaders should first conduct pilots and then expand, invest in a unified platform and policy framework, and foster a good culture.

    Hey everyone! AI agents are transforming businesses—now is the perfect time for business leaders to step up and shine 💪!

    Keywords

    #Agentic AI #Enterprise Transformation #Work Process Remodeling #Unified Platform #Trust and Accountability

  • December's Ranking List of Large Language Models

    Large Language Model Ranking in December

    Based on the official evaluation rules of OpenCompass, leading - industry large - language models are evaluated, and a ranking list is released according to the evaluation results.