分类: 博客

  • 榨干Codex!OpenAI工程师亲授Codex真正用法

    你可能把 Codex 当编程助手用,改改代码,跑跑测试。但它的能力远不止于此。

    OpenAI 的客户支持工程师 Jason(@jxnlco)告诉你,Codex 其实是一套完整的电脑工作系统,从语音输入到自动化,从浏览器操控到共享记忆,全套组合拳打下来,你不在电脑前,它照样替你干活。

    大家刚接触 Agent 常常只拿它当敲代码的工具人。帮代码库挑挑毛病,比对几组差异,跑2轮测试用例,顺手提 Pull Request 上去。

    局限在单一场景实在大材小用。

    仔细琢磨会发现,打工人在电脑屏幕前敲击的大部分动作,早已被数字化指令接管。

    只要打通权限环节,将工具箱全面下放,单一的代码助手瞬间摇身变作拥有全套执行权限的数字外包团队。

    深度组合持久线程、语音指令、自动化任务与外部记忆库,能把繁杂琐碎的电脑工作统统甩给机器去处理。

    记忆与接力

    很多人有个坏习惯,问完几句话顺手关掉对话框。下回碰见相同问题,只能硬着头皮重来。想真正压榨机器的价值,必须用持久对话流留存工作记忆。

    固定几个常用工作流作为专属工作区。

    在侧边栏设立幕僚长线程,安排专门盯发版进度的线程,留专做文档反复审查的线程,再开专门盯着外部系统报警信息的监控线程。

    全部将其钉在软件界面最显眼处。常驻工作区里装满长期的历史决策、私人编码习惯与具体的项目背景。无需人类员工一遍遍重复背景设定,机器每次被唤醒干活都能顺着上次的思路往下推进。

    背后起作用的是信息压缩技术。

    长线工作流若不加节制,很快会撑爆内存。机器在后台不断将旧对话提炼压缩,保留骨干,剔除水分。长达几个月的巨型对话流因此得以存活。

    代价是旧对话早被清出缓存,重新唤醒时需要耗费更多算力重新加载。相比起从头交代背景的麻烦,算力成本完全值回票价。

    苹果系统里按住 Command 键配合数字1到9就能秒切专属工作区,丝滑无比。

    持久的工作区也能跨设备无缝运转。

    打工人在电脑端配好了底层运行环境与读写权限,丢给机器去跑耗时的大型渲染或爬虫任务。

    人完全可以站起身离开工位去喝咖啡或者开会,掏出手机在外头随时查岗。

    在手机屏幕上发现进度跑偏,通过移动端发条语音修正方向,工位上的机器在原位立刻调整接着干。

    局部环境和权限牢牢锁定在办公桌上,人却获得了真正的自由。

    开口与控场

    文字输入总会丢失大脑里瞬间闪过的灵光。人打字时会本能地精简信息,把散乱的思维压缩成漂亮的句子。而机器找线索恰恰需要看似多余的废话。遇到自己也没完全想清楚的痛点,张嘴直接描述最管用。

    脑子里有个十分模糊的影子,打字不知从何说起,开口随性表达刚好切中要害:“本好像在 Slack 里提过需求,细节完全记不清了,你去翻翻群聊查清楚。”

    接到指令,机器自己翻阅大段聊天记录、依靠模糊匹配找出前因后果并条理清晰地向你汇报,省掉人工翻找的时间精力。

    在庞大任务尚未完全成型前,用2到3分钟的语速把脑子里纷杂的念头一股脑倒给机器。

    未经过删减打磨的开会原声录音,或者出差路上随口录下的备忘录,往往比规规矩矩的文字摘要包含更多高价值线索。

    原汁原味的录音里原封不动保留了当事人的语气重音、犹豫不决的停顿和没说完的半截话。机器能精准捕捉字里行间隐藏的信息增量。

    若机器干活中途跑偏,人必须拥有最高优先级的干预权。

    任务干预就是在机器执行当前步骤彻底完成前,强行打断动作并下发新指令。

    盯着侧边栏审查网页组件时,发现机器弄错了关键细节,直接开口喊停:“字号弄小点,两个元素间距看着别扭,文案用词全错了。”

    任务排队功能将新需求悄无声息安排到队列末尾。机器正全力以赴忙着手头的复杂运算,毫不受影响。

    人只需随口吩咐一句:“干完手头活,马上把预览链接发给二面审核人。”

    干预强行修改当前动作,排队从容安排后续计划。人始终将控制权握在手里。

    借助外部工具层,机器的物理触角直接伸向代码库以外的商业世界。

    用 $browser 指令唤起应用内置浏览器,机器就能在侧边栏直接检查并给网页做标注。

    带上 @chrome 指令,机器能携带着你的真实登录状态处理浏览器专属任务。

    碰上必须人工点击鼠标的桌面级图形界面,甩出 @computer 指令让它模拟出真实的键鼠物理操作。

    接通 MCP 服务器和各类商业连接器,机器瞬间打通 Slack、Gmail 和日历三大件。

    十分重要的商业任务往往以几句闲聊、突如其来的邮件或者日程表里的冲突事件为开端,到最后一步才演变成一堆代码。

    测试成功的工作流顺手打包封装成 Skills(技能),下次遇到同类问题直接闭眼跑,彻底省去重跑流程的时间损耗。

    目标与外包

    自动化功能让机器脱离人力驱动,按时定点接管任务。

    例行公事选用定时自动化模式,像每日生成的财务日报或者定时触发的代码库体检,每次启动都是干干净净的全新环境。

    需要连贯记忆与复杂前置条件的活儿,换上线程自动化模式,机器会像人体心跳频率一样定时唤醒,重回老对话框里带着完整的上下文接着干。

    设定幕僚长线程每30分钟悄悄跑1次:“去彻底查一遍全网所有未读信息,按轻重缓急排个优先级表格。遇到团队提问,竭尽全力把答案全网查清楚,顺手把草稿写好存着,绝对不能提前发出去。”

    人吃完午饭回到工位,耗神费力的数据收集和整理比对工作已经全部搞定,人只需做最后的拍板,点下发送键。

    线程自动化模式特别适合搞定冗长的反馈循环。机器全天候自动盯着拉取请求的评审评论、Google 文档批注或是团队群聊里的回复,趁你不在场时不知疲倦地推动工程进度。

    动画制作审批流十分典型。审核人在聊天软件里发了段视频反馈修改意见。机器定时查收新消息,拿到核心修改意见后直奔代码库重新渲染出新版高清视频,接着把新视频发回聊天群并精准艾特审核人查收。

    遇到 API 限制传不了大文件,机器自己调用桌面自动化客户端模拟点鼠标走完上传全流程。跑下来,彻底打通了聊天群、底层代码库和桌面客户端软件。

    给定明确无误的终点线,机器才有持续推进的盼头。含糊其辞的目标毫无意义:“照着目标文档把商业计划落实一下。”

    加上明确的、可被机器度量的成功标准才算数。资深工程师要把老旧的内部工具翻新成全新语言版本,建好底层目录后定个铁律:全新代码必须全部跑通基础的单元测试才算完工。

    持续不断地执行加上铁面无私的校验机制,才叫目标驱动。

    清清楚楚地给出预期结果、停机条件和衡量进度的好坏信号。

    好用的校验器遍地都是。测试套件确保旧功能不坏,性能跑分紧盯运行效率,漏洞复现脚本验证补丁是否有效,端到端工作流兜底最终的用户体验。

    有验证机制的野心叫真目标,没验证的叫白日梦。

    审查与大脑

    做好的半成品和最终成品完全不用切去其他软件看,侧边栏直接全包了。

    不单单是冷冰冰的代码,你能在对话框旁边直接肉眼检查生成的精美幻灯片、PDF 文件、动态网页或者复杂的数据表。

    看明白细节,随手圈出要改的地方,直接操控网页元素,反复审查每次改动。所有动作在一个界面内闭环,心流完全不断。

    内置浏览器极速渲染出网页,机器能根据你在页面上的随手标注立刻动手改写底层代码。

    网页既是产出物,也是最高效的控制台。从生成、展示、查错到精细化修改,人机始终紧紧盯住同一个物件。

    轻量级的单文件网页连云端服务器都省了,直接变身长久可交互的数字资产。

    用 Storybook 审查用户界面,拿 Remotion Studio 敲代码做动画,直接跑网页版幻灯片做高管演讲,搭建数据应用做全盘业务分析。

    线程自动化定时在后台刷新静态网页数据,每次点开都有热腾腾的新内容备好。

    持久对话流只在单线任务里管用,想发挥最大效能,得有一个独立于所有碎渣对话之外的全局记忆外脑。

    用 Obsidian 建个稳妥的本地记忆库是绝佳方案。建全是纯文本的扁平化文件夹,查阅、搬运十分方便。

    配合 Git 代码托管平台、Dropbox(云存储服务)或者云盘软件,实现全天候跨终端同步。

    文件夹结构如下:

      最外层顶层放 AGENTS.md 文件。立下规矩,一字一句告诉机器怎么更新人员变动、项目卡点和高层决议信息。千万别全盘照抄别家公司的目录树。得亲自手把手教机器去哪找长期记忆,哪些关键记忆该留住,什么时候坚决不能乱改文件制造数据混乱。

      实用版 AGENTS.md 范本如下:

      视 ~/vault 目录为永久工作记忆。

      宁要精简凝练的核心笔记,不要泛滥无意义的碎纸片。

      待办、人员、项目、每日小结和日常草稿,必须按规则归置妥当。

      重点保存重要决策、阻碍因素、负责人、截止日期和管用的链接。

      没实质性进展绝对不能乱动记忆库。代码库存放冷冰冰的逻辑。

      记忆库留存流动的工作背景,牵扯的活人、频繁的改动、推进卡点和后续硬性安排。别把核心细节全埋在如同废纸篓一般的聊天记录里,清清楚楚写出来让机器下次直接读。软件本身也在设置菜单深处塞了个人记忆功能,专门记工作偏好、常用流程和经常踩的坑。作为核心文字档案的有益补充,没法完全替代独立记忆库。实验性质的屏幕抓取功能 Chronicle(屏幕记录记忆功能)通过定时截屏帮机器构建近期记忆,产品思路一脉相承。机器现在能拿着十分粗糙的任务指引,踏踏实实把活干完,还能把精美的成品直接端给你查验。看偏了就半路打断干预,有新活就静默排队。离开工位去喝杯茶就设个定时任务,给明确无误的目标等它自己实现。组合用好全套工具链,榨干每一滴算力,机器自会不眠不休为打工。

      参考资料:https://x.com/jxnlco/status/2057153744630890620



    • 虾、马之后,人类登场!这个霸榜GitHub项目火了

      继龙虾(OpenClaw),爱马仕(Hermes Agent)之后,开源人类(OpenHuman)登场。

      OpenHuman 是由开发者团队 tinyhumansai 构建的一个开源桌面 AI 智能助手。

      tinyhumansai 团队自称为“专注于创建接近人工意识的 AI 算法的 AI 实验室”,其愿景远超一般的开发工具,他们试图构建具有人工潜意识的 AI 代理。这种对人工意识和持久记忆的追求,构成了 OpenHuman 的底层精神内核。

      官方定位简洁而有力:你的个人 AI 超级智能,私密、简洁、极其强大。

      该项目采用 GNU 许可证开源,基于 Tauri 桌面框架构建,TypeScript(前端)与 Rust(核心层)技术栈,旨在打造一个真正融入用户日常生活的 AI 代理应用。

      与大多数从聊天框出发的 AI 助手不同,OpenHuman 的设计哲学是:一个 AI 助手只有具备了用户的上下文信息,才能真正发挥作用。

      它不是简单地提供一个与大型语言模型对话的界面,而是一个集成了桌面 UI、第三方服务集成、持久记忆系统、智能工具集、模型路由、语音功能和可选本地 AI 支持的个人 AI 中枢。

      该项目目前处于早期测试(Early Beta)阶段,但其野心之大、功能之丰富,使其在开源社区引起了巨大反响。

      最近几日的 GitHub Trending 排行中持续霸榜,每日1600+星标。

      而 TrendShift 的数据也显示该项目获得了异常活跃的社区关注。与此同时,OpenHuman 还登上了 Product Hunt 的精选推荐,社交媒体(X/Twitter、Reddit、Instagram)广泛讨论。

      为什么会火?

      OpenHuman 的爆火,是因为它精准地击中了当前 AI 助手市场的多个核心痛点。

      AI 助手失忆问题。 当前的主流 AI 助手,无论是 ChatGPT、Claude,还是各种编码助手,都无法在对话之间保持关于用户的持久记忆。OpenHuman 通过记忆树(Memory Tree)系统解决了这个问题,让 AI 能够在数分钟内建立起对用户的全面了解。

      集成碎片化。 开发者和技术从业者日常使用大量不同的工具和服务,例如 Gmail 处理邮件、GitHub 管理代码、Slack 进行沟通、Notion 记录笔记、Jira 跟踪任务、Calendar 管理日程。现有的 AI 助手要么不支持这些集成,要么需要用户手动搬运数据。OpenHuman 提供了 118 个以上的 OAuth 一键集成,并自动以 20 分钟为周期拉取数据。

      隐私焦虑。 随着用户将越来越多的个人和工作数据交给 AI 服务,数据隐私问题日益突出。OpenHuman 采用了本地优先(Local-First)策略,所有记忆数据存储在用户本机的 SQLite 数据库中,而非云端服务器。数据经过本地加密处理,始终归用户所有。

      成本与效率。 大型语言模型的 API 调用费用高昂,而大量 token 被浪费在冗余信息上。OpenHuman 引入了 TokenJuice 智能压缩技术,在数据触达 LLM 之前进行预处理(HTML 转为 Markdown、长 URL 缩短、非 ASCII 字符移除),最多可降低 80% 的 token 消耗和成本。

      上手门槛高。 大多数 AI 代理框架(如 LangChain、AutoGen)都需要大量的配置、编程知识或命令行操作。OpenHuman 采用了零配置理念,提供清爽的桌面 UI,用户从安装到拥有可用智能体仅需几次点击。

      TechTimes 报道中使用了反转剧本(Inverting the Playbook)这一措辞来描述 OpenHuman:在用户输入第一个提示之前就已经了解用户。

      核心技术深度解析

      记忆树是该项目与其他所有 AI 助手最根本的区别。

      记忆树的工作原理如下:用户连接的各个数据源(邮件、日历、代码仓库、文档、消息等)中的所有内容,都会被规范化为不超过 3000 token 的 Markdown 片段。这些片段经过质量评分后,被折叠成层级化的摘要树结构。最终的数据存储在用户本机的 SQLite 数据库中,形成一个完全属于用户的知识库。

      这种设计的灵感直接来源于 AI 领域著名研究者 Andrej Karpathy 的 LLM 知识库工作流。

      Karpathy 曾在社交媒体上分享了他使用 Obsidian 构建 LLM 个人知识库的方法,而 OpenHuman 将这一理念产品化,并将其自动化。

      与记忆树配合的是 Obsidian Wiki 集成。相同的 Markdown 片段会以 .md 文件的形式输出到兼容 Obsidian 的仓库中。这意味着用户可以使用 Obsidian(最受欢迎的个人知识管理工具之一)直接浏览、搜索和编辑 AI 的记忆库。

      这种设计赋予了用户对 AI 知识的完全透明度和控制权,同时也意味着用户可以在不依赖 OpenHuman UI 的情况下管理和审查 AI 的记忆内容。

      此外,OpenHuman 还提供了可选的 agentmemory 后端支持,允许用户将记忆存储与 Claude Code、Cursor、Codex、OpenCode 等编码助手共享,实现跨工具的统一记忆。

      记忆树需要数据喂养,而自动拉取机制确保了数据的新鲜度。OpenHuman 的核心服务每 20 分钟遍历所有活跃的连接,将新数据拉入记忆树中。这意味着用户无需编写轮询循环,无需设计同步策略,AI 在每天早上就已经拥有了当天的上下文。

      这一机制将 AI 助手从被动响应模式转变为主动感知模式。

      传统的 AI 助手像是被关在房间里的顾问,只有你推门进去提问时它才能工作;而 OpenHuman 的 AI 更像是一个始终在你的工作环境中观察、学习的助手,即使你停止输入,它仍然在后台持续思考和整合信息。

      OpenHuman 目前支持 118 个以上的第三方服务集成,覆盖了用户日常工作的方方面面:

      • 通信工具:Gmail、Slack

      • 项目管理:Linear、Jira

      • 知识管理:Notion、Google Drive

      • 开发工具:GitHub

      • 日程管理:Google Calendar

      • 支付服务:Stripe

      • 消息渠道:支持通过用户日常使用的渠道进行收发

      所有集成均通过一键 OAuth 授权完成,每个连接以类型化工具的形式暴露给智能体。这意味着 AI 不仅知道这些服务中有哪些数据,还能理解数据的结构化含义,并据此执行精确的操作。

      TokenJuice 是 OpenHuman 在效率和成本控制方面的重要创新。在每一个工具调用、网页抓取结果、邮件正文和搜索载荷触达 LLM 之前,都会经过这一压缩层:

      • HTML 内容被转换为精简的 Markdown 格式

      • 冗长的 URL 被智能缩短

      • 非 ASCII 字符被移除

      • 冗余格式信息被剥离

      TokenJuice 最多可降低 80% 的 token 消耗。

      OpenHuman 的模型路由功能是其成本效益的另一个关键维度。不同于将所有任务发送给同一个模型的简单模式,OpenHuman 在一个订阅下将不同类型的任务智能分派到最合适的 LLM:

      • 推理型模型:处理复杂的逻辑推理和分析任务

      • 快速型模型:处理简单的对话和快速响应

      • 视觉型模型:处理图像理解和多模态任务

      这种任务级别的模型路由策略,既保证了任务处理的质量,又避免了将昂贵的高性能模型用于简单任务的资源浪费。

      OpenHuman 的 UI 设计也颇具特色。它配备了一个桌面吉祥物,一个会说话、能感知周围环境的虚拟形象。

      这个吉祥物可以作为真实参与者加入用户的 Google Meet 会议。结合原生语音功能(STT 输入、ElevenLabs TTS 输出、口型同步),OpenHuman 正在模糊 AI 助手与数字伴侣之间的界限。

      对于对隐私有更高要求的用户,OpenHuman 支持通过 Ollama 使用本地 AI 模型处理端侧工作负载。敏感任务可以在不发送数据到云端的情况下完成,进一步强化了项目的本地优先理念。

      与其他框架对比:

      分钟级建立上下文,是 OpenHuman 最革命性的优势。

      传统的 AI 助手或代理框架,都需要一个漫长的训练期。无论是通过反复对话提供背景信息,还是通过插件逐步注入上下文,用户都需要花费数天甚至数周的时间,AI 才能对用户的技术栈和工作流有足够的了解。

      OpenHuman 通过一键连接账户 + 自动拉取 + 记忆树的组合,将这一过程缩短到几分钟。首次同步完成后,AI 就拥有了用户收件箱、日历、仓库、文档、消息的完整(压缩后的)上下文。

      在数据隐私日益受到重视的今天,OpenHuman 的本地优先策略是一个强有力的差异化因素。所有工作流数据保留在用户设备上,经过本地加密,始终属于用户。用户不依赖任何第三方云服务来存储个人记忆,也不必担心数据被用于训练模型或被未授权方访问。

      同时,Obsidian Wiki 的导出格式确保了数据的可移植性,即使不使用 OpenHuman,用户仍然可以访问和利用已经构建的知识库。

      当前 AI 代理市场的一个显著问题是供应商碎片化。用户需要为不同的 AI 工具分别管理 API 密钥、订阅和配置。

      OpenHuman 通过单一订阅 + 内置模型路由的策略,让用户不再需要为选择哪个模型而烦恼。系统会根据任务类型自动选择最合适的模型,在质量、速度和成本之间取得最优平衡。

      OpenHuman 的爆火不是偶然的。它代表了一种日益强烈的需求:人们需要的不是一个能对话的工具,而是一个真正了解自己、能持续学习、能跨越工具边界行动的个人 AI 伙伴。

      在一个 AI 助手市场被对话式思维主导的时代,OpenHuman 通过记忆树、自动拉取和 Obsidian Wiki 的组合,开辟了一条上下文优先的新路径。

      它反转了传统的剧本——不再是用户不断教导 AI,而是 AI 主动学习用户。

      参考资料:

      https://github.com/tinyhumansai/openhuman



    • Hermes Agent 深度介绍与 OpenClaw 对比分析

      Hermes Agent 是 Nous Research 于 2026 年 2 月底开源的自我进化型 AI 智能体框架,截至 5 月初在 GitHub 上已突破 10 万星标,成为 2026 年增长最快的开源项目之一。这个基于 Python 的轻量级框架最大的特点是”越用越聪明”——它能从每次任务中自动学习,自己创建和改进技能,构建长期记忆。

      核心定位差异

      Hermes Agent 和 OpenClaw 虽然都是 AI Agent 框架,但在设计理念上有本质区别。Hermes Agent 是一个单核心智能体,像一个专注的”自动化员工”,通过持续学习来提升自己的能力;而 OpenClaw 则是一个全平台控制中枢,更像是管理多个 AI 资源和能力的”调度中心”,强调多智能体编排和生态整合。

      从技术栈来看,Hermes Agent 采用 Python 编写,代码结构清晰,核心逻辑围绕run_agent.py展开,新手容易上手;OpenClaw 则使用 TypeScript,采用 Gateway + 编排架构,系统更复杂但扩展能力更强。

      Hermes Agent 的核心能力

      自我进化机制

      Hermes Agent 最具颠覆性的功能是闭环学习系统(Closed Learning Loop)。当你完成一个复杂任务后,Agent 会自动将解决方案封装成可复用的 Skill;如果任务执行出错,它会自动生成 Patch 修复;当用户纠正它的行为时,它会自动更新工作流。官方将这些 Skills 定义为”程序性记忆”(Procedural Memory),意味着今天教过的事情,明天就不需要再重复。

      分层记忆系统

      Hermes Agent 提供五层记忆架构:

      1. 上下文窗口:记录当前对话的实时内容
      2. 提示词记忆:存储核心指令和偏好
      3. 过程记忆:即自动生成的 Skills
      4. 会话搜索:基于 FTS5 全文索引的历史对话检索
      5. 用户建模:通过 Honcho 框架构建用户偏好模型

      这种设计使得 Agent 能够跨会话保持连续性,真正实现”越用越懂你”的效果。

      多平台接入能力

      Hermes Agent 支持 14+ 平台的统一接入,包括命令行 CLI、Telegram、Discord、Slack、WhatsApp、Signal、Email、Home Assistant 等。只需启动一次hermes gateway命令,就能在所有平台上同时提供服务,这对于个人助手和团队协作场景非常实用。

      模型与工具生态

      框架原生支持 118 个内置工具,覆盖代码开发(GitHub、Shell、Docker)、Web 检索、图像生成、文本转语音、MLOps 等场景。更重要的是,它完整支持 Model Context Protocol (MCP),可以接入社区上任何 MCP Server,实现工具能力的无限扩展。

      在模型支持方面,Hermes Agent 不绑定任何厂商,支持 OpenAI、Anthropic Claude、Google Gemini、OpenRouter(200+ 模型)、GLM、Kimi、MiniMax 以及任何 OpenAI 兼容的自定义端点。切换模型只需一条hermes model命令,完全无需修改代码。

      OpenClaw 的独特优势

      尽管 Hermes Agent 来势汹汹,OpenClaw 凭借其 35.5 万+ GitHub 星标和成熟的企业级架构,在某些场景下仍然具有不可替代的优势。

      企业级架构

      OpenClaw 采用”网关-节点-渠道”三层解耦架构,原生支持多账号、多通道、多智能体路由。它提供完整的 Web 控制台、防火墙、调度系统和权限体系,适合需要 7×24 小时稳定运行的生产环境。

      成熟的插件生态

      OpenClaw 拥有 ClawHub 技能市场,支持多目录优先级、一键安装、安全白名单等企业级特性。截至 2026 年初,OpenClaw 内置技能数已超过 100 个,社区生态极为庞大,这是 Hermes Agent 短期内难以追赶的优势。

      丰富的内置功能

      OpenClaw 内置了浏览器控制、语音交互(唤醒词 + 对话)、可视化工作区(Canvas)、定时任务、节点管理和移动端原生应用。这些功能在 Hermes Agent 中需要通过扩展实现,而在 OpenClaw 中是开箱即用的。截至 5 月初,OpenClaw 保持着约每两天一次的版本更新频率,最新版本为 v2026.4.29。

      技术对比细节

      Skills 技能系统

      这是两者最大的差异点。Hermes Agent 支持 Agent 自己创建、修改、打补丁和删除技能,将技能视为可进化的”程序性记忆”;OpenClaw 则强调技能的平台化管理,通过 ClawHub 实现技能的分发、安装和版本控制。前者更适合个人深度定制,后者更适合团队协作和知识共享。

      记忆与检索

      Hermes Agent 采用MEMORY.md+ FTS5 全文索引 + 用户档案的内生化记忆设计,提示词更稳定;OpenClaw 则提供向量搜索 + 关键词混合检索,支持多智能体记忆共享/隔离,并通过 Markdown + SQLite 索引实现系统化管理。

      安全性对比

      在安全性方面,两者呈现明显差异。Hermes Agent 截至 5 月初尚无公开的 CVE 安全漏洞记录;而 OpenClaw 在 2026 年 3 月曾在 4 天内集中披露 9 个 CVE,最高 CVSS 评分达 9.9(极危险级别),涉及第三方技能数据泄露等问题。OpenClaw 目前已有超过 13.5 万个公开暴露的实例分布在 82 个国家,社区恶意技能拦截率约为 17%。

      Token 消耗

      Claude Code 与 OpenClaw 的对比研究显示,OpenClaw 因多模型适配和结构化参数导致 Token 消耗较高。Hermes Agent 采用轻量级设计,Token 消耗相对较低,对于个人长期使用场景更经济。

      部署灵活性

      Hermes Agent 支持 6 种终端执行后端:Local(本地)、Docker(容器隔离)、SSH(远程执行)、Daytona(云端可休眠环境)、Singularity(HPC/GPU 集群)和 Modal(Serverless)。这种设计使得它既能跑在 5 美元/月的 VPS 上,也能部署在企业 GPU 集群里。

      OpenClaw 则以本地和云端部署为主,阿里云和腾讯云都提供一键部署方案,适合需要稳定托管的团队用户。

      增长数据对比

      Hermes Agent 增长轨迹

      Hermes Agent 的增长速度令人瞩目:

      2 月 25 日:正式开源发布

      3 月 11 日:突破 2.2 万星标,242 位贡献者

      4 月 8 日:发布 v0.8.0 版本,单日新增 6400 星

      4 月 11 日:达到 5.72 万星标,274 位贡献者,生态系统项目 80+

      4 月 17 日:突破 9.7 万星标

      5 月 2 日:超过 10 万星标,成为 GitHub 历史上前 0.0014% 的顶级项目

      整个生态系统的总星标数已达 9 万+,社区开发了 80+ 个生态项目,包括 4 个社区 GUI(支持桌面端、Web 端和 PWA)。

      OpenClaw 数据现状

      OpenClaw 截至 5 月初的数据显示:

      GitHub 星标:35.5 万+(5 个月内增长)

      npm 依赖包:88+ 个直接依赖 OpenClaw

      版本发布频率:约每两天一次

      最新版本:v2026.4.29(2026 年 4 月 30 日发布)

      虽然 OpenClaw 的绝对星标数远超 Hermes Agent,但 Hermes Agent 在 10 周内达到 10 万星的速度创下了开源项目历史纪录。

      适用场景选择

      选择 Hermes Agent 的情况

      个人长期 AI 助手:希望 Agent 能记住你的习惯和偏好,越用越顺手

      轻量级部署:预算有限(5 美元 VPS),不需要复杂的多智能体编排

      模型自由切换:需要频繁尝试不同模型,不希望被单一厂商锁定

      编码与自动化:在 OpenRouter 生产力榜单上,Hermes 在编码场景表现优异

      智能家居集成:原生支持 Home Assistant,适合家庭自动化场景

      安全优先:目前无已知 CVE 漏洞

      选择 OpenClaw 的情况

      企业级生产环境:需要多账号、多通道、故障转移和模型热切换

      团队协作:多人共用、需要权限管理和会话持久化

      成熟插件需求:依赖现有的庞大插件生态快速构建能力

      自媒体与运营:群控、多平台自动化运营、定时任务

      可视化管理:需要 Web 控制台、Canvas 等图形化界面

      科研自动化:在学术搜索、LaTeX 编译等科研工具市场有成熟应用

      快速上手

      Hermes Agent 的安装非常简单,只需一行命令:

      curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

      安装完成后,运行配置向导:

      hermes setup

      配置模型和平台hermes# 启动交互式 CLI


      对于需要接入多个主流模型的开发者,可以在 setup 时选择”Custom OpenAI-compatible endpoint”,填入兼容的 API 端点,实现一次配置即可调用 GPT-5、Claude Opus 4.6、Gemini 3 Pro 等所有主流模型。

      社区趋势

      截至 2026 年 5 月初,Hermes Agent 发布仅 10 周就突破 10 万 GitHub 星标,创下开源项目历史增速纪录。OpenClaw 虽然以 35.5 万星标保持总量优势,但在安全性和更新频率上面临挑战。社区普遍认为 2026 年将是 Hermes Agent 与 OpenClaw “双雄争霸”的格局。

      一句话总结:如果你想要一个会自己变强、安全性更高的智能助手,选 Hermes;如果你需要多账号、多通道的成熟企业级调度平台,选 OpenClaw。

    • 一篇看懂海外 5 家顶尖 AI 公司都在做什么

      最近看了很多 AI 产品和行业动态,会发现现在海外 AI 圈里,真正值得重点关注的,基本绕不开这 6 家公司:OpenAI、Google、Meta、xAI、Microsoft、Anthropic。

      下面说说个人看法。

      OpenAI 大家最熟,ChatGPT 几乎已经成了很多人接触 AI 的第一入口。它厉害的地方,在于把通用 AI 助手这件事,真正带进了普通人的日常工作和生活里。

      Google 的优势是技术积累深、产品线也很完整。Gemini、NotebookLM、Veo、NanoBanana 放在一起看,会发现它想做的远不只是聊天助手,更像是在搭一整套 AI 生态。

      Meta 这家公司很有代表性,一边做 Meta AI,一边持续推进 Llama 这样的开放模型。很多开发者会一直盯着它,看中的就是它对开源 AI 生态的影响力。

      xAI 这两年热度很高,核心产品是 Grok。整体风格会更偏实时、话题感强、讨论度高,所以它每次有新动作都很容易引发关注。

      Microsoft 的思路很清晰,就是把 AI 真正塞进办公和企业流程里。Copilot 这条线如果持续跑起来,影响的会是大量真实工作场景,这一点其实很关键。

      Anthropic 也很值得看。它的代表产品是 Claude,很多人会把它当成日常写作、分析和长文本处理的重要工具。我的感受是,Anthropic 在模型能力、产品体验和企业使用场景这几个方向上,都做得很稳。就是对中国太不友好了。

      那么,你最看好哪一家 AI 公司?

    • Agent 记忆系统的设计哲学——从对话上下文到长期记忆的演进

      最近在设计一个对话 Agent 的记忆模块时,我反复思考一个问题:为什么人类的记忆是分层的,而我们的 Agent 却常常把一切都塞进上下文窗口?

      从”全量记忆”的困境说起

      早期的对话系统倾向于把所有历史对话都塞进 context window。这种方法简单直接,但很快会遇到瓶颈:

      1. Token 成本爆炸 – 多轮对话后,每次调用都在为历史包袱付费
      2. 注意力稀释 – 关键信息被淹没在海量上下文里,模型反而抓不住重点
      3. 无法遗忘 – 人类会遗忘无关细节,但系统却固执地记住每一句废话

      分层记忆模型

      人类记忆分为工作记忆(短期)和长期记忆。这个设计非常精妙:

      • 工作记忆:保持对当前任务最关键的信息,容量有限但访问极快
      • 长期记忆:存储抽象化、结构化的知识,需要时通过线索检索

      我尝试将这种架构引入 Agent 系统:

      ┌─────────────────┐     ┌──────────────────┐
      │   工作记忆层      │────▶│   长期记忆层      │
      │  (Context)      │     │  (Vector Store)  │
      │ - 最近 N 轮对话  │      │ - 用户画像        │
      │ - 当前任务状态    │     │ - 重要事实        │
      │ - 临时变量       │     │ - 经验总结        │
      └─────────────────┘     └──────────────────┘
              │                       │
              └───────────┬───────────┘
                          ▼
                 ┌────────────────┐
                 │  记忆管理器     │
                 │ - 重要性评分    │
                 │ - 抽象化压缩    │
                 │ - 检索触发器    │
                 └────────────────┘

      关键设计决策

      1. 记忆压缩策略

      不是所有对话都值得记住。我采用了一个简单的评分公式:

      score = (relevance * 0.4 + recency * 0.3 + emotional_weight * 0.3)

      超过阈值的片段会被抽象成结构化数据存入长期记忆,原始对话则被丢弃。

      2. 检索触发器

      长期记忆不是被动查询的,而是主动触发的。当用户提到某个关键词时,相关的记忆片段会”浮现”到工作记忆中。这有点像人类的联想记忆。

      3. 允许遗忘

      最反直觉的设计是:主动删除。每隔一段时间,系统会清理低分记忆。这不仅是成本控制,更是为了让 Agent 保持”专注”。

      一点感悟

      设计记忆系统的过程,让我重新思考”智能”的本质。也许真正的智能不在于记住多少,而在于知道该记住什么、遗忘什么

      我们的 Agent 系统是否也在追求错误的方向?我们拼命扩大 context window,却忽略了人类大脑用几百万年进化出的分层记忆机制。

    • 企业AI转型架构师:AI时代稀缺的黄金职业,打破年龄与职场壁垒

      在快速迭代的AI浪潮中,一个全新的黄金职业正在悄然崛起——企业AI转型架构师,也常被称作企业AI转型顾问。

      这个岗位十分特殊,三年前,它几乎无人知晓、无岗可寻,属于完全空白的新兴职业;而如今,它已然成为AI时代最炙手可热、供需缺口最大的稀缺岗位。

      更难得的是,它打破了互联网行业普遍的年龄焦虑与职场内卷壁垒。不同于程序员、运营等吃青春饭的岗位,企业AI转型架构师极度看重行业深耕经验、复杂问题解决能力、商业落地思维。只要你是垂直领域的资深专家,能够精准破解企业转型难题,就会被各大企业求贤若渴,是当下少有的越资深、越值钱的长青职业。

      01 企业AI转型大势所趋,七成企业陷入落地困境

      企业AI转型架构师的爆火与巨大人才缺口,从来不是偶然,而是时代变革下的必然结果。

      当下的商业赛道,AI不再是可选的加分项,而是企业生存的必备底座。行业共识已然明确:未来企业只有两种结局,要么完成AI深度转型,成为AI Native智能化企业,要么被时代淘汰,没有第三条退路。

      如今,AI正在全面渗透企业战略、组织架构、业务模式、流程管理、产品服务等所有商业环节,重构整个商业逻辑。放眼全球科技巨头,转型信号早已清晰落地:Meta创始人扎克伯格全力打造专属CEO智能体,依托AI重构公司组织架构与决策体系;亚马逊、谷歌等顶尖企业一边优化内部人员结构、淘汰传统低效岗位,一边重金全网抢夺AI落地型人才。

      巨头的布局,预示着全行业的趋势。AI转型早已不是科技大厂的专属玩法,而是所有大中小企业的生存必修课,与每一个职场人、从业者的发展息息相关。

      但残酷的现实摆在眼前:绝大多数企业的AI转型,都在悄然失败、无效内耗。

      麦肯锡权威调研数据显示,超70%的企业AI项目无法达到预期商业目标,大量企业投入资金、人力、时间布局AI,最终只落地了表层的工具试用,无法实现降本增效、价值增值。

      究其根本,转型失败的核心问题从来不是技术落后。当下大模型技术成熟、开源工具丰富、智能生态完善,技术门槛早已大幅降低。真正的卡点集中在三大核心痛点:

      第一,缺乏系统化转型方法论,企业管理层有转型意愿,但不知道从何处切入、如何分步推进、如何规避风险;

      第二,缺乏复合型衔接人才,技术团队专注技术研发、不懂业务痛点,业务团队深耕一线、不懂AI能力边界,双方各说各话,无法同频协作;

      第三,缺乏专业的转型统筹者,没有人能够将企业高层的战略意图,拆解为可落地、可执行、可复盘的具体行动路径。

      归根结底,AI转型最难的从来不是技术,而是人的匹配、体系的搭建、落地的逻辑。而企业AI转型架构师,正是破解所有转型难题的核心关键。

      02 复合型稀缺人才,市场供需严重失衡

      到底什么是企业AI转型架构师?

      简单来说,它是链接AI技术、商业业务、组织变革的核心枢纽,是集技术洞察力、商业敏感度、组织变革能力于一身的高端复合型人才,既是企业AI转型的“总设计师”,也是落地推进的“总负责人”。

      这个岗位的核心优势在于,无需深耕底层算法、无需精通代码开发,彻底区别于传统技术岗,核心能力体现在“落地、适配、增效”三大维度:

      技术层面:懂边界、会选择。无需成为顶尖算法工程师,但必须清晰掌握大模型、AI工具的能力边界与适用场景,能够精准判断企业各类业务是否适合AI改造,筛选成本最低、效率最高、适配性最强的技术路径,规避技术滥用、资源浪费的问题。

      业务层面:懂痛点、会赋能。能够深入企业一线业务,精准挖掘销售、运营、生产、管理等全流程的低效痛点与增效空间,将AI技术与行业场景深度绑定,拒绝空泛的技术堆砌,真正为企业创造降本、增效、增收的实际价值。

      变革层面:懂统筹、会落地。具备优秀的沟通协调与资源整合能力,既能对接企业高层,精准承接战略、争取转型资源,也能协调各部门利益、打通跨部门协作壁垒,推动企业组织流程、人才结构、管理制度适配AI转型,保障转型平稳落地、长效运行。

      同时具备这三种核心能力的人才,在当下市场凤毛麟角。

      目前国内拥有4000多万家中小企业,绝大多数企业都有强烈的AI转型需求,但需要的不是复杂的定制化开发,而是轻量化、低成本、可落地、高回报的转型方案。海量的市场需求,叠加极度稀缺的复合型人才,形成了供需严重失衡的市场格局。

      这也让企业AI转型架构师,成为未来5年最具价值的稀缺技能,更是普通人借力AI时代、实现职业跃迁、财富增值的核心金钥匙。

      03 2026机会窗口全开,普通人也能入局突围

      很多人都会疑惑:听起来高端的企业AI转型架构师,门槛是不是极高?普通人有没有入局机会?

      答案很明确:前两年门槛居高不下,但2026年,普通人的机会窗口已经完全打开。

      早期AI转型需要依托专业技术团队、高额研发成本,普通人难以涉足。但如今大模型生态全面成熟,开源AI工具丰富、闭源工具成本低廉,技术基建已经完善。转型架构师彻底告别“精通技术”的硬性要求,核心工作从“研发技术”转变为应用技术、匹配场景、落地方案。

      同时,经过数年的行业实践,企业AI转型已经形成标准化、系统化的方法论、落地模板与实战案例。普通人只要掌握成熟的工具、体系化的方法,借鉴行业成功经验、规避转型常见陷阱,就能独立完成中小型企业的AI转型项目。

      入局这个赛道,普通人能解锁三大高价值机会,全方位实现职业与财富升级:

      第一,职场快速晋升,抢占公司核心赛道。在企业内部,AI转型是当下所有公司的核心战略、重点工作。掌握AI转型架构能力,你将成为公司AI项目的核心负责人,是最容易被高层看见、最容易做出成绩的核心岗位。依托成熟的方法论落地转型项目,大概率能实现项目突围,升职加薪、跻身核心管理层自然水到渠成,轻松甩开职场内卷竞争者。

      第二,解锁高价值副业,实现收入翻倍。依托专业能力,利用业余时间为中小企业提供AI转型诊断、方案规划、落地指导等咨询服务。行业市场价清晰透明,一份专业的《企业AI成熟度测评报告》《AI转型落地方案》,单次收费可达1万-5万元。每月仅服务2-3家企业,副业收入即可轻松超越主业,实现收入多元化。

      第三,轻资产创业,打造一人公司(OPC)。对于有创业想法的人来说,这是零成本、低风险、高回报的轻创业赛道。无需团队、无需场地、无需大额投入,以独立AI转型顾问的身份打造个人IP,构建完整商业闭环。

      产品上,可交付标准化服务产品,包括企业AI成熟度测评、AI转型整体诊断、场景化落地规划、团队AI能力培训等,单价从几千到数万元,可批量交付、反复复用;获客上,依托新媒体平台持续输出行业干货、转型案例、避坑技巧,打造专业专家IP,低成本精准获客,依靠服务口碑实现客户裂变。

      整套模式形成技能赋能-IP获客-产品变现-口碑复购的完整商业闭环,轻松实现轻资产稳定盈利。

      04 系统化刻意练习,从零成为专业转型架构师

      需要明确的是,想要真正入局、站稳赛道、持续变现,仅靠碎片化看文章、听分享、刷干货远远不够。企业AI转型架构师是专业型实战岗位,必须依托系统化学习、体系化搭建、刻意化练习,才能真正具备落地能力。

      想要从零入行、快速进阶,必须搭建五大核心能力体系:

      1. 掌握全套诊断方法论。搭建标准化转型逻辑,掌握企业AI转型的诊断流程、切入逻辑、推进步骤,能够快速判断不同行业、不同规模企业的转型阶段、核心痛点与适配方案,告别盲目摸索。
      2. 熟练落地规划工具与模板。掌握行业通用的转型规划工具、测评模板、方案模板、复盘体系,大幅提升工作效率与交付专业性,快速达到商业化交付标准。
      3. 深度拆解真实行业案例。深耕各行业成功与失败的AI转型案例,总结可复用的落地经验,精准规避企业转型中资金浪费、场景错配、落地脱节等常见陷阱。
      4. 修炼专业顾问技能。掌握商业访谈、需求共创、方案汇报、客户沟通、跨部门协作等核心技能,能够精准对接企业客户与内部团队,高效推进项目落地。
      5. 搭建个人商业变现模式。学会打造个人专家IP、设计标准化服务产品、搭建获客渠道、构建服务闭环,真正实现从“掌握技能”到“技能变现”的完整转化。

      AI时代的职业红利,永远属于敢于认知、敢于行动、敢于深耕的人。学习一门实战技能,最高效的方式从来不是盲目自学,而是跟随拿到结果的人,系统化复刻经验、刻意练习实战。

      在全员AI转型的时代,抢占企业AI转型架构师这一黄金赛道,就是抢占未来5-10年的职业红利与财富风口。

    • GPT5.5 和 DeepSeek V4,哪个更好?

      2026年4月24日,全球AI圈几乎被一件事刷屏了——OpenAI和DeepSeek在同一天发布了各自的旗舰模型。

      这不是简单的版本迭代,而是两种截然不同的路线之争:一个向上堆算力、一个向下压成本,在通往AGI的道路上各走各的路,也对开发者发出了完全不同的信号。

      今天这篇文章专门跟大家一起聊聊这个话题,希望对你会有所帮助。

      一、向下压成本 vs 向上堆算力

      评估一款大模型,我第一个要看的就是它的架构设计,这直接决定了它在真实负载下的表现。

      DeepSeek V4:结构性的成本革命

      DeepSeek V4的核心突破在于解决了超长上下文大模型在推理阶段的效率瓶颈。

      CSAHCA混合注意力架构,本质上是一次对Transformer计算模式的底层重构。

      传统Transformer中,注意力机制的计算量随序列长度呈平方级增长——序列翻倍,算力变四倍,这是决定性的瓶颈。

      DeepSeek的混合注意力架构从根本上破解了这一难题:

      • CSA压缩稀疏注意力解决的是“算什么”。它用轻量级索引器先对所有token对做粗筛,快速估算相关性排序,再精选出需要完整计算的token集合。关键在于——这套稀疏结构是可训练的,模型会自己学出哪里需要高密度注意力,哪里可以稀疏。
      • HCA重度压缩注意力解决的是“存什么”。在DeepSeek V3时代MLA的基础上继续推进,将KV向量映射到低维潜空间,推理时解压。叠上FP4+FP8混合精度,KV缓存的显存占用再砍一半。

      这套架构的成效可以用两个关键数字衡量:在百万token上下文设定下,V4-Pro的单token推理浮点运算次数仅为前代V3.2的27%,KV Cache内存占用更降至10%

      换算过来,同等算力下能服务的长上下文并发量大约是原来的3到4倍

      此外还有mHC流形约束超连接替代传统残差连接以增强深层网络信号传播稳定性,以及Muon优化器替代Adam系列。

      基于矩阵正交化更新,在超大规模训练里收敛更快更稳定——Adam在大模型训练里几乎是默认配置近十年,DeepSeek这次把它换掉了,这是工程上的重要信号。

      GPT-5.5:极致性能的“效能优化”

      OpenAI在GPT-5.5上则展示了另一种路线。

      它同样实现了百万级token上下文。

      其核心能力之一是Token效率的突破

      完成同等任务使用的Token数量大幅减少,这与其混合专家架构和精细化的指令遵循能力直接相关。

      在SWE-bench Verified基准测试中,GPT-4.1系列完成率即达到54.6%,较GPT-4o提升21.4个百分点。

      在Terminal-Bench 2.0上,GPT-5.5达到了82.7%,领先Opus 4.7十三个百分点以上。

      需要指出的是,GPT-5.5目前尚未公开详细的技术架构细节,这些基准测试数据是外界评估其能力的重要参照。

      这一轮架构差异的本质:DeepSeek V4选择了一条结构性降本的路径——你算力少、显存小,也能用。

      GPT-5.5选择了一条效能驱动的路径——Token用得更省,复杂任务执行得更准。

      二、推理成本:制约业务规模的“天花板”

      2026年4月24日,OpenAI与DeepSeek几乎同时发布了各自的新模型,两者的定价逻辑形成了鲜明对比。

      模型版本输入价格(每百万Token)激活参数量核心定位
      GPT-5.5 Pro$30.00 / 约218元面向无限制、最高强度的高端企业级任务
      GPT-5.5$5.00 / 约36元面向一般企业级的旗舰任务
      DeepSeek V4-Pro12元490亿对标顶级闭源模型的旗舰,适合最复杂任务
      DeepSeek V4-Flash1元(缓存命中0.2元)130亿主打极速响应与极致性价比

      这不仅是价格的差距,更多是背后战略的差异。

      OpenAI的高定价,构建的是一个高端智能服务的护城河;

      DeepSeek的低定价,则在铺设一条AI民主化的道路。

      DeepSeek在百万token场景上的效率优化极为显著——V4-Pro单token推理算力为V3.2的27%,KV缓存仅10%;V4-Flash对应指标分别降至**10%7%**。

      这种效率提升直接体现在终端价格上。

      对初创团队和中小型企业而言,DeepSeek的价格体系无疑是极大的利好。

      三、开源护城河 vs 商业生态圈

      DeepSeek V4:深植开源社区,构建开发者生态

      • 完全开源:采用MIT协议,个人和企业均可免费下载权重并商用,显著降低了技术门槛。
      • Agent生态优化:官方明确针对主流AI代理工具进行了专项适配和优化,对开发者非常友好。

      GPT-5.5:强力构建商业闭环

      • Codex生态:官方称85%的内部员工每周使用Codex,其目标是将自身建设为连接第三方工具和Agent的核心枢纽。
      • 全栈服务能力:结合云端沙箱、Codex Agent等多重能力,为企业提供一站式解决方案。

      两者各有侧重。

      如果希望完全掌控模型并实现私有化部署,DeepSeek V4是明确的选择。

      但如果追求极致的性能上限和完备的官方工具链,GPT-5.5依然是难以绕过的标杆。

      四、总结

      回到最初的问题:GPT-5.5和DeepSeek V4,哪个更好?

      下面这张路线图可以帮助你根据自己的实际情况,做出最适合自己的选择:

      业务场景推荐方案核心理由
      攻克业界难题、极限技术研究✅ GPT-5.5 Pro追求性能上限,不考虑成本,适合需要最强模型托底的突破性项目。
      企业级生产系统,追求性价比✅ DeepSeek V4-Pro性能接近顶级闭源模型,但推理成本和KV缓存占用大幅降低。
      个人开发者/初创团队,大规模调用✅ DeepSeek V4-Flash极致性价比,输出价仅为GPT-5.5 Pro的1.55‰,适合对成本和弹性要求高的场景。
      数据高度敏感,要求完全合规✅ DeepSeek V4系列完全开源,支持私有化部署且适配华为昇腾芯片,可控性高。
      政企级高复杂度Agent任务✅ GPT-5.5或V4-Pro两者作为当前SOTA,在复杂任务上有最佳表现,需根据成本权衡。对国产化有要求的场景优先V4-Pro。

      在这场席卷全球的AI竞赛中,没有绝对的“优”,只有相对的“适”。

    • GPT-5.5 发布,详细解读

      OpenAI Release


      凌晨,OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新


      下面这个,是介绍视频

      https://openai.com/index/introducing-gpt-5-5/


      本次核心变化:用更少的 token,干更难的活

      在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 达到了最高智能水平,成本是同级别竞品的一半


      GPT-5.5 这个模型,目前已向 ChatGPT 付费用户开放

      对于更高级别的 GPT-5.5 Pro,则向 Pro、Business、Enterprise 用户开放

      API 即将上线,价格大幅上涨,为 $5/$30 (每百万Token),是 5.4 价格的 2 倍


      能力总览

      OpenAI 拿出了一张 9 项核心指标的对比表,横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

      我把表格重绘了下


      在 Artificial Analysis Intelligence Index(第三方,10 项 eval 加权平均)上,GPT-5.5 在同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型(注意:考虑到 5.5 是 5.4 价格的2倍,所以总价还是更贵了)

      Terminal-Bench 2.0复杂命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%

      SWE-Bench Pro真实 GitHub issue 解决:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%,但 Anthropic 承认部分问题存在记忆化

      Expert-SWE内部长周期编码任务,中位人类完成时间 20 小时:73.1%,vs GPT-5.4 的 68.5%



      在 Codex 里,GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K


      知识工作

      coding 之外,GPT-5.5 在日常电脑操作和知识工作上的提升同样明显

      GDPval44 个职业知识工作测试,胜出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%

      OSWorld-Verified模型独立操作真实电脑环境:78.7%,vs GPT-5.4 的 75.0%

      Tau2-bench Telecom复杂客服工作流,无 prompt 调优:98.0%,vs GPT-5.4 的 92.8%

      GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确

      财务建模 demo,手动替换:https://player.vimeo.com/video/1185616826


      OpenAI 内部用例

      OpenAI 公司超过 85% 的员工每周都在用 Codex,覆盖工程、财务、市场、公关、数据科学、产品管理

      公关团队分析了 6 个月的演讲邀请数据,建了打分和风险框架,低风险请求自动处理,高风险请求交人审核

      财务团队审了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成

      GTM 团队自动生成周报,每周省 5-10 小时


      科学研究

      GeneBench 是 OpenAI 新推出的 eval,测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 达到 33.2%

      BixBench(真实生物信息学和数据分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%

      Academic 评测数据

      Ramsey 数新证明

      GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象,研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证


      推理效率

      GPT-5.5 更大更强,但实际延迟和 GPT-5.4 一样

      此前,OpenAI 用固定数量的静态分区来平衡 GPU 上的计算负载

      而在新版本中,Codex 分析了数周的生产流量数据,写了自定义的启发式分区算法。这一项改进让 token 生成速度提升了超过 20%


      模型帮忙优化了自己运行的基础设施


      网络安全

      GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High(生物/化学能力同为 High)。没有达到 Critical 级别

      CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%

      CTF 挑战任务内部扩展版:88.1%,vs GPT-5.4 的 83.7%


      与此同时,GPT-5.5 也发布同时推出了一个新项目:生物安全漏洞赏金


      规则是这样,OpenAI 准备了 5 个生物安全问题,参与者需要找到一条「通用越狱 prompt」,在 Codex Desktop 的干净对话里,一次性通过全部 5 个问题,且不触发审核,就算越狱成功

      参与地址在这:https://openai.com/index/gpt-5-5-bio-bug-bounty/

      第一个成功的通用越狱,奖金 $25,000。部分突破可能获得较小奖励

      申请窗口2026 年 4 月 23 日开放,6 月 22 日截止,滚动审核

      测试窗口2026 年 4 月 28 日至 7 月 27 日

      准入条件需要现有 ChatGPT 账号,签署 NDA

      保密要求所有 prompt、输出和发现均受保密协议覆盖

      面向有 AI 红队、安全或生物安全经验的研究者


      可用性与定价

      ChatGPT

      GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户

      Codex

      GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 用户,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍

      API(即将上线)

      gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口

      gpt-5.5-pro$30/1M input tokens,$180/1M output tokens

      Batch / Flex标准价的一半

      Priority标准价的 2.5 倍


      GPT-5.5 单价比 GPT-5.4 高,但 token 效率也更高

      OpenAI 表示在 Codex 里,GPT-5.5 对大多数用户来说,实际消耗的 token 比 GPT-5.4 更少


      完整 Benchmark 数据

      以下是 OpenAI 公布的全部评测数据,按类别整理。所有 GPT 评测在 reasoning effort 设为 xhigh 的研究环境中进行

      Coding 评测表


      Professional 评测表


      Computer Use and Vision 评测表


      Tool Use 评测表


      Academic 评测表


      Cybersecurity 评测表


      Long Context 评测表


      Abstract Reasoning 评测表


      Abstract Reasoning 评测表

      短板

      SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承认部分问题存在记忆化

      MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%) 

      Humanity’s Last Exam(带工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

      长上下文 256K 以上,Claude Opus 4.7 在部分指标上仍有优势


      参考材料

       官方博客:openai.com/index/introducing-gpt-5-5/

       System Card:deploymentsafety.openai.com/gpt-5-5

       Bio Bug Bounty 申请:https://openai.com/index/gpt-5-5-bio-bug-bounty/

       BixBench 论文:arxiv.org/abs/2503.00096

       Artificial Analysis 方法论:artificialanalysis.ai/methodology/intelligence-benchmarking

       API 定价:openai.com/api/pricing/

    • 龙虾 VS 爱马仕:谁才是 AI Agent 之王?

      最近半个月,只要你关注 AI Agent 这个圈子,大概率已经被 Hermes Agent 刷屏了。

      我自己的时间线里,推荐这玩意的人已经多到我不得不点进去看看的地步。装上试了试,说真的,有点东西。

      我知道看这篇文章的很多朋友都在用龙虾,对 Gateway、Skill、ClawHub 这些东西已经不陌生了。所以今天不打算从头科普,直接聊聊 Hermes 跟龙虾到底有什么不同,以及作为一个龙虾用户,值不值得花时间去试试。

      Hermes Agent 是 Nous Research 今年 2 月底开源的,上线不到两个月 GitHub 星标接近三万。社区里不少人管它叫「龙虾上线以来第一个真正意义上的竞争对手」。都是自托管开源智能体,都能接入 Telegram、Discord、Slack、WhatsApp,都支持多模型切换,都走 MIT 协议。表面功能差不多,但底下的设计哲学完全不一样。

      龙虾是网关思维,Hermes 是引擎思维。

      你用龙虾的时候,核心是那个 Gateway,所有消息汇到一个中心,AI 在那一个地方统一处理。这个设计的优势很明显,上手快、连得多、生态完善。但它的技能是静态的,你给它写什么它就懂什么,它自己不会成长。今天帮你解决了一个问题,明天遇到同样的问题,它还是从头来一遍。

      Hermes 不一样。它不是围绕「怎么把消息送到 agent 手上」设计的,而是围绕「agent 怎么变得越来越强」设计的。官方管这叫闭环学习循环。简单说就是,它每次干完一个复杂任务,会自己回头看看做了什么,把有用的经验沉淀成技能文档,存成 Markdown 文件。下次遇到类似的任务,直接调用自己的技能库,不用从头解决。更骚的是,这些技能还会自我迭代,执行的时候发现了更好的方法,它会自动更新文档。

      有 Reddit 用户反馈,Hermes 两小时内自动生成了三份Skill文档后,重复性研究任务的速度提升了 40%。

      这个对比就很明显了。龙虾的技能主要靠你自己写或者从 ClawHub 下载社区的,Hermes 等于把「写Skill」这件事也交给了 agent 自己。你想想看,如果你经常做同一类任务,龙虾每次都是按固定流程走,而 Hermes 会一次比一次快,一次比一次准。这个差异,用的时间越长越明显。

      记忆体系也不一样。龙虾走的是「文件即记忆」,工作区里的 Markdown 文件,通过语义检索查找。Hermes 用的是 SQLite 数据库配合全文检索,把记忆分成两层,一层常驻(MEMORY.md,每次对话都带上),一层全量历史(容量无限,按需调用)。它还会记住你的偏好,比如你每次都要求简短要点而不是长段落,时间长了它就不再问了直接给你要点。打个不太严谨的比方,龙虾给了 agent 一个笔记本,Hermes 给了 agent 一个搜索引擎式的大脑。

      安全这块我觉得龙虾用户应该会比较在意。Hermes 搞了五层纵深防御,用户授权、危险命令审批、容器隔离、凭据过滤、上下文注入扫描,默认高风险操作要人工审批,超时未批准自动拒绝。龙虾这边有 openclaw security audit 命令可以一键扫描,但说实话,今年 2 月龙虾被曝出多个高危漏洞、13.5 万个实例暴露在公网上、Skill市场超过 300 个恶意技能被发现,这些事情我到现在还记着。不是说 Hermes 就一定更安全,毕竟上线时间短,但至少在架构设计上对安全的重视程度是肉眼可见的。

      那到底要不要换。

      我觉得吧,如果你龙虾用着顺手,日常任务比较杂不重复,没必要折腾。龙虾的生态确实更成熟,34.6 万星标、ClawHub 上的技能市场、二十多个聊天平台的接入,这些积累不是 Hermes 短期能追上的。而且龙虾的上手门槛确实低,Gateway 一开,技能一装,很快就能跑起来。

      但如果你平时经常做同一类任务(比如每周做类似的代码审查、每月处理类似的数据),或者你一直觉得龙虾的「没有记忆」是个痛点,Hermes 值得你花个周末试试。它的闭环学习在重复性任务上的优势是实打实的,用得越久越明显。而且 Hermes 跑在 99元/年的 VPS 上就够用,支持 Docker、SSH 远程、Modal 等 serverless 方案,不用的时候休眠,费用几乎为零。安装就一行 curl 命令,不复杂。

      对了,爱马仕的英文也是 Hermes。

      说真的,这两个工具不是谁取代谁的关系。龙虾赌的是连接和控制,Hermes 赌的是成长和进化。两种思路各有道理。我自己现在是两个都留着,龙虾处理多渠道消息,Hermes 处理需要长期积累的重复性任务。不一定对,但我寻思了一下目前这么分工还算合理。

      反正都是开源的,试试不亏。

       

    • QBotClaw:腾讯把龙虾装进了浏览器,说一句话它帮你把活干完

      昨天看到腾讯 QQ 浏览器上线了 QBotClaw,直接打开浏览器就能使用龙虾,我在电脑前鼓捣了一晚上,感觉这玩意儿可能会悄悄改变我们很多人的工作流

      它是什么

      昨天腾讯在 QQ 浏览器电脑端上线了 QBotClaw,官方定义是国内首个浏览器原生 AI 智能体它可以让浏览器变成一个会自己干活的 Agent。 你不需要会写代码,也不需要配什么自动化环境,打开 QQ 浏览器,点 AI 按钮,说你想让它做什么,它去做。

      相当于给你的QQ浏览器装了一个有眼睛、有脑子、还有一双手的超级助手,点按钮、填表单、翻网页、汇总数据,这些以前需要你自己操作的步骤,QBotClaw 直接帮你完成。

      快速上手

      首先你要在官网 https://browser.qq.com/ 下载最新版电脑端 QQ 浏览器,安装后,打开浏览器,点击顶部插件,打开 QBotClaw 即可:

      核心能力

      1.通过对话操作浏览器

      这个是 OpenClaw、QBotClaw 等这类龙虾最重要的重要,直接通过对话方式操作你电脑,帮忙执行任务。

      比如 Chris 让 QBotClaw 执行:

      打开知乎,搜索 WiseMindAI 相关介绍

      可以看到 QBotClaw 不仅自动打开知乎页面,还自动输入搜索关键词,最后还给我提供了一份相关介绍的总结。

      当然,还可以继续进行后续操作,比如:

      可以改成社交媒体文案,我要发布到知乎看点和即刻动态,还要补充官网的截图

      接下来 QBotClaw 不仅自动打开 WiseMindAI 官网进行截图,还会自动写好社媒文案,让 Chris 进行确认:

      当然,确认没问题后,可以直接让它打开对应网站进行自动发布:

      在这个期间,Chris 发现尽量不要打开多个 QQ 浏览器窗口,会出现操作错乱的情况。

      2.微信远程操控

      这个功能有点意思。你可以在 QBotClaw 界面输入框底下,打开微信关联,用微信扫码绑定之后,你可以在手机微信聊天窗口直接给 QBotClaw 发指令,它在电脑端执行。

      你不在电脑旁,但临时想让电脑抓一份资料、发一封邮件,就可以在手机,发条消息,回家就能看到结果。

      不需要开远程桌面,不需要 VPN,就是发个微信消息的事。

      3.自定义大模型 API

      QBotClaw 支持用户自己填 API Key,接入国内各主流模型:DeepSeek、千问、智谱、Kimi、Minimax 等,不绑死在腾讯自己的模型上,也是很不错的。

      这对不少用户来说挺重要。你可能已经在用某个模型,不想换,也不想为了用这个工具额外付费。自己接 API,用什么模型自己说了算。

      并且还支持国家超算中心的模型,有需要也可以试试,Chris 也还没体验过。

      4.兼容 OpenClaw 技能生态

      QBotClaw 完全兼容 OpenClaw 技能,意思是 OpenClaw 生态里的第三方技能可以直接跑在这里。社区里已经积累了相当数量的可复用技能,不需要从头搭。

      官方也是推荐使用腾讯的 SkillHub 进行安装:

      地址:https://skillhub.tencent.com/

      比如 Chris 使用 Skillhub 下载了 Juejin 这个 Skill,只需要复制安装方式,发送给 QBotClaw 执行就可以:

      接下来就可以在 QBotClaw 使用这个 Skill 了:

      提示词:帮我获取掘金网站热门文章排行榜

      5.自带浏览器上下文记忆

      QBotClaw 能够记录了解你在 QQ 浏览器的网站登录状态、收藏夹内容、浏览历史记录、下载记录等待,更了解你的个人使用习惯
      在使用 QBotClaw 你可以随时提问,让它帮你查找、汇总内容,还可以让它根据历史记录,给你总结一个个人独特画像:

      提示词:根据我的 QQ 浏览器浏览历史记录,分析一下我的个人画像


      安全隐私

      很多人对“AI 控制浏览器”这件事会有直觉上的不安全。这很正常,因为这意味着它能看到你的登录状态、账号信息、本地文件

      QBotClaw 的处理方式是三层机制:

      • 沙箱隔离:AI 权限被限定在沙箱内核里,不能越权访问浏览器范围外的系统资源。腾讯电脑管家 18.0 配合提供「AI 安全沙箱」,动态拦截高危指令。
      • 指令约束:所有可执行操作通过 Markdown 指令格式规范化,可执行范围被 SkillHub 认证机制限定。
      • 黑名单机制:涉及隐私敏感的数据访问有黑名单拦截,AI 碰不到那些内容。

      三层下来,基本上是:它能做什么,你控制,碰不了的,它碰不到。


      写在最后

      我试用下来感受最深的一点是:把浏览器这个场景和Agent结合,比我想象中更自然。

      浏览器本来就是大多数人处理信息、完成工作的主要地方。把 Agent 内置进去,而不是做成一个独立软件,摩擦感少很多,不用切换、不用导入导出,当下这个页面就可以直接让 AI 处理。

      并且现在也有很多类似产品了,这是个很对的方向。