作者: stark, tony

  • 榨干Codex!OpenAI工程师亲授Codex真正用法

    你可能把 Codex 当编程助手用,改改代码,跑跑测试。但它的能力远不止于此。

    OpenAI 的客户支持工程师 Jason(@jxnlco)告诉你,Codex 其实是一套完整的电脑工作系统,从语音输入到自动化,从浏览器操控到共享记忆,全套组合拳打下来,你不在电脑前,它照样替你干活。

    大家刚接触 Agent 常常只拿它当敲代码的工具人。帮代码库挑挑毛病,比对几组差异,跑2轮测试用例,顺手提 Pull Request 上去。

    局限在单一场景实在大材小用。

    仔细琢磨会发现,打工人在电脑屏幕前敲击的大部分动作,早已被数字化指令接管。

    只要打通权限环节,将工具箱全面下放,单一的代码助手瞬间摇身变作拥有全套执行权限的数字外包团队。

    深度组合持久线程、语音指令、自动化任务与外部记忆库,能把繁杂琐碎的电脑工作统统甩给机器去处理。

    记忆与接力

    很多人有个坏习惯,问完几句话顺手关掉对话框。下回碰见相同问题,只能硬着头皮重来。想真正压榨机器的价值,必须用持久对话流留存工作记忆。

    固定几个常用工作流作为专属工作区。

    在侧边栏设立幕僚长线程,安排专门盯发版进度的线程,留专做文档反复审查的线程,再开专门盯着外部系统报警信息的监控线程。

    全部将其钉在软件界面最显眼处。常驻工作区里装满长期的历史决策、私人编码习惯与具体的项目背景。无需人类员工一遍遍重复背景设定,机器每次被唤醒干活都能顺着上次的思路往下推进。

    背后起作用的是信息压缩技术。

    长线工作流若不加节制,很快会撑爆内存。机器在后台不断将旧对话提炼压缩,保留骨干,剔除水分。长达几个月的巨型对话流因此得以存活。

    代价是旧对话早被清出缓存,重新唤醒时需要耗费更多算力重新加载。相比起从头交代背景的麻烦,算力成本完全值回票价。

    苹果系统里按住 Command 键配合数字1到9就能秒切专属工作区,丝滑无比。

    持久的工作区也能跨设备无缝运转。

    打工人在电脑端配好了底层运行环境与读写权限,丢给机器去跑耗时的大型渲染或爬虫任务。

    人完全可以站起身离开工位去喝咖啡或者开会,掏出手机在外头随时查岗。

    在手机屏幕上发现进度跑偏,通过移动端发条语音修正方向,工位上的机器在原位立刻调整接着干。

    局部环境和权限牢牢锁定在办公桌上,人却获得了真正的自由。

    开口与控场

    文字输入总会丢失大脑里瞬间闪过的灵光。人打字时会本能地精简信息,把散乱的思维压缩成漂亮的句子。而机器找线索恰恰需要看似多余的废话。遇到自己也没完全想清楚的痛点,张嘴直接描述最管用。

    脑子里有个十分模糊的影子,打字不知从何说起,开口随性表达刚好切中要害:“本好像在 Slack 里提过需求,细节完全记不清了,你去翻翻群聊查清楚。”

    接到指令,机器自己翻阅大段聊天记录、依靠模糊匹配找出前因后果并条理清晰地向你汇报,省掉人工翻找的时间精力。

    在庞大任务尚未完全成型前,用2到3分钟的语速把脑子里纷杂的念头一股脑倒给机器。

    未经过删减打磨的开会原声录音,或者出差路上随口录下的备忘录,往往比规规矩矩的文字摘要包含更多高价值线索。

    原汁原味的录音里原封不动保留了当事人的语气重音、犹豫不决的停顿和没说完的半截话。机器能精准捕捉字里行间隐藏的信息增量。

    若机器干活中途跑偏,人必须拥有最高优先级的干预权。

    任务干预就是在机器执行当前步骤彻底完成前,强行打断动作并下发新指令。

    盯着侧边栏审查网页组件时,发现机器弄错了关键细节,直接开口喊停:“字号弄小点,两个元素间距看着别扭,文案用词全错了。”

    任务排队功能将新需求悄无声息安排到队列末尾。机器正全力以赴忙着手头的复杂运算,毫不受影响。

    人只需随口吩咐一句:“干完手头活,马上把预览链接发给二面审核人。”

    干预强行修改当前动作,排队从容安排后续计划。人始终将控制权握在手里。

    借助外部工具层,机器的物理触角直接伸向代码库以外的商业世界。

    用 $browser 指令唤起应用内置浏览器,机器就能在侧边栏直接检查并给网页做标注。

    带上 @chrome 指令,机器能携带着你的真实登录状态处理浏览器专属任务。

    碰上必须人工点击鼠标的桌面级图形界面,甩出 @computer 指令让它模拟出真实的键鼠物理操作。

    接通 MCP 服务器和各类商业连接器,机器瞬间打通 Slack、Gmail 和日历三大件。

    十分重要的商业任务往往以几句闲聊、突如其来的邮件或者日程表里的冲突事件为开端,到最后一步才演变成一堆代码。

    测试成功的工作流顺手打包封装成 Skills(技能),下次遇到同类问题直接闭眼跑,彻底省去重跑流程的时间损耗。

    目标与外包

    自动化功能让机器脱离人力驱动,按时定点接管任务。

    例行公事选用定时自动化模式,像每日生成的财务日报或者定时触发的代码库体检,每次启动都是干干净净的全新环境。

    需要连贯记忆与复杂前置条件的活儿,换上线程自动化模式,机器会像人体心跳频率一样定时唤醒,重回老对话框里带着完整的上下文接着干。

    设定幕僚长线程每30分钟悄悄跑1次:“去彻底查一遍全网所有未读信息,按轻重缓急排个优先级表格。遇到团队提问,竭尽全力把答案全网查清楚,顺手把草稿写好存着,绝对不能提前发出去。”

    人吃完午饭回到工位,耗神费力的数据收集和整理比对工作已经全部搞定,人只需做最后的拍板,点下发送键。

    线程自动化模式特别适合搞定冗长的反馈循环。机器全天候自动盯着拉取请求的评审评论、Google 文档批注或是团队群聊里的回复,趁你不在场时不知疲倦地推动工程进度。

    动画制作审批流十分典型。审核人在聊天软件里发了段视频反馈修改意见。机器定时查收新消息,拿到核心修改意见后直奔代码库重新渲染出新版高清视频,接着把新视频发回聊天群并精准艾特审核人查收。

    遇到 API 限制传不了大文件,机器自己调用桌面自动化客户端模拟点鼠标走完上传全流程。跑下来,彻底打通了聊天群、底层代码库和桌面客户端软件。

    给定明确无误的终点线,机器才有持续推进的盼头。含糊其辞的目标毫无意义:“照着目标文档把商业计划落实一下。”

    加上明确的、可被机器度量的成功标准才算数。资深工程师要把老旧的内部工具翻新成全新语言版本,建好底层目录后定个铁律:全新代码必须全部跑通基础的单元测试才算完工。

    持续不断地执行加上铁面无私的校验机制,才叫目标驱动。

    清清楚楚地给出预期结果、停机条件和衡量进度的好坏信号。

    好用的校验器遍地都是。测试套件确保旧功能不坏,性能跑分紧盯运行效率,漏洞复现脚本验证补丁是否有效,端到端工作流兜底最终的用户体验。

    有验证机制的野心叫真目标,没验证的叫白日梦。

    审查与大脑

    做好的半成品和最终成品完全不用切去其他软件看,侧边栏直接全包了。

    不单单是冷冰冰的代码,你能在对话框旁边直接肉眼检查生成的精美幻灯片、PDF 文件、动态网页或者复杂的数据表。

    看明白细节,随手圈出要改的地方,直接操控网页元素,反复审查每次改动。所有动作在一个界面内闭环,心流完全不断。

    内置浏览器极速渲染出网页,机器能根据你在页面上的随手标注立刻动手改写底层代码。

    网页既是产出物,也是最高效的控制台。从生成、展示、查错到精细化修改,人机始终紧紧盯住同一个物件。

    轻量级的单文件网页连云端服务器都省了,直接变身长久可交互的数字资产。

    用 Storybook 审查用户界面,拿 Remotion Studio 敲代码做动画,直接跑网页版幻灯片做高管演讲,搭建数据应用做全盘业务分析。

    线程自动化定时在后台刷新静态网页数据,每次点开都有热腾腾的新内容备好。

    持久对话流只在单线任务里管用,想发挥最大效能,得有一个独立于所有碎渣对话之外的全局记忆外脑。

    用 Obsidian 建个稳妥的本地记忆库是绝佳方案。建全是纯文本的扁平化文件夹,查阅、搬运十分方便。

    配合 Git 代码托管平台、Dropbox(云存储服务)或者云盘软件,实现全天候跨终端同步。

    文件夹结构如下:

      最外层顶层放 AGENTS.md 文件。立下规矩,一字一句告诉机器怎么更新人员变动、项目卡点和高层决议信息。千万别全盘照抄别家公司的目录树。得亲自手把手教机器去哪找长期记忆,哪些关键记忆该留住,什么时候坚决不能乱改文件制造数据混乱。

      实用版 AGENTS.md 范本如下:

      视 ~/vault 目录为永久工作记忆。

      宁要精简凝练的核心笔记,不要泛滥无意义的碎纸片。

      待办、人员、项目、每日小结和日常草稿,必须按规则归置妥当。

      重点保存重要决策、阻碍因素、负责人、截止日期和管用的链接。

      没实质性进展绝对不能乱动记忆库。代码库存放冷冰冰的逻辑。

      记忆库留存流动的工作背景,牵扯的活人、频繁的改动、推进卡点和后续硬性安排。别把核心细节全埋在如同废纸篓一般的聊天记录里,清清楚楚写出来让机器下次直接读。软件本身也在设置菜单深处塞了个人记忆功能,专门记工作偏好、常用流程和经常踩的坑。作为核心文字档案的有益补充,没法完全替代独立记忆库。实验性质的屏幕抓取功能 Chronicle(屏幕记录记忆功能)通过定时截屏帮机器构建近期记忆,产品思路一脉相承。机器现在能拿着十分粗糙的任务指引,踏踏实实把活干完,还能把精美的成品直接端给你查验。看偏了就半路打断干预,有新活就静默排队。离开工位去喝杯茶就设个定时任务,给明确无误的目标等它自己实现。组合用好全套工具链,榨干每一滴算力,机器自会不眠不休为打工。

      参考资料:https://x.com/jxnlco/status/2057153744630890620



    • AI科技资讯周报_2026W21

      AI科技资讯周报 — 告别无效刷屏,只看真正关心的新闻资讯

      一、重点头条

      序号标题来源发布时间相关度
      1OpenAI将提交IPO文件,拟秋季上市,估值或达1万亿美元每日经济新闻2026-05-21★★★
      2SpaceX正式递交S-1招股书,计划融资750亿美元,目标估值1.75万亿—2万亿美元新浪财经2026-05-22★★★
      3OpenAI一季度收入57亿美元,超过Anthropic近10亿美元每日经济新闻2026-05-22★★★
      4Anthropic正与微软洽谈,或将使用微软自研Maia芯片每日经济新闻2026-05-21★★★

      二、产品与技术

      序号标题来源发布时间相关度
      5OpenAI推进内容溯源,依托内容凭证与SynthID构建安全AI生态OpenAI官方2026-05-19★★★
      6OpenAI与Dell合作,将Codex引入混合和本地部署企业环境OpenAI官方2026-05-18★★★
      7ChatGPT面向美国Pro用户预览全新个人理财体验OpenAI官方2026-05-15★★
      8Codex通过ChatGPT移动应用实现随时随地使用OpenAI官方2026-05-14★★
      9OpenAI为Windows上的Codex构建安全高效沙箱环境OpenAI官方2026-05-13★★
      10OpenAI回应TanStack npm供应链攻击事件OpenAI官方2026-05-13★★

      三、芯片与算力

      序号标题来源发布时间相关度
      11AMD豪掷超100亿美元,加码中国台湾地区半导体AI产业每日经济新闻2026-05-21★★★
      12美国政府向9家量子计算公司提供20亿美元拨款,IBM独揽10亿美元每日经济新闻2026-05-21★★★
      13SpaceX加码太阳能布局,敲定10吉瓦光伏建厂计划每日经济新闻2026-05-21★★

      四、融资与资本

      序号标题来源发布时间相关度
      14月之暗面(Kimi)完成约20亿美元新一轮融资,投后估值突破200亿美元新浪财经2026-05★★★
      15字节跳动2026年AI基础设施预算约1600亿元,其中约850亿用于采购AI芯片新浪财经2026-05★★★
      16央行等三部门发文,企业购买AI设备和软件服务可享专项贷款支持21财经2026-05-01★★

      五、政策与监管

      序号标题来源发布时间相关度
      17国务院印发《关于深入实施”人工智能+”行动的意见》中国政府网2025-08-26★★
      18多地设立人工智能产业基金:安徽200亿、河南30亿、广西100亿人民网2025-08-28★★
      19央行等七部门印发《加快构建科技金融体制》政策举措中国政府网2025-05-14★★
      20安徽创新开展人工智能产业金融试点,推出”算力贷””科技人才贷”等产品科技部2025-08-18★★

            1. 虾、马之后,人类登场!这个霸榜GitHub项目火了

              继龙虾(OpenClaw),爱马仕(Hermes Agent)之后,开源人类(OpenHuman)登场。

              OpenHuman 是由开发者团队 tinyhumansai 构建的一个开源桌面 AI 智能助手。

              tinyhumansai 团队自称为“专注于创建接近人工意识的 AI 算法的 AI 实验室”,其愿景远超一般的开发工具,他们试图构建具有人工潜意识的 AI 代理。这种对人工意识和持久记忆的追求,构成了 OpenHuman 的底层精神内核。

              官方定位简洁而有力:你的个人 AI 超级智能,私密、简洁、极其强大。

              该项目采用 GNU 许可证开源,基于 Tauri 桌面框架构建,TypeScript(前端)与 Rust(核心层)技术栈,旨在打造一个真正融入用户日常生活的 AI 代理应用。

              与大多数从聊天框出发的 AI 助手不同,OpenHuman 的设计哲学是:一个 AI 助手只有具备了用户的上下文信息,才能真正发挥作用。

              它不是简单地提供一个与大型语言模型对话的界面,而是一个集成了桌面 UI、第三方服务集成、持久记忆系统、智能工具集、模型路由、语音功能和可选本地 AI 支持的个人 AI 中枢。

              该项目目前处于早期测试(Early Beta)阶段,但其野心之大、功能之丰富,使其在开源社区引起了巨大反响。

              最近几日的 GitHub Trending 排行中持续霸榜,每日1600+星标。

              而 TrendShift 的数据也显示该项目获得了异常活跃的社区关注。与此同时,OpenHuman 还登上了 Product Hunt 的精选推荐,社交媒体(X/Twitter、Reddit、Instagram)广泛讨论。

              为什么会火?

              OpenHuman 的爆火,是因为它精准地击中了当前 AI 助手市场的多个核心痛点。

              AI 助手失忆问题。 当前的主流 AI 助手,无论是 ChatGPT、Claude,还是各种编码助手,都无法在对话之间保持关于用户的持久记忆。OpenHuman 通过记忆树(Memory Tree)系统解决了这个问题,让 AI 能够在数分钟内建立起对用户的全面了解。

              集成碎片化。 开发者和技术从业者日常使用大量不同的工具和服务,例如 Gmail 处理邮件、GitHub 管理代码、Slack 进行沟通、Notion 记录笔记、Jira 跟踪任务、Calendar 管理日程。现有的 AI 助手要么不支持这些集成,要么需要用户手动搬运数据。OpenHuman 提供了 118 个以上的 OAuth 一键集成,并自动以 20 分钟为周期拉取数据。

              隐私焦虑。 随着用户将越来越多的个人和工作数据交给 AI 服务,数据隐私问题日益突出。OpenHuman 采用了本地优先(Local-First)策略,所有记忆数据存储在用户本机的 SQLite 数据库中,而非云端服务器。数据经过本地加密处理,始终归用户所有。

              成本与效率。 大型语言模型的 API 调用费用高昂,而大量 token 被浪费在冗余信息上。OpenHuman 引入了 TokenJuice 智能压缩技术,在数据触达 LLM 之前进行预处理(HTML 转为 Markdown、长 URL 缩短、非 ASCII 字符移除),最多可降低 80% 的 token 消耗和成本。

              上手门槛高。 大多数 AI 代理框架(如 LangChain、AutoGen)都需要大量的配置、编程知识或命令行操作。OpenHuman 采用了零配置理念,提供清爽的桌面 UI,用户从安装到拥有可用智能体仅需几次点击。

              TechTimes 报道中使用了反转剧本(Inverting the Playbook)这一措辞来描述 OpenHuman:在用户输入第一个提示之前就已经了解用户。

              核心技术深度解析

              记忆树是该项目与其他所有 AI 助手最根本的区别。

              记忆树的工作原理如下:用户连接的各个数据源(邮件、日历、代码仓库、文档、消息等)中的所有内容,都会被规范化为不超过 3000 token 的 Markdown 片段。这些片段经过质量评分后,被折叠成层级化的摘要树结构。最终的数据存储在用户本机的 SQLite 数据库中,形成一个完全属于用户的知识库。

              这种设计的灵感直接来源于 AI 领域著名研究者 Andrej Karpathy 的 LLM 知识库工作流。

              Karpathy 曾在社交媒体上分享了他使用 Obsidian 构建 LLM 个人知识库的方法,而 OpenHuman 将这一理念产品化,并将其自动化。

              与记忆树配合的是 Obsidian Wiki 集成。相同的 Markdown 片段会以 .md 文件的形式输出到兼容 Obsidian 的仓库中。这意味着用户可以使用 Obsidian(最受欢迎的个人知识管理工具之一)直接浏览、搜索和编辑 AI 的记忆库。

              这种设计赋予了用户对 AI 知识的完全透明度和控制权,同时也意味着用户可以在不依赖 OpenHuman UI 的情况下管理和审查 AI 的记忆内容。

              此外,OpenHuman 还提供了可选的 agentmemory 后端支持,允许用户将记忆存储与 Claude Code、Cursor、Codex、OpenCode 等编码助手共享,实现跨工具的统一记忆。

              记忆树需要数据喂养,而自动拉取机制确保了数据的新鲜度。OpenHuman 的核心服务每 20 分钟遍历所有活跃的连接,将新数据拉入记忆树中。这意味着用户无需编写轮询循环,无需设计同步策略,AI 在每天早上就已经拥有了当天的上下文。

              这一机制将 AI 助手从被动响应模式转变为主动感知模式。

              传统的 AI 助手像是被关在房间里的顾问,只有你推门进去提问时它才能工作;而 OpenHuman 的 AI 更像是一个始终在你的工作环境中观察、学习的助手,即使你停止输入,它仍然在后台持续思考和整合信息。

              OpenHuman 目前支持 118 个以上的第三方服务集成,覆盖了用户日常工作的方方面面:

              • 通信工具:Gmail、Slack

              • 项目管理:Linear、Jira

              • 知识管理:Notion、Google Drive

              • 开发工具:GitHub

              • 日程管理:Google Calendar

              • 支付服务:Stripe

              • 消息渠道:支持通过用户日常使用的渠道进行收发

              所有集成均通过一键 OAuth 授权完成,每个连接以类型化工具的形式暴露给智能体。这意味着 AI 不仅知道这些服务中有哪些数据,还能理解数据的结构化含义,并据此执行精确的操作。

              TokenJuice 是 OpenHuman 在效率和成本控制方面的重要创新。在每一个工具调用、网页抓取结果、邮件正文和搜索载荷触达 LLM 之前,都会经过这一压缩层:

              • HTML 内容被转换为精简的 Markdown 格式

              • 冗长的 URL 被智能缩短

              • 非 ASCII 字符被移除

              • 冗余格式信息被剥离

              TokenJuice 最多可降低 80% 的 token 消耗。

              OpenHuman 的模型路由功能是其成本效益的另一个关键维度。不同于将所有任务发送给同一个模型的简单模式,OpenHuman 在一个订阅下将不同类型的任务智能分派到最合适的 LLM:

              • 推理型模型:处理复杂的逻辑推理和分析任务

              • 快速型模型:处理简单的对话和快速响应

              • 视觉型模型:处理图像理解和多模态任务

              这种任务级别的模型路由策略,既保证了任务处理的质量,又避免了将昂贵的高性能模型用于简单任务的资源浪费。

              OpenHuman 的 UI 设计也颇具特色。它配备了一个桌面吉祥物,一个会说话、能感知周围环境的虚拟形象。

              这个吉祥物可以作为真实参与者加入用户的 Google Meet 会议。结合原生语音功能(STT 输入、ElevenLabs TTS 输出、口型同步),OpenHuman 正在模糊 AI 助手与数字伴侣之间的界限。

              对于对隐私有更高要求的用户,OpenHuman 支持通过 Ollama 使用本地 AI 模型处理端侧工作负载。敏感任务可以在不发送数据到云端的情况下完成,进一步强化了项目的本地优先理念。

              与其他框架对比:

              分钟级建立上下文,是 OpenHuman 最革命性的优势。

              传统的 AI 助手或代理框架,都需要一个漫长的训练期。无论是通过反复对话提供背景信息,还是通过插件逐步注入上下文,用户都需要花费数天甚至数周的时间,AI 才能对用户的技术栈和工作流有足够的了解。

              OpenHuman 通过一键连接账户 + 自动拉取 + 记忆树的组合,将这一过程缩短到几分钟。首次同步完成后,AI 就拥有了用户收件箱、日历、仓库、文档、消息的完整(压缩后的)上下文。

              在数据隐私日益受到重视的今天,OpenHuman 的本地优先策略是一个强有力的差异化因素。所有工作流数据保留在用户设备上,经过本地加密,始终属于用户。用户不依赖任何第三方云服务来存储个人记忆,也不必担心数据被用于训练模型或被未授权方访问。

              同时,Obsidian Wiki 的导出格式确保了数据的可移植性,即使不使用 OpenHuman,用户仍然可以访问和利用已经构建的知识库。

              当前 AI 代理市场的一个显著问题是供应商碎片化。用户需要为不同的 AI 工具分别管理 API 密钥、订阅和配置。

              OpenHuman 通过单一订阅 + 内置模型路由的策略,让用户不再需要为选择哪个模型而烦恼。系统会根据任务类型自动选择最合适的模型,在质量、速度和成本之间取得最优平衡。

              OpenHuman 的爆火不是偶然的。它代表了一种日益强烈的需求:人们需要的不是一个能对话的工具,而是一个真正了解自己、能持续学习、能跨越工具边界行动的个人 AI 伙伴。

              在一个 AI 助手市场被对话式思维主导的时代,OpenHuman 通过记忆树、自动拉取和 Obsidian Wiki 的组合,开辟了一条上下文优先的新路径。

              它反转了传统的剧本——不再是用户不断教导 AI,而是 AI 主动学习用户。

              参考资料:

              https://github.com/tinyhumansai/openhuman



            2. 腾讯推出AI应用生成平台“吐司”:支持一键打造App

              腾讯推出AI应用生成平台“吐司”:支持一键打造App原型预览,公测期间限时免费

              5月18日消息,腾讯宣布推出一款AI应用生成平台“吐司”,该平台定位为“探索型氛围编程(Vibe Coding)产品”,目前,安卓版已正式上线,iOS 版本将于稍后推出,公测期间以限时免费形式开放。后续将通过分享任务等方式提供更多次数

              据腾讯介绍,用户只需用自然语言描述自己的想法,AI 便能自动拆解功能、生成原型,并最终一键打包成 App 并安装进手机,具体提供如下四大能力:

              创造应用:用户输入想法 → AI 自动拆解为功能点 → 多轮对话调整细节 → 一键打包成 APK(安卓手机安装包)

              社交分享:用户制作出来的 App,支持通过链接 / 二维码 / 安装包分享给他人

              灵感广场:用户公开自己的应用作为模板,他人可一键做同款

              应用搜索:点击「问吐司」,可以搜到别人发布的灵感,也可以通过描述需求,让 AI 帮找符合自己要求的应用

              腾讯表示,“吐司”并未过度强调技术门槛的降低,而是聚焦于“灵感实现”与“共创”两大核心,旨在让没有任何代码基础的人,也能把自己的一个念头变成一个真实可用的 App。用户可以将自己创作的应用发布到广场供他人体验,其他用户也能基于已有的应用模板进行二次创作,未来也支持上架与下载,形成“想法 → 应用 → 分发 → 共创”的闭环生态。

            3. Hermes Agent 深度介绍与 OpenClaw 对比分析

              Hermes Agent 是 Nous Research 于 2026 年 2 月底开源的自我进化型 AI 智能体框架,截至 5 月初在 GitHub 上已突破 10 万星标,成为 2026 年增长最快的开源项目之一。这个基于 Python 的轻量级框架最大的特点是”越用越聪明”——它能从每次任务中自动学习,自己创建和改进技能,构建长期记忆。

              核心定位差异

              Hermes Agent 和 OpenClaw 虽然都是 AI Agent 框架,但在设计理念上有本质区别。Hermes Agent 是一个单核心智能体,像一个专注的”自动化员工”,通过持续学习来提升自己的能力;而 OpenClaw 则是一个全平台控制中枢,更像是管理多个 AI 资源和能力的”调度中心”,强调多智能体编排和生态整合。

              从技术栈来看,Hermes Agent 采用 Python 编写,代码结构清晰,核心逻辑围绕run_agent.py展开,新手容易上手;OpenClaw 则使用 TypeScript,采用 Gateway + 编排架构,系统更复杂但扩展能力更强。

              Hermes Agent 的核心能力

              自我进化机制

              Hermes Agent 最具颠覆性的功能是闭环学习系统(Closed Learning Loop)。当你完成一个复杂任务后,Agent 会自动将解决方案封装成可复用的 Skill;如果任务执行出错,它会自动生成 Patch 修复;当用户纠正它的行为时,它会自动更新工作流。官方将这些 Skills 定义为”程序性记忆”(Procedural Memory),意味着今天教过的事情,明天就不需要再重复。

              分层记忆系统

              Hermes Agent 提供五层记忆架构:

              1. 上下文窗口:记录当前对话的实时内容
              2. 提示词记忆:存储核心指令和偏好
              3. 过程记忆:即自动生成的 Skills
              4. 会话搜索:基于 FTS5 全文索引的历史对话检索
              5. 用户建模:通过 Honcho 框架构建用户偏好模型

              这种设计使得 Agent 能够跨会话保持连续性,真正实现”越用越懂你”的效果。

              多平台接入能力

              Hermes Agent 支持 14+ 平台的统一接入,包括命令行 CLI、Telegram、Discord、Slack、WhatsApp、Signal、Email、Home Assistant 等。只需启动一次hermes gateway命令,就能在所有平台上同时提供服务,这对于个人助手和团队协作场景非常实用。

              模型与工具生态

              框架原生支持 118 个内置工具,覆盖代码开发(GitHub、Shell、Docker)、Web 检索、图像生成、文本转语音、MLOps 等场景。更重要的是,它完整支持 Model Context Protocol (MCP),可以接入社区上任何 MCP Server,实现工具能力的无限扩展。

              在模型支持方面,Hermes Agent 不绑定任何厂商,支持 OpenAI、Anthropic Claude、Google Gemini、OpenRouter(200+ 模型)、GLM、Kimi、MiniMax 以及任何 OpenAI 兼容的自定义端点。切换模型只需一条hermes model命令,完全无需修改代码。

              OpenClaw 的独特优势

              尽管 Hermes Agent 来势汹汹,OpenClaw 凭借其 35.5 万+ GitHub 星标和成熟的企业级架构,在某些场景下仍然具有不可替代的优势。

              企业级架构

              OpenClaw 采用”网关-节点-渠道”三层解耦架构,原生支持多账号、多通道、多智能体路由。它提供完整的 Web 控制台、防火墙、调度系统和权限体系,适合需要 7×24 小时稳定运行的生产环境。

              成熟的插件生态

              OpenClaw 拥有 ClawHub 技能市场,支持多目录优先级、一键安装、安全白名单等企业级特性。截至 2026 年初,OpenClaw 内置技能数已超过 100 个,社区生态极为庞大,这是 Hermes Agent 短期内难以追赶的优势。

              丰富的内置功能

              OpenClaw 内置了浏览器控制、语音交互(唤醒词 + 对话)、可视化工作区(Canvas)、定时任务、节点管理和移动端原生应用。这些功能在 Hermes Agent 中需要通过扩展实现,而在 OpenClaw 中是开箱即用的。截至 5 月初,OpenClaw 保持着约每两天一次的版本更新频率,最新版本为 v2026.4.29。

              技术对比细节

              Skills 技能系统

              这是两者最大的差异点。Hermes Agent 支持 Agent 自己创建、修改、打补丁和删除技能,将技能视为可进化的”程序性记忆”;OpenClaw 则强调技能的平台化管理,通过 ClawHub 实现技能的分发、安装和版本控制。前者更适合个人深度定制,后者更适合团队协作和知识共享。

              记忆与检索

              Hermes Agent 采用MEMORY.md+ FTS5 全文索引 + 用户档案的内生化记忆设计,提示词更稳定;OpenClaw 则提供向量搜索 + 关键词混合检索,支持多智能体记忆共享/隔离,并通过 Markdown + SQLite 索引实现系统化管理。

              安全性对比

              在安全性方面,两者呈现明显差异。Hermes Agent 截至 5 月初尚无公开的 CVE 安全漏洞记录;而 OpenClaw 在 2026 年 3 月曾在 4 天内集中披露 9 个 CVE,最高 CVSS 评分达 9.9(极危险级别),涉及第三方技能数据泄露等问题。OpenClaw 目前已有超过 13.5 万个公开暴露的实例分布在 82 个国家,社区恶意技能拦截率约为 17%。

              Token 消耗

              Claude Code 与 OpenClaw 的对比研究显示,OpenClaw 因多模型适配和结构化参数导致 Token 消耗较高。Hermes Agent 采用轻量级设计,Token 消耗相对较低,对于个人长期使用场景更经济。

              部署灵活性

              Hermes Agent 支持 6 种终端执行后端:Local(本地)、Docker(容器隔离)、SSH(远程执行)、Daytona(云端可休眠环境)、Singularity(HPC/GPU 集群)和 Modal(Serverless)。这种设计使得它既能跑在 5 美元/月的 VPS 上,也能部署在企业 GPU 集群里。

              OpenClaw 则以本地和云端部署为主,阿里云和腾讯云都提供一键部署方案,适合需要稳定托管的团队用户。

              增长数据对比

              Hermes Agent 增长轨迹

              Hermes Agent 的增长速度令人瞩目:

              2 月 25 日:正式开源发布

              3 月 11 日:突破 2.2 万星标,242 位贡献者

              4 月 8 日:发布 v0.8.0 版本,单日新增 6400 星

              4 月 11 日:达到 5.72 万星标,274 位贡献者,生态系统项目 80+

              4 月 17 日:突破 9.7 万星标

              5 月 2 日:超过 10 万星标,成为 GitHub 历史上前 0.0014% 的顶级项目

              整个生态系统的总星标数已达 9 万+,社区开发了 80+ 个生态项目,包括 4 个社区 GUI(支持桌面端、Web 端和 PWA)。

              OpenClaw 数据现状

              OpenClaw 截至 5 月初的数据显示:

              GitHub 星标:35.5 万+(5 个月内增长)

              npm 依赖包:88+ 个直接依赖 OpenClaw

              版本发布频率:约每两天一次

              最新版本:v2026.4.29(2026 年 4 月 30 日发布)

              虽然 OpenClaw 的绝对星标数远超 Hermes Agent,但 Hermes Agent 在 10 周内达到 10 万星的速度创下了开源项目历史纪录。

              适用场景选择

              选择 Hermes Agent 的情况

              个人长期 AI 助手:希望 Agent 能记住你的习惯和偏好,越用越顺手

              轻量级部署:预算有限(5 美元 VPS),不需要复杂的多智能体编排

              模型自由切换:需要频繁尝试不同模型,不希望被单一厂商锁定

              编码与自动化:在 OpenRouter 生产力榜单上,Hermes 在编码场景表现优异

              智能家居集成:原生支持 Home Assistant,适合家庭自动化场景

              安全优先:目前无已知 CVE 漏洞

              选择 OpenClaw 的情况

              企业级生产环境:需要多账号、多通道、故障转移和模型热切换

              团队协作:多人共用、需要权限管理和会话持久化

              成熟插件需求:依赖现有的庞大插件生态快速构建能力

              自媒体与运营:群控、多平台自动化运营、定时任务

              可视化管理:需要 Web 控制台、Canvas 等图形化界面

              科研自动化:在学术搜索、LaTeX 编译等科研工具市场有成熟应用

              快速上手

              Hermes Agent 的安装非常简单,只需一行命令:

              curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

              安装完成后,运行配置向导:

              hermes setup

              配置模型和平台hermes# 启动交互式 CLI


              对于需要接入多个主流模型的开发者,可以在 setup 时选择”Custom OpenAI-compatible endpoint”,填入兼容的 API 端点,实现一次配置即可调用 GPT-5、Claude Opus 4.6、Gemini 3 Pro 等所有主流模型。

              社区趋势

              截至 2026 年 5 月初,Hermes Agent 发布仅 10 周就突破 10 万 GitHub 星标,创下开源项目历史增速纪录。OpenClaw 虽然以 35.5 万星标保持总量优势,但在安全性和更新频率上面临挑战。社区普遍认为 2026 年将是 Hermes Agent 与 OpenClaw “双雄争霸”的格局。

              一句话总结:如果你想要一个会自己变强、安全性更高的智能助手,选 Hermes;如果你需要多账号、多通道的成熟企业级调度平台,选 OpenClaw。

            4. Hermes Agent 实用WebUI上线 堪称效率提效神器

              项目地址

              目前这个项目才刚上线不久,虽然star不多,但是实用性是真的赞。

              项目地址:

              https://github.com/EKKOLearnAI/hermes-web-ui

              先给大家介绍一下简单的安装步骤。

              安装步骤

              如果你是Debian/Ubuntu/macOS等操作系统,直接使用如下命令,自动完成安装:

              bash <(curl -fsSL https://raw.githubusercontent.com/EKKOLearnAI/hermes-web-ui/main/scripts/setup.sh)

              如果你是通过Windows的WSL子系统安装的Hermes Agent,那你可以通过如下命令安装:

              bash <(curl -fsSL https://raw.githubusercontent.com/EKKOLearnAI/hermes-web-ui/main/scripts/setup.sh) hermes-web-ui start

              此外WSL子系统你还可以通过如下命令快速安装:

              npm install -g hermes-web-ui

              注意:要提前安装Node.js才行。

              安装还是很方便的,下面说说如何使用,我的系统是Windows的WSL子系统,以下操作均由该系统中实操演示。

              启动Hermes WebUI

              启动命令:

              npx hermes-web-ui start

              这样我们就会得到一个本地启动的地址。

              将这个地址复制粘贴到浏览器就可以访问你的Hermes Agent了。

              整体采用框架式结构,符合中国人的使用习惯。

              有几个出彩的功能给大家介绍一下。

              多渠道集成

              就是进来默认的“对话”菜单,这里将你配置的多个渠道(CLI,飞书,微信,QQ,Telegram,Discord,WhatsApp,Slack)等都集成在这里了,你不需要打开每个聊天工具就可以直接在这里对话了。

              我这里连了Hermes默认的CLI命令窗口,飞书还有Telegram,每个渠道的信息都集成在这里,这其实有点类似多Agent的功能,每个渠道的对话都是互相独立的,这弥补了Hermes配置多Agent困难的缺点。

              而且是可以直接在这个WebUI上发送消息到指定渠道的,非常方便。

              定时任务

              这个也是很方便的一个功能,虽然你直接给AI口述也可以,但是这里如果是手动配置的话,可以节省点Token。

              直接按照弹出对话框进行配置即可,重点是下面的提示词需要你自己写清楚,这样Hermes Agent才能高效工作。

              频道设置

              这个主要是设置聊天渠道的一些内容,主要是配置一些群聊里机器人是否需要被@才回答问题,以及每个频道的一些凭证信息。

              技能设置

              这里是启动和关闭一些技能的功能,技能不是说放在目录里就一定会被使用的,你关闭了之后Agent就不会再去调用这个技能了。

              点开技能可以看到每个技能的描述和具体功能。

              记忆设置

              与Openclaw类似,Hermes Agent也可以设置一些长期记忆和SOUL文件,不过你直接使用默认的其实就很好用了,这里我只是告诉他回复用中文。

              模型设置

              这是我最喜欢的功能之一了,可以快速配置模型。

              只需要按系统默认提供的表单,提供对应的API-Key,一个模型就配好了。非常方便。

              查看日志

              这里主要是查看Hermes Agent在执行过程中产生的一些日志文件,包括报错信息和网关信息。

              用量信息

              这里可以看到你每天通过Hermes Agent消耗了多少Token,非常实用。

              其它

              此外还有几个比较方便的功能,例如在线切换模型,切换WebUI语言和皮肤。

              这些功能几乎都是我们在日常使用中常用的一些功能。

            5. 一篇看懂海外 5 家顶尖 AI 公司都在做什么

              最近看了很多 AI 产品和行业动态,会发现现在海外 AI 圈里,真正值得重点关注的,基本绕不开这 6 家公司:OpenAI、Google、Meta、xAI、Microsoft、Anthropic。

              下面说说个人看法。

              OpenAI 大家最熟,ChatGPT 几乎已经成了很多人接触 AI 的第一入口。它厉害的地方,在于把通用 AI 助手这件事,真正带进了普通人的日常工作和生活里。

              Google 的优势是技术积累深、产品线也很完整。Gemini、NotebookLM、Veo、NanoBanana 放在一起看,会发现它想做的远不只是聊天助手,更像是在搭一整套 AI 生态。

              Meta 这家公司很有代表性,一边做 Meta AI,一边持续推进 Llama 这样的开放模型。很多开发者会一直盯着它,看中的就是它对开源 AI 生态的影响力。

              xAI 这两年热度很高,核心产品是 Grok。整体风格会更偏实时、话题感强、讨论度高,所以它每次有新动作都很容易引发关注。

              Microsoft 的思路很清晰,就是把 AI 真正塞进办公和企业流程里。Copilot 这条线如果持续跑起来,影响的会是大量真实工作场景,这一点其实很关键。

              Anthropic 也很值得看。它的代表产品是 Claude,很多人会把它当成日常写作、分析和长文本处理的重要工具。我的感受是,Anthropic 在模型能力、产品体验和企业使用场景这几个方向上,都做得很稳。就是对中国太不友好了。

              那么,你最看好哪一家 AI 公司?

            6. Agent 记忆系统的设计哲学——从对话上下文到长期记忆的演进

              最近在设计一个对话 Agent 的记忆模块时,我反复思考一个问题:为什么人类的记忆是分层的,而我们的 Agent 却常常把一切都塞进上下文窗口?

              从”全量记忆”的困境说起

              早期的对话系统倾向于把所有历史对话都塞进 context window。这种方法简单直接,但很快会遇到瓶颈:

              1. Token 成本爆炸 – 多轮对话后,每次调用都在为历史包袱付费
              2. 注意力稀释 – 关键信息被淹没在海量上下文里,模型反而抓不住重点
              3. 无法遗忘 – 人类会遗忘无关细节,但系统却固执地记住每一句废话

              分层记忆模型

              人类记忆分为工作记忆(短期)和长期记忆。这个设计非常精妙:

              • 工作记忆:保持对当前任务最关键的信息,容量有限但访问极快
              • 长期记忆:存储抽象化、结构化的知识,需要时通过线索检索

              我尝试将这种架构引入 Agent 系统:

              ┌─────────────────┐     ┌──────────────────┐
              │   工作记忆层      │────▶│   长期记忆层      │
              │  (Context)      │     │  (Vector Store)  │
              │ - 最近 N 轮对话  │      │ - 用户画像        │
              │ - 当前任务状态    │     │ - 重要事实        │
              │ - 临时变量       │     │ - 经验总结        │
              └─────────────────┘     └──────────────────┘
                      │                       │
                      └───────────┬───────────┘
                                  ▼
                         ┌────────────────┐
                         │  记忆管理器     │
                         │ - 重要性评分    │
                         │ - 抽象化压缩    │
                         │ - 检索触发器    │
                         └────────────────┘

              关键设计决策

              1. 记忆压缩策略

              不是所有对话都值得记住。我采用了一个简单的评分公式:

              score = (relevance * 0.4 + recency * 0.3 + emotional_weight * 0.3)

              超过阈值的片段会被抽象成结构化数据存入长期记忆,原始对话则被丢弃。

              2. 检索触发器

              长期记忆不是被动查询的,而是主动触发的。当用户提到某个关键词时,相关的记忆片段会”浮现”到工作记忆中。这有点像人类的联想记忆。

              3. 允许遗忘

              最反直觉的设计是:主动删除。每隔一段时间,系统会清理低分记忆。这不仅是成本控制,更是为了让 Agent 保持”专注”。

              一点感悟

              设计记忆系统的过程,让我重新思考”智能”的本质。也许真正的智能不在于记住多少,而在于知道该记住什么、遗忘什么

              我们的 Agent 系统是否也在追求错误的方向?我们拼命扩大 context window,却忽略了人类大脑用几百万年进化出的分层记忆机制。

            7. GPT-5.5 Instant全员免费

              OpenAI 把 ChatGPT 默认模型升级为 GPT-5.5 Instant,日常问答更快更准,还能智能利用历史聊天,减少废话和错误,让对话体验更自然。

              核心内容点:

              1. 幻觉减少:高风险领域错误率下降约 50%
              2. 回答精炼:减少啰嗦和无关信息
              3. 历史记忆:自动参考你的过去聊天记录
              4. 多模态提升:图片分析、数学、科学题表现更优

              官方介绍: https://openai.com/index/gpt-5-5-instant/

              OpenAI深夜放出重磅更新——GPT-5.5 Instant模型正式上线,并已取代旧版成为ChatGPT的默认模型所有用户均可免费使用

              这次更新有三大变化,与你日常使用体验息息相关:

              1. 更聪明:幻觉暴降52%,数学能力跃升 在关键能力测试中,新模型表现抢眼:

              • 数学(AIME 2025):得分从65.4%提升至81.2%
              • 博士级科学推理(GPQA):准确率从78.5%升至85.6%
              • 多模态推理(MMMU-Pro):分数从69.2%拔高到76.0%

              更实用的是,在高风险领域(如医疗、法律、金融)的幻觉率降低了52.5% ,这意味着它胡编乱造的概率大大减少,回答更可信。

              2. 更简洁:回复字数砍掉三成,告别表情包轰炸 很多人抱怨过ChatGPT话太多、爱用表情包。这次,官方明确优化了这一点:

              • 回复字数平均减少 30.2%
              • 回复行数平均减少 29.2%
              • 并针对性减少了“无意义的表情符号”

              简单说,新模型知道什么时候该长话短说,给你干脆利落的答案。

              3. 更懂你:能“记住”你的聊天记录,提供个性化回复 这是本次升级最令人惊喜的变化。GPT-5.5 Instant可以主动调用你过往的聊天记录、上传的文件(甚至未来连接的邮箱)来提供上下文。

              例如,同样问“推荐一家茶饮店”,旧模型给的是泛泛的本地列表;而新模型会知道你平时偏爱哪种风格的茶,并据此推荐。它真的开始“了解”你了。

              为此,OpenAI还同步上线了 “记忆来源” 功能,让你能查看、修改或删除AI具体引用了哪些你的历史信息。把“记住什么”的决定权交还给你。


              其他你需要知道的变化:

              设计理念的进化:从过去过度讨好用户,到变得僵硬谨慎,再到如今追求“准确、精炼且懂你”的平衡,这是OpenAI回应反馈、持续调整的结果。

              过渡期安排:GPT-5.3 Instant将在三个月后完全退役。付费用户在此期间可手动切换回旧版。

              功能开放节奏:基于聊天记录的个性化功能,目前先向网页端的Plus和Pro用户开放,免费及其他用户将在未来几周内获得权限。

            8. DeepSeek新模型押注国产芯片 筑牢人工智能产业根基

               “这标志着重大战略转变,其重心正从依赖美国半导体,转向中国本土人工智能(AI)基础设施。”

              据路透社4月29日报道,DeepSeek-V4发布后,字节跳动、腾讯和阿里巴巴正在抢购华为国产芯片。

              这是一场低调但不可逆的集体转身,国产芯片加速落地,依托本土硬件搭建的算力底座,正在加速成型。

                日前,美国科技企业英伟达创始人兼首席执行官黄仁勋,已发出预警。

                他在访谈中直言:若DeepSeek的最新一代大模型,率先选择在华为先进芯片平台上发布并全面适配,“那么这对美国在全球人工智能领域的战略地位而言,无疑将是一个灾难性的打击。”

                黄仁勋真正担忧的是:当中国顶尖大模型与国产算力基座完成绑定,美国长期推行的芯片封锁,就会失去关键抓手。

                现在,这条链路的关键一环得到落地。

                4月24日上线的DeepSeek-V4新款大模型,首次把华为昇腾芯片和英伟达芯片并列写进硬件验证清单。

                适配的华为昇腾新款推理芯片,采购价格仅为英伟达的四分之一,单卡算力却比英伟达对华特供版提升了2.87倍,性价比优势十分突出。

                这是一套经过检验的、高性能的“国模+国芯”方案,其成本账和安全账极具诱惑力。

                曾几何时,缺芯一直是核心瓶颈。特别是在模型训练这一关键领域,国产芯片长期缺席,或者只能参与边缘性任务。

                如今拐点已至。中国多款大模型密集完成国产芯片适配,2026年也被业界称为“国产AI芯片训练落地元年”。

                外界难免疑问:大模型能否在国产硬件上稳定高效运行?

                DeepSeek坦承:新款模型的能力水平仍落后于同期主要对手,发展轨迹大约滞后前沿闭源模型3至6个月。

                不等外界质疑、没有刻意美化,而是主动揭短、正视差距,背后藏着务实的逻辑:在技术代差客观存在的竞争里,虚心追赶远比假装领先更有价值。

                从核心参数和实测表现来看,新模型的局部突破十分亮眼。

                如,1.6万亿总参数、百万词元(Token)超长上下文全系标配;在数学、硬核科创、竞赛代码领域,新款模型高性能版已超越所有已公开评测的开源模型,比肩主流闭源模型。

                尤其在智能体编程上,它拿下了开源榜单第一,被誉为“编程神器”。

                一边理性承认整体代差,一边在细分领域实现突围,更在成本层面拉开碾压式差距。

                DeepSeek-V4-Pro模型API已开启2.5折限时价格特惠,输入价格低至0.25元/百万词元。而GPT-5.5 Pro加权平均输入价格为30美元/百万词元,折算后价格与DeepSeek-V4-Pro相差超过700倍。

                细数国际上的主流大模型,如Anthropic Claude Opus系列、OpenAI GPT-5.4以及谷歌Gemini 3.1 Pro系列大模型,其价格同样居高不下。

                性能追到只差3至6个月,成本却拉开量级鸿沟。一场不对称竞争已然开启。

                这不是单颗芯片的胜利,而是整套国产算力的成熟。实测数据显示,脱离英伟达生态后,新款模型端到端延迟比原有集群低35%。

                这意味着,国产算力迈入稳定高效的“好用”阶段。

                高盛最新研报称,随着华为昇腾950今年下半年大规模供货,新款模型的定价将迎来大幅下降。此举不仅强化了DeepSeek的成本竞争力,更为中国顶尖大模型向国产算力迁移提供强有力的背书。

                更关键的是,DeepSeek的选择,不是孤例。

                放眼国内头部玩家,阿里通义千问、智谱清言、百川智能、字节豆包等,都在同步推进极致性价比、先进性能追赶和开源生态构建。

                各家路径虽有差异,但方向高度一致:摆脱外部依赖,筑牢本土产业链。

                中国科技企业采购华为芯片,不是单纯的情怀选择,而是兼顾成本核算、供应链安全、产业自主的理性决策。

                以国产芯片为基石,自主可控的算力底座持续完善,中国人工智能产业的长期底气,正在一步步夯实。