作者： stark, tony

谷歌 Gemini 要放大招啦！Nano Banana2 图像生成技术升级来袭

宝子们，有个超重磅的消息！谷歌正紧锣密鼓准备发布 AI 图像生成模型 Nano Banana2，内部代号 “GEMPIX2”，从 Gemini 官方网站新增公告来看，未来几周可能就会和我们见面啦！

Nano Banana 系列可是谷歌 DeepMind 团队的王牌。从 2025 年 8 月 26 日首代推出后就超火，在早期预览时就登顶 LMArena 图像编辑排行榜，“多轮对话” 交互和角色保持功能超棒，能轻松融合照片、改背景、生成艺术风格图像，短短几周就吸引 1000 万新用户加入 Gemini 生态，有 2 亿多次图像编辑操作呢！

这次 Nano Banana2 曝光，从 Gemini UI 界面的预告卡片和技术指标看，它会延续创意焦点，为专业创作者和开发者优化视觉生成速度和艺术风格多样性，还可能和 Gemini3.0 系列深度整合，提升多模态处理能力，比如视频概述的自定义视觉风格生成。

虽然谷歌还没公布具体细节，但感觉发布就在眼前啦，说不定会和 NotebookLM、Google Photos 等产品更新一起出现。首代模型让 Gemini 月活用户突破 6.5 亿，这次 Nano Banana2 到来，有望进一步缩小和对手差距，给创意产业注入新活力。而且谷歌强调生成图像都会标注水印来保证合规。

大家对 Nano Banana2 有什么期待呀？快来评论区聊聊！

#谷歌 Gemini #NanoBanana2 #图像生成技术 #AI 创新 #生成式 AI

2025年11月7日
还在苦哈哈做 PPT？谷歌 Gemini 一键生成 PPT 来救你啦！

宝子们，繁琐的 PPT 制作时代可能真的要终结啦！谷歌给 AI 助手 Gemini 推出超实用新功能，在 Gemini 的互动工作区 Canvas 里，只要输入一句话提示，就能自动生成超专业的 PPT 哦，个人用户和 Google Workspace 账户都能使用！

这个功能超智能，“快” 且 “准”。要是没有特定资料，像输入 “创建一份关于气候变化的演示文稿”，它就能自动组织内容框架、匹配主题风格还能插入相关图片；要是有现成素材，上传 Word 文档、PDF 报告或者 Excel 表格，它就能提取关键信息，转化成逻辑清晰的幻灯片内容。

而且生成的可不是静态成品，能直接导出到 Google Slides，在这基础上可以自由调整排版、增删内容，还能和团队成员实时协作，妥妥 “AI 起草 + 人工优化” 的高效工作流。

这可是谷歌自今年 3 月推出 Canvas 工作区后的重要迭代，从最初支持文本与代码协同编辑，到现在扩展至多模态内容生成，Gemini 正朝着深度生产力工具大步迈进！

宝子们有用过这个功能的吗？快来评论区分享下使用感受呀！

# 谷歌 Gemini #PPT 生成 #Canvas 工作区 #办公新技能 #AI 助力办公

2025年11月1日
🛠️AI编程CLI工具对比与剖析
🤖 Claude Code CLI

Claude Code CLI 由 Anthropic 推出，基于其 Claude 大模型（如 Opus 4、Sonnet 4），是一款强调强大推理能力和深度代码理解的命令行智能编程助手。

优点：
- 深度代码理解与复杂任务处理：Claude Code 能深度理解代码库结构和复杂逻辑关系，支持数十万 token 的上下文窗口，能进行高效的多文件联动操作和跨文件上下文理解，尤其擅长处理中大型项目。
- 子代理架构与强大工具集：其支持子代理（sub-agent）架构，能智能地将复杂任务拆分为多个子任务并行处理，实现类多智能体协作。内置工具集丰富且专业，包括更精细的文件操作（如 MultiEdit 批量修改）、高效的文件检索（Grep 工具）、任务管理与规划（TodoWrite/Read，Task 子智能体），以及深厚的 Git/GitHub 集成能力，能理解 PR、审查代码、处理评论等。
- 与企业级工具链集成：Claude Code 不仅能与 IDE 无缝集成，直接在 IDE 的差异视图中展示代码变更，还支持以 GitHub Actions 方式集成到 CI/CD 流程中，允许在 PR 或 Issue 的评论中 @claude 让其自动分析代码或修复错误。
- 精细的权限控制与安全性：提供了一套非常完善和精细的权限控制机制，允许用户通过配置文件或命令行参数精确控制每个工具的权限，例如允许或禁止某个 Bash 命令，限制文件的读写范围，设置不同的权限模式（如 plan 模式只读不写）。在企业环境下，系统管理员还可以强制执行用户无法覆盖的安全策略。
缺点：
- 商业付费产品，订阅费用较高。
- 图像识别能力相对较弱：在处理界面截图的理解分析和设计稿转代码任务时，其精准度和还原度可能不如一些竞品。
能力范围：

Claude Code CLI 非常适合中大型项目开发、需要长期维护的代码库，以及那些对代码质量要求高，需要 AI 辅助进行深度调试、重构或优化的场景。它在企业级安全、功能完整性和生态系统方面较为成熟。

使用方法：

通常通过 npm 进行全局安装：npm install -g @anthropic-ai/claude-code。安装后运行 claude login 进行 OAuth 认证流程。首次运行时会引导进行账户授权和主题选择，完成后即可进入交互模式。用户可以通过自然语言指令指挥 AI 完成代码生成、调试、重构等操作。

🔮 Gemini CLI

Gemini CLI 是 Google 开源的一款命令行 AI 工具，基于强大的 Gemini 2.5 Pro 模型，旨在将终端变为一个主动的开发伙伴。

优点：
- 免费开源与慷慨额度：采用 Apache 2.0 许可证开源，透明度高。个人 Google 账户用户可享受每分钟 60 次请求、每天 1000 次请求的免费额度，这在同类工具中极具竞争力。
- 超长上下文支持：支持高达 100 万 token 的上下文窗口，能轻松处理大规模代码库，甚至一次性读取整个项目，非常适合大型项目。
- 终端原生与强大代理能力：专为命令行界面设计，能最小化开发者的上下文切换。它采用“思考-行动”（ReAct）循环机制，结合内置工具（如文件操作、shell 命令）和模型上下文协议（MCP）服务器，能完成复杂任务如修复错误、创建新功能等。
- 高度可扩展性：通过 MCP 服务器和捆绑扩展，以及 GEMINI.md 文件进行自定义提示和指令，具有很高的可定制性。
缺点：
- 指令执行与意图理解的精准度有时不如 Claude Code，表现稍逊色。
- 免费版存在数据安全隐患，用户数据可能被用于模型训练，不适合处理敏感或专有代码。
- 输出质量可能存在波动，用户反馈显示 Gemini-2.5-pro 有时会自动降级为性能较弱的 Gemini-2.5-flash 模型，导致输出质量下降。
- 与企业级开发环境的集成相对薄弱，更多被定位为一个独立的终端工具。
能力范围：

Gemini CLI 凭借其超大上下文窗口和免费特性，非常适合个人开发者、快速原型构建以及探索性编程任务。它适合处理大型代码库，但在复杂逻辑理解和与企业级工具链的深度集成上相对较弱。

使用方法：

通过 npm 安装：npm install -g @google/gemini-cli。安装后运行 gemini 命令，首次运行会引导用户进行 Google 账户授权或配置 Gemini API Key（通过环境变量 export GEMINI_API_KEY=”你的API Key”）。

🌐 Qwen Code CLI

Qwen Code CLI 是阿里巴巴基于 Gemini CLI 二次开发优化的命令行工具，专门用于激发其 Qwen3-Coder 模型在智能体编程任务上的潜力。

优点：
- 针对 Qwen3-Coder 深度优化：为 Qwen3-Coder 系列模型（如 qwen3-coder-plus）定制了提示词和函数调用协议，能最大程度激发其在 Agentic Coding 任务上的表现。
- 支持超长上下文：依托 Qwen3-Coder 模型原生支持 256K token，并可扩展至 100 万 token，适合处理中大型项目。
- 开源且支持 OpenAI SDK 格式：方便开发者通过兼容的 API 调用模型。
- 广泛的编程语言支持：模型原生支持多达 358 种编程和标记语言。
缺点：
- Token 消耗可能较快，尤其使用大参数模型（如 480B）时成本较高，需密切关注使用量。
- 对复杂任务的理解和执行可能有时会陷入循环或表现不如顶级模型。
- 工具调用的理解精度有时可能存在偏差。
能力范围：

Qwen Code CLI 尤其适合关注或偏好 Qwen 模型的开发者，以及需要进行代码理解、编辑和一定工作流自动化的场景。它在代理编码、长上下文处理等方面表现不俗。

使用方法：

通过 npm 安装：npm install -g @qwen-code/qwen-code。安装后需要配置环境变量指向兼容 OpenAI API 的阿里云 DashScope 端点，并设置相应的 API Key：export OPENAI_API_KEY=”你的API密钥”、export OPENAI_BASE_URL=”https://dashscope-intl.aliyuncs.com/compatible-mode/v1″、export OPENAI_MODEL=”qwen3-coder-plus”。

🚀 CodeBuddy

CodeBuddy 是腾讯云推出的 AI 编程助手，严格来说它不仅仅是一个 CLI 工具，而是一个集成了 IDE 插件等多种形式的AI编程助手，但其核心能力与 CLI 工具有很多重叠和可比性，并且深度融合了腾讯自研的混元大模型和 DeepSeek V3 模型。

优点：
- 产设研一体化：集成了需求文档生成、设计稿转代码（如 Figma 转生产级代码，还原度高达99.9%）及云端部署功能，实现从产品设计到研发部署的全流程 AI 一体化开发。
- 本土化优化与腾讯生态集成：专为中国开发者优化，提供更好的中文支持，并深度集成腾讯云服务（如 CloudBase），支持一键部署。
- 双模型驱动：集成腾讯混元大模型和DeepSeek V3 模型，提供高精度的代码建议。
- 可视化体验：提供 Webview 功能，可在 IDE 内直接预览代码调试成果，交互体验流畅。
缺点：
- 部分功能交互（如 @ 符号交互）可能需要进一步简化以提升操作便捷性。
- 在大项目中代码扫描速度可能较慢。
- 与 VSCode 等编辑器的插件兼容性仍有待增强。
- 目前使用可能需要邀请码。
能力范围：

CodeBuddy 非常适合需要全栈开发支持、希望从设计到部署全流程AI辅助、以及深度融入腾讯云生态的开发者与企业。它尤其适合快速验证 MVP、加速产品迭代。

使用方法：

CodeBuddy 主要作为 IDE 插件（如 VS Code 插件）使用，也可以在独立 IDE 中运行。用户通常需要安装插件并登录腾讯云账号即可开始体验其代码补全、Craft 模式等功能。

总而言之，Claude Code CLI、Gemini CLI、Qwen Code CLI 和 CodeBuddy 各有侧重，都在积极探索如何用自然语言更好地辅助和变革编程工作流。选择哪一款，取决于你的具体需求、技术栈、预算以及对不同生态的偏好。理解它们的技术原理和面临的挑战，也能帮助我们更理性地看待和应用这些强大的工具，让 AI 真正成为开发过程中的得力助手。CodeBuddy 主要作为 IDE 插件（如 VS Code 插件）使用，也可以在独立 IDE 中运行。用户通常需要安装插件并登录腾讯云账号即可开始体验其代码补全、Craft 模式等功能。
2025年10月23日
牛！字节跳动融合 LLaVA 与 SAM-2 打造 Sa2VA，多模态新宠诞生✨

宝子们，字节跳动又在 AI 领域放大招啦！它和多所高校研究团队合作，把先进的视觉语言模型 LLaVA 和分割模型 SAM – 2 结合，推出了超厉害的新模型 Sa2VA🎉

LLaVA 是开源视觉语言模型，在视频宏观叙事和内容理解方面很擅长，可在细节指示上有点吃力。SAM – 2 呢，是出色的图像分割专家，能识别分割图像里的物体，但缺少语言理解能力。为了取长补短，Sa2VA 通过一个简单高效的 “暗号” 系统，把这俩模型有效结合起来啦🧐

Sa2VA 的架构就像个双核处理器，一个核负责语言理解与对话，另一个核负责视频分割与跟踪。用户输入指令时，Sa2VA 生成特定指令 token，传给 SAM – 2 进行具体分割操作。这样两个模块在各自擅长的领域发挥作用，还能进行有效的反馈学习，让整体性能不断提升😎

研究团队还给 Sa2VA 设计了多任务联合训练课程，增强它在图像和视频理解方面的能力。在好多公开测试里，Sa2VA 表现超棒，在视频指代表达分割任务里尤其亮眼。它能在复杂真实场景里精准分割，还能在视频里实时跟踪目标对象，动态处理能力超强👏

而且哦，字节跳动开放了 Sa2VA 的多种版本和训练工具，鼓励开发者研究应用。这给 AI 领域的研究人员和开发者提供了丰富资源，推动了多模态 AI 技术发展。

这里附上项目地址👇

https://lxtgh.github.io/project/sa2va/

https://github.com/bytedance/Sa2VA

宝子们，你们对 Sa2VA 期待吗？快来评论区聊聊呀🧐

字节跳动 #Sa2VA #多模态智能分割 #LLaVA #SAM – 2 #AI 模型 #开源

2025年10月21日
牛了！Google 新框架助力 AI Agent 从错误中学习，超级智能体诞生？✨
宝子们，Google 在 AI 领域又搞出大动静啦！最近提出了 “Reasoning Memory”（可学习的推理记忆）这个革命性框架，要让 AI Agents 实现真正的 “自我进化”，简直太震撼啦👏

先说说当前 AI 代理的痛点。现在基于大型语言模型的 AI Agents 在推理和任务执行上表现不错，可它们普遍缺少可持续学习机制。AIbase 分析说，现有的智能体完成任务后不会 “成长”，每次执行都像重新开始，这就带来一堆问题，像重复犯错、没法积累抽象经验、浪费历史数据，决策优化也受限。就算加了记忆模块，大多也只是简单信息缓存，缺少对经验的概括、抽象和重用能力，很难形成 “可学习的推理记忆”，也就没办法真正自我改进😔

再看看 Google 的新框架。Reasoning Memory 框架是专门为 AI 代理设计的记忆体系，能积累、概括并重用推理经验。它的核心就是让代理从自身互动、错误和成功里提取抽象知识，形成 “推理记忆”。具体来说：
- 积累经验：代理不再把任务历史扔掉，而是系统记录推理过程和结果。
- 概括抽象：用算法把具体经验变成通用规则，不只是简单的 episodic 存储。
- 重用优化：在未来任务里调用这些记忆，根据过去经验调整决策，减少重复错误。
这个机制能让 AI 代理像人一样 “从错误中学习”，实现闭环自我进化。实验表明，配备这个框架的代理在复杂任务里性能提升超明显，这可是从静态执行到动态成长的大跨越呀😎

最后说说潜在影响。AIbase 觉得，这项研究能重塑 AI 应用生态。像自动化客服、医疗诊断、游戏 AI 这些领域，Agents 能不断优化自身策略，减少人为干预。从长远看，它填补了 LLM 代理的 “进化空白”，为构建更可靠的自主系统打下基础。不过也有挑战，比如记忆泛化能力和计算开销还得进一步验证。但不管怎样，Google 这一举动强化了它在 AI 前沿的领导地位，很值得行业关注🤩

宝子们，你们对 Google 这个新框架怎么看呀？快来评论区聊聊🧐

论文地址：https://arxiv.org/pdf/2509.25140

话题标签和关键词

#Google #AI Agent #自我进化 #Reasoning Memory #AI 框架 #AI 应用生态
2025年10月16日
哇塞！谷歌 Gemini 3.0 Pro 来袭，编程能力大突破，你期待吗✨

宝子们，人工智能竞争越来越激烈啦，谷歌的 Gemini 3.0 Pro 模型要登场啦，简直炸圈了👏

就在 OpenAI 的 Sora2 发布没多久，Gemini 3.0 的内测版本就在网上流出，开发者分享的实测结果超吸睛，尤其是在编程方面表现卓越🧐

据说 Gemini 3.0 下周就要正式上线咯，内测版本有 Gemini 3.0 Pro 和 Gemini 3.0 Flash 两个型号。开发者发现，Gemini 3.0 Pro 在好多编程测试里准确率超高，面对复杂代码生成和物理模拟任务，表现那叫一个亮眼😎

像在 “小球六边形重力摩擦” 测试中，它能精准模拟小球运动，合理体现物理定律，加速旋转、大小变化、环境阻力这些都能轻松搞定。生成 SVG 格式图像时也超厉害，能一键生成 “骑自行车的鹈鹕” 这种复杂图形。

不过呢，Gemini 3.0 Pro 也不是完美的。和 Claude Sonnet4.5 对比测试时，在六指手部视觉测试里没通过。而 Gemini 3.0 Flash 也获得了开发者好评，在旅行规划等特定问题上，解决速度和准确性都很惊人。

Gemini 3.0 Pro 的内测表现，看得出谷歌在编程领域实力超强，它马上要正式上线，让好多开发者满心期待。感觉一个新的编码时代真的要来了，说不定谷歌这款 AI 工具会引领未来开发趋势呢🤩

宝子们，你们对 Gemini 3.0 Pro 怎么看呀？快来评论区聊聊🧐

谷歌 #Gemini3.0Pro #内测流出 #编程能力 #模型上线 #AI 开发趋势

2025年10月10日
🤯ChatGPT 又搞大事！这次直接当「贴心私助」，睡觉都帮你干活！
宝子们谁懂啊！刚刷到 OpenAI 的新功能直接惊掉下巴！Sam Altman（就是 ChatGPT 大老板）亲自吹爆，说这是他「迄今为止最喜欢的功能」，到底有多牛？快跟我一起扒一扒！

✨新功能叫「ChatGPT Pulse」，彻底颠覆传统用法！

以前用 ChatGPT 得咱们主动问，问一句答一句，像个「被动答题机」；现在 Pulse 直接变身「主动小管家」，核心狠活就是 ——你睡觉的时候它偷偷干活，早上起来给你递现成干货！

而且目前是 Pro 订阅用户专属（氪金党先冲），后续会开放给 Plus，最终目标是所有人都能用！这波属于早用早香了～

🤖它到底能帮你做啥？举个栗子更直观！
- 你跟它提一句「想去波拉波拉岛旅游」，第二天直接收到当地天气 + 小众攻略 + 机票折扣，连你没注意的通勤信息都给你扒得明明白白！
- 说「我家娃 6 个月大啦」，立马推送婴儿发育里程碑 + 新手爸妈实操 Tips，比育儿博主还懂你需求！
- 连日历、邮件都能连！帮你写会议议程、提醒闺蜜生日要送礼物、出差时推荐当地好吃不踩雷的餐厅… 这不就是现实版「贾维斯」雏形吗！
💡最戳我的点：不搞「无限刷屏」！

现在的 APP 都想方设法让你刷不停，Pulse 反其道而行之！技术负责人直接说：「体验是有结束的，只为服务你，不是让你沉迷」！

每天推送的都是精挑细选的内容，看完就完事儿，每条只当天有效，不会让你陷进信息漩涡里 —— 这对爱刷手机又怕浪费时间的宝子也太友好了吧！

⚠️但有个小顾虑：隐私换便利，你能接受吗？

想让 Pulse「懂你」，得给它点「权限」：
- 会看你过去的 Chat 记录（得开「引用历史」）
- 连日历 / 邮件要手动点「接受」才给访问
虽然 OpenAI 说「数据处理和普通对话一样」，还搞了「多重安全过滤」，但具体咋过滤没说… 相当于「黑盒保护」，要不要交个人数据换便利，宝子们得自己掂量～

🌟未来可期：ChatGPT 要从「答题机」变「行动派」！

官方直接放话了：这只是第一步！未来的 ChatGPT 会更猛 —— 自动帮你定计划、按目标做事、关键时候主动提醒，甚至像「团队成员」一样跟你协作！

想想看：以后不用自己搜攻略、记日程、整理信息，AI 直接把活儿干了… 传统搜索引擎和资讯 APP，怕是要慌了！

目前 Pulse 还是早期版，已经有大学生实测真香：刚开始觉得一般，跟它说清楚自己想要啥后，直接被「举一反三」的能力惊到！比如有个潜水党说练潜水遇到困难，Pulse 不仅给建议，还把潜水和风险管理做类比，精准戳中兴趣点～

宝子们觉得这个新功能怎么样？会为了它冲 Pro 会员吗？或者担心隐私问题？评论区聊聊！👇

#ChatGPT 新功能 #AI 黑科技 #数码新品 #效率工具 #科技前沿
2025年9月26日
智能编程助手 Neovate Code 正式开源

蚂蚁集团支付宝体验技术部正式对外开源智能编程助手 Neovate Code，能够深度理解你的代码库，遵循既有编码习惯，并在上下文感知的基础上，精准地完成功能实现、Bug 修复和代码重构。它集成了 Code Agent 所需的核心能力。
GitHub：https://github.com/neovateai/neovate-code

目前，Neovate Code 以 CLI 工具的形态提供，但其架构设计高度灵活，未来将支持多种客户端形态，适配更多开发场景。

其主要功能包括：
对话式开发 – 用于编程任务的自然对话界面
AGENTS.md 规则文件 – 为你的项目定义自定义规则和行为
会话继续和恢复 – 跨会话继续之前的工作
支持流行的模型和提供商 – OpenAI、Anthropic、Google 等
斜杠命令 – 常用操作的快速命令
输出样式 – 自定义代码更改的呈现方式
计划模式 – 在执行前审查实现计划
无头模式 – 在没有交互提示的情况下自动化工作流
插件系统 – 用自定义插件扩展功能
MCP – 用于增强集成的模型上下文协议
Git 工作流 – 智能提交消息和分支管理
…

2025年9月26日
哇哦！DeepSeek 新动作，V3.1-Terminus 带来哪些惊喜？✨

宝子们，DeepSeek 又有新动态啦！最新模型 DeepSeek-V3.1-Terminus 闪亮登场咯👏

这个版本有思考模型和非思考模式两个版本，上下文度都是 128k。它是基于 DeepSeek-V3.1 进行的升级，有两项重大改进哦🧐一是语言一致性方面，缓解了中英文混杂、偶发异常字符这些情况，像之前提到的「极」字现象也有改善。二是 Agent 能力上，进一步优化了 Code Agent 与 Search Agent 的表现，让它们更出色啦。
DeepSeek 上次更新是 8 月 21 日，这才间隔一个月，新模型 DeepSeek-V3.1-Terminus 在多项测评里都胜过 Gemini 2.5 Pro 呢👍

不过在基准性能上，相对 DeepSeek-V3.1 整体只是略有升级，有些基准上还稍有下降。但在 Humanity’s Last Exam（人类最后考试）基准上，提升幅度超级大，高达 36.48%，从 15.9 一下子提升到了 21.7，这可太厉害啦😎

现在，DeepSeek-V3.1-Terminus 已经在 App、网页、API 上线啦。

这里还给大家附上两个地址👇
Hugging Face 地址：
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

ModelScope 地址：
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

对了，Terminus 这个词意思是 “终点”，这是不是在暗示这是 V3 系列最后一个版本，DeepSeek-V4/R2 很快就要来啦？真的好让人期待呀🤩

宝子们，你们对 DeepSeek-V3.1-Terminus 怎么看呢？快来评论区说说吧🧐

DeepSeek #DeepSeek-V3.1-Terminus #模型发布 #模型升级 #性能测评

2025年9月23日
牛了！MobiAgent 登场，号称超越 GPT – 5 的移动端智能体✨

宝子们，上海交通大学 IPADS 实验室团队搞出大事情啦！他们推出了全新移动端智能体工具链 MobiAgent🎉，这可不得了，直接打破了个人化智能助手的开发壁垒，还说在真实场景表现上比 GPT – 5 和其他顶级闭源模型都强👍

MobiAgent 超厉害的，它能让每个人都有机会打造属于自己的 AI 助手。这个工具链支持用户从零开始构建移动端智能体，从收集操作数据，到训练模型，再到部署到手机上，一整套流程都能搞定。而且它是开源的哦，用户可以自己获取数据、训练模型，在个人设备上就能用上智能助手，太方便啦🥰

研究团队为了验证它的实力，在国内 20 款热门应用里做了测试。结果显示，7B 规模的 MobiAgent 模型在任务完成评分上，把好多知名闭源大模型都比下去了，在同规模的开源 GUI 智能体里也是领先的👏 它独特的 “潜记忆加速器” 能学习历史操作，帮智能体快速完成重复任务，性能提升 2 – 3 倍呢。

MobiAgent 的核心在于高效的数据收集和智能训练流程。它用轻量级工具记录用户手机操作，再利用通用 VLM 模型生成高质量训练数据，经过精炼调整，让训练出的智能体泛化能力超棒。它的 “大脑” 分三部分：“规划师” 负责任务规划，“决策者” 根据屏幕做决策，“执行者” 执行具体操作。这样的架构让模型训练更高效，反应速度也大幅提升啦😎

还有创新的 AgentRR 加速框架，能借助以往操作经验，大幅提升重复任务执行效率，动作复用率最高能达到 60% – 85%。智能助手处理日常事务又快又准。

MobiAgent 的出现，不仅方便了个人智能助手定制化，还推动了移动智能体生态发展，感觉 “能动口就不动手” 的智能时代真的要来了🤩

宝子们，你们对 MobiAgent 期待吗？快来评论区聊聊呀🧐

论文地址：https://arxiv.org/pdf/2509.00531

#MobiAgent #上海交大 #AI 助手 #移动端智能体 #开源工具链 #性能超越

2025年9月12日