作者: stark, tony

  • ChatGPT “新规” 来袭!医疗、法律与财务建议禁止提供啦!

    宝子们,OpenAI 在 10 月 29 日对 ChatGPT 使用政策更新啦,这次可是明确禁止模型提供专业医疗、法律或财务建议哦!

    这么做主要是为了规避监管风险,降低误导大家的隐患,重新划定 AI 在高风险领域的应用界限。像解读医学影像、辅助诊断、起草或解释法律合同、提供个性化投资策略或税务规划这些,ChatGPT 都不能做啦。要是用户提出这类需求,系统会统一回复引导去咨询人类专家。而且这个政策覆盖了 ChatGPT 全部模型及 API 接口,保证执行的一致性。

    虽然专业人士还是能用它进行一般性概念讨论或者数据整理,但不能直接给终端用户输出 “受托性” 建议。这次调整是全球监管推动的,欧盟《人工智能法案》快生效了,对高风险 AI 严格审查,美国 FDA 对诊断类 AI 工具要临床验证。OpenAI 这么做能避免被认定为 “软件即医疗设备”,还能防范潜在诉讼呢。

    对于这个新规,用户反应分成两派。有些个体用户觉得挺遗憾,毕竟少了 “低成本咨询” 渠道,他们之前还靠 AI 省了不少专业咨询费用。不过医疗和法律界大多都支持,毕竟 AI 的 “伪专业” 输出确实容易导致误诊或者纠纷。数据显示超 40% 的 ChatGPT 查询都是建议类,医疗和财务占比快 30% 了,这政策可能会让短期流量下降。

    对行业影响也不小,Google、Anthropic 等可能也会跟着限制,垂直 AI 工具,像认证版法律 / 医疗模型可能会火起来。中国企业像百度已经提前合规了,在国内监管变严的情况下,创新得在 “沙盒” 机制里探索。

    OpenAI 强调目标是 “平衡创新与安全”,这次更新延续了 Model Spec 框架,听说 2025 年 2 月还会进一步迭代。AI 从 “全能助手” 向 “有限辅助” 转变,感觉已经成了行业共识。未来技术突破和伦理约束会一起发展,不知道 GPT – 5 时代又会带来什么样的新平衡呢?

    大家对 ChatGPT 这个新规怎么看呀?快来评论区说说!

    #OpenAI #ChatGPT #使用政策更新 #医疗建议 #法律建议 #财务建议 #AI 监管 #行业影响

  • 谷歌 Gemini 要放大招啦!Nano Banana2 图像生成技术升级来袭

    宝子们,有个超重磅的消息!谷歌正紧锣密鼓准备发布 AI 图像生成模型 Nano Banana2,内部代号 “GEMPIX2”,从 Gemini 官方网站新增公告来看,未来几周可能就会和我们见面啦!


    Nano Banana 系列可是谷歌 DeepMind 团队的王牌。从 2025 年 8 月 26 日首代推出后就超火,在早期预览时就登顶 LMArena 图像编辑排行榜,“多轮对话” 交互和角色保持功能超棒,能轻松融合照片、改背景、生成艺术风格图像,短短几周就吸引 1000 万新用户加入 Gemini 生态,有 2 亿多次图像编辑操作呢!


    这次 Nano Banana2 曝光,从 Gemini UI 界面的预告卡片和技术指标看,它会延续创意焦点,为专业创作者和开发者优化视觉生成速度和艺术风格多样性,还可能和 Gemini3.0 系列深度整合,提升多模态处理能力,比如视频概述的自定义视觉风格生成。


    虽然谷歌还没公布具体细节,但感觉发布就在眼前啦,说不定会和 NotebookLM、Google Photos 等产品更新一起出现。首代模型让 Gemini 月活用户突破 6.5 亿,这次 Nano Banana2 到来,有望进一步缩小和对手差距,给创意产业注入新活力。而且谷歌强调生成图像都会标注水印来保证合规。


    大家对 Nano Banana2 有什么期待呀?快来评论区聊聊!

    #谷歌 Gemini #NanoBanana2 #图像生成技术 #AI 创新 #生成式 AI

  • 还在苦哈哈做 PPT?谷歌 Gemini 一键生成 PPT 来救你啦!

    宝子们,繁琐的 PPT 制作时代可能真的要终结啦!谷歌给 AI 助手 Gemini 推出超实用新功能,在 Gemini 的互动工作区 Canvas 里,只要输入一句话提示,就能自动生成超专业的 PPT 哦,个人用户和 Google Workspace 账户都能使用!

    这个功能超智能,“快” 且 “准”。要是没有特定资料,像输入 “创建一份关于气候变化的演示文稿”,它就能自动组织内容框架、匹配主题风格还能插入相关图片;要是有现成素材,上传 Word 文档、PDF 报告或者 Excel 表格,它就能提取关键信息,转化成逻辑清晰的幻灯片内容。

    而且生成的可不是静态成品,能直接导出到 Google Slides,在这基础上可以自由调整排版、增删内容,还能和团队成员实时协作,妥妥 “AI 起草 + 人工优化” 的高效工作流。

    这可是谷歌自今年 3 月推出 Canvas 工作区后的重要迭代,从最初支持文本与代码协同编辑,到现在扩展至多模态内容生成,Gemini 正朝着深度生产力工具大步迈进!

    宝子们有用过这个功能的吗?快来评论区分享下使用感受呀!

    # 谷歌 Gemini #PPT 生成 #Canvas 工作区 #办公新技能 #AI 助力办公

  • 🛠️AI编程CLI工具对比与剖析

    🤖 Claude Code CLI

    Claude Code CLI 由 Anthropic 推出,基于其 Claude 大模型(如 Opus 4、Sonnet 4),是一款强调强大推理能力和深度代码理解的命令行智能编程助手。

    优点:

    • 深度代码理解与复杂任务处理:Claude Code 能深度理解代码库结构和复杂逻辑关系,支持数十万 token 的上下文窗口,能进行高效的多文件联动操作和跨文件上下文理解,尤其擅长处理中大型项目。
    • 子代理架构与强大工具集:其支持子代理(sub-agent)架构,能智能地将复杂任务拆分为多个子任务并行处理,实现类多智能体协作。内置工具集丰富且专业,包括更精细的文件操作(如 MultiEdit 批量修改)、高效的文件检索(Grep 工具)、任务管理与规划(TodoWrite/Read,Task 子智能体),以及深厚的 Git/GitHub 集成能力,能理解 PR、审查代码、处理评论等。
    • 与企业级工具链集成:Claude Code 不仅能与 IDE 无缝集成,直接在 IDE 的差异视图中展示代码变更,还支持以 GitHub Actions 方式集成到 CI/CD 流程中,允许在 PR 或 Issue 的评论中 @claude 让其自动分析代码或修复错误。
    • 精细的权限控制与安全性:提供了一套非常完善和精细的权限控制机制,允许用户通过配置文件或命令行参数精确控制每个工具的权限,例如允许或禁止某个 Bash 命令,限制文件的读写范围,设置不同的权限模式(如 plan 模式只读不写)。在企业环境下,系统管理员还可以强制执行用户无法覆盖的安全策略。

    缺点:

    • 商业付费产品,订阅费用较高。
    • 图像识别能力相对较弱:在处理界面截图的理解分析和设计稿转代码任务时,其精准度和还原度可能不如一些竞品。

    能力范围:

    Claude Code CLI 非常适合中大型项目开发、需要长期维护的代码库,以及那些对代码质量要求高,需要 AI 辅助进行深度调试、重构或优化的场景。它在企业级安全、功能完整性和生态系统方面较为成熟。

    使用方法:

    通常通过 npm 进行全局安装:npm install -g @anthropic-ai/claude-code。安装后运行 claude login 进行 OAuth 认证流程。首次运行时会引导进行账户授权和主题选择,完成后即可进入交互模式。用户可以通过自然语言指令指挥 AI 完成代码生成、调试、重构等操作。

    🔮 Gemini CLI

    Gemini CLI 是 Google 开源的一款命令行 AI 工具,基于强大的 Gemini 2.5 Pro 模型,旨在将终端变为一个主动的开发伙伴。

    优点:

    • 免费开源与慷慨额度:采用 Apache 2.0 许可证开源,透明度高。个人 Google 账户用户可享受每分钟 60 次请求、每天 1000 次请求的免费额度,这在同类工具中极具竞争力。
    • 超长上下文支持:支持高达 100 万 token 的上下文窗口,能轻松处理大规模代码库,甚至一次性读取整个项目,非常适合大型项目。
    • 终端原生与强大代理能力:专为命令行界面设计,能最小化开发者的上下文切换。它采用“思考-行动”(ReAct)循环机制,结合内置工具(如文件操作、shell 命令)和模型上下文协议(MCP)服务器,能完成复杂任务如修复错误、创建新功能等。
    • 高度可扩展性:通过 MCP 服务器和捆绑扩展,以及 GEMINI.md 文件进行自定义提示和指令,具有很高的可定制性。

    缺点:

    • 指令执行与意图理解的精准度有时不如 Claude Code,表现稍逊色。
    • 免费版存在数据安全隐患,用户数据可能被用于模型训练,不适合处理敏感或专有代码。
    • 输出质量可能存在波动,用户反馈显示 Gemini-2.5-pro 有时会自动降级为性能较弱的 Gemini-2.5-flash 模型,导致输出质量下降。
    • 与企业级开发环境的集成相对薄弱,更多被定位为一个独立的终端工具。

    能力范围:

    Gemini CLI 凭借其超大上下文窗口和免费特性,非常适合个人开发者、快速原型构建以及探索性编程任务。它适合处理大型代码库,但在复杂逻辑理解和与企业级工具链的深度集成上相对较弱。

    使用方法:

    通过 npm 安装:npm install -g @google/gemini-cli。安装后运行 gemini 命令,首次运行会引导用户进行 Google 账户授权或配置 Gemini API Key(通过环境变量 export GEMINI_API_KEY=”你的API Key”)。

    🌐 Qwen Code CLI

    Qwen Code CLI 是阿里巴巴基于 Gemini CLI 二次开发优化的命令行工具,专门用于激发其 Qwen3-Coder 模型在智能体编程任务上的潜力。

    优点:

    • 针对 Qwen3-Coder 深度优化:为 Qwen3-Coder 系列模型(如 qwen3-coder-plus)定制了提示词和函数调用协议,能最大程度激发其在 Agentic Coding 任务上的表现。
    • 支持超长上下文:依托 Qwen3-Coder 模型原生支持 256K token,并可扩展至 100 万 token,适合处理中大型项目。
    • 开源且支持 OpenAI SDK 格式:方便开发者通过兼容的 API 调用模型。
    • 广泛的编程语言支持:模型原生支持多达 358 种编程和标记语言。

    缺点:

    • Token 消耗可能较快,尤其使用大参数模型(如 480B)时成本较高,需密切关注使用量。
    • 对复杂任务的理解和执行可能有时会陷入循环或表现不如顶级模型。
    • 工具调用的理解精度有时可能存在偏差。

    能力范围:

    Qwen Code CLI 尤其适合关注或偏好 Qwen 模型的开发者,以及需要进行代码理解、编辑和一定工作流自动化的场景。它在代理编码、长上下文处理等方面表现不俗。

    使用方法:

    通过 npm 安装:npm install -g @qwen-code/qwen-code。安装后需要配置环境变量指向兼容 OpenAI API 的阿里云 DashScope 端点,并设置相应的 API Key:export OPENAI_API_KEY=”你的API密钥”、export OPENAI_BASE_URL=”https://dashscope-intl.aliyuncs.com/compatible-mode/v1″、export OPENAI_MODEL=”qwen3-coder-plus”。

    🚀 CodeBuddy

    CodeBuddy 是腾讯云推出的 AI 编程助手,严格来说它不仅仅是一个 CLI 工具,而是一个集成了 IDE 插件等多种形式的AI编程助手,但其核心能力与 CLI 工具有很多重叠和可比性,并且深度融合了腾讯自研的混元大模型和 DeepSeek V3 模型。

    优点:

    • 产设研一体化:集成了需求文档生成、设计稿转代码(如 Figma 转生产级代码,还原度高达99.9%)及云端部署功能,实现从产品设计到研发部署的全流程 AI 一体化开发。
    • 本土化优化与腾讯生态集成:专为中国开发者优化,提供更好的中文支持,并深度集成腾讯云服务(如 CloudBase),支持一键部署。
    • 双模型驱动:集成腾讯混元大模型和DeepSeek V3 模型,提供高精度的代码建议。
    • 可视化体验:提供 Webview 功能,可在 IDE 内直接预览代码调试成果,交互体验流畅。

    缺点:

    • 部分功能交互(如 @ 符号交互)可能需要进一步简化以提升操作便捷性。
    • 在大项目中代码扫描速度可能较慢。
    • 与 VSCode 等编辑器的插件兼容性仍有待增强。
    • 目前使用 可能需要邀请码 。

    能力范围:

    CodeBuddy 非常适合需要全栈开发支持、希望从设计到部署全流程AI辅助、以及深度融入腾讯云生态的开发者与企业。它尤其适合快速验证 MVP、加速产品迭代。

    使用方法:

    CodeBuddy 主要作为 IDE 插件(如 VS Code 插件)使用,也可以在独立 IDE 中运行。用户通常需要安装插件并登录腾讯云账号即可开始体验其代码补全、Craft 模式等功能。

    总而言之,Claude Code CLI、Gemini CLI、Qwen Code CLI 和 CodeBuddy 各有侧重,都在积极探索如何用自然语言更好地辅助和变革编程工作流。选择哪一款,取决于你的具体需求、技术栈、预算以及对不同生态的偏好。理解它们的技术原理和面临的挑战,也能帮助我们更理性地看待和应用这些强大的工具,让 AI 真正成为开发过程中的得力助手。CodeBuddy 主要作为 IDE 插件(如 VS Code 插件)使用,也可以在独立 IDE 中运行。用户通常需要安装插件并登录腾讯云账号即可开始体验其代码补全、Craft 模式等功能。

  • 牛!字节跳动融合 LLaVA 与 SAM-2 打造 Sa2VA,多模态新宠诞生✨

    宝子们,字节跳动又在 AI 领域放大招啦!它和多所高校研究团队合作,把先进的视觉语言模型 LLaVA 和分割模型 SAM – 2 结合,推出了超厉害的新模型 Sa2VA🎉

    LLaVA 是开源视觉语言模型,在视频宏观叙事和内容理解方面很擅长,可在细节指示上有点吃力。SAM – 2 呢,是出色的图像分割专家,能识别分割图像里的物体,但缺少语言理解能力。为了取长补短,Sa2VA 通过一个简单高效的 “暗号” 系统,把这俩模型有效结合起来啦🧐

    Sa2VA 的架构就像个双核处理器,一个核负责语言理解与对话,另一个核负责视频分割与跟踪。用户输入指令时,Sa2VA 生成特定指令 token,传给 SAM – 2 进行具体分割操作。这样两个模块在各自擅长的领域发挥作用,还能进行有效的反馈学习,让整体性能不断提升😎

    研究团队还给 Sa2VA 设计了多任务联合训练课程,增强它在图像和视频理解方面的能力。在好多公开测试里,Sa2VA 表现超棒,在视频指代表达分割任务里尤其亮眼。它能在复杂真实场景里精准分割,还能在视频里实时跟踪目标对象,动态处理能力超强👏

    而且哦,字节跳动开放了 Sa2VA 的多种版本和训练工具,鼓励开发者研究应用。这给 AI 领域的研究人员和开发者提供了丰富资源,推动了多模态 AI 技术发展。

    这里附上项目地址👇

    https://lxtgh.github.io/project/sa2va/

    https://github.com/bytedance/Sa2VA

    宝子们,你们对 Sa2VA 期待吗?快来评论区聊聊呀🧐

    字节跳动 #Sa2VA #多模态智能分割 #LLaVA #SAM – 2 #AI 模型 #开源

  • 牛了!Google 新框架助力 AI Agent 从错误中学习,超级智能体诞生?✨

    宝子们,Google 在 AI 领域又搞出大动静啦!最近提出了 “Reasoning Memory”(可学习的推理记忆)这个革命性框架,要让 AI Agents 实现真正的 “自我进化”,简直太震撼啦👏

    先说说当前 AI 代理的痛点。现在基于大型语言模型的 AI Agents 在推理和任务执行上表现不错,可它们普遍缺少可持续学习机制。AIbase 分析说,现有的智能体完成任务后不会 “成长”,每次执行都像重新开始,这就带来一堆问题,像重复犯错、没法积累抽象经验、浪费历史数据,决策优化也受限。就算加了记忆模块,大多也只是简单信息缓存,缺少对经验的概括、抽象和重用能力,很难形成 “可学习的推理记忆”,也就没办法真正自我改进😔

    再看看 Google 的新框架。Reasoning Memory 框架是专门为 AI 代理设计的记忆体系,能积累、概括并重用推理经验。它的核心就是让代理从自身互动、错误和成功里提取抽象知识,形成 “推理记忆”。具体来说:

    • 积累经验:代理不再把任务历史扔掉,而是系统记录推理过程和结果。
    • 概括抽象:用算法把具体经验变成通用规则,不只是简单的 episodic 存储。
    • 重用优化:在未来任务里调用这些记忆,根据过去经验调整决策,减少重复错误。

    这个机制能让 AI 代理像人一样 “从错误中学习”,实现闭环自我进化。实验表明,配备这个框架的代理在复杂任务里性能提升超明显,这可是从静态执行到动态成长的大跨越呀😎

    最后说说潜在影响。AIbase 觉得,这项研究能重塑 AI 应用生态。像自动化客服、医疗诊断、游戏 AI 这些领域,Agents 能不断优化自身策略,减少人为干预。从长远看,它填补了 LLM 代理的 “进化空白”,为构建更可靠的自主系统打下基础。不过也有挑战,比如记忆泛化能力和计算开销还得进一步验证。但不管怎样,Google 这一举动强化了它在 AI 前沿的领导地位,很值得行业关注🤩

    宝子们,你们对 Google 这个新框架怎么看呀?快来评论区聊聊🧐

    论文地址:https://arxiv.org/pdf/2509.25140

    话题标签和关键词

    #Google #AI Agent #自我进化 #Reasoning Memory #AI 框架 #AI 应用生态

  • 哇塞!谷歌 Gemini 3.0 Pro 来袭,编程能力大突破,你期待吗✨

    宝子们,人工智能竞争越来越激烈啦,谷歌的 Gemini 3.0 Pro 模型要登场啦,简直炸圈了👏


    就在 OpenAI 的 Sora2 发布没多久,Gemini 3.0 的内测版本就在网上流出,开发者分享的实测结果超吸睛,尤其是在编程方面表现卓越🧐


    据说 Gemini 3.0 下周就要正式上线咯,内测版本有 Gemini 3.0 Pro 和 Gemini 3.0 Flash 两个型号。开发者发现,Gemini 3.0 Pro 在好多编程测试里准确率超高,面对复杂代码生成和物理模拟任务,表现那叫一个亮眼😎


    像在 “小球六边形重力摩擦” 测试中,它能精准模拟小球运动,合理体现物理定律,加速旋转、大小变化、环境阻力这些都能轻松搞定。生成 SVG 格式图像时也超厉害,能一键生成 “骑自行车的鹈鹕” 这种复杂图形。


    不过呢,Gemini 3.0 Pro 也不是完美的。和 Claude Sonnet4.5 对比测试时,在六指手部视觉测试里没通过。而 Gemini 3.0 Flash 也获得了开发者好评,在旅行规划等特定问题上,解决速度和准确性都很惊人。


    Gemini 3.0 Pro 的内测表现,看得出谷歌在编程领域实力超强,它马上要正式上线,让好多开发者满心期待。感觉一个新的编码时代真的要来了,说不定谷歌这款 AI 工具会引领未来开发趋势呢🤩


    宝子们,你们对 Gemini 3.0 Pro 怎么看呀?快来评论区聊聊🧐

    谷歌 #Gemini3.0Pro #内测流出 #编程能力 #模型上线 #AI 开发趋势

  • 🤯ChatGPT 又搞大事!这次直接当「贴心私助」,睡觉都帮你干活!

    宝子们谁懂啊!刚刷到 OpenAI 的新功能直接惊掉下巴!Sam Altman(就是 ChatGPT 大老板)亲自吹爆,说这是他「迄今为止最喜欢的功能」,到底有多牛?快跟我一起扒一扒!

    ✨新功能叫「ChatGPT Pulse」,彻底颠覆传统用法!

    以前用 ChatGPT 得咱们主动问,问一句答一句,像个「被动答题机」;现在 Pulse 直接变身「主动小管家」,核心狠活就是 ——你睡觉的时候它偷偷干活,早上起来给你递现成干货!

    而且目前是 Pro 订阅用户专属(氪金党先冲),后续会开放给 Plus,最终目标是所有人都能用!这波属于早用早香了~

    🤖它到底能帮你做啥?举个栗子更直观!

    • 你跟它提一句「想去波拉波拉岛旅游」,第二天直接收到当地天气 + 小众攻略 + 机票折扣,连你没注意的通勤信息都给你扒得明明白白!
    • 说「我家娃 6 个月大啦」,立马推送婴儿发育里程碑 + 新手爸妈实操 Tips,比育儿博主还懂你需求!
    • 连日历、邮件都能连!帮你写会议议程、提醒闺蜜生日要送礼物、出差时推荐当地好吃不踩雷的餐厅… 这不就是现实版「贾维斯」雏形吗!

    💡最戳我的点:不搞「无限刷屏」!

    现在的 APP 都想方设法让你刷不停,Pulse 反其道而行之!技术负责人直接说:「体验是有结束的,只为服务你,不是让你沉迷」!

    每天推送的都是精挑细选的内容,看完就完事儿,每条只当天有效,不会让你陷进信息漩涡里 —— 这对爱刷手机又怕浪费时间的宝子也太友好了吧!

    ⚠️但有个小顾虑:隐私换便利,你能接受吗?

    想让 Pulse「懂你」,得给它点「权限」:

    • 会看你过去的 Chat 记录(得开「引用历史」)
    • 连日历 / 邮件要手动点「接受」才给访问

    虽然 OpenAI 说「数据处理和普通对话一样」,还搞了「多重安全过滤」,但具体咋过滤没说… 相当于「黑盒保护」,要不要交个人数据换便利,宝子们得自己掂量~

    🌟未来可期:ChatGPT 要从「答题机」变「行动派」!

    官方直接放话了:这只是第一步!未来的 ChatGPT 会更猛 —— 自动帮你定计划、按目标做事、关键时候主动提醒,甚至像「团队成员」一样跟你协作!

    想想看:以后不用自己搜攻略、记日程、整理信息,AI 直接把活儿干了… 传统搜索引擎和资讯 APP,怕是要慌了!

    目前 Pulse 还是早期版,已经有大学生实测真香:刚开始觉得一般,跟它说清楚自己想要啥后,直接被「举一反三」的能力惊到!比如有个潜水党说练潜水遇到困难,Pulse 不仅给建议,还把潜水和风险管理做类比,精准戳中兴趣点~

    宝子们觉得这个新功能怎么样?会为了它冲 Pro 会员吗?或者担心隐私问题?评论区聊聊!👇

    #ChatGPT 新功能 #AI 黑科技 #数码新品 #效率工具 #科技前沿

  • 智能编程助手 Neovate Code 正式开源

    蚂蚁集团支付宝体验技术部正式对外开源智能编程助手 Neovate Code,能够深度理解你的代码库,遵循既有编码习惯,并在上下文感知的基础上,精准地完成功能实现、Bug 修复和代码重构。它集成了 Code Agent 所需的核心能力。
    GitHub:https://github.com/neovateai/neovate-code


    目前,Neovate Code 以 CLI 工具的形态提供,但其架构设计高度灵活,未来将支持多种客户端形态,适配更多开发场景。

    其主要功能包括:
    对话式开发 – 用于编程任务的自然对话界面
    AGENTS.md 规则文件 – 为你的项目定义自定义规则和行为
    会话继续和恢复 – 跨会话继续之前的工作
    支持流行的模型和提供商 – OpenAI、Anthropic、Google 等
    斜杠命令 – 常用操作的快速命令
    输出样式 – 自定义代码更改的呈现方式
    计划模式 – 在执行前审查实现计划
    无头模式 – 在没有交互提示的情况下自动化工作流
    插件系统 – 用自定义插件扩展功能
    MCP – 用于增强集成的模型上下文协议
    Git 工作流 – 智能提交消息和分支管理

  • 哇哦!DeepSeek 新动作,V3.1-Terminus 带来哪些惊喜?✨

    宝子们,DeepSeek 又有新动态啦!最新模型 DeepSeek-V3.1-Terminus 闪亮登场咯👏


    这个版本有思考模型和非思考模式两个版本,上下文度都是 128k。它是基于 DeepSeek-V3.1 进行的升级,有两项重大改进哦🧐一是语言一致性方面,缓解了中英文混杂、偶发异常字符这些情况,像之前提到的「极」字现象也有改善。二是 Agent 能力上,进一步优化了 Code Agent 与 Search Agent 的表现,让它们更出色啦。
    DeepSeek 上次更新是 8 月 21 日,这才间隔一个月,新模型 DeepSeek-V3.1-Terminus 在多项测评里都胜过 Gemini 2.5 Pro 呢👍


    不过在基准性能上,相对 DeepSeek-V3.1 整体只是略有升级,有些基准上还稍有下降。但在 Humanity’s Last Exam(人类最后考试)基准上,提升幅度超级大,高达 36.48%,从 15.9 一下子提升到了 21.7,这可太厉害啦😎


    现在,DeepSeek-V3.1-Terminus 已经在 App、网页、API 上线啦。


    这里还给大家附上两个地址👇
    Hugging Face 地址:
    https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

    ModelScope 地址:
    https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus


    对了,Terminus 这个词意思是 “终点”,这是不是在暗示这是 V3 系列最后一个版本,DeepSeek-V4/R2 很快就要来啦?真的好让人期待呀🤩


    宝子们,你们对 DeepSeek-V3.1-Terminus 怎么看呢?快来评论区说说吧🧐

    DeepSeek #DeepSeek-V3.1-Terminus #模型发布 #模型升级 #性能测评