分类: 新闻

  • 还在苦哈哈做 PPT?谷歌 Gemini 一键生成 PPT 来救你啦!

    宝子们,繁琐的 PPT 制作时代可能真的要终结啦!谷歌给 AI 助手 Gemini 推出超实用新功能,在 Gemini 的互动工作区 Canvas 里,只要输入一句话提示,就能自动生成超专业的 PPT 哦,个人用户和 Google Workspace 账户都能使用!

    这个功能超智能,“快” 且 “准”。要是没有特定资料,像输入 “创建一份关于气候变化的演示文稿”,它就能自动组织内容框架、匹配主题风格还能插入相关图片;要是有现成素材,上传 Word 文档、PDF 报告或者 Excel 表格,它就能提取关键信息,转化成逻辑清晰的幻灯片内容。

    而且生成的可不是静态成品,能直接导出到 Google Slides,在这基础上可以自由调整排版、增删内容,还能和团队成员实时协作,妥妥 “AI 起草 + 人工优化” 的高效工作流。

    这可是谷歌自今年 3 月推出 Canvas 工作区后的重要迭代,从最初支持文本与代码协同编辑,到现在扩展至多模态内容生成,Gemini 正朝着深度生产力工具大步迈进!

    宝子们有用过这个功能的吗?快来评论区分享下使用感受呀!

    # 谷歌 Gemini #PPT 生成 #Canvas 工作区 #办公新技能 #AI 助力办公

  • 牛!字节跳动融合 LLaVA 与 SAM-2 打造 Sa2VA,多模态新宠诞生✨

    宝子们,字节跳动又在 AI 领域放大招啦!它和多所高校研究团队合作,把先进的视觉语言模型 LLaVA 和分割模型 SAM – 2 结合,推出了超厉害的新模型 Sa2VA🎉

    LLaVA 是开源视觉语言模型,在视频宏观叙事和内容理解方面很擅长,可在细节指示上有点吃力。SAM – 2 呢,是出色的图像分割专家,能识别分割图像里的物体,但缺少语言理解能力。为了取长补短,Sa2VA 通过一个简单高效的 “暗号” 系统,把这俩模型有效结合起来啦🧐

    Sa2VA 的架构就像个双核处理器,一个核负责语言理解与对话,另一个核负责视频分割与跟踪。用户输入指令时,Sa2VA 生成特定指令 token,传给 SAM – 2 进行具体分割操作。这样两个模块在各自擅长的领域发挥作用,还能进行有效的反馈学习,让整体性能不断提升😎

    研究团队还给 Sa2VA 设计了多任务联合训练课程,增强它在图像和视频理解方面的能力。在好多公开测试里,Sa2VA 表现超棒,在视频指代表达分割任务里尤其亮眼。它能在复杂真实场景里精准分割,还能在视频里实时跟踪目标对象,动态处理能力超强👏

    而且哦,字节跳动开放了 Sa2VA 的多种版本和训练工具,鼓励开发者研究应用。这给 AI 领域的研究人员和开发者提供了丰富资源,推动了多模态 AI 技术发展。

    这里附上项目地址👇

    https://lxtgh.github.io/project/sa2va/

    https://github.com/bytedance/Sa2VA

    宝子们,你们对 Sa2VA 期待吗?快来评论区聊聊呀🧐

    字节跳动 #Sa2VA #多模态智能分割 #LLaVA #SAM – 2 #AI 模型 #开源

  • 牛了!Google 新框架助力 AI Agent 从错误中学习,超级智能体诞生?✨

    宝子们,Google 在 AI 领域又搞出大动静啦!最近提出了 “Reasoning Memory”(可学习的推理记忆)这个革命性框架,要让 AI Agents 实现真正的 “自我进化”,简直太震撼啦👏

    先说说当前 AI 代理的痛点。现在基于大型语言模型的 AI Agents 在推理和任务执行上表现不错,可它们普遍缺少可持续学习机制。AIbase 分析说,现有的智能体完成任务后不会 “成长”,每次执行都像重新开始,这就带来一堆问题,像重复犯错、没法积累抽象经验、浪费历史数据,决策优化也受限。就算加了记忆模块,大多也只是简单信息缓存,缺少对经验的概括、抽象和重用能力,很难形成 “可学习的推理记忆”,也就没办法真正自我改进😔

    再看看 Google 的新框架。Reasoning Memory 框架是专门为 AI 代理设计的记忆体系,能积累、概括并重用推理经验。它的核心就是让代理从自身互动、错误和成功里提取抽象知识,形成 “推理记忆”。具体来说:

    • 积累经验:代理不再把任务历史扔掉,而是系统记录推理过程和结果。
    • 概括抽象:用算法把具体经验变成通用规则,不只是简单的 episodic 存储。
    • 重用优化:在未来任务里调用这些记忆,根据过去经验调整决策,减少重复错误。

    这个机制能让 AI 代理像人一样 “从错误中学习”,实现闭环自我进化。实验表明,配备这个框架的代理在复杂任务里性能提升超明显,这可是从静态执行到动态成长的大跨越呀😎

    最后说说潜在影响。AIbase 觉得,这项研究能重塑 AI 应用生态。像自动化客服、医疗诊断、游戏 AI 这些领域,Agents 能不断优化自身策略,减少人为干预。从长远看,它填补了 LLM 代理的 “进化空白”,为构建更可靠的自主系统打下基础。不过也有挑战,比如记忆泛化能力和计算开销还得进一步验证。但不管怎样,Google 这一举动强化了它在 AI 前沿的领导地位,很值得行业关注🤩

    宝子们,你们对 Google 这个新框架怎么看呀?快来评论区聊聊🧐

    论文地址:https://arxiv.org/pdf/2509.25140

    话题标签和关键词

    #Google #AI Agent #自我进化 #Reasoning Memory #AI 框架 #AI 应用生态

  • 哇塞!谷歌 Gemini 3.0 Pro 来袭,编程能力大突破,你期待吗✨

    宝子们,人工智能竞争越来越激烈啦,谷歌的 Gemini 3.0 Pro 模型要登场啦,简直炸圈了👏


    就在 OpenAI 的 Sora2 发布没多久,Gemini 3.0 的内测版本就在网上流出,开发者分享的实测结果超吸睛,尤其是在编程方面表现卓越🧐


    据说 Gemini 3.0 下周就要正式上线咯,内测版本有 Gemini 3.0 Pro 和 Gemini 3.0 Flash 两个型号。开发者发现,Gemini 3.0 Pro 在好多编程测试里准确率超高,面对复杂代码生成和物理模拟任务,表现那叫一个亮眼😎


    像在 “小球六边形重力摩擦” 测试中,它能精准模拟小球运动,合理体现物理定律,加速旋转、大小变化、环境阻力这些都能轻松搞定。生成 SVG 格式图像时也超厉害,能一键生成 “骑自行车的鹈鹕” 这种复杂图形。


    不过呢,Gemini 3.0 Pro 也不是完美的。和 Claude Sonnet4.5 对比测试时,在六指手部视觉测试里没通过。而 Gemini 3.0 Flash 也获得了开发者好评,在旅行规划等特定问题上,解决速度和准确性都很惊人。


    Gemini 3.0 Pro 的内测表现,看得出谷歌在编程领域实力超强,它马上要正式上线,让好多开发者满心期待。感觉一个新的编码时代真的要来了,说不定谷歌这款 AI 工具会引领未来开发趋势呢🤩


    宝子们,你们对 Gemini 3.0 Pro 怎么看呀?快来评论区聊聊🧐

    谷歌 #Gemini3.0Pro #内测流出 #编程能力 #模型上线 #AI 开发趋势

  • 🤯ChatGPT 又搞大事!这次直接当「贴心私助」,睡觉都帮你干活!

    宝子们谁懂啊!刚刷到 OpenAI 的新功能直接惊掉下巴!Sam Altman(就是 ChatGPT 大老板)亲自吹爆,说这是他「迄今为止最喜欢的功能」,到底有多牛?快跟我一起扒一扒!

    ✨新功能叫「ChatGPT Pulse」,彻底颠覆传统用法!

    以前用 ChatGPT 得咱们主动问,问一句答一句,像个「被动答题机」;现在 Pulse 直接变身「主动小管家」,核心狠活就是 ——你睡觉的时候它偷偷干活,早上起来给你递现成干货!

    而且目前是 Pro 订阅用户专属(氪金党先冲),后续会开放给 Plus,最终目标是所有人都能用!这波属于早用早香了~

    🤖它到底能帮你做啥?举个栗子更直观!

    • 你跟它提一句「想去波拉波拉岛旅游」,第二天直接收到当地天气 + 小众攻略 + 机票折扣,连你没注意的通勤信息都给你扒得明明白白!
    • 说「我家娃 6 个月大啦」,立马推送婴儿发育里程碑 + 新手爸妈实操 Tips,比育儿博主还懂你需求!
    • 连日历、邮件都能连!帮你写会议议程、提醒闺蜜生日要送礼物、出差时推荐当地好吃不踩雷的餐厅… 这不就是现实版「贾维斯」雏形吗!

    💡最戳我的点:不搞「无限刷屏」!

    现在的 APP 都想方设法让你刷不停,Pulse 反其道而行之!技术负责人直接说:「体验是有结束的,只为服务你,不是让你沉迷」!

    每天推送的都是精挑细选的内容,看完就完事儿,每条只当天有效,不会让你陷进信息漩涡里 —— 这对爱刷手机又怕浪费时间的宝子也太友好了吧!

    ⚠️但有个小顾虑:隐私换便利,你能接受吗?

    想让 Pulse「懂你」,得给它点「权限」:

    • 会看你过去的 Chat 记录(得开「引用历史」)
    • 连日历 / 邮件要手动点「接受」才给访问

    虽然 OpenAI 说「数据处理和普通对话一样」,还搞了「多重安全过滤」,但具体咋过滤没说… 相当于「黑盒保护」,要不要交个人数据换便利,宝子们得自己掂量~

    🌟未来可期:ChatGPT 要从「答题机」变「行动派」!

    官方直接放话了:这只是第一步!未来的 ChatGPT 会更猛 —— 自动帮你定计划、按目标做事、关键时候主动提醒,甚至像「团队成员」一样跟你协作!

    想想看:以后不用自己搜攻略、记日程、整理信息,AI 直接把活儿干了… 传统搜索引擎和资讯 APP,怕是要慌了!

    目前 Pulse 还是早期版,已经有大学生实测真香:刚开始觉得一般,跟它说清楚自己想要啥后,直接被「举一反三」的能力惊到!比如有个潜水党说练潜水遇到困难,Pulse 不仅给建议,还把潜水和风险管理做类比,精准戳中兴趣点~

    宝子们觉得这个新功能怎么样?会为了它冲 Pro 会员吗?或者担心隐私问题?评论区聊聊!👇

    #ChatGPT 新功能 #AI 黑科技 #数码新品 #效率工具 #科技前沿

  • 智能编程助手 Neovate Code 正式开源

    蚂蚁集团支付宝体验技术部正式对外开源智能编程助手 Neovate Code,能够深度理解你的代码库,遵循既有编码习惯,并在上下文感知的基础上,精准地完成功能实现、Bug 修复和代码重构。它集成了 Code Agent 所需的核心能力。
    GitHub:https://github.com/neovateai/neovate-code


    目前,Neovate Code 以 CLI 工具的形态提供,但其架构设计高度灵活,未来将支持多种客户端形态,适配更多开发场景。

    其主要功能包括:
    对话式开发 – 用于编程任务的自然对话界面
    AGENTS.md 规则文件 – 为你的项目定义自定义规则和行为
    会话继续和恢复 – 跨会话继续之前的工作
    支持流行的模型和提供商 – OpenAI、Anthropic、Google 等
    斜杠命令 – 常用操作的快速命令
    输出样式 – 自定义代码更改的呈现方式
    计划模式 – 在执行前审查实现计划
    无头模式 – 在没有交互提示的情况下自动化工作流
    插件系统 – 用自定义插件扩展功能
    MCP – 用于增强集成的模型上下文协议
    Git 工作流 – 智能提交消息和分支管理

  • 哇哦!DeepSeek 新动作,V3.1-Terminus 带来哪些惊喜?✨

    宝子们,DeepSeek 又有新动态啦!最新模型 DeepSeek-V3.1-Terminus 闪亮登场咯👏


    这个版本有思考模型和非思考模式两个版本,上下文度都是 128k。它是基于 DeepSeek-V3.1 进行的升级,有两项重大改进哦🧐一是语言一致性方面,缓解了中英文混杂、偶发异常字符这些情况,像之前提到的「极」字现象也有改善。二是 Agent 能力上,进一步优化了 Code Agent 与 Search Agent 的表现,让它们更出色啦。
    DeepSeek 上次更新是 8 月 21 日,这才间隔一个月,新模型 DeepSeek-V3.1-Terminus 在多项测评里都胜过 Gemini 2.5 Pro 呢👍


    不过在基准性能上,相对 DeepSeek-V3.1 整体只是略有升级,有些基准上还稍有下降。但在 Humanity’s Last Exam(人类最后考试)基准上,提升幅度超级大,高达 36.48%,从 15.9 一下子提升到了 21.7,这可太厉害啦😎


    现在,DeepSeek-V3.1-Terminus 已经在 App、网页、API 上线啦。


    这里还给大家附上两个地址👇
    Hugging Face 地址:
    https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

    ModelScope 地址:
    https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus


    对了,Terminus 这个词意思是 “终点”,这是不是在暗示这是 V3 系列最后一个版本,DeepSeek-V4/R2 很快就要来啦?真的好让人期待呀🤩


    宝子们,你们对 DeepSeek-V3.1-Terminus 怎么看呢?快来评论区说说吧🧐

    DeepSeek #DeepSeek-V3.1-Terminus #模型发布 #模型升级 #性能测评

  • 牛了!MobiAgent 登场,号称超越 GPT – 5 的移动端智能体✨

    宝子们,上海交通大学 IPADS 实验室团队搞出大事情啦!他们推出了全新移动端智能体工具链 MobiAgent🎉,这可不得了,直接打破了个人化智能助手的开发壁垒,还说在真实场景表现上比 GPT – 5 和其他顶级闭源模型都强👍

    MobiAgent 超厉害的,它能让每个人都有机会打造属于自己的 AI 助手。这个工具链支持用户从零开始构建移动端智能体,从收集操作数据,到训练模型,再到部署到手机上,一整套流程都能搞定。而且它是开源的哦,用户可以自己获取数据、训练模型,在个人设备上就能用上智能助手,太方便啦🥰

    研究团队为了验证它的实力,在国内 20 款热门应用里做了测试。结果显示,7B 规模的 MobiAgent 模型在任务完成评分上,把好多知名闭源大模型都比下去了,在同规模的开源 GUI 智能体里也是领先的👏 它独特的 “潜记忆加速器” 能学习历史操作,帮智能体快速完成重复任务,性能提升 2 – 3 倍呢。

    MobiAgent 的核心在于高效的数据收集和智能训练流程。它用轻量级工具记录用户手机操作,再利用通用 VLM 模型生成高质量训练数据,经过精炼调整,让训练出的智能体泛化能力超棒。它的 “大脑” 分三部分:“规划师” 负责任务规划,“决策者” 根据屏幕做决策,“执行者” 执行具体操作。这样的架构让模型训练更高效,反应速度也大幅提升啦😎

    还有创新的 AgentRR 加速框架,能借助以往操作经验,大幅提升重复任务执行效率,动作复用率最高能达到 60% – 85%。智能助手处理日常事务又快又准。

    MobiAgent 的出现,不仅方便了个人智能助手定制化,还推动了移动智能体生态发展,感觉 “能动口就不动手” 的智能时代真的要来了🤩

    宝子们,你们对 MobiAgent 期待吗?快来评论区聊聊呀🧐

    论文地址:https://arxiv.org/pdf/2509.00531

    #MobiAgent #上海交大 #AI 助手 #移动端智能体 #开源工具链 #性能超越

  • 哇塞!ChatGPT 新功能上线,免费用户也能玩转项目管理啦🎉

    宝子们,OpenAI 又搞大动作啦!今天宣布 ChatGPT 的项目功能正式向免费用户开放咯,简直太棒啦👏

    这次更新对不同用户群体都有功能升级哦。先说上传大文件数量限制,免费用户每天能上传最多 5 个文件,Plus 用户提升到 25 个,Pro、商业和企业版用户更是能上传 40 个文件。这种分层设计超贴心,不管你需求大小,都能找到适合自己的使用方式🥰

    还有哦,OpenAI 加入了很多个性化设置功能。现在用户可以自定义项目的颜色和图标,管理界面瞬间变得超有个性,工作起来效率都能提高不少呢。对于需要保持上下文一致性的小伙伴,新增的项目专属记忆控制功能简直太实用啦,能更好地适应各种对话场景,管理信息轻松又自在😎

    这一系列更新,充分体现了 OpenAI 对咱们用户需求的重视呀。不管是企业用户还是个人用户,有了这些新功能,使用 ChatGPT 时体验更流畅啦。

    不得不说,OpenAI 这次更新是一次超重大的用户体验升级,平台吸引力更强了,更多用户都能平等享受到 AI 带来的便利。未来 ChatGPT 肯定还会不断优化,让我们一起期待更多惊喜吧🤩

    宝子们,你们对 ChatGPT 这些新功能期待吗?快来评论区聊聊呀🧐

    #ChatGPT #新功能上线 #项目管理 #用户体验 #免费用户 #个性化设置

  • 重磅!AI 生成内容强制 “打标”,内容安全新变革来袭💥

    宝子们,有个大消息!2025 年 9 月 1 日零时,国家多部门联合制定的《人工智能生成合成内容标识办法》正式生效啦🎉 这个办法提出强制添加显式和隐式标识等规范要求,以后 AI 生成的文字、图片、音频、视频,都得亮出 “数字身份证”🧐

    在这之前,腾讯、抖音、快手、B 站等多个平台都出台了细化规则。就像抖音,上线了内容标识功能和 AI 内容元数据标识读写功能,帮创作者添加提示标识,还能为内容溯源提供技术支持👏

    现在 AI 生成内容生态链进入规范化管理阶段咯。人工智能发展得超迅速,2024 年我国人工智能产业规模都突破 7000 亿元,还连年保持高增长率。但技术普及也带来新风险,像被用于制造虚假新闻、网络诈骗的案例越来越多。

    《标识办法》的政策核心是双重标识要求。显式标识要让普通用户 “一眼可见”,比如在文章开头结尾加文字说明,音视频里加语音提示或特殊图标。隐式标识则是在文件元数据里嵌入 “隐藏信息”,包括各种关键信息。

    这个办法意义重大,起草参与者任奎教授说,它首次把生成服务提供者、内容传播平台、终端用户纳入统一治理框架,和其他规定形成制度递进,明确责任边界;能推动 AIGC 行业规范发展,重塑公众对 AIGC 技术的信任;还提高了我国在人工智能安全治理领域的话语权,为全球内容治理提供了范本👍

    再说说双重标识体系,显式标识要让用户直接感知,文本得在特定位置标注 “人工智能生成” 等字样,字体要清晰。隐式标识侧重技术追溯,在文件内部嵌入元数据,包含各种关键信息。对不同类型的 AI 生成内容,都有明确标注要求。

    《标识办法》还鼓励用 AI 进行原创内容创作哦。而且在法律层面明确了不同主体的义务,服务提供者要确保内容符合标识要求,传播平台要核验隐式标识并添加显著提示标识,应用分发平台要核验服务提供者的标识功能。

    不过,这个办法落地也有挑战。用户可能会删除显性标识或通过转码规避隐性标识,难以精准鉴别恶意用户发布的内容。律师建议内容发布平台承担更多责任。任奎教授从技术层面建议发展安全保证的内容隐式标识技术。

    总之,标识是 AI 生成内容治理的关键一步,但要真正规避风险,还得细化法律法规、建立行业自律标准、加大执法力度和加强国际合作。跨境 AIGC 执法也是挑战,未来要推动技术标识协同,建立跨境执法互助机制。宝子们,你们对 AI 生成内容强制 “打标” 怎么看呀🧐

    #AI 生成内容 #强制打标 #内容安全治理 #双重标识体系 #主体责任 #监管挑战