作者: stark, tony

  • 牛了!MobiAgent 登场,号称超越 GPT – 5 的移动端智能体✨

    宝子们,上海交通大学 IPADS 实验室团队搞出大事情啦!他们推出了全新移动端智能体工具链 MobiAgent🎉,这可不得了,直接打破了个人化智能助手的开发壁垒,还说在真实场景表现上比 GPT – 5 和其他顶级闭源模型都强👍

    MobiAgent 超厉害的,它能让每个人都有机会打造属于自己的 AI 助手。这个工具链支持用户从零开始构建移动端智能体,从收集操作数据,到训练模型,再到部署到手机上,一整套流程都能搞定。而且它是开源的哦,用户可以自己获取数据、训练模型,在个人设备上就能用上智能助手,太方便啦🥰

    研究团队为了验证它的实力,在国内 20 款热门应用里做了测试。结果显示,7B 规模的 MobiAgent 模型在任务完成评分上,把好多知名闭源大模型都比下去了,在同规模的开源 GUI 智能体里也是领先的👏 它独特的 “潜记忆加速器” 能学习历史操作,帮智能体快速完成重复任务,性能提升 2 – 3 倍呢。

    MobiAgent 的核心在于高效的数据收集和智能训练流程。它用轻量级工具记录用户手机操作,再利用通用 VLM 模型生成高质量训练数据,经过精炼调整,让训练出的智能体泛化能力超棒。它的 “大脑” 分三部分:“规划师” 负责任务规划,“决策者” 根据屏幕做决策,“执行者” 执行具体操作。这样的架构让模型训练更高效,反应速度也大幅提升啦😎

    还有创新的 AgentRR 加速框架,能借助以往操作经验,大幅提升重复任务执行效率,动作复用率最高能达到 60% – 85%。智能助手处理日常事务又快又准。

    MobiAgent 的出现,不仅方便了个人智能助手定制化,还推动了移动智能体生态发展,感觉 “能动口就不动手” 的智能时代真的要来了🤩

    宝子们,你们对 MobiAgent 期待吗?快来评论区聊聊呀🧐

    论文地址:https://arxiv.org/pdf/2509.00531

    #MobiAgent #上海交大 #AI 助手 #移动端智能体 #开源工具链 #性能超越

  • 哇塞!ChatGPT 新功能上线,免费用户也能玩转项目管理啦🎉

    宝子们,OpenAI 又搞大动作啦!今天宣布 ChatGPT 的项目功能正式向免费用户开放咯,简直太棒啦👏

    这次更新对不同用户群体都有功能升级哦。先说上传大文件数量限制,免费用户每天能上传最多 5 个文件,Plus 用户提升到 25 个,Pro、商业和企业版用户更是能上传 40 个文件。这种分层设计超贴心,不管你需求大小,都能找到适合自己的使用方式🥰

    还有哦,OpenAI 加入了很多个性化设置功能。现在用户可以自定义项目的颜色和图标,管理界面瞬间变得超有个性,工作起来效率都能提高不少呢。对于需要保持上下文一致性的小伙伴,新增的项目专属记忆控制功能简直太实用啦,能更好地适应各种对话场景,管理信息轻松又自在😎

    这一系列更新,充分体现了 OpenAI 对咱们用户需求的重视呀。不管是企业用户还是个人用户,有了这些新功能,使用 ChatGPT 时体验更流畅啦。

    不得不说,OpenAI 这次更新是一次超重大的用户体验升级,平台吸引力更强了,更多用户都能平等享受到 AI 带来的便利。未来 ChatGPT 肯定还会不断优化,让我们一起期待更多惊喜吧🤩

    宝子们,你们对 ChatGPT 这些新功能期待吗?快来评论区聊聊呀🧐

    #ChatGPT #新功能上线 #项目管理 #用户体验 #免费用户 #个性化设置

  • 重磅!AI 生成内容强制 “打标”,内容安全新变革来袭💥

    宝子们,有个大消息!2025 年 9 月 1 日零时,国家多部门联合制定的《人工智能生成合成内容标识办法》正式生效啦🎉 这个办法提出强制添加显式和隐式标识等规范要求,以后 AI 生成的文字、图片、音频、视频,都得亮出 “数字身份证”🧐

    在这之前,腾讯、抖音、快手、B 站等多个平台都出台了细化规则。就像抖音,上线了内容标识功能和 AI 内容元数据标识读写功能,帮创作者添加提示标识,还能为内容溯源提供技术支持👏

    现在 AI 生成内容生态链进入规范化管理阶段咯。人工智能发展得超迅速,2024 年我国人工智能产业规模都突破 7000 亿元,还连年保持高增长率。但技术普及也带来新风险,像被用于制造虚假新闻、网络诈骗的案例越来越多。

    《标识办法》的政策核心是双重标识要求。显式标识要让普通用户 “一眼可见”,比如在文章开头结尾加文字说明,音视频里加语音提示或特殊图标。隐式标识则是在文件元数据里嵌入 “隐藏信息”,包括各种关键信息。

    这个办法意义重大,起草参与者任奎教授说,它首次把生成服务提供者、内容传播平台、终端用户纳入统一治理框架,和其他规定形成制度递进,明确责任边界;能推动 AIGC 行业规范发展,重塑公众对 AIGC 技术的信任;还提高了我国在人工智能安全治理领域的话语权,为全球内容治理提供了范本👍

    再说说双重标识体系,显式标识要让用户直接感知,文本得在特定位置标注 “人工智能生成” 等字样,字体要清晰。隐式标识侧重技术追溯,在文件内部嵌入元数据,包含各种关键信息。对不同类型的 AI 生成内容,都有明确标注要求。

    《标识办法》还鼓励用 AI 进行原创内容创作哦。而且在法律层面明确了不同主体的义务,服务提供者要确保内容符合标识要求,传播平台要核验隐式标识并添加显著提示标识,应用分发平台要核验服务提供者的标识功能。

    不过,这个办法落地也有挑战。用户可能会删除显性标识或通过转码规避隐性标识,难以精准鉴别恶意用户发布的内容。律师建议内容发布平台承担更多责任。任奎教授从技术层面建议发展安全保证的内容隐式标识技术。

    总之,标识是 AI 生成内容治理的关键一步,但要真正规避风险,还得细化法律法规、建立行业自律标准、加大执法力度和加强国际合作。跨境 AIGC 执法也是挑战,未来要推动技术标识协同,建立跨境执法互助机制。宝子们,你们对 AI 生成内容强制 “打标” 怎么看呀🧐

    #AI 生成内容 #强制打标 #内容安全治理 #双重标识体系 #主体责任 #监管挑战

  • DeepSeek V3.1正式发布:长文档分析、代码理解能力大幅增强,R2仍需等待

    8月19日晚间,DeepSeek 官方宣布线上模型版本已升级至 V3.1,最显著的改进是上下文长度拓展至 128K,相当于可处理 10万至13万汉字 的超长文本,适用于长文档分析、代码库理解及多轮对话场景。

    用户现可通过官网、App 或微信小程序体验新版本,API 接口调用方式保持不变,开发者无需额外调整即可无缝切换。

    此次升级并非大版本迭代,而是对 V3模型的优化。测试显示,V3.1在多步推理任务中的表现较前代提升 43%,尤其在数学计算、代码生成和科学分析等复杂任务中准确性更高。同时,模型“幻觉”(生成不实信息)的情况减少 38%,输出可靠性显著增强。此外,V3.1还优化了多语言支持,尤其提升了对亚洲语言及小众语种的处理能力。

    尽管 V3.1带来重要改进,但用户更期待的下一代大模型 DeepSeek-R2 仍未明确发布时间。此前市场传闻 R2将于 8月15日至30日 发布,但接近 DeepSeek 的知情人士表示,该消息不属实,官方目前无具体发布计划。

    DeepSeek 的更新节奏显示,R2发布前可能会先推出 V4模型。不过,官方一贯保持低调,强调“做完了就会发布”,未回应任何市场推测。

    体验地址:https://chat.deepseek.com/

  • 官方否认​DeepSeek-R2 模型 8 月发布计划

    近日,关于深度求索(DeepSeek)下一代大模型 DeepSeek-R2的发布消息在市场上引起了广泛关注。有传言称 DeepSeek-R2将在8月15日至30日之间发布。然而,根据腾讯科技的报道接近 DeepSeek 的知情人士向媒体确认,该消息并不属实,DeepSeek-R2在本月内并无发布计划。

    早在今年年初,关于 R2模型的消息就已开始流传。当时曾有预测称,R2模型将在3月17日发布,但这一说法同样遭到了官方的否认。至今,DeepSeek 尚未正式公布 R2模型的具体发布时间及技术细节,令众多关注者感到失望。

    据报道,DeepSeek 团队今年6月曾加紧推进 R2模型的开发工作。知情人士透露,CEO 梁文锋对模型的能力仍不满意,团队内部仍在进行性能提升,并未准备好正式投用。早期消息称,DeepSeek 原计划在5月推出 R2模型,但由于各方面原因,该计划被延迟。新模型预计将能够生成更高质量的代码,并具备用非英语语言进行推理的能力。

  • GPT-5正式发布:OpenAI史上最大规模产品升级 四大版本全面解析

    2025年8月7日,OpenAI正式发布GPT-5系列模型,这是该公司历史上最重要的产品升级。此次发布包含GPT-5、GPT-5Mini、GPT-5Nano和GPT-5Pro四个版本,每个版本针对不同应用场景进行深度优化,标志着AI技术进入全新发展阶段。

    统一智能系统:技术架构的革命性突破
    GPT-5被OpenAI定位为”统一智能系统”,成功整合了此前分散在不同模型中的能力:GPT-4o的多模态处理、o系列的深度推理、高级数学计算以及代理任务执行。这一架构创新让用户无需在不同模型间手动切换,系统通过实时路由器根据任务复杂度自动选择最适合的处理方式。

    在核心技术指标上,GPT-5实现了全面突破:

    数学推理:在AIME2025基准测试中达到94.6%准确率,无需外部工具
    代码能力:SWE-bench Verified测试得分74.9%,Aider Polyglot多语言编程测试达到88%
    多模态理解:MMMU基准测试得分84.2%
    专业知识:在GPQA通用问题回答测试中得分88.4%
    四大版本详细解析

    GPT-5(旗舰版):最强推理与多模态能力
    作为系列中的旗舰产品,GPT-5专为复杂任务设计,具备以下核心特性:

    推理能力突破:内置链式推理(Chain-of-Thought)技术,能够分解复杂问题并逐步解决。在内部测试中,GPT-5在40多个职业领域的复杂任务上表现优于前代所有模型。

    全面多模态支持:支持文本、图像、语音和视频处理,继承了Sora的视频生成技术。用户可以上传各种格式的内容,GPT-5能够生成相应回应或执行复合任务,例如分析医学影像或实时翻译视频内容。

    代理式任务执行:支持自动浏览网页、生成完整软件应用、管理日程等复杂操作。在发布会演示中,GPT-5根据简单描述在数秒内生成了包含闪卡、测验和进度跟踪功能的完整法语学习Web应用。

    大幅降低幻觉率:通过”安全补全”技术,GPT-5的事实错误率比GPT-4o降低约45%,在使用推理模式时错误率比o3模型降低约80%。

    GPT-5Mini:高性价比的轻量选择

    GPT-5Mini针对成本敏感应用进行优化,在保留核心功能的同时显著降低了资源需求:

    支持中等复杂度的链式推理任务
    具备文本、图像和语音处理能力,视频处理功能相对受限
    可在较低算力设备上运行,适合中小企业和个人开发者
    在核心推理测试中接近o4-mini性能水平
    主要应用场景包括教育内容生成、客户服务自动化、简单多模态任务处理等。

    GPT-5Nano:超高效边缘计算模型

    GPT-5Nano专为速度和低资源占用优化,是系列中最轻量的版本:

    极低延迟响应,专为实时应用设计
    可在内存仅16GB的设备上运行,包括MacBook或低端服务器
    推理能力相对简化,主要用于快速交互和简单任务
    在通用基准测试中与o3-mini性能相当
    适用场景包括移动设备应用、嵌入式系统、实时翻译、语音助手等对响应速度要求极高的场景。

    GPT-5Pro:面向专业用户的增强版本
    GPT-5Pro是专为高端用户和企业设计的高性能版本:

    增强推理模式:支持”GPT-5Thinking”功能,可对复杂问题进行更长时间的深度推理,确保极高准确性。

    无限制访问:Pro用户享有无限制的GPT-5访问权限,以及GPT-5Pro的独家访问权。

    专业多模态能力:在视频处理、复杂图像分析等任务中表现优异,在HealthBench Hard医疗基准测试中得分46.2%。

    深度工具整合:无缝集成搜索、Canvas、代码执行等专业工具,提供完整的工作流体验。

    定价策略:史上最大规模免费开放
    OpenAI采用了前所未有的开放策略,向所有用户群体提供GPT-5访问权限:

    免费用户:可使用GPT-5和GPT-5Mini,有使用限额,超出后自动切换至Mini版本

    Plus用户($20/月):享有更高使用限额,适合个人用户和小型团队

    Pro用户($200/月):无限制访问GPT-5和GPT-5Pro,并可使用”GPT-5Thinking”模式

    企业与教育用户:发布后一周内获得访问权限,并可使用GPT-5Pro版本

    API定价:输入$1.25/百万token,输出$10/百万token,面向专业开发者

    用户体验的全面升级
    GPT-5系列带来了多项用户体验创新:

    智能模型选择:系统根据任务复杂度和用户意图自动选择最适合的模型版本,用户无需手动切换

    个性化交互:提供四种预设人格(Cynic、Robot、Listener、Nerd)和自定义聊天颜色选项

    增强记忆能力:更大的上下文窗口能够记住更长的对话历史,提供更连贯的交互体验

    用户友好设计:相比GPT-4o,新模型减少了过度讨好的表达,使用更少不必要的表情符号,让交互更加自然

    技术架构创新
    GPT-5系列可能采用了混合专家模型(MoE)架构,通过减少活跃参数数量大幅提升效率。训练数据以英语文本为主,聚焦STEM、编程和通用知识领域,知识截止时间为2024年6月。整个训练过程在NVIDIA H100GPU上完成,耗费约210万GPU小时。

    竞争优势与市场影响
    在当前AI竞争激烈的环境下,GPT-5的发布具有重要战略意义。面对Anthropic Claude3.5Sonnet、xAI Grok4、Google Gemini2.5Pro等强劲竞争对手,OpenAI通过免费开放策略和显著降低幻觉率来巩固市场地位。

    据统计,目前已有500万付费用户使用ChatGPT商业产品,包括BNY Mellon、加州州立大学、Figma、Intercom、摩根士丹利等知名机构。GPT-5的发布预计将进一步加速企业AI采用,推动各行业的数字化转型。

    行业展望与挑战
    GPT-5系列的发布代表了AI技术发展的新里程碑,但同时也面临一些挑战:

    隐私与安全:多模态能力涉及处理医疗影像、个人对话等敏感数据,数据保护成为关键议题

    技术影响:自动化程度的提升可能对传统工作岗位产生冲击,需要社会层面的适应和调整

    性能验证:虽然OpenAI声称GPT-5具备”博士级智能”,但其真实推理能力在实际应用中的表现仍需时间检验

    总结
    GPT-5系列的发布标志着OpenAI在AI领域的又一次重大突破。通过四个版本的差异化布局,OpenAI成功覆盖了从个人用户到企业客户的全部需求谱系。这不仅是一次技术升级,更是AI产品策略的全面革新。

    随着GPT-5成为ChatGPT的新默认模型,取代此前的GPT-4o、o3等版本,用户只需打开ChatGPT输入问题,系统将自动处理并在需要时应用推理功能。这种无缝体验的实现,预示着AI技术正在从工具向助手、从辅助向协作的方向快速演进。

  • GPT-5 发布!最强 AI 系统的惊人实力揭秘

    今天凌晨1点(北京时间),OpenAI正式发布备受瞩目的GPT-5,称其为迄今为止最强大、最实用的AI系统。与前代模型相比,GPT-5主要进步如下:在编程、数学、写作、健康问答、视觉感知等场景能力显著提升;大幅减少幻觉;指令遵循能力更强;显著减少谄媚、讨好性回答 。

    GPT-5面向所有用户开放,Plus订阅用户有更多使用配额,Pro订阅用户可使用具备更深入推理能力、能提供更全面准确回答的GPT-5 Pro。

    GPT-5不再区分传统意义上的推理模型、多模态模型和Agent模型,而是将这些能力集成在统一架构下,实时路由器(Router)会根据对话类型、问题难度、工具调用需求及用户显式指令(如“请认真思考”等)自动判断调用哪个模型。

    GPT-5能力亮点:
    编程能力:是迄今为止最强的代码模型,擅长前端页面生成、大型代码库调试等复杂任务,可单轮提示生成完整、美观、响应式网站/应用/游戏,对排版等设计原则理解能力增强,更符合开发者需求。

    创意写作:能将粗略构思转化为结构完整、富有文学深度、节奏自然的文本,善于处理结构模糊或形式复杂的写作,在日常写作任务中表现出色,更富有人情味。

    健康问答:在健康场景理解力大幅提升,是HealthBench测评中表现最优的模型,能根据多种因素提供精确、可信、贴合实际的健康信息,主动识别潜在风险,引导理性判断,适用于辅助决策但不替代医疗专业人员。

    安全机制革新:从“拒答”转向“安全生成”,引入“Safe-completion(安全生成)”机制,能更细致处理双用途问题,如对“点燃烟花需要的最低能量是多少”这类问题,会在保障安全前提下给出合理实用回答 。

    #GPT5 #OpenAI #AI 系统 #GPT5 能力 #安全机制 #模型升级

  • 小米太猛啦!MiDashengLM-7B 全量开源,音频 AI 新王炸来袭🎇

    宝子们,小米又搞大事情啦👏!小米今日正式发布并且全量开源了 MiDashengLM-7B 多模态大模型,这可是专注于音频理解的 AI 模型哦,在性能和效率方面都有超显著的突破🎉

    先说说技术架构🧐,它采用创新的双核心架构设计,用 Xiaomi Dasheng 作为音频编码器,结合 Qwen2.5-Omni-7B Thinker 作为自回归解码器。这种设计把专业音频处理能力和强大语言理解能力巧妙融合,为模型厉害的表现打下了技术基础。而且它最大的亮点是通用音频描述训练策略,打破了传统音频 AI 模型只专注单一声音处理的局限,能统一理解语音、环境声音和音乐,这种全域音频理解能力在业界可太少见啦👍

    性能方面更是亮眼✨,在 22 个公开评测集上刷新了多模态大模型的最好成绩,这足以证明它在音频理解领域的技术领先地位。推理效率提升得也超夸张,单样本推理的首 Token 延迟只有业界先进模型的四分之一,相同显存条件下,数据吞吐效率比业界先进模型高出 20 倍以上。这得益于小米在模型架构优化和训练策略改进上的技术积累,在保持高精度的同时降低了计算开销👏

    MiDashengLM-7B 是小米 Dasheng 系列模型的重要升级版本哦。Xiaomi Dasheng 音频编码器经过多代技术迭代优化,已经有了成熟技术体系。新模型在前作基础上全面升级,音频理解准确性和计算效率都大幅提升啦🥳

    未来规划也超值得期待😆,小米已经在对该模型进行计算效率的进一步升级,目标是在终端设备上实现离线部署。这意味着用户能在不依赖云端服务的情况下享受高质量音频 AI 服务,隐私保护更好,使用成本更低,还能为小米在 IoT 生态里的音频 AI 应用提供技术支持。另外,小米还在完善基于用户自然语言提示的声音编辑功能,以后通过简单文字描述就能完成复杂音频处理任务,音频编辑技术门槛大大降低啦🤩

    小米选择全量开源 MiDashengLM-7B,真的超有意义👏。这能推动整个音频 AI 领域的技术进步,给研究者和开发者提供学习改进的好机会。开源能加速音频 AI 技术的普及应用,让更多创新应用出现,推动行业生态繁荣发展🎉

    宝子们,感觉音频 AI 的新时代要来了,你们对这个 MiDashengLM-7B 怎么看呀🧐,快来评论区聊聊😜

    #小米 #MiDashengLM7B #音频 AI #开源模型 #多模态大模型 #音频理解 #技术突破 #推理效率

  • 微软放大招!Edge 变身超酷 AI 浏览器,功能绝了😍

    宝子们👋,今天来聊聊微软发布的超厉害的 AI 浏览器!Google 和 OpenAI 推出 AI 浏览器后,微软也坐不住啦,给旗下 Edge 浏览器接入 “Copilot 模式”,直接把它变成了能主动思考、分析总结的 AI 浏览器,太牛啦👍

    先说说超厉害的「跨标签页智能感知」功能🧐。简单讲,Edge Copilot 能同时读取所有打开的标签页,快速完成复杂的总结和对比分析任务。旅游的时候,用它对比酒店、机票价格超方便;聚餐时,它能查看天气、订餐厅、规划最佳出行路线,简直是生活小助手😎

    允许 Copilot 访问历史记录后,它还能根据咱们的习惯,引导对接未完成的工作。比如检测到你在学线上业务,下次打开浏览器,就能让它推荐学习教程,超贴心🥰

    我赶紧去 Edge 官网下载最新版本体验了一番。就拿 GitHub 来说,以前想了解 Trending 榜单上项目的核心功能和亮点,得逐个点开看 README 介绍,超耗时。现在有了 Copilot 的「跨标签页智能感知」,一句话就能汇总所有项目亮点,太高效啦👏

    在学术研究、商业调研、内容整理这些场景,用 Edge 搜索资料,保留重要标签页,让 Copilot 一键总结输出就行。有疑问直接问它,工作流程超丝滑🤗

    切换到 Copilot 模式后,新标签页有简洁的 AI 输入框,整合了聊天、搜索和网页导航功能。顶部输入框旁新增 Copilot 图标,一句话就能总结当前页面要点。它还能汇总 PDF、视频、网页等多种格式内容哦👍

    另外,Edge 新增了「语音助手 Copilot」,支持中文对话。能根据搜索内容和它语音交流,像智能助理一样,彻底解放双手啦😜

    最后说说,微软把 Edge 和 AI 深度融合,想打破 Chrome 的垄断地位。Chrome 在 AI 功能上发力有限,只在侧边栏集成 Gemini 。这两年原生 AI 浏览器冲击传统浏览器市场,微软肯定感受到了危机,所以免费开放 Edge 集成 AI 功能吸引用户。比起每月 20 美刀的 Perplexity ,免费的 Edge 真的香爆啦🥳

    宝子们有用过微软这款 AI 浏览器的吗?快来评论区分享下感受呀🧐

    #微软 #AI 浏览器 #EdgeCopilot #跨标签页智能感知 #语音助手 #浏览器新功能 #AI 功能对比

  • 🎈扣子开源啦!开发者的盛宴来咯🎉

    宝子们,今天要给大家分享一个超重磅的消息,扣子开源它最核心的项目啦👏

    这次开源的项目有:

    • Coze Studio(扣子开发平台)
    • Coze Loop(扣子罗盘)

    而且采用的是 Apache 2.0 许可证哦,这好处可太多啦👇

    • 可商用:咱们能放心拿来商业使用,没有乱七八糟的附加条款,超省心!
    • 专利授权:授权明确,完全没有后顾之忧,大胆搞开发就行!
    • 社区共建:能和全球开发者一起共建未来,想想就超酷!

    先来说说 Coze Studio(扣子开发平台)✨ 这可是扣子的核心业务哦。在这里,你只要通过简单地拖拽节点,就能自由编排任何的 workflow,轻松得就像搭积木🧩 它还包含 Plugin 核心框架,能把任何第三方 API 或私有能力封装成插件,一下子就把 Agent 的能力边界无限扩展啦。更贴心的是,它还提供开箱即用的开发环境,一键部署就能搞定,这对开发者来说简直不要太友好!GitHub 项目地址👉 https://github.com/coze-dev/coze-studio

    再看看 Coze Loop(扣子罗盘)🎯 这是专门为 AI Agent 开发者打造的全流程工具平台。它能帮你联调提示词、做自动评测,还能监控 Agent 的表现,功能超全面。而且 Loop 支持团队协作,还能接入 Langchain、Eino 等主流框架,不管你是个人开发者、小团队,还是企业级 AI 项目,它都能完美适配!GitHub 项目地址👉 https://github.com/coze-dev/coze-loop

    不得不说,Agent 的未来真的是属于每一位创造者呀!大家一起借助扣子开源的东风,在开发的世界里大显身手吧💪

    宝子们对扣子开源有啥想法,快来评论区聊聊呀🧐