作者： stark, tony

小米太猛啦！MiDashengLM-7B 全量开源，音频 AI 新王炸来袭🎇

宝子们，小米又搞大事情啦👏！小米今日正式发布并且全量开源了 MiDashengLM-7B 多模态大模型，这可是专注于音频理解的 AI 模型哦，在性能和效率方面都有超显著的突破🎉

先说说技术架构🧐，它采用创新的双核心架构设计，用 Xiaomi Dasheng 作为音频编码器，结合 Qwen2.5-Omni-7B Thinker 作为自回归解码器。这种设计把专业音频处理能力和强大语言理解能力巧妙融合，为模型厉害的表现打下了技术基础。而且它最大的亮点是通用音频描述训练策略，打破了传统音频 AI 模型只专注单一声音处理的局限，能统一理解语音、环境声音和音乐，这种全域音频理解能力在业界可太少见啦👍

性能方面更是亮眼✨，在 22 个公开评测集上刷新了多模态大模型的最好成绩，这足以证明它在音频理解领域的技术领先地位。推理效率提升得也超夸张，单样本推理的首 Token 延迟只有业界先进模型的四分之一，相同显存条件下，数据吞吐效率比业界先进模型高出 20 倍以上。这得益于小米在模型架构优化和训练策略改进上的技术积累，在保持高精度的同时降低了计算开销👏

MiDashengLM-7B 是小米 Dasheng 系列模型的重要升级版本哦。Xiaomi Dasheng 音频编码器经过多代技术迭代优化，已经有了成熟技术体系。新模型在前作基础上全面升级，音频理解准确性和计算效率都大幅提升啦🥳

未来规划也超值得期待😆，小米已经在对该模型进行计算效率的进一步升级，目标是在终端设备上实现离线部署。这意味着用户能在不依赖云端服务的情况下享受高质量音频 AI 服务，隐私保护更好，使用成本更低，还能为小米在 IoT 生态里的音频 AI 应用提供技术支持。另外，小米还在完善基于用户自然语言提示的声音编辑功能，以后通过简单文字描述就能完成复杂音频处理任务，音频编辑技术门槛大大降低啦🤩

小米选择全量开源 MiDashengLM-7B，真的超有意义👏。这能推动整个音频 AI 领域的技术进步，给研究者和开发者提供学习改进的好机会。开源能加速音频 AI 技术的普及应用，让更多创新应用出现，推动行业生态繁荣发展🎉

宝子们，感觉音频 AI 的新时代要来了，你们对这个 MiDashengLM-7B 怎么看呀🧐，快来评论区聊聊😜

#小米 #MiDashengLM7B #音频 AI #开源模型 #多模态大模型 #音频理解 #技术突破 #推理效率

2025年8月6日
微软放大招！Edge 变身超酷 AI 浏览器，功能绝了😍

宝子们👋，今天来聊聊微软发布的超厉害的 AI 浏览器！Google 和 OpenAI 推出 AI 浏览器后，微软也坐不住啦，给旗下 Edge 浏览器接入 “Copilot 模式”，直接把它变成了能主动思考、分析总结的 AI 浏览器，太牛啦👍

先说说超厉害的「跨标签页智能感知」功能🧐。简单讲，Edge Copilot 能同时读取所有打开的标签页，快速完成复杂的总结和对比分析任务。旅游的时候，用它对比酒店、机票价格超方便；聚餐时，它能查看天气、订餐厅、规划最佳出行路线，简直是生活小助手😎

允许 Copilot 访问历史记录后，它还能根据咱们的习惯，引导对接未完成的工作。比如检测到你在学线上业务，下次打开浏览器，就能让它推荐学习教程，超贴心🥰

我赶紧去 Edge 官网下载最新版本体验了一番。就拿 GitHub 来说，以前想了解 Trending 榜单上项目的核心功能和亮点，得逐个点开看 README 介绍，超耗时。现在有了 Copilot 的「跨标签页智能感知」，一句话就能汇总所有项目亮点，太高效啦👏

在学术研究、商业调研、内容整理这些场景，用 Edge 搜索资料，保留重要标签页，让 Copilot 一键总结输出就行。有疑问直接问它，工作流程超丝滑🤗

切换到 Copilot 模式后，新标签页有简洁的 AI 输入框，整合了聊天、搜索和网页导航功能。顶部输入框旁新增 Copilot 图标，一句话就能总结当前页面要点。它还能汇总 PDF、视频、网页等多种格式内容哦👍

另外，Edge 新增了「语音助手 Copilot」，支持中文对话。能根据搜索内容和它语音交流，像智能助理一样，彻底解放双手啦😜

最后说说，微软把 Edge 和 AI 深度融合，想打破 Chrome 的垄断地位。Chrome 在 AI 功能上发力有限，只在侧边栏集成 Gemini 。这两年原生 AI 浏览器冲击传统浏览器市场，微软肯定感受到了危机，所以免费开放 Edge 集成 AI 功能吸引用户。比起每月 20 美刀的 Perplexity ，免费的 Edge 真的香爆啦🥳

宝子们有用过微软这款 AI 浏览器的吗？快来评论区分享下感受呀🧐

#微软 #AI 浏览器 #EdgeCopilot #跨标签页智能感知 #语音助手 #浏览器新功能 #AI 功能对比

2025年8月1日
🎈扣子开源啦！开发者的盛宴来咯🎉
宝子们，今天要给大家分享一个超重磅的消息，扣子开源它最核心的项目啦👏

这次开源的项目有：
- Coze Studio（扣子开发平台）
- Coze Loop（扣子罗盘）
而且采用的是 Apache 2.0 许可证哦，这好处可太多啦👇
- 可商用：咱们能放心拿来商业使用，没有乱七八糟的附加条款，超省心！
- 专利授权：授权明确，完全没有后顾之忧，大胆搞开发就行！
- 社区共建：能和全球开发者一起共建未来，想想就超酷！
先来说说 Coze Studio（扣子开发平台）✨ 这可是扣子的核心业务哦。在这里，你只要通过简单地拖拽节点，就能自由编排任何的 workflow，轻松得就像搭积木🧩 它还包含 Plugin 核心框架，能把任何第三方 API 或私有能力封装成插件，一下子就把 Agent 的能力边界无限扩展啦。更贴心的是，它还提供开箱即用的开发环境，一键部署就能搞定，这对开发者来说简直不要太友好！GitHub 项目地址👉 https://github.com/coze-dev/coze-studio

再看看 Coze Loop（扣子罗盘）🎯 这是专门为 AI Agent 开发者打造的全流程工具平台。它能帮你联调提示词、做自动评测，还能监控 Agent 的表现，功能超全面。而且 Loop 支持团队协作，还能接入 Langchain、Eino 等主流框架，不管你是个人开发者、小团队，还是企业级 AI 项目，它都能完美适配！GitHub 项目地址👉 https://github.com/coze-dev/coze-loop

不得不说，Agent 的未来真的是属于每一位创造者呀！大家一起借助扣子开源的东风，在开发的世界里大显身手吧💪

宝子们对扣子开源有啥想法，快来评论区聊聊呀🧐
2025年7月26日
ChatGPT Agent 发布，AI 新时代开启啦！

家人们，AI 圈最近有个超级大消息，OpenAI 正式推出 ChatGPT Agent 啦！这大半年，Agent 概念一直超火，可真正落地成产品的没几个。这次 ChatGPT Agent 的出现，绝对是里程碑式的！

它的亮点简直不要太多！三合一系统，把 Operator、Deep Research 和 ChatGPT 本体整合在一起，构建了统一智能体系统。还有内置工具，图形 / 文本浏览器、终端和 API 调用器等超实用，手机端也能轻松使用，任务完成自动推送结果，超贴心。能连接 Gmail、GitHub 等第三方应用，完美嵌入咱们的工作流。性能还领先，在多项基准测试里表现超棒，综合性能行业前列。而且配额灵活，不同用户都有相应额度，还能按需扩展。

从婚礼准备这种生活场景到定制贴纸这种创意活儿，它都能轻松应对。执行任务时，咱们还能随时中断、修改指令，甚至手动接管浏览器操作。

它是通过强化学习在复杂任务中训练出来的，整合了各方能力。使用也简单，在聊天界面左下角「工具」下拉菜单选「Agent 模式」就能启用，结果自动推送。市场对它反响热烈，在基准测试里刷新纪录。

未来 AI Agent 可用性门槛拉高，浏览器会成为关键平台。大家对 ChatGPT Agent 有啥期待呀，快来评论区聊聊！

#ChatGPTAgent #AI 智能体 #OpenAI 新品 #AI 应用突破 #智能体技术

2025年7月21日
重磅！宇树科技开启上市辅导，王兴兴控近 35% 股权！

宝子们，中国证监会官网有大消息！宇树科技已经开启上市辅导啦，辅导机构是中信证券～辅导备案报告还显示，宇树科技的控股股东、实际控制人是王兴兴，他直接持有公司 23.8216% 股权，还通过上海宇翼企业管理咨询合伙企业（有限合伙）控制公司 10.9414% 股权，合起来控制公司 34.7630% 股权呢！大家怎么看宇树科技的上市之路呀，快来一起聊聊！

# 宇树科技 #上市辅导 #王兴兴 #中信证券 #股权控制

2025年7月21日
ChatGPT 语音模式来袭！效率飙升，你准备好了吗？
宝子们，OpenAI 又搞大事情啦！ChatGPT 的 macOS 桌面应用程序录制模式全球开放啦，这功能简直绝绝子，直接让工作效率起飞！🤩

🌟 录音模式超强大

只要点击聊天窗口底部录音按钮，就能捕捉麦克风和系统音频，一次能录 120 分钟哦。录完音频上传到服务器处理，会生成结构化笔记，像摘要、关键点、行动项目和时间戳都有，还保存在私人画布（Canvas）里。而且原始音频转录后就删除，不用担心数据安全问题。实时转录超贴心，开会或头脑风暴时不用手动记笔记，ChatGPT 自动整理成清晰文档。生成的画布还能手动编辑或进一步处理，能转换成项目计划、邮件草稿甚至代码框架，创作超灵活！🎉

💡 隐私与合规要注意

OpenAI 强调使用这功能得符合当地法律法规，要提前获得被录制者明确同意哦。Plus 用户能在设置里禁用 “为每个人改进模型” 选项，防止转录文本和画布用于模型训练。不同版本也有不同隐私设置，大家使用前一定要了解清楚，别踩隐私雷区！😜

🌐 多场景应用超实用

这个录制模式在好多场景都能大显身手：
- 会议记录：自动生成带时间戳的会议摘要和行动项目，回顾决策超方便。
- 头脑风暴：捕捉灵感，整理成结构化笔记，方便跟进执行。
- 语音注释：随时记录想法，转化成可执行任务或计划。
- 代码生成：开发人员语音描述需求，直接转成代码框架。
  而且生成的画布能在后续对话引用，跨会话积累知识，查信息超容易！👏
📈 生产力工具新突破

这功能真是 AI 在生产力领域的重大进步，录音转录无缝集成，简化会议记录，智能摘要和多格式输出节省大量时间。操作简单，功能强大，对专业人士、学生和创作者来说都是得力助手。不过也有点小不足，缺少说话人识别，多人场景可能不太友好。但未来要是能增加说话人分割和多语言优化，那就更完美啦！🤗

🎯 未来展望超可期

OpenAI 说这只是成为综合生产力助手的重要一步哦。以后会优化多语言转录准确性，可能扩展到 Windows 和移动设备，还可能和其他工具集成，成为跨平台智能助手！是不是超期待？😆

宝子们，快去更新到最新版本的 ChatGPT macOS 应用程序（要 macOS 14 + 和 Apple Silicon）体验一下吧，订阅者每月 20 美元就能立即使用。想了解更多就去 OpenAI 官方网站（openai.com）或帮助中心（help.openai.com）看看～

大家用了这个功能感觉怎么样呀？快来评论区分享分享～

关键词：#ChatGPT #录音模式 #生产力工具 #隐私保护 #多场景应用 #AI 进步
2025年7月18日
爆火！AI 歌手从翻唱到原创，商业价值爆发背后藏着什么秘密？

宝子们，继 “AI 孙燕姿” 火了之后，AI 歌手赛道又热闹起来啦！🎉

最近有个超酷的 AI 歌手 Yuri，蓝色挑染、亚洲面孔，拿着骷髅头话筒，帅炸了！😎 上个月它发布的首支 AI 音乐 MV《Surreal》直接在全网爆火，播放量超 700 万，还多次登上 B 站热榜，北面（The North Face）都找它合作啦，这排面没谁了！👏

Yuri&The North Face

Yuri 可不是个例哦，海外有支 AI 乐队 “The Velvet Sundown” 也悄悄走红啦！一个月连发 5 首单曲，在 Spotify 等多个流媒体平台上积累了超 110 万听众。他们的复古怀旧爵士乐风，简直让人分不清是 AI 生成还是真实乐队演奏，太厉害了！🤩

美国著名制作人 Timbaland 也来凑热闹，高调推出首位 AI 偶像 TaTa，还试图定义全新音乐流派 “A-Pop”（AI-Pop），这波操作真是 666！👍

现在的 AI 歌手可不简单，从 AI 翻唱到 AI “原创”、IP 孵化，一路进化成能产出高质量作品，拥有粉丝效应和商业价值的创作者啦！当技术壁垒慢慢被打破，成功的 AI IP 就这么建立起来咯，TaTa 还成了第一个有商业代言的 AI 原生人格呢！👏

而且宝子们，AI 对广告行业影响可不止 “用 AI 制作广告片” 哦，更重要的是它改变了整个流量结构和注意力市场。以后内容制作成本低，供应爆发式增长，广告的关键就不再是 “制作”，而是 “怎么被人看见” 啦，媒体渠道也会变得高度碎片化，这才是对行业影响深远的地方呢！😜

宝子们，你们对 AI 歌手和它带来的影响怎么看呀？快来评论区说说～

#AI 歌手 #AI 音乐 #AI 偶像 #音乐流派 #广告行业变革 #AI 原创 #商业价值

2025年7月12日
AI 时代新宠 MCP 协议，你了解多少？
宝子们，在如今飞速发展的 AI 世界里，有个超厉害的 MCP 协议诞生啦！🤩

MCP 协议全称 Model Context Protocol（模型上下文协议），是 Anthropic 公司提出并开源的开放标准协议哦。它的出现简直太及时啦，完美解决了 AI 助手和各类数据系统连接的难题，让 AI 系统能更可靠地获取数据，给出的响应又相关又优质，给开发者和企业带来好多便利呢！👏

🔍 核心组件超关键

MCP 协议核心架构有三个重要组成部分：
- MCP 主机：就像指挥官一样，是系统发起端，包含 MCP 客户端的应用程序，负责给 MCP 服务器发请求，根据用户需求获取数据和功能支持。
- MCP 客户端：作为中间桥梁，负责和 MCP 服务器通信，准确转发 MCP 主机的请求，再把服务器返回的结果安全送回，保障系统流畅运行。
- MCP 服务器：是提供具体功能的后端服务，很轻量级，可以是本地的 Node.js 或 Python 程序，也能是远程云服务，适应各种应用场景和部署需求。
📶 通信机制超灵活

MCP 协议通信机制基于 JSON-RPC2.0 协议，支持两种通信方式：
- 本地通信：通过标准输入输出和本地服务器交互，对数据安全要求高的场景超合适，像企业内部处理敏感数据，能保证数据在本地安全传输。
- 远程通信：基于 SSE（Server-Sent Events）的 HTTP 连接，对云端服务支持超棒，能满足大规模数据处理和分布式计算需求。
💥 应用场景超广泛

MCP 协议应用场景超多，几乎覆盖所有需要 AI 与数据系统紧密结合的领域。虽然这里没详细说，但可想而知它在很多行业都能大显身手！

宝子们，你们对 MCP 协议怎么看呀？快来评论区聊聊～

#MCP 协议 #ModelContextProtocol #AI 协议 #数据连接 #核心组件 #通信机制
2025年7月8日
免费 · 多模态 · 超强上下文：Gemini CLI 发布

地址
https://github.com/google-gemini/gemini-cli

一键接入
npx https://github.com/google-gemini/gemini-cli
或者
npm install -g @google/gemini-cli

以下为特性

🎁 免费使用
只需登录 Google 账号，即享全部功能，无需订阅

📈 超高配额
每天最多 1000 次请求，每分钟最高 60 次

🧠 超长上下文
支持 100 万 token 上下文

🎨 多模态生成
可从 PDF 或手绘草图生成应用

🤖 自动化任务
支持 PR 查询、复杂 rebase 等操作的自动执行

🔌 支持 MCP
通过 MCP 协议连接外部服务

🖼️ 支持媒体生成
集成 Imagen、Veo、Lyria 等 AI 工具

🔍 内置搜索
集成 Google 实时搜索，为模型提供网页上下文增强

💻 本地终端工具
将 Gemini 带入命令行终端，轻量快速、无需切换环境

🛠️ 开源协议
基于 Apache 2.0 授权，安全、透明、可自定义

🧩 VS Code 集成
与 Gemini Code Assist 共享核心技术，支持多步推理与编码协作

2025年7月5日
Google 大动作！Gemini Live 整合多应用，智能助手进化啦

宝子们，谷歌智能语音助手 Gemini Live 要有大升级啦！👏

Gemini Live 扩展应用连接，功能再升级

它马上要和好多 Google 应用深度整合，实用性和智能化直接拉满，妥妥要成为超强大的生产力工具！🤩

这次扩展了好多应用连接呢，像 Google Maps、Google Calendar 这些热门应用，还有 Spotify 和 YouTube Music 等第三方应用都在支持范围内。通过自然语音交互，就能轻松控制它们啦，比如在 Google Calendar 里创建活动，用 Spotify 播放喜欢的歌，超方便！🎉

还有哦，它新增了基于摄像头输入的功能。展示个音乐会海报或者手写清单，它就能识别信息，在对应应用里操作，像在 Google Calendar 加事件，在 Google Keep 记清单，太酷啦！😎

更智能的交互方式:实时信息与卡片式界面

交互方式也更智能啦，全新卡片式界面会在对话里展示 Google 应用的实时信息，比如问地点信息，直接从 Google Maps 提取数据以卡片形式呈现导航选项，不用在不同应用间来回切换啦。而且还计划引入类似 Circle-to-Search 的功能，让搜索和操作更灵活，处理复杂任务更厉害！💪

隐私方面也有保障哦，用户能随时关闭连接，关闭特定设置后，聊天数据不会用于训练 AI 模型。

谷歌想把它打造成统一 AI 控制中心，未来可能支持更多服务和应用，说不定能控制智能家居设备呢！🤗

逐步推送，部分用户已可体验

目前新功能在分阶段推送，部分用户已经能体验一些功能啦，大家可以试试语音指令，看看自己的设备有没有启用新功能哦！🤔

宝子们，你们期待 Gemini Live 的这次升级吗？快来评论区说说～

关键词：#GeminiLive #Google 应用整合 #AI 助手升级 #智能交互 #隐私保障

2025年7月2日

作者： stark, tony

Gemini Live 扩展应用连接，功能再升级

更智能的交互方式:实时信息与卡片式界面

逐步推送，部分用户已可体验