作者: stark, tony

  • 小米太猛啦!MiDashengLM-7B 全量开源,音频 AI 新王炸来袭🎇

    宝子们,小米又搞大事情啦👏!小米今日正式发布并且全量开源了 MiDashengLM-7B 多模态大模型,这可是专注于音频理解的 AI 模型哦,在性能和效率方面都有超显著的突破🎉

    先说说技术架构🧐,它采用创新的双核心架构设计,用 Xiaomi Dasheng 作为音频编码器,结合 Qwen2.5-Omni-7B Thinker 作为自回归解码器。这种设计把专业音频处理能力和强大语言理解能力巧妙融合,为模型厉害的表现打下了技术基础。而且它最大的亮点是通用音频描述训练策略,打破了传统音频 AI 模型只专注单一声音处理的局限,能统一理解语音、环境声音和音乐,这种全域音频理解能力在业界可太少见啦👍

    性能方面更是亮眼✨,在 22 个公开评测集上刷新了多模态大模型的最好成绩,这足以证明它在音频理解领域的技术领先地位。推理效率提升得也超夸张,单样本推理的首 Token 延迟只有业界先进模型的四分之一,相同显存条件下,数据吞吐效率比业界先进模型高出 20 倍以上。这得益于小米在模型架构优化和训练策略改进上的技术积累,在保持高精度的同时降低了计算开销👏

    MiDashengLM-7B 是小米 Dasheng 系列模型的重要升级版本哦。Xiaomi Dasheng 音频编码器经过多代技术迭代优化,已经有了成熟技术体系。新模型在前作基础上全面升级,音频理解准确性和计算效率都大幅提升啦🥳

    未来规划也超值得期待😆,小米已经在对该模型进行计算效率的进一步升级,目标是在终端设备上实现离线部署。这意味着用户能在不依赖云端服务的情况下享受高质量音频 AI 服务,隐私保护更好,使用成本更低,还能为小米在 IoT 生态里的音频 AI 应用提供技术支持。另外,小米还在完善基于用户自然语言提示的声音编辑功能,以后通过简单文字描述就能完成复杂音频处理任务,音频编辑技术门槛大大降低啦🤩

    小米选择全量开源 MiDashengLM-7B,真的超有意义👏。这能推动整个音频 AI 领域的技术进步,给研究者和开发者提供学习改进的好机会。开源能加速音频 AI 技术的普及应用,让更多创新应用出现,推动行业生态繁荣发展🎉

    宝子们,感觉音频 AI 的新时代要来了,你们对这个 MiDashengLM-7B 怎么看呀🧐,快来评论区聊聊😜

    #小米 #MiDashengLM7B #音频 AI #开源模型 #多模态大模型 #音频理解 #技术突破 #推理效率

  • 微软放大招!Edge 变身超酷 AI 浏览器,功能绝了😍

    宝子们👋,今天来聊聊微软发布的超厉害的 AI 浏览器!Google 和 OpenAI 推出 AI 浏览器后,微软也坐不住啦,给旗下 Edge 浏览器接入 “Copilot 模式”,直接把它变成了能主动思考、分析总结的 AI 浏览器,太牛啦👍

    先说说超厉害的「跨标签页智能感知」功能🧐。简单讲,Edge Copilot 能同时读取所有打开的标签页,快速完成复杂的总结和对比分析任务。旅游的时候,用它对比酒店、机票价格超方便;聚餐时,它能查看天气、订餐厅、规划最佳出行路线,简直是生活小助手😎

    允许 Copilot 访问历史记录后,它还能根据咱们的习惯,引导对接未完成的工作。比如检测到你在学线上业务,下次打开浏览器,就能让它推荐学习教程,超贴心🥰

    我赶紧去 Edge 官网下载最新版本体验了一番。就拿 GitHub 来说,以前想了解 Trending 榜单上项目的核心功能和亮点,得逐个点开看 README 介绍,超耗时。现在有了 Copilot 的「跨标签页智能感知」,一句话就能汇总所有项目亮点,太高效啦👏

    在学术研究、商业调研、内容整理这些场景,用 Edge 搜索资料,保留重要标签页,让 Copilot 一键总结输出就行。有疑问直接问它,工作流程超丝滑🤗

    切换到 Copilot 模式后,新标签页有简洁的 AI 输入框,整合了聊天、搜索和网页导航功能。顶部输入框旁新增 Copilot 图标,一句话就能总结当前页面要点。它还能汇总 PDF、视频、网页等多种格式内容哦👍

    另外,Edge 新增了「语音助手 Copilot」,支持中文对话。能根据搜索内容和它语音交流,像智能助理一样,彻底解放双手啦😜

    最后说说,微软把 Edge 和 AI 深度融合,想打破 Chrome 的垄断地位。Chrome 在 AI 功能上发力有限,只在侧边栏集成 Gemini 。这两年原生 AI 浏览器冲击传统浏览器市场,微软肯定感受到了危机,所以免费开放 Edge 集成 AI 功能吸引用户。比起每月 20 美刀的 Perplexity ,免费的 Edge 真的香爆啦🥳

    宝子们有用过微软这款 AI 浏览器的吗?快来评论区分享下感受呀🧐

    #微软 #AI 浏览器 #EdgeCopilot #跨标签页智能感知 #语音助手 #浏览器新功能 #AI 功能对比

  • 🎈扣子开源啦!开发者的盛宴来咯🎉

    宝子们,今天要给大家分享一个超重磅的消息,扣子开源它最核心的项目啦👏

    这次开源的项目有:

    • Coze Studio(扣子开发平台)
    • Coze Loop(扣子罗盘)

    而且采用的是 Apache 2.0 许可证哦,这好处可太多啦👇

    • 可商用:咱们能放心拿来商业使用,没有乱七八糟的附加条款,超省心!
    • 专利授权:授权明确,完全没有后顾之忧,大胆搞开发就行!
    • 社区共建:能和全球开发者一起共建未来,想想就超酷!

    先来说说 Coze Studio(扣子开发平台)✨ 这可是扣子的核心业务哦。在这里,你只要通过简单地拖拽节点,就能自由编排任何的 workflow,轻松得就像搭积木🧩 它还包含 Plugin 核心框架,能把任何第三方 API 或私有能力封装成插件,一下子就把 Agent 的能力边界无限扩展啦。更贴心的是,它还提供开箱即用的开发环境,一键部署就能搞定,这对开发者来说简直不要太友好!GitHub 项目地址👉 https://github.com/coze-dev/coze-studio

    再看看 Coze Loop(扣子罗盘)🎯 这是专门为 AI Agent 开发者打造的全流程工具平台。它能帮你联调提示词、做自动评测,还能监控 Agent 的表现,功能超全面。而且 Loop 支持团队协作,还能接入 Langchain、Eino 等主流框架,不管你是个人开发者、小团队,还是企业级 AI 项目,它都能完美适配!GitHub 项目地址👉 https://github.com/coze-dev/coze-loop

    不得不说,Agent 的未来真的是属于每一位创造者呀!大家一起借助扣子开源的东风,在开发的世界里大显身手吧💪

    宝子们对扣子开源有啥想法,快来评论区聊聊呀🧐

  • ChatGPT Agent 发布,AI 新时代开启啦!

    家人们,AI 圈最近有个超级大消息,OpenAI 正式推出 ChatGPT Agent 啦!这大半年,Agent 概念一直超火,可真正落地成产品的没几个。这次 ChatGPT Agent 的出现,绝对是里程碑式的!


    它的亮点简直不要太多!三合一系统,把 Operator、Deep Research 和 ChatGPT 本体整合在一起,构建了统一智能体系统。还有内置工具,图形 / 文本浏览器、终端和 API 调用器等超实用,手机端也能轻松使用,任务完成自动推送结果,超贴心。能连接 Gmail、GitHub 等第三方应用,完美嵌入咱们的工作流。性能还领先,在多项基准测试里表现超棒,综合性能行业前列。而且配额灵活,不同用户都有相应额度,还能按需扩展。


    从婚礼准备这种生活场景到定制贴纸这种创意活儿,它都能轻松应对。执行任务时,咱们还能随时中断、修改指令,甚至手动接管浏览器操作。


    它是通过强化学习在复杂任务中训练出来的,整合了各方能力。使用也简单,在聊天界面左下角「工具」下拉菜单选「Agent 模式」就能启用,结果自动推送。市场对它反响热烈,在基准测试里刷新纪录。


    未来 AI Agent 可用性门槛拉高,浏览器会成为关键平台。大家对 ChatGPT Agent 有啥期待呀,快来评论区聊聊!

    #ChatGPTAgent #AI 智能体 #OpenAI 新品 #AI 应用突破 #智能体技术

  • 重磅!宇树科技开启上市辅导,王兴兴控近 35% 股权!

    宝子们,中国证监会官网有大消息!宇树科技已经开启上市辅导啦,辅导机构是中信证券~辅导备案报告还显示,宇树科技的控股股东、实际控制人是王兴兴,他直接持有公司 23.8216% 股权,还通过上海宇翼企业管理咨询合伙企业(有限合伙)控制公司 10.9414% 股权,合起来控制公司 34.7630% 股权呢!大家怎么看宇树科技的上市之路呀,快来一起聊聊!

    # 宇树科技 #上市辅导 #王兴兴 #中信证券 #股权控制

  • ChatGPT 语音模式来袭!效率飙升,你准备好了吗?

    宝子们,OpenAI 又搞大事情啦!ChatGPT 的 macOS 桌面应用程序录制模式全球开放啦,这功能简直绝绝子,直接让工作效率起飞!🤩

    🌟 录音模式超强大


    只要点击聊天窗口底部录音按钮,就能捕捉麦克风和系统音频,一次能录 120 分钟哦。录完音频上传到服务器处理,会生成结构化笔记,像摘要、关键点、行动项目和时间戳都有,还保存在私人画布(Canvas)里。而且原始音频转录后就删除,不用担心数据安全问题。实时转录超贴心,开会或头脑风暴时不用手动记笔记,ChatGPT 自动整理成清晰文档。生成的画布还能手动编辑或进一步处理,能转换成项目计划、邮件草稿甚至代码框架,创作超灵活!🎉

    💡 隐私与合规要注意


    OpenAI 强调使用这功能得符合当地法律法规,要提前获得被录制者明确同意哦。Plus 用户能在设置里禁用 “为每个人改进模型” 选项,防止转录文本和画布用于模型训练。不同版本也有不同隐私设置,大家使用前一定要了解清楚,别踩隐私雷区!😜

    🌐 多场景应用超实用


    这个录制模式在好多场景都能大显身手:

    • 会议记录:自动生成带时间戳的会议摘要和行动项目,回顾决策超方便。
    • 头脑风暴:捕捉灵感,整理成结构化笔记,方便跟进执行。
    • 语音注释:随时记录想法,转化成可执行任务或计划。
    • 代码生成:开发人员语音描述需求,直接转成代码框架。
      而且生成的画布能在后续对话引用,跨会话积累知识,查信息超容易!👏

    📈 生产力工具新突破


    这功能真是 AI 在生产力领域的重大进步,录音转录无缝集成,简化会议记录,智能摘要和多格式输出节省大量时间。操作简单,功能强大,对专业人士、学生和创作者来说都是得力助手。不过也有点小不足,缺少说话人识别,多人场景可能不太友好。但未来要是能增加说话人分割和多语言优化,那就更完美啦!🤗

    🎯 未来展望超可期


    OpenAI 说这只是成为综合生产力助手的重要一步哦。以后会优化多语言转录准确性,可能扩展到 Windows 和移动设备,还可能和其他工具集成,成为跨平台智能助手!是不是超期待?😆

    宝子们,快去更新到最新版本的 ChatGPT macOS 应用程序(要 macOS 14 + 和 Apple Silicon)体验一下吧,订阅者每月 20 美元就能立即使用。想了解更多就去 OpenAI 官方网站(openai.com)或帮助中心(help.openai.com)看看~

    大家用了这个功能感觉怎么样呀?快来评论区分享分享~

    关键词:#ChatGPT #录音模式 #生产力工具 #隐私保护 #多场景应用 #AI 进步

  • 爆火!AI 歌手从翻唱到原创,商业价值爆发背后藏着什么秘密?

    宝子们,继 “AI 孙燕姿” 火了之后,AI 歌手赛道又热闹起来啦!🎉


    最近有个超酷的 AI 歌手 Yuri,蓝色挑染、亚洲面孔,拿着骷髅头话筒,帅炸了!😎 上个月它发布的首支 AI 音乐 MV《Surreal》直接在全网爆火,播放量超 700 万,还多次登上 B 站热榜,北面(The North Face)都找它合作啦,这排面没谁了!👏

    Yuri&The North Face
    Yuri&The North Face


    Yuri 可不是个例哦,海外有支 AI 乐队 “The Velvet Sundown” 也悄悄走红啦!一个月连发 5 首单曲,在 Spotify 等多个流媒体平台上积累了超 110 万听众。他们的复古怀旧爵士乐风,简直让人分不清是 AI 生成还是真实乐队演奏,太厉害了!🤩

    The Velvet Sundown
    The Velvet Sundown,Spotify


    美国著名制作人 Timbaland 也来凑热闹,高调推出首位 AI 偶像 TaTa,还试图定义全新音乐流派 “A-Pop”(AI-Pop),这波操作真是 666!👍


    现在的 AI 歌手可不简单,从 AI 翻唱到 AI “原创”、IP 孵化,一路进化成能产出高质量作品,拥有粉丝效应和商业价值的创作者啦!当技术壁垒慢慢被打破,成功的 AI IP 就这么建立起来咯,TaTa 还成了第一个有商业代言的 AI 原生人格呢!👏


    而且宝子们,AI 对广告行业影响可不止 “用 AI 制作广告片” 哦,更重要的是它改变了整个流量结构和注意力市场。以后内容制作成本低,供应爆发式增长,广告的关键就不再是 “制作”,而是 “怎么被人看见” 啦,媒体渠道也会变得高度碎片化,这才是对行业影响深远的地方呢!😜


    宝子们,你们对 AI 歌手和它带来的影响怎么看呀?快来评论区说说~

    #AI 歌手 #AI 音乐 #AI 偶像 #音乐流派 #广告行业变革 #AI 原创 #商业价值

  • AI 时代新宠 MCP 协议,你了解多少?

    宝子们,在如今飞速发展的 AI 世界里,有个超厉害的 MCP 协议诞生啦!🤩

    MCP 协议全称 Model Context Protocol(模型上下文协议),是 Anthropic 公司提出并开源的开放标准协议哦。它的出现简直太及时啦,完美解决了 AI 助手和各类数据系统连接的难题,让 AI 系统能更可靠地获取数据,给出的响应又相关又优质,给开发者和企业带来好多便利呢!👏

    🔍 核心组件超关键


    MCP 协议核心架构有三个重要组成部分:

    • MCP 主机:就像指挥官一样,是系统发起端,包含 MCP 客户端的应用程序,负责给 MCP 服务器发请求,根据用户需求获取数据和功能支持。
    • MCP 客户端:作为中间桥梁,负责和 MCP 服务器通信,准确转发 MCP 主机的请求,再把服务器返回的结果安全送回,保障系统流畅运行。
    • MCP 服务器:是提供具体功能的后端服务,很轻量级,可以是本地的 Node.js 或 Python 程序,也能是远程云服务,适应各种应用场景和部署需求。

    📶 通信机制超灵活


    MCP 协议通信机制基于 JSON-RPC2.0 协议,支持两种通信方式:

    • 本地通信:通过标准输入输出和本地服务器交互,对数据安全要求高的场景超合适,像企业内部处理敏感数据,能保证数据在本地安全传输。
    • 远程通信:基于 SSE(Server-Sent Events)的 HTTP 连接,对云端服务支持超棒,能满足大规模数据处理和分布式计算需求。

    💥 应用场景超广泛


    MCP 协议应用场景超多,几乎覆盖所有需要 AI 与数据系统紧密结合的领域。虽然这里没详细说,但可想而知它在很多行业都能大显身手!

    宝子们,你们对 MCP 协议怎么看呀?快来评论区聊聊~

    #MCP 协议 #ModelContextProtocol #AI 协议 #数据连接 #核心组件 #通信机制

  • 免费 · 多模态 · 超强上下文:Gemini CLI 发布

    地址
    https://github.com/google-gemini/gemini-cli

    一键接入
    npx https://github.com/google-gemini/gemini-cli
    或者
    npm install -g @google/gemini-cli


    以下为特性

    🎁 免费使用
    只需登录 Google 账号,即享全部功能,无需订阅

    📈 超高配额
    每天最多 1000 次请求,每分钟最高 60 次

    🧠 超长上下文
    支持 100 万 token 上下文

    🎨 多模态生成
    可从 PDF 或手绘草图生成应用

    🤖 自动化任务
    支持 PR 查询、复杂 rebase 等操作的自动执行

    🔌 支持 MCP
    通过 MCP 协议连接外部服务

    🖼️ 支持媒体生成
    集成 Imagen、Veo、Lyria 等 AI 工具

    🔍 内置搜索
    集成 Google 实时搜索,为模型提供网页上下文增强

    💻 本地终端工具
    将 Gemini 带入命令行终端,轻量快速、无需切换环境

    🛠️ 开源协议
    基于 Apache 2.0 授权,安全、透明、可自定义

    🧩 VS Code 集成
    与 Gemini Code Assist 共享核心技术,支持多步推理与编码协作

  • Google 大动作!Gemini Live 整合多应用,智能助手进化啦

    宝子们,谷歌智能语音助手 Gemini Live 要有大升级啦!👏

    Gemini Live 扩展应用连接,功能再升级

    它马上要和好多 Google 应用深度整合,实用性和智能化直接拉满,妥妥要成为超强大的生产力工具!🤩

    这次扩展了好多应用连接呢,像 Google Maps、Google Calendar 这些热门应用,还有 Spotify 和 YouTube Music 等第三方应用都在支持范围内。通过自然语音交互,就能轻松控制它们啦,比如在 Google Calendar 里创建活动,用 Spotify 播放喜欢的歌,超方便!🎉

    还有哦,它新增了基于摄像头输入的功能。展示个音乐会海报或者手写清单,它就能识别信息,在对应应用里操作,像在 Google Calendar 加事件,在 Google Keep 记清单,太酷啦!😎

    更智能的交互方式:实时信息与卡片式界面

    交互方式也更智能啦,全新卡片式界面会在对话里展示 Google 应用的实时信息,比如问地点信息,直接从 Google Maps 提取数据以卡片形式呈现导航选项,不用在不同应用间来回切换啦。而且还计划引入类似 Circle-to-Search 的功能,让搜索和操作更灵活,处理复杂任务更厉害!💪

    隐私方面也有保障哦,用户能随时关闭连接,关闭特定设置后,聊天数据不会用于训练 AI 模型。

    谷歌想把它打造成统一 AI 控制中心,未来可能支持更多服务和应用,说不定能控制智能家居设备呢!🤗

    逐步推送,部分用户已可体验

    目前新功能在分阶段推送,部分用户已经能体验一些功能啦,大家可以试试语音指令,看看自己的设备有没有启用新功能哦!🤔

    宝子们,你们期待 Gemini Live 的这次升级吗?快来评论区说说~

    关键词:#GeminiLive #Google 应用整合 #AI 助手升级 #智能交互 #隐私保障