300ms开声!微软实时语音模型绝了✨

宝子们,今天必须给大家分享微软开源的实时语音模型VibeVoice – Realtime – 0.5B👏!

以前用传统TTS模型,起音时间动不动就1 – 3秒,那种卡顿感真的太影响体验了😫,这就是我们在语音模型使用中的痛点。而VibeVoice – Realtime – 0.5B完美解决了这个问题,它从输入文本到发声平均仅需300毫秒,几乎零延迟,就像和真人对话一样,你打字对方就开始回应,超丝滑💯。

它的能力还不止于此!它能一次性生成长达90分钟的超长音频,全程流畅自然,就像专业播音员朗读一样。而且原生支持最多4个角色同时对话,情绪切换丝滑。内置情感感知模块还能自动识别情绪,不需要手动标注,开箱即用👍。

我亲自体验了一下,在HuggingFace上用它朗读《三体》第一章,毫无破音,效果超棒。它英文表现接近商用级别,中文也很优秀,虽然部分多音字、轻声词处理还有提升空间,但官方会推出精调版本。轻量级设计,在普通笔记本上就能跑满实时速度,已经可以集成到好多工具中啦。
目前这个模型已经完全开源,支持商用,社区里也有很多有趣的Demo。宝子们别错过,赶紧去试试👇!

分享这篇文章

赞赏作者

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注