
近日,国内领先的AI公司 MiniMax(海螺)发布了其新一代语音合成大模型——Speech 2.6,并宣布开放内测。这不仅是一次技术的迭代,更是一场关于“声音”的革命,它预示着AI语音正在真正拥有“灵魂”。
在深入了解了Speech 2.6的各项特性后,不难发现,它正在从根本上改变我们与AI语音交互的方式。
核心亮点一:极致自然与情感表达
Speech 2.6最大的突破在于其达到了接近真人水平的自然度和表现力。它彻底告别了过去平铺直叙的机械感,能够深刻理解文本的上下文和语义“意群”,从而智能地控制语速、停顿、重音和韵律。
这意味着,无论是朗读细腻的文学作品,还是播报复杂的新闻稿件,Speech 2.6都能游刃有余。更令人惊艳的是,它还能根据指令,为声音注入真实的情感。你可以让它用“开心”的语气讲述一个好消息,或用“悲伤”的语调演绎一段感人的故事。这种细腻的情感控制,让声音不再是冰冷的符号,而是传递情感的温暖媒介。
核心亮点二:秒级复刻,强大的声音克隆与跨语种能力
想象一下,只需几秒钟的个人录音,AI就能完美“复刻”你的声音,并用它来说任何话。这就是Speech 2.6强大的零样本声音克隆(Zero-shot Voice Cloning)能力。这项技术为个性化语音助手、有声内容创作等领域打开了无限可能。
不仅如此,该模型还具备出色的跨语种合成能力。它可以保留原始音色的前提下,让一个说中文的声音流利地讲出英文。这对于跨文化交流、多语言内容制作具有里程碑式的意义。
核心亮点三:不止于人声,丰富的非语音元素
一个完整的听觉体验,并不仅仅包含语言。Speech 2.6深谙此道,它在模型中融入了丰富的非语音元素,极大地增强了场景的真实感和沉浸感。
-
拟声词与情绪声音:模型能够自然地生成笑声、叹息、轻咳等声音,让对话听起来更生动、更富有人情味。
-
环境背景音:需要一段在咖啡馆里的对话?Speech 2.6可以直接在语音中合成相应的背景噪音,一键打造身临其境的听觉场景。
这些强大的功能,无疑将AI语音的应用推向了一个全新的高度
最后上两个 MiniMax Speech 2.6 模型生成的音频示例一起感受一下:
AI客服音频:
复杂场景音频:
原文内容:您好Oliver Smith,我是您的智能虚拟助手Max!感谢您的来电,我已找到您的档案。电话号码14154159921 的未付清余额为 ¥1,234.56。关联的 IP 地址是 192.168.1.1。您的下一个付款到期日是 2032/5/6。如有任何疑问,请联系 support-vip@technet.com。
最后插一句:我们的文本转语音工具 Z-TTS 声音复刻功能已支持 MiniMax 最新的 speech 2.6 模型,让大家有机会第一时间将这份“有灵魂”的声音融入自己的有声内容创作中。
[原文:MiniMax Speech 2.6:最强 Voice Agent 来袭 - MiniMax News]

评论(0)