Gate News 消息,4 月 17 日——Google 于 4 月 15 日公布 Gemini 3.1 Flash TTS,这是一款先进的文本转语音模型,具备增强的情感表达与控制特性。新模型将通过开发者 API、企业 Vertex AI 以及协作工具逐步推出。
该模型的核心能力包括基于自然语言的音频标签,用于加快微调速度、控制语调与情感;另配备“导演模式”,可用于指定场景与角色身份,以生成更细腻的语音输出。多说话人功能可实现同时生成对话内容,使对话流程更自然,适用于播客、有声内容以及 AI 助手。该模型支持 70 多种语言和方言,体现了地区口音与表达方式,为全球本地化语音体验提供支持。
Google 强调性能与成本效率,在盲测的人类评估基准上取得了高分,同时通过其 Flash 架构降低了计算成本——该架构面向大规模企业采用进行了设计。生成的音频包含 SynthID 水印,用于识别 AI 生成内容并打击不实信息。
此举体现了语音交互领域竞争的进一步加剧。OpenAI 正将实时语音能力与对话式 AI 结合,以实现类似人类的交互,而 Meta 则在具有语音驱动的社交体验方面扩大对 AI 角色的投入。行业观察者指出,尽管高水平的表演和创意工作目前仍可能由人类主导,但重复性与大规模生产市场可能会在配音、广告和有声读物等领域逐步迎来 AI 采用。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
NEA 探索在核监管中使用人工智能
NEA关于新技术的工作组于3月25日至26日召开了研讨会,重点探讨如何在核主管机构内部运营以及监管监督中应用人工智能。
摘要
NEA研讨会探讨了人工智能在核监管中的真实世界应用,其中包括
Cryptonews 1小时前
中国将于4月19日在北京半程马拉松测试300+台类人机器人
北京第二届机器人半程马拉松将有来自70支队伍的300多台类人机器人参赛,赛道全长21公里。重点展示自主移动方面的进展,其中40%的机器人无需控制即可运行。尽管生产面临挑战,中国仍在类人机器人市场占据主导地位。
GateNews3小时前
美国寻求增加从纳米比亚进口铀以驱动AI驱动的核电厂
美国正在考虑从纳米比亚增加铀进口,以支持为AI数据中心供能的核能,因为中国主导了纳米比亚的铀行业。不断上涨的铀价格正在重新点燃采矿兴趣,尽管该干旱地区存在供水挑战。
GateNews3小时前
OpenAI 高管比尔·皮布尔斯和凯文·韦尔在领导层重组中离任
OpenAI 高管比尔·皮布尔斯(Bill Peebles)和凯文·韦尔(Kevin Weil)宣布离职,这是公司在将业务去中心化过程中一系列领导层变动的一部分。两人的离开紧随数位其他备受关注的高管离职,以及公司架构的调整。
GateNews5小时前
Zoom 与 World 合作:借助面部识别增加深度伪造检测
Zoom 已与 Sam Altman 的 World 合作,在视频通话期间推出一项用于检测真实参与者与 AI 深度伪造的功能。该功能旨在打击日益猖獗的深度伪造诈骗,并为主持人和参与者提供验证选项。
GateNews5小时前
AI 生成的漏洞报告压垮 cURL 维护团队
AI 生成的漏洞报告正在淹没 cURL 项目,提交量大幅上升,导致资源承压。维护者正在通过限制 AI 模型访问权限,并暂停漏洞奖励计划来应对涌入的报告。
GateNews5小时前