✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
Runway 把语音塞进视频 Agent,独立 TTS 厂商的日子更难了
语音直接内嵌到视频 Agent,产品化变快了
RunwayML 悄悄在 Characters API 里加了自定义语音,TTS 直接塞进实时视频 Agent。开发者不用再自己对接独立语音服务了。
这是明摆着的捆绑打法:Runway 的 GWM-1 世界模型把「文字转语音」和面部表情合成连在一起,品牌虚拟形象做客服、做游戏 NPC 的量产速度能快不少。底层用的是 ElevenLabs 的 eleven_ttv_v3,可以用提示词设计音色,也能拿 10 秒样本克隆声音,口型和手势自动对上。
一个值得注意的信号:Twitter 上几乎没人讨论,但团队说这是「用户呼声最高」的功能。API 优先的发布方式本来就不走营销路线,直接面向真正在做东西的人。
独立语音服务面临结构性压力
这次更新把 TTS 定位成了「基础设施层」,不再是独立产品。ElevenLabs 在背后出力,但捆绑模式反过来加速了纯 TTS 被「集成化」的趋势。
ElevenLabs v3 在情感表达和技术指标上不输同行,但 Runway 的「视频优先」才是分水岭:企业要的是成套的 Agent,不是零件。开发者自然会往掌握全栈的多模态平台迁移。
别被「革命性克隆」这类说法带偏——主流厂商的音质差距不大,真正拉开距离的是多模态场景下的整合能力。
我的看法:多模态捆绑降低了非专业用户的门槛,Runway 在对手分散、各自为战的局面里占了便宜。
投资角度,市场还没充分计入「视频优先 + 全栈捆绑」带来的粘性溢价。企业角度,少对接几个供应商本身就是省钱省心。
说白了:谁先押注集成式视频 Agent,谁就有先发优势。多模态平台受益,独立 TTS 承压。忽视捆绑趋势的企业大概率会被动追赶——当「语音」变成默认能力,部署节奏取决于 API 可达性和全链路一致性,不是单点音质。
重要性:中等
分类:产品发布|行业趋势|开发者工具
结论: 做产品的和企业采购,现在是「早期窗口期」,值得尽快验证切入。只押语音赛道的投资者和厂商,现在是「防守期」,得加速往多模态和集成能力转。资源会流向一体化平台和能快速产品化的团队,纯 TTS 玩家短期不占优。