ElevenLabs và Stability AI đã ra mắt các mô hình mới tạo nhạc bằng AI trong tuần này, cả hai đều nhấn mạnh dữ liệu huấn luyện có bản quyền giữa các vụ kiện bản quyền đang diễn ra trong ngành. ElevenLabs, công ty AI giọng nói có trụ sở tại Ba Lan, được định giá 11 tỷ USD sau vòng Series D trị giá 500 triệu USD vào tháng 2, đã ra mắt Music v2. Stability AI phát hành Stable Audio 3.0, một bộ bốn mô hình với trọng số mở cho ba biến thể, tạo các bản nhạc dài đến 6 phút 20 giây. Các đợt ra mắt này diễn ra sau các vụ kiện về bản quyền của Recording Industry Association of America từ năm 2024 chống lại các nền tảng nhạc AI Suno và Udio, khiến dữ liệu huấn luyện có bản quyền trở thành trọng tâm đối với các bên gia nhập thị trường mới. ElevenLabs ký các thỏa thuận cấp phép với Believe, Kobalt và Merlin, trong khi Stability AI hợp tác với Warner Music Group và Universal Music Group. Suno, hiện được định giá 2,45 tỷ USD tính đến tháng 11/2025, đã vượt 300 triệu USD doanh thu định kỳ hằng năm và được sử dụng bởi khoảng 100 triệu người, tạo khoảng 7 triệu bài hát mỗi ngày.
ElevenLabs Music v2 Features
Music v2 là mô hình âm nhạc thứ hai của ElevenLabs, ra mắt vào khoảng 10 tháng sau phiên bản đầu tiên. Mô hình có thể chuyển đổi thể loại trong cùng một bản nhạc—từ opera sang heavy metal và quay lại—trong khi vẫn giữ sự mạch lạc về cấu trúc. Theo ElevenLabs, mô hình xử lý rap nhanh và nhúng các hiệu ứng âm thanh không thuộc nhạc mà không làm quá trình sáng tác bị vỡ.
Mô hình đi kèm chức năng inpainting, cho phép người dùng chọn và tạo lại các đoạn cụ thể trong khi phần còn lại của bản nhạc vẫn được giữ nguyên. Người dùng có thể xây dựng bài hát theo từng phần—intro, verse, chorus—với việc mô hình duy trì tính liên tục xuyên suốt thay vì coi mỗi clip là một lần tạo độc lập. Hỗ trợ đa ngôn ngữ đã được cải thiện, dù ElevenLabs không công bố chi tiết cụ thể.
Music v2 vận hành ba nền tảng: ElevenMusic cho người sáng tạo, ElevenAPI cho nhà phát triển và ElevenCreative cho thương hiệu. Mô hình đã được đưa vào hoạt động trên ElevenMusic và ElevenCreative ngay bây giờ. Truy cập API có sẵn thông qua giai đoạn đăng nhập sớm, qua nhóm bán hàng.
Pricing Adjustments
ElevenLabs giảm giá Music v1 và v2 tối đa 50% cho ElevenAPI và tối đa 40% cho ElevenCreative theo hình thức tự phục vụ (self-serve). Công ty đạt 500 triệu USD doanh thu định kỳ hằng năm vào tháng 4/2026. ElevenMusic ra mắt như một ứng dụng dành cho người tiêu dùng vào tháng 4.
Stability AI Stable Audio 3.0 Technical Specifications
Stable Audio 3.0 đi kèm bốn mô hình: Small SFX (hiệu ứng âm thanh chạy trên thiết bị), Small (đầy đủ bản nhạc chạy trên thiết bị), Medium (lên đến 6:20, cần phần cứng mạnh hơn), và Large (chỉ qua API). Ba trong bốn mô hình có trọng số mở sẵn trên Hugging Face. Phiên bản trước đó, Stable Audio 2.0, tạo các bản nhạc dài tối đa ba phút.
Các mô hình Small chạy với 459 triệu tham số mỗi mô hình mà không cần GPU. Medium hoạt động với 1,4 tỷ tham số và tạo đầu ra 6:20 trong khoảng 1,31 giây trên GPU H200. Large chạy với 2,7 tỷ tham số và chỉ dành cho API cho các tổ chức có doanh thu trên 1 triệu USD. Các mô hình hỗ trợ độ mịn tạo theo từng giây, tạo bản nhạc đúng chính xác theo độ dài được yêu cầu.
Kiến trúc sử dụng semantic-acoustic autoencoder mà Stability gọi là SAME, được thiết kế nhằm duy trì sự mạch lạc về giai điệu qua các đầu ra dài hơn. Hỗ trợ fine-tuning LoRA, cho phép nghệ sĩ tinh chỉnh mô hình theo catalog của riêng mình. Chức năng inpainting bao gồm single-segment, multi-segment và causal continuation để mở rộng các bản nhạc vượt quá điểm kết thúc ban đầu. Các mô hình được hỗ trợ trong ComfyUI cho cấu hình cục bộ.
Market Context and Legal Settlements
Suno đạt định giá 2,45 tỷ USD vào tháng 11/2025 và vượt 300 triệu USD doanh thu định kỳ hằng năm. Warner Music đã dàn xếp vụ kiện của mình chống lại Suno vào tháng 11/2025. Sony và Universal Music Group vẫn tiếp tục các thủ tục tại tòa án liên bang cùng với Suno.
Udio đã dàn xếp với cả ba hãng thu âm lớn và vận hành theo mô hình “walled garden”—nội dung tạo ra trên nền tảng không thể xuất ra.
Availability
Các mô hình Stable Audio 3.0 Small và Medium có sẵn trên Hugging Face. Large hoạt động thông qua API của Stability AI. Music v2 miễn phí cho người dùng ElevenMusic, với các gói thương mại có sẵn qua ElevenCreative và ElevenAPI.