Giá Qwen3.7-Plus của Alibaba giảm 80%, đổi lấy mã nguồn đóng để có chi phí thấp

2026-06-03 05:14:01

Alibaba Qwen (千问) phát hành loạt mô hình Qwen3.7-Plus trong tuần này, mức giá đầu vào 0,40 USD/1 triệu token và đầu ra 1,60 USD/1 triệu token, tổng cộng 2,00 USD; mức giảm so với Qwen3.7-Max lên tới 80%. Giá đầu vào theo bộ nhớ đệm (cache) có thể thấp tới 0,04 USD/1 triệu token, hướng tới các tác vụ lặp lại có tần suất cao trong kịch bản mục tiêu.

Qwen3.7-Plus xác nhận giá: các mức phí theo từng phương thức tính cước

Theo dữ liệu công bố về giá của Alibaba chính thức:

Đầu vào thông thường: 0,40 USD/1 triệu token

Đầu ra thông thường: 1,60 USD/1 triệu token

Tổng cộng (đầu vào + đầu ra): 2,00 USD

Đầu vào theo cache: 0,04 USD/1 triệu token (áp dụng cho kịch bản agent đọc lặp lại mã nguồn hoặc agent dựa trên UI doanh nghiệp theo cách truy cập lại nhiều lần)

Đối tượng so sánh: Qwen3.7-Max có đầu vào 2,50 USD, đầu ra 7,50 USD, tổng cộng 10,00 USD. Đối thủ Trung Quốc MiniMax-M3 trong thời gian giới hạn có chương trình khuyến mãi, tổng cộng 1,50 USD; giá Qwen3.7-Plus bám sát mức này.

Các con số benchmark theo chuẩn chính thức (tự đánh giá)

Dưới đây là các số liệu benchmark cho Qwen3.7-Plus do Alibaba công bố chính thức, đều thuộc dữ liệu tự đánh giá:

Terminal Bench 2.0-Terminus: 70,3 (DeepSeek-V4-Pro Max là 67,9, Gemini-3.1 Pro là 63,5)

ScreenSpot Pro (tầm nhìn máy tính và hiểu giao diện): 79,0 (GPT-5.4 xhigh là 67,4, Claude-Opus-4.6 là 49,5）

Cần lưu ý rằng tài liệu chính thức của Alibaba cũng nêu rõ: nhìn chung, hiệu suất của Qwen3.7-Plus vẫn thấp hơn nhiều mô hình đóng cửa hàng đầu của Mỹ; các con số trên là so sánh đơn điểm cho các tác vụ cụ thể, không phản ánh toàn diện hiệu suất.

Xác nhận triển khai mô hình đóng: tác động về tuân thủ và giới hạn áp dụng

Qwen3.7-Plus không cung cấp trọng số mô hình mã nguồn mở có thể tải xuống; mọi lệnh gọi API đều cần thông qua các nút của Alibaba Cloud tại thị trường quốc tế xử lý, và dữ liệu chảy ra ngoài máy chủ do người dùng tự vận hành. Theo kiến trúc này, tồn tại các rào cản tuân thủ rõ ràng trong các tình huống sau:

Các ngành bị ràng buộc bởi chủ quyền dữ liệu hoặc quy định pháp luật: y tế (HIPAA, GDPR), quốc phòng, cơ quan chính phủ; cần đánh giá liệu việc định tuyến API bên ngoài có đáp ứng yêu cầu tuân thủ hay không

Kịch bản triển khai cô lập mạng nội bộ (intranet): không thể triển khai trong môi trường cục bộ hoàn toàn tách biệt

Ngược lại, ưu điểm của mô hình API đóng là không cần tự xây dựng cụm nhiều GPU (ví dụ Nvidia H100) như phần cứng mua sắm và vận hành, đồng thời định dạng tương thích với OpenAI giúp giảm chi phí thay đổi đối với hạ tầng hiện có ở mức thấp nhất.

Câu hỏi thường gặp

Giá cache của Qwen3.7-Plus 0,04 USD/1 triệu token áp dụng cho những kịch bản nào?

Giá cache áp dụng cho các tình huống agent đọc đi đọc lại cùng một đầu vào, ví dụ truy cập liên tục cùng một kho mã nguồn, mẫu UI doanh nghiệp cố định hoặc các system prompt được duy trì trong thời gian dài. Trong các workflow quy mô lớn với tác vụ tần suất cao và tính lặp lại, cơ chế cache có thể giảm đáng kể tổng chi phí API. Alibaba chưa công bố cam kết cụ thể về tỉ lệ cache hit hoặc chi tiết các giới hạn sử dụng.

Điểm khác biệt chính giữa Qwen3.7-Plus và các phiên bản Qwen cấp phép mở trước đó là gì?

Trước đây, series Qwen được phát hành theo giấy phép Apache 2.0, cho phép tải xuống trọng số mô hình và cài đặt/triển khai cục bộ, fine-tune, tích hợp vào hệ thống của riêng bất kỳ ai. Qwen3.7-Plus chỉ cung cấp thông qua API của Alibaba Cloud, không phát hành trọng số mô hình; điều này đồng nghĩa không thể triển khai cục bộ hoặc trong mạng cách ly, và mọi việc sử dụng đều phụ thuộc vào hạ tầng bên ngoài của Alibaba Cloud.

Cần hiểu độ tin cậy của các con số benchmark theo chuẩn chính thức của Qwen3.7-Plus như thế nào?

Phần mô tả chính thức của Qwen3.7-Plus nêu rõ ràng rằng các bài chạy điểm như Terminal Bench và ScreenSpot Pro đều là số liệu do chính Alibaba tự đánh giá, và nhìn chung hiệu suất vẫn thấp hơn các mô hình đóng cửa hàng đầu của Mỹ. Các con số benchmark phản ánh hiệu năng đơn điểm theo các tác vụ cụ thể, không đại diện cho độ trễ end-to-end thực tế trong môi trường sản xuất, độ ổn định hay hiệu suất toàn diện.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

06-03 03:22

NAWS（NAWS.AI）tăng 35,31% trong 24 giờ qua

06-02 08:13

Tencent Cloud cắt giảm giá mô hình DeepSeek-V4 tới 97,5% bắt đầu từ ngày 3/6

06-02 00:57

Alibaba ra mắt mô hình tác nhân AI đa phương thức Qwen3.7-Plus với quyền truy cập API thương mại