DeepSeek, một công ty trí tuệ nhân tạo có trụ sở tại Hàng Châu, đã bổ sung khả năng nhận diện hình ảnh và video vào chatbot chính của mình thông qua tính năng “chế độ nhận diện hình ảnh” mới, đưa sản phẩm này tiệm cận với các chatbot AI lớn khác. Thời điểm ra mắt trùng với một cột mốc quan trọng trong chuỗi cung ứng chip của Trung Quốc, khi bốn công ty bán dẫn trong nước—Huawei Ascend, Cambricon, Hygon Information và Moore Threads—xác nhận hỗ trợ trong cùng ngày cho mô hình flagship mới nhất của DeepSeek, DeepSeek-V4, đánh dấu sự chuyển dịch so với các giai đoạn điều chỉnh kéo dài nhiều tháng trước đây vốn thường thấy ở ngoài hệ sinh thái Nvidia.
DeepSeek âm thầm tung ra chế độ nhận diện hình ảnh cùng với hai chế độ khác đã được ra mắt sớm hơn trong tháng: “expert” và “flash.” Theo Chen Xiaokang, người đứng đầu đội ngũ đa phương thức của DeepSeek, công cụ này lần đầu được thử nghiệm với một nhóm nhỏ người dùng trên cả website và ứng dụng di động. Chen Deli, một nhà nghiên cứu cấp cao tại công ty, đã kỷ niệm màn ra mắt bằng một bài đăng dẫn lại logo của công ty: “Con cá voi nhỏ giờ đây có thể nhìn thấy.”
Tính năng hình ảnh và video xuất hiện chỉ vài ngày sau khi DeepSeek phát hành bản xem trước DeepSeek-V4 và cung cấp trọng số mô hình để tải xuống và sử dụng công khai. V4 được cấu trúc như hai mô hình riêng biệt: DeepSeek-V4-Pro, với 1,6 nghìn tỷ tham số được thiết kế cho suy luận phức tạp và các quy trình làm việc tự động nhiều bước, và DeepSeek-V4-Flash, được tối ưu để xử lý khối lượng yêu cầu lớn với chi phí thấp hơn. Cả hai mô hình đều hỗ trợ cửa sổ ngữ cảnh một triệu token và sử dụng thiết kế attention lai mà công ty cho biết giúp giảm yêu cầu về năng lực tính toán và bộ nhớ trong quá trình suy luận.
Điều thu hút sự chú ý của ngành không chỉ là bản thân mô hình, mà là sự hỗ trợ phần cứng được phối hợp thể hiện vào đúng ngày V4 được phát hành. Huawei Ascend xác nhận khả năng tương thích với các chip A2, A3 và 950 của mình, với Ascend 950 sử dụng các quy trình tính toán hợp nhất và các luồng xử lý song song để tăng tốc suy luận cho cả V4-Pro và V4-Flash. Cambricon hoàn tất việc thích nghi bằng khung suy luận vLLM mã nguồn mở và công bố mã của mình trên GitHub. Hygon Information tiến hành tối ưu hóa mô hình sâu trên nền tảng DCU để chuyển đổi mượt mà từ lúc phát hành mô hình sang triển khai. Moore Threads hợp tác với Học viện Khoa học & Trí tuệ Nhân tạo Bắc Kinh để chạy V4 trên thẻ MTT S5000 của mình bằng stack phần mềm FlagOS.
Sự hỗ trợ trong cùng ngày trên nhiều chipset khác nhau này đánh dấu một sự khác biệt so với các mẫu hình lịch sử. Trước đây, phần cứng nằm ngoài hệ sinh thái Nvidia thường cần đến vài tháng để hỗ trợ các mô hình lớn mới. Các quan sát viên trong ngành cho biết việc đạt được khả năng tương thích trên bốn chipset chip nội địa khác nhau ngay trong ngày ra mắt cho thấy một sự chuyển dịch thật sự về mức độ trưởng thành của cơ sở hạ tầng bán dẫn và AI tại Trung Quốc.
Ý nghĩa rộng hơn của lần ra mắt DeepSeek vượt ra ngoài những thành tựu kỹ thuật riêng lẻ. Bằng cách cho phép V4 chạy natively trên nhiều chip Trung Quốc đồng thời, DeepSeek giảm rủi ro phụ thuộc vào các hạn chế xuất khẩu vốn trước đây đã chặn các công ty Trung Quốc tiếp cận các bộ xử lý Mỹ tiên tiến nhất. Hiệu quả chi phí vẫn là trọng tâm trong chiến lược của DeepSeek—công ty đã ưu tiên giữ chi phí vận hành mô hình ở mức thấp, giúp các doanh nghiệp xây dựng hệ thống tự động mà không phải chịu chi phí tính toán quá cao.
Các quan sát viên trong ngành mô tả bản phát hành này phản ánh việc cả chuỗi cung ứng đang trưởng thành chứ không phải một bước đột phá công nghệ đơn lẻ. Sự phối hợp giữa DeepSeek, các nhà sản xuất chip và các framework phần mềm cho thấy sự phát triển đồng bộ của hệ sinh thái. Quỹ đạo này gợi ý rằng bối cảnh cạnh tranh trong AI đang chuyển từ việc tập trung vào độ tinh vi của từng mô hình sang khả năng duy trì các hệ thống hoàn chỉnh, tiết kiệm chi phí và độc lập trong dài hạn.
DeepSeek đã bổ sung những năng lực mới nào cho chatbot của mình?
DeepSeek đã thêm một “chế độ nhận diện hình ảnh” cho phép chatbot của mình hiểu ảnh và video, không chỉ văn bản. Tính năng này lần đầu được thử nghiệm với một nhóm nhỏ người dùng trên cả website và ứng dụng di động, đưa năng lực của DeepSeek tiệm cận với các chatbot AI lớn khác cung cấp các khả năng tương tự.
Những công ty chip Trung Quốc nào đã hỗ trợ DeepSeek-V4 vào ngày ra mắt?
Bốn công ty chip Trung Quốc đã xác nhận hỗ trợ trong cùng ngày cho DeepSeek-V4: Huawei Ascend (với các chip A2, A3 và 950), Cambricon, Hygon Information và Moore Threads. Khả năng tương thích trong cùng ngày trên nhiều chipset trước đây hiếm thấy ngoài hệ sinh thái Nvidia, thường cần đến vài tháng cho công việc thích nghi.
Hai phiên bản của DeepSeek-V4 là gì và chúng khác nhau như thế nào?
DeepSeek-V4-Pro có 1,6 nghìn tỷ tham số và được thiết kế cho suy luận phức tạp và các quy trình làm việc tự động nhiều bước, trong khi DeepSeek-V4-Flash được tối ưu để xử lý khối lượng yêu cầu lớn với chi phí thấp hơn. Cả hai đều hỗ trợ cửa sổ ngữ cảnh một triệu token và sử dụng thiết kế attention lai để giảm yêu cầu về năng lực tính toán và bộ nhớ.