Google phát hành DiffusionGemma mã nguồn mở, nhanh gấp 4 lần nhưng chất lượng kém hơn Gemma 4

2026-06-11 05:27:34

Google DeepMind vào ngày 10 tháng 6 đã chính thức phát hành và mã nguồn mở DiffusionGemma, như một thành viên mới trong dòng sản phẩm mã nguồn mở Gemma 4. DiffusionGemma sử dụng kiến trúc tạo văn bản theo cơ chế khuếch tán, kết hợp thiết kế Mixture of Experts (MoE). Trong tất cả các bộ kiểm thử chuẩn công khai đã công bố, điểm số của DiffusionGemma đều thấp hơn Gemma 4 tiêu chuẩn.

Dữ liệu kiểm thử tốc độ chính thức và cấu hình phần cứng

Theo các con số xác nhận do Google công bố:

Kiểm thử tốc độ (Google chính thức, không phải xác minh của bên thứ ba)

Nvidia RTX 5090 (phân khúc tiêu dùng): khoảng 700 token/giây

Nvidia H100 (phân khúc trung tâm dữ liệu): vượt 1.000 token/giây

Hệ số tự đánh giá: khoảng bằng 4 lần so với mô hình Gemma hồi quy tự cùng kích thước

Kiến trúc và tham số

Tổng số tham số: 260 tỷ (26B)

Số tham số hoạt động khi suy luận: 3,8 tỷ (3.8B)

Nhu cầu VRAM: có thể chạy trên GPU tầm trung/cao cấp có 18GB VRAM (đặc biệt đúng với phiên bản đã lượng tử hóa)

Mức song song tối đa: xử lý đồng thời tối đa 256 token

Giấy phép: Apache 2.0

Cơ chế tạo: khác biệt cốt lõi giữa khuếch tán và hồi quy tự

Mô hình hồi quy tự chuẩn tạo từng token theo thứ tự, mỗi token phụ thuộc vào kết quả tính toán của token trước đó; điểm nghẽn nằm ở băng thông bộ nhớ—mỗi khi xuất ra một token lại cần đọc trọng số mô hình từ bộ nhớ một lần.

Quy trình của DiffusionGemma khác ở chỗ: trước tiên trải một loạt token chỗ trống trên toàn bộ vùng đầu ra, thực hiện nhiều lượt khử nhiễu; mỗi lượt cho phép tất cả vị trí token đồng thời cập nhật và hiệu chỉnh lẫn nhau, cho đến khi toàn bộ nội dung hội tụ thành đầu ra cuối cùng. Cách tính toán theo kiểu song song, nặng về tính toán này khiến điểm nghẽn chuyển từ băng thông bộ nhớ sang năng lực tính toán của GPU, tận dụng tốt hơn khả năng song song của GPU hiện đại.

Google trong tài liệu chính thức đã nêu ví dụ rằng DiffusionGemma có lợi thế mang tính cấu trúc trong các tác vụ logic phi tuyến dạng giải đố Sudoku, vì lời giải đúng cho các tác vụ này thường liên quan đến các mối phụ thuộc phức tạp giữa các vị trí, trong khi cách tạo tuyến tính của hồi quy tự vốn bị giới hạn một cách tự nhiên.

Kết quả benchmark: mọi điểm số của các bài kiểm thử đã công bố đều thấp hơn Gemma 4

Trong tài liệu phát hành, Google xác nhận rằng trong tất cả các bộ kiểm thử chuẩn công khai đã công bố, điểm số của DiffusionGemma đều thấp hơn Gemma 4 tiêu chuẩn. Điều này có nghĩa là, mức tăng tốc 4 lần đi kèm với sự suy giảm mang tính hệ thống về chất lượng tạo. Bài viết của BlockTempo cho rằng sự đánh đổi này mang ý nghĩa rất khác nhau tùy theo bối cảnh ứng dụng: trong các kịch bản nhạy cảm với độ trễ hoặc cần xuất số lượng lớn theo lô, lợi thế về tốc độ là thực sự; còn với các tác vụ yêu cầu chất lượng cao, Gemma 4 tiêu chuẩn hiện vẫn đáng tin cậy hơn.

Google liệt kê các tình huống phù hợp với DiffusionGemma bao gồm: chỉnh sửa trong dòng (in-line editing), tạo chuỗi phân tử, vẽ toán, và các tác vụ phi tuyến có liên quan đến quan hệ phụ thuộc logic phức tạp.

Câu hỏi thường gặp

DiffusionGemma và mô hình ngôn ngữ hồi quy tự tiêu chuẩn khác nhau về bản chất trong cơ chế tạo như thế nào?

Mô hình hồi quy tự tiêu chuẩn tạo tuyến tính từng token, mỗi token phụ thuộc vào kết quả của token trước đó. DiffusionGemma trước tiên trải đầy token chỗ trống trên toàn bộ vùng đầu ra, thực hiện nhiều lượt khử nhiễu; mỗi lượt cho phép tất cả vị trí cập nhật đồng thời, cuối cùng xuất ra toàn bộ đoạn bản thảo trong một lần, nên logic tạo gần hơn với cách Stable Diffusion tạo ảnh.

DiffusionGemma chạy được trên phần cứng nào ở cục bộ?

Theo phần giải thích của Google, DiffusionGemma có thể chạy trên GPU cao cấp với 18GB VRAM, và phiên bản lượng tử hóa đặc biệt phù hợp. Kết quả thử nghiệm của Google cho thấy GPU Nvidia RTX 5090 phân khúc tiêu dùng có thể đạt khoảng 700 token mỗi giây, nhưng các con số trên là do Google tự đánh giá, không phải xác minh độc lập của bên thứ ba.

Các con số tốc độ của DiffusionGemma đã được xác minh bởi bên thứ ba chưa?

Chưa. BlockTempo trong bài viết đã nêu rõ rằng tất cả các con số ở bài kiểm thử tốc độ đều đến từ thử nghiệm của Google, không phải xác minh độc lập của bên thứ ba; với các bối cảnh khác nhau và độ dài tạo khác nhau, mức tăng tốc thực tế có thể chênh lệch so với các con số chính thức.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

5giờ trước

0G Labs công bố hợp tác với MiniMax vào ngày 11/6 để đưa các mô hình AI lên chuỗi khối (on-chain)

8giờ trước

Google Open-Sources DiffusionGemma Model: hơn 1.000 token mỗi giây trên H100, tăng tốc độ 4 lần

06-10 03:41

Google Ra mắt Gemini 3.5 Live Translate hỗ trợ hơn 70 ngôn ngữ cho dịch thuật giọng nói thời gian thực