Inception Labs đã ra mắt Mercury 2 vào hôm thứ Năm, định vị nó là mô hình ngôn ngữ suy luận nhanh nhất thế giới với tốc độ xấp xỉ 1.000 token mỗi giây. Mô hình đạt 90 điểm trên chuẩn AIME 2026, vượt DiffusionGemma do Google phát hành gần đây, đạt 69,1% trên cùng bài thử nghiệm trong khi có tốc độ tạo câu tương tự. Cả hai mô hình đều dùng tạo sinh song song dựa trên khuếch tán thay vì xử lý từng token nối tiếp, phản ánh sự chuyển dịch kiến trúc trên toàn ngành hướng tới các phương pháp suy luận nhanh hơn.
Mercury 2 vượt DiffusionGemma trên chuẩn toán học
Mercury 2 tạo ra khoảng 1.000 token mỗi giây—các mảnh văn bản mà một mô hình AI đọc và ghi—so với khoảng 89 token mỗi giây của Claude Haiku 4,5 Reasoning từ Anthropic và 71 token mỗi giây của OpenAI's GPT-5 Mini, theo thông báo của Inception Labs. Trên AIME 2026, được xây dựng từ các bài toán thực tế của American Invitational Mathematics Examination và được chấm theo tỷ lệ giải đúng, Mercury 2 đạt 90%. Google cũng thử nghiệm DiffusionGemma trên cùng tập, nơi nó đạt 69,1%, trong khi Gemma 4 thông thường, không khuếch tán, đạt 88,3% trên cùng bài thử nghiệm.
Trên GPQA, một chuẩn khoa học cấp PhD cho kết quả theo cách tương tự, khiến hai mô hình gần như ngang tài: Mercury 2 đạt 77% so với 73,2% của DiffusionGemma. Hướng dẫn dành cho nhà phát triển của Google khuyến nghị Gemma 4 tiêu chuẩn cho các ứng dụng đòi hỏi chất lượng tối đa, đồng thời thừa nhận DiffusionGemma tụt lại phía sau trên mọi mặt. DiffusionGemma miễn phí và có trọng số mở (open-weight) trên Hugging Face. Mercury 2 là mô hình API trả phí, dạng đóng (closed-weight).
Mô hình khuếch tán thay thế tạo sinh token nối tiếp
Cả hai mô hình đều bỏ cách viết kiểu máy đánh chữ. Một chatbot tiêu chuẩn viết một từ, kiểm tra nội dung vừa viết, rồi viết từ tiếp theo, lặp lại cho đến khi câu trả lời hoàn tất. Các mô hình khuếch tán thay vào đó lấp đầy một khối văn bản bằng các token giả lập ngẫu nhiên và xóa nhiễu qua một vài lượt chạy song song—cùng mẹo biến ảnh tĩnh thành ảnh thật trong các trình tạo ảnh như Stable Diffusion—cho tới khi toàn bộ khối văn bản “khóa” lại thành một câu trả lời hoàn chỉnh cùng lúc.
Augment Code báo cáo giảm 82% độ trễ trong sản xuất
Augment Code, một công ty tác nhân lập trình AI, đã thay Mercury 2 vào thay Claude Opus 4.7 của Anthropic trên subagent nén ngữ cảnh của họ và ghi nhận độ trễ giảm 82% cùng chi phí giảm 90%, đồng thời báo cáo chất lượng đầu ra tương đương, theo một nghiên cứu tình huống chung.
Inception Labs huy động vòng tài trợ 50 triệu USD
Inception Labs đã huy động 50 triệu USD trong vòng gọi vốn, với sự hậu thuẫn từ cánh đầu tư mạo hiểm của Nvidia và các nhà đầu tư cá nhân Andrew Ng và Andrej Karpathy. Startup này được xây dựng dựa trên nghiên cứu từ người sáng lập Stefano Ermon, một giáo sư Stanford, người đồng tác giả một số kỹ thuật khuếch tán dựa trên điểm số giúp tạo ra các bộ tạo ảnh hiện nay.
Tạo sinh song song giúp kiến trúc hệ thống đa tác nhân
Các hệ thống AI phức tạp giống như dàn nhạc với những trợ thủ chuyên biệt: một trợ thủ cho suy luận sâu, vài trợ thủ để tóm tắt nhanh, định tuyến, tra cứu công cụ, kiểm tra đầu ra. Mô hình nối tiếp khiến các lệnh tiện ích đó trở nên đắt và chậm. Mô hình khuếch tán song song biến chúng rẻ và đủ nhanh để dùng thoải mái. Mercury 2 hiện là dạng API/dịch vụ đám mây, và hệ sinh thái đầy đủ—các runtime cục bộ, các framework tác nhân—vẫn đang bắt kịp.
Quy trình nhạy tốc độ được hưởng lợi từ cách tiếp cận khuếch tán
Các trường hợp sử dụng bao gồm lập trình thời gian thực nơi mô hình theo kịp các chỉnh sửa, hệ thống lập trình hoặc hỗ trợ đa tác nhân nơi có nhiều lệnh con gọi nhanh, giao diện giọng nói không gây cảm giác trễ, và bất kỳ tác vụ tự hoàn thành hoặc dự đoán hành động tiếp theo nào nhạy độ trễ. Ở quy mô lớn, chi phí và tiết kiệm năng lượng nhờ thông lượng cao hơn trên phần cứng tiêu chuẩn cộng dồn nhanh, theo Inception Labs.
FAQ
Inception Labs đã công bố gì vào hôm thứ Năm?
Inception Labs đã ra mắt Mercury 2 vào hôm thứ Năm, gọi đây là mô hình ngôn ngữ suy luận nhanh nhất thế giới. Nó tạo ra khoảng 1.000 token mỗi giây và đạt 90 điểm trên chuẩn AIME 2026.
Mercury 2 so sánh thế nào với DiffusionGemma của Google về điểm chuẩn?
Mercury 2 đạt 90 trên AIME 2026, trong khi DiffusionGemma của Google đạt 69,1% trên cùng bài thử nghiệm. Trên GPQA, một chuẩn khoa học cấp PhD, Mercury 2 đạt 77% so với 73,2% của DiffusionGemma.
Augment Code báo cáo cải thiện chi phí và độ trễ ra sao?
Augment Code đã thay Mercury 2 vào thay Claude Opus 4.7 của Anthropic trên subagent nén ngữ cảnh của mình và ghi nhận độ trễ giảm 82% cùng chi phí giảm 90%, trong khi báo cáo chất lượng đầu ra tương đương, theo nghiên cứu tình huống chung.