NVIDIA và MIT phát hành khung Lightning OPD, nâng cao hiệu quả chưng cất mô lên 4 lần trong khi loại bỏ các vấn đề về bộ nhớ GPU

Theo các báo cáo, các nhà nghiên cứu NVIDIA và MIT đã phát hành Lightning OPD (Offline On-Policy Distillation), một khung hậu huấn luyện mới cho các mô hình ngôn ngữ lớn giúp loại bỏ nhu cầu phải giữ mô hình “teacher” chạy liên tục trong quá trình huấn luyện. Bằng cách tính trước log-probabilities của mô hình teacher ở chế độ offline, khung này cải thiện hiệu quả huấn luyện gấp 4 lần đồng thời giải phóng toàn bộ tài nguyên GPU cho việc huấn luyện mô hình “student”.

Trong thử nghiệm trên 8 GPU NVIDIA H100, Lightning OPD đã chưng cất thành công Qwen3-30B-A3B-Base (một mô hình MoE với 30 tỷ tham số) và đạt 71,0 trên benchmark AIME 2024, trong khi OPD chuẩn bị tràn bộ nhớ trên cùng phần cứng. Với mô hình Qwen3-8B nhỏ hơn, khung chỉ cần 30 giờ GPU để đạt 69,9 điểm.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Google nhắm đến thỏa thuận tên lửa SpaceX cho các trung tâm dữ liệu quỹ đạo, dự kiến chế tạo hai vệ tinh nguyên mẫu vào đầu năm 2027

Theo Reuters, Google đang đàm phán với SpaceX về một thỏa thuận phóng tên lửa cho các trung tâm dữ liệu quỹ đạo, khi công ty tìm cách chuyển cơ sở hạ tầng điện toán lên không gian. Công ty đã công bố vào tháng 11 rằng sáng kiến Project Suncatcher của họ đặt mục tiêu phóng hai vệ tinh nguyên mẫu lên quỹ đạo vào đầu năm 2027. Các cuộc đàm phán diễn ra sau thông báo gần đây của Anthropic rằng họ sẽ sử dụng năng lực điện toán tại cơ sở Colossus 1 của SpaceX ở Memphis và thăm dò các quan hệ đối tác c

GateNews16phút trước

Peak XV Partners dẫn dắt vòng $50M Series B của Vapi cho nền tảng giọng nói AI

Theo TechCrunch, Vapi, một startup phần mềm trợ lý giọng nói AI có trụ sở tại San Francisco, đã huy động 50 triệu USD vòng Series B do Peak XV Partners dẫn dắt, định giá công ty ở mức khoảng 500 triệu USD. Vòng này, có sự tham gia của M12, Kleiner Perkins và Bessemer, đưa tổng vốn đầu tư của Vapi lên 72 triệu USD. Amazon Ring đã áp dụng Vapi vào cuối năm 2025 để xử lý các đợt cao điểm cuộc gọi hỗ trợ trong dịp lễ mà không mở rộng năng lực tổng đài, sau khi công ty rà soát hơn 40 nhà cung cấp. Va

GateNews26phút trước

Anthropic tìm cách mua lại startup công cụ phát triển Stainless với ít nhất 300 triệu USD

Theo một nguồn tin quen thuộc với vấn đề, Anthropic đang đàm phán để mua lại công ty khởi nghiệp công cụ dành cho nhà phát triển Stainless với mức giá ít nhất 300 triệu USD vào ngày 12/5. Thỏa thuận có thể bao gồm thanh toán một phần bằng cổ phiếu của chính Anthropic, dù các cuộc đàm phán vẫn đang ở giai đoạn ban đầu.

GateNews56phút trước

Anthropic Huy động Ít nhất $30B với định giá từ 900B+ USD, Vòng gọi vốn Lớn nhất của công ty

Theo những nguồn tin quen thuộc với vấn đề, Anthropic đang thảo luận sơ bộ với các nhà đầu tư để huy động ít nhất 30 tỷ USD vốn mới vào ngày 13/5, đánh dấu vòng gọi vốn lớn nhất của công ty tính đến nay. Công ty AI đang tìm kiếm số vốn này với mức định giá vượt 900 tỷ USD.

GateNews1giờ trước

Anthropic đang đàm phán khoản tài trợ 30 tỷ USD, định giá có thể sẽ vượt 900 tỷ để thách thức kỷ lục vốn hóa thị trường AI

Anthropic đang đàm phán một vòng tài trợ mới trị giá ít nhất 30 tỷ USD, định giá mục tiêu có thể vượt 90 tỷ USD; nếu giao dịch thành công, đây sẽ trở thành quy mô lớn nhất từ trước đến nay của công ty. Số tiền được dùng để mở rộng hạ tầng tính toán, hỗ trợ đà tăng trưởng của dòng Claude, và có thể vào khoảng tháng 10 năm nay sẽ tiến hành IPO ra công chúng, như một bước tăng tốc cuối cùng trước khi bước vào thị trường công khai.

ChainNewsAbmedia2giờ trước

Google Giới thiệu Gemini Intelligence cho Android, Ra mắt trên Galaxy S26 và Pixel 10 vào Mùa Hè này

Theo Google vào ngày 12 tháng 5, công ty đã giới thiệu Gemini Intelligence, một tính năng AI mới dành cho Android có khả năng tự động hóa các tác vụ nhiều bước trên nhiều ứng dụng với sự đồng ý của người dùng. Tính năng này ban đầu sẽ ra mắt vào mùa hè năm nay trên các thiết bị Samsung Galaxy S26 và Google Pixel 10, trước khi mở rộng sang đồng hồ, ô tô, kính và laptop vào cuối năm. Gemini Intelligence giúp người dùng hoàn thành các hành động phức tạp mà không cần tự chuyển đổi thủ công giữa các

GateNews3giờ trước
Bình luận
0/400
Không có bình luận