Vào thời điểm mà AI sinh sinh đang lan tỏa toàn cầu, hầu như tất cả LLM, dịch vụ đám mây và các công ty khởi nghiệp AI đều không thể tách rời khỏi cùng một bộ hạ tầng cơ sở hạ tầng quan trọng, đó chính là hệ sinh thái phần mềm CUDA của NVIDIA (. Bộ chương trình ban đầu được thiết kế cho thẻ đồ họa này đã dần dần mở rộng thành “hệ điều hành vô hình” cho hoạt động thực tế của ngành công nghiệp AI trong gần hai mươi năm qua.
Công ty khởi nghiệp Modular, thành lập vào năm 2022, đang cố gắng thách thức cấu trúc tập trung cao độ này, được dẫn dắt bởi một nhà cung cấp duy nhất. Mục tiêu của Modular không phải là tạo ra một con chip mới, mà là xây dựng một “nền tảng phần mềm AI có thể mang đi” cho phép các mô hình AI tự do di chuyển giữa các GPU và bộ tăng tốc khác nhau, không còn bị khóa trong hệ sinh thái của Nvidia và CUDA.
Điểm khởi đầu khởi nghiệp năm 2022, kỹ sư tầng dưới trực tiếp xâm nhập vào lõi CUDA
Modular được thành lập vào năm 2022 bởi hai kỹ sư phần mềm cơ sở đến từ Apple và Google. Giám đốc điều hành Chris Lattner đã tạo ra hệ thống biên dịch Swift và LLVM, trong khi đồng sáng lập Tim Davis tham gia vào kiến trúc phần mềm quan trọng của Google TPU.
Cả hai người đều đã trải nghiệm cách mà phần mềm “mở ra thị trường” cho phần cứng mới, vì vậy họ quyết định rời khỏi các công ty công nghệ lớn để thách thức quyền thống trị phần mềm AI mà CUDA đại diện. Cuộc chiến không đối xứng này trong mắt ngành công nghiệp gần như điên rồ, nhưng cũng chính vì hiểu biết sâu sắc về hệ thống nền tảng mà họ được coi là một trong số ít đội ngũ có cơ hội thử nghiệm.
CUDA khó có thể thay thế, gánh nặng cấu trúc của ngành AI
CUDA ban đầu chỉ là công cụ để lập trình hóa card đồ họa, nhưng với sự trỗi dậy của học sâu, nó đã dần mở rộng thành một hệ sinh thái hoàn chỉnh bao gồm ngôn ngữ, thư viện, trình biên dịch và công cụ suy diễn.
Đối với hầu hết các nhóm AI, chỉ cần sử dụng GPU của NVIDIA, gần như không thể tránh khỏi CUDA. Ngay cả khi trên thị trường có GPU của AMD, TPU hoặc chip tự phát triển của các nhà cung cấp đám mây, mỗi loại phần cứng vẫn gắn liền với phần mềm độc quyền, các nhà phát triển tự nhiên có xu hướng chọn CUDA, là công cụ phát triển trưởng thành nhất và đầy đủ nhất, tạo thành cấu trúc ngành công nghiệp bị khóa cao.
Kỹ thuật không có động lực, ngược lại trở thành kẽ hở.
Lattner chỉ ra rằng phần mềm AI di động xuyên chip và nhà cung cấp không phải là không quan trọng, mà là “không ai có đủ động lực để chịu chi phí.” Loại dự án này có độ khó rất cao, thời gian hoàn vốn dài, gần như không thấy kết quả thương mại trong ngắn hạn, nhưng lại là khả năng mà toàn ngành đang khao khát.
Chính sự mâu thuẫn này đã khiến Modular lựa chọn đầu tư vào phát triển hệ thống nền tảng lâu dài trước khi bùng nổ AI sinh tạo, và trong ba năm đầu thành lập, cố ý tránh xa ánh đèn sân khấu của thị trường.
Ba năm nỗ lực âm thầm, vốn và đội ngũ dần được hoàn thiện.
Đến năm 2025, Modular đã huy động được khoảng 380 triệu USD, với các nhà đầu tư bao gồm nhiều quỹ đầu tư mạo hiểm hàng đầu tại Silicon Valley. Sau khi hoàn thành vòng gọi vốn mới nhất vào tháng 9 năm 2025, công ty được định giá khoảng 1.6 tỷ USD.
Các tài nguyên này cho phép Modular tuyển dụng các kỹ sư kỳ cựu từ Google, Apple, hình thành một đội ngũ tập trung vào biên dịch, phần mềm hệ thống và hạ tầng AI, liên tục hoàn thiện ngăn xếp phần mềm đầy đủ.
Cấu trúc phần mềm ba lớp, từ ngôn ngữ đến cụm tính toán
Cốt lõi công nghệ của Modular được cấu thành từ ba lớp, lần lượt là:
Tầng trên cùng: là Mammoth, dùng để hỗ trợ doanh nghiệp trong việc điều phối và quản lý sức mạnh tính toán trong môi trường nhiều GPU, nhiều nhà cung cấp, giải quyết các vấn đề triển khai và vận hành thực tế.
Lớp trung gian: là động cơ suy diễn MAX, chịu trách nhiệm thực thi mô hình, đã hỗ trợ NVIDIA, AMD và Apple Silicon.
Tầng thấp nhất: Là ngôn ngữ lập trình Mojo, cú pháp gần gũi với Python, hiệu suất gần với C++, có thể tích hợp với các khung AI phổ biến.
2025 xác thực quan trọng, lớp tính toán thống nhất chính thức hình thành
Vào tháng 9 năm 2025, Modular công bố kết quả thử nghiệm quan trọng, trong cùng một bẫy phần mềm, đồng thời điều khiển NVIDIA Blackwell B200 và AMD MI355X đạt hiệu suất hàng đầu, trong đó MI355X thậm chí còn cải thiện khoảng 50% so với phần mềm gốc của AMD.
Sau đó, vào ngày 12/22, Modular Platform 25.6 chính thức ra mắt, hoàn toàn hỗ trợ trung tâm dữ liệu và GPU tiêu dùng, và lần đầu tiên cho phép Mojo hỗ trợ trực tiếp Apple Silicon. Chính thức mô tả điều này là “Write once, run anywhere”, tức là:
“Các nhà phát triển viết mã bằng Mojo không cần phải viết một phiên bản cho NVIDIA, AMD, Apple Silicon, cùng một mã có thể chạy trên các GPU khác nhau, phần cứng của các nhà cung cấp khác nhau.”
Biểu tượng cho sự thống nhất, lớp tính toán AI chuyển từ khái niệm sang thực tế.
Bài viết này thách thức quyền thống trị phần mềm AI của NVIDIA! Modular tạo ra nền tảng AI tích hợp đa phần cứng đối đầu với CUDA lần đầu xuất hiện trên ChainNews ABMedia.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Thách thức sự thống trị phần mềm AI của NVIDIA! Modular xây dựng nền tảng AI tích hợp đa phần cứng đối đầu với CUDA
Vào thời điểm mà AI sinh sinh đang lan tỏa toàn cầu, hầu như tất cả LLM, dịch vụ đám mây và các công ty khởi nghiệp AI đều không thể tách rời khỏi cùng một bộ hạ tầng cơ sở hạ tầng quan trọng, đó chính là hệ sinh thái phần mềm CUDA của NVIDIA (. Bộ chương trình ban đầu được thiết kế cho thẻ đồ họa này đã dần dần mở rộng thành “hệ điều hành vô hình” cho hoạt động thực tế của ngành công nghiệp AI trong gần hai mươi năm qua.
Công ty khởi nghiệp Modular, thành lập vào năm 2022, đang cố gắng thách thức cấu trúc tập trung cao độ này, được dẫn dắt bởi một nhà cung cấp duy nhất. Mục tiêu của Modular không phải là tạo ra một con chip mới, mà là xây dựng một “nền tảng phần mềm AI có thể mang đi” cho phép các mô hình AI tự do di chuyển giữa các GPU và bộ tăng tốc khác nhau, không còn bị khóa trong hệ sinh thái của Nvidia và CUDA.
Điểm khởi đầu khởi nghiệp năm 2022, kỹ sư tầng dưới trực tiếp xâm nhập vào lõi CUDA
Modular được thành lập vào năm 2022 bởi hai kỹ sư phần mềm cơ sở đến từ Apple và Google. Giám đốc điều hành Chris Lattner đã tạo ra hệ thống biên dịch Swift và LLVM, trong khi đồng sáng lập Tim Davis tham gia vào kiến trúc phần mềm quan trọng của Google TPU.
Cả hai người đều đã trải nghiệm cách mà phần mềm “mở ra thị trường” cho phần cứng mới, vì vậy họ quyết định rời khỏi các công ty công nghệ lớn để thách thức quyền thống trị phần mềm AI mà CUDA đại diện. Cuộc chiến không đối xứng này trong mắt ngành công nghiệp gần như điên rồ, nhưng cũng chính vì hiểu biết sâu sắc về hệ thống nền tảng mà họ được coi là một trong số ít đội ngũ có cơ hội thử nghiệm.
CUDA khó có thể thay thế, gánh nặng cấu trúc của ngành AI
CUDA ban đầu chỉ là công cụ để lập trình hóa card đồ họa, nhưng với sự trỗi dậy của học sâu, nó đã dần mở rộng thành một hệ sinh thái hoàn chỉnh bao gồm ngôn ngữ, thư viện, trình biên dịch và công cụ suy diễn.
Đối với hầu hết các nhóm AI, chỉ cần sử dụng GPU của NVIDIA, gần như không thể tránh khỏi CUDA. Ngay cả khi trên thị trường có GPU của AMD, TPU hoặc chip tự phát triển của các nhà cung cấp đám mây, mỗi loại phần cứng vẫn gắn liền với phần mềm độc quyền, các nhà phát triển tự nhiên có xu hướng chọn CUDA, là công cụ phát triển trưởng thành nhất và đầy đủ nhất, tạo thành cấu trúc ngành công nghiệp bị khóa cao.
Kỹ thuật không có động lực, ngược lại trở thành kẽ hở.
Lattner chỉ ra rằng phần mềm AI di động xuyên chip và nhà cung cấp không phải là không quan trọng, mà là “không ai có đủ động lực để chịu chi phí.” Loại dự án này có độ khó rất cao, thời gian hoàn vốn dài, gần như không thấy kết quả thương mại trong ngắn hạn, nhưng lại là khả năng mà toàn ngành đang khao khát.
Chính sự mâu thuẫn này đã khiến Modular lựa chọn đầu tư vào phát triển hệ thống nền tảng lâu dài trước khi bùng nổ AI sinh tạo, và trong ba năm đầu thành lập, cố ý tránh xa ánh đèn sân khấu của thị trường.
Ba năm nỗ lực âm thầm, vốn và đội ngũ dần được hoàn thiện.
Đến năm 2025, Modular đã huy động được khoảng 380 triệu USD, với các nhà đầu tư bao gồm nhiều quỹ đầu tư mạo hiểm hàng đầu tại Silicon Valley. Sau khi hoàn thành vòng gọi vốn mới nhất vào tháng 9 năm 2025, công ty được định giá khoảng 1.6 tỷ USD.
Các tài nguyên này cho phép Modular tuyển dụng các kỹ sư kỳ cựu từ Google, Apple, hình thành một đội ngũ tập trung vào biên dịch, phần mềm hệ thống và hạ tầng AI, liên tục hoàn thiện ngăn xếp phần mềm đầy đủ.
Cấu trúc phần mềm ba lớp, từ ngôn ngữ đến cụm tính toán
Cốt lõi công nghệ của Modular được cấu thành từ ba lớp, lần lượt là:
Tầng trên cùng: là Mammoth, dùng để hỗ trợ doanh nghiệp trong việc điều phối và quản lý sức mạnh tính toán trong môi trường nhiều GPU, nhiều nhà cung cấp, giải quyết các vấn đề triển khai và vận hành thực tế.
Lớp trung gian: là động cơ suy diễn MAX, chịu trách nhiệm thực thi mô hình, đã hỗ trợ NVIDIA, AMD và Apple Silicon.
Tầng thấp nhất: Là ngôn ngữ lập trình Mojo, cú pháp gần gũi với Python, hiệu suất gần với C++, có thể tích hợp với các khung AI phổ biến.
2025 xác thực quan trọng, lớp tính toán thống nhất chính thức hình thành
Vào tháng 9 năm 2025, Modular công bố kết quả thử nghiệm quan trọng, trong cùng một bẫy phần mềm, đồng thời điều khiển NVIDIA Blackwell B200 và AMD MI355X đạt hiệu suất hàng đầu, trong đó MI355X thậm chí còn cải thiện khoảng 50% so với phần mềm gốc của AMD.
Sau đó, vào ngày 12/22, Modular Platform 25.6 chính thức ra mắt, hoàn toàn hỗ trợ trung tâm dữ liệu và GPU tiêu dùng, và lần đầu tiên cho phép Mojo hỗ trợ trực tiếp Apple Silicon. Chính thức mô tả điều này là “Write once, run anywhere”, tức là:
“Các nhà phát triển viết mã bằng Mojo không cần phải viết một phiên bản cho NVIDIA, AMD, Apple Silicon, cùng một mã có thể chạy trên các GPU khác nhau, phần cứng của các nhà cung cấp khác nhau.”
Biểu tượng cho sự thống nhất, lớp tính toán AI chuyển từ khái niệm sang thực tế.
Bài viết này thách thức quyền thống trị phần mềm AI của NVIDIA! Modular tạo ra nền tảng AI tích hợp đa phần cứng đối đầu với CUDA lần đầu xuất hiện trên ChainNews ABMedia.