Tác giả: Tiểu Tĩnh
Silicon Valley đang lưu hành một thuật ngữ mới: Tokenmaxxing (Tối đa hóa sử dụng Token).
Trong nội bộ Meta và OpenAI, các kỹ sư bắt đầu cạnh tranh trong bảng xếp hạng sử dụng AI. Theo báo cáo của các phương tiện truyền thông nước ngoài, thậm chí có một kỹ sư đã tiêu thụ tới 210 tỷ Token trong một tuần, tương đương với khối lượng văn bản của 33 bài Wikipedia. Có người chỉ trong một tháng đã phải trả hóa đơn AI lên tới 150.000 USD.
Một kỹ sư của Ericsson tại Stockholm đã tiêu tiền cho Claude nhiều hơn cả lương của mình, nhưng hóa đơn do công ty chi trả. Ngân sách Token đang trở thành một phúc lợi mới cho kỹ sư, “giống như đồ ăn vặt miễn phí hoặc bữa trưa miễn phí từng có”.
CEO Shopify Tobi Lütke đã phát hành một bản ghi nhớ nội bộ từ tháng 4 năm 2025, tuyên bố “việc sử dụng AI là tiêu chuẩn cơ bản của Shopify”, yêu cầu tất cả các nhóm phải chứng minh rằng AI không thể hoàn thành công việc trước khi tuyển dụng nhân sự mới, và đưa việc sử dụng AI vào đánh giá hiệu suất. Sau đó, Meta cũng tuyên bố từ năm 2026, “ảnh hưởng do AI thúc đẩy” sẽ chính thức được đưa vào đánh giá hiệu quả của tất cả nhân viên.
Khi lượng tiêu thụ Token bắt đầu xuất hiện trong KPI, nó đã trở thành một tín hiệu hành vi tổ chức.
Trong khi đó, các tín hiệu ở cấp ngành cũng rất dày đặc. Ngày 16 tháng 3, Jensen Huang tại hội nghị GTC của Nvidia đã định nghĩa Token là “nền tảng của thời đại AI”, gọi nó là “hàng hóa lớn giá trị nhất”. Ngày hôm sau, Alibaba tuyên bố thành lập nhóm kinh doanh Alibaba Token Hub, do CEO Wu Yongming trực tiếp phụ trách, với mục tiêu “tạo ra Token, vận chuyển Token, ứng dụng Token”.
Hình: Jensen Huang trình bày biểu đồ mối quan hệ giữa chi phí và doanh thu của Token tại GTC, phân chia trung tâm dữ liệu thành các tầng miễn phí, trung cấp, cao cấp và cao cấp đặc biệt để phân bổ công suất tính toán, đồng thời dự đoán chip Vera Rubin mang lại mức tăng doanh thu gấp 5 lần so với Grace Blackwell.
Cách đây một năm, Token còn chỉ là đơn vị đo lường công nghệ mà các nhà phát triển quan tâm. Giờ đây, nó đã trở thành ngôn ngữ các công ty chip dùng để định nghĩa giá trị sản phẩm, cũng là lý do các tập đoàn internet tái tổ chức các nhóm kinh doanh xung quanh nó, hơn nữa còn trở thành phúc lợi mới trong lời mời tuyển dụng của kỹ sư và KPI cốt lõi.
Tuy nhiên, bảng xếp hạng Tokenmaxxing chỉ ghi lại lượng tiêu thụ, còn chưa ai ghi nhận chính xác những Token này đã hoàn thành bao nhiêu nhiệm vụ có hiệu quả.
Đây chính là điểm mù lớn nhất trong toàn bộ nền kinh tế Token ngày nay.
210 tỷ Token nghe có vẻ là một con số đáng kinh ngạc. Nhưng để hiểu rõ ý nghĩa thực sự của nó, cần từ bỏ giả định rằng: Token là hàng hóa tiêu chuẩn.
Hình: Bảng xếp hạng tiêu thụ Token toàn cầu của Tokscale, một công cụ mã nguồn mở theo dõi và xếp hạng lượng sử dụng Token, hỗ trợ nhiều nền tảng như Claude Code, Cursor, OpenCode, Codex, người dùng có thể gửi dữ liệu tham gia xếp hạng toàn cầu.
Hai năm trước, giá của các mô hình lớn còn khá đơn giản, thường chỉ có giá cơ bản cho Token đầu vào và Token đầu ra; nhưng đến ngày nay, hệ thống định giá của các nhà cung cấp chính đã rõ ràng phân tầng, cùng một “Token”, trong các điều kiện gọi khác nhau, thường sẽ có mức phí hoàn toàn khác nhau.
Ví dụ, Anthropic, Claude Opus 4.6, giá tiêu chuẩn cho Token đầu vào là 5 USD trên mỗi triệu Token, giá đầu ra là 25 USD; nếu bật tính năng Cache Prompt, ghi cache 5 phút sẽ mất 6,25 USD, ghi cache 1 giờ là 10 USD, đọc cache là 0,50 USD. Nếu dùng API theo lô, giá cho đầu vào và đầu ra đều có thể giảm còn một nửa; nếu chỉ thực hiện suy luận tại Mỹ, giá Token sẽ tăng thêm 10%; còn trong chế độ Fast Mode, giá đầu vào và đầu ra của Opus 4.6 sẽ tăng gấp 6 lần so với giá tiêu chuẩn.
Nói cách khác, cùng một nhà cung cấp, cùng một mô hình, cùng gọi là “Token”, nhưng do các điều kiện như cache, xử lý theo lô, khu vực suy luận và tốc độ, giá có thể chênh lệch hàng nhiều lần, thậm chí hơn mười lần.
Thực tế, chi phí đẩy cao không còn chỉ là phí gọi mô hình nữa. Bảng giá của OpenAI hiện tại cho thấy, tìm kiếm web đã phân biệt theo loại mô hình: tìm kiếm web dành cho GPT-4.1, GPT-4o là 10 USD trên mỗi nghìn lần, còn dành cho các mô hình suy luận như GPT-5 là 25 USD trên mỗi nghìn lần.
Chi phí tìm kiếm File là 2,50 USD trên mỗi nghìn lần gọi, cộng thêm lưu trữ vector là 0,10 USD mỗi GB mỗi ngày, 1 GB đầu tiên miễn phí. Các container mã cũng đã trở thành mục tính phí riêng: container 1 GB hiện là 0,03 USD, các container 4 GB, 16 GB, 64 GB có giá cao hơn. Từ ngày 31 tháng 3 năm 2026, giá này sẽ chuyển sang tính theo mỗi session kéo dài 20 phút cho mỗi container.
Ngoài mô hình, các hoạt động như tìm kiếm, truy xuất, lưu trữ, môi trường thực thi, vốn từng được xem là “kỹ năng phụ trợ”, giờ đây đã được tách thành các trung tâm chi phí riêng biệt.
Google cũng đang theo hướng này. Trang giá chính thức của Vertex AI cho biết, từ ngày 11 tháng 2 năm 2026, Code Execution, Sessions và Memory Bank trong Agent Engine đã bắt đầu tính phí chính thức, giá không còn gói gọn nữa mà theo giờ vCPU và giờ bộ nhớ GiB.
Vì vậy, ngày nay, khi nói về “giá mô hình lớn”, không thể chỉ nhìn vào giá Token đầu vào và đầu ra nữa. Thực tế, điều thay đổi là logic tính phí, các nhà cung cấp mô hình lớn hiện đang bán một bộ đầy đủ các khả năng AI có thể vận hành, lưu trữ, tìm kiếm, gọi API, thực thi liên tục.
Hình: Ảnh chụp trang giá của OpenAI, cấu trúc phí nhiều lớp ngoài Token (Web Search, File Search, Container, v.v.) đều tính riêng.
Nếu chỉ nhìn vào giá niêm yết của API mô hình, Token thực sự đang tiến gần mức giá rẻ như bèo. Opus của Anthropic giảm từ 15 USD/triệu Token xuống còn 5 USD, giảm tới hai phần ba. DeepSeek V3.2 còn chỉ còn 0,28 USD. Google Gemini 2.5 Flash Lite thấp tới khoảng 0,10 USD.
Các mô hình Trung Quốc còn có lợi thế rõ rệt hơn, theo dữ liệu của OpenRouter, giá Token của các mô hình Trung Quốc chỉ bằng khoảng một phần sáu đến một phần mười của các đối thủ quốc tế. Ngay cả khi Tencent Cloud Huyền Vũ HY2.0 Instruct kết thúc đợt thử nghiệm miễn phí và tăng giá hơn 460%, giá đầu vào quy đổi còn khoảng 0,62 USD/triệu Token, vẫn thấp hơn Haiku 4.5 của Anthropic (1 USD), chưa bằng một phần năm của Sonnet 4.6.
Hình: Artificial Analysis duy trì bảng xếp hạng LLM cập nhật theo thời gian thực, khoảng cách giá giữa các mô hình rất lớn.
Tuy nhiên, tổng chi phí sử dụng AI không giảm theo. Có ba cơ chế cùng hoạt động.
Thứ nhất, mô hình trở nên thông minh hơn, nhưng đổi lại là “nói nhiều” hơn. Báo cáo của Artificial Analysis chỉ ra rằng trung bình, lượng Token đầu ra của các mô hình suy luận lớn gấp khoảng 5,5 lần so với các mô hình không suy luận. Anthropic và OpenAI đều tính phí Token mở rộng theo Token đầu ra, nghĩa là mô hình suy nghĩ sâu hơn, hóa đơn dài hơn. Giá mỗi Token giảm, nhưng tổng số Token để hoàn thành cùng một nhiệm vụ lại tăng gấp nhiều lần.
Thứ hai, Agent khiến Token từ “tiêu hao một lần” biến thành “tiêu hao liên tục”. Đây chính là động lực sâu xa của Tokenmaxxing, các kỹ sư không phải là tự tay tiêu thụ Token, mà các AI lập trình của họ hoạt động liên tục 24/7, tự phân chia nhiệm vụ, gọi công cụ, tự cải tiến. Theo dữ liệu của Alibaba Cloud, năng lượng tiêu thụ của một Agent riêng lẻ gấp 100 đến 1000 lần so với chatbot truyền thống. Tổng lượng Token tiêu thụ trung bình hàng ngày của Trung Quốc đã vượt 30 nghìn tỷ vào giữa năm 2025, đến tháng 2 năm 2026 đã tăng lên mức 180 nghìn tỷ.
Thứ ba, chi phí nền để tạo ra Token đang tăng. Ngày 18 tháng 3 năm 2026, Alibaba Cloud và Baidu Cloud cùng ngày thông báo tăng giá các sản phẩm tính toán và lưu trữ AI, mức tăng cao nhất là 34%. AWS tháng 1 đã tăng giá các khối dung lượng máy học khoảng 15%, Google Cloud thông báo từ tháng 5 sẽ tăng phí hạ tầng AI.
Một chuyên gia ngành điện toán đám mây nhận định: “Lần điều chỉnh giá này chủ yếu do cung cầu quyết định, dựa trên chi phí. Các mức giá sau này chủ yếu sẽ phụ thuộc vào xu hướng giá của toàn bộ chuỗi cung ứng.”
GPU, lưu trữ song song, mạng tốc độ cao, điện năng trung tâm dữ liệu, giá mô hình đang giảm, nhưng mọi thứ phụ thuộc vào quá trình sản xuất Token đều đang tăng giá. Khi OpenAI ra mắt Opus 4.6, họ đặc biệt nhấn mạnh “giá giữ nguyên”, ý nói là khả năng mạnh hơn do nhà cung cấp tự gánh chịu chi phí.
Nói cách khác, mô hình là động cơ, còn tiền xăng, phí đỗ xe, phí qua đường cao tốc đều đang tăng.
Ba cơ chế này cộng hưởng, kết quả là, giữa giá niêm yết của Token và chi phí thực tế của nhiệm vụ ngày càng xuất hiện một khoảng cách ngày càng lớn.
Quay trở lại với Tokenmaxxing. Bảng xếp hạng ghi lại lượng tiêu thụ Token, nhưng không ghi nhận chất lượng sản phẩm đầu ra. Một kỹ sư tiêu thụ 33 Wikipedia Token trong một tuần, chưa chắc đã hoàn thành công việc có giá trị tương đương 33 Wikipedia.
Các tập đoàn lớn đưa lượng tiêu thụ Token vào KPI hoặc xem như một “phúc lợi”, về bản chất có thực sự là bước nhảy vọt về năng suất không, hay chỉ là một “trò diễn năng suất”?
Điều này chạm vào điểm yếu cấu trúc cốt lõi của kinh tế Token, ngành chưa xây dựng được một thước đo hiệu quả từ tiêu thụ Token đến hoàn thành nhiệm vụ. Token đo lường đầu vào, chứ không phải đầu ra. Một Agent tiêu tốn 1 triệu Token để hoàn thành nhiệm vụ, trong khi một Agent khác chỉ tiêu thụ 100.000 Token cho cùng một nhiệm vụ, nhưng trên bảng xếp hạng Tokenmaxxing, thành tích của người tiêu thụ ít hơn sẽ cao hơn, vì tiêu thụ ít hơn.
CEO Shopify Lütke có một câu đáng chú ý trong bản ghi nhớ: ông tuyên bố rằng một số đồng nghiệp đang đóng góp “gấp 10 lần hiệu quả mà trước đây nghĩ là không thể”, nhưng không đưa ra tiêu chuẩn đo lường cụ thể.
Một loại lo lắng nghề nghiệp mới đã ra đời: nếu không tiêu tốn Token đắt đỏ để thể hiện năng suất AI, có thể bị xem là lạc hậu. Lo lắng này giống hệt như thời kỳ đầu những năm 2000, các doanh nghiệp cạnh tranh xây dựng website, hay những năm 2010, mọi thương hiệu đều phải có App: việc chấp nhận công nghệ trở thành tín hiệu, lượng tiêu thụ trở thành chỉ số trung gian, còn giá trị thực sự thì bị trì hoãn đánh giá.
Nhưng khác với trước, chi phí của vòng này là thực tế. Hóa đơn AI hàng tháng 150.000 USD, tiêu thụ 210 tỷ Token mỗi tuần, chi phí hạ tầng tính toán và lưu trữ liên tục tăng, Tokenmaxxing không phải là miễn phí. Khi chi phí đủ cao, sự khác biệt giữa “tiêu thụ Token” và “tạo ra giá trị bằng Token” sẽ biến từ vấn đề triết học thành vấn đề tài chính.
Giá Token vẫn sẽ tiếp tục giảm, điều này không còn nghi ngờ gì nữa.
Điều thực sự gây lo lắng là ai có thể biến Token thành tỷ lệ hoàn thành nhiệm vụ cao nhất. Đối với từng lập trình viên, từng doanh nghiệp, từng người dùng bình thường, khi đánh giá AI, không nên chỉ nhìn vào giá mỗi triệu Token, mà phải xem xem hoàn thành một việc cụ thể đáng bao nhiêu Token.
Khoảng cách giữa hai con số này chính là cơ hội kinh doanh lớn nhất của “thời đại trí tuệ mới dựa trên Token” trong giai đoạn tiếp theo, cũng là cái bẫy chi phí sâu nhất.