Theo Beating, Google đã phát hành Gemma 4 12B, một kích thước mô hình mới trong họ Gemma 4 được thiết kế để chạy tác nhân AI đa phương thức cục bộ trên laptop phổ thông với 16GB RAM. Mô hình 12B tham số sử dụng kiến trúc đa phương thức không cần bộ mã hóa (encoder-free), hỗ trợ đầu vào dạng văn bản và hình ảnh, qua đó lấp đầy khoảng trống hiệu năng giữa các mô hình nhỏ hơn và lớn hơn trong dòng sản phẩm.
Đồng thời, Google cũng nâng cấp công cụ suy luận cục bộ LiteRT-LM của mình với khả năng tương thích API của OpenAI, cho phép nhà phát triển kết nối các công cụ như Continue, Aider và Open WebUI trực tiếp tới một phiên bản Gemma 4 12B chạy cục bộ mà không cần dựa vào các mô hình trên đám mây.