Phân tích Berkeley GEPA: không cần cập nhật trọng số vẫn có thể giúp AI học nhiệm vụ mới, giảm 35 lần chi phí huấn luyện so với RL

Đội nghiên cứu tại Đại học California, Berkeley đã đề xuất một phương pháp huấn luyện AI mới là GEPA, và đã được ICLR 2026 chấp nhận dưới dạng bài báo Oral. GEPA không cập nhật trọng số mô hình, không cần huấn luyện bằng GPU, chỉ dùng một LLM có nhiệm vụ “đọc lại các bản ghi huấn luyện” để liên tục viết lại prompt của hệ thống AI; nhờ đó, trong 6 nhiệm vụ, GEPA trung bình vượt các phương pháp tăng cường học tập phổ biến GRPO 6%, cao nhất vượt 20%, đồng thời số lần thử huấn luyện (rollouts) ít hơn 35 lần. Sau khi được cộng đồng kỹ sư AI tổng hợp và thảo luận trên X, hiện GEPA đã được tích hợp vào DSPy với vị thế một bộ tối ưu hóa “hạng nhất”.

GEPA đang làm gì: coi “bản ghi huấn luyện” như giáo trình, thay vì chỉ nhìn điểm số

Quy trình của các phương pháp tăng cường học tập truyền thống (như GRPO) là: cho AI chạy một lần nhiệm vụ, dựa trên kết quả gán một điểm “+1 hoặc -1”, rồi dùng điểm số đó để lặp lại điều chỉnh trọng số mô hình. Vấn đề là quá trình AI chạy một nhiệm vụ thường bao gồm các bước suy luận dài hàng nghìn token, gọi công cụ, và ghi lại lỗi—những chi tiết phong phú này bị nén lại thành một điểm số duy nhất, trong khi thông tin theo tiến trình bị loại bỏ. Vì vậy, RL cần chạy hàng chục nghìn lần để hội tụ.

Cách làm của GEPA lại ngược: sau mỗi lần AI chạy xong nhiệm vụ, toàn bộ quá trình (reasoning, lời gọi công cụ, lịch sử lỗi) được chuyển nguyên vẹn sang một “LLM phản tư” để đọc. LLM phản tư giống như một kỹ sư phần mềm giàu kinh nghiệm đọc log chương trình: tìm ra bước nào gây lỗi, vì sao lỗi, và cần sửa prompt như thế nào, rồi trực tiếp viết lại prompt của chính mô-đun đó. Cũng chạy một lần nhiệm vụ như trước, nhưng lượng tín hiệu mà GEPA trích xuất được nhiều hơn đáng kể so với RL chỉ nhận một điểm số.

Vì sao có thể thắng: chuyển từ “chấm điểm” sang “đọc cả đoạn quá trình”

GEPA trong 6 nhiệm vụ trung bình thắng GRPO 6%, cao nhất thắng 20%; đồng thời so với một bộ tối ưu hóa prompt phổ biến khác là MIPROv2 cũng thắng hơn 10% (trên bộ chuẩn AIME-2025 về bài toán toán học, tăng 12%). Quan trọng nhất là chi phí huấn luyện: để đạt hiệu năng tương đương, GEPA cần số rollouts (một lần chạy đầy đủ nhiệm vụ) ít hơn 35 lần.

Một dữ liệu khác là sau khi tích hợp GEPA với DSPy, “Full Program Adapter” có thể tối ưu toàn bộ chương trình DSPy (bao gồm signature, mô-đun, luồng điều khiển). Trên chuẩn MATH về toán học, nó đạt 93% độ chính xác, vượt xa cách viết ChainOfThought gốc của DSPy ở mức 67%. GEPA cũng thể hiện đặc biệt tốt trong các quy trình multi-module (tác nhân AI ghép nối nhiều mô-đun): có thể chính xác khoanh vùng đúng mô-đun gây lỗi để viết lại prompt, thay vì chỉ chỉnh sửa toàn bộ hệ thống.

Ai sẽ là người dùng sớm: DSPy coi GEPA là “công dân hạng nhất”, GitHub đã mở mã nguồn

Mã nguồn GEPA đã được mở trên GitHub, và được tích hợp vào khung DSPy dưới dạng dspy.GEPA; đồng thời cũng được phát hành độc lập như một thư viện Python. Nhóm nghiên cứu có sự tham gia từ UC Berkeley, Stanford, Notre Dame, Anthropic; các tác giả luận văn gồm Matei Zaharia (đồng sáng lập Databricks, tác giả chính của DSPy) và Omar Khattab (tác giả chính của DSPy).

Với cộng đồng nhà phát triển, GEPA đem đến một lời giải mới cho bài toán “có rất nhiều rollout nhưng không biết cách tận dụng”—đa số đội nhóm đã tích lũy hàng nghìn đến hàng vạn bản ghi chạy tác nhân để thực hiện nhiệm vụ, nhưng ngoài việc lật vài bản ghi khi xảy ra lỗi để tìm bug, họ lại không có phương pháp hệ thống để biến các bản ghi đó thành cải tiến mô hình. Điểm quan sát tiếp theo là GEPA sẽ được triển khai trong các workflow agentic ở doanh nghiệp như tự động hóa chăm sóc khách hàng hay tự sửa lỗi lập trình ở thực tế ra sao, và liệu sẽ có các bản triển khai GEPA tương đương ngoài khung DSPy hay không.

Bài viết “Berkeley GEPA giải thích”: không cập nhật trọng số vẫn giúp AI học nhiệm vụ mới, với chi phí huấn luyện ít hơn 35 lần để thắng RL lần đầu tiên xuất hiện trên chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Particle Network Ra Mắt Lộ Trình Tài Khoản Phổ Quát, Khởi Chạy Universal Deposit SDK và Tài Khoản AI Agent

Theo ChainCatcher, hôm nay Particle Network đã công bố lộ trình giai đoạn tiếp theo cho Universal Accounts, giới thiệu hai sản phẩm mới trong vài tháng tới: Universal Deposit SDK, cho phép nhà phát triển thêm tiền gửi đa chuỗi với khoảng 10 dòng code và Universal Agent Accounts,

GateNews5giờ trước

Roblox Ra mắt phần mềm AI để cạnh tranh với Unity và Epic Games

Theo Bloomberg, Roblox đang ra mắt phần mềm AI mới để cạnh tranh với Unity Technologies và Epic Games, hai hãng có các công cụ thống trị việc phát triển game với ngân sách lớn. CEO Dave Baszucki cho biết công cụ này nhằm giúp các nhà sáng tạo xây dựng game nhiều người chơi với đồ họa chân thực hơn, dễ dàng hơn, được hỗ trợ bởi ar

GateNews10giờ trước

Hải quân Mỹ ký hợp đồng AI trị giá gần 100 triệu USD với Domino Data Lab để phát hiện mìn ở eo biển Hormuz

Theo Tân Hoa Xã, Bộ Tư lệnh Hệ thống Chiến tranh Thông tin của Hải quân Mỹ gần đây đã ký hợp đồng với công ty AI Domino Data Lab có trụ sở tại San Francisco để mua và triển khai các giải pháp phần mềm học máy. Hợp đồng có giá trị gần 100 triệu USD nếu thực hiện đầy đủ, nhằm mục tiêu

GateNews12giờ trước

XAI Grok ra mắt Custom Voices: nhân bản giọng nói trong 2 phút, xác thực danh tính 2 giai đoạn

xAI ra mắt Grok Custom Voices, cho phép ghi âm khoảng 1 phút trong bảng điều khiển, sau đó trong vòng 2 phút tạo ra mô hình giọng nói tùy chỉnh có thể dùng cho TTS và Voice Agent API, đồng thời phát hành Grok 4.3 và Voice Library. Để ngăn chặn mạo danh, triển khai xác thực hai giai đoạn: đọc câu xác minh trước, rồi đối chiếu speaker embedding để đảm bảo chỉ cùng một người mới có thể tạo giọng. Voice Library hợp nhất việc quản lý các giọng tự chế và giọng được dựng sẵn, với hơn 80 loại và 28 ngôn ngữ, và sẽ tiếp tục mở rộng trong tương lai.

ChainNewsAbmedia14giờ trước

Bản desktop của OpenAI Codex có thêm tính năng nuôi thú cưng: 3 trạng thái nhắc nhở, ấp nở theo ngôn ngữ sử dụng

Phiên bản máy tính của OpenAI Codex gần đây đã ra mắt tính năng “Thú cưng” (Pets), giúp nhà phát triển có thể nắm ngay trạng thái nhiệm vụ của Codex trong lúc lập trình thông qua nhân vật hoạt hình nổi dạng hover. Theo tài liệu chính thức của OpenAI, overlay thú cưng sẽ chuyển đổi theo trạng thái hiện tại của Codex trong 3

ChainNewsAbmedia15giờ trước

MoonPay ra mắt thẻ MoonAgents Card, thẻ Mastercard ảo dành cho AI Agents, vào thứ Sáu

Theo The Block, MoonPay đã ra mắt MoonAgents Card, một thẻ ghi nợ Mastercard ảo, vào thứ Sáu. Thẻ này được thiết kế cho cả các tác nhân AI và người dùng, chuyển đổi stablecoin sang tiền pháp định ngay tại thời điểm thanh toán và cho phép chi tiêu tại bất kỳ nhà bán lẻ trực tuyến nào trên toàn cầu chấp nhận Mastercard. The card i

GateNews05-02 13:51
Bình luận
0/400
Không có bình luận