Đội nghiên cứu tại Đại học California, Berkeley đã đề xuất một phương pháp huấn luyện AI mới là GEPA, và đã được ICLR 2026 chấp nhận dưới dạng bài báo Oral. GEPA không cập nhật trọng số mô hình, không cần huấn luyện bằng GPU, chỉ dùng một LLM có nhiệm vụ “đọc lại các bản ghi huấn luyện” để liên tục viết lại prompt của hệ thống AI; nhờ đó, trong 6 nhiệm vụ, GEPA trung bình vượt các phương pháp tăng cường học tập phổ biến GRPO 6%, cao nhất vượt 20%, đồng thời số lần thử huấn luyện (rollouts) ít hơn 35 lần. Sau khi được cộng đồng kỹ sư AI tổng hợp và thảo luận trên X, hiện GEPA đã được tích hợp vào DSPy với vị thế một bộ tối ưu hóa “hạng nhất”.
GEPA đang làm gì: coi “bản ghi huấn luyện” như giáo trình, thay vì chỉ nhìn điểm số
Quy trình của các phương pháp tăng cường học tập truyền thống (như GRPO) là: cho AI chạy một lần nhiệm vụ, dựa trên kết quả gán một điểm “+1 hoặc -1”, rồi dùng điểm số đó để lặp lại điều chỉnh trọng số mô hình. Vấn đề là quá trình AI chạy một nhiệm vụ thường bao gồm các bước suy luận dài hàng nghìn token, gọi công cụ, và ghi lại lỗi—những chi tiết phong phú này bị nén lại thành một điểm số duy nhất, trong khi thông tin theo tiến trình bị loại bỏ. Vì vậy, RL cần chạy hàng chục nghìn lần để hội tụ.
Cách làm của GEPA lại ngược: sau mỗi lần AI chạy xong nhiệm vụ, toàn bộ quá trình (reasoning, lời gọi công cụ, lịch sử lỗi) được chuyển nguyên vẹn sang một “LLM phản tư” để đọc. LLM phản tư giống như một kỹ sư phần mềm giàu kinh nghiệm đọc log chương trình: tìm ra bước nào gây lỗi, vì sao lỗi, và cần sửa prompt như thế nào, rồi trực tiếp viết lại prompt của chính mô-đun đó. Cũng chạy một lần nhiệm vụ như trước, nhưng lượng tín hiệu mà GEPA trích xuất được nhiều hơn đáng kể so với RL chỉ nhận một điểm số.
Vì sao có thể thắng: chuyển từ “chấm điểm” sang “đọc cả đoạn quá trình”
GEPA trong 6 nhiệm vụ trung bình thắng GRPO 6%, cao nhất thắng 20%; đồng thời so với một bộ tối ưu hóa prompt phổ biến khác là MIPROv2 cũng thắng hơn 10% (trên bộ chuẩn AIME-2025 về bài toán toán học, tăng 12%). Quan trọng nhất là chi phí huấn luyện: để đạt hiệu năng tương đương, GEPA cần số rollouts (một lần chạy đầy đủ nhiệm vụ) ít hơn 35 lần.
Một dữ liệu khác là sau khi tích hợp GEPA với DSPy, “Full Program Adapter” có thể tối ưu toàn bộ chương trình DSPy (bao gồm signature, mô-đun, luồng điều khiển). Trên chuẩn MATH về toán học, nó đạt 93% độ chính xác, vượt xa cách viết ChainOfThought gốc của DSPy ở mức 67%. GEPA cũng thể hiện đặc biệt tốt trong các quy trình multi-module (tác nhân AI ghép nối nhiều mô-đun): có thể chính xác khoanh vùng đúng mô-đun gây lỗi để viết lại prompt, thay vì chỉ chỉnh sửa toàn bộ hệ thống.
Ai sẽ là người dùng sớm: DSPy coi GEPA là “công dân hạng nhất”, GitHub đã mở mã nguồn
Mã nguồn GEPA đã được mở trên GitHub, và được tích hợp vào khung DSPy dưới dạng dspy.GEPA; đồng thời cũng được phát hành độc lập như một thư viện Python. Nhóm nghiên cứu có sự tham gia từ UC Berkeley, Stanford, Notre Dame, Anthropic; các tác giả luận văn gồm Matei Zaharia (đồng sáng lập Databricks, tác giả chính của DSPy) và Omar Khattab (tác giả chính của DSPy).
Với cộng đồng nhà phát triển, GEPA đem đến một lời giải mới cho bài toán “có rất nhiều rollout nhưng không biết cách tận dụng”—đa số đội nhóm đã tích lũy hàng nghìn đến hàng vạn bản ghi chạy tác nhân để thực hiện nhiệm vụ, nhưng ngoài việc lật vài bản ghi khi xảy ra lỗi để tìm bug, họ lại không có phương pháp hệ thống để biến các bản ghi đó thành cải tiến mô hình. Điểm quan sát tiếp theo là GEPA sẽ được triển khai trong các workflow agentic ở doanh nghiệp như tự động hóa chăm sóc khách hàng hay tự sửa lỗi lập trình ở thực tế ra sao, và liệu sẽ có các bản triển khai GEPA tương đương ngoài khung DSPy hay không.
Bài viết “Berkeley GEPA giải thích”: không cập nhật trọng số vẫn giúp AI học nhiệm vụ mới, với chi phí huấn luyện ít hơn 35 lần để thắng RL lần đầu tiên xuất hiện trên chuỗi tin ABMedia.
Bài viết liên quan
OpenAI Ra mắt Codex Pets, trợ lý ảo được AI hỗ trợ với khả năng tạo nội dung tùy chỉnh
MoonPay Ra mắt thẻ MoonAgents cho các tác nhân AI trên mạng Mastercard
xAI ra mắt API sao chép giọng nói hỗ trợ hơn 80 giọng trên 28 ngôn ngữ
MoonPay ra mắt thẻ MoonAgents, Mastercard ảo dành cho tác nhân AI và người dùng vào thứ Sáu
MoonPay ra mắt thẻ MoonAgents trên mạng Mastercard vào thứ Sáu
Nubank lên kế hoạch đầu tư 8,2 tỷ USD tại Brazil vào năm 2026, tăng gấp đôi chi tiêu cho AI và mở rộng tín dụng