Phân tích Berkeley GEPA: không cần cập nhật trọng số vẫn có thể giúp AI học nhiệm vụ mới, giảm 35 lần chi phí huấn luyện so với RL

Đội nghiên cứu tại Đại học California, Berkeley đã đề xuất một phương pháp huấn luyện AI mới là GEPA, và đã được ICLR 2026 chấp nhận dưới dạng bài báo Oral. GEPA không cập nhật trọng số mô hình, không cần huấn luyện bằng GPU, chỉ dùng một LLM có nhiệm vụ “đọc lại các bản ghi huấn luyện” để liên tục viết lại prompt của hệ thống AI; nhờ đó, trong 6 nhiệm vụ, GEPA trung bình vượt các phương pháp tăng cường học tập phổ biến GRPO 6%, cao nhất vượt 20%, đồng thời số lần thử huấn luyện (rollouts) ít hơn 35 lần. Sau khi được cộng đồng kỹ sư AI tổng hợp và thảo luận trên X, hiện GEPA đã được tích hợp vào DSPy với vị thế một bộ tối ưu hóa “hạng nhất”.

GEPA đang làm gì: coi “bản ghi huấn luyện” như giáo trình, thay vì chỉ nhìn điểm số

Quy trình của các phương pháp tăng cường học tập truyền thống (như GRPO) là: cho AI chạy một lần nhiệm vụ, dựa trên kết quả gán một điểm “+1 hoặc -1”, rồi dùng điểm số đó để lặp lại điều chỉnh trọng số mô hình. Vấn đề là quá trình AI chạy một nhiệm vụ thường bao gồm các bước suy luận dài hàng nghìn token, gọi công cụ, và ghi lại lỗi—những chi tiết phong phú này bị nén lại thành một điểm số duy nhất, trong khi thông tin theo tiến trình bị loại bỏ. Vì vậy, RL cần chạy hàng chục nghìn lần để hội tụ.

Cách làm của GEPA lại ngược: sau mỗi lần AI chạy xong nhiệm vụ, toàn bộ quá trình (reasoning, lời gọi công cụ, lịch sử lỗi) được chuyển nguyên vẹn sang một “LLM phản tư” để đọc. LLM phản tư giống như một kỹ sư phần mềm giàu kinh nghiệm đọc log chương trình: tìm ra bước nào gây lỗi, vì sao lỗi, và cần sửa prompt như thế nào, rồi trực tiếp viết lại prompt của chính mô-đun đó. Cũng chạy một lần nhiệm vụ như trước, nhưng lượng tín hiệu mà GEPA trích xuất được nhiều hơn đáng kể so với RL chỉ nhận một điểm số.

Vì sao có thể thắng: chuyển từ “chấm điểm” sang “đọc cả đoạn quá trình”

GEPA trong 6 nhiệm vụ trung bình thắng GRPO 6%, cao nhất thắng 20%; đồng thời so với một bộ tối ưu hóa prompt phổ biến khác là MIPROv2 cũng thắng hơn 10% (trên bộ chuẩn AIME-2025 về bài toán toán học, tăng 12%). Quan trọng nhất là chi phí huấn luyện: để đạt hiệu năng tương đương, GEPA cần số rollouts (một lần chạy đầy đủ nhiệm vụ) ít hơn 35 lần.

Một dữ liệu khác là sau khi tích hợp GEPA với DSPy, “Full Program Adapter” có thể tối ưu toàn bộ chương trình DSPy (bao gồm signature, mô-đun, luồng điều khiển). Trên chuẩn MATH về toán học, nó đạt 93% độ chính xác, vượt xa cách viết ChainOfThought gốc của DSPy ở mức 67%. GEPA cũng thể hiện đặc biệt tốt trong các quy trình multi-module (tác nhân AI ghép nối nhiều mô-đun): có thể chính xác khoanh vùng đúng mô-đun gây lỗi để viết lại prompt, thay vì chỉ chỉnh sửa toàn bộ hệ thống.

Ai sẽ là người dùng sớm: DSPy coi GEPA là “công dân hạng nhất”, GitHub đã mở mã nguồn

Mã nguồn GEPA đã được mở trên GitHub, và được tích hợp vào khung DSPy dưới dạng dspy.GEPA; đồng thời cũng được phát hành độc lập như một thư viện Python. Nhóm nghiên cứu có sự tham gia từ UC Berkeley, Stanford, Notre Dame, Anthropic; các tác giả luận văn gồm Matei Zaharia (đồng sáng lập Databricks, tác giả chính của DSPy) và Omar Khattab (tác giả chính của DSPy).

Với cộng đồng nhà phát triển, GEPA đem đến một lời giải mới cho bài toán “có rất nhiều rollout nhưng không biết cách tận dụng”—đa số đội nhóm đã tích lũy hàng nghìn đến hàng vạn bản ghi chạy tác nhân để thực hiện nhiệm vụ, nhưng ngoài việc lật vài bản ghi khi xảy ra lỗi để tìm bug, họ lại không có phương pháp hệ thống để biến các bản ghi đó thành cải tiến mô hình. Điểm quan sát tiếp theo là GEPA sẽ được triển khai trong các workflow agentic ở doanh nghiệp như tự động hóa chăm sóc khách hàng hay tự sửa lỗi lập trình ở thực tế ra sao, và liệu sẽ có các bản triển khai GEPA tương đương ngoài khung DSPy hay không.

Bài viết “Berkeley GEPA giải thích”: không cập nhật trọng số vẫn giúp AI học nhiệm vụ mới, với chi phí huấn luyện ít hơn 35 lần để thắng RL lần đầu tiên xuất hiện trên chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

OpenAI Ra mắt Codex Pets, trợ lý ảo được AI hỗ trợ với khả năng tạo nội dung tùy chỉnh

Theo Beating, OpenAI đã thêm một tính năng mới “Codex Pets” vào ứng dụng Codex dành cho máy tính để bàn, cho phép người dùng tạo và tương tác với một người bạn đồng hành ảo dạng hoạt hình. Người dùng có thể kích hoạt một thú cưng bằng cách gõ /pet trong trình soạn thảo. Tính năng này hoạt động như một chỉ báo trạng thái tác nhân, hiển thị một

GateNews2giờ trước

MoonPay Ra mắt thẻ MoonAgents cho các tác nhân AI trên mạng Mastercard

Theo The Block, MoonPay đã ra mắt thẻ MoonAgents Card vào thứ Sáu, một thẻ ghi nợ ảo Mastercard có khả năng chuyển đổi stablecoin sang tiền pháp định theo thời gian thực ngay tại thời điểm thanh toán. Thẻ được phát hành thông qua Monavate, một nền tảng thanh toán được quản lý và là thành viên chính của Mastercard, hợp tác với Exodus M

GateNews6giờ trước

xAI ra mắt API sao chép giọng nói hỗ trợ hơn 80 giọng trên 28 ngôn ngữ

Theo PANews, xAI đã ra mắt Voice Cloning API vào ngày 2 tháng 5, cho phép người dùng tạo giọng nói tùy chỉnh trong khoảng 2 phút hoặc chọn từ hơn 80 giọng nói có sẵn, bao phủ 28 ngôn ngữ, cho các ứng dụng như trợ lý giọng nói, sách nói và nhân vật game. Tính năng này hiện đang

GateNews7giờ trước

MoonPay ra mắt thẻ MoonAgents, Mastercard ảo dành cho tác nhân AI và người dùng vào thứ Sáu

Theo The Block, MoonPay đã ra mắt MoonAgents Card, một thẻ ghi nợ Mastercard ảo dành cho các tác nhân AI và người dùng, vào thứ Sáu. Thẻ này chuyển đổi stablecoin sang tiền pháp định ngay tại điểm thanh toán và có thể được sử dụng với bất kỳ nhà bán lẻ trực tuyến nào trên toàn cầu chấp nhận Mastercard. Được phát hành thông qua Monavate, một đơn vị thanh toán được quản lý

GateNews16giờ trước

MoonPay ra mắt thẻ MoonAgents trên mạng Mastercard vào thứ Sáu

Theo The Block, MoonPay đã ra mắt MoonAgents Card vào thứ Sáu—một thẻ ghi nợ Mastercard ảo cho phép các AI agent và người dùng chi tiêu stablecoin trực tiếp từ các ví onchain. Thẻ được phát hành thông qua Monavate, một nền tảng thanh toán toàn cầu được quản lý và là thành viên chính của Mastercard, trong

GateNews18giờ trước

Nubank lên kế hoạch đầu tư 8,2 tỷ USD tại Brazil vào năm 2026, tăng gấp đôi chi tiêu cho AI và mở rộng tín dụng

Theo Crowdfundinsider, Nubank đã công bố kế hoạch đầu tư 8,2 tỷ USD vào thị trường Brazil vào năm 2026, gần như gấp đôi khoản đầu tư so với hai năm trước. Nguồn vốn sẽ tập trung vào các hệ thống đánh giá tín dụng dựa trên AI, các sản phẩm tài chính số, mở rộng đội ngũ, cơ sở hạ tầng

GateNews19giờ trước
Bình luận
0/400
Không có bình luận