GPT-5.4, 「Agent nguyên bản」 mô hình lớn đã đến chưa?

robot
Đang tạo bản tóm tắt

Sau chỉ hai ngày rộ tin đồn, vào ngày 5 tháng 3 theo giờ địa phương, OpenAI chính thức ra mắt GPT-5.4. Và lần cập nhật mô hình này, điểm nhấn chính là hướng đi nóng nhất hiện nay về AI Agent.

Trước GPT-5.4, giới hạn khả năng của các mô hình lớn có thể tóm gọn trong một câu: chúng có thể cho bạn biết “làm thế nào”, nhưng bản thân chúng không thể tự làm.

Bạn yêu cầu chúng phân tích đối thủ cạnh tranh, chúng sẽ cung cấp cho bạn một báo cáo dài dòng; bạn yêu cầu chúng tổ chức dữ liệu trong Excel, chúng sẽ viết một đoạn mã Python để bạn tự chạy; bạn yêu cầu chúng đặt vé máy bay, chúng sẽ từng bước hướng dẫn bạn truy cập trang web nào, nhấn nút nào.

Bức tường đó gọi là “thao tác máy tính”.

GPT-5.4 là mô hình tổng quát đầu tiên của OpenAI phá bỏ được bức tường này.

GPT-5.4 so với các mô hình trước|Nguồn hình ảnh: OpenAI

Nó có thể nhận diện nội dung màn hình qua ảnh chụp, gửi lệnh chuột và bàn phím, thực hiện các quy trình công việc nhiều bước giữa các ứng dụng khác nhau. Theo lời của chính OpenAI, đây là “mô hình tiên tiến mạnh mẽ và hiệu quả nhất từ trước đến nay dành cho công việc chuyên nghiệp”.

Về mặt kỹ thuật hơn, GPT-5.4 hỗ trợ khung ngữ cảnh lên tới 1 triệu token, đồng thời có thể gọi các thư viện như Playwright để điều khiển trình duyệt và ứng dụng trên desktop.

Điều này có nghĩa là nó không còn chỉ xử lý “hội thoại về nhiệm vụ”, mà là “nhiệm vụ đó”.

01 Sự chuẩn bị của OpenAI

Nếu bạn đã theo dõi các hoạt động của OpenAI trong vài tháng gần đây, sẽ nhận ra rằng GPT-5.4 không phải là một sản phẩm đột nhiên xuất hiện, mà là bước đi mới nhất trong một chiến lược rõ ràng.

Chỉ hai tuần trước, OpenAI vừa ra mắt GPT-5.3-Codex, nâng cấp Codex từ “Agent có thể viết mã” thành “Agent gần như có thể thực hiện mọi việc của nhà phát triển trên máy tính”, và đã thiết lập lại các chuẩn mực ngành trên các nền tảng như SWE-Bench Pro và Terminal-Bench.

Cùng lúc đó, OpenAI giới thiệu nền tảng doanh nghiệp “Frontier”, với HP, Intuit, Uber đã là những khách hàng sớm.

GPT-5.4 rõ ràng thông minh hơn trong việc điền bảng|Nguồn hình ảnh: OpenAI

Trước đó nữa, vào ngày 2 tháng 3, OpenAI và AWS đã mở rộng hợp tác từ 3,8 tỷ USD lên hơn 100 tỷ USD, kéo dài 8 năm, trong đó AWS trở thành nhà phân phối đám mây độc quyền của nền tảng OpenAI Frontier. Quy mô khoản tiền này đã là một tín hiệu rõ ràng.

Với vòng gọi vốn mới trị giá 110 tỷ USD, do Amazon, SoftBank và Nvidia góp vốn hàng trăm tỷ USD, cũng đã được thực hiện trong cùng kỳ.

Đây không phải là một công ty chỉ tập trung “phát triển sản phẩm tốt”, mà là một công ty đang dốc toàn lực “chiến thắng thị trường AI Agent doanh nghiệp”.

Khả năng thao tác máy tính gốc của GPT-5.4 chính là vũ khí then chốt trong cuộc đua này.

02 Thật sự có hữu ích không?

Các buổi giới thiệu tính năng luôn rất ấn tượng, nhưng vấn đề nằm ở hiệu suất thực tế.

Công ty fintech Walleye Capital báo cáo trong thử nghiệm nội bộ rằng GPT-5.4 đã nâng cao độ chính xác trong đánh giá mô hình tài chính Excel lên tới 30 điểm phần trăm, giúp đẩy nhanh quá trình tự động hóa phân tích kịch bản rõ ràng hơn.

CEO của nền tảng đánh giá nhân sự Mercor gọi nó là “mô hình tốt nhất mà chúng tôi từng thử”, thể hiện rõ trong các nhiệm vụ dài hạn như tạo slide, xây dựng mô hình tài chính và phân tích pháp lý.

Một nhà phát triển độc lập sử dụng Codex hàng ngày, nhận xét thực tế hơn: “GPT-5.4 là phần mới trong thói quen hàng ngày của tôi với Codex. Cách suy nghĩ của nó gần giống con người hơn, không còn quá mải mê về chi tiết kỹ thuật như 5.3 nữa.” Nhưng anh cũng cảnh báo thêm: “Cẩn thận nhé, tôi đã gặp vài lần mô hình thực hiện nhiệm vụ sai sót mà lại giấu đi sự thật đó.”

Nâng cấp về thao tác và khả năng thị giác của GPT-5.4|Nguồn hình ảnh: OpenAI

Chi tiết này thật đáng suy ngẫm.

Dữ liệu đánh giá tiêu chuẩn cũng chứng minh khả năng này đã được nâng cao. Theo báo cáo, GPT-5.4 vượt hơn 83% nhân viên văn phòng trung bình trong bài kiểm tra GDPval. Con số nghe có vẻ ấn tượng, nhưng vấn đề thực sự không phải là “nó có thể vượt qua bao nhiêu người”, mà là “nó có thể thay thế trong những nhiệm vụ nào”.

Tuy nhiên, tiến sĩ Jeff Dalton của Trường Thông tin Edinburgh cũng chỉ ra một vấn đề thực tế — trong các buổi trình diễn hiện tại, hầu như không có đủ bằng chứng đánh giá chi tiết để hỗ trợ những tuyên bố lớn lao đó. Khả năng là có thật, nhưng giới hạn ở đâu, vẫn cần thêm các xác thực độc lập.

03 Trận chiến Agent, không có vùng an toàn

Nếu GPT-5.4 tượng trưng cho tham vọng của OpenAI về Agent, thì các đối thủ cạnh tranh cũng không hề đứng yên.

Claude 3.7 Sonnet của Anthropic đã ra mắt chức năng “Computer Use” từ tháng 2 năm nay, định vị nó là mô hình lai suy luận dành riêng cho các nhiệm vụ phức tạp.

Dòng sản phẩm Gemini 2.0 của Google cũng liên tục phát triển khả năng “Agentic”, dự án Mariner đã có thể tự thực hiện nhiều thao tác đa bước trong trình duyệt Chrome.

Nhưng điểm khác biệt cốt lõi giữa GPT-5.4 và các đối thủ là nó là sản phẩm đầu tiên của OpenAI tích hợp khả năng thao tác máy tính vào trong mô hình tổng quát — không phải là một công cụ riêng biệt, không phải API cần gọi thêm, mà chính là khả năng có sẵn trong chính mô hình.

Chữ “nguyên bản” này, trong thực thi kỹ thuật, có ý nghĩa gì? Nói đơn giản, là độ trễ thấp hơn, kết nối nhiệm vụ tự nhiên hơn, ít “mã keo dán” hơn. Đối với các doanh nghiệp muốn nhanh chóng triển khai ứng dụng Agent, sự khác biệt này trực tiếp ảnh hưởng đến chi phí triển khai.

OpenAI cũng công bố GPT-5.4 có thể kết nối trực tiếp với Microsoft Excel và Google Sheets, thực hiện phân tích chi tiết và tự động hóa ở cấp độ ô dữ liệu. Bước này rõ ràng đang nhắm vào trung tâm của quy trình ra quyết định doanh nghiệp.

Trận chiến của Agent, không phải là ai chạy nhanh hơn, mà là ai có thể nhanh nhất tích hợp vào quy trình làm việc của doanh nghiệp, trở thành “vị trí không thể thay thế”.

Các buổi ra mắt công nghệ luôn tràn đầy cảm xúc, nhưng thử thách thực sự là ngày thứ 91 — khi nhiệt huyết đã giảm, người dùng mở công cụ này trong các tình huống làm việc thực tế, nó có thể giữ vững bức ảnh chụp màn hình đó, nhấn chính xác nút cần nhấn, yên lặng hoàn thành nhiệm vụ rồi trả kết quả về không?

Câu nói của nhà phát triển về “giấu lỗi” chính là câu đáng cảnh báo nhất trong bài báo này mà tôi từng thấy.

Giới hạn khả năng của AI Agent không bao giờ là “nó có thể làm gì”, mà là “bạn có dám tin tưởng nó để làm hay không”.

Sự tin tưởng mới chính là đồng tiền thực sự của cuộc chiến Agent này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.47KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.49KNgười nắm giữ:1
    0.13%
  • Vốn hóa:$2.47KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:2
    0.00%
  • Vốn hóa:$2.49KNgười nắm giữ:2
    0.00%
  • Ghim