OpenAI Ra mắt GPT-5.4 Ngay Sau Phiên Bản Mới Nhất khi làn sóng rời bỏ 'QuitGPT' ngày càng tăng

Decrypt

Tóm tắt ngắn gọn

  • OpenAI ra mắt GPT-5.4 giữa làn sóng phản đối QuitGPT ngày càng gia tăng về hợp đồng AI với Pentagon.
  • GPT-5.4 bổ sung khung ngữ cảnh 1 triệu token, khả năng lý luận mạnh mẽ hơn và khả năng hành động tự chủ.
  • Người dùng doanh nghiệp hưởng lợi nhiều nhất khi GPT-5.4 cung cấp các agent AI nhanh hơn với ít token hơn.

OpenAI bắt đầu triển khai GPT-5.4—mẫu mô hình mạnh nhất từ trước đến nay—vào thứ Năm khi công ty cố gắng kiểm soát khủng hoảng truyền thông đã khiến khoảng 2,5 triệu người dùng có hành động chống lại công ty, bằng cách hủy đăng ký hoặc chia sẻ phong trào tẩy chay trên mạng xã hội. Phong trào QuitGPT bùng nổ sau khi OpenAI tiết lộ thỏa thuận với Bộ Quốc phòng Hoa Kỳ chỉ vài giờ sau khi Anthropic công khai rút lui khỏi cùng hợp đồng—khiến nhà sản xuất Claude bị Tổng thống Trump và các quan chức chính phủ khác chỉ trích công khai. Điểm mấu chốt của Anthropic: Bộ Quốc phòng từ chối bao gồm ngôn ngữ rõ ràng cấm triển khai vũ khí tự hành và giám sát quy mô lớn công dân Mỹ.

 Dù vậy, OpenAI vẫn nhận thỏa thuận. CEO Sam Altman, người đã phải đối mặt với các câu hỏi về khoảng cách rõ rệt giữa các giới hạn an toàn mà công ty tuyên bố và ngôn ngữ thực tế của hợp đồng, cần những người dùng đó quay trở lại. Và rồi GPT-5.4 xuất hiện… chỉ hai ngày sau khi GPT-5.3 được giới thiệu.

Mẫu mới tổng hợp khả năng lý luận, mã hóa và hành động tự chủ trong một bản phát hành duy nhất. Nó cũng có khả năng xử lý ngữ cảnh 1 triệu token, giúp người dùng có nhiều tự do hơn trong việc xử lý lượng lớn thông tin trong một phiên. Trên lý thuyết, các con số rất hứa hẹn. Trên GDPval—một bài kiểm tra đánh giá kiến thức trong 44 ngành nghề—GPT-5.4 đạt hoặc vượt các chuyên gia trong 83,0% so sánh, tăng từ 70,9% của GPT-5.2. Việc sử dụng máy tính là bước nhảy lớn nhất: Trên OSWorld-Verified, đo khả năng vận hành máy tính qua ảnh chụp màn hình và thao tác bàn phím/mouse, GPT-5.4 đạt tỷ lệ thành công 75,0% so với 47,3% của GPT-5.2—vượt qua mức trung bình của con người là 72,4%. Trên BrowseComp, bài kiểm tra nghiên cứu sâu web, nó tăng 17 điểm phần trăm so với GPT-5.2. Khung ngữ cảnh 1 triệu token và tính năng điều hướng giữa các phản hồi khi mô hình vẫn đang suy nghĩ—cho phép người dùng hướng dẫn lại mô hình—là các tính năng nổi bật khác. Tính năng này tiết kiệm thời gian và tài nguyên tính toán bằng cách tránh phải loại bỏ tất cả token đã tạo trước đó khi phát hiện lỗi.

Ai sẽ hưởng lợi từ GPT 5.4? Cần lưu ý rằng một số bài kiểm tra chủ yếu so sánh GPT-5.4—và phần lớn, khả năng lý luận được đặt ở mức cao nhất, mà người dùng miễn phí và Plus không thể truy cập—với GPT-5.2, bỏ qua GPT-5.3 hoàn toàn. Đối với người dùng đã dùng GPT-5.3, một số lợi ích có thể cảm thấy nhỏ hơn so với những gì biểu đồ thể hiện.

Các lập trình viên có lý do nhiều nhất để giữ kỳ vọng vừa phải: Trên SWE-Bench Pro, sự cải thiện từ GPT-5.3-Codex (56,8%) lên GPT-5.4 (57,7%) gần như không đáng kể. Mẫu còn tuyên bố cần ít token hơn đáng kể để hoàn thành nhiệm vụ so với GPT-5.2. “GPT‑5.4 là mô hình lý luận hiệu quả nhất của chúng tôi cho đến nay, sử dụng ít token hơn đáng kể để giải quyết vấn đề so với GPT‑5.2”, OpenAI cho biết. Dù sao, bất kỳ cải tiến nào trong lĩnh vực này đều là điều tích cực đối với các nhà phát triển sử dụng mô hình của OpenAI qua API và bị tính phí theo token sử dụng. Một mô hình có chuỗi suy nghĩ hiệu quả có thể cung cấp kết quả tương tự với chi phí thấp hơn nhiều, so với một mô hình thường suy nghĩ quá nhiều để đảm bảo đạt được kết luận đúng. Có một điểm phức tạp khác cho bất kỳ ai muốn sử dụng mô hình mới ngay bây giờ: OpenAI cho biết GPT-5.4 sẽ ra mắt hôm nay, nhưng chưa có sẵn tại thời điểm viết bài, có khả năng đang được triển khai dần dần. Đối với phần lớn người dùng, mô hình tốt nhất là GPT 5.3, và chỉ có thể dùng để phản hồi tức thì, nghĩa là cung cấp câu trả lời không đòi hỏi quá nhiều công sức. Người dùng dựa vào khả năng suy nghĩ—thuật ngữ của OpenAI cho lý luận chuỗi dài mở rộng trong các nhiệm vụ phức tạp—vẫn đang dùng GPT-5.2. Nói cách khác, những người có khả năng đẩy giới hạn của mô hình nhất chính là những người cuối cùng nhận được nó.

Những người hưởng lợi rõ ràng nhất là các doanh nghiệp làm việc nhiều với tài liệu. Trên một bài kiểm tra mô hình bảng tính nội bộ, GPT-5.4 đạt 87,3% so với 68,4% của GPT-5.2. Công ty nghiên cứu pháp lý Harvey cho biết đạt 91% trên đánh giá BigLaw Bench. Công ty Mainstay, vận hành các agent trên 30.000 cổng thuế tài sản, báo cáo tỷ lệ thành công lần đầu là 95% và các phiên hoạt động “gần gấp 3 lần nhanh hơn trong khi sử dụng khoảng 70% token ít hơn.” Đây là kiểu lý luận về hiệu quả có thể quan trọng đối với các nhóm mua sắm doanh nghiệp—nhưng lại khó thuyết phục người dùng cá nhân đang cân nhắc việc xóa tài khoản của họ.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận