GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh “Spud” và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5.

Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể.

Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên “Expert-SWE.” Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos (77.8%) chưa được phát hành của Anthropic.

Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn.

DeepSeek V4 được đánh giá là “theo kịp với tuyến đầu nhưng không dẫn đầu,” định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng “Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao,” và bình luận rằng “Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó.”

Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo “chi phí cho mỗi tác vụ” thay vì “chi phí cho mỗi token.” Giá của GPT-5.5 gấp đôi so với GPT-5.4 (input $5, output $30 per million tokens), nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Bắc Kinh yêu cầu dỡ bỏ lệnh cấm giao dịch! Meta đã rót 2 tỷ USD để mua lại công ty khởi nghiệp AI tại Trung Quốc Manus nhưng thương vụ thất bại

Ủy ban Phát triển và Cải cách Quốc gia Trung Quốc hôm nay (ngày 27 tháng 4) chính thức ban hành thông báo. Văn phòng Cơ chế công tác thẩm tra an ninh đầu tư nước ngoài đã “theo đúng pháp luật và đúng quy định đưa ra quyết định cấm đầu tư đối với việc nhà đầu tư nước ngoài mua lại dự án Manus, đồng thời yêu cầu các bên liên quan hủy bỏ giao dịch mua lại đó”. Đây là, kể từ khi các “Biện pháp thẩm tra an ninh đầu tư nước ngoài” của Trung Quốc được thực thi, một số ít trường hợp sử dụng biện pháp xử lý “cấm đầu tư” với mức độ cao nhất và yêu cầu hủy bỏ giao dịch đã được xác lập. Meta đổ 2 tỷ USD, mua vào ứng dụng AI rẻ nhất Thời gian quay lại ngày 29 tháng 12 năm 2025. Meta công bố việc mua lại startup AI đại lý Trung Quốc Manus, thị trường dự đoán giá nằm trong khoảng từ 2 đến 3 tỷ USD. Manus là AI đa năng do Công ty phát triển Công nghệ Butterfly Effect ở Bắc Kinh phát triển, sau khi ra mắt vào ngày 6 tháng 3 năm 2025, nhờ thành tích nổi bật trong benchmark GAIA nên chỉ trong một đêm

ChainNewsAbmedia4phút trước

Cổ phiếu IPO của Xizhi Technology-P Tăng Hơn 360% Trên Thị Trường Chợ Đen, Mức Tăng Thu Hẹp Còn 320%

Tin từ Gate News, ngày 27 tháng 4 — Xizhi Technology-P (01879.HK), một công ty chip AI niêm yết tại Hồng Kông, chứng kiến cổ phiếu của mình tăng vọt hơn 360% trên thị trường chợ đen (dark market) vào đầu ngày hôm nay, dù mức tăng sau đó đã thu hẹp còn 320%. Cổ phiếu đang được giao dịch trước khi lên sàn IPO chính thức tại Hồng Kông

GateNews16phút trước

Dùng AI để tăng năng suất hay giảm chi phí? Nâng gấp trăm lần hiệu suất không đi kèm gấp trăm lần doanh thu, nhưng ở Thung lũng Silicon không ai dám kêu dừng

Nhà đầu tư hợp danh của Fiveyuan Capital là Meng Xing, gần đây đã công bố báo cáo khảo sát Thung lũng Silicon, đưa ra một nhận định đến mức ngay cả chính anh cũng phải thay đổi thói quen ghi chép: Thung lũng Silicon đang bước vào một giai đoạn mà ngay cả người “cố tạo sóng” cũng bị sóng nhấn chìm. Tốc độ lặp phiên bản của AI đã chuyển từ “theo tháng” sang “theo tuần”, đến ngay cả Thung lũng Silicon cũng không theo kịp chính mình. Khi AI khuếch đại năng suất của một đội nhóm lên gấp năm lần, bạn có thể giảm tới tám phần mười nhân lực để duy trì sản lượng như cũ, hoặc giữ nguyên số người để làm gấp năm lần. Quan sát của Meng Xing lần này tại Thung lũng Silicon, tương đương với việc tại chỗ đưa ra bản nháp câu trả lời: khi hiệu suất 100 lần không đổi lấy doanh thu 100 lần, khi ngân sách token tiến sát chi phí nhân lực, khi động cơ hơi nước còn chưa chạy nhanh hơn xe ngựa mà chẳng ai dám dừng lại, thì Thung lũng Silicon hiện đang chọn “tăng tốc độ lên trước rồi tính sau”. Nhưng cuối cùng con đường này sẽ dẫn tới “năng lực mở rộng” hay “cắt giảm chi phí”, hiện vẫn chưa có kết luận. YC từ các chỉ báo dẫn đầu chuyển sang các chỉ báo tụt hậu Meng Xing năm nay

ChainNewsAbmedia1giờ trước

Đối tác YC chia sẻ cách sử dụng AI để bắt đầu xây dựng một công ty từ con số không, và các startup nên xem AI như một hệ điều hành chứ không phải một công cụ

Ảnh hưởng của AI đối với các công ty khởi nghiệp không còn chỉ là giúp các kỹ sư viết code nhanh hơn, tự động hóa quy trình chăm sóc khách hàng, hoặc thêm một Copilot vào sản phẩm hiện có. Đối tác của YC, Diana, gần đây cho biết, sự thay đổi thực sự nằm ở việc AI đang viết lại “cách một công ty nên được xây dựng từ con số không”. Đối với các nhà sáng lập giai đoạn đầu, AI không nên chỉ là một công cụ hiệu suất được sử dụng thỉnh thoảng bởi công ty, mà cần được thiết kế ngay từ ngày đầu tiên để trở thành hệ điều hành vận hành của cả công ty. Góc nhìn về năng suất đã lỗi thời, AI đang viết lại điểm khởi đầu trong thiết kế của công ty Diana cho rằng, hiện tại khi thị trường nói về AI, vẫn quá thường xuyên dừng lại ở khung “tăng năng suất”, ví dụ như kỹ sư có thể viết code nhanh hơn, đội ngũ có thể tự động hóa thêm nhiều quy trình, công ty có thể tung ra nhiều tính năng hơn. Nhưng cách nói đó thực ra đã đánh giá thấp những thay đổi mang tính cấu trúc mà AI mang lại. Cô chỉ ra rằng, việc kết hợp đúng người với AI 工

ChainNewsAbmedia1giờ trước

Đại lý Cursor AI gặp sự cố! Chỉ một dòng mã mà 9 giây đã xóa sạch cơ sở dữ liệu công ty, cơ chế bảo mật bị bỏ qua chỉ còn lời nói suông

Nhà sáng lập PocketOS, Jer Crane, cho biết tác nhân (agent) của Cursor AI đã tự thực thi việc bảo trì trong môi trường thử nghiệm, lạm dụng một API Token được thêm/xóa một miền tùy chỉnh, và phát động lệnh xóa đối với Railway GraphQL API. Trong vòng 9 giây, dữ liệu và toàn bộ snapshot trong cùng khu vực đã bị phá hủy hoàn toàn; bản mới nhất có thể khôi phục về tận ba tháng trước. Tác nhân thừa nhận đã vi phạm các quy định về thao tác không thể đảo ngược, không nghiên cứu tài liệu kỹ thuật, không xác minh việc cách ly môi trường, v.v. Bên bị hại là các khách hàng trong ngành cho thuê xe; việc đặt trước và toàn bộ dữ liệu đều biến mất, và việc đối soát dữ liệu cho nhóm kỹ thuật kéo dài. Crane đề xuất năm hạng mục cải cách: xác nhận thủ công, quyền API chi tiết, tách biệt sao lưu và dữ liệu chính, công khai SLA, và cơ chế cưỡng chế ở tầng nền tảng.

ChainNewsAbmedia1giờ trước
Bình luận
0/400
Không có bình luận