
OpenAI đã phát hành GPT-5.3-Codex, mô hình đầu tiên “tham gia vào việc tự tạo” để gỡ lỗi mã của chính nó, quản lý triển khai và chẩn đoán thử nghiệm. Karpathy gọi bản sửa đổi là “gần nhất với cảnh cất cánh AI”.
Tài khoản chính thức của OpenAI được phát hành: GPT-5.3-Codex chính thức ra mắt, đây là “người đầu tiên tham gia tạo mô hình của riêng bạn”. Nó có nghĩa là gì? Nói cách khác, trong quá trình phát triển, AI này đã giúp gỡ lỗi mã đào tạo của chính nó, quản lý quá trình triển khai của riêng nó và chẩn đoán kết quả kiểm tra của chính nó. Theo thuật ngữ của con người, AI đã bắt đầu tạo ra AI.
Andrej Karpathy, cựu nhà nghiên cứu OpenAI và giám đốc AI của Tesla, đã tweet trực tiếp sau khi đọc nó: “Đây là điều gần nhất mà tôi từng thấy với cảnh cất cánh AI trong khoa học viễn tưởng”. Đánh giá này từ các nhà nghiên cứu AI hàng đầu có trọng lượng vì Karpathy đã trải qua một số giai đoạn quan trọng của quá trình phát triển AI và phán đoán của anh ấy dựa trên sự hiểu biết kỹ thuật sâu sắc.
AI lặp lại chính nó, đây không phải là hùng biện tiếp thị. Theo tiết lộ nội bộ của OpenAI, GPT-5.3-Codex đã thực hiện những điều này trong quá trình phát triển: phân tích các bài kiểm tra không gắn cờ nhật ký đào tạo, đề xuất các bản sửa lỗi cho tập lệnh và hồ sơ đào tạo, tạo công thức triển khai, tóm tắt và đánh giá các điểm bất thường để con người xem xét. Điều này có nghĩa là gì? AI không còn chỉ là một công cụ, nó bắt đầu trở thành một phần của nhóm phát triển và nó là loại có thể tự cải thiện.
Khả năng tham gia phát triển này thúc đẩy thông qua định vị AI truyền thống. Trước đây, các mô hình AI được thiết kế, đào tạo và triển khai hoàn toàn bởi con người, còn AI là một sản phẩm thụ động. Giờ đây, GPT-5.3 đã đóng một vai trò tích cực trong sự ra đời của chính nó và trong khi vẫn dưới sự giám sát của con người, sự thay đổi vai trò này có ý nghĩa sâu rộng. Nó gợi ý về một khả năng: các mô hình AI trong tương lai phần lớn có thể được thiết kế và tối ưu hóa bởi chính AI, với con người chỉ cung cấp định hướng và đánh giá cuối cùng.
Phân tích nhật ký đào tạo: Tự động gắn cờ các bài kiểm tra không thành công để xác định các điểm bất thường trong quá trình đào tạo
Kế hoạch sửa chữa được đề xuất: Đề xuất cải tiến tập lệnh và hồ sơ đào tạo
Tạo công thức triển khai: Tự động hóa quy trình triển khai và giảm thao tác thủ công
Đánh giá bất thường tóm tắt: Sắp xếp các kết quả đánh giá phức tạp thành các báo cáo mà con người dễ hiểu
Một bài báo gần đây của SEAL được xuất bản bởi MIT (arXiv: 2506.10943) mô tả một kiến trúc AI liên tục học hỏi sau khi triển khai, tự phát triển mà không cần đào tạo lại. Đáng chú ý, một số nhà nghiên cứu SEAL hiện đã tham gia OpenAI. Điều này có nghĩa là AI đã thay đổi từ “công cụ tĩnh” sang “hệ thống động”, việc học không còn dừng lại ở việc triển khai và ranh giới suy luận và đào tạo đang tan chảy. GPT-5.3 có thể là ứng dụng thương mại đầu tiên của kiến trúc mới này.
Vào ngày 5 tháng 2, OpenAI và Anthropic đều phát hành một thế hệ mô hình mới chỉ cách nhau 20 phút. Đầu tiên, Anthropic phát hành Claude Opus 4.6, sau đó OpenAI ra mắt GPT-5.3-Codex. Vì OpenAI muốn sử dụng GPT-5.3-Codex để bắn tỉa các mô hình mới của người khác, nên nó phải có một số khả năng. Dữ liệu không nói dối, GPT-5.3-Codex đã lập kỷ lục mới trong nhiều tiêu chuẩn ngành ngay khi nó được ra mắt.
Terminal-Bench 2.0 kiểm tra khả năng hoạt động của AI trong môi trường thiết bị đầu cuối thực, biên dịch mã, đào tạo mô hình và định cấu hình máy chủ. GPT-5.3-Codex đạt 77.3%, trong khi GPT-5.2-Codex chỉ có 64.0% và Claude Opus 4.6 báo cáo 65.4%. Đây là mức tăng 13 điểm phần trăm giữa các thế hệ, đây đã là một bước nhảy vọt trong lĩnh vực AI. So sánh 77.3% so với 65.4% cho thấy GPT-5.3 thiết lập một lợi thế đáng kể trong các nhiệm vụ kỹ thuật trong thế giới thực.
SWE-Bench Pro là một điểm chuẩn được thiết kế đặc biệt để kiểm tra khả năng kỹ thuật phần mềm trong thế giới thực, bao gồm bốn ngôn ngữ lập trình: Python, JavaScript, Go và Ruby. GPT-5.3-Codex đạt 56.8%, vượt qua 56.4% của người tiền nhiệm GPT-5.2-Codex và tiếp tục duy trì vị trí đầu tiên trong ngành. Quan trọng hơn, OpenAI tiết lộ rằng GPT-5.3-Codex sử dụng số lượng mã thông báo đầu ra nhỏ nhất so với bất kỳ mô hình nào khi đạt được điểm số này, có nghĩa là nó không chỉ chính xác mà còn hiệu quả.
OSWorld-Verified kiểm tra khả năng hoàn thành các tác vụ năng suất của AI trong môi trường máy tính để bàn trực quan, chỉnh sửa bảng tính, tạo bản trình bày, làm việc trên tài liệu, v.v. GPT-5.3-Codex đạt 64.7%, so với mức trung bình của con người là 72%. Điều này có nghĩa là nó đã tiếp cận hiệu suất của những người bình thường trong các tác vụ vận hành máy tính, gần gấp đôi so với người tiền nhiệm. Hiệu suất gần như con người này khiến AI thực sự có khả năng làm việc văn phòng lần đầu tiên, thay vì chỉ là một công cụ phụ trợ.
Điều đáng chú ý hơn là Claude Opus 4.6 lần đầu tiên hỗ trợ cửa sổ ngữ cảnh mã thông báo 100K (beta) trong mô hình cấp Opus, có thể xử lý toàn bộ cơ sở mã hoặc hàng trăm trang tài liệu cùng một lúc và ra mắt chức năng Agent Teams, nơi nhiều tác nhân AI có thể cộng tác trên lập trình, thử nghiệm và viết tài liệu cùng một lúc.
Khi OpenAI và Anthropic phát hành các mô hình hàng đầu của họ trong cùng một ngày và cùng một thời điểm, cuộc thi này không còn chỉ là một cuộc thi kỹ thuật, mà là một cuộc chiến về hình dạng tương lai của AI: lộ trình “tự tiến hóa” của OpenAI hay lộ trình “hợp tác nhiều tác nhân” của Anthropic? Chiến lược của OpenAI là làm cho một AI mạnh mẽ hơn và thậm chí cải thiện chính nó. Chiến lược của Anthropic là cho phép nhiều AI cộng tác trong các nhiệm vụ phức tạp thông qua phân công lao động và cộng tác.
Bối cảnh của 100K token là một bước đột phá về công nghệ. Con số này tương đương với khoảng 75 triệu từ tiếng Anh hoặc 300 ký tự tiếng Trung, đủ để phù hợp với toàn bộ mã của một dự án phần mềm cỡ trung bình hoặc một tài liệu kỹ thuật dày. Khả năng này cho phép Claude “nhìn thấy” toàn bộ dự án thay vì một sự hiểu biết rời rạc. Đối với phân tích kiến trúc và tái cấu trúc các dự án quy mô lớn, quan điểm toàn cầu này là rất quan trọng.
Agent Teams mang khái niệm cộng tác vào AI. Một Agent viết code, một Agent khác kiểm tra và một Agent thứ ba viết tài liệu, và họ có thể giao tiếp và phối hợp với nhau. Mô hình này bắt chước cách các nhóm phần mềm của con người hoạt động và có thể phù hợp hơn với một số tình huống nhất định so với một siêu AI duy nhất. Tuy nhiên, cộng tác nhiều tác nhân cũng đưa ra những phức tạp mới: cách phối hợp, cách tránh xung đột và cách đảm bảo tính nhất quán.
Cả hai tuyến đường đều có ưu điểm và nhược điểm riêng. Con đường tự tiến hóa của OpenAI tích cực hơn và nếu thành công, nó có thể dẫn đến những cải thiện theo cấp số nhân về khả năng, nhưng nó cũng có thể vượt khỏi tầm kiểm soát. Lộ trình đa tác nhân của Anthropic thận trọng hơn, giảm thiểu điểm rủi ro đơn lẻ bằng cách lan tỏa khả năng, nhưng chi phí điều phối có thể hạn chế hiệu quả. Khi AI bắt đầu phát triển trong tự nhiên, các câu hỏi về quản trị sẽ chuyển từ “nó thông minh như thế nào” sang “làm thế nào để chúng ta quản lý một hệ thống liên tục thay đổi?” Và khi hai công ty AI hàng đầu phát hành các mô hình đột phá liên tiếp trong vòng 20 phút, cửa sổ thời gian còn lại cho suy nghĩ và chuẩn bị của con người đang thu hẹp với tốc độ có thể nhìn thấy bằng mắt thường.
Bài viết liên quan
Bitcoin vẫn duy trì sức mạnh khi xung đột Iran-Mỹ thúc đẩy tâm lý rủi ro giảm
Chainlink CCIP trở thành cầu nối độc quyền cho Coinbase Wrapped BTC trong hệ sinh thái DeFi của Monad
Tình hình địa chính trị thúc đẩy dầu thô dao động ở mức cao, Hợp đồng dầu thô Gate có khối lượng giao dịch 24H là 85,14 triệu USD
Chỉ số hợp đồng tương lai ba chỉ số chính của thị trường chứng khoán Mỹ tăng mạnh trong ngắn hạn, chỉ số Nasdaq tăng 0.2%
ETF Bitcoin hút tiền 462 triệu USD, BTC tạm thời vượt 73.000 USD
Giá dầu tăng vọt, kỳ vọng hạ lãi suất đột nhiên nguội đi! Circle hưởng lợi, vượt mục tiêu giá 100 USD