Lần đầu tiên trong lịch sử AI tạo ra AI! GPT-5.3 tham gia phát triển chính mình, viễn tưởng trở thành hiện thực

OpenAI đã phát hành GPT-5.3-Codex, mô hình đầu tiên “tham gia vào việc tự tạo” để gỡ lỗi mã của chính nó, quản lý triển khai và chẩn đoán thử nghiệm. Karpathy gọi bản sửa đổi là “gần nhất với cảnh cất cánh AI”.

AI bắt đầu tạo ra những điểm kỳ dị và đột phá về công nghệ trong AI

Tài khoản chính thức của OpenAI được phát hành: GPT-5.3-Codex chính thức ra mắt, đây là “người đầu tiên tham gia tạo mô hình của riêng bạn”. Nó có nghĩa là gì? Nói cách khác, trong quá trình phát triển, AI này đã giúp gỡ lỗi mã đào tạo của chính nó, quản lý quá trình triển khai của riêng nó và chẩn đoán kết quả kiểm tra của chính nó. Theo thuật ngữ của con người, AI đã bắt đầu tạo ra AI.

Andrej Karpathy, cựu nhà nghiên cứu OpenAI và giám đốc AI của Tesla, đã tweet trực tiếp sau khi đọc nó: “Đây là điều gần nhất mà tôi từng thấy với cảnh cất cánh AI trong khoa học viễn tưởng”. Đánh giá này từ các nhà nghiên cứu AI hàng đầu có trọng lượng vì Karpathy đã trải qua một số giai đoạn quan trọng của quá trình phát triển AI và phán đoán của anh ấy dựa trên sự hiểu biết kỹ thuật sâu sắc.

AI lặp lại chính nó, đây không phải là hùng biện tiếp thị. Theo tiết lộ nội bộ của OpenAI, GPT-5.3-Codex đã thực hiện những điều này trong quá trình phát triển: phân tích các bài kiểm tra không gắn cờ nhật ký đào tạo, đề xuất các bản sửa lỗi cho tập lệnh và hồ sơ đào tạo, tạo công thức triển khai, tóm tắt và đánh giá các điểm bất thường để con người xem xét. Điều này có nghĩa là gì? AI không còn chỉ là một công cụ, nó bắt đầu trở thành một phần của nhóm phát triển và nó là loại có thể tự cải thiện.

Khả năng tham gia phát triển này thúc đẩy thông qua định vị AI truyền thống. Trước đây, các mô hình AI được thiết kế, đào tạo và triển khai hoàn toàn bởi con người, còn AI là một sản phẩm thụ động. Giờ đây, GPT-5.3 đã đóng một vai trò tích cực trong sự ra đời của chính nó và trong khi vẫn dưới sự giám sát của con người, sự thay đổi vai trò này có ý nghĩa sâu rộng. Nó gợi ý về một khả năng: các mô hình AI trong tương lai phần lớn có thể được thiết kế và tối ưu hóa bởi chính AI, với con người chỉ cung cấp định hướng và đánh giá cuối cùng.

GPT-5.3 tự tham gia phát triển

Phân tích nhật ký đào tạo: Tự động gắn cờ các bài kiểm tra không thành công để xác định các điểm bất thường trong quá trình đào tạo

Kế hoạch sửa chữa được đề xuất: Đề xuất cải tiến tập lệnh và hồ sơ đào tạo

Tạo công thức triển khai: Tự động hóa quy trình triển khai và giảm thao tác thủ công

Đánh giá bất thường tóm tắt: Sắp xếp các kết quả đánh giá phức tạp thành các báo cáo mà con người dễ hiểu

Một bài báo gần đây của SEAL được xuất bản bởi MIT (arXiv: 2506.10943) mô tả một kiến trúc AI liên tục học hỏi sau khi triển khai, tự phát triển mà không cần đào tạo lại. Đáng chú ý, một số nhà nghiên cứu SEAL hiện đã tham gia OpenAI. Điều này có nghĩa là AI đã thay đổi từ “công cụ tĩnh” sang “hệ thống động”, việc học không còn dừng lại ở việc triển khai và ranh giới suy luận và đào tạo đang tan chảy. GPT-5.3 có thể là ứng dụng thương mại đầu tiên của kiến trúc mới này.

77,3% nghiền nát vụ giết mổ chuẩn của Claude

Vào ngày 5 tháng 2, OpenAI và Anthropic đều phát hành một thế hệ mô hình mới chỉ cách nhau 20 phút. Đầu tiên, Anthropic phát hành Claude Opus 4.6, sau đó OpenAI ra mắt GPT-5.3-Codex. Vì OpenAI muốn sử dụng GPT-5.3-Codex để bắn tỉa các mô hình mới của người khác, nên nó phải có một số khả năng. Dữ liệu không nói dối, GPT-5.3-Codex đã lập kỷ lục mới trong nhiều tiêu chuẩn ngành ngay khi nó được ra mắt.

Terminal-Bench 2.0 kiểm tra khả năng hoạt động của AI trong môi trường thiết bị đầu cuối thực, biên dịch mã, đào tạo mô hình và định cấu hình máy chủ. GPT-5.3-Codex đạt 77.3%, trong khi GPT-5.2-Codex chỉ có 64.0% và Claude Opus 4.6 báo cáo 65.4%. Đây là mức tăng 13 điểm phần trăm giữa các thế hệ, đây đã là một bước nhảy vọt trong lĩnh vực AI. So sánh 77.3% so với 65.4% cho thấy GPT-5.3 thiết lập một lợi thế đáng kể trong các nhiệm vụ kỹ thuật trong thế giới thực.

SWE-Bench Pro là một điểm chuẩn được thiết kế đặc biệt để kiểm tra khả năng kỹ thuật phần mềm trong thế giới thực, bao gồm bốn ngôn ngữ lập trình: Python, JavaScript, Go và Ruby. GPT-5.3-Codex đạt 56.8%, vượt qua 56.4% của người tiền nhiệm GPT-5.2-Codex và tiếp tục duy trì vị trí đầu tiên trong ngành. Quan trọng hơn, OpenAI tiết lộ rằng GPT-5.3-Codex sử dụng số lượng mã thông báo đầu ra nhỏ nhất so với bất kỳ mô hình nào khi đạt được điểm số này, có nghĩa là nó không chỉ chính xác mà còn hiệu quả.

OSWorld-Verified kiểm tra khả năng hoàn thành các tác vụ năng suất của AI trong môi trường máy tính để bàn trực quan, chỉnh sửa bảng tính, tạo bản trình bày, làm việc trên tài liệu, v.v. GPT-5.3-Codex đạt 64.7%, so với mức trung bình của con người là 72%. Điều này có nghĩa là nó đã tiếp cận hiệu suất của những người bình thường trong các tác vụ vận hành máy tính, gần gấp đôi so với người tiền nhiệm. Hiệu suất gần như con người này khiến AI thực sự có khả năng làm việc văn phòng lần đầu tiên, thay vì chỉ là một công cụ phụ trợ.

Claude đếm 100K Token và Nhóm Đại lý

Điều đáng chú ý hơn là Claude Opus 4.6 lần đầu tiên hỗ trợ cửa sổ ngữ cảnh mã thông báo 100K (beta) trong mô hình cấp Opus, có thể xử lý toàn bộ cơ sở mã hoặc hàng trăm trang tài liệu cùng một lúc và ra mắt chức năng Agent Teams, nơi nhiều tác nhân AI có thể cộng tác trên lập trình, thử nghiệm và viết tài liệu cùng một lúc.

Khi OpenAI và Anthropic phát hành các mô hình hàng đầu của họ trong cùng một ngày và cùng một thời điểm, cuộc thi này không còn chỉ là một cuộc thi kỹ thuật, mà là một cuộc chiến về hình dạng tương lai của AI: lộ trình “tự tiến hóa” của OpenAI hay lộ trình “hợp tác nhiều tác nhân” của Anthropic? Chiến lược của OpenAI là làm cho một AI mạnh mẽ hơn và thậm chí cải thiện chính nó. Chiến lược của Anthropic là cho phép nhiều AI cộng tác trong các nhiệm vụ phức tạp thông qua phân công lao động và cộng tác.

Bối cảnh của 100K token là một bước đột phá về công nghệ. Con số này tương đương với khoảng 75 triệu từ tiếng Anh hoặc 300 ký tự tiếng Trung, đủ để phù hợp với toàn bộ mã của một dự án phần mềm cỡ trung bình hoặc một tài liệu kỹ thuật dày. Khả năng này cho phép Claude “nhìn thấy” toàn bộ dự án thay vì một sự hiểu biết rời rạc. Đối với phân tích kiến trúc và tái cấu trúc các dự án quy mô lớn, quan điểm toàn cầu này là rất quan trọng.

Agent Teams mang khái niệm cộng tác vào AI. Một Agent viết code, một Agent khác kiểm tra và một Agent thứ ba viết tài liệu, và họ có thể giao tiếp và phối hợp với nhau. Mô hình này bắt chước cách các nhóm phần mềm của con người hoạt động và có thể phù hợp hơn với một số tình huống nhất định so với một siêu AI duy nhất. Tuy nhiên, cộng tác nhiều tác nhân cũng đưa ra những phức tạp mới: cách phối hợp, cách tránh xung đột và cách đảm bảo tính nhất quán.

Cả hai tuyến đường đều có ưu điểm và nhược điểm riêng. Con đường tự tiến hóa của OpenAI tích cực hơn và nếu thành công, nó có thể dẫn đến những cải thiện theo cấp số nhân về khả năng, nhưng nó cũng có thể vượt khỏi tầm kiểm soát. Lộ trình đa tác nhân của Anthropic thận trọng hơn, giảm thiểu điểm rủi ro đơn lẻ bằng cách lan tỏa khả năng, nhưng chi phí điều phối có thể hạn chế hiệu quả. Khi AI bắt đầu phát triển trong tự nhiên, các câu hỏi về quản trị sẽ chuyển từ “nó thông minh như thế nào” sang “làm thế nào để chúng ta quản lý một hệ thống liên tục thay đổi?” Và khi hai công ty AI hàng đầu phát hành các mô hình đột phá liên tiếp trong vòng 20 phút, cửa sổ thời gian còn lại cho suy nghĩ và chuẩn bị của con người đang thu hẹp với tốc độ có thể nhìn thấy bằng mắt thường.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Bitcoin vẫn duy trì sức mạnh khi xung đột Iran-Mỹ thúc đẩy tâm lý rủi ro giảm

Bitcoin đã tăng hơn 2%, bất chấp tâm lý rủi ro toàn cầu do xung đột Mỹ-Iran leo thang gây ra, khiến hầu hết các cổ phiếu giảm mạnh. Các nhà phân tích cho biết đây là thời điểm tốt nhất để mua BTC khi Cục Dự trữ Liên bang Mỹ sẽ bắt đầu in hàng tỷ đô la để hỗ trợ chiến tranh, như đã làm trong

CryptoNewsFlash42phút trước

Chainlink CCIP trở thành cầu nối độc quyền cho Coinbase Wrapped BTC trong hệ sinh thái DeFi của Monad

Chainlink CCIP hiện cho phép cbBTC của Coinbase từ Base kết nối sang Monad, mở ra khả năng tiếp cận trực tiếp thanh khoản DeFi dựa trên Bitcoin. Monad sẽ truy cập hơn $5 tỷ USD cbBTC để cho vay, giao dịch và các sản phẩm DeFi dựa trên Bitcoin. Chainlink đã kích hoạt Coinbase Wrapped BTC (cbBTC) để di chuyển từ

CryptoNewsFlash57phút trước

Tình hình địa chính trị thúc đẩy dầu thô dao động ở mức cao, Hợp đồng dầu thô Gate có khối lượng giao dịch 24H là 85,14 triệu USD

Giá dầu thô quốc tế dao động ở mức cao do ảnh hưởng của tình hình Mỹ-Iran, dầu Brent hiện đang ở mức 84.28 USD. Nền tảng Gate ra mắt hợp đồng hàng hóa lớn đầu tiên, cung cấp dịch vụ giao dịch suốt ngày đêm và đòn bẩy cao, nhằm đáp ứng nhu cầu phân bổ tài sản của người dùng.

GateNews1giờ trước

Chỉ số hợp đồng tương lai ba chỉ số chính của thị trường chứng khoán Mỹ tăng mạnh trong ngắn hạn, chỉ số Nasdaq tăng 0.2%

ChainCatcher tin tức, theo dữ liệu thị trường của Gate, các hợp đồng tương lai của ba chỉ số chính của thị trường chứng khoán Mỹ đã tăng mạnh trong ngắn hạn, hợp đồng tương lai Nasdaq 100 tăng 0.2%, hợp đồng tương lai S&P 500 tăng 1.16%, hợp đồng tương lai Dow Jones tăng 0.09%.

GateNews1giờ trước

ETF Bitcoin hút tiền 462 triệu USD, BTC tạm thời vượt 73.000 USD

ETF Bitcoin giao ngay của Mỹ trong ngày thứ Tư ghi nhận dòng chảy ròng 462 triệu USD, tổng cộng trong ba ngày đạt 1.1 tỷ USD. Quỹ lớn nhất trong ngày là BlackRock IBIT. Mặc dù dòng vốn chảy trở lại cho thấy tâm lý thị trường đang cải thiện, nhưng chỉ số sợ hãi và tham lam vẫn ở mức "hoảng loạn cực độ", và cần thêm dữ liệu dòng chảy liên tục để xác nhận sự chuyển biến của xu hướng.

MarketWhisper1giờ trước

Giá dầu tăng vọt, kỳ vọng hạ lãi suất đột nhiên nguội đi! Circle hưởng lợi, vượt mục tiêu giá 100 USD

Gã khổng lồ stablecoin của Mỹ Circle gần đây đã tăng gần 8% do giá dầu tăng vọt và kỳ vọng giảm lãi suất đột ngột giảm nhiệt, lập đỉnh mới trong 4 tháng. Morgan Stanley đã nâng mục tiêu giá của công ty lên 100 USD, mặc dù vẫn duy trì xếp hạng "trung lập", nhưng lạc quan hơn về triển vọng lợi nhuận. Các nhà phân tích cho rằng, nếu Cục Dự trữ Liên bang duy trì lãi suất cao, doanh thu của Circle sẽ hưởng lợi, nhưng cạnh tranh thị trường và áp lực từ quy định vẫn cần cảnh giác.

区块客2giờ trước
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)