Sáu đột phá AI đã định hình lại năm 2025: Những điều Andrej Karpathy đã đúng

2026-01-21 12:08:16

Vàrej Karpathy, một trong những nhà nghiên cứu AI có ảnh hưởng nhất thế giới, đã đưa ra quan điểm cá nhân về những thay đổi mang tính chuyển đổi đang định hình trí tuệ nhân tạo vào năm 2025. Những quan sát của ông không chỉ làm sáng tỏ những gì đã xảy ra trong năm ngoái mà còn chỉ ra hướng đi của toàn ngành công nghiệp. Giữa những đột phá trong học tăng cường, các mô hình ứng dụng mới, và những thay đổi căn bản trong cách con người tương tác với AI, cảnh quan đã chuyển động nhanh hơn nhiều so với dự đoán của phần lớn người.

RLVR: Nền tảng Mới Thay Thế Học Có Giám Sát

Sổ tay đào tạo AI đã bước sang một chương mới khi học tăng cường dựa trên phần thưởng có thể xác minh (RLVR) chuyển từ thử nghiệm sang phổ biến. Theo phân tích của Andrej Karpathy, sự chuyển đổi này đã thay đổi căn bản hình dạng của các mô hình ngôn ngữ đạt tiêu chuẩn sản xuất.

Trong nhiều năm, quy trình tiêu chuẩn trông như thế này: tiền huấn luyện → tinh chỉnh có giám sát → học tăng cường từ phản hồi của con người (RLHF). Nó ổn định, đã được chứng minh, và trở thành xương sống của các phòng thí nghiệm AI lớn. Nhưng điều gì đó đã thay đổi vào năm 2025.

RLVR thay đổi trò chơi bằng cách huấn luyện các mô hình trong môi trường có tín hiệu phần thưởng có thể xác minh tự động—hãy nghĩ đến các bài toán toán học có đáp án chính xác rõ ràng hoặc các thử thách lập trình mà mã chạy được hoặc không. Thay vì dựa vào đánh giá của con người, các cơ chế phản hồi khách quan này cho phép các mô hình phát triển điều gì đó giống như lý luận thực sự. Chúng học cách phân tích các vấn đề thành các bước trung gian và khám phá nhiều con đường giải pháp thông qua tinh chỉnh lặp đi lặp lại.

DeepSeek-R1 đã thể hiện nguyên tắc này đầu tiên, nhưng o1 (cuối năm 2024) và o3 (đầu năm 2025) của OpenAI đã chứng minh rằng nó có thể mở rộng quy mô. Như Andrej Karpathy đã lưu ý, điều khiến ông ngạc nhiên nhất không chỉ là sự tăng hiệu suất—mà còn là sự chuyển đổi tính toán khổng lồ. RLVR tiêu thụ nhiều hơn rất nhiều so với tinh chỉnh truyền thống, về cơ bản chuyển hướng các nguồn lực ban đầu dành cho tiền huấn luyện. Điều này có nghĩa là các tiến bộ về khả năng trong năm 2025 không đến từ việc huấn luyện các mô hình lớn hơn, mà từ việc huấn luyện các mô hình thông minh hơn, với các giai đoạn tối ưu hóa kéo dài đáng kể.

Một bước đột phá bổ sung nữa: phương pháp tiếp cận mới này mở ra một chiều kích mở rộng quy mô hoàn toàn mới—khả năng điều chỉnh khả năng của mô hình vào thời điểm kiểm tra bằng cách mở rộng các quỹ đạo suy luận và cho phép nhiều “thời gian suy nghĩ hơn.” Điều này tách rời khả năng mở rộng khỏi kích thước mô hình theo những cách trước đây không thể.

Ma Thuật Ma Quái vs Hiệu Suất Gợn Sóng

Andrej Karpathy đã giới thiệu một khái niệm đã định hình lại cách ngành công nghiệp nghĩ về nhận thức AI: chúng ta không tiến hóa thành động vật, chúng ta đang triệu hồi ma quái.

Toàn bộ hệ thống đào tạo khác biệt căn bản—kiến trúc neural, dữ liệu, thuật toán, và quan trọng nhất, mục tiêu tối ưu hóa. Vì vậy, không có gì ngạc nhiên khi các mô hình ngôn ngữ lớn thể hiện trí tuệ hoàn toàn khác biệt so với não bộ sinh học. So sánh chúng với động vật hoặc trí tuệ sinh học là hoàn toàn sai lệch.

Các mạng lưới thần kinh của con người đã hình thành qua sự sinh tồn trong các hệ sinh thái bộ lạc. Các mô hình AI đã được hình thành để bắt chước văn bản, giải các câu đố toán học, và giành được sự chấp thuận của con người trong các tiêu chuẩn cạnh tranh. Khi bạn tối ưu cho các mục tiêu hoàn toàn khác nhau như vậy, bạn sẽ nhận được các kết quả khác biệt.

Điều này dẫn đến một đặc điểm hiệu suất kỳ lạ: các đường cong khả năng có dạng gợn sóng, răng cưa. Các mô hình có thể thể hiện kiến thức bách khoa toàn thư một khoảnh khắc và lại bối rối trong lý luận tiểu học vào khoảnh khắc tiếp theo. Chúng xuất sắc trong các lĩnh vực có thể xác minh và gặp khó khăn trong các bối cảnh mở rộng. Cảnh quan khả năng không đều này không phải là lỗi—nó là hệ quả trực tiếp của chế độ đào tạo.

Đây là nơi mà sự hoài nghi của Andrej Karpathy trở nên quan trọng: ông đã phát triển cái gọi là “thờ ơ chung” đối với các tiêu chuẩn trong năm 2025. Lý do đơn giản—các tiêu chuẩn là các môi trường có thể xác minh, khiến chúng trở thành mục tiêu chính cho việc quá khớp RLVR. Các nhóm không thể tránh khỏi xây dựng các không gian huấn luyện gần các nhúng tiêu chuẩn và bão hòa chúng bằng khả năng hẹp. “Huấn luyện trên bộ kiểm tra” trở thành tiêu chuẩn ngành. Việc vượt qua tất cả các tiêu chuẩn không còn là dấu hiệu tiến bộ thực sự của AGI nữa.

Cursor: Lớp Ứng Dụng Xuất Hiện

Sự phát triển bùng nổ của Cursor vào năm 2025 đã tiết lộ điều gì đó cực kỳ quan trọng: có một tầng mới hoàn toàn trong hệ thống ứng dụng AI.

Theo Andrej Karpathy, Cursor hoạt động vì nó giải quyết một vấn đề cụ thể trong lĩnh vực—tạo mã trong quy trình làm việc phát triển thực tế—chứ không phải vì nó là một chatbot đa năng tốt hơn. Kiến trúc hỗ trợ các công cụ như Cursor bao gồm ba thành phần tích hợp: kỹ thuật ngữ cảnh (kéo thông tin liên quan), phối hợp nhiều cuộc gọi LLM thành các đồ thị có hướng phức tạp ngày càng cao (cân bằng hiệu suất và chi phí), và giao diện người dùng đặc thù ứng dụng với kiểm soát vòng lặp con người.

Điều này đã khơi nguồn cho một cuộc thảo luận rộng hơn: liệu các nền tảng mô hình ngôn ngữ lớn (như API của OpenAI) sẽ thống trị toàn bộ lớp ứng dụng, hay các công cụ chuyên biệt sẽ phát triển mạnh? Dự báo của Andrej Karpathy: các nền tảng sẽ dần trở thành “đại học chung chung,” tạo ra các sản phẩm có khả năng nhưng không chuyên sâu. Giá trị thực sẽ chảy vào các công ty lớp ứng dụng, lấy các mô hình có khả năng đó, tinh chỉnh chúng bằng dữ liệu độc quyền, tích hợp cảm biến và bộ truyền động, và biến chúng thành các “đội chuyên nghiệp” đặc thù có thể triển khai trong các lĩnh vực dọc cụ thể.

Hàm ý: Cursor không phải là mục tiêu cuối cùng—nó là mẫu. Mong đợi hàng chục công cụ theo từng lĩnh vực cụ thể theo cùng một quy trình này.

Claude Code: Các Agent Sống Tại Địa Phương

Sự xuất hiện của Claude Code đã chứng minh điều gì đó đã thu hút sự chú ý của Andrej Karpathy: các agent AI hiệu quả không nhất thiết phải sống trong đám mây.

Công nghệ lặp đi lặp lại qua việc sử dụng công cụ và lý luận trong một vòng lặp, cho phép giải quyết các vấn đề phức tạp và bền bỉ hơn so với các giao diện trò chuyện đơn giản. Nhưng điều thực sự ấn tượng với Andrej Karpathy là lựa chọn kiến trúc: Claude Code chạy trực tiếp trên máy tính của người dùng, tích hợp sâu vào các tệp cục bộ, môi trường cá nhân, và quy trình làm việc riêng biệt.

Điều này thể hiện một sự khác biệt có chủ ý so với hướng đi chiến lược của OpenAI. OpenAI đã đầu tư mạnh vào các agent dựa trên đám mây được phối hợp trong các môi trường ChatGPT container hóa. Trong khi đó, hướng tiếp cận đó hứa hẹn “hình thức tối thượng của AGI,” thì hiện tại chúng ta đang trong giai đoạn phát triển chưa đồng đều với những lợi ích chưa được chứng minh.

Triển khai agent tại chỗ—gần các nhà phát triển, tích hợp chặt chẽ với bối cảnh làm việc cụ thể của họ—được chứng minh là nhanh hơn và thực tế hơn trong thời điểm này. Claude Code đã làm đúng ưu tiên này, đóng gói nó thành một công cụ dòng lệnh tinh tế, định hình lại hoàn toàn giao diện AI. Nó không còn chỉ là một trang web như Google nữa. Đó là một sprite nhỏ sống trong máy tính của bạn, hợp tác trực tiếp với quy trình làm việc của bạn. Đó là một mô hình hoàn toàn khác cho tương tác con người-AI.

Lập Trình Vibe: Lập Trình Không Cần Mã

Đến năm 2025, AI đã vượt qua một ngưỡng quan trọng: bạn có thể mô tả những gì bạn muốn bằng tiếng Anh và phần mềm hoạt động sẽ xuất hiện, không cần phải hiểu rõ cách thực hiện nền tảng.

Andrej Karpathy đã đặt ra thuật ngữ “Vibe Coding” một cách bình thường trong một suy nghĩ thoáng qua trên Twitter, không ngờ nó lại trở thành xu hướng ngành. Nhưng nó hoàn toàn phản ánh những gì đã xảy ra—lập trình trở nên dễ tiếp cận hơn với mọi người, không chỉ các chuyên gia đã qua đào tạo.

Điều này liên kết với một mô hình rộng hơn mà Andrej Karpathy đã xác định: người bình thường hưởng lợi nhiều hơn từ các mô hình ngôn ngữ lớn so với các chuyên gia. Các chuyên gia đã có sẵn các công cụ và kiến thức sâu rộng. Người bình thường không thể xây dựng được gì. Giờ đây, họ có thể.

Nhưng Vibe Coding cũng mang lại lợi ích cho các chuyên gia—một cách khác biệt. Nó cho phép các nhà phát triển thực hiện các tính năng “chẳng bao giờ được viết nếu không có,” bởi vì đột nhiên mã trở nên miễn phí, phù du, và dễ vứt bỏ. Trong quá trình xây dựng nanochat, Andrej Karpathy đã sử dụng Vibe Coding để viết các bộ phân đoạn BPE tùy chỉnh, hiệu quả bằng Rust mà không cần học ngôn ngữ hoặc dựa vào thư viện có sẵn. Ông đã tạo mẫu toàn bộ hệ thống chỉ để kiểm tra khả thi. Ông đã viết các ứng dụng duy nhất chỉ để gỡ lỗi các lỗ hổng cụ thể.

Sự thay đổi kinh tế này—nơi mã không có chi phí chuyển đổi—sẽ định hình lại hệ sinh thái phát triển phần mềm và vẽ lại vĩnh viễn ranh giới nghề nghiệp trong lĩnh vực lập trình.

Nano Banana: LLMs Cuối Cùng Cũng Có Giao Diện Người Dùng

Bước đột phá của Google với Gemini Nano—mà Andrej Karpathy gọi là “Nano Banana”—đại diện cho một trong những chuyển đổi mô hình gây rối nhất của năm 2025.

Andrej Karpathy diễn đạt rõ ràng: các mô hình ngôn ngữ lớn đại diện cho mô hình tính toán lớn tiếp theo sau thời kỳ PC của những năm 1970-80. Vì vậy, chúng ta nên mong đợi những đổi mới tương tự vì lý do tương tự—song song với sự tiến hóa của máy tính cá nhân, vi điều khiển, và chính internet.

Giao tiếp người-máy hiện tại vẫn giống như các terminal dòng lệnh của thập niên 1980. Văn bản chiếm ưu thế, mặc dù còn sơ khai đối với máy tính và không phù hợp cho con người. Con người thấy đọc văn bản chậm và khó chịu. Họ thích các kênh hình ảnh và không gian—đó chính là lý do tại sao giao diện người dùng đồ họa đã biến đổi máy tính cá nhân hàng thập kỷ trước.

Nguyên tắc tương tự áp dụng cho AI: các mô hình nên giao tiếp qua hình ảnh, đồ họa, trình chiếu, bảng trắng, video, ứng dụng web—nói chung, bất kỳ định dạng nào con người thực sự thích. Những bước đi ban đầu xuất hiện qua “trang trí văn bản trực quan” như biểu tượng cảm xúc và định dạng Markdown. Nhưng cuối cùng ai sẽ xây dựng lớp giao diện đồ họa đầy đủ cho AI?

Nano Banana là một nguyên mẫu sớm của tương lai đó. Đột phá của nó vượt ra ngoài việc tạo hình ảnh. Điều làm nó đặc biệt là khả năng tích hợp—tạo văn bản, tạo hình ảnh, và kiến thức thế giới thể hiện qua trọng số của mô hình. Sự kết hợp này tạo ra một nguyên tắc giao diện hoàn toàn khác biệt so với các mô hình chỉ dựa trên văn bản.

Sự Hội Tụ: Tầm Nhìn của Andrej Karpathy Về Những Gì Sắp Tới

Sáu sự chuyển đổi này không tồn tại riêng lẻ. Những quan sát của Andrej Karpathy tiết lộ một ngành công nghiệp đang trong quá trình chuyển đổi: từ việc mở rộng mô hình thuần túy, sang các phương pháp huấn luyện thông minh hơn và các ứng dụng chuyên biệt. Từ các nền tảng dựa trên đám mây chung chung, sang các agent triển khai tại chỗ tích hợp với quy trình làm việc của con người. Từ các giao diện dựa trên văn bản, sang các hình ảnh và không gian trực quan.

Năm 2025 đã chứng minh rằng trí tuệ nhân tạo không chỉ tiến bộ theo từng bước nhỏ. Nó đã tổ chức lại cách nó huấn luyện, triển khai, và giao tiếp một cách căn bản. Giai đoạn tiếp theo sẽ thuộc về người làm chủ các mô hình mới này đầu tiên.

SIX1,67%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.