Chiều ngày 20 tháng 1, X đã công khai mã nguồn thuật toán đề xuất mới nhất của mình.
Musk nhận xét: “Chúng tôi biết thuật toán này còn hạn chế và cần cải tiến lớn, nhưng ít nhất bạn có thể thấy chúng tôi đang nỗ lực nâng cấp nó theo thời gian thực. Những nền tảng mạng xã hội khác sẽ không dám làm điều này.”

Ý kiến của ông có hai điểm. Thứ nhất, ông thừa nhận hạn chế của thuật toán. Thứ hai, ông lấy tính minh bạch làm lợi thế nổi bật.
Đây là lần thứ hai X mở mã nguồn thuật toán. Phiên bản năm 2023 đã ba năm không cập nhật và không còn liên kết với hệ thống vận hành. Lần này, toàn bộ mã nguồn được viết lại hoàn toàn. Mô hình cốt lõi chuyển từ học máy truyền thống sang bộ biến đổi Grok. Theo mô tả chính thức, “đặc trưng thủ công đã bị loại bỏ hoàn toàn.”
Nói ngắn gọn: thuật toán trước đây dựa vào kỹ sư tự chỉnh tham số. Hiện tại, AI trực tiếp phân tích lịch sử tương tác của bạn để quyết định có đề xuất nội dung hay không.
Đối với người sáng tạo nội dung, điều này đồng nghĩa các chiến lược như “thời điểm đăng bài tối ưu” hoặc “thẻ tăng người theo dõi” có thể không còn hiệu quả.
Chúng tôi cũng đã kiểm tra kho mã nguồn mở trên GitHub và với trợ giúp của AI, phát hiện một số logic mã cứng trong mã nguồn đáng chú ý.
Đầu tiên, cần làm rõ sự khác biệt giữa phiên bản cũ và mới để tránh nhầm lẫn khi thảo luận tiếp theo.
Năm 2023, thuật toán mã nguồn mở của Twitter có tên Heavy Ranker. Đây là học máy truyền thống. Kỹ sư tự định nghĩa hàng trăm đặc trưng: bài đăng có ảnh không, số người theo dõi tác giả, thời gian đăng, có chứa liên kết không, v.v.
Mỗi đặc trưng được gán trọng số và liên tục điều chỉnh để tìm ra tổ hợp hiệu quả nhất.
Bản mã nguồn mở mới có tên Phoenix. Kiến trúc hoàn toàn khác biệt—có thể hiểu là thuật toán dựa nhiều hơn vào các mô hình AI lớn. Lõi sử dụng bộ biến đổi Grok, cùng loại công nghệ với ChatGPT và Claude.
Tài liệu README chính thức ghi rõ: “Chúng tôi đã loại bỏ hoàn toàn mọi đặc trưng do con người xây dựng.”
Hệ thống dựa trên quy tắc thủ công, trích xuất đặc trưng nội dung bằng tay đã bị loại bỏ hoàn toàn.
Vậy, thuật toán dựa vào đâu để đánh giá nội dung tốt?
Câu trả lời: chuỗi hành vi của bạn. Bạn thích gì, trả lời ai, dừng lại ở bài đăng nào hơn hai phút, đã chặn loại tài khoản nào. Phoenix đưa các hành vi này vào bộ biến đổi để mô hình học và tổng hợp quy luật.

Để hình dung: thuật toán cũ như một bảng điểm thủ công, mỗi tiêu chí đạt được cộng điểm.
Thuật toán mới như một AI có quyền truy cập toàn bộ lịch sử duyệt nội dung của bạn, dự đoán bạn sẽ muốn xem gì tiếp theo.
Với người sáng tạo, điều này mang lại hai ý nghĩa:
Thứ nhất, các chiến thuật như “giờ đăng bài tốt nhất” hoặc “thẻ vàng” không còn nhiều giá trị. Mô hình không xét đặc trưng cố định, mà tập trung vào sở thích cá nhân của từng người dùng.
Thứ hai, việc nội dung được đề xuất phụ thuộc nhiều hơn vào “cách người dùng phản ứng với nội dung của bạn”. Những phản ứng này được lượng hóa thành 15 loại hành vi dự đoán, sẽ trình bày chi tiết ở phần tiếp theo.
Khi Phoenix đánh giá một bài đăng để đề xuất, nó dự đoán 15 hành động có thể xảy ra của người dùng:
Mỗi hành động có một xác suất dự đoán. Ví dụ, mô hình có thể dự đoán khả năng bạn thích một bài đăng là 60% và khả năng bạn chặn tác giả là 5%.
Thuật toán nhân mỗi xác suất với trọng số tương ứng, sau đó cộng lại để ra điểm cuối cùng.

Công thức:
Điểm số cuối = Σ ( trọng số × P(hành động) )
Hành động tích cực có trọng số dương; hành động tiêu cực có trọng số âm.
Bài đăng có tổng điểm cao sẽ được xếp hạng cao hơn; bài có điểm thấp bị đẩy xuống.
Thực tế, việc nội dung “tốt” không còn do chất lượng nội tại quyết định (dù khả năng đọc và giá trị vẫn là điều kiện cần để chia sẻ). Thay vào đó, nó được quyết định bởi “phản ứng mà nội dung tạo ra”. Thuật toán không quan tâm bản thân nội dung, mà quan tâm hành vi người dùng.
Theo logic này, trong trường hợp cực đoan, một bài đăng chất lượng thấp nhưng có nhiều lượt trả lời vẫn có thể đạt điểm cao hơn bài đăng chất lượng cao nhưng không ai tương tác. Đây có thể là logic nền tảng của hệ thống.
Tuy nhiên, thuật toán mã nguồn mở mới không công bố trọng số cụ thể cho từng hành vi, nhưng phiên bản năm 2023 đã từng làm điều này.
Hãy xem bộ dữ liệu năm 2023. Tuy đã cũ, nhưng nó minh họa cách thuật toán đánh giá các hành động khác nhau.
Ngày 5 tháng 4 năm 2023, X công khai một bộ dữ liệu trọng số trên GitHub.
Dưới đây là các con số:

Nói một cách dễ hiểu:

Nguồn dữ liệu: Phiên bản cũ kho GitHub twitter/the-algorithm-ml. Nhấn để xem thuật toán gốc.
Một số con số nổi bật:
Thứ nhất, lượt thích gần như không có giá trị. Trọng số chỉ là 0,5—thấp nhất trong các hành động tích cực. Thuật toán coi lượt thích gần như vô nghĩa.
Thứ hai, hội thoại là yếu tố quan trọng. “Bạn trả lời và tác giả trả lời lại” có trọng số 75—cao gấp 150 lần lượt thích. Thuật toán đánh giá cao hội thoại hai chiều hơn lượt thích đơn thuần.
Thứ ba, phản hồi tiêu cực bị trừ điểm rất mạnh. Một lượt chặn hoặc tắt tiếng (-74) cần 148 lượt thích để bù lại. Một lượt báo cáo (-369) cần đến 738 lượt thích. Các điểm trừ này tích lũy vào uy tín tài khoản, ảnh hưởng đến phân phối bài đăng sau này.
Thứ tư, tỷ lệ hoàn thành video có trọng số cực thấp—chỉ 0,005, gần như không đáng kể. Điều này trái ngược với các nền tảng như TikTok, nơi tỷ lệ hoàn thành là chỉ số then chốt.
Tài liệu chính thức cũng nêu: “Các trọng số trong file có thể được điều chỉnh bất cứ lúc nào… Chúng tôi thường xuyên điều chỉnh trọng số để tối ưu hóa các chỉ số nền tảng.”
Các trọng số có thể thay đổi bất kỳ lúc nào—và thực tế đã thay đổi.
Phiên bản mới không công bố giá trị cụ thể, nhưng khung logic trong README vẫn giữ nguyên: hành động tích cực cộng điểm, hành động tiêu cực trừ điểm, điểm cuối là tổng trọng số.
Các con số cụ thể có thể thay đổi, nhưng thứ tự tương đối có thể không đổi. Trả lời bình luận của người khác giá trị hơn 100 lượt thích. Bị chặn còn tệ hơn không được tương tác.
Sau khi xem xét cả mã thuật toán mới và cũ của Twitter, dưới đây là một số gợi ý thực tế:
1. Hãy trả lời bình luận của người khác. Trong bảng trọng số, “tác giả trả lời người bình luận” là hành động được cộng điểm cao nhất (+75), cao gấp 150 lần lượt thích. Bạn không cần kêu gọi bình luận, nhưng hãy phản hồi nếu có ai đó bình luận—chỉ một lời cảm ơn cũng được thuật toán ghi nhận.
2. Tránh khiến người dùng muốn chặn bạn. Một lượt chặn cần 148 lượt thích để bù lại. Nội dung gây tranh cãi có thể tăng tương tác, nhưng nếu tương tác đó là “người này phiền quá, chặn thôi”, uy tín tài khoản sẽ giảm lâu dài, ảnh hưởng đến toàn bộ bài viết sau này. Tranh cãi là con dao hai lưỡi—hãy cân nhắc kỹ trước khi khiêu khích.
3. Đặt liên kết ngoài vào bình luận. Thuật toán không muốn người dùng rời nền tảng. Nếu bạn để liên kết trong nội dung chính sẽ bị trừ điểm—Musk đã xác nhận công khai điều này. Nếu muốn kéo traffic, hãy để nội dung chính trong bài đăng và link ở bình luận đầu tiên.
4. Đừng spam. Mã mới có bộ chấm điểm đa dạng tác giả, sẽ phạt khi cùng một tác giả đăng liên tiếp nhiều bài. Mục đích là đa dạng hóa nội dung trên bảng tin, nên đăng một bài chất lượng còn hơn mười bài liền nhau.
6. Không còn “khung giờ vàng đăng bài”. Thuật toán cũ dùng “thời gian đăng” làm đặc trưng thủ công, nhưng Phoenix đã loại bỏ hoàn toàn. Phoenix chỉ xét hành vi người dùng, không quan tâm thời điểm đăng. Vì vậy, các chiến lược kiểu “thứ ba lúc 3 giờ chiều” ngày càng kém hiệu quả.
Đây là những gì có thể rút ra từ mã nguồn.
Bên cạnh đó, còn có các quy tắc thưởng/phạt trong tài liệu công khai của X nhưng không xuất hiện trong bản mã nguồn mở này: tài khoản tích xanh được tăng phạm vi tiếp cận, bài đăng toàn chữ in hoa bị phạt, nội dung nhạy cảm bị giảm 80% phạm vi tiếp cận. Các quy tắc này không được mã nguồn mở, nên không bàn đến ở đây.
Tổng thể, lần công khai mã nguồn này khá toàn diện.
Toàn bộ kiến trúc hệ thống, logic truy xuất nội dung ứng viên, quy trình chấm điểm và xếp hạng, cùng nhiều bộ lọc đều được công khai. Mã nguồn chủ yếu viết bằng Rust và Python, cấu trúc rõ ràng, README còn chi tiết hơn nhiều dự án thương mại.
Tuy nhiên, vẫn thiếu một số thành phần then chốt.
1. Trọng số không công khai. Mã chỉ giải thích “hành động tích cực cộng điểm, hành động tiêu cực trừ điểm”, nhưng không nêu cụ thể một lượt thích hay chặn được tính bao nhiêu. Phiên bản 2023 còn công bố số liệu; lần này chỉ có khung công thức.
2. Trọng số mô hình không công khai. Phoenix dùng bộ biến đổi Grok, nhưng tham số mô hình không được đính kèm. Bạn chỉ thấy cách gọi mô hình, không biết bên trong hoạt động ra sao.
3. Dữ liệu huấn luyện không công khai. Không rõ dữ liệu nào được dùng để huấn luyện mô hình, hành vi nào được lấy mẫu, hoặc cách xây dựng mẫu tích cực và tiêu cực.
Nói cách khác, lần công khai này cho biết “chúng tôi dùng tổng trọng số để tính điểm”, nhưng không tiết lộ trọng số thực tế; cho biết “chúng tôi dùng transformer để dự đoán xác suất hành vi”, nhưng không cho biết transformer bên trong như thế nào.
So với TikTok và Instagram, hai nền tảng này thậm chí còn chưa công khai đến mức này. Việc công khai mã nguồn của X rõ ràng toàn diện hơn các nền tảng lớn khác, nhưng vẫn chưa hoàn toàn minh bạch.
Tuy vậy, mã nguồn mở vẫn rất giá trị. Với người sáng tạo và nhà nghiên cứu, được đọc mã còn tốt hơn là không có gì để tham khảo.





