Viết bài: KarenZ, Foresight News
Elon Musk đã chuyển hệ thống đề xuất của Twitter từ “quy tắc thủ công và phần lớn thuật toán heuristic” sang “hoàn toàn dựa vào mô hình AI lớn dự đoán nội dung yêu thích”?
Ngày 20 tháng 1, Twitter (X) chính thức công bố thuật toán đề xuất mới, tức là logic phía sau dòng thời gian “Gợi ý cho bạn” (For You) trên trang chủ Twitter.
Nói đơn giản, thuật toán hiện tại là: kết hợp “nội dung do những người bạn theo dõi đăng” và “nội dung toàn mạng có thể phù hợp với bạn”, sắp xếp theo mức độ hấp dẫn dựa trên các hành động như thích, bình luận của bạn trước đó trên X, qua hai lần lọc trung gian, cuối cùng tạo thành dòng thông tin đề xuất mà bạn thấy.
Dưới đây là phần giải thích logic cốt lõi bằng ngôn ngữ đơn giản:
Xây dựng hồ sơ
Hệ thống đầu tiên thu thập thông tin ngữ cảnh của người dùng để xây dựng “hồ sơ” cho các đề xuất sau này:
Chuỗi hành vi của người dùng: lịch sử tương tác (thích, chia sẻ, thời gian dừng lại, v.v.).
Đặc điểm của người dùng: danh sách theo dõi, cài đặt sở thích cá nhân, v.v.
Nội dung đến từ đâu?
Mỗi khi bạn làm mới dòng thời gian “Gợi ý cho bạn”, thuật toán sẽ tìm nội dung từ hai nguồn sau:
Nhóm quen (Thunder): các tweet do những người bạn theo dõi đăng.
Nhóm lạ (Phoenix): những người bạn chưa theo dõi, nhưng AI sẽ dựa trên sở thích của bạn để tìm ra những bài đăng có thể bạn quan tâm trong biển người mênh mông (dù bạn chưa theo dõi tác giả).
Hai nguồn nội dung này sẽ trộn lẫn, tạo thành các bài tweet đề xuất.
Hoàn thiện dữ liệu và lọc sơ bộ
Sau khi lấy về hàng nghìn bài đăng, hệ thống sẽ truy xuất đầy đủ siêu dữ liệu của bài đăng (thông tin tác giả, tệp media, nội dung chính), quá trình này gọi là Hydration. Sau đó, sẽ tiến hành làm sạch nhanh, loại bỏ nội dung trùng lặp, bài cũ, bài do chính người dùng đăng, nội dung của tác giả đã bị chặn hoặc từ khóa bị chặn.
Bước này nhằm tiết kiệm tài nguyên tính toán, tránh để nội dung không phù hợp vào bước đánh giá chính.
Làm thế nào để chấm điểm?
Đây là phần quan trọng nhất. Mô hình Transformer dựa trên Phoenix Grok sẽ tập trung vào từng bài đăng đề xuất còn lại sau lọc, tính xác suất người dùng sẽ thực hiện các hành động khác nhau đối với nó. Đây là trò chơi cộng điểm trừ điểm:
Các yếu tố cộng điểm (phản hồi tích cực): AI nghĩ bạn có thể thích, chia sẻ, trả lời, nhấp vào hình ảnh hoặc vào trang chủ xem.
Các yếu tố trừ điểm (phản hồi tiêu cực): AI nghĩ bạn có thể chặn tác giả, mute, báo cáo.
Điểm cuối cùng = (Xác suất thích × Trọng số) + (Xác suất trả lời × Trọng số) - (Xác suất chặn × Trọng số)…
Điều đáng chú ý là trong thuật toán đề xuất mới, “Author Diversity Scorer” (đánh giá đa dạng tác giả) thường sẽ can thiệp sau khi AI tính điểm cuối cùng. Khi phát hiện trong một nhóm đề xuất có nhiều bài của cùng một tác giả, công cụ này sẽ tự động “hạ thấp” điểm của các bài sau của tác giả đó, giúp bạn thấy nhiều tác giả đa dạng hơn.
Cuối cùng, dựa trên xếp hạng theo điểm, chọn ra nhóm bài có điểm cao nhất.
Lọc lần hai
Hệ thống sẽ kiểm tra lại các bài có điểm cao nhất, loại bỏ các nội dung vi phạm (ví dụ như spam, nội dung bạo lực), loại bỏ các nhánh của cùng một thread, rồi sắp xếp theo điểm từ cao xuống thấp, thành dòng thông tin bạn thấy.
Tổng kết
X đã loại bỏ tất cả các chức năng do con người thiết kế thủ công và phần lớn thuật toán heuristic khỏi hệ thống đề xuất. Tiến bộ chính của thuật toán mới nằm ở chỗ “AI tự học sở thích người dùng”, mở ra bước chuyển từ “dạy máy làm thế nào” sang “để máy tự học cách làm”.
Trước tiên, đề xuất chính xác hơn, “dự đoán đa chiều” phù hợp hơn với nhu cầu thực tế. Thuật toán mới dựa vào mô hình lớn Grok để dự đoán nhiều hành vi của người dùng — không chỉ tính “sẽ thích / chia sẻ”, mà còn dự đoán “sẽ nhấp vào liên kết”, “thời gian dừng lại thế nào”, “sẽ theo dõi tác giả”, thậm chí dự đoán “sẽ báo cáo / chặn”. Những dự đoán tinh vi này giúp nội dung đề xuất phù hợp hơn với tiềm thức của người dùng.
Thứ hai, cơ chế thuật toán tương đối công bằng hơn, phần nào phá vỡ “độc quyền của các tài khoản lớn”, tạo cơ hội nhiều hơn cho tài khoản mới, nhỏ. Thuật toán heuristic cũ có vấn đề chết người: tài khoản lớn dựa vào lượng tương tác cao trong quá khứ, đăng gì cũng được hiển thị nhiều, còn tài khoản mới dù nội dung chất lượng cũng bị lấn át vì “thiếu dữ liệu”. Cơ chế phân tách đề xuất giúp mỗi bài đăng được đánh giá độc lập, không liên quan đến việc các nội dung khác cùng đợt có thành công hay không. Đồng thời, “Author Diversity Scorer” cũng giảm hiện tượng các bài của cùng một tác giả trong cùng một đợt bị spam tràn lan.
Với công ty X: Đây là biện pháp giảm chi phí, tăng hiệu quả, dùng sức mạnh tính toán để thay thế nhân lực, dùng AI để giữ chân người dùng. Đối với người dùng, chúng ta đang đối diện với một “siêu bộ não” luôn thấu hiểu tâm lý. Nó càng hiểu rõ chúng ta, chúng ta càng không thể rời xa, nhưng cũng chính vì nó quá hiểu chúng ta, chúng ta sẽ càng dễ bị mắc kẹt trong “kén nội dung” do thuật toán dệt nên, và dễ trở thành đối tượng bị bắt trúng các nội dung cảm xúc tiêu cực.