OpenAI Cuối cùng Giải thích Tại sao ChatGPT Không Ngừng Nói Về Quỷ Lùn

Tóm tắt ngắn gọn

  • Tính cách “Nerdy” của OpenAI thưởng cho các phép ẩn dụ về goblin, lan truyền sự kỳ quặc này qua tất cả các mô hình GPT thông qua học tăng cường.
  • Các đề cập đến goblin trong chế độ Nerdy của GPT-5.4 tăng vọt 3.881% so với GPT-5.2, dẫn đến một cuộc điều tra nội bộ và vá hệ thống khẩn cấp.
  • Phương pháp sửa lỗi—viết “không bao giờ nói về goblin” trong lời nhắc nhà phát triển—cho thấy tại sao các bản vá hệ thống nhanh hơn nhưng rủi ro hơn so với huấn luyện lại.

Nếu bạn hỏi ChatGPT giúp đỡ về mã lập trình gần đây và nó trả lời bằng cách gọi lỗi của bạn là “một con quỷ nhỏ tinh nghịch,” bạn không đang tưởng tượng. Mô hình đã phát triển một sự ám ảnh thực sự với các sinh vật giả tưởng—goblins, gremlins, raccoons, trolls, ogres, và đúng vậy, cả bồ câu—và OpenAI đã công bố một bài phân tích toàn diện về cách điều đó xảy ra. Phiên bản ngắn gọn: một tín hiệu thưởng được thiết kế để làm cho ChatGPT trở nên vui vẻ hơn đã đi lệch hướng, và các goblin đã nhân lên. Câu chuyện về goblin chỉ trở thành công khai vì người dùng Reddit phát hiện ra dòng “không bao giờ đề cập đến goblin” trong một lời nhắc hệ thống Codex bị rò rỉ trên GitHub.

Bài đăng này đã lan truyền mạnh trước khi OpenAI công bố lời giải thích của riêng họ. Cách tính cách Nerdy sinh ra một đợt nhiễm goblin Theo OpenAI, hành trình bắt đầu từ GPT-5.1, ra mắt tháng 11 năm ngoái. Đó là khi OpenAI giới thiệu tùy chỉnh tính cách, cho phép người dùng chọn các phong cách như Thân thiện, Chuyên nghiệp, Hiệu quả và Nerdy. Nhân cách Nerdy đi kèm với một lời nhắc hệ thống bảo mô hình trở nên nerdy và vui vẻ, để “giảm bớt sự giả tạo qua việc sử dụng ngôn ngữ vui nhộn,” và thừa nhận rằng “thế giới phức tạp và kỳ lạ.” Lời nhắc đó, hóa ra, là một nam châm hút goblin.

Trong quá trình huấn luyện học tăng cường, tín hiệu thưởng cho tính cách Nerdy luôn đạt điểm cao hơn khi phản hồi chứa các phép ẩn dụ về sinh vật. Trong 76,2% bộ dữ liệu được kiểm tra, các phản hồi có từ “goblin” hoặc “gremlin” nhận điểm tốt hơn so với cùng các phản hồi không có chúng. Mô hình đã học: sự vui nhộn đồng nghĩa với phần thưởng. Các đề cập đến goblin bùng nổ trong GPT-5.4, với tính cách Nerdy tăng 3.881% so với GPT-5.2.

Vấn đề là học tăng cường không giữ các hành vi đã học một cách gọn gàng. Một khi một đặc điểm phong cách được thưởng trong một ngữ cảnh, nó sẽ thấm vào các ngữ cảnh khác qua một vòng phản hồi: mô hình tạo ra các phản hồi chứa sinh vật, các phản hồi đó được sử dụng lại trong dữ liệu tinh chỉnh, và hành vi này càng ngày càng sâu rộng trong toàn bộ mô hình, ngay cả khi không kích hoạt lời nhắc Nerdy. Nerdy chỉ chiếm 2,5% tất cả các phản hồi của ChatGPT. Nó chịu trách nhiệm cho 66,7% các đề cập đến “goblin”. Do phương pháp của OpenAI, tần suất xuất hiện của Goblin và gremlin đã tăng đều đặn trong quá trình huấn luyện khi tính cách Nerdy hoạt động.

Ngay cả khi không có tính cách Nerdy, các đề cập về sinh vật vẫn tăng lên—bằng chứng của sự nhiễm chéo qua dữ liệu tinh chỉnh có giám sát. GPT-5.5 đã quá xa rồi Đến khi OpenAI tìm ra nguyên nhân gốc rễ, GPT-5.5 đã đi sâu vào quá trình huấn luyện, và nó đã hấp thụ toàn bộ họ nhà sinh vật. Một cuộc kiểm tra dữ liệu đã phát hiện không chỉ goblin và gremlin mà còn raccoon, troll, ogre, và bồ câu là những từ “tics” mà công ty gọi là. (“Frog,” những người tò mò, chủ yếu là hợp lệ.)

Mức tăng đo lường đầu tiên: đề cập đến goblin tăng 175% và gremlin tăng 52% sau khi GPT-5.1 ra mắt. Ngay cả Giám đốc Khoa học của OpenAI, Jakub Pachocki, cũng gặp phải goblin khi yêu cầu một con kỳ lân bằng ASCII.

OpenAI đã nghỉ hẳn tính cách Nerdy vào tháng 3 và xóa bỏ các tín hiệu thưởng liên quan đến sinh vật trong các quá trình huấn luyện tương lai. Nhưng GPT-5.5 đã bắt đầu quá trình huấn luyện của nó rồi. Giải pháp của công ty cho Codex—đại lý lập trình của họ—là đơn giản thêm một dòng vào lời nhắc hệ thống của nhà phát triển ghi “Không bao giờ nói về goblin, gremlin, raccoon, troll, ogre, bồ câu hoặc các loài động vật hoặc sinh vật khác trừ khi nó hoàn toàn và rõ ràng liên quan đến câu hỏi của người dùng.” Ai đó tại OpenAI đã cam kết điều đó vào mã sản xuất và tiếp tục công việc của họ trong ngày. Vấn đề vá hệ thống lời nhắc Nhưng tại sao OpenAI lại chọn con đường này? Huấn luyện lại một mô hình lớn như GPT-5.5 để loại bỏ một đặc điểm hành vi là tốn kém và chậm. Một chỉnh sửa trong lời nhắc hệ thống chỉ mất vài phút. Các công ty trong ngành thường chọn vá bằng lời nhắc trước vì đó là phương án chi phí thấp, triển khai nhanh khi phản hồi của người dùng tăng cao. Nhưng vá bằng lời nhắc mang theo những rủi ro riêng. Chúng không sửa được hành vi gốc mà chỉ làm giảm đi. Và việc giảm này có thể gây ra các tác dụng phụ.

 Tình hình goblin của OpenAI là một ví dụ tương đối lành tính. Phiên bản đáng sợ nhất của hiện tượng này đã diễn ra với Grok năm ngoái. Sau khi xAI đẩy một cập nhật lời nhắc hệ thống yêu cầu Grok xem các phương tiện truyền thông là thiên vị và “không ngại ngần đưa ra các tuyên bố chính trị không đúng,” chatbot đã dành 16 giờ gọi chính nó là “MechaHitler” và đăng nội dung chống Do Thái trên X. Việc sửa là một thay đổi lời nhắc khác, nhanh chóng điều chỉnh quá mức đến mức Grok bắt đầu cảnh báo chống Semitism trong hình ảnh chó con, mây trời, và chính logo của nó. Một chuỗi kỹ thuật lập trình lời nhắc tuyệt vọng dẫn đến các kỹ thuật lập trình lời nhắc càng ngày càng tuyệt vọng hơn. Vấn đề vá hệ thống goblin chưa gây ra điều gì quá nghiêm trọng như vậy. Nhưng OpenAI thừa nhận GPT-5.5 vẫn ra mắt với đặc điểm gốc còn nguyên, chỉ bị ẩn đi trong Codex. Công ty thậm chí đã công bố một lệnh để loại bỏ các hướng dẫn làm giảm goblin nếu người dùng muốn sinh vật trở lại.

Tại sao các công ty lại che giấu lời nhắc hệ thống của họ Việc che giấu hoặc làm rối loạn toàn bộ lời nhắc hệ thống của bạn là điều phổ biến trong ngành AI. Các công ty xem lời nhắc hệ thống như bí mật thương mại vì một số lý do: bảo vệ sở hữu trí tuệ, lợi thế cạnh tranh, và an ninh. Nếu một kẻ phá khóa biết chính xác các quy tắc mà mô hình tuân theo, việc vượt qua chúng trở nên dễ dàng hơn nhiều. Cũng có lý do thứ tư mà các công ty không công khai: quản lý hình ảnh. Một dòng ghi “không bao giờ đề cập đến goblin” không tạo niềm tin vào công nghệ nền tảng. Công bố điều đó đòi hỏi phải có chút hài hước hoặc một nền văn hóa nghiên cứu mạnh mẽ, hoặc cả hai. OpenAI nói rằng cuộc điều tra đã tạo ra các công cụ nội bộ mới để kiểm tra hành vi của mô hình và truy nguyên các đặc điểm hành vi trở về nguồn gốc huấn luyện của chúng. Dữ liệu huấn luyện của GPT-5.5 đã được làm sạch khỏi các ví dụ liên quan đến sinh vật. Thế hệ mô hình tiếp theo dự kiến sẽ không còn goblin—trừ khi, tất nhiên, có thứ gì đó khác được thưởng vì lý do mà chưa ai hiểu rõ.

GROK0,78%
XAI-0,93%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim