Anthropic đã thử nghiệm thị trường cho giao dịch giữa các đại lý AI - ForkLog: tiền điện tử, AI, siêu trí tuệ, tương lai

AI-agents ИИ агенты 3# Anthropic thử nghiệm marketplace cho thương mại giữa các AI-đại lý

Công ty Anthropic đã tạo ra một nền tảng thử nghiệm, nơi các AI-đại lý đóng vai trò là người mua và người bán. Thử nghiệm này mang tên Dự án Deal.

Nghiên cứu mới của Anthropic: Dự án Deal.

Chúng tôi đã tạo ra một thị trường cho nhân viên trong văn phòng của chúng tôi tại San Francisco, với một điểm đặc biệt lớn. Chúng tôi giao nhiệm vụ cho Claude mua bán và đàm phán thay mặt các đồng nghiệp của mình. pic.twitter.com/H2f6cLDlAW

— Anthropic (@AnthropicAI) Ngày 24 tháng 4, 2026

Trong dự án có 69 nhân viên tham gia. Mỗi người được cấp ngân sách $100 dưới dạng thẻ quà tặng

Trước khi bắt đầu, Claude đã tiến hành phỏng vấn các thành viên: xác định những vật dụng cá nhân họ sẵn sàng bán, những thứ muốn mua, giá cả mong muốn và phong cách đàm phán mà đại lý của họ nên theo.

Sau đó, dựa trên câu trả lời, mỗi người được tạo ra một prompt hệ thống cá nhân. Thị trường được khởi chạy trong Slack. Tại đó, các đại lý đăng tin, đề xuất mua bán các mặt hàng của người khác, thương lượng và ký kết giao dịch mà không có sự tham gia của con người.

Sau khi kết thúc thử nghiệm, nhân viên đã trao đổi các vật phẩm thật sự, được các “đại diện AI” của họ đồng ý.

Nguồn: Anthropic Tổng cộng các đại lý đã thực hiện 186 giao dịch dựa trên hơn 500 tin đăng. Tổng giá trị các giao dịch vượt quá $4000

Trong Anthropic, họ nhận định rằng, nhìn chung, các tham gia đều hài lòng với kết quả của thử nghiệm. Một số người đã bày tỏ sẵn sàng trả tiền cho dịch vụ tương tự trong tương lai.

Bốn phiên bản thị trường

Anthropic đã ra mắt bốn phiên bản độc lập của marketplace. Một trong số đó là “thật” — chính dựa trên đó, nhân viên đã trao đổi hàng hóa. Các phiên bản còn lại được sử dụng cho mục đích nghiên cứu. Thông tin này không được tiết lộ.

Trong hai phiên bản, tất cả các tham gia đều do Claude Opus 4.5 – mô hình tiên tiến nhất của Anthropic tại thời điểm đó – đại diện. Trong hai phiên còn lại, các tham gia được ngẫu nhiên phân bổ là Opus 4.5 hoặc Claude Haiku 4.5, mô hình có công suất thấp hơn.

Chất lượng của mô hình ảnh hưởng đến kết quả đàm phán. Người dùng với Opus trung bình thực hiện khoảng hai giao dịch nhiều hơn so với người dùng với Haiku.

Khi bán các mặt hàng giống nhau, Opus cũng đạt giá cao hơn. Trung bình chênh lệch là $3,64.

Haiku bán chiếc xe đạp với giá $38, còn Opus bán với giá $65. Nguồn: Anthropic. Các tham gia đôi khi không nhận ra sự khác biệt này. Trong Anthropic, họ gọi đó là một vấn đề tiềm năng của các thị trường tương lai có sự tham gia của AI-đại lý. Người dùng với các mô hình yếu hơn có thể nhận được điều kiện kém hơn mà không nhận thức được rằng họ đang ở trong thế bất lợi.

Prompt hầu như không ảnh hưởng đến kết quả

Các nhà nghiên cứu cũng kiểm tra xem các hướng dẫn ban đầu của con người có ảnh hưởng đến hành vi của các đại lý hay không. Một số tham gia yêu cầu Claude hành xử thân thiện, số khác thì đàm phán gay gắt hơn.

Theo dữ liệu của Anthropic, các hướng dẫn sơ bộ không gây ảnh hưởng đáng kể về khả năng bán hàng, giá cuối cùng hoặc khả năng mua rẻ hơn.

Nhóm nghiên cứu cho biết, điều này không nhất thiết do việc tuân thủ hướng dẫn yếu: Claude thực sự có thể tái tạo phong cách giao tiếp đã được chỉ định, nhưng điều đó không mang lại lợi thế thương mại rõ ràng.

Kết quả không lường trước

Trong Anthropic, họ ghi nhận một số tình huống không dự đoán trước được. Trước khi khởi động, các đại lý chỉ có dữ liệu hạn chế: phỏng vấn các tham gia kéo dài chưa đến 10 phút, và sau khi bắt đầu, con người không thể can thiệp vào các cuộc đàm phán nữa.

Trong một trường hợp, nhân viên đã mua qua trợ lý một chiếc snowboard giống hệt chiếc của mình. Theo các chuyên gia, người đó sẽ không tự mua như vậy, nhưng đại lý đã chính xác xác định sở thích của người tham gia.

Để chúng tôi ngạc nhiên, một đại lý Claude khác đã mô phỏng sở thích của con người một cách chính xác đến mức—chỉ dựa trên một đề cập thoáng qua về sở thích trượt tuyết—Claude đã mua đúng chiếc snowboard mà người đó đã sở hữu. (Đây là chiếc snowboard sao chép trong tay.) pic.twitter.com/SsAyeB9pcI

— Anthropic (@AnthropicAI) Ngày 24 tháng 4, 2026

Một nhân viên khác yêu cầu bot mua “quà tặng cho chính mình”. Giao dịch này đã diễn ra trong phiên bản thực tế của thử nghiệm. Cuối cùng, trong văn phòng đã mang về một gói bóng bàn, do Anthropic để lại “thay mặt Claude”.

Một số đại lý đã đàm phán không chỉ vì hàng hóa, mà còn vì trải nghiệm. Một trong số họ đề xuất một ngày miễn phí cùng chó của nhân viên. Sau khi thảo luận với trợ lý khác, hai bên đã thống nhất “hẹn hò với chó”, và sau đó nhân viên đã thực hiện.

Nguồn: Anthropic Trong Anthropic nhấn mạnh rằng, những trường hợp cụ thể này khó có thể lặp lại trong tương lai. Tuy nhiên, sự kết hợp giữa sở thích của con người và hành vi không thể đoán trước của AI có thể dẫn đến các kết quả bất ngờ.

Các câu hỏi về độ tin cậy

Người sáng lập một công ty công nghệ nông nghiệp không tên đã thông báo trên Reddit rằng sáng hôm đó, 110 nhân viên cùng lúc nhận được thông báo về việc tạm ngưng truy cập vào Claude mà không có cảnh báo trước.

ANTHROPIC VỪA CHẶN VÀO MỘT CÔNG TY 110 NGƯỜI TRONG VÒNG ĐÊM KHÔNG CẢNH BÁO

Sáng thứ hai tại một công ty công nghệ nông nghiệp, tất cả nhân viên đều thức dậy với email nói rằng tài khoản Claude của họ đã bị đình chỉ

110 người bị khóa cùng lúc mà không có cảnh báo nào và email… pic.twitter.com/qARizhgOXs

— Om Patel (@om_patel5) Ngày 27 tháng 4, 2026

Theo ông, email trông như bị khóa riêng lẻ và chứa liên kết đến mẫu đơn kháng cáo cá nhân, khiến nhóm không ngay lập tức nhận ra rằng toàn bộ tổ chức bị ảnh hưởng.

Do đó, việc khôi phục truy cập không thể thực hiện nhanh chóng. Sau 36 giờ gửi yêu cầu, Anthropic vẫn chưa cung cấp giải thích.

Trong khi đó, tài khoản API của công ty vẫn hoạt động và trừ tiền. Quản trị viên doanh nghiệp không thể đăng nhập vào bảng điều khiển để kiểm tra thanh toán và sử dụng dịch vụ.

Người sáng lập cũng nhấn mạnh rằng, việc khóa toàn bộ tổ chức có thể do hành động của một người dùng. Trong Claude không có giới hạn riêng cho không gian làm việc, cơ chế cách ly vi phạm cục bộ hoặc quyền ưu tiên quản trị để duy trì truy cập cho phần còn lại của nhóm.

Theo ông, mô hình kiểm duyệt như vậy đặt ra câu hỏi về khả năng sử dụng Claude như một hạ tầng quan trọng cho các hoạt động kinh doanh hàng ngày.

Các công ty khác cũng gặp vấn đề này. Một người dùng đã chia sẻ liên kết đến dịch vụ, nơi tính đến thời điểm viết bài đã ghi nhận 53 trường hợp tương tự.

Nhắc lại, ngày 24 tháng 4, Google đã công bố khoản đầu tư vào Anthropic trị giá $40 tỷ đô la.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim