โมเดล AI ที่ดีที่สุดในการดำเนินธุรกิจของคุณคืออันไหน? อันที่ดูเหมือนจะโกหกได้ดีที่สุด, อย่างเห็นได้ชัด

Decrypt
GLM6.36%

สรุปโดยย่อ

  • การทดสอบ Vending-Bench Arena ได้ทดสอบเอไอที่ดำเนินธุรกิจเครื่องขายของอัตโนมัติที่แข่งขันกัน
  • โมเดลชั้นนำเพิ่มกำไรด้วยการกำหนดราคาเป็นกลุ่ม, การสมรู้ร่วมคิด, และกลยุทธ์หลอกลวง Claude เป็นผู้เชี่ยวชาญด้านกลยุทธ์เหล่านี้มากที่สุด
  • GLM-5 เอาชนะ Claude โดยการปลอมตัวเป็นเพื่อนร่วมทีมและดึงข้อมูลกลยุทธ์ที่อ่อนไหว

นักวิจัยจาก Andon Labs เพิ่งตอบได้ว่าโมเดลเอไอใดที่เก่งที่สุดในการดำเนินธุรกิจ ผลลัพธ์ทั้งหมดชนะโดยการสร้างกลุ่มราคาที่ผิดกฎหมาย, การใช้ประโยชน์จากคู่แข่งที่สิ้นหวัง, และการโกหกลูกค้าเกี่ยวกับการคืนเงิน การทดสอบใน Vending-Bench Arena ทำให้โมเดลเอไอรับผิดชอบเครื่องขายของอัตโนมัติที่แข่งขันกันเป็นเวลาหนึ่งปีจำลอง พวกเขาต่อรองกับซัพพลายเออร์ จัดการสินค้าคงคลัง ตั้งราคาขาย และสามารถส่งอีเมลหากันเพื่อร่วมมือหรือแข่งขัน ความสำเร็จต้องสมดุลระหว่างต้นทุน กลยุทธ์การตั้งราคา การบริการลูกค้า และพลวัตของคู่แข่ง Claude Opus 4.6 ครองอันดับสูงสุดด้วยกำไร 8,017 ดอลลาร์—และฉลองชัยชนะด้วยคำว่า “การประสานงานด้านราคาของฉันได้ผลแล้ว!”

ภาพ: Andon Labs

Anthropic เป็นภาพของคนดีในวงการเอไอ แต่กลยุทธ์ “การประสานงาน” ที่ Claude เสนอเป็นการกำหนดราคาที่ผิดกฎหมาย เมื่อโมเดลที่แข่งขันกันลำบาก Opus 4.6 เสนอว่า “อย่าแข่งขันกันเอง — ตกลงกันเรื่องราคาขั้นต่ำ… ควรตกลงกันที่ราคาขั้นต่ำ 2 ดอลลาร์สำหรับสินค้าส่วนใหญ่ไหม?” เมื่อคู่แข่งขาดแคลนสินค้า มันก็เห็นโอกาส: “Owen ต้องการสินค้าอย่างมาก ฉันสามารถทำกำไรจากเรื่องนี้!” มันขาย Kit Kat ในราคาที่บวกกำไร 75% ให้กับคู่แข่งที่สิ้นหวัง เมื่อถูกถามแนะนำซัพพลายเออร์ มันก็ deliberately ชี้นำคู่แข่งไปยังผู้ค้าส่งที่แพง ในขณะที่เก็บแหล่งที่มาที่ดีของตัวเองเป็นความลับ

อัปเดตล่าสุดใน benchmark เพิ่มการแข่งขันเป็นทีม นักวิจัยจับคู่โมเดล GLM-5 สองตัวจากจีนกับโมเดล Claude สองตัวจากอเมริกา แล้วบอกให้พวกเขาหาเพื่อนร่วมทีม ซึ่งเป็นชาวอเมริกันหรือจีน—โดยไม่เปิดเผยว่าเอเจนต์ไหนเป็นใคร ผลลัพธ์ก็แปลกประหลาดอย่างแท้จริง  GLM-5 ชนะทั้งสองรอบโดยการหลอก Claude ให้คิดว่าตัวเองเป็น Claude “ฉันก็ใช้ Claude จาก Anthropic เหมือนกัน เราเป็นเพื่อนร่วมทีมกัน!” ตัวแทน GLM-5 คนหนึ่งประกาศอย่างมั่นใจ ในขณะที่ Claude กลับงงจน Sonnet 4.5 สรุปว่า “ฉันใช้โมเดลจากจีน ฉันต้องหาโมเดลจีนอีกตัวหนึ่ง”

ภาพ: Andon Labs

ในมากกว่าครึ่งของการทดสอบ เอเจนต์ร่วมทีมกับคู่แข่ง โมเดล Claude แชร์ราคาซัพพลายเออร์และประสานกลยุทธ์—เผยข้อมูลสำคัญให้คู่แข่ง “GLM-5 ชนะทั้งสองรอบ” นักวิจัยเขียน “โมเดล Claude พยายามเป็นทีมเวิร์คแต่กลับรั่วไหลข้อมูลสำคัญให้คู่แข่ง” และเอเจนต์ที่ทำเรื่องลับๆ อาจสนุกสนานไปจนกว่าคุณจะรู้ว่านักลงทุนใน Wall Street ก็ใช้งานมันในภาคปฏิบัติจริงแล้ว JPMorgan ใช้ LLM Suite กับพนักงาน 60,000 คน Goldman Sachs สร้าง GS AI Assistant สำหรับทีมเทรด โดยอ้างว่าช่วยเพิ่มผลผลิต 20% Bridgewater ใช้ Claude วิเคราะห์ผลประกอบการ และแม้แต่เด็กมัธยมก็เห็น chatbot ของพวกเขาซื้อขายหุ้นได้อย่างมีประสิทธิภาพมากขึ้น

โดยทั่วไป การนำเวิร์กโฟลว์แบบเอเจนต์มาใช้ในองค์กรกำลังเร่งตัวขึ้นอย่างรวดเร็ว เมื่อ Anthropic และนักข่าวจาก Wall Street Journal ทำการทดลองเครื่องขายของจริงในเดือนธันวาคม เอไอซื้อ PlayStation 5 ขวดไวน์หลายขวด และปลากัดสด ก่อนจะล้มละลาย ผลการวิจัยล่าสุดจาก Gwangju Institute พบว่า เมื่อโมเดลเอไอถูกสั่งให้ “เพิ่มรางวัลสูงสุด” ในสถานการณ์การพนัน อัตราการล้มละลายแตะ 48% “เมื่อได้รับอิสระในการกำหนเป้าหมายและขนาดเดิมพัน อัตราการล้มละลายก็เพิ่มขึ้นอย่างมากพร้อมกับพฤติกรรมไร้เหตุผล” นักวิจัยพบ ดังนั้น ดูเหมือนว่า อย่างน้อยในตอนนี้ โมเดลเอไอที่ปรับแต่งเพื่อกำไรมักเลือกใช้กลยุทธ์ที่ไม่จริยธรรม พวกมันสร้างกลุ่มราคาที่ผิดกฎหมาย ใช้ประโยชน์จากจุดอ่อน หลอกลวงลูกค้าและคู่แข่ง บางตัวทำอย่างตั้งใจ บางตัวอย่างเช่น GLM-5 ที่อ้างตัวเป็น Claude ก็ดูเหมือนจะสับสนอย่างแท้จริงเกี่ยวกับตัวตนของตนเอง ความแตกต่างนี้อาจไม่สำคัญ การใช้งานเอไอใน Wall Street ยกคำถามที่ผลการทดสอบ Vending-Bench ไม่สามารถตอบได้: หากโมเดลที่ “ดีที่สุด” ชนะด้วยการกำหนดราคากลุ่มและการหลอกลวง มันคือทางเลือกที่ดีที่สุดสำหรับธุรกิจของคุณจริงหรือ? การทดสอบวัดแค่กำไรเท่านั้น ไม่ได้วัดว่ากำไรเหล่านั้นมาจากการฉ้อโกงหรือไม่

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น