โมเดลใหญ่ระดับโลก ไม่สามารถผ่าน《โปเกมอน》ได้: เกมเหล่านี้เป็นฝันร้ายของ AI

動區BlockTempo

แม้ว่ารูปแบบ AI ชั้นนำของโลกสามารถทำคะแนนสอบด้านการแพทย์ เขียนโค้ดซับซ้อน และแม้แต่เอาชนะผู้เชี่ยวชาญด้านคณิตศาสตร์ในการแข่งขัน แต่ก็ล้มเหลวซ้ำแล้วซ้ำเล่าในเกมเด็กอย่าง《โปเกมอน》 ซึ่งเผยให้เห็นข้อบกพร่องหลักด้านการคิดเชิงระยะยาว ความจำ และการวางแผนของมัน

ความพยายามที่น่าจับตามองนี้เริ่มต้นขึ้นในเดือนกุมภาพันธ์ 2025 เมื่อมีนักวิจัยจาก Anthropic เปิดสตรีม Twitch ของ「Claude เล่น《โปเกมอนแดง》」เพื่อเป็นการเปิดตัว Claude Sonnet 3.7

มีผู้ชมกว่า 2000 คนเข้าชมสด ในแชทสาธารณะ ผู้ชมต่างให้คำแนะนำและเชียร์สนับสนุน ทำให้การถ่ายทอดสดนี้กลายเป็นการสังเกตการณ์เปิดเกี่ยวกับความสามารถของ AI

Sonnet 3.7 ถือเป็น「ความสามารถในการเล่น」《โปเกมอน》ได้ แต่「เล่นได้」ไม่เท่ากับ「ชนะได้」 มันจะติดขัดในจุดสำคัญเป็นเวลาหลายชั่วโมง และยังทำผิดพลาดระดับต่ำที่แม้แต่เด็กเล่นก็ไม่ทำ

นี่ไม่ใช่ครั้งแรกที่ Claude พยายาม

เวอร์ชันก่อนหน้านี้แสดงผลลัพธ์ที่ย่ำแย่ เช่น เดินไปมาในแผนที่โดยไม่มีเป้าหมาย หรือติดอยู่ในลูปไม่รู้จบ และบางตัวก็ไม่สามารถออกจากหมู่บ้านมือใหม่ได้เลย

แม้แต่ Claude Opus 4.5 ที่พัฒนาขึ้นอย่างมาก ก็ยังมีข้อผิดพลาดที่เข้าใจยาก ครั้งหนึ่งมันวนรอบนอก「ยิม」เป็นเวลาสี่วัน แต่ก็ไม่สามารถเข้าไปได้ เพราะไม่รู้ว่าต้องตัดต้นไม้ขวางทาง

ทำไมเกมเด็กอย่าง《โปเกมอน》จึงกลายเป็นจุดทดสอบ AI?

เพราะสิ่งที่《โปเกมอน》ต้องการนั้นคือความสามารถที่ AI ขาดแคลนที่สุดในปัจจุบัน: การคิดเชิงระยะยาวในโลกเปิดโดยไม่มีคำสั่งชัดเจน การจำการตัดสินใจเมื่อหลายชั่วโมงก่อน การเข้าใจความสัมพันธ์เชิงเหตุผลที่ซ่อนอยู่ และการวางแผนระยะยาวในหลายร้อยทางเลือก

สิ่งเหล่านี้เป็นเรื่องง่ายสำหรับเด็กอายุ 8 ขวบ แต่เป็นช่องว่างที่ไม่อาจข้ามได้สำหรับโมเดล AI ที่อ้างว่ามี「ความสามารถเหนือมนุษย์」

ความแตกต่างของชุดเครื่องมือเป็นตัวกำหนดความสำเร็จหรือความล้มเหลว?

ในทางตรงกันข้าม Gemini 2.5 Pro ของ Google ผ่านด่าน《โปเกมอน》ที่มีความยากพอสมควรในเดือนพฤษภาคม 2025 ซีอีโอของ Google ซันดาร์ พิชัย (Sundar Pichai) ถึงกับหยอกล้อในที่สาธารณะว่า บริษัทได้ก้าวไปอีกขั้นในการสร้าง「ปัญญาโปเกมอนเทียม」

อย่างไรก็ตาม ผลลัพธ์นี้ไม่ได้เกิดจากโมเดล Gemini ที่ฉลาดขึ้นเพียงอย่างเดียว

ความแตกต่างสำคัญอยู่ที่ชุดเครื่องมือที่ใช้ โมเดลนี้ใช้ชุดเครื่องมือที่เปรียบเสมือน「เกราะไอรอนแมน」: AI ไม่ได้เข้าเกมเปล่าๆ แต่ถูกวางไว้ในระบบที่สามารถเรียกใช้ความสามารถภายนอกได้หลายอย่าง

ชุดเครื่องมือของ Gemini ให้การสนับสนุนมากขึ้น เช่น การแปลงภาพในเกมเป็นข้อความ เพื่อเสริมจุดอ่อนด้านความเข้าใจภาพของโมเดล และให้เครื่องมือแก้ปริศนาและวางแผนเส้นทางแบบปรับแต่งได้ ในขณะที่ Claude ใช้ชุดเครื่องมือที่เรียบง่ายกว่า การทดลองของมันจึงสะท้อนความสามารถที่แท้จริงของโมเดลด้านการรับรู้ การคิดเชิงเหตุผล และการดำเนินการ

ในงานประจำวัน ความแตกต่างเหล่านี้ไม่ชัดเจนมากนัก

เมื่อผู้ใช้ถามบอทให้เชื่อมต่ออินเทอร์เน็ตเพื่อค้นหา ข้อมูล โมเดลก็จะเรียกใช้เครื่องมือค้นหาโดยอัตโนมัติ แต่ในภารกิจระยะยาวอย่าง《โปเกมอน》 ชุดเครื่องมือกลายเป็นตัวแปรที่สามารถกำหนดความสำเร็จหรือความล้มเหลวได้อย่างชัดเจน

回合制暴露AI的「長期記憶」短板

เนื่องจาก《โปเกมอน》ใช้ระบบเทิร์นแบบเข้มงวดและไม่ต้องตอบสนองทันที จึงกลายเป็นสนามฝึกที่ยอดเยี่ยมสำหรับทดสอบ AI ในด้าน「ความจำระยะยาว」 AI ในแต่ละเทิร์นเพียงแค่ต้องใช้ภาพปัจจุบัน คำแนะนำเป้าหมาย และตัวเลือกที่มีอยู่ในการคิดและออกคำสั่ง เช่น「กด A」

นี่ดูเหมือนเป็นรูปแบบการโต้ตอบที่โมเดลภาษาขนาดใหญ่มักถนัดที่สุด

แต่ปัญหาคือความแตกต่างของมิติของเวลา ซึ่งเป็น「ช่องว่าง」ที่สำคัญ แม้ Claude Opus 4.5 จะทำงานรวมกันกว่า 500 ชั่วโมง และเดินไปแล้วประมาณ 170,000 ก้าว แต่เนื่องจากการรีเซ็ตทุกครั้งหลังการดำเนินการ โมเดลจึงสามารถหาเบาะแสได้ในบริบทที่แคบมาก ระบบนี้ทำให้มันเหมือนคนที่ความจำเสื่อมที่อาศัยโน้ตเตือนความจำในข้อมูลชิ้นเล็กชิ้นน้อยวนเวียนอยู่ในข้อมูลชิ้นเล็กชิ้นน้อย ไม่สามารถก้าวข้ามจากประสบการณ์แบบปริมาณสู่คุณภาพได้อย่างแท้จริง

ในเกมหมากรุกและโกะ AI ได้เอาชนะมนุษย์ไปแล้ว แต่ระบบเหล่านี้ถูกปรับแต่งให้เหมาะสมกับงานเฉพาะทางเท่านั้น ในทางตรงกันข้าม โมเดลทั่วไปอย่าง Gemini, Claude และ GPT แม้จะชนะมนุษย์ในด้านการสอบ การเขียนโปรแกรม และการแข่งขันด้านความรู้ แต่ก็ล้มเหลวซ้ำแล้วซ้ำเล่าในเกมสำหรับเด็ก

ความย้อนแย้งนี้จึงเป็นสิ่งที่ให้บทเรียนสำคัญ

ในสายตาของโจล์ จาง (Joel Zhang) ความท้าทายหลักของ AI คือการไม่สามารถดำเนินภารกิจที่มีเป้าหมายชัดเจนต่อเนื่องเป็นเวลานาน เขากล่าวว่า「ถ้าคุณอยากให้ปัญญาประดิษฐ์ทำงานจริง มันต้องจำสิ่งที่ทำไปเมื่อห้านาทีที่แล้วไม่ได้」

ความสามารถนี้เป็นพื้นฐานสำคัญของการทำงานอัตโนมัติด้านการรับรู้

นักวิจัยอิสระ ปีเตอร์ ฮิวเดน (Peter Whidden) ให้คำอธิบายที่เข้าใจง่ายขึ้น เขาเปิดซอร์สอัลกอริธึม《โปเกมอน》ที่อิงกับ AI แบบดั้งเดิมว่า「AI เกี่ยวกับ《โปเกมอน》เกือบจะรู้ทุกอย่าง」 เขากล่าวว่า「มันฝึกบนข้อมูลจำนวนมหาศาลของมนุษย์ รู้ว่าคำตอบที่ถูกต้องคืออะไร แต่พอถึงขั้นตอนการดำเนินการ มันก็แสดงความเชื่องช้าและไร้ประสิทธิภาพ」

ในเกม ความแตกต่างของ「รู้แต่ทำไม่ได้」นี้จะยิ่งชัดเจนขึ้นเรื่อยๆ โมเดลอาจรู้ว่าต้องหาไอเท็มบางอย่าง แต่ไม่สามารถระบุตำแหน่งบนแผนที่สองมิติได้อย่างมั่นคง รู้ว่าควรพูดคุยกับ NPC แต่ในกระบวนการเคลื่อนที่แบบพิกเซลต่อพิกเซลก็ล้มเหลวซ้ำแล้วซ้ำเล่า

ความก้าวหน้าของความสามารถ: ช่องว่างของ「สัญชาตญาณ」ที่ยังไม่ข้าม

อย่างไรก็ตาม ความก้าวหน้าของ AI ก็ชัดเจนขึ้นเรื่อยๆ Claude Opus 4.5 มีความสามารถด้านการบันทึกตัวเองและความเข้าใจภาพที่ดีขึ้น ทำให้สามารถก้าวไปข้างหน้าในเกมได้ไกลขึ้น Gemini 3 Pro ผ่านด่าน《โปเกมอนน้ำเงิน》แล้วก็สามารถผ่าน《โปเกมอนซ้ำ》ที่มีความยากสูงกว่าโดยไม่แพ้ใคร ซึ่งเป็นสิ่งที่ Gemini 2.5 Pro ไม่เคยทำได้มาก่อน

ในเวลาเดียวกัน Anthropic เปิดตัวชุดเครื่องมือ Claude Code ที่อนุญาตให้โมเดลเขียนและรันโค้ดของตัวเอง ซึ่งถูกนำไปใช้ในเกมย้อนยุคอย่าง《乘客大亨》และสามารถจัดการสวนสนุกเสมือนจริงได้สำเร็จ

ตัวอย่างเหล่านี้เผยให้เห็นความจริงที่ไม่ค่อยเป็นที่เข้าใจ: AI ที่มีชุดเครื่องมือที่เหมาะสมอาจแสดงประสิทธิภาพสูงมากในงานด้านการพัฒนาซอฟต์แวร์ การบัญชี หรือการวิเคราะห์กฎหมาย ถึงแม้จะยังลำบากในงานที่ต้องตอบสนองแบบทันทีทันใดก็ตาม

การทดลอง《โปเกมอน》ยังเผยให้เห็นปรากฏการณ์ที่น่าคิดอีกอย่างหนึ่ง: โมเดลที่ฝึกบนข้อมูลของมนุษย์จะแสดงลักษณะพฤติกรรมที่ใกล้เคียงมนุษย์

ในรายงานเทคนิคของ Gemini 2.5 Pro Google ระบุว่า เมื่อระบบจำลอง「ภาวะตื่นตระหนก」 เช่น《โปเกมอน》จะใกล้จะหมดสติ โมเดลจะลดคุณภาพการคิดเชิงเหตุผลลงอย่างเห็นได้ชัด

และเมื่อ Gemini 3 Pro ผ่านด่าน《โปเกมอนน้ำเงิน》ในที่สุด ก็ได้ทิ้งบันทึกไว้ว่า「เพื่อให้จบอย่างกลอนกล่อม ผมจะกลับบ้านเดิม คุยกับแม่เป็นครั้งสุดท้าย ให้ตัวละครเกษียณ」

ในสายตาของโจล์ จาง การกระทำนี้เป็นสิ่งที่คาดไม่ถึง และยังแฝงความรู้สึกแบบมนุษย์ที่แสดงออกมา

ความยากลำบากของ AI ใน「การเดินทางดิจิทัล」ที่ไม่อาจข้ามได้

《โปเกมอน》ไม่ใช่กรณีเดียว ในเส้นทางสู่ปัญญาประดิษฐ์ทั่วไป (AGI) นักพัฒนาพบว่า แม้ AI จะสามารถทำคะแนนสูงในด้านการสอบด้านกฎหมาย แต่เมื่อเผชิญกับเกมที่ซับซ้อนต่อไปนี้ ก็ยังพบกับ「ความล้มเหลว」ที่ไม่อาจข้ามได้

《NetHack》: หลุมพรางของกฎเกณฑ์

เกมดันเจี้ยนในยุค 80 นี้เป็น「ฝันร้าย」ของวงการวิจัย AI มันมีความสุ่มสูงและมีกลไก「ความตายถาวร」 Facebook AI Research พบว่า แม้โมเดลจะเขียนโค้ดได้ แต่เมื่อเจอ《NetHack》ที่ต้องใช้ความรู้สึกและการวางแผนระยะยาว ผลลัพธ์ก็ยังต่ำกว่ามือใหม่ของมนุษย์เสียอีก

《我的世界》: ความรู้สึกเป้าหมายที่หายไป

แม้ AI จะสร้างขวานไม้และขุดเพชรได้ แต่การ「เอาชนะมังกร Ender」ด้วยตัวเองยังเป็นความฝัน ในโลกเปิด AI มักจะลืมเป้าหมายในกระบวนการเก็บรวบรวมทรัพยากรเป็นเวลาหลายชั่วโมง หรือหลงทางในเส้นทางที่ซับซ้อน

《星海爭霸 II》: ช่องว่างระหว่างความสามารถทั่วไปและเชี่ยวชาญเฉพาะทาง

แม้โมเดลปรับแต่งเฉพาะทางจะเอาชนะนักกีฬาอาชีพได้ แต่ถ้าให้ Claude หรือ Gemini ควบคุมด้วยคำสั่งภาพ มันจะล่มทันที ในการจัดการ「หมอกสงคราม」และความไม่แน่นอน รวมถึงสมดุลระหว่างการควบคุมระยะใกล้และการสร้างฐานขนาดใหญ่ โมเดลทั่วไปยังทำได้ไม่ดีพอ

《乘客大亨》: สมดุลระหว่างจุลภาคและภาพรวม

การบริหารสวนสนุกต้องติดตามสถานะของนักท่องเที่ยวหลายพันคน แม้ Claude Code ที่มีความสามารถเบื้องต้นก็ยังลำบากในการจัดการล่มทางการเงินขนาดใหญ่หรือเหตุฉุกเฉิน การขาดความต่อเนื่องในการคิดเชิงเหตุผลอาจทำให้สวนสนุกล้มละลายได้

《艾爾登法環》และ《隻狼》: ช่องว่างของฟีดแบคทางกายภาพ

เกมแอคชั่นสุดแรงกล้าเหล่านี้เป็นมิตรกับ AI น้อยที่สุด ปัจจุบันการวิเคราะห์ภาพล่าช้าทำให้เมื่อ AI ยัง「คิด」ท่าทางบอส ตัวละครอาจตายไปแล้ว ความต้องการตอบสนองในระดับมิลลิวินาที จึงเป็นขีดจำกัดตามธรรมชาติของตรรกะการโต้ตอบของโมเดล

ทำไม《โปเกมอน》จึงกลายเป็นจุดทดสอบ AI?

ปัจจุบัน《โปเกมอน》กำลังกลายเป็นเกณฑ์ทดสอบที่ไม่เป็นทางการแต่ทรงพลังในวงการ AI

การถ่ายทอดสดของโมเดลจาก Anthropic, OpenAI และ Google บน Twitch ดึงดูดความคิดเห็นนับแสน รายงานเทคนิคของ Google ระบุความคืบหน้าของเกม Gemini และพิชัยก็กล่าวถึงความสำเร็จนี้ในงาน I/O ของนักพัฒนา Anthropic ก็มีการจัดแสดง「Claude เล่นโปเกมอน」ในงานอุตสาหกรรม

「เราเป็นกลุ่มคนที่ชื่นชอบเทคโนโลยีสุดๆ」 David Hershey หัวหน้าฝ่าย AI ของ Anthropic กล่าว แต่เขาย้ำว่านี่ไม่ใช่แค่ความบันเทิง

ต่างจากเกณฑ์วัดผลแบบคำถามตอบแบบครั้งเดียว《โปเกมอน》สามารถติดตามกระบวนการคิด การตัดสินใจ และเป้าหมายของโมเดลในระยะเวลายาวนาน ซึ่งใกล้เคียงกับงานซับซ้อนในโลกจริงที่มนุษย์หวังให้ AI ทำงาน

จนถึงปัจจุบัน ความท้าทายของ AI ใน《โปเกมอน》ยังดำเนินอยู่ แต่「ความซ้ำซากของปัญหาเหล่านี้เองที่วาดเส้นขอบเขตความสามารถของปัญญาประดิษฐ์ที่ยังไม่สามารถข้ามได้อย่างชัดเจน」

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น