แม้ว่ารูปแบบ AI ชั้นนำของโลกสามารถทำคะแนนสอบด้านการแพทย์ เขียนโค้ดซับซ้อน และแม้แต่เอาชนะผู้เชี่ยวชาญด้านคณิตศาสตร์ในการแข่งขัน แต่ก็ล้มเหลวซ้ำแล้วซ้ำเล่าในเกมเด็กอย่าง《โปเกมอน》 ซึ่งเผยให้เห็นข้อบกพร่องหลักด้านการคิดเชิงระยะยาว ความจำ และการวางแผนของมัน
ความพยายามที่น่าจับตามองนี้เริ่มต้นขึ้นในเดือนกุมภาพันธ์ 2025 เมื่อมีนักวิจัยจาก Anthropic เปิดสตรีม Twitch ของ「Claude เล่น《โปเกมอนแดง》」เพื่อเป็นการเปิดตัว Claude Sonnet 3.7
มีผู้ชมกว่า 2000 คนเข้าชมสด ในแชทสาธารณะ ผู้ชมต่างให้คำแนะนำและเชียร์สนับสนุน ทำให้การถ่ายทอดสดนี้กลายเป็นการสังเกตการณ์เปิดเกี่ยวกับความสามารถของ AI
Sonnet 3.7 ถือเป็น「ความสามารถในการเล่น」《โปเกมอน》ได้ แต่「เล่นได้」ไม่เท่ากับ「ชนะได้」 มันจะติดขัดในจุดสำคัญเป็นเวลาหลายชั่วโมง และยังทำผิดพลาดระดับต่ำที่แม้แต่เด็กเล่นก็ไม่ทำ
นี่ไม่ใช่ครั้งแรกที่ Claude พยายาม
เวอร์ชันก่อนหน้านี้แสดงผลลัพธ์ที่ย่ำแย่ เช่น เดินไปมาในแผนที่โดยไม่มีเป้าหมาย หรือติดอยู่ในลูปไม่รู้จบ และบางตัวก็ไม่สามารถออกจากหมู่บ้านมือใหม่ได้เลย
แม้แต่ Claude Opus 4.5 ที่พัฒนาขึ้นอย่างมาก ก็ยังมีข้อผิดพลาดที่เข้าใจยาก ครั้งหนึ่งมันวนรอบนอก「ยิม」เป็นเวลาสี่วัน แต่ก็ไม่สามารถเข้าไปได้ เพราะไม่รู้ว่าต้องตัดต้นไม้ขวางทาง
ทำไมเกมเด็กอย่าง《โปเกมอน》จึงกลายเป็นจุดทดสอบ AI?
เพราะสิ่งที่《โปเกมอน》ต้องการนั้นคือความสามารถที่ AI ขาดแคลนที่สุดในปัจจุบัน: การคิดเชิงระยะยาวในโลกเปิดโดยไม่มีคำสั่งชัดเจน การจำการตัดสินใจเมื่อหลายชั่วโมงก่อน การเข้าใจความสัมพันธ์เชิงเหตุผลที่ซ่อนอยู่ และการวางแผนระยะยาวในหลายร้อยทางเลือก
สิ่งเหล่านี้เป็นเรื่องง่ายสำหรับเด็กอายุ 8 ขวบ แต่เป็นช่องว่างที่ไม่อาจข้ามได้สำหรับโมเดล AI ที่อ้างว่ามี「ความสามารถเหนือมนุษย์」
ในทางตรงกันข้าม Gemini 2.5 Pro ของ Google ผ่านด่าน《โปเกมอน》ที่มีความยากพอสมควรในเดือนพฤษภาคม 2025 ซีอีโอของ Google ซันดาร์ พิชัย (Sundar Pichai) ถึงกับหยอกล้อในที่สาธารณะว่า บริษัทได้ก้าวไปอีกขั้นในการสร้าง「ปัญญาโปเกมอนเทียม」
อย่างไรก็ตาม ผลลัพธ์นี้ไม่ได้เกิดจากโมเดล Gemini ที่ฉลาดขึ้นเพียงอย่างเดียว
ความแตกต่างสำคัญอยู่ที่ชุดเครื่องมือที่ใช้ โมเดลนี้ใช้ชุดเครื่องมือที่เปรียบเสมือน「เกราะไอรอนแมน」: AI ไม่ได้เข้าเกมเปล่าๆ แต่ถูกวางไว้ในระบบที่สามารถเรียกใช้ความสามารถภายนอกได้หลายอย่าง
ชุดเครื่องมือของ Gemini ให้การสนับสนุนมากขึ้น เช่น การแปลงภาพในเกมเป็นข้อความ เพื่อเสริมจุดอ่อนด้านความเข้าใจภาพของโมเดล และให้เครื่องมือแก้ปริศนาและวางแผนเส้นทางแบบปรับแต่งได้ ในขณะที่ Claude ใช้ชุดเครื่องมือที่เรียบง่ายกว่า การทดลองของมันจึงสะท้อนความสามารถที่แท้จริงของโมเดลด้านการรับรู้ การคิดเชิงเหตุผล และการดำเนินการ
ในงานประจำวัน ความแตกต่างเหล่านี้ไม่ชัดเจนมากนัก
เมื่อผู้ใช้ถามบอทให้เชื่อมต่ออินเทอร์เน็ตเพื่อค้นหา ข้อมูล โมเดลก็จะเรียกใช้เครื่องมือค้นหาโดยอัตโนมัติ แต่ในภารกิจระยะยาวอย่าง《โปเกมอน》 ชุดเครื่องมือกลายเป็นตัวแปรที่สามารถกำหนดความสำเร็จหรือความล้มเหลวได้อย่างชัดเจน
เนื่องจาก《โปเกมอน》ใช้ระบบเทิร์นแบบเข้มงวดและไม่ต้องตอบสนองทันที จึงกลายเป็นสนามฝึกที่ยอดเยี่ยมสำหรับทดสอบ AI ในด้าน「ความจำระยะยาว」 AI ในแต่ละเทิร์นเพียงแค่ต้องใช้ภาพปัจจุบัน คำแนะนำเป้าหมาย และตัวเลือกที่มีอยู่ในการคิดและออกคำสั่ง เช่น「กด A」
นี่ดูเหมือนเป็นรูปแบบการโต้ตอบที่โมเดลภาษาขนาดใหญ่มักถนัดที่สุด
แต่ปัญหาคือความแตกต่างของมิติของเวลา ซึ่งเป็น「ช่องว่าง」ที่สำคัญ แม้ Claude Opus 4.5 จะทำงานรวมกันกว่า 500 ชั่วโมง และเดินไปแล้วประมาณ 170,000 ก้าว แต่เนื่องจากการรีเซ็ตทุกครั้งหลังการดำเนินการ โมเดลจึงสามารถหาเบาะแสได้ในบริบทที่แคบมาก ระบบนี้ทำให้มันเหมือนคนที่ความจำเสื่อมที่อาศัยโน้ตเตือนความจำในข้อมูลชิ้นเล็กชิ้นน้อยวนเวียนอยู่ในข้อมูลชิ้นเล็กชิ้นน้อย ไม่สามารถก้าวข้ามจากประสบการณ์แบบปริมาณสู่คุณภาพได้อย่างแท้จริง
ในเกมหมากรุกและโกะ AI ได้เอาชนะมนุษย์ไปแล้ว แต่ระบบเหล่านี้ถูกปรับแต่งให้เหมาะสมกับงานเฉพาะทางเท่านั้น ในทางตรงกันข้าม โมเดลทั่วไปอย่าง Gemini, Claude และ GPT แม้จะชนะมนุษย์ในด้านการสอบ การเขียนโปรแกรม และการแข่งขันด้านความรู้ แต่ก็ล้มเหลวซ้ำแล้วซ้ำเล่าในเกมสำหรับเด็ก
ความย้อนแย้งนี้จึงเป็นสิ่งที่ให้บทเรียนสำคัญ
ในสายตาของโจล์ จาง (Joel Zhang) ความท้าทายหลักของ AI คือการไม่สามารถดำเนินภารกิจที่มีเป้าหมายชัดเจนต่อเนื่องเป็นเวลานาน เขากล่าวว่า「ถ้าคุณอยากให้ปัญญาประดิษฐ์ทำงานจริง มันต้องจำสิ่งที่ทำไปเมื่อห้านาทีที่แล้วไม่ได้」
ความสามารถนี้เป็นพื้นฐานสำคัญของการทำงานอัตโนมัติด้านการรับรู้
นักวิจัยอิสระ ปีเตอร์ ฮิวเดน (Peter Whidden) ให้คำอธิบายที่เข้าใจง่ายขึ้น เขาเปิดซอร์สอัลกอริธึม《โปเกมอน》ที่อิงกับ AI แบบดั้งเดิมว่า「AI เกี่ยวกับ《โปเกมอน》เกือบจะรู้ทุกอย่าง」 เขากล่าวว่า「มันฝึกบนข้อมูลจำนวนมหาศาลของมนุษย์ รู้ว่าคำตอบที่ถูกต้องคืออะไร แต่พอถึงขั้นตอนการดำเนินการ มันก็แสดงความเชื่องช้าและไร้ประสิทธิภาพ」
ในเกม ความแตกต่างของ「รู้แต่ทำไม่ได้」นี้จะยิ่งชัดเจนขึ้นเรื่อยๆ โมเดลอาจรู้ว่าต้องหาไอเท็มบางอย่าง แต่ไม่สามารถระบุตำแหน่งบนแผนที่สองมิติได้อย่างมั่นคง รู้ว่าควรพูดคุยกับ NPC แต่ในกระบวนการเคลื่อนที่แบบพิกเซลต่อพิกเซลก็ล้มเหลวซ้ำแล้วซ้ำเล่า
อย่างไรก็ตาม ความก้าวหน้าของ AI ก็ชัดเจนขึ้นเรื่อยๆ Claude Opus 4.5 มีความสามารถด้านการบันทึกตัวเองและความเข้าใจภาพที่ดีขึ้น ทำให้สามารถก้าวไปข้างหน้าในเกมได้ไกลขึ้น Gemini 3 Pro ผ่านด่าน《โปเกมอนน้ำเงิน》แล้วก็สามารถผ่าน《โปเกมอนซ้ำ》ที่มีความยากสูงกว่าโดยไม่แพ้ใคร ซึ่งเป็นสิ่งที่ Gemini 2.5 Pro ไม่เคยทำได้มาก่อน
ในเวลาเดียวกัน Anthropic เปิดตัวชุดเครื่องมือ Claude Code ที่อนุญาตให้โมเดลเขียนและรันโค้ดของตัวเอง ซึ่งถูกนำไปใช้ในเกมย้อนยุคอย่าง《乘客大亨》และสามารถจัดการสวนสนุกเสมือนจริงได้สำเร็จ
ตัวอย่างเหล่านี้เผยให้เห็นความจริงที่ไม่ค่อยเป็นที่เข้าใจ: AI ที่มีชุดเครื่องมือที่เหมาะสมอาจแสดงประสิทธิภาพสูงมากในงานด้านการพัฒนาซอฟต์แวร์ การบัญชี หรือการวิเคราะห์กฎหมาย ถึงแม้จะยังลำบากในงานที่ต้องตอบสนองแบบทันทีทันใดก็ตาม
การทดลอง《โปเกมอน》ยังเผยให้เห็นปรากฏการณ์ที่น่าคิดอีกอย่างหนึ่ง: โมเดลที่ฝึกบนข้อมูลของมนุษย์จะแสดงลักษณะพฤติกรรมที่ใกล้เคียงมนุษย์
ในรายงานเทคนิคของ Gemini 2.5 Pro Google ระบุว่า เมื่อระบบจำลอง「ภาวะตื่นตระหนก」 เช่น《โปเกมอน》จะใกล้จะหมดสติ โมเดลจะลดคุณภาพการคิดเชิงเหตุผลลงอย่างเห็นได้ชัด
และเมื่อ Gemini 3 Pro ผ่านด่าน《โปเกมอนน้ำเงิน》ในที่สุด ก็ได้ทิ้งบันทึกไว้ว่า「เพื่อให้จบอย่างกลอนกล่อม ผมจะกลับบ้านเดิม คุยกับแม่เป็นครั้งสุดท้าย ให้ตัวละครเกษียณ」
ในสายตาของโจล์ จาง การกระทำนี้เป็นสิ่งที่คาดไม่ถึง และยังแฝงความรู้สึกแบบมนุษย์ที่แสดงออกมา
《โปเกมอน》ไม่ใช่กรณีเดียว ในเส้นทางสู่ปัญญาประดิษฐ์ทั่วไป (AGI) นักพัฒนาพบว่า แม้ AI จะสามารถทำคะแนนสูงในด้านการสอบด้านกฎหมาย แต่เมื่อเผชิญกับเกมที่ซับซ้อนต่อไปนี้ ก็ยังพบกับ「ความล้มเหลว」ที่ไม่อาจข้ามได้
เกมดันเจี้ยนในยุค 80 นี้เป็น「ฝันร้าย」ของวงการวิจัย AI มันมีความสุ่มสูงและมีกลไก「ความตายถาวร」 Facebook AI Research พบว่า แม้โมเดลจะเขียนโค้ดได้ แต่เมื่อเจอ《NetHack》ที่ต้องใช้ความรู้สึกและการวางแผนระยะยาว ผลลัพธ์ก็ยังต่ำกว่ามือใหม่ของมนุษย์เสียอีก
แม้ AI จะสร้างขวานไม้และขุดเพชรได้ แต่การ「เอาชนะมังกร Ender」ด้วยตัวเองยังเป็นความฝัน ในโลกเปิด AI มักจะลืมเป้าหมายในกระบวนการเก็บรวบรวมทรัพยากรเป็นเวลาหลายชั่วโมง หรือหลงทางในเส้นทางที่ซับซ้อน
แม้โมเดลปรับแต่งเฉพาะทางจะเอาชนะนักกีฬาอาชีพได้ แต่ถ้าให้ Claude หรือ Gemini ควบคุมด้วยคำสั่งภาพ มันจะล่มทันที ในการจัดการ「หมอกสงคราม」และความไม่แน่นอน รวมถึงสมดุลระหว่างการควบคุมระยะใกล้และการสร้างฐานขนาดใหญ่ โมเดลทั่วไปยังทำได้ไม่ดีพอ
การบริหารสวนสนุกต้องติดตามสถานะของนักท่องเที่ยวหลายพันคน แม้ Claude Code ที่มีความสามารถเบื้องต้นก็ยังลำบากในการจัดการล่มทางการเงินขนาดใหญ่หรือเหตุฉุกเฉิน การขาดความต่อเนื่องในการคิดเชิงเหตุผลอาจทำให้สวนสนุกล้มละลายได้
เกมแอคชั่นสุดแรงกล้าเหล่านี้เป็นมิตรกับ AI น้อยที่สุด ปัจจุบันการวิเคราะห์ภาพล่าช้าทำให้เมื่อ AI ยัง「คิด」ท่าทางบอส ตัวละครอาจตายไปแล้ว ความต้องการตอบสนองในระดับมิลลิวินาที จึงเป็นขีดจำกัดตามธรรมชาติของตรรกะการโต้ตอบของโมเดล
ปัจจุบัน《โปเกมอน》กำลังกลายเป็นเกณฑ์ทดสอบที่ไม่เป็นทางการแต่ทรงพลังในวงการ AI
การถ่ายทอดสดของโมเดลจาก Anthropic, OpenAI และ Google บน Twitch ดึงดูดความคิดเห็นนับแสน รายงานเทคนิคของ Google ระบุความคืบหน้าของเกม Gemini และพิชัยก็กล่าวถึงความสำเร็จนี้ในงาน I/O ของนักพัฒนา Anthropic ก็มีการจัดแสดง「Claude เล่นโปเกมอน」ในงานอุตสาหกรรม
「เราเป็นกลุ่มคนที่ชื่นชอบเทคโนโลยีสุดๆ」 David Hershey หัวหน้าฝ่าย AI ของ Anthropic กล่าว แต่เขาย้ำว่านี่ไม่ใช่แค่ความบันเทิง
ต่างจากเกณฑ์วัดผลแบบคำถามตอบแบบครั้งเดียว《โปเกมอน》สามารถติดตามกระบวนการคิด การตัดสินใจ และเป้าหมายของโมเดลในระยะเวลายาวนาน ซึ่งใกล้เคียงกับงานซับซ้อนในโลกจริงที่มนุษย์หวังให้ AI ทำงาน
จนถึงปัจจุบัน ความท้าทายของ AI ใน《โปเกมอน》ยังดำเนินอยู่ แต่「ความซ้ำซากของปัญหาเหล่านี้เองที่วาดเส้นขอบเขตความสามารถของปัญญาประดิษฐ์ที่ยังไม่สามารถข้ามได้อย่างชัดเจน」