OpenAI ยกเลิก EVMbench หลังจากวิกฤตโค้ด Claude Vibe

LiveBTCNews

2026-02-19 18:35:41

L11.71%

OpenAI เปิดตัว EVMbench เพื่อทดสอบเอเจนต์ AI ในด้านความปลอดภัยของสมาร์ทคอนแทรกต์ไม่กี่วันหลังจากที่โค้ดที่ช่วยโดย Claude Opus 4.6 ทำให้เกิดการโจมตี DeFi มูลค่า 1.78 ล้านดอลลาร์

สมาร์ทคอนแทรกต์ปกป้องสินทรัพย์คริปโตแบบเปิดมากกว่า 100 พันล้านดอลลาร์ ตัวเลขนี้เพียงอย่างเดียวควรอธิบายได้ว่าทำไมการเคลื่อนไหวล่าสุดของ OpenAI จึงได้รับความสนใจอย่างจริงจัง บริษัทที่ทำงานร่วมกับกองทุนลงทุนคริปโต Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นเบนช์มาร์คที่ออกแบบมาเพื่อทดสอบว่าเอเจนต์ AI สามารถตรวจจับ ใช้ประโยชน์ และแก้ไขช่องโหว่สมาร์ทคอนแทรกต์ที่มีความรุนแรงสูงได้ดีเพียงใด

เบนช์มาร์คนี้ดึงข้อมูลจากช่องโหว่ที่คัดเลือกมาแล้ว 120 รายการ จากการตรวจสอบ 40 ครั้ง ส่วนใหญ่มาจากการแข่งขันตรวจสอบโค้ดแบบเปิด สิ่งที่ทำให้แตกต่างคือขอบเขต EVMbench ทดสอบสามโหมดความสามารถที่แตกต่างกัน: ตรวจจับ แก้ไข และใช้ประโยชน์ ซึ่งแต่ละโหมดจะวัดผลแยกกันและให้คะแนนผ่านระบบ harness ที่สร้างด้วย Rust ซึ่งจะทำการเล่นซ้ำธุรกรรมในสภาพแวดล้อมจำลองแบบ sandbox โดยไม่มีเครือข่ายสดเข้ามาเกี่ยวข้อง

ตัวเลขที่ควรทำให้ทุกคนกังวล

ในโหมดการใช้ประโยชน์ GPT-5.3-Codex ผ่าน Codex CLI ได้คะแนน 72.2% เมื่อหกเดือนก่อน GPT-5 อยู่ที่ 31.9% ในเกณฑ์เดียวกัน ช่องว่างนี้ไม่ใช่น้อย OpenAI ยืนยันตัวเลขนี้ในประกาศอย่างเป็นทางการบน X โดยมองว่า EVMbench เป็นทั้งเครื่องมือวัดผลและเป็นการเรียกร้องให้ชุมชนด้านความปลอดภัยเข้ามามีส่วนร่วม

คะแนนการตรวจจับและแก้ไขยังคงต่ำอยู่ เอเจนต์ในโหมดการตรวจจับบางครั้งสามารถระบุช่องโหว่ได้เพียงรายการเดียวแล้วหยุดทำงาน พวกเขาไม่ตรวจสอบโค้ดทั้งหมด ในโหมดการแก้ไข ความท้าทายคือการรักษาฟังก์ชันการทำงานของสัญญาให้ครบถ้วนในขณะที่ลบจุดบกพร่อง ความสมดุลนี้ยังคงเป็นปัญหาสำหรับโมเดล

ต้องอ่าน: Trust Wallet Security Hack: วิธีปกป้องสินทรัพย์ของคุณ

ข้อผิดพลาด Oracle มูลค่า 1.78 ล้านดอลลาร์ที่ไม่มีใครจับได้

เบื้องหลังเรื่องนี้สำคัญมาก นักวิจัยด้านความปลอดภัย evilcos โพสต์บน X ว่าโปรโตคอลการให้กู้ยืม DeFi Moonwell สูญเสียประมาณ 1.78 ล้านดอลลาร์ สาเหตุเกิดจากความผิดพลาดในการตั้งค่า Oracle ซึ่งสูตรการอัปเดตราคาเขียนผิด ทำให้มูลค่าของ cbETH ถูกตั้งไว้ที่ 1.12 ดอลลาร์ แทนที่จะเป็นประมาณ 2,200 ดอลลาร์

นี่เป็นความผิดพลาดระดับต่ำ ซึ่งควรตรวจจับได้จากการตรวจสอบอย่างรอบคอบ การดึงข้อมูลจาก GitHub สำหรับข้อเสนอ MIP-X43 แสดงให้เห็นว่ามีการคอมมิตร่วมกันโดย Claude Opus 4.6 ซึ่งเป็นโมเดลล่าสุดและที่สามารถทำงานได้ดีที่สุดของ Anthropic ในเวลานั้น

นักตรวจสอบสมาร์ทคอนแทรกต์ pashov โพสต์บน X เรียกมันว่าเป็นไปได้ว่าเป็นการโจมตีครั้งแรกที่เชื่อมโยงกับ Solidity ที่เขียนด้วย vibe-code เขาย้ำว่าผู้ตรวจสอบมนุษย์ยังคงมีความรับผิดชอบขั้นสุดท้าย การตรวจสอบด้านความปลอดภัยต้องลงนามรับรองก่อนที่โค้ดจะถูกนำไปใช้งานบนบล็อกเชน แต่บางอย่างในสายโซ่นั้นล้มเหลว

สิ่งที่ EVMbench ถูกสร้างขึ้นเพื่อทำจริงๆ

เบนช์มาร์คนี้รวมสถานการณ์ช่องโหว่จากการตรวจสอบความปลอดภัยของบล็อกเชน Tempo ซึ่งเป็น L1 ที่สร้างขึ้นเพื่อรองรับการชำระเงินด้วยสกุลเงินดั้งเดิมที่มีความเร็วสูง การขยายนี้ทำให้ EVMbench เข้าสู่พื้นที่ของโค้ดสมาร์ทคอนแทรกต์ที่เน้นการชำระเงิน ซึ่งเป็นพื้นที่ที่ OpenAI คาดหวังว่ากิจกรรมของ stablecoin จะเติบโตขึ้น

แต่ละภารกิจการใช้ประโยชน์จะทำงานในอินสแตนซ์ Anvil ที่แยกออกจากกัน ธุรกรรมจะเล่นซ้ำอย่างแน่นอน การตั้งค่าการให้คะแนนจำกัดการใช้ RPC ที่ไม่ปลอดภัย และผ่านการทดสอบแบบ red-team ภายในเพื่อป้องกันไม่ให้เอเจนต์โกงผลลัพธ์ ช่องโหว่ที่ใช้เป็นข้อมูลในอดีตและได้รับการบันทึกไว้สาธารณะ

OpenAI ยังให้คำมั่นว่าจะลงทุน 10 ล้านดอลลาร์ในเครดิต API เพื่อเร่งพัฒนาการป้องกันไซเบอร์ โดยให้ความสำคัญกับซอฟต์แวร์โอเพนซอร์สและโครงสร้างพื้นฐานสำคัญ ตัวเอเจนต์ด้านการวิจัยความปลอดภัย Aardvark กำลังขยายเข้าสู่โหมดเบต้าแบบส่วนตัว การสแกนโค้ดฟรีสำหรับโปรเจกต์โอเพนซอร์สที่ใช้งานอย่างแพร่หลายเป็นส่วนหนึ่งของความพยายามนี้

คำถามเกี่ยวกับ vibe-coding ที่มีผลจริง

โพสต์ของ pashov บน X ได้ยกประเด็นที่หลายคนในวงการ DeFi หลีกเลี่ยงไว้ เมื่อ AI เขียนโค้ด Solidity สำหรับการใช้งานจริงและมนุษย์อนุมัติอย่างรวดเร็ว ชั้นการตรวจสอบจึงบางลง incident ของ Moonwell แสดงให้เห็นชัดเจนว่ามันบางลงได้แค่ไหน

OpenAI ยอมรับว่าความปลอดภัยทางไซเบอร์เป็นเรื่องที่มีการใช้งานแบบสองด้าน ผลตอบรับของบริษัทเป็นข้อมูลอิงหลักฐาน การฝึกอบรมด้านความปลอดภัย การตรวจสอบอัตโนมัติ และการควบคุมการเข้าถึงความสามารถขั้นสูงเป็นส่วนหนึ่งของมาตรการ แต่คะแนนการโจมตี 72.2% บนเบนช์มาร์คสาธารณะเป็นตัวเลขที่ไม่เงียบหายไปง่ายๆ

ชุดภารกิจ เครื่องมือ และโค้ดการประเมินของ EVMbench ตอนนี้เปิดเผยสาธารณะแล้ว เป้าหมายคือให้เหล่านักวิจัยสามารถติดตามความสามารถด้านไซเบอร์ของ AI ไปพร้อมๆ กับการสร้างแนวป้องกันในอัตราเดียวกัน คำถามคือความเร็วนี้เพียงพอหรือไม่ ซึ่งยังไม่มีใครตอบได้อย่างแน่ชัด

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น