BlockBeats ข่าว เมื่อวันที่ 3 มีนาคม นักพัฒนาชื่อ Manjeet Singh (GitHub: maderix) ร่วมกับ Claude Opus ได้ทำการวิเคราะห์ย้อนกลับ API ส่วนตัวของ Apple ที่ยังไม่เปิดเผยสาธารณะ โดยเป็นครั้งแรกที่สามารถฝึกเครือข่ายประสาทเทียมที่มีการย้อนกลับผ่านบน Apple Neural Engine (ANE) ของชิป M4 ซึ่งเป็นตัวเร่งความเร็วสำหรับการอนุมาน โดยทาง Apple ไม่เคยเปิดให้ใช้งานการฝึกอย่างเป็นทางการ นักพัฒนาจึงต้องเรียกใช้งานผ่านกรอบงาน CoreML ซึ่งเป็นการเรียกใช้งานแบบทางอ้อม
โครงการนี้ได้ข้ามผ่าน CoreML โดยตรงแมปคลาสส่วนตัวกว่า 40 รายการ เช่น _ANEClient, _ANECompiler ไปยังสแต็กซอฟต์แวร์เต็มรูปแบบของไดรฟ์เคอร์เนล IOKit และพบอินเทอร์เฟซ _ANEInMemoryModelDescriptor ที่สามารถคอมไพล์โมเดลในหน่วยความจำโดยตรง ซึ่งเป็นกุญแจสำคัญของการฝึก เนื่องจากทุกการอัปเดตน้ำหนักต้องคอมไพล์ใหม่ ปัจจุบันสามารถฝึกได้เพียงชั้นเดียวของ transformer (dim=768, seq=512) โดยใช้ M4 แต่ละรอบใช้เวลา 9.3 มิลลิวินาที และใช้งาน ANE ได้ประมาณ 11.2% (1.78 TFLOPS, จุดสูงสุดเชิงทฤษฎี 15.8 TFLOPS) โดยคำนวณผ่านการแพร่กระจายไปข้างหน้าและย้อนกลับใน ANE ส่วนเกรดของน้ำหนักและตัวปรับแต่ง Adam ทำงานบน CPU
นอกจากนี้ โครงการยังพบว่าหลักการคำนวณของ ANE คือการคอนโวลูชัน ไม่ใช่แมทริกซ์คูณ การใช้คอนโวลูชัน 1x1 เพื่อแทนแมทริกซ์คูณสามารถเพิ่มประสิทธิภาพได้ประมาณ 3 เท่า การเรียกใช้งานโดยตรงโดยข้าม CoreML ให้ผลเพิ่มขึ้นอีก 2-4 เท่า ซึ่งทำให้คำโฆษณาของ Apple ที่ระบุว่า “38 TOPS” เป็นการหลอกลวง โครงการนี้ยังอยู่ในระยะเริ่มต้น: รองรับการฝึกแบบชั้นเดียว ใช้ข้อมูลสังเคราะห์ และมีการรั่วไหลของทรัพยากรประมาณ 119 ครั้งหลังการคอมไพล์ ซึ่งต้องรีสตาร์ทโปรเซสเพื่อหลีกเลี่ยง การฝึกหลายชั้นและข้อมูลจริงยังอยู่ในระหว่างพัฒนา โครงการนี้เปิดซอร์สภายใต้สัญญา MIT และได้รับความนิยมประมาณ 2800 ดาวใน 5 วัน