Menurut berita BlockBeats, pada 3 Maret, pengembang Manjeet Singh (GitHub: maderix) berkolaborasi dengan Claude Opus untuk merekayasa balik API pribadi Apple yang tidak diungkapkan untuk mengimplementasikan pelatihan jaringan saraf yang berisi propagasi balik pada Apple Neural Engine (ANE) dari chip M4 untuk pertama kalinya. ANE adalah akselerator desain inferensi Apple, dan kemampuan pelatihan resmi tidak pernah terbuka, dan pengembang hanya dapat secara tidak langsung memanggil fungsi inferensinya melalui kerangka kerja CoreML.
Proyek ini melewati CoreML dan memetakan langsung ke tumpukan perangkat lunak penuh dari lebih dari 40 kelas pribadi seperti _ANEClient dan _ANECompiler ke kernel IOKit, dan menemukan antarmuka _ANEInMemoryModelDescriptor yang mengkompilasi model langsung dalam memori - kunci untuk mencapai pelatihan, karena setiap pembaruan bobot perlu dikompilasi ulang. Saat ini, lapisan transformator tunggal (dim=768, seq=512) dilatih, dengan 9,3 ms per langkah pada M4, pemanfaatan ANE 11,2% (1,78 TFLOPS, puncak teoretis 15,8 TFLOPS), gradien input propagasi maju dan mundur dihitung pada ANE, dan gradien berat dan pengoptimal Adam dilakukan pada CPU.
Proyek ini juga menemukan bahwa primitif komputasi inti ANE adalah konvolusi daripada perkalian matriks, dan mengekspresikan perkalian matriks dengan konvolusi 1x1 dapat mencapai sekitar 3 kali peningkatan throughput, dan melewati panggilan langsung CoreML memiliki keuntungan tambahan 2-4 kali, dan promosi resmi Apple dari “38 TOPS” menyesatkan. Proyek ini masih dalam tahap awal: hanya pelatihan satu lapis, data sintetis yang digunakan, ada sekitar 119 kebocoran sumber daya yang dikompilasi yang perlu dimulai ulang untuk menghindari proses, dan pelatihan multi-lapis dan dukungan data dunia nyata masih dalam pengembangan. Proyek ini bersifat open source di bawah protokol MIT dan menerima sekitar 2800 bintang dalam 5 hari rilis.