أخبار Gate، في 25 مارس، قام مهندس مجموعة Ant، مؤلف إطار العمل Umi.js، عكس شفرة Claude Code 2.1.81، واستعاد بالكامل آلية اتخاذ القرار في وضع Auto Mode. الاكتشاف الرئيسي: كل عملية استدعاء للأداة تمر عبر أربع مراحل من خط أنابيب القرار، ولا يتم استدعاؤها إلا عندما تعجز المراحل الثلاثة الأولى عن الحكم، ثم يتم استدعاء مصنف AI مستقل لإجراء فحص أمني.
المراحل الأربع على التوالي هي: المرحلة الأولى فحص قواعد الأذونات الموجودة، وإذا تم المطابقة يتم السماح مباشرة؛ المرحلة الثانية تحاكي وضع acceptEdits (السماح بتعديل الملفات)، وإذا تم المرور خلال هذا الوضع، فهذا يدل على أن المخاطر منخفضة، ويتم تخطي المصنف؛ المرحلة الثالثة تفحص قائمة السماح للأدوات للقراءة فقط (Read، Grep، Glob، LSP، WebSearch، وغيرها)، وهذه الأدوات لا تعدل أي حالة، وتُسمح بدون قيد؛ وإذا لم يتم تلبية أي من الشروط السابقة، يتم الانتقال إلى المرحلة الرابعة، حيث يتم إرسال طلب API مستقل إلى Claude Sonnet لإجراء تصنيف أمني.
التفاصيل الرئيسية لتصميم المصنف تشمل: استخدام Sonnet دائمًا بدلاً من Opus، وهو توازن بين التكلفة والكمون؛ ضبط درجة الحرارة على 0 لضمان نتائج حاسمة؛ يُعرف المصنف بأنه «مراقب أمني لوكيل البرمجة الذاتي AI»، لحماية ثلاث فئات من المخاطر (حقن كلمات التلميح، انتشار النطاق، الضرر غير المقصود)؛ يتم حقن ملف تكوين CLAUDE.md الخاص بالمستخدم في سياق المصنف، كمرجع لفهم نية المستخدم.
قواعد الحظر تغطي أكثر من 22 فئة، بما في ذلك الدفع القسري، الدفع المباشر إلى الفرع الرئيسي، تحميل وتنفيذ أكواد خارجية، النشر الإنتاجي، تسرب البيانات، تعديل الأذونات ذاتيًا، إنشاء ثغرات تنفيذ عن بُعد، تسريب الاعتمادات، وغيرها. أما الاستثناءات المسموح بها فهي 7 فئات: مفاتيح مشفرة مدمجة للاختبار، عمليات الملفات المحلية داخل دليل العمل، طلبات GET للقراءة فقط، تثبيت الاعتمادات المصرح بها، تثبيت أدوات السلسلة الرسمية، قراءة بيانات الاعتماد وإرسالها إلى مزود الخدمة، الدفع إلى الفرع الحالي.
كما أن النظام يشتمل على آلية تصحيح تلقائي: بعد رفض ثلاث مرات متتالية أو 20 مرة مجمعة، يتم تقليل مستوى النظام إلى تأكيد يدوي؛ في وضع headless، يتم إيقاف الوكيل مباشرة. عند عدم توفر المصنف، يتم التحكم بواسطة علامة ميزة لتحديد ما إذا كان «فشل مغلق» (رفض مباشر) أو «فشل مفتوح» (التراجع إلى تأكيد يدوي).
في وضع Auto Mode، يتم التحكم بدقة في تردد حقن كلمات التلميح: يتم حقنها مرة واحدة كل 5 جولات حوار، وفي كل دورة من دورات الحقن الخمس، تكون المرة الأولى كاملة (حوالي 800 كلمة، تتضمن أوامر مثل «التنفيذ الفوري، تقليل المقاطعة، العمل أفضل من التخطيط» وغيرها من ستة أوامر)، بينما الأربعة الأخرى تكون نسخة مختصرة، لتحقيق توازن بين استهلاك سياق الحوار واستقرار السلوك.