Vision Banana من Google: نموذج رؤية موحد يتفوق على النماذج المخصصة في التقطيع والتعامد الهندسي ثلاثي الأبعاد

بوابة الأخبار، 23 أبريل — نشر باحثون من Google، من بينهم He Kaiming وXie Saining، ورقة بحثية تقدم Vision Banana، نموذج عام لفهم الرؤية تم إنشاؤه عبر ضبط تعليمي خفيف لتعليمات نموذج (Gemini 3 Pro Image) image generation model Nano Banana Pro من الشركة. تتمثل الابتكار الرئيسي في توحيد مخرجات جميع مهام الرؤية كصور RGB، ما يتيح إجراء التقطيع وتقدير العمق والتنبؤ بالاتجاهات السطحية عبر توليد الصور دون الحاجة إلى بنى أو دوال خسارة خاصة بكل مهمة.

في التقطيع الدلالي، تفوق Vision Banana على النموذج المتخصص SAM 3 بنسبة 4.7 نقطة مئوية على Cityscapes؛ وفي تجزئة تعبيرات الإحالة، تفوق على SAM 3 Agent. ومع ذلك، تراجع عن SAM 3 في تجزئة الحالات. بالنسبة لمهام ثلاثية الأبعاد، حقق تقدير العمق بمقياس متوسط دقة 0.929 عبر أربعة مجموعات بيانات معيارية، متجاوزًا 0.918 لدى Depth Anything V3، باستخدام بيانات صناعية فقط دون معلومات عمق حقيقية أو معلمات كاميرا أثناء الاستدلال. حقق تقدير الاتجاهات السطحية نتائج على مستوى الأفضل في ثلاثة اختبارات داخلية.

اشتمل الضبط الدقيق على بيانات مهام رؤية قليلة يتم مزجها في تدريب توليد الصور الأصلي، مع الحفاظ على قدرات التوليد لدى النموذج—كانت الأداء مطابقًا لـ Nano Banana Pro الأصلي في اختبارات جودة التوليد. تقترح الورقة أن ما قبل تدريب توليد الصور في مجال الرؤية يتوازي مع ما قبل تدريب توليد النص في اللغة: تتعلم النماذج التمثيلات الداخلية اللازمة لفهم الصور أثناء التوليد، فيما يقتصر الضبط التعليمي للتعليمات على إطلاق هذه القدرة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

Samsung SDS توسّع شراكتها مع Google Cloud لخدمة القطاعات المُنظَّمة بالذكاء الاصطناعي وخدمات الأمن

خبر بوابة، 23 أبريل — وسّعت Samsung SDS شراكتها مع Google Cloud لتقديم خدمات الذكاء الاصطناعي والحوسبة السحابية والأمن إلى قطاعات منظَّمة تشمل الحكومة والخدمات المالية. ستقوم الشركتان بنشر Google Distributed Cloud للعملاء الذين يحتاجون إلى توطين البيانات

GateNewsمنذ 3 د

苏利文·克伦威尔因法院文件中的 AI 幻觉与 40 条错误引用而道歉

Gate News 消息,4 月 23 日——苏利文·克伦威尔(Sullivan & Cromwell)作为华尔街一家大型律所,因提交了一份包含约 40 条错误引用及其他由 AI 幻觉导致的错误的法院文件而向一名联邦法官道歉。该律所全球重组团队的联合负责人 Andrew Dietderich

GateNewsمنذ 19 د

Tencent تطلق وتتيح كود معاينة Hunyuan Hy3 مفتوحًا مع 295B معلمة

بوابة الأخبار، 23 أبريل — كشفت شركة Tencent النقاب عن معاينة Hunyuan Hy3 وأتاحت كودها مفتوحًا، وهي نموذج لغوي هجين يجمع بين خبراء متعددين مع دمج التفكير السريع والبطيء. يتألف النموذج من 295 مليار معلمة إجماليّة و21 مليار معلمة فعّالة، ويدعم طول سياق أقصى يبلغ 256K

GateNewsمنذ 33 د

كوريا الجنوبية وفيتنام توقعان 70+ مذكرة تفاهم حول الذكاء الاصطناعي والطاقة والبنية التحتية للبيانات

بوابة الأخبار، 23 أبريل — وقّعت كوريا الجنوبية وفيتنام أكثر من 70 مذكرة تفاهم (MOUs) خلال الزيارة الرسمية التي قام بها الرئيس لي جاي ميونغ إلى هانوي في 23 أبريل، لتغطي مجالات الذكاء الاصطناعي والطاقة والبنية التحتية والاتصالات. ناقش منتدى أعمال حضره أكثر من 500 مدير تنفيذي موضوع الذكاء الاصطناعي و

GateNewsمنذ 33 د

محرك الإجابة بالذكاء الاصطناعي يلوث جماعيًا: 56% من الإجابات الصحيحة في Gemini 3 لا تستند إلى مصادر

يشير هذا النص إلى أن محرك الإجابة بالذكاء الاصطناعي يقوم عند الاستعلام بإدراج صفحات الويب في الوقت الحقيقي، فإذا كانت المصادر ناتجة عن الذكاء الاصطناعي أو تفتقر إلى الأدلة، فإن ذلك يلوّث النتائج، ويمكن أن يَنفَع دون الحاجة إلى إعادة تدريب، ويُسمّى ذلك التلوّث بالاسترجاع (retrieval contamination). على الرغم من أن Gemini3 دقته عالية، إلا أن 56% من الإجابات تفتقر إلى مصادر يمكن التحقق منها؛ وتُظهر أمثلة مثل Lily Ray وGrokipedia أن الذكاء الاصطناعي يمكن بسهولة أن يُخدَع بالمحتوى الذي يتم إنشاؤه ذاتيًا. تتمثل الخلاصة في أن طبقة الاقتباس وفقدان الارتباط بالمؤلفين الموثوقين يؤديان إلى دورة تلوّث مُعزِّزة ذاتيًا، ولا يزال يتعين على المستخدمين الرجوع إلى المصدر الأصلي، وألا يجعلوا الإجابة تُعدّ نقطة التحقق النهائية باعتبارها حقيقة.

ChainNewsAbmediaمنذ 41 د

Anthropic告诉法院:已部署的五角大楼AI模型没有“kill switch”

Gate News消息,4月23日——Anthropic向美国哥伦比亚特区巡回上诉法院提交了一份文件,称一旦其AI模型部署在五角大楼环境中,公司既没有可见性,也没有技术手段来控制或关闭这些模型,而且不存在“kill switch”

GateNewsمنذ 43 د
تعليق
0/400
لا توجد تعليقات