Google 的 Vision Banana:统一视觉模型在分割与 3D 几何方面的表现优于任务特定模型

Gate 新闻消息,4月23日——Google 研究人员(包括何凯明和谢赛宁)发布了一篇论文,介绍 Vision Banana,这是一种通用型视觉理解模型,通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像,使得在不需要任务特定架构或损失函数的情况下,通过图像生成即可实现分割、深度估计和表面法线预测。

在语义分割方面,Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点;在指列表达式分割(referring expression segmentation)方面,它超过了 SAM 3 Agent。不过,在实例分割(instance segmentation)方面,它落后于 SAM 3。对于 3D 任务,度量深度估计在四个标准数据集上取得了 0.929 的平均准确率,超过 Depth Anything V3 的 0.918;推理时仅使用合成数据,无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。

微调过程仅将少量视觉任务数据混入原始图像生成训练,从而保留了模型的生成能力——在生成质量测试中,其性能与原始 Nano Banana Pro 相当。论文提出,视觉中的图像生成预训练与语言中的文本生成预训练相类似:模型在生成过程中学习图像理解所需的内部表征,而指令微调只是释放这种能力。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

三星SDS扩展与Google Cloud的合作伙伴关系,以AI和安全服务服务受监管领域

Gate 新闻消息,4月23日——三星SDS扩大了与Google Cloud的合作伙伴关系,为受监管行业(包括政府和金融服务)提供AI、云计算和安全服务。 这些公司将为需要数据本地化、低延迟和具备韧性的基础设施的客户部署 Google Distributed Cloud

GateNews3 分钟前

Sullivan & Cromwell 因在法庭文件中出现 AI 幻觉及 40 条错误引文而道歉

Gate News 消息,4月23日——华尔街大型律师事务所 Sullivan & Cromwell 向一名联邦法官道歉,此前他们提交了一份法庭文件,文件中包含约 40 条不正确的引文以及其他错误,这些问题是由 AI 幻觉导致的。该事务所全球重组团队联合负责人 Andrew Dietderich

GateNews19 分钟前

腾讯发布并开源混元 Hy3 预览版:295B 参数

快讯,4月23日——腾讯发布并开源了混元 Hy3 预览版,这是一种融合快慢思考的混合专家(MoE)语言模型。该模型总参数量为 2950 亿,其中激活参数为 210 亿,支持最长 256K 的上下文长度

GateNews33 分钟前

韩国、越南在人工智能、能源与数据基础设施领域签署70+份谅解备忘录

Gate News 消息,4月23日——韩国和越南在韩国总统李在明于4月23日对河内进行国事访问期间,签署了 (MOUs) 超过70份谅解备忘录,涵盖人工智能、能源、基础设施和电信。由500多名高管参加的商业论坛讨论了人工智能以及电力行业生态系统,

GateNews33 分钟前

AI 答题引擎集体污染:Gemini 3 正确答案中 56% 无来源支持

本文指出 AI 答題引擎在查詢時會即時引用網頁;若來源為 AI 生成或缺乏證據,便會污染结果;无需再训练即可生效,这称为检索污染(retrieval contamination)。Gemini3 虽然正确率高,但 56% 的答案缺乏可验证来源;Lily Ray、Grokipedia 等案例表明 AI 容易被自创内容欺骗。结论是引用层与可靠作者脱钩,形成自我强化的污染循环,使用者仍须回溯原始来源,勿把回答当成事实查核终点。

鏈新聞abmedia41 分钟前

Anthropic 告诉法院:已部署的五角大楼 AI 模型没有“杀伤开关(kill switch)”

Gate News 消息,4月23日——Anthropic 向美国哥伦比亚特区巡回上诉法院提交了一份文件称,一旦其 AI 模型部署在五角大楼环境中,该公司既没有可视性也没有技术手段去控制或关闭这些模型,并且不存在所谓的“杀伤开关(kill switch)”

GateNews43 分钟前
评论
0/400
暂无评论