李飞飞教授在2024年的TED演讲中详细地理解阅读了空间智能(Spatial Intelligence)概念,表达了对计算机视觉领域加快速度进行发展的欣喜之情。她提到斯坦福大学团队研发了一个名为BEHAVIOR的行为和动作数据集,用于训练计算机和机器人在三维世界中的行动能力。如今,这一研究又有了新的进展。在吴佳俊的带领下,研究团队推出了后续研究成果——BEHAVIOR Vision Suite(BVS),这是一套专为系统评估计算机视觉模型而设计的工具和资源集。该论文也获得了CVPR2024的Highlight称号。
现有的视觉数据集往往存在数据量不足、标签不全面等问题,难以满足系统评估和理解模型在不同条件下表现的需求。而BVS则提供了一种全新的解决方案。它基于BEHAVIOR-1K基准,支持大量可调参数,涵盖场景、物体和相机级别,研究人能在数据生成过程中自由调整这些参数,进行精确的控制实验。例如,通过生成在某一维度上连续变化的数据,如物体遮挡程度逐渐增加,可以系统评估视觉模型在此变化下的鲁棒性。实验发现,现有SOTA模型在常见分布之外的数据上表现仍有不足。BVS使得研究者能够评估模型在感兴趣条件下的鲁棒性,有助于更好地开发和提升模型。
BVS所生成的数据集的另一大特征是包含多模态的真实标签,如深度、语义分割、目标边界框等。研究团队评估了开放词汇检测和分割、深度估计和点云重建四个任务的SOTA模型,发现模型在BVS数据集上的表现顺序与在对应任务真实数据基准上的表现一致。这表明BVS生成的高质量数据真实地反映和代表了现实数据。研究者希望这样的数据集能够在一定程度上促进多任务预测模型的发展。此外,BVS的数据生成不仅限于模型评估,对于难以在现实场景中收集或标注数据的任务,BVS数据也可用于模型训练。研究者利用BVS生成了12.5k张图片,仅用其训练了一个物体空间关系和状态预测模型,该模型在未使用真实数据训练的情况下,仍在线得分,体现了优秀的仿真到现实的转移能力。
BVS的推出为计算机视觉研究者生成定制化的合成数据集提供了强大工具和资源,通过系统控制数据生成过程中的各项参数,可以更全面地评估和改进视觉模型的性能。这一突破性进展将为未来空间智能的研究和应用奠定坚实基础,推动计算机视觉领域的持续创新发展。期待BVS在助力无人驾驶、机器人等领域取得更多令人振奋的成果。
【机会挖掘】全国农产品批发商业市场猪肉平均价格为21.66元/公斤 比上周五上升2.2%
看AI「爆改」千行百业!36氪新质生产力·AI Partner大会成功举办
国家统计局:1—4月份全国规模以上工业公司实现利润总额同比增长4.3%
深圳:推动2024年社会消费品零售总额增速超7%,力争全年新增限额以上汽车零售额100亿元以上
深圳:推动2024年社会消费品零售总额增速超7%,力争全年新增限额以上汽车零售额100亿元以上
投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才使用者真实的体验计划
不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237