上海交大计算机应用研究所在计算机视觉和模式识别顶会CVPR 2024发表24篇高水平论文_智慧城市

上海交大计算机应用研究所在计算机视觉和模式识别顶会CVPR 2024发表24篇高水平论文

2024-06-13 智慧城市

近日，计算机视觉顶配水平顶会CVPR 2024公布了录用名单，上海交通大学电子信息与电气工程学院计算机系计算机应用研究所共有24篇论文被录用。计算机应用研究所团队由马利庄教授领导，成员包括卢策吾教授、盛斌教授、严骏驰教授、谢源教授、张志忠副教授、谭鑫副研究员、易冉助理教授和李永露助理教授等。团队录用的论文在3D场景理解、数字媒体智能生成、深度人脸安全、视觉工业质检、行为理解、具身智能等重要课题上取得突破。

作者及单位：唐俊姝（上海交通大学），曾艳红（浦江实验室），樊珂（上海交通大学），汪绪恒（清华大学），戴勃（浦江实验室），马利庄（上海交通大学），陈恺（浦江实验室）

论文简介：本文专注于基于输入文本的卡通人物自动纹理设计，首次提出了在UV空间中从文本生成高质量纹理的方法，简称Make-It-Vivid。本方法利用多轮视觉问答系统为三维模型生成详细的文本纹理配对数据。随后，本方法定制一个预训练的文本到图像生成模型来生成具有UV纹理结构的纹理图，同时保留自然图像知识。此外，为增强细粒度细节，本方法提出了一种新颖的对抗性学习方案来缩短原始数据集和真实纹理域之间的域差距。大量的实验表明，本方法从生成质量和效率上优于当前的纹理生成方法，以此来实现高效的和忠于文本的纹理生成。

作者及单位：周千寓（上海交通大学），张克越（腾讯优图实验室），姚太平（腾讯优图实验室），鲁学权（澳大利亚乐卓博大学），丁守鸿（腾讯优图实验室），马利庄（上海交通大学）

论文简介：人脸活体检测旨在防止人脸识别系统受到各种人脸呈现攻击的干扰。现有的域泛化活体检测的新方法主要侧重于在训练过程中学习域不变特征，然而这可能没办法保证在与源域分布具有巨大差异的未见目标域数据上的泛化性。本文的核心思想是，测试数据不单单是用于模型测试，还可当作一种有价值的资源以提高对活体检测的泛化性。本文提出了一个新的测试阶段域泛化(TTDG)框架，该框架利用测试数据以提高模型的泛化能力。最重要的包含两个关键的组件：测试阶段风格投影(TTSP)和多样化风格偏移模拟(DSSS)，以有效地将未见数据投影到可见的源域空间。其中，测试阶段风格投影将任意未知域的测试样本的风格投影到训练分布的已知源域空间。此外，本文设计了有效的多样化风格偏移模拟，通过两个特别设计的损失和可学习的风格基在超球面特征空间中合成不同的风格偏移。本方法不需要在测试时重新更新模型，并且不但可以无缝集成到基于CNN的活体检测的新方法中，还可以集成到基于ViT主干的活体检验测试框架。在跨域活体检测基准的大量实验分析证明了所提方法的先进性和有效性。

作者及单位：宋一然（上海交通大学），周千寓（上海交通大学），李祥泰（南洋理工大学），范登平（南开大学），鲁学权（澳大利亚乐卓博大学），马利庄（上海交通大学）

论文简介：本文主要解决了分割一切模型(SAM)对图像分辨率变化的挑战。SAM以其零样本条件下的泛化性而闻名，然而SAM在面对不同分辨率大小的数据集时表现出显著的性能直线下降。之前的方法往往将图像调整为固定大小或修改模型结构以适应分辨率变化。但对于SAM来说，这一些方法会损失SAM丰富的先验知识。此外，这种特定任务下的调优需要对模型进行重新训练，这会带来昂贵的计算成本。本文首次将图像分辨率变化的问题重新定义为长度外推问题，其中只有token序列的长度变化，而不同分辨率的patch size保持不变。为此，本文提出了可扩展的偏置模式注意掩码框架(BA-SAM)，以增强SAM对不同图像分辨率的适应性，同时不需要对网络结果做修改。具体来说，首先引入了一个新的比例因子以确保当token序列长度变化时，注意层的点积值的大小保持一致。其次，提出了一个偏置模式的注意力掩码，允许每个token第一先考虑相邻信息以减轻未训练的远程信息的影响。本文在零样本泛化和微调两种情况下证明了方法的有效性与泛化性。在不同数据集(DIS5K、DUTS、ISIC、COD10K和COCO)上的广泛评估表明，BA-SAM能够显著缓解零样本设置下的性能直线下降，并可以通过极小的微调实现最先进的性能。

作者及单位：胡澄洋（上海交通大学），张克越（腾讯优图实验室），姚太平（腾讯优图实验室），丁守鸿（腾讯优图实验室），马利庄（上海交通大学）

论文简介：泛化活体检测的新方法受到慢慢的变多的关注，对于保障人脸检测系统在未知环境和未知攻击的鲁棒性和准确性都有很重要的意义。以前的方法忽略了样本中的层次关系，将特征都对齐到同一特征空间，这样往往会造成一定的特征损失。为实现这一目的，论文提出了一种新颖的分层原型指导分布细化框架，通过引入叶子原型和非叶子原型在双曲空间中，来表达活体检验测试的数据潜在的分层结构，同时我们提出了分层原型学习，通过约束双曲空间中的多层次关系，在样本-样本，样本-原型与原型-原型进行关系优化，引导域对齐并提高判别性。论文还设计了面向原型的分类器，以提高最终决策的稳健性。

作者及单位：方彬（上海交通大学），李博（腾讯优图实验室），吴双（腾讯优图实验室），丁守鸿（腾讯优图实验室），易冉（上海交通大学），马利庄（上海交通大学）

论文简介：将未授权的个人数据用于商业模型的行为引起了人们的关注。未解决该问题，研究人员提出了Availability Attacks使得数据无法被利用。论文重新审视了现有的Availability Attacks方法，并提出了一种新的两步Min-Max-Min优化范式来生成鲁棒的Unlearnable Noise。另外，论文公式化了攻击效果并用该公式约束优化目标。论文中的方法在较低的成本下取得了最好的效果。

作者及单位：陈思辰（上海交通大学），张映艺（腾讯优图实验室），黄思铭（腾讯优图实验室），易冉（上海交通大学），樊珂（上海交通大学），张睿欣（腾讯优图实验室），陈珮娴（腾讯优图实验室），王军（腾讯微信支付实验室），丁守鸿（腾讯优图实验室），马利庄（上海交通大学）

论文简介：小型自注意力模型往往受到欠拟合问题影响，未解决这个问题，论文提出了子注意力模型的潜在深度概念，并基于此设计了一种自蒸馏的训练方法，该方法在人体姿态估计任务上相同性能的情况下能够降低25%的参数量与33%的运算量，同时在图像分类与分割任务中也证实有效。

作者及单位：胡腾（上海交通大学），易冉（上海交通大学），钱柏宏（上海交通大学），张江宁（浙江大学），来煜坤（卡迪夫大学），Paul L Rosin（卡迪夫大学）

论文简介：论文提出了一种基于超像素的图像矢量化模型SuperSVG，实现快速而高精度的图像矢量化。论文将输入图像分解为超像素，以帮助模型集中关注颜色和纹理相似的区域。研究人员提出了一个两阶段的自训练框架，其中粗略阶段重建整体结构，精细阶段用以丰富细节。此外，论文提出了一种新的动态路径调整损失，以帮助精细阶段模型从粗略阶段模型中继承知识。大量实验证明，论文中的方法在重建准确性和推理时间方面表现出卓越的性能。

作者及单位：汪铖杰（上海交通大学，腾讯优图实验室），朱文兵（复旦大学，荣旗工业），高斌斌（腾讯优图实验室），甘振业（腾讯优图实验室），张江宁（腾讯优图实验室），顾智浩（上海交通大学），钱曙光（荣旗工业），陈敏刚（上海软件中心），马利庄（上海交通大学）

论文简介：文本提出了一个名为Real-IAD的工业质检数据集，包含30种不同工业零件，共计15万高清图像，相较已有数据集在规模上有10倍的提升。同时，结合实际应用场景提出多视角特性，以及FUIAD (Fully Unsupervised Industrial Anomaly Detection)新技术问题抽象，并给出了现有方法的表现以及问题分析。同时该数据因在多重维度上的规模提升，对于包括统一质检模型在内的多个工业异常检测技术探讨研究方向均有助力。

作者及单位：张北辰（上海交通大学），王晓星（上海交通大学）, 秦啸涵（上海交通大学）, 严骏驰（上海交通大学）

论文简介：超网络代理是一种高效的估计神经网络性能的方式，但学界对其估计准确性的研究较少。本文通过实验分析了超网络代理评价在全局搜索空间和局部搜索空间上的保序能力，并指出该方法在局部搜索空间上的保序性较差。针对该问题，本文提出了一种将架构搜索与超网微调相结合的精细搜索策略，并通过实验证明了该方法的有效性。

作者及单位：王梓宇*（上海交通大学），许越*（上海交通大学），卢策吾（上海交通大学），李永露（上海交通大学）（*：共同一作）

论文简介：最近，数据集蒸馏技术为高效机器学习开辟了新径，尤其在图像数据集方面取得了显著进展。然而，针对视频数据集的蒸馏——其核心特征是独特的时间维度——仍然是一个未被深入研究的领域。在本项研究中，研究人员首次系统地探讨了视频蒸馏，并提出了一个分类体系，用以对时间压缩技术进行分类。本文发现，在蒸馏过程中，时间信息往往未能得到充分学习，而合成数据的时间维度对学习的贡献也相对有限。这些发现促使研究人员构建了一个统一的框架，旨在分离视频中的动态和静态信息。该框架首先将视频转化为静态图像，形成静态记忆，随后通过一个可训练的动态记忆模块来补充动态和运动信息。论文中的方法在不同规模的视频数据集上取得了先进的性能，并且明显降低了存储成本。

[上一篇] 【48812】ET城市大脑三项视觉技能论文当选CVPR：不改动摄像头进步视频辨认技能

[下一篇] 阿里巴巴新专利：目标检测技术开启智能时代新篇章