计算机系统应用教程网站

网站首页 > 技术文章 正文

西电人工智能学子斩获ICCV 2021国际竞赛五项冠亚季军

btikc 2024-10-30 02:09:23 技术文章 2 ℃ 0 评论

2021 国际计算机视觉大会International Conference on Computer Vision (ICCV)部分赛事已经完结,在西安电子科技大学人工智能学院焦李成教授、刘芳教授、屈嵘教授与团队博士生杨育婷、黄钟健、赵嘉璇、张俊、耿雪莉、游超、马彦彪,硕士生郭志成、陈大帆、鲍骞月的共同指导下,学院参赛队伍在ICCV 2021三项竞赛中取得1冠3亚1季军的优异成绩。

赛题1

ICCV 2021 Multi-Modal Video Reasoning and Analyzing Competition Track1- Video Question Answering (获冠、亚军奖项)

由“王语涵,刘昕煜,苏婷”组成的学生队伍获得了ICCV 2021 多模态视频推理与分析大赛(MMVRAC 2021)视频问答赛道冠军。由“王佳豪、王浩、陈翼飞”组成的学生队伍获得了同赛道亚军。

MMVRAC 2021视频问答赛道的任务是针对交通事件视频数据集,进行交通事件的视频推理,回答有关视频内容的问题。冠军获奖队伍采用了基于Transformer的端到端CLIPBERT网络。其使用ResNet作为视觉编码器,一个可训练的词嵌入层作为文本编码器,不同的type embeddings分别用于指示clip和txt的源类型。随后,再将这两个序列作为输入连接到 12 层Transformer进行跨模态融合。根据“少即是多”的原则,在训练阶段采用了3种方法的对clips进行稀疏采样。另外,队伍还使用了3种不同的预训练方法:一方面,利用大规模图像文本数据集进行跨模态预训练。另一方面,新颖地使用上述初始化的clip权重来训练TGIF-QA action/transition 和 VQA v2,其权重也用于视频问答任务的训练。然后再从这三种类型的预训练权重中微调模型用于视频文本任务。最后,共计集成了9个模型达到了本赛道最高测试精度。

亚军获奖队伍分别使用了预训练模型resnet50,resnet101以及resnet152进行视频特征的抽取,使用glove进行词向量的编码,将文本特征和视频特征一起输入HCRN网络进行问题答案的预测,将训练集中所有问题答案的并集的长度作为HCRN最后一层类别数的大小。随后,将HCRN中输入线性层之前的特征提取出来输入传统机器学习中进行训练,并将其结果与其他结果进行融合。最后,统计所有问题答案出现的频次,根据出现的频次选择所有融合的结果中未被预测到的答案,以频次最高的答案作为最终结果,使预测结果有所提升。

赛题2

ICCV 2021 Vision Meets Drone: A Challenge Track1- Object Detection (获亚军奖项)

由“路小强,曹国金,张紫霄”组成的学生队伍获得了ICCV2021 “Vision Meets Drone: A Challenge”(VisDrone 2021)目标检测赛道的亚军。同时,基于该竞赛提出的方法,由张紫霄、路小强、曹国金、杨育婷完成的《ViT-YOLO: Transformer-Based YOLO for Object Detection》论文也已被ICCVW 2021录用。


VisDrone 2021目标检测赛道的任务是为无人机图像中所含物体预测其边界框位置以及所属类别置信度。亚军队伍基于原始的YOLOv4框架,引入多头自注意力机制设计了一个能够提取更多上下文信息和差异化特征的MHSA-Darknet作为Backbone,并采用BiFPN实现跨尺度特征融合,该网络相较于原YOLOv4算法具有更高的精度和更强的鲁棒性。此外,队伍还采用了时间测试增强和加权框融合等多种策略,有效缓解地了包括目标尺寸差异较大,无人机航拍图像的视角变换,复杂的背景环境干扰等视频跟踪问题,提高了最终的检测准确率。

赛题3

ICCV 2021 Learning to Understand Aerial Images Task3- Semantic Segmentation (获亚、季军奖项)

由“马天植、高子涵、王泠琪、左谊”组成的学生队伍获得了ICCV 2021学习理解航拍图像(LUAI 2021)语义分割赛道亚军。由孟畅、王浩、王佳豪、董倬君、惠翌铭、张洁组成的学生队伍获得了同赛道季军。


LUAI 2021语义分割赛道的任务目的是为航拍图像中的每个像素提供语义类别。亚军队伍最终使用的是基于多模型动态融合的遥感图像语义分割方法,使用加权投票合并模型、平滑算子优化结果,融合了基于Deeplabv3、pspnet、DeconvNet、ReCo等的六种模型和弱分类器。还采用了数据增强、多尺度裁剪、高斯模糊、测试时增强(TTA)、膨胀预测、加权训练等方式提高最终的mIoU值。

季军队伍使用Deeplabv3+作为基准模型,尝试使用不同的骨干网络、损失和优化技巧进行训练,对于数据分布不平衡问题采用了加权CE损失训练的改进方法,同时针对结果中IOU较低的类别使用二分类进行逐级加权覆盖。最后使用条件随机场改进和细化分割结果,另外还采用了模型融合、数据增强、测试时增强(TTA)和加权训练等策略来提高分类准确率。

ICCV,全称IEEE International Conference on Computer Vision (国际计算机视觉大会)由IEEE主办,在世界范围内每两年召开一次。其与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。

让学生通过学术竞赛快速提升科研能力、加强学术交流是人工智能学院人才培养的举措之一,“赛中学”不仅能够让学生保持科研的动力,同时也锻炼了学生的组织能力、抗压能力。近年来,智能学子已连续在多个国际顶会赛事中取得优异成绩,仅在2021年就于IGARSS、CVPR与ICCV国际赛事上已累计获得了5冠军、5亚军与4季军共14项奖项,人才培养成效显著。

(来源:IPIU智能感知与图像理解实验室)

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表