百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

西电人工智能学子斩获ICCV 2021国际竞赛五项冠亚季军

bigegpt 2024-08-03 11:28 11 浏览

2021 国际计算机视觉大会International Conference on Computer Vision (ICCV)部分赛事已经完结,在西安电子科技大学人工智能学院焦李成教授、刘芳教授、屈嵘教授与团队博士生杨育婷、黄钟健、赵嘉璇、张俊、耿雪莉、游超、马彦彪,硕士生郭志成、陈大帆、鲍骞月的共同指导下,学院参赛队伍在ICCV 2021三项竞赛中取得1冠3亚1季军的优异成绩。

赛题1

ICCV 2021 Multi-Modal Video Reasoning and Analyzing Competition Track1- Video Question Answering (获冠、亚军奖项)

由“王语涵,刘昕煜,苏婷”组成的学生队伍获得了ICCV 2021 多模态视频推理与分析大赛(MMVRAC 2021)视频问答赛道冠军。由“王佳豪、王浩、陈翼飞”组成的学生队伍获得了同赛道亚军。

MMVRAC 2021视频问答赛道的任务是针对交通事件视频数据集,进行交通事件的视频推理,回答有关视频内容的问题。冠军获奖队伍采用了基于Transformer的端到端CLIPBERT网络。其使用ResNet作为视觉编码器,一个可训练的词嵌入层作为文本编码器,不同的type embeddings分别用于指示clip和txt的源类型。随后,再将这两个序列作为输入连接到 12 层Transformer进行跨模态融合。根据“少即是多”的原则,在训练阶段采用了3种方法的对clips进行稀疏采样。另外,队伍还使用了3种不同的预训练方法:一方面,利用大规模图像文本数据集进行跨模态预训练。另一方面,新颖地使用上述初始化的clip权重来训练TGIF-QA action/transition 和 VQA v2,其权重也用于视频问答任务的训练。然后再从这三种类型的预训练权重中微调模型用于视频文本任务。最后,共计集成了9个模型达到了本赛道最高测试精度。

亚军获奖队伍分别使用了预训练模型resnet50,resnet101以及resnet152进行视频特征的抽取,使用glove进行词向量的编码,将文本特征和视频特征一起输入HCRN网络进行问题答案的预测,将训练集中所有问题答案的并集的长度作为HCRN最后一层类别数的大小。随后,将HCRN中输入线性层之前的特征提取出来输入传统机器学习中进行训练,并将其结果与其他结果进行融合。最后,统计所有问题答案出现的频次,根据出现的频次选择所有融合的结果中未被预测到的答案,以频次最高的答案作为最终结果,使预测结果有所提升。

赛题2

ICCV 2021 Vision Meets Drone: A Challenge Track1- Object Detection (获亚军奖项)

由“路小强,曹国金,张紫霄”组成的学生队伍获得了ICCV2021 “Vision Meets Drone: A Challenge”(VisDrone 2021)目标检测赛道的亚军。同时,基于该竞赛提出的方法,由张紫霄、路小强、曹国金、杨育婷完成的《ViT-YOLO: Transformer-Based YOLO for Object Detection》论文也已被ICCVW 2021录用。


VisDrone 2021目标检测赛道的任务是为无人机图像中所含物体预测其边界框位置以及所属类别置信度。亚军队伍基于原始的YOLOv4框架,引入多头自注意力机制设计了一个能够提取更多上下文信息和差异化特征的MHSA-Darknet作为Backbone,并采用BiFPN实现跨尺度特征融合,该网络相较于原YOLOv4算法具有更高的精度和更强的鲁棒性。此外,队伍还采用了时间测试增强和加权框融合等多种策略,有效缓解地了包括目标尺寸差异较大,无人机航拍图像的视角变换,复杂的背景环境干扰等视频跟踪问题,提高了最终的检测准确率。

赛题3

ICCV 2021 Learning to Understand Aerial Images Task3- Semantic Segmentation (获亚、季军奖项)

由“马天植、高子涵、王泠琪、左谊”组成的学生队伍获得了ICCV 2021学习理解航拍图像(LUAI 2021)语义分割赛道亚军。由孟畅、王浩、王佳豪、董倬君、惠翌铭、张洁组成的学生队伍获得了同赛道季军。


LUAI 2021语义分割赛道的任务目的是为航拍图像中的每个像素提供语义类别。亚军队伍最终使用的是基于多模型动态融合的遥感图像语义分割方法,使用加权投票合并模型、平滑算子优化结果,融合了基于Deeplabv3、pspnet、DeconvNet、ReCo等的六种模型和弱分类器。还采用了数据增强、多尺度裁剪、高斯模糊、测试时增强(TTA)、膨胀预测、加权训练等方式提高最终的mIoU值。

季军队伍使用Deeplabv3+作为基准模型,尝试使用不同的骨干网络、损失和优化技巧进行训练,对于数据分布不平衡问题采用了加权CE损失训练的改进方法,同时针对结果中IOU较低的类别使用二分类进行逐级加权覆盖。最后使用条件随机场改进和细化分割结果,另外还采用了模型融合、数据增强、测试时增强(TTA)和加权训练等策略来提高分类准确率。

ICCV,全称IEEE International Conference on Computer Vision (国际计算机视觉大会)由IEEE主办,在世界范围内每两年召开一次。其与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。

让学生通过学术竞赛快速提升科研能力、加强学术交流是人工智能学院人才培养的举措之一,“赛中学”不仅能够让学生保持科研的动力,同时也锻炼了学生的组织能力、抗压能力。近年来,智能学子已连续在多个国际顶会赛事中取得优异成绩,仅在2021年就于IGARSS、CVPR与ICCV国际赛事上已累计获得了5冠军、5亚军与4季军共14项奖项,人才培养成效显著。

(来源:IPIU智能感知与图像理解实验室)

相关推荐

Go语言泛型-泛型约束与实践(go1.7泛型)

来源:械说在Go语言中,Go泛型-泛型约束与实践部分主要探讨如何定义和使用泛型约束(Constraints),以及如何在实际开发中利用泛型进行更灵活的编程。以下是详细内容:一、什么是泛型约束?**泛型...

golang总结(golang实战教程)

基础部分Go语言有哪些优势?1简单易学:语法简洁,减少了代码的冗余。高效并发:内置强大的goroutine和channel,使并发编程更加高效且易于管理。内存管理:拥有自动垃圾回收机制,减少内...

Go 官宣:新版 Protobuf API(go pro版本)

原文作者:JoeTsai,DamienNeil和HerbieOng原文链接:https://blog.golang.org/a-new-go-api-for-protocol-buffer...

Golang开发的一些注意事项(一)(golang入门项目)

1.channel关闭后读的问题当channel关闭之后再去读取它,虽然不会引发panic,但会直接得到零值,而且ok的值为false。packagemainimport"...

golang 托盘菜单应用及打开系统默认浏览器

之前看到一个应用,用go语言编写,说是某某程序的windows图形化客户端,体验一下发现只是一个托盘,然后托盘菜单的控制面板功能直接打开本地浏览器访问程序启动的webserver网页完成gui相关功...

golang标准库每日一库之 io/ioutil

一、核心函数概览函数作用描述替代方案(Go1.16+)ioutil.ReadFile(filename)一次性读取整个文件内容(返回[]byte)os.ReadFileioutil.WriteFi...

文件类型更改器——GoLang 中的 CLI 工具

我是如何为一项琐碎的工作任务创建一个简单的工具的,你也可以上周我开始玩GoLang,它是一种由Google制作的类C编译语言,非常轻量和快速,事实上它经常在Techempower的基准测...

Go (Golang) 中的 Channels 简介(golang channel长度和容量)

这篇文章重点介绍Channels(通道)在Go中的工作方式,以及如何在代码中使用它们。在Go中,Channels是一种编程结构,它允许我们在代码的不同部分之间移动数据,通常来自不同的goro...

Golang引入泛型:Go将Interface「」替换为“Any”

现在Go将拥有泛型:Go将Interface{}替换为“Any”,这是一个类型别名:typeany=interface{}这会引入了泛型作好准备,实际上,带有泛型的Go1.18Beta...

一文带你看懂Golang最新特性(golang2.0特性)

作者:腾讯PCG代码委员会经过十余年的迭代,Go语言逐渐成为云计算时代主流的编程语言。下到云计算基础设施,上到微服务,越来越多的流行产品使用Go语言编写。可见其影响力已经非常强大。一、Go语言发展历史...

Go 每日一库之 java 转 go 遇到 Apollo?让 agollo 来平滑迁移

以下文章来源于GoOfficialBlog,作者GoOfficialBlogIntroductionagollo是Apollo的Golang客户端Apollo(阿波罗)是携程框架部门研...

Golang使用grpc详解(golang gcc)

gRPC是Google开源的一种高性能、跨语言的远程过程调用(RPC)框架,它使用ProtocolBuffers作为序列化工具,支持多种编程语言,如C++,Java,Python,Go等。gR...

Etcd服务注册与发现封装实现--golang

服务注册register.gopackageregisterimport("fmt""time"etcd3"github.com/cor...

Golang:将日志以Json格式输出到Kafka

在上一篇文章中我实现了一个支持Debug、Info、Error等多个级别的日志库,并将日志写到了磁盘文件中,代码比较简单,适合练手。有兴趣的可以通过这个链接前往:https://github.com/...

如何从 PHP 过渡到 Golang?(php转golang)

我是PHP开发者,转Go两个月了吧,记录一下使用Golang怎么一步步开发新项目。本着有坑填坑,有错改错的宗旨,从零开始,开始学习。因为我司没有专门的Golang大牛,所以我也只能一步步自己去...