CVPR'21 Talk预告+交流报名 | 阿德莱德大学 V3A Lab,澳微帮微信公众号文章

⚡由将门-TechBeat人工智能社区所主办的CVPR 2021 群星闪耀·云际会将携手51位分享嘉宾，10场论文解读Talk，5天10场在线交流活动

，云端实时开讲，让你建立真正属于自己的能量级学术网络，同时一次性解锁学术的101种姿势。

⏰北京时间6月17日(周四)晚8点，第⑥场——阿德莱德大学 V3A Lab的论文解读Talk

将准时在TechBeat人工智能社区开播！届时团队负责人澳大利亚阿德莱德大学助理教授，博士生导师

吴琦老师将携其学生邓超睿、洪一聪、高晨一起分享他们在CVPR 2021的工作。

6月20日(本周日)下午14点

，这几位分享嘉宾将与大家进行线上的腾讯会议直播交流，进行在线的Free Q&A！

（团队工作介绍及报名方式见下文）

Talk·信息

▼

分享人：阿德莱德大学 V3A Lab

时间：北京时间 6月17日 (周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

长按识别二维码，直接预约观看！

直播交流活动·报名通道

▼

团队介绍

▼

阿德莱德大学 V3A Lab

• 人工智能在我们生活的方方面面起到了重要的作用，但要创造出与人类水平相当的人工智能，还有很长的路要走。最大的挑战之一是人类如何与人工智能有效沟通，人工智能如何在口头上和行动上进行有效回复。为此，我们的V3A Lab致力于研究基于视觉输入并能完成一系列行为动作的AI agent。V3A Lab主要从事四个与人类能力相对应的研究主题：视觉，问，答与行为动作，其中视觉用来接收来自环境的信息，问答是人类最基本的交流单元，而行动能力可以映射出人类的动作和操作能力。这些研究主题涵盖了图像字幕、视觉问答、指代表达和视觉语言导航等任务和应用。

• 实验室长期招收优秀博士生，博士后（视觉与语言方向）。

简历可发送至：[email protected]

• 更多信息请见实验室主页：

https://v3alab.github.io/

吴琦

澳大利亚阿德莱德大学助理教授，博士生导师

吴琦

，澳大利亚阿德莱德大学助理教授，博士生导师，澳大利亚青年学者基金获得者 (Australian Research Council DECRA Fellow)，澳大利亚机器人视觉研究中心（ACRV）vision-language课题组组长，澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位，致力于计算机视觉领域研究，尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR，ICCV，ECCV, AAAI, IJCAI, TPAMI等多个顶级国际会议和期刊发表论文六十余篇，吴琦博士亦担任TPAMI，IJCV，TIP，CVPR，NIPS，ACL等顶级学术期刊会议审稿人。

个人主页：

http://qi-wu.me/

①

自顶而下的密集型视频描述

本文提出了自顶向下的密集型视频描述方法（SGR）。给定一个视频，我们首先为其生成一个包含多句连贯描述的段落，对于段落中的每句描述，我们接着将其定位到视频中的片段上，从而得到连贯的密集型视频描述。通过这种方式，SGR的所产生的事件候选片段可以无缝衔接成一个完整的故事，保证了密集型描述的连贯性且减少了冗余。为了进一步增加视频片段的描述细节，我们设计了描述提升模块，以初步得到的密集型视频描述和视频片段为基准，并提出专用于描述质量提升的强化学习策略，来生成细节更丰富的密集型视频描述。

论文链接：https://openaccess.thecvf.com/content/CVPR2021/papers/Deng_Sketch_Ground_and_Refine_Top-Down_Dense_Video_Captioning_CVPR_2021_paper.pdf

邓超睿 | 阿德莱德大学在读博士生

邓超睿，阿德莱德博士一年级在读，导师为吴琦老师，目前对视频/图像理解，多模态数据处理感兴趣，在计算机视觉顶级会议/期刊（CVPR， ECCV，TPAMI）上发表共4篇一作文章。华南理工大学硕士。

个人主页：

https://dblp.uni-trier.de/pid/218/7471.html

②

用于视觉与语言导航的循环性BERT模型

本文提出了针对于视觉与语言导航任务（VLN）的循环性BERT模型（Recurrent VLN-BERT）。该模型在原本Transformer结构的基础上引入了循环（recurrence），以处理部分可观察的（partially observable）信息输入，并让单一Transformer网络得以实现多功能、同时解决多任务的效果。此方法在VLN任务上达到了新的SoTA，同时由于其简洁与高效，它能适用于多种基于Transformer的网络并解决其他任务。

论文链接：

https://arxiv.org/abs/2011.13922

项目链接：

https://github.com/YicongHong/Recurrent-VLN-BERT

洪一聪 | 大利亚国立大学在读博士生

洪一聪，澳大利亚国立大学（ANU）工程与计算机科学学院（CECS）的三年级博士生，同时也是澳大利亚机器人视觉研究中心（ACRV）和V3A Lab的成员，导师为Prof. Stephen Gould 与 Qi Wu (吴琦)，此前于ANU获得机电一体化一等荣誉学士学位。现专注于视觉与语言导航（Vision-and-Language Navigation）相关问题的研究。在EMNLP，NeurIPS和CVPR会议上均有一作论文发表。

个人主页：

http://www.yiconghong.me/

③

基于知识推理的远程指代表达方法

远程指代表达任务 (REVERIE)，不同于先前VLN任务 (基于R2R数据集)，其语言指令简短抽象 (high-level)，更需要agent具备prior knowledge和跨模态推理能力来完成该任务。因此，本工作主要研究了如何有效利用common-sense knowledge去解决REVERIE任务，所提出的“跨模态知识推理模型”在该数据集上取得了很好的效果，揭示了prior knowledge在相关问题中的重要意义。

论文链接：

https://openaccess.thecvf.com/content/CVPR2021/papers/Gao_Room-and-Object_Aware_Knowledge_Reasoning_for_Remote_Embodied_Referring_Expression_CVPR_2021_paper.pdf

项目链接：

https://github.com/alloldman/CKR

高晨 | 北京航空航天大学在读博士生

高晨，北京航空航天大学博士一年级在读，导师为刘偲副教授。研究兴趣主要包括计算机视觉，跨媒体智能，图像生成与编辑。在T-PAMI、CVPR、ACM MM等期刊和会议上发表多篇学术论文。

个人主页：

https://chengaopro.github.io/