技术创新论坛《Vision + Language: From Captioning to Grounding》-通知公告-新闻中心-江苏省计算机学会

新闻中心

一键拨号

一键留言

会员中心

通知公告

技术创新论坛《Vision + Language: From Captioning to Grounding》

2020-10-15

南京大学计算机科学与技术系

软件新技术与产业化协同创新中心

摘要：

联合视觉与语言的多模态学习，已经逐步成为业界的研究热点。结合文本信息，可以更深度的理解图像/视频等视觉信号。本演讲将介绍视觉与语言结合上的一些新的研究进展，主要集中于描述生成和视频定位。对于视频描述生成，提出编码器-解码器-重构器的框架，充分利用视频到文本和文本到视频双向信息，进而提升视频描述生成的能力。对于密集视频描述生成，不仅需要对视频进行定位，还需要为每一个定位的片段生成文本描述。构建了一个新的端到端的深度网络模型，同时完成视频的定位和描述生成。对于视频的定位，构建了新的时域定位网络用于快速的定位自然语句对应的视频片段。同时为了降低人工标注的数据需求，提出通过弱监督的方式定位与自然语句语义相关的是空域视频片段。

报告人简介:

马林，现任美团AI平台部视觉智能中心研究员，曾任腾讯AI Lab专家研究员。他于2013年在香港中文大学电子工程系获得博士学位，分别于2006和2008年在哈尔滨工业大学计算机学院获得本科与硕士学位。他现在主要从事深度学习、计算机视觉，视频分析与理解等，尤其是视觉与语言的多模态深度学习方面的研究。在领域顶级会议和期刊，如TPAMI，CVPR，ECCV，ICCV，NIPS，ICML，ACL，EMNLP等发表多篇论文，迄今google scholar引用超过3500+次。马林曾入围2012年香港科学协会青年科学家，曾于2011年获得微软亚洲研究院fellowship，并且获得国际会议 Pacific-Rim Conference on Multimedia (PCM) 2008最佳论文奖。

时间：10月16日(星期五)15:30

腾讯会议平台ID：103 664 087

上一篇：学术报告《Neural Modeling and Rendering: A Paradigm Shift in Computer Vision and Graphics》
下一篇：关于举办《区块链技术与应用》高等院校师资培训的通知