新闻中心
网站首页   学会概况   学会规章   新闻中心   学术交流
社会服务   科学普及  计算机大赛   会员中心   联系方式
一键拨号
一键留言
会员中心
通知公告
技术创新论坛《Vision + Language: From Captioning to Grounding》
2020-10-15

南京大学计算机科学与技术系

软件新技术与产业化协同创新中心



摘 要:

联合视觉与语言的多模态学习,已经逐步成为业界的研究热点。结合文本信息,可以更深度的理解图像/视频等视觉信号。本演讲将介绍视觉与语言结合上的一些新的研究进展,主要集中于描述生成和视频定位。对于视频描述生成,提出编码器-解码器-重构器的框架,充分利用视频到文本和文本到视频双向信息,进而提升视频描述生成的能力。对于密集视频描述生成,不仅需要对视频进行定位,还需要为每一个定位的片段生成文本描述。构建了一个新的端到端的深度网络模型,同时完成视频的定位和描述生成。对于视频的定位,构建了新的时域定位网络用于快速的定位自然语句对应的视频片段。同时为了降低人工标注的数据需求,提出通过弱监督的方式定位与自然语句语义相关的是空域视频片段。


报告人简介:

马林,现任美团AI平台部视觉智能中心研究员,曾任腾讯AI Lab专家研究员。他于2013年在香港中文大学电子工程系获得博士学位,分别于2006和2008年在哈尔滨工业大学计算机学院获得本科与硕士学位。他现在主要从事深度学习、计算机视觉,视频分析与理解等,尤其是视觉与语言的多模态深度学习方面的研究。在领域顶级会议和期刊,如TPAMI,CVPR,ECCV,ICCV,NIPS,ICML,ACL,EMNLP等发表多篇论文,迄今google scholar引用超过3500+次。马林曾入围2012年香港科学协会青年科学家,曾于2011年获得微软亚洲研究院fellowship,并且获得国际会议 Pacific-Rim Conference on Multimedia (PCM) 2008最佳论文奖。

时间:10月16日(星期五)15:30

腾讯会议平台ID:103 664 087


上一篇:学术报告《Neural Modeling and Rendering: A Paradigm Shift in Computer Vision and Graphics》
下一篇:关于举办《区块链技术与应用》高等院校师资培训的通知
版权所有:江苏省计算机学会
苏ICP备14049275号-1