009 如何将深度强化学习应用到视觉问答系统?
本周我们一起来剖析ICCV 2017的论文,周一和周三分别讲了最佳研究论文和最佳学生论文。今天,我们来分享一篇完全不同的文章,题目是《使用深度强化学习研究协作性视觉对话机器人》(Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning),讲的是如何通过"深度强化学习"来解决视觉问答系统。
作者群信息介绍
第一作者阿布谢克·达斯(Abhishek Das)是一名来自佐治亚理工大学的在读博士生。他于2017年和2018年在Facebook人工智能研究院实习,已经获得了Adobe的研究奖学金和Snapchat的研究奖学金,可以说是一名非常卓越的博士生。之前在智能系统,特别是在利用强化学习研究智能机器人会话系统的领域已经发表了多篇论文。
共同第一作者萨特维克·库托儿(Satwik Kottur)来自卡内基梅隆大学,博士第四年,研究领域为计算机视觉、自然语言和机器学习。2016年暑假他在Snapchat的研究团队实习,研究对话系统中的个性化问题。2017年暑假在Facebook研究院实习,研究视觉对话系统。近两年,萨特维克已在多个国际顶级会议如ICCV 2017、ICML 2017、IJCAI 2017、CVPR 2017、NIPS 2017以及EMNLP 2017发表了多篇高质量研究论文,可以说是一颗冉冉升起的学术新星。
第三作者何塞·毛拉(José M. F. Moura)是萨特维克在卡内基梅隆大学的导师。何塞是美国工程院院士和IEEE院士,长期从事信号处理以及大数据、数据科学的研究工作。他当选2018年IEEE总裁,负责IEEE下一个阶段的发展。
第四作者斯特凡·李(Stefan Lee)是来自乔治亚理工大学的研究科学家,之前在弗吉尼亚理工大学任职,长期从事计算机视觉、自然语言处理等多方面的研究。斯特凡2016年博士毕业于印第安纳大学计算机系。
第五作者德鲁·巴塔(Dhruv Batra)目前是Facebook研究院的科学家,也是乔治亚理工大学的助理教授。德鲁2010年博士毕业于卡内基梅隆大学;2010年到2012年在位于芝加哥的丰田理工大学担任研究助理教授;2013年到2016年在弗吉尼亚大学任教。德鲁长期从事人工智能特别是视觉系统以及人机交互系统的研究工作。文章的第四作者斯特凡是德鲁长期的研究合作者,他们一起已经发表了包括本文在内的多篇高质量论文。
论文的主要贡献
我们首先来看一下这篇文章的主要贡献,理解这篇文章主要解决了什么场景下的问题。
这篇论文是建立在这么一个虚拟"游戏”(Game)的基础上的。
首先,我们有两个"机器人”(Agent),一个叫"Q机器人”(Q-Bot),一个叫"A机器人”(A-Bot)。这个游戏的规则是这样的。一开始,A机器人得到一张图片I,Q机器人一开始得到I的一个文字描述c,而并不知道图片本身。然后,Q机器人开始问A机器人关于图片的各种问题,A机器人听到问题之后进行作答,帮助Q机器人更进一步理解图片。Q机器人最终的目的是能够把这个图片"猜到”,也就是说能够把图片从一个数据库中"提取”(Retrieve)出来。当然在实际的操作中,这一步可以是去衡量Q机器人对于图像的理解,也就是"描述图像的向量"和"真实图像的描述向量"的差距,差距越小说明越成功。
那么,你可以看到,这其实是一个很难的问题。Q机器人必须从A机器人提供的图像文字描述中寻找线索,并且能够提出有意义的问题。而A机器人必须了解Q机器人到目前为止究竟理解什么信息,才能帮助Q机器人成功。
整个游戏,或者叫任务,常常被称作是"协作性的视觉对话系统”(Cooperative Visual Dialog System)。这篇文章的主要贡献就是第一个利用深度加强学习来对这样一个系统进行建模,并且,与之前的非加强学习模型相比,提出的解决方案极大地提高了准确度。
论文的核心方法
那么,既然要把整个问题使用深度强化学习来建模,我们肯定就需要定义强化学习的一些构件。
第一,我们来看看模型的**“动作”(Action)**。两个机器人的动作空间就是自然语言的词汇表。因为,在这个游戏或者说在强化学习的每一轮中,两个机器人都是需要根据现在的状态,来进行下一步的动作,也就是问问题的语句。这是一个离散的动作空间。除此以外,Q机器人还需要在每一轮之后对自己理解的图像向量进行更新。那么,这是一个连续的动作空间。
第二,我们来看看模型的**“状态”(State)**。对于Q机器人来说,每一轮的状态,是一个这些信息的集合,包括最初的A机器人提供的图像的描述,以及到目前为止所有轮问答的每一句话。而A机器人的状态空间,则包括最初的图像本身,图像的描述,以及到目前为止所有轮的对话。
第三,我们来看看模型的**“策略”(Policy)**。对A机器人和Q机器人来说,都是要根据现在的状态,来评估下面的语句的可能性。这里,评估的机制其实分别用两个神经网络来学习A机器人和Q机器人的策略。同时,Q机器人还需要有一个神经网络来根据现有的A机器人的回答,来更新对图像的一个认识。
第四,我们来看一看模型的**“环境”(Environment)和"回馈”(Reward)**。在这个游戏里,两个机器人都会得到一样的回馈,而这个回馈的根据是Q机器人对图像的认识所表达的向量和图像的真实表达向量的一个距离,或者更加准确地说是距离的变化量。
以上就是整个模型的设置。
那么,我们来看两个模型策略神经网络的一些细节。首先,对于Q机器人来说,有这么四个重要的部件。第一,Q机器人把当前轮自己问的问题和A给的回答,当做一个组合,用LSTM进行编码产生一个中间变量F。第二,当前步骤的F和以前的所有F都结合起来,再经过一个LSTM,产生一个中间变量S。然后第三步,我们根据这个S来产生下一步的语句,以及当前对图像的一个重新的认识。也就是说,F其实就是一个对历史所有状态的描述,而S则是一个压缩了的当前描述信息,并且我们使用S来作为下一步的一个跳板。A机器人的策略神经网络的架构非常类似,这里就不赘述了,区别在于不需要去产生图像的理解。
整个模型采用了目前深度强化学习流行的REINFORCE算法来对模型的参数进行估计。
这篇文章其实有不少技术细节,我们在今天的分享里只能从比较高的维度帮助你进行总结,如果有兴趣一定要去阅读原文。
方法的实验效果
作者们在一个叫VisDial的数据集上做了实验。这个数据集有6万8千幅图像,是从我们之前提到过的COCO数据集里抽取出来的,并且提供了超过68万对问答。可以说这个数据集还是比较大型的。
文章比较了利用普通的监督学习以及"课程学习”(Curriculum Learning)的方法。从效果来看,强化学习的效果还是很明显的。最直接的效果是,强化学习能够产生和真实对话相近的对话效果,而其他的办法,比如监督学习,则基本上只能产生"死循环"的对话,效果不理想。不过从图像提取的角度来讲,强化学习虽然比监督学习的效果好,但是差距并不是特别明显,基本上可以认为目前的差距依然是在误差范围内的。
小结
今天我为你讲了ICCV 2017的一篇有意思的文章。这篇文章介绍了如何利用深度强化学习来搭建一个模型去理解两个机器人的对话并能够理解图像信息。
一起来回顾下要点:第一,我们简要介绍了这篇文章的作者群信息。第二,我们详细介绍了这篇文章要解决的问题以及贡献 。第三,我们重点介绍了的文章提出方法核心内容 。
最后,给你留一个思考题,你认为把强化学习用在这样的对话场景中,难点是什么?
文章列表
- 面试AI技术内参-003精读2017年KDD最佳应用数据科学论文
- 面试AI技术内参-075现代推荐架构剖析之三:复杂现代推荐架构漫谈
- 面试AI技术内参-093聊一聊程序化直接购买和广告期货
- 面试AI技术内参-030ACL2018论文精读:什么是端到端的语义哈希?
- 面试AI技术内参-116掌握计算机视觉任务的基础模型和操作
- 面试AI技术内参-018TheWeb2018论文精读:如何从文本中提取高元关系?
- 面试AI技术内参-121计算机视觉领域的深度学习模型(一):AlexNet
- 面试AI技术内参-123计算机视觉领域的深度学习模型(三):ResNet
- 面试AI技术内参-033经典搜索核心算法:语言模型及其变种
- 面试AI技术内参-146数据科学团队必备的工程流程三部曲
- 面试AI技术内参-094归因模型:如何来衡量广告的有效性
- 面试AI技术内参-155人工智能技术选择,该从哪里获得灵感?
- 面试AI技术内参-089广告的竞价策略是怎样的?
- 面试AI技术内参-001聊聊2017年KDD大会的时间检验奖
- 面试AI技术内参-076基于深度学习的推荐模型之一:受限波兹曼机
- 面试AI技术内参-126计算机视觉高级话题(三):产生式模型
- 面试AI技术内参-009如何将深度强化学习应用到视觉问答系统?
- 面试AI技术内参-012精读2017年NIPS最佳研究论文之三:如何解决非完美信息博弈问题?
- 面试AI技术内参-112什么是文档情感分类?
- 面试AI技术内参-045文档理解的重要特例:多模文档建模
- 面试AI技术内参-054机器学习排序算法经典模型:LambdaMART
- 面试AI技术内参-067推荐的Exploit和Explore算法之一:EE算法综述
- 面试AI技术内参-101基础文本分析模型之二:概率隐语义分析
- 面试AI技术内参-147数据科学团队怎么选择产品和项目?
- 面试AI技术内参-149微软研究院:工业界研究机构的楷模
- 面试AI技术内参-074现代推荐架构剖析之二:基于多层搜索架构的推荐系统
- 面试AI技术内参-073现代推荐架构剖析之一:基于线下离线计算的推荐架构
- 面试AI技术内参-000开篇词你的360度人工智能信息助理
- 面试AI技术内参-059简单推荐模型之二:基于相似信息的推荐模型
- 面试AI技术内参-106序列建模的深度学习利器:RNN基础架构
- 面试AI技术内参-117计算机视觉中的特征提取难在哪里?
- 面试AI技术内参-144数据科学家必备套路之三:广告套路
- 面试AI技术内参-114文本情感分析中如何做意见总结和搜索?
- 面试AI技术内参-016TheWeb2018论文精读:如何对商品的图片美感进行建模?
- 面试AI技术内参-结束语雄关漫道真如铁,而今迈步从头越
- 面试AI技术内参-057基于深度学习的搜索算法:局部和分布表征下的搜索模型
- 面试AI技术内参-119基于深度学习的计算机视觉技术(二):基本的深度学习模型
- 面试AI技术内参-078基于深度学习的推荐模型之三:利用深度学习来扩展推荐系统
- 面试AI技术内参-056基于深度学习的搜索算法:卷积结构下的隐含语义模型
- 面试AI技术内参-069推荐的Exploit和Explore算法之三:汤普森采样算法
- 面试AI技术内参-114复盘3自然语言处理及文本处理核心技术模块
- 面试AI技术内参-025ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉
- 面试AI技术内参-023CVPR2018论文精读:如何从整体上对人体进行三维建模?
- 面试AI技术内参-154在人工智能领域,如何快速找到学习的切入点?
- 面试AI技术内参-017TheWeb2018论文精读:如何改进经典的推荐算法BPR?
- 面试AI技术内参-071推荐系统评测之二:线上评测
- 面试AI技术内参-084雅虎的广告点击率预估模型
- 面试AI技术内参-090如何优化广告的竞价策略?
- 面试AI技术内参-092如何设置广告竞价的底价?
- 面试AI技术内参-107基于门机制的RNN架构:LSTM与GRU
- 面试AI技术内参-148曾经辉煌的雅虎研究院
- 面试AI技术内参-027ICML2018论文精读:优化目标函数的时候,有可能放大了不公平?
- 面试AI技术内参-150复盘6数据科学家与数据科学团队是怎么养成的?
- 面试AI技术内参-138数据科学团队养成:Onsite面试面面观
- 面试AI技术内参-034机器学习排序算法:单点法排序学习
- 面试AI技术内参-036机器学习排序算法:列表法排序学习
- 面试AI技术内参-042如何评测搜索系统的在线表现?
- 面试AI技术内参-058简单推荐模型之一:基于流行度的推荐模型
- 面试AI技术内参-066高级推荐模型之三:优化复杂目标函数
- 面试AI技术内参-070推荐系统评测之一:传统线下评测
- 面试AI技术内参-100基础文本分析模型之一:隐语义分析
- 面试AI技术内参-142数据科学家必备套路之一:搜索套路
- 面试AI技术内参-145如何做好人工智能项目的管理?
- 面试AI技术内参-129数据科学家基础能力之系统
- 面试AI技术内参-143数据科学家必备套路之二:推荐套路
- 面试AI技术内参-057复盘1搜索核心技术模块
- 面试AI技术内参-078复盘2推荐系统核心技术模块
- 面试AI技术内参-082Google的点击率系统模型
- 面试AI技术内参-098LDA变种模型知多少
- 面试AI技术内参-103为什么需要Word2Vec算法?
- 面试AI技术内参-060简单推荐模型之三:基于内容信息的推荐模型
- 面试AI技术内参-077基于深度学习的推荐模型之二:基于RNN的推荐系统
- 面试AI技术内参-134职场话题:数据科学家应聘要具备哪些能力?
- 面试AI技术内参-120基于深度学习的计算机视觉技术(三):深度学习模型的优化
- 面试AI技术内参-118基于深度学习的计算机视觉技术(一):深度神经网络入门
- 面试AI技术内参-140人工智能领域知识体系更新周期只有5~6年,数据科学家如何培养?
- 面试AI技术内参-002精读2017年KDD最佳研究论文
- 面试AI技术内参-006精读2017年EMNLP最佳短论文
- 面试AI技术内参-065高级推荐模型之二:协同矩阵分解
- 面试AI技术内参-086Twitter的广告点击率预估模型
- 面试AI技术内参-087阿里巴巴的广告点击率预估模型
- 面试AI技术内参-104Word2Vec算法有哪些扩展模型?
- 面试AI技术内参-113如何来提取情感实体和方面呢?
- 面试AI技术内参-037查询关键字理解三部曲之分类
- 面试AI技术内参-049PageRank算法的核心思想是什么?
- 面试AI技术内参-109对话系统之经典的对话模型
- 面试AI技术内参-125计算机视觉高级话题(二):视觉问答
- 面试AI技术内参-132数据科学家高阶能力之如何系统提升产品性能
- 面试AI技术内参-026ICML2018论文精读:聊一聊机器学习算法的公平性问题
- 面试AI技术内参-022CVPR2018论文精读:如何研究计算机视觉任务之间的关系?
- 面试AI技术内参-007精读2017年ICCV最佳研究论文
- 面试AI技术内参-038查询关键字理解三部曲之解析
- 面试AI技术内参-048搜索索引及其相关技术概述
- 面试AI技术内参-083Facebook的广告点击率预估模型
- 面试AI技术内参-085LinkedIn的广告点击率预估模型
- 面试AI技术内参-096复盘4广告系统核心技术模块
- 面试AI技术内参-102基础文本分析模型之三:EM算法
- 面试AI技术内参-126复盘5计算机视觉核心技术模块
- 面试AI技术内参-128数据科学家基础能力之机器学习
- 面试AI技术内参-1522017人工智能技术发展盘点
- 面试AI技术内参-124计算机视觉高级话题(一):图像物体识别和分割
- 面试AI技术内参-013WSDM2018论文精读:看谷歌团队如何做位置偏差估计
- 面试AI技术内参-011精读2017年NIPS最佳研究论文之二:KSD测试如何检验两个分布的异同?
- 面试AI技术内参-031经典搜索核心算法:TF
- 面试AI技术内参-047多轮打分系统概述
- 面试AI技术内参-050经典图算法之HITS
- 面试AI技术内参-079广告系统概述
- 面试AI技术内参-080广告系统架构
- 面试AI技术内参-081广告回馈预估综述
- 面试AI技术内参-091如何控制广告预算?
- 面试AI技术内参-097LDA模型的前世今生
- 面试AI技术内参-115什么是计算机视觉?
- 面试AI技术内参-151精读AlphaGoZero论文
- 面试AI技术内参-096如何利用机器学习技术来检测广告欺诈?
- 面试AI技术内参-137数据科学团队养成:电话面试指南
- 面试AI技术内参-153如何快速学习国际顶级学术会议的内容?
- 面试AI技术内参-141数据科学家团队组织架构:水平还是垂直,这是个问题
- 面试AI技术内参-004精读2017年EMNLP最佳长论文之一
- 面试AI技术内参-005精读2017年EMNLP最佳长论文之二
- 面试AI技术内参-052机器学习排序算法经典模型:RankSVM
- 面试AI技术内参-061基于隐变量的模型之一:矩阵分解
- 面试AI技术内参-110任务型对话系统有哪些技术要点?
- 面试AI技术内参-131数据科学家高阶能力之评估产品
- 面试AI技术内参-150聊一聊谷歌特立独行的混合型研究
- 面试AI技术内参-139成为香饽饽的数据科学家,如何衡量他们的工作呢?
- 面试AI技术内参-024CVPR2018论文精读:如何解决排序学习计算复杂度高这个问题?
- 面试AI技术内参-046大型搜索框架宏观视角:发展、特点及趋势
- 面试AI技术内参-029ACL2018论文精读:什么是对话中的前提触发?如何检测?
- 面试AI技术内参-108RNN在自然语言处理中有哪些应用场景?
- 面试AI技术内参-105Word2Vec算法有哪些应用?
- 面试AI技术内参-028ACL2018论文精读:问答系统场景下,如何提出好问题?
- 面试AI技术内参-156内参特刊和你聊聊每个人都关心的人工智能热点话题
- 面试AI技术内参-014WSDM2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息
- 面试AI技术内参-095广告投放如何选择受众?如何扩展受众群?
- 面试AI技术内参-032经典搜索核心算法:BM25及其变种(内附全年目录)
- 面试AI技术内参-019SIGIR2018论文精读:偏差和流行度之间的关系
- 面试AI技术内参-055基于深度学习的搜索算法:深度结构化语义模型
- 面试AI技术内参-043文档理解第一步:文档分类
- 面试AI技术内参-072推荐系统评测之三:无偏差估计
- 面试AI技术内参-008精读2017年ICCV最佳学生论文
- 面试AI技术内参-035机器学习排序算法:配对法排序学习
- 面试AI技术内参-039查询关键字理解三部曲之扩展
- 面试AI技术内参-040搜索系统评测,有哪些基础指标?
- 面试AI技术内参-041搜索系统评测,有哪些高级指标?
- 面试AI技术内参-053机器学习排序算法经典模型:GBDT
- 面试AI技术内参-063基于隐变量的模型之三:分解机
- 面试AI技术内参-064高级推荐模型之一:张量分解模型
- 面试AI技术内参-068推荐的Exploit和Explore算法之二:UCB算法
- 面试AI技术内参-099针对大规模数据,如何优化LDA算法?
- 面试AI技术内参-127数据科学家基础能力之概率统计
- 面试AI技术内参-156近在咫尺,走进人工智能研究
- 面试AI技术内参-021SIGIR2018论文精读:如何对搜索页面上的点击行为进行序列建模?
- 面试AI技术内参-010精读2017年NIPS最佳研究论文之一:如何解决非凸优化问题?
- 面试AI技术内参-122计算机视觉领域的深度学习模型(二):VGG&GoogleNet
- 面试AI技术内参-044文档理解的关键步骤:文档聚类
- 面试AI技术内参-088什么是基于第二价位的广告竞拍?
- 面试AI技术内参-111聊天机器人有哪些核心技术要点?
- 面试AI技术内参-130数据科学家高阶能力之分析产品
- 面试AI技术内参-030复盘7一起来读人工智能国际顶级会议论文
- 面试AI技术内参-015WSDM2018论文精读:深度学习模型中如何使用上下文信息?
- 面试AI技术内参-062基于隐变量的模型之二:基于回归的矩阵分解
- 面试AI技术内参-020SIGIR2018论文精读:如何利用对抗学习来增强排序模型的普适性?
- 面试AI技术内参-133职场话题:当数据科学家遇见产品团队
- 面试AI技术内参-135职场话题:聊聊数据科学家的职场规划