155 人工智能技术选择,该从哪里获得灵感?
在上一讲的内容里,我们分享了在人工智能领域快速学习的一些方法。学习到这些人工智能技术后,我们肯定是希望能够把技术应用到工程实践中,来解决实际产品的问题。
这里面有一个非常重要的问题,就是面对这些论文、或者是别人分享的工程实践,作为初学者或者是有一些经验的工程师,我们应该如何来选择技术呢?是去实现当前最新论文介绍的技术?还是跟随其他公司已经有了的架构?
今天,我们就来聊一聊人工智能领域的工程技术选择这个话题。
如何看待学术论文和技术选择的关系
首先,我们来看一看论文和工程技术选择之间的关系。我们是不是需要去实现最新论文里的模型呢?
在回答这个问题之前,我们来聊一下学术论文本身的一些特点。
学术论文,作为科学知识和信息传播的一种载体,本身是有其内在的使命和一定的规律的。学术论文的核心功能是在一定的规范框架下,传播、总结和讨论新知识。这里面我们需要注意的是"一定的规范框架"和"新知识”。
我们先来说说新知识,这其实是整个学术论文存在的核心价值。很多新知识其实是某种意义上的学术尝试和创新,例如提出的一种新观点、一种新思想、一种新方法或者是一种新算法。这些新知识是不是能够沉淀下去成为某种主流思想,或者说是否能够在实际系统中真正发挥作用,还有待时间的检验。换句话说,新知识的知识结构还不完整,我们并不知道这些知识点后续会有什么样的发展,我们并不能简单地在学术创新和实现现实意义之间划等号。
因此,冒然利用最新的技术往往会因为技术不成熟、信息不完整而带来很多风险。举个例子,如果我们在2009年的时候就采用了深度学习技术,当时的很多方法,例如"事先训练”(Pre-Training)等,在后面更加成熟的技术面前都已经被遗弃了。很明显,当时的深度学习框架远远没有现在的成熟,所以就会有很大的前期工程成本。
再举个例子,在最基本的"随机梯度下降"算法上进行改进的优化算法,绝大多数都是在理论上对收敛速度的改进。而这些收敛速度基本上都取决于当数据点趋近于无穷多的时候。那么,这种改进其实并没有太大的现实意义。
我们刚才还提到学术论文都在"一定的框架范围内”,其实就是说目前计算机科学的绝大多数论文都遵循某种格式和写作要求,也可以说是某种程度的"八股论文"式的写作。这种格式虽然统一了论文发表内容的差异性,但是过分注重在某个标准数据集上的一些性能提升,就有可能发明了一些在其他数据集上完全无法推广的技术。比如,有的论文甚至把在某些标准数据集上非常小(例如小于1%)的提升当作重要的创新。显然,这样的成果往往都无法在工程环境中复现,又何谈现实意义呢?
说了这么多学术论文的特点,我们再回到刚才最开始的话题,那就是学术论文和工程选择的关系。学术论文提供了一种思路,帮助我们开阔眼界,但是切记,我们不能把学术论文当作是金科玉律和亘古不变的真理。相反,对于每一篇学术论文,我们要带着批判的眼光,有所保留地来看待论文背后的创新点。
那学术论文中的思路是不是就完全不要去采用呢?其实也不是。当我们发现有一系列的学术论文,或者很多学术会议都在探讨某个类似的技术时,那么这个技术也许就值得我们尝试去实现一下,来做一些早期的评测,看这样的技术在自己工程环境的数据中是不是依然有效果。
如何看到工业界技术分享和技术选择的关系
除了正规的学术论文以外,在人工智能火热的今天,各类工业界的技术分享也是层出不穷,这里面的内容水平和可复制性可以说是千差万别。那么,我们到底应该如何看待这些技术分享呢?我总结了两点给你借鉴。
第一,一般来说,很多公司的技术分享其实都是只言片语或者说一个整体平台的片段。因此,如果我们直接把这些分享用于自己团队的工程实践中,往往就会产生断章取义的效果。
实际上,一个公司的技术选择和这个公司在做选择那个时间段的很多因素都有着密不可分的关系。比如,一个比较大的机器学习系统往往和公司的其他业务需求、数据基础、机器学习基础设施以及团队当时的工程水平等因素相关。某一个系统在一个时期内的形态就是这些相关因素的一个综合体现。然而,技术人员的分享内容很难涵盖所有的方方面面,使得我们容易忽略某个技术选择和公司以及团队的这种内在的紧密联系,而单纯考虑技术分享的内容。因此,尽量去理解其他公司的技术选择思路,要比只关注所分享的内容本身更重要。
第二,公司的很多技术选择并不是同行审议的结果,需要我们带着批判的眼光去看待。这一点是和学术论文相比较而言的。一般来说,一篇高水平的论文要想发表在顶级学术会议(或者期刊)上,往往都需要得到同行的审议。这种审议的重点一般会看论文是不是比较了类似方法,以及能否真正说清楚论文的创新点和贡献在哪里,这其实就是对论文质量的某种程度的把关。那么,这个同行审议的环节在公司做技术选择的过程中是不一定存在的。很多公司的技术发展路线选择都不能摆脱种种外部的和内部的限制,最后的结果并不是无懈可击或者不容置疑的。
所以,我们不太可能直接复制其他公司的技术框架,但是这些公司的技术分享对我们的好处也是显而易见的。我们一定要抱着开放的心态来学习这些分享中的精华之处,重点是能够理解各个组件之间的逻辑关系,以及一些关键技术点选择背后的推理过程和取舍过程,这种思考对于我们的提高是非常有帮助的。
小结
今天,我们从如何借鉴学术论文和工业界技术分享两个角度,一起来梳理了人工智能技术选择的思路。工程技术选择是一个综合的复杂问题,我们一方面着眼于创新技术本身,一方面着眼于自己公司、产品和团队的实际情况,以批判的眼光吸收新知识和新实践,最后做出最适合自己发展的技术选择。
最后,给你留一个思考题,在一个公司的最佳实践分享中,他们提出了一个模型A,大幅度提高了模型B,现在你会如何来看待这个分享呢?
文章列表
- 面试AI技术内参-003精读2017年KDD最佳应用数据科学论文
- 面试AI技术内参-075现代推荐架构剖析之三:复杂现代推荐架构漫谈
- 面试AI技术内参-093聊一聊程序化直接购买和广告期货
- 面试AI技术内参-030ACL2018论文精读:什么是端到端的语义哈希?
- 面试AI技术内参-116掌握计算机视觉任务的基础模型和操作
- 面试AI技术内参-018TheWeb2018论文精读:如何从文本中提取高元关系?
- 面试AI技术内参-121计算机视觉领域的深度学习模型(一):AlexNet
- 面试AI技术内参-123计算机视觉领域的深度学习模型(三):ResNet
- 面试AI技术内参-033经典搜索核心算法:语言模型及其变种
- 面试AI技术内参-146数据科学团队必备的工程流程三部曲
- 面试AI技术内参-094归因模型:如何来衡量广告的有效性
- 面试AI技术内参-155人工智能技术选择,该从哪里获得灵感?
- 面试AI技术内参-089广告的竞价策略是怎样的?
- 面试AI技术内参-001聊聊2017年KDD大会的时间检验奖
- 面试AI技术内参-076基于深度学习的推荐模型之一:受限波兹曼机
- 面试AI技术内参-126计算机视觉高级话题(三):产生式模型
- 面试AI技术内参-009如何将深度强化学习应用到视觉问答系统?
- 面试AI技术内参-012精读2017年NIPS最佳研究论文之三:如何解决非完美信息博弈问题?
- 面试AI技术内参-112什么是文档情感分类?
- 面试AI技术内参-045文档理解的重要特例:多模文档建模
- 面试AI技术内参-054机器学习排序算法经典模型:LambdaMART
- 面试AI技术内参-067推荐的Exploit和Explore算法之一:EE算法综述
- 面试AI技术内参-101基础文本分析模型之二:概率隐语义分析
- 面试AI技术内参-147数据科学团队怎么选择产品和项目?
- 面试AI技术内参-149微软研究院:工业界研究机构的楷模
- 面试AI技术内参-074现代推荐架构剖析之二:基于多层搜索架构的推荐系统
- 面试AI技术内参-073现代推荐架构剖析之一:基于线下离线计算的推荐架构
- 面试AI技术内参-000开篇词你的360度人工智能信息助理
- 面试AI技术内参-059简单推荐模型之二:基于相似信息的推荐模型
- 面试AI技术内参-106序列建模的深度学习利器:RNN基础架构
- 面试AI技术内参-117计算机视觉中的特征提取难在哪里?
- 面试AI技术内参-144数据科学家必备套路之三:广告套路
- 面试AI技术内参-114文本情感分析中如何做意见总结和搜索?
- 面试AI技术内参-016TheWeb2018论文精读:如何对商品的图片美感进行建模?
- 面试AI技术内参-结束语雄关漫道真如铁,而今迈步从头越
- 面试AI技术内参-057基于深度学习的搜索算法:局部和分布表征下的搜索模型
- 面试AI技术内参-119基于深度学习的计算机视觉技术(二):基本的深度学习模型
- 面试AI技术内参-078基于深度学习的推荐模型之三:利用深度学习来扩展推荐系统
- 面试AI技术内参-056基于深度学习的搜索算法:卷积结构下的隐含语义模型
- 面试AI技术内参-069推荐的Exploit和Explore算法之三:汤普森采样算法
- 面试AI技术内参-114复盘3自然语言处理及文本处理核心技术模块
- 面试AI技术内参-025ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉
- 面试AI技术内参-023CVPR2018论文精读:如何从整体上对人体进行三维建模?
- 面试AI技术内参-154在人工智能领域,如何快速找到学习的切入点?
- 面试AI技术内参-017TheWeb2018论文精读:如何改进经典的推荐算法BPR?
- 面试AI技术内参-071推荐系统评测之二:线上评测
- 面试AI技术内参-084雅虎的广告点击率预估模型
- 面试AI技术内参-090如何优化广告的竞价策略?
- 面试AI技术内参-092如何设置广告竞价的底价?
- 面试AI技术内参-107基于门机制的RNN架构:LSTM与GRU
- 面试AI技术内参-148曾经辉煌的雅虎研究院
- 面试AI技术内参-027ICML2018论文精读:优化目标函数的时候,有可能放大了不公平?
- 面试AI技术内参-150复盘6数据科学家与数据科学团队是怎么养成的?
- 面试AI技术内参-138数据科学团队养成:Onsite面试面面观
- 面试AI技术内参-034机器学习排序算法:单点法排序学习
- 面试AI技术内参-036机器学习排序算法:列表法排序学习
- 面试AI技术内参-042如何评测搜索系统的在线表现?
- 面试AI技术内参-058简单推荐模型之一:基于流行度的推荐模型
- 面试AI技术内参-066高级推荐模型之三:优化复杂目标函数
- 面试AI技术内参-070推荐系统评测之一:传统线下评测
- 面试AI技术内参-100基础文本分析模型之一:隐语义分析
- 面试AI技术内参-142数据科学家必备套路之一:搜索套路
- 面试AI技术内参-145如何做好人工智能项目的管理?
- 面试AI技术内参-129数据科学家基础能力之系统
- 面试AI技术内参-143数据科学家必备套路之二:推荐套路
- 面试AI技术内参-057复盘1搜索核心技术模块
- 面试AI技术内参-078复盘2推荐系统核心技术模块
- 面试AI技术内参-082Google的点击率系统模型
- 面试AI技术内参-098LDA变种模型知多少
- 面试AI技术内参-103为什么需要Word2Vec算法?
- 面试AI技术内参-060简单推荐模型之三:基于内容信息的推荐模型
- 面试AI技术内参-077基于深度学习的推荐模型之二:基于RNN的推荐系统
- 面试AI技术内参-134职场话题:数据科学家应聘要具备哪些能力?
- 面试AI技术内参-120基于深度学习的计算机视觉技术(三):深度学习模型的优化
- 面试AI技术内参-118基于深度学习的计算机视觉技术(一):深度神经网络入门
- 面试AI技术内参-140人工智能领域知识体系更新周期只有5~6年,数据科学家如何培养?
- 面试AI技术内参-002精读2017年KDD最佳研究论文
- 面试AI技术内参-006精读2017年EMNLP最佳短论文
- 面试AI技术内参-065高级推荐模型之二:协同矩阵分解
- 面试AI技术内参-086Twitter的广告点击率预估模型
- 面试AI技术内参-087阿里巴巴的广告点击率预估模型
- 面试AI技术内参-104Word2Vec算法有哪些扩展模型?
- 面试AI技术内参-113如何来提取情感实体和方面呢?
- 面试AI技术内参-037查询关键字理解三部曲之分类
- 面试AI技术内参-049PageRank算法的核心思想是什么?
- 面试AI技术内参-109对话系统之经典的对话模型
- 面试AI技术内参-125计算机视觉高级话题(二):视觉问答
- 面试AI技术内参-132数据科学家高阶能力之如何系统提升产品性能
- 面试AI技术内参-026ICML2018论文精读:聊一聊机器学习算法的公平性问题
- 面试AI技术内参-022CVPR2018论文精读:如何研究计算机视觉任务之间的关系?
- 面试AI技术内参-007精读2017年ICCV最佳研究论文
- 面试AI技术内参-038查询关键字理解三部曲之解析
- 面试AI技术内参-048搜索索引及其相关技术概述
- 面试AI技术内参-083Facebook的广告点击率预估模型
- 面试AI技术内参-085LinkedIn的广告点击率预估模型
- 面试AI技术内参-096复盘4广告系统核心技术模块
- 面试AI技术内参-102基础文本分析模型之三:EM算法
- 面试AI技术内参-126复盘5计算机视觉核心技术模块
- 面试AI技术内参-128数据科学家基础能力之机器学习
- 面试AI技术内参-1522017人工智能技术发展盘点
- 面试AI技术内参-124计算机视觉高级话题(一):图像物体识别和分割
- 面试AI技术内参-013WSDM2018论文精读:看谷歌团队如何做位置偏差估计
- 面试AI技术内参-011精读2017年NIPS最佳研究论文之二:KSD测试如何检验两个分布的异同?
- 面试AI技术内参-031经典搜索核心算法:TF
- 面试AI技术内参-047多轮打分系统概述
- 面试AI技术内参-050经典图算法之HITS
- 面试AI技术内参-079广告系统概述
- 面试AI技术内参-080广告系统架构
- 面试AI技术内参-081广告回馈预估综述
- 面试AI技术内参-091如何控制广告预算?
- 面试AI技术内参-097LDA模型的前世今生
- 面试AI技术内参-115什么是计算机视觉?
- 面试AI技术内参-151精读AlphaGoZero论文
- 面试AI技术内参-096如何利用机器学习技术来检测广告欺诈?
- 面试AI技术内参-137数据科学团队养成:电话面试指南
- 面试AI技术内参-153如何快速学习国际顶级学术会议的内容?
- 面试AI技术内参-141数据科学家团队组织架构:水平还是垂直,这是个问题
- 面试AI技术内参-004精读2017年EMNLP最佳长论文之一
- 面试AI技术内参-005精读2017年EMNLP最佳长论文之二
- 面试AI技术内参-052机器学习排序算法经典模型:RankSVM
- 面试AI技术内参-061基于隐变量的模型之一:矩阵分解
- 面试AI技术内参-110任务型对话系统有哪些技术要点?
- 面试AI技术内参-131数据科学家高阶能力之评估产品
- 面试AI技术内参-150聊一聊谷歌特立独行的混合型研究
- 面试AI技术内参-139成为香饽饽的数据科学家,如何衡量他们的工作呢?
- 面试AI技术内参-024CVPR2018论文精读:如何解决排序学习计算复杂度高这个问题?
- 面试AI技术内参-046大型搜索框架宏观视角:发展、特点及趋势
- 面试AI技术内参-029ACL2018论文精读:什么是对话中的前提触发?如何检测?
- 面试AI技术内参-108RNN在自然语言处理中有哪些应用场景?
- 面试AI技术内参-105Word2Vec算法有哪些应用?
- 面试AI技术内参-028ACL2018论文精读:问答系统场景下,如何提出好问题?
- 面试AI技术内参-156内参特刊和你聊聊每个人都关心的人工智能热点话题
- 面试AI技术内参-014WSDM2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息
- 面试AI技术内参-095广告投放如何选择受众?如何扩展受众群?
- 面试AI技术内参-032经典搜索核心算法:BM25及其变种(内附全年目录)
- 面试AI技术内参-019SIGIR2018论文精读:偏差和流行度之间的关系
- 面试AI技术内参-055基于深度学习的搜索算法:深度结构化语义模型
- 面试AI技术内参-043文档理解第一步:文档分类
- 面试AI技术内参-072推荐系统评测之三:无偏差估计
- 面试AI技术内参-008精读2017年ICCV最佳学生论文
- 面试AI技术内参-035机器学习排序算法:配对法排序学习
- 面试AI技术内参-039查询关键字理解三部曲之扩展
- 面试AI技术内参-040搜索系统评测,有哪些基础指标?
- 面试AI技术内参-041搜索系统评测,有哪些高级指标?
- 面试AI技术内参-053机器学习排序算法经典模型:GBDT
- 面试AI技术内参-063基于隐变量的模型之三:分解机
- 面试AI技术内参-064高级推荐模型之一:张量分解模型
- 面试AI技术内参-068推荐的Exploit和Explore算法之二:UCB算法
- 面试AI技术内参-099针对大规模数据,如何优化LDA算法?
- 面试AI技术内参-127数据科学家基础能力之概率统计
- 面试AI技术内参-156近在咫尺,走进人工智能研究
- 面试AI技术内参-021SIGIR2018论文精读:如何对搜索页面上的点击行为进行序列建模?
- 面试AI技术内参-010精读2017年NIPS最佳研究论文之一:如何解决非凸优化问题?
- 面试AI技术内参-122计算机视觉领域的深度学习模型(二):VGG&GoogleNet
- 面试AI技术内参-044文档理解的关键步骤:文档聚类
- 面试AI技术内参-088什么是基于第二价位的广告竞拍?
- 面试AI技术内参-111聊天机器人有哪些核心技术要点?
- 面试AI技术内参-130数据科学家高阶能力之分析产品
- 面试AI技术内参-030复盘7一起来读人工智能国际顶级会议论文
- 面试AI技术内参-015WSDM2018论文精读:深度学习模型中如何使用上下文信息?
- 面试AI技术内参-062基于隐变量的模型之二:基于回归的矩阵分解
- 面试AI技术内参-020SIGIR2018论文精读:如何利用对抗学习来增强排序模型的普适性?
- 面试AI技术内参-133职场话题:当数据科学家遇见产品团队
- 面试AI技术内参-135职场话题:聊聊数据科学家的职场规划