当我进行以数据科学家进行毛遂自荐时,常常会被问道:“数据科学和机器学习有什么差异?”或许“这是不是意味着你在研讨人工智能?”所以我将经过本文进行答复。
这些范畴的确有许多堆叠的当地,但它们并不是一个范畴:即便很难用语言表达,这些范畴的大多数专家也都能直观的了解特定的作业是怎么被分类为数据科学、机器学习或人工智能的。
所以在这篇文章中,我提出了关于这三个范畴差异的简化界说:
·数据科学发生洞悉力。
·机器学习做出猜测。
·人工智能生成行为。
显着,这不是一个充分条件:不是一切符合该界说的东西都是该范畴的一部分。(算命先生做出预言,但咱们不会说他们在做机器学习!)这也不是一个确认或人人物或许职位头衔的好办法(我是数据科学家吗?)。
可是我以为这个界说对差异这三种作业对错常有用办法,并且能够防止你议论它的时分听起来很傻。
数据科学生成洞悉力
数据科学与其他两个范畴十分不同,由于它的方针一同也是人类的一个方针:取得洞悉力和了解能力。Jeff Leek对数据科学能够到达的洞悉类型有一个很好的界说,包含描绘性(“均匀客户端更新的几率为70%”)探究性(不同的出售人员有不同的更新率)和因果联系。
相同,并不是一切发生洞悉力的都有资历成为数据科学,数据科学的经典界说是它触及了计算学,软件工程和范畴专业常识的组合。可是咱们能够运用这个界说来差异它和ML、AI。它们最主要的差异在于,在数据科学循环过程中总需求人参加:由人了解洞悉成果,了解大体概括,或许从定论中获益。所以像“下棋算法运用数据科学来挑选下一步”或许“谷歌地图运用数据科学来引荐驾驭方向”这些说法都是毫无意义的。
因而,数据科学的界说着重:
·计算揣度
·数据可视化
·实验设计
·范畴常识
·通讯
数据科学家能够运用一些十分简略的东西:他们能够取得百分比,并依据SQL查询成果制作线形图。也能够运用十分复杂的办法:他们能够与涣散的数据仓库协作,剖析数以万亿计的记载,然后开发最前沿的计算技术,树立交互式可视化。可是不论他们运用什么,意图都是为了更好地了解他们的数据。
机器学习做出猜测
我以为机器学习归于猜测范畴:“给出具有特定特征的实例X,估测Y”。这些猜测或许是关于未来的(猜测这个患者是否会进入败血症),也或许是关于猜测对计算机来说不那么显着的特性(猜测这个图画是否会有鸟)。简直一切的Kaggle比赛都能够被以为是机器学习相关的问题:他们供给一些练习数据,然后看看比赛者能否对新的比方做出精确的猜测。
数据科学和机器学习有许多的堆叠之处。例如,都能够用逻辑回归来获取对有关联系的见地(越殷实的人越有或许购买咱们的产品,所以咱们应该改动咱们的营销战略)并且能够做出猜测(该用户有53%的几率购买咱们的产品,所以咱们应该多向他们推销)。
像随机森林(random forests)这样的模型,其可解说性稍差,所以更适合“机器学习”的描绘,而深度学习等办法则是难以解说的。假如你的方针是获取真知灼见,而不是做出猜测,那么这或许会阻碍你。因而,咱们能够幻想一个数据科学和机器学习的“光谱”,有更多的可解说模型倾向于数据科学方面,而更多的是机器学习方面的“黑匣子”模型。
大多数的从业者能够十分安闲的在两个范畴之间来回切换。我在作业中就一同运用了机器学习和数据学习:我能够在Stack Overflow流量数据上装置一个模型,以确认哪些用户或许正在寻觅作业(机器学习),然后构建总结和可视化来查验模型的作业原理(数据科学)。这是发现模型缺点的一个重要办法,也是处理算法误差的重要办法。这是数据科学家常常担任开发产品的机器学习组件的原因之一。
人工智能生成行为
人工智能是迄今为止这三种标识中最陈旧也是最广为人知的,因而界说它最具有挑战性。这个术语现已被炒作众多,这要归功于研讨人员,记者以及寻求金钱或许重视的创业公司。
·当你准备资金时,这是人工智能
·当你招聘时,便是ML
·当你正在履行时,这便是线性回归
·当你调试时,便是printf()
让我懊丧的是这引起了激烈的反弹,由于这意味着一些应该被称为人工智能的作业却没有得到相应的描绘。一些研讨人员乃至还诉苦人工智能的影响:“人工智能是咱们现在还做不到的”。那么咱们能够用AI来描绘什么作业呢?
“人工智能”界说中的一个共同点是自主代理人履行或引荐操作,一些我以为应该描绘为AI的体系包含:
·游戏规则(深蓝,AlphaGo)
·机器人与操控理论(运动规划,行走两足机器人)
·优化(谷歌地图挑选道路)
·自然语言处理(bots2)
·强化学习
相同,咱们能够看到它与其他范畴有许多堆叠之处。而深度学习横跨了ML和AI两个范畴,这十分风趣。典型的用例是对数据进行练习,然后生成猜测,但在AlphaGo这样的博弈算法中却取得了巨大的成功。(这与前期的游戏体系不同,比方深蓝,它更专心于探究和优化未来的处理方案空间)。
但也有差异。假如我剖析一些出售数据并发现某个特定职业的客户比其他职业的客户更新的更多,那么输出的是一些数字和图形,而不是指定操作。
请不要将那些练习算法的人描绘为“运用了人工智能的力气”。
- Dave Gershgorn (@davegershgorn) 2017年9月18日。
人工智能和机器学习之间的差异愈加奇妙,历史上的ML常常被以为是人工智能的一个分支(特别是计算机视觉,其实它是一个典型的人工智能问题)。但我以为,ML范畴很大程度上是由人工智能“中止”的,部分原因是上面描绘的反弹:大多数从事猜测问题的人不喜欢把自己描绘为人工智能研讨员。(它能经过计算数据协助许多ML完成重大突破,而这些数据在人工智能的其他范畴却没有那么大的影响力)。这意味着假如你能够用“Y猜测X”来描绘一个问题,那么我主张你防止运用AI这个词。
事例研讨:怎么一同运用这三者?
假定咱们正在制作一辆主动驾驭轿车,并且正在研讨怎么在泊车符号处主动泊车的具体问题。那么咱们将需求运用这三个范畴的技术。
机器学习:轿车有必要能够经过摄像头辨认泊车标志。咱们构建了数据集,其间包含数以百万计的街边方针的相片,并练习一种算法来猜测哪些有中止标志。
人工智能:一旦咱们的轿车能够辨认泊车标志了,就需求决议什么时分履行刹车动作。太早太晚都十分风险,并且咱们需求它能应对不同的路况(例如,它要能意识到在湿滑路面上刹车不会快速减速),这是一个操控理论的问题。
数据科学:在街头测验中,咱们发现车辆功能不够好,由于总会略过一些泊车标志。经过对街头测验数据的剖析,咱们得出了定论:在日出之前和日落之后,更简单错失泊车标志。这让咱们意识到,咱们大部分的练习数据只包含白日的印象,所以咱们结构了一个包含了夜间图画的更好的数据集,然后从头回到机器学习过程进行研讨测验。
咱们常说的“机器人”指的是解说自然语言,然后以什物回应的体系。这能够从文本发掘中差异出来,其方针是提取见地(数据科学)或文本分类,其方针是对文档进行分类(机器学习)。