颜值女数据科学家妙解年薪10w刀北美热门职业

2017-10-26 15:36:26 林荟 张月萍/编 前沿技墅

  • 林荟:2013年至今任美国杜邦公司商业数据科学家。北京师范大学数学科学学院本科,美国爱荷华州立大学统计学院硕士和博士。曾任美国爱荷华州立大学统计咨询师(2009-2013)及商学院分析咨询师(2012-2013)。当选2017-2018美国统计协会市场营销统计项目主席。翻译出版了《应用预测建模》和《R语言市场研究分析》。2017年1月至今主持美国统计协会市场营销在线数据科学讲座。


当前关于大数据、人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型(如神经网络,深度学习“实际上就是多层神经网络”)。各路媒体砖家深谙吃瓜群众不明觉厉的心态,所以就像个妓院头牌似的越发摆谱。

不少人迷失在这信息时代造成的漫天泡沫中,仿佛卡在一扇旋转门里,转了很久不知道去哪。今天,就来试图还原真实的数据科学家到底是个什么情况。

一个还不错的职业

全球顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示,预计到2018年,也就是近在咫尺的明年,大数据或者数据工作者的岗位需求将激增,其中大数据科学家的缺口在140000到190000人之间,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达到1500000!

我们再来看看数据科学家的薪酬现状。从最大的职业社交网站领英( LinkedIn )的数据来看,北美数据科学家职位的年薪在7.万~ 17万美元之间,中位数是11.3万美元

其中,热衷聘请数据科学家的公司主要集中在微软、苹果、Facebook、亚马逊、谷歌这些市值全球排名靠前的知名科技互联网公司,下面是前10名雇佣数据科学家最多的公司:

 

数据科学家的所处的行业也集中在科技或者研究性机构,如信息技术及服务、计算机软件、互联网、金融服务等

为什么要成为数据科学家

对,前面提到了,年薪不菲,但收入在这个等级上的职业有很多,比这高好多的也不少。数据科学这门手艺能帮你培养在当今信息海啸中独善其身的技能——独立思考的能力。用数据进行决策能让你看问题更清晰,有逻辑,理性、客观。这种能力不是只有数据分析师才需要掌握的,理性思考是贯穿很多人一生的必修课,尤其是在互联网时代,通过理性思考甄别过滤信息比之前任何时候都重要。

此外,人的大脑是有连贯性的,已习得某项技能的人,再学另外一项技能的时候,学得会比上一次快一些,因为学习经验在起作用。而若习得的基础知识是可积累、可扩展的,那么随后可能习得的技能可变现价值就会越来越高。通过数据分析进行决策,就是一门可扩展性极高的技能,几乎可以扩展到这个数据时代的方方面面,而且随着社会的数据化趋势,这种可扩展性产生的“复利效应”将越来越大——有着可怕的潜力

数据科学家做什么

目前数据科学和数据科学家成了流行词汇。当有人问你干什么,如果你回答是数据科学家,对方会立马觉得高大上,噢,数据科学家啊,听说过。是啊,没听说过数据科学家那就 out 了。如果接着问,数据科学家具体干什么的?然后就没有然后了。数据科学家和很多概念类似,在大而化之的时候都可以存在,大家口耳相传,聊得不亦乐乎,但一追究细节,立即土崩瓦解。那么什么是数据科学家呢?

数据科学家=数据+科学+艺术家=用数据和科学从事艺术创作的人

这个定义听起来非常高大上,可能有些抽象,感觉自己是个文艺青年。其实也可用一种更接地气的方式表达:

数据科学=从数据中得到问题答案的科学

数据科学家=通过科学方法从数据中得到有实际意义的问题答案的人

数据科学结合一整套科学工具与技术(数学|计算|视觉|分析|统计|试验|问题界定|模型建立与检验等),用于从数据收集中获得新发现、洞察与价值。使用数据科学的根本目的是解决实际问题。

数据分析师、统计学家、BI咨询师…和数据科学家有什么关系

除了数据科学家,还有些职位其职责都和“从数据中获取信息”有关,比如:数据分析师,BI咨询师,统计学家,金融分析师,商业分析师,预测分析师……这些不同职业有什么区别?由于媒体的炒作以及对“数据科学家”这个名称的滥用,尽管总分析行业正在飞速发展,但大家对这个行业从业人员的认识却越来越混乱。

这些不同的职位要求有何不同?总体说来:

  • 金融分析师,一般有金融方向的MBA学位。他会用电子表格,知道会计软件,分析各部门的预算数据,分析实际经营结果和预测之间的差别,做一些预测,但这里的预测不会涉及复杂的机器学习和统计模型。

  • 数据分析师,一般有MBA学位,有一些计算机背景,很擅长使用电子表格,会用高阶的电子表格编程功能如VBA、自定义函数、宏。根据情况,会使用一些BI的软件,如Tableau,主要都是用鼠标点拖的方式。会用SQL从数据库中读取数据。我所见的商业分析师拥有很少(或没有)统计知识。所以这部分人有处理数据的知识,但是没有统计学的知识,能做的分析非常有限。

  • 统计学家,一般多在药厂、生物技术公司,做一些非常传统的混合效应模型、方差分析等生物统计分析。由于行业要求,多用SAS而非开源软件R。

  • BI咨询师,一般是工商管理专业,有MBA学位,受传统的商学院教育(熟悉 4Ps 或 6Ps, 4Cs,使用SWOT法分析市场),熟练使用电子表格,很少或没有其他技术背景。

  • 数据科学家,多是数学/统计、计算机、工程学专业出身,会使用 R,Python 等多种编程语言,熟悉数据可视化。大多数在入职前没有太多市场营销知识。

数据科学家的基本技能

这个领域的高学历现象并不能说明学历是必要条件,也不是充分条件。真正重要的是兴趣、匠人精神和自学能力。

数学、统计、计算机或其他定量分析学科(电子工程,运筹学等)的本科以上学力是必需的。硕士博士期间的课题最好偏向机器学习、数据挖掘或预测模型。

其次需要数据库操作技能,在工作中通常需要用SQL从数据库读取数据。所以能熟练使用SQL是基础。对于统计或者数学专业的学生,在校期间可能无须用SQL,因此不太熟悉,这没有关系,但你要确保自己至少精通一种程序语言,之后遇到需要用到的新语言可以迅速学习。

编程能力也是数据科学家需要的基本技能。熟练使用一种编程语言是必需的,如 R,Python,C 等。有人可能会问,只会SAS够不够?个人意见是:不够,建议是大家至少要熟悉一门开源语言。当然,这些都只是工具,工具是解决问题的手段,而非目的。你必须要有一个能用来进行数据分析的工具,偏好因人而异,但你选择工具的时候最好考虑工具的灵活性和可扩展性。

R和Python到底选哪个?


   VS.  


R和Python一样,都是排名非常靠前的编程语言,并且近几年的TIOBE排名持续走高,但更准确地说,R 是数据语言,在数据科学领域,它是孤独求败的。R 自问世之日,就自带数据和统计的DNA。在学习R的初级阶段会有一个陡峭的学习曲线,但不要担心,入门之后,纵向深入时就会很顺利。

Python 语言本身的可读性和易学性降低了初学者的进入门槛,即使将它作为自己的第一门编程语言来学习,也会很快得心应手。有全球各大机构、社区、志愿者贡献的库使 Python 完成数据分析、机器学习等工作时也更加得心应手。

R和Python并不相互排斥,都各自为对方准备了接入机制,所以不管最终选择哪个作为入门语言,后面的路都很宽。

接下来就要提到具体的分析技能。

数据科学家应该——

  • 掌握高等概率统计,能够熟练进行t检验、开方检验、拟合优度检验、方差分析。

  • 能够清楚地解释Spearman秩相关和Pearson相关之间的区别。

  • 熟悉抽样,概率分布,实验设计相关概念。

  • 了解贝叶斯统计(很快就能在白板上写下贝叶斯定理)。

  • 知道什么是有监督学习,什么是无监督学习。

  • 知道重要的聚类、判别和回归方法。

  • 知道基于罚函数的模型,关联法则分析。

如果从事心理相关的应用的话(如消费者认知调查),还需要知道基本的潜变量模型,如探索性因子分析,验证性因子分析,结构方程模型。这个单子还可以一直列下去。看起来是不是不只一点吓人?还有,单子是动态的,因为你在工作过程中还需要不断学习。这些技能只是让你能够很好地开始。再次强调自学能力和成为一个终生学习者是优秀的数据科学家的必要条件

除了技术能力以外,还需要其他一些非技术的能力。这些包括将实际问题转化成数据问题的能力,过程中需要交流,也就要求良好的交流沟通能力。关注细节,分析是一个需要细心和耐心的职业。还有就是展示结果的能力,如何让没有分析背景的客户理解模型的结果,并且最终在实践中应用模型的结论。

下面这张“数据科学家技能表”中总结了数据科学家需要的各方面技能。

总而言之,关于数据科学家有三个关键词:数据科学艺术。数据是基础;科学是工具;艺术是纽带——最终通过艺术将数据和科学结合得出的结果转化成相关领域的可应用知识,解决问题,真正产生价值。

在实际应用中,以需要解决的问题为导向的思维方式很重要,否则分析很容易沦落为手段淹没目的的过程,很多分析行业的人就会犯这个错误,一味追求高大上的模型,酷炫的可视化,而忘了分析的根本目的是为了解决问题。 

这个职业听起来很酷,但如果你对数据分析没有兴趣的话,体会到的就不是酷,而是克五“苦”。 

好了,数据科学家既然这好那好,可现在还什么都不是,什么都不会,该怎么办啊?——有句老话回响在耳际,“人傻就该多读书”,点击“阅读原文”,学习,从↓↓↓开始。 



长按二维码,关注“前沿技墅”,抢先接收新知、了解书讯、结识大咖。

任何伟大,无不起步于不经意间,你可以选择不经意错过,或不经意开始……