当前位置:首 页 >深度解读
数据科学家迎来好日子
来源:中国科学报      作者:晋楠      时间:2017-09-24 18:06      关键词:
摘要:软件编程、算法开发和其他技能促进科学发展

 

英国伦敦阿兰·图灵研究所是日益增长的数据科学领域的一个跨学科港湾。图片来源:Toby Keane

数据科学的定义和期待可能会随着时间而转变,但这一领域将会沉淀下来。

正如这个数据驱动时代的其他很多科学家一样,Karthik Ram在2009年彻底改变了自己。当他开始进行博士后研究——气候变化如何影响美国怀俄明州黄石国家公园的麋鹿时,他认为自己是一名生态学家。但解释卫星数据以及分析跟踪动物的项圈等工作,让他开始扩展自己的思维定式。

为了了解不断变化的生态系统,他需要不断打磨编程,了解如何管理如山岳般的信息,这些技能已经改变了他定位自我以及个人职业的方式。“‘生态学家’这个词我用得越来越少。”他说,“现在,我主要称自己是一名数据科学家。”

年轻学科

数据科学在2009年是一门年轻的学科,但却快速变得成熟,现在已经与很多学科存在交叉。尽管其定义在变化,但数据科学通常涉及利用计算工具管理和解释大数据集。

现在加州大学伯克利分校伯克利数据科学研究所工作的Ram正在与同样转入数据领域的原神经学家、社会学家和生物学家一道工作。“研究所的每个人都和我一样。”他说,“我们拥有计算技能和统计技能,我们可以将这些用于特定的领域。”

对数据科学家的需求已经从学术界扩展到工业、保健、政府和会产生复杂信息的所有机构。微软公司预测,到2020年美国数据科学和分析领域可能会拥有超过270万个工作岗位,在2015年的基础上增加15%。根据欧洲数据科学学院(一家在欧洲搜寻数据科学技能的识别和收集工作岗位的培训和教育组织)统计,欧洲的相关人才需求量与此类似。2015年以来,学术界已经发布了300多万个类似的招聘广告,其中包括今年3个月内发布的29万个岗位招聘广告。

对于那些寻求数据科学家角色的人来说,其挑战并不是找工作,而是找到与他们的能力和兴趣相匹配的最佳职位。识别“最正确的岗位非常棘手”,科泉市科罗拉多学院原终身教职数学家、现在加州埃默里维尔Zymergen公司(研究基因编辑微生物的新用途)做数据科学家的Amelia Taylor说,“数据科学在不同地方看起来会非常不同。有如此多的公司,很难知道要看哪一些。”

当其他领域的博士学位拥有者拥有的选择少之又少时,这个领域拥有“太多选择”是一个好现象。掌握正确的技能、了解自身机遇所在的科学家将会看到一个有回报的、数据驱动的未来。

大量角色

数据科学已经导致很多领域“水涨船高”。除了“数据科学家”搜索增多之外,“数据工程师”和“数据分析师”也是工作搜索平台上的热词。这些角色的差异有些微妙但却很重要。“数据工程师的核心技能是打造稳健的不会失败的系统。”英国伦敦ASI数据科学企业(提供咨询服务和数据科学奖金计划)首席执行官Marc Warner解释说。

他表示,数据科学家和分析师的一个重要差别是,科学家会跟踪他们所引导的数据,即“数据第一”的方式;而分析师则通常会使用数据验证一个已成立的假设。

在英国伦敦阿兰·图灵研究所(ATI),Mihaela van der Schaar正在让数据开路。她开发了有助于患者个性化治疗、疾病诊断和风险预测的计算机算式。“我认为这样的技术能够改变医学、挽救生命,促进科学突破。”她说。

ATI由英国5所大学与国家工程和物理科学研究理事会在2015年成立,旨在促进产业界和政府的合作,该机构体现了数据科学的跨学科精神,van der Schaar说。她补充说,数据科学领域一些最大、最有趣的问题来自未曾预料到的地方。

“现在,我在ATI参与最多的项目之一是开发更好的方法,了解和治疗囊性纤维变性患者。”她说,“这并非来自于产业界,也并非来自于政府,而是通过与英国囊性纤维化病基金会的合作关系。”

跨学科联系还形成了摩尔·斯隆数据科学环境基金会——已经在加州大学伯克利分校、西雅图华盛顿大学和纽约大学建立了若干数据科学中心的一项倡议。每个中心都将来自各个领域的数据科学家聚集到一个地方。“其想法是通过在那些推进数据科学方法的人(数学、统计学和计算科学领域的研究人员)和将其应用于社会、物理和生命科学领域的人之间搭建桥梁,从而加速促进发现。”

并非所有博士生项目都在为进入数据科学的现实世界准备研究者,因此,短期培训课程正在变得日益受欢迎。Taylor之所以能够进入数据科学大门,是因为她获得了加州帕洛阿尔托一家名为“洞察数据科学”机构7周的奖学金项目,该项目将数据科学家和美国公司连接在一起。其成员已经在亚马逊、脸谱网、JP摩根以及各种其他大小型技术公司获得职位。

Taylor说,“洞察”的奖学金项目为教导她当前工作所需要的技能起到了非常宝贵的作用。除了掌握熟练的技能之外,培训教会她跳出数据分析的框架思考完成产品的实际应用。她观察到,拥有博士学位的人在进入产业界的工作岗位时通常会碰到过渡期的困境,除非他们已经掌握了一手的产业界经验。“因为我考虑到产品,所以在公司内起步非常快。”她说。

医疗帮助

数据科学已经到达医学和医疗中心,为很多研究型科学家提供了使用其技能的另一个出路。作为纽约大学和附近罗切斯特大学的神经科学培训的一部分,“洞察”原参与者Anasuya Das学习了C++编码语言,以创建帮助人们从中风中恢复过来的软件,使患者可以利用自己的计算机练习视觉。Das还参加了两三门计算神经科学课程,这激发了她将数据科学作为全职工作的兴趣。现在,她正在纽约市纪念斯隆凯特林癌症中心工作。

Das在利用一个系统将患者和临床试验相匹配。“我每日的工作非常多变,包括从做纯软件工程到与我们正在为其打造产品的医生见面。”她说。

Lazowska预测,数据科学的崛起最终将会改变“不出版就淘汰”的科学系统。他认为,有一天,编码和数据集将会像目前的出版一样,成为职业发展的先决条件。现在,他表示,他和同事正在鼓励研究人员在简历中列举数据科学相关成就。他们还建议晋升和终身职位委员会将这些技能列为有效指标加以考量。

Ram还在简历上列出了广泛的数据科学项目。目前,他正在参与一项长期工作,衡量人类活动对Tahiti生态的影响。问题已经比他在黄石公园的时候复杂了很多,但工具也变得更加先进。现在,他不需要在一个数据集上埋头苦干数月,而是在数小时内就可以获得结果,这并不是说数据科学已经变得容易了。

“对于很多人来说,一个大挑战是拥有学习这些新工具以及如何正确应用它们的能力。”Ram说,“随着时间的推移,几乎所有的首席研究员的团队里都会需要一名掌握这些特殊数据技能的人才。”数据科学的定义和期待可能会随着时间而转变,但这一领域将会沉淀下来。(晋楠编译)