越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能非常重要。特别是最近对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长,未来还将继续。事实上,对数据科学家的巨大需求导致许多企业和组织出现了人才短缺,然而,80%的AI项目与数据准备和数据工程有关,也许企业组织应该寻找更多的数据工程师而不是数据科学家?
许多企业、供应商和初创企业常常混淆数据科学家和数据工程师,虽然二者有相似之处,但是其工作内容有很大不同,其中包含两个迥异的技能,鱼与熊掌不易兼得。
数据科学家vs数据工程师
在2000年代中期,数据科学家职位开始出现,O’Reilly在文章中提到:“对数据科学家需求的增长是由大型互联网公司驱动的。谷歌、Facebook、LinkedIn和亚马逊都以创造性地使用数据而闻名:不仅仅是储存数据,还将其转化为价值。毫无疑问,任何希望从数据中获得价值的企业组织都在关注数据科学和数据科学家。
数据科学家起源于统计建模和数据分析的发展,具有高级数学和统计、高级分析以及越来越多的机器学习/人工智能的背景。毫无疑问,数据科学家的重点是数据科学,也就是说,如何从海量数据中提取有用的信息,以及如何将业务和科学信息需求转化为信息和数学语言。为了能从海量信息中获得见解,数据科学家需要掌握统计学、概率、数学和算法知识。这些数据科学家通常只是为了运行程序、对数据进行高级分析这类特定需要而学习编程,因此,数据科学家通常只写最少最简易的代码,能完成数据科学任务以及提供干净的数据进行分析即可。数据科学家创建假设,对数据进行测试和分析,然后将其结果以便于查看和理解的形式呈现给组织中的其他人。
但是如果没有大量的干净数据,数据科学家就无法完成自身工作。提取、清理和移动数据实际上并不是数据科学家的职责,而是数据工程师的职责。数据工程师拥有编程、技术方面的专业知识,以前曾参与过数据集成、中间件、分析、业务数据门户和ETL操作。数据工程师的重心和技能集中在大数据和分布式系统上,可以使用Java、Python、Scala等编程语言脚本工具,拥有技术经验。数据工程师面临的挑战是如何从各种各样的系统中获取结构化和非结构化的数据,解决不“干净”的数据例如字段缺失、数据类型不匹配等与数据相关的问题。数据工程师要使用编程、集成、体系结构和系统技能来清理所有数据,并将其放入一种格式和系统中,然后数据科学家就可以使用该格式和系统来分析、建立数据模型并为组织提供价值。数据工程师的角色就是设计、构建和安排数据的工程师。
数据科学家和数据工程师能合二为一吗?
虽然数据科学家和数据工程师的角色似乎截然不同,但数据科学家和数据工程师有许多共同的特点和共技能。这些重叠的技能包括处理和操作大数据集、应用数据的编程技能、数据分析技能以及对系统操作的总体熟练程度。
尽管有很多共性重叠的部分,但是数据科学家和数据工程师的工作重点仍有差异,因此不太可能两个角色合二为一。更重要的是,在招聘数据科学家和数据工程师时,要确保问对了问题,从候选人身上找到正确的技能。
更重要的是,随着数据科学兴起的代码学院、研讨会和培训班引出了新问题:这些培训和代码学院的重点是数据科学背后的科学,还是数据工程背后的工程、编程,更糟的是,这些活动是否只是泛泛研究了一点囫囵吞枣地教学而混淆了细分的需求,比如应该关注大数据和ML分析的哪些领域?
虽然看起来您可以在科学角色中做一点工程工作,或者在工程角色中做一点科学工作,但是混合角色可能会不利于企业组织在ML或数据科学的成功。那些被迫从事数据工程工作而没有相关背景、技能或资质的数据科学家很容易错误配置、误用技术,或者编写效率低、成本高、浪费时间的程序。同样地,要求从根本上具有工程背景的人学习复杂的数据科学数学,可能会导致组织对其信息得出错误的结论,产生灾难性结果。专业化是很重要的,好比医生要做检查,抽血师负责抽血。医生可以为你抽血,抽血师可以了解化验结果,但你为什么要拿自己的舒适和健康去冒险呢?
数据科学家在企业组织中处于什么位置?
为了从数据中获得价值,大多数企业组织都需要数据科学和数据工程,由于相关技能有很大差异,二者合体也不太现实。企业组织可能需要多个数据科学家和数据工程师,但两者之间的比例很少是1:1。对于大多数企业组织来说,拥有更多的数据工程师比数据科学家更有意义。因为数据科学家已经学会处理大量的干净数据,但是从许多不同系统获得大量的干净数据更难也更具挑战。与抽象数据模型和对数据集运行分析相比,移动和清理数据的工作量更大。
此外,数据科学家在企业组织应该向谁报告可能是错的,有的数据科学家向技术团队报告,这是没有意义的。数据科学家通常不会询问特定技术的实施和数据分析,其所面临的挑战特定的业务线。因此,数据科学家应该向业务战略决策相关人员报告。
有以业务为中心的工具吗?
如果数据科学和数据工程确实是组织中独立的角色,那么将它们所需的工具应该是分开的。许多进入数据科学/机器学习领域的供应商正在混淆视听,使事情变得更加混乱。他们声称工具是为数据科学家准备的,但是其一切主要功能和特性都是为数据工程师准备的,在上面点缀一些数据科学的特性是没有意义的。对于数据科学家来说,需要一个分析的、面向数据的、以模型为中心的工具,而不是在数据清理、移动数据和将数据从私有环境迁移到云环境等方面的工具。这就像给一个驾驶教练一辆车的零件,然后说:“自己造这辆车,然后教别人如何驾驶它。”
数据科学家需要的是以数据科学为中心的工具,而不是以工程和编程为中心的工具。现在,这些工具越来越多,让数据科学家可以进行数据挖掘或预测分析。然而,随着数据科学家越来越深入业务领域,以业务为中心的工具是更合适的,例如,几十年前,如果您希望以类似电子表格的格式操作大量数据,这就涉及到编程,但是像Excel这样的工具引入了数据透视表这样的东西,现在业务经理能够执行各种分析。Excel等工具将数据科学功能或以业务为中心的数据挖掘和分析工具嵌入到产中只是时间问题。
随着数据科学家的人才缺口继续扩大,新的工具将会出现,这些工具是为了允许非技术人员(即业务人员)运行、测试和分析数据而创建的,战略业务经理将开始学习数据科学,数据科学家仍然需要运行非常复杂的数据分析工具。然而,随着越来越多易用工具的出现,大多数情况下基本分析将更多地转移到业务方。企业中ML和数据科学相关工具和技术也越来越大有可为。
作者:Kathleen Walch