109 数据科学面试问答

earth-with-lights

准备面试并不容易。对于您将被问到的数据科学面试问题，存在很大的不确定性。不管你有多少工作经验或数据科学证书，面试官都可以提出一系列你没想到的问题。

在数据科学面试中，面试官会提出涉及广泛主题的问题，这需要被采访者具备很强的技术知识和扎实的沟通技巧。您的统计、编程和数据建模技能将通过各种问题和问题样式进行测试，这些问题和样式旨在让您站稳脚跟，并迫使您展示如何在压力下操作。

您可能还喜欢：大数据：数据科学和高级分析。

在从事数据科学职业时，准备是成功的关键，其中包括面试过程。

本指南包含您在面试数据科学家职位时应期待的所有数据科学面试问题。在Springboard，我们最近创建了一个免费的数据科学访谈指南，但我们仍然觉得我们有更多的探索。

因此，我们策划了这份向数据科学面试考生提出的真题列表。从这一系列数据科学面试问题中，被面试者应该能够准备棘手的问题，了解哪些答案能与雇主产生积极的共鸣，并培养自信，以迎接面试。

我们将数据科学家的面试问题分为六个不同的类别：统计、编程、建模、行为、文化和问题解决。

统计
编程
1. 一般。
2. 大数据。
3. Python。
4. R。
5. Sql。
建模
行为
文化适合
解决问题

统计面试问题

统计计算是数据科学家获取原始数据并创建预测和模型的过程。如果没有先进的统计学知识，作为一个数据科学家就很难成功——因此，一个好的面试官可能会尝试用以统计为导向的数据科学面试问题来探究你对主题的理解。准备好回答一些基本的统计问题，作为数据科学面试的一部分。

以下是我们发现的基本统计问题的示例：

什么是中央限制定理，为什么它很重要？
- “假设我们有兴趣估计所有人的平均身高。为世界上每个人收集数据是不可能的。虽然我们不能从人群中的每个人那里获得高度测量，但我们仍然可以对一些人进行采样。现在的问题是，如果只给一个样本，我们可以说对整个人口的平均高度有什么影响。中央限制定理正好解决了这个问题。阅读更多在此处阅读完整答案。
类型 I 与类型 II 错误之间的区别是什么？
- 当零假设为 true 但被拒绝时，将发生类型 I 错误。当零假设为 false 但错误地未被拒绝时，会发生类型 II 错误。在此处阅读完整答案。
什么是线性回归？术语 p 值、系数和 r 平方值是什么意思？这些组件的意义是什么？
- 线性回归是快速预测分析的好工具：例如，房屋的价格取决于无数因素，如其大小或位置。为了了解这些变量之间的关系，我们需要构建一个线性回归，它预测它们之间的最佳拟合线，并有助于确定这两个因子之间是否有正或负关系。在这里和这里阅读更多内容。
线性回归需要哪些假设？
- 有四个主要假设：1.因变量和回归变量之间存在线性关系，这意味着您所创建模型实际上适合数据;2. 数据的错误或残差是正态分布的，独立于对方，3。解释变量和 4 之间具有最小的多共线性。同源性。这意味着回归线周围的方差对于预测变量的所有值都相同。
什么是统计交互？
- 基本上，交互是当一个因素（输入变量）对因变量（输出变量）的影响因另一个因子的级别而异时。在此处阅读更多内容。
什么是选择偏差？
- 选择（或’采样’）偏差发生在一种’主动’意义上，当为建模收集和准备的示例数据具有不代表模型将看到的真实、未来案例群的特征时。也就是说，当从分析中系统地（即非随机）排除数据子集时，就会发生主动选择偏差。在此处阅读更多内容。
具有非高斯分布的数据集的示例是什么？
- 高斯分布是指数分布系列的一部分，但在许多情况下，具有相同易用性，而且，如果进行机器学习的人员在统计方面有坚实的基础，则可以在适当情况下使用它们。在此处阅读更多内容

“在这里阅读更多内容。

在 Glassdoor 上找到的类似数据科学访谈问题的示例：
data science interview questions
Wayfair data science interview question
glassdoor statistics 3

编程

为了测试您的编程技能，雇主通常会包括两个特定的数据科学面试问题：他们会询问如何在理论上解决编程问题，而无需编写代码，然后他们还会提供白板练习，以便您当场编写代码。对于后一类问题，我们将在下面提供几个例子，但如果您正在寻找深入实践解决编码挑战，请访问黑客Rank。在”以为干”的理念下，有一些挑战围绕面试中通常测试的核心概念组织。

2.1一般

使用哪种编程语言和环境，您最舒服地工作？
你最喜欢的统计软件有哪些优点和缺点？
告诉我你创建了原始算法。
描述一个数据科学项目，您在其中使用大量编程组件。你从这次经历中学到了什么？
您是否为任何开源项目做出贡献？
如何清除（此处插入语言）中的数据集？
告诉我你在上一个项目中所做的编码？

2.2大数据

Hadoop 框架的两个主要组件是什么？
- Hadoop 分布式文件系统（HDFS）、映射减少和 YARN。在此处阅读更多内容。
尽可能简单地解释 MapReduce 的工作原理。
- “MapReduce 是一种编程模型，它支持在商用硬件的计算群集上对大型数据集进行分布式处理。Hadoop MapReduce 首先执行映射，包括将大文件拆分成几个部分，以制作另一组数据。在此处阅读更多内容。
您如何对大量数字进行排序？
假设您有一个大型数据集。处理异常值的计划是什么？缺少值怎么样？转换怎么样？

2.3 Python

您最熟悉的模块/库是什么？你喜欢或不喜欢他们什么？
在 Python 中，如何管理内存？
- 在 Python 中，内存在专用堆空间中管理。这意味着所有对象和数据结构都将位于专用堆中。但是，不允许程序员访问此堆。相反，Python 解释器将处理它。同时，核心 API 将允许访问一些 Python 工具，以便程序员开始编码。内存管理器将为 Python 对象分配堆空间，而内置垃圾回收器将回收所有未使用的内存来提升可用的堆空间。在此处阅读更多内容

坚持官方 Python 文档中使用的层次结构方案，它们是数字类型、序列、集和映射。在此处阅读更多内容。

Python 中的元组和列表之间的区别是什么？
- 除了元数不可变之外，还有一种语义上的区别，应该指导它们的使用。在此处阅读更多内容。

2.4 R

R 语言中有哪些不同类型的排序算法？
- 有插入、气泡和选择排序算法。在此处阅读更多内容。
R 中有哪些不同的数据对象？
- R 对象可以将值存储为不同的核心数据类型（在 R 行话中称为模式）;其中包括数字（整数和双精度）、字符和逻辑。在此处阅读更多内容。
您最熟悉的软件包是什么？你喜欢或不喜欢他们什么？
如何访问名为 M 的矩阵的第二列和第四行中的元素？
- “我们可以使用方括号索引方法访问矩阵的元素。元素可以作为 var[row, column] 访问。在此处阅读更多内容。
用于在文件中存储 R 对象的命令是什么？
- save (x, file=”x.Rdata”)
使用 Hadoop 和 R 一起使用进行分析的最佳方式是什么？
- “Hadoop 和 R 在大数据的可视化和分析方面非常互补。使用 Hadoop 和 R 有四种不同的方法。在此处阅读更多内容。
如何将连续变量拆分为 R 中的不同组/等级？
- 在此处阅读此。
用 R 语言编写函数，以用该矢量的平均值替换矢量中的缺失值。
- 在此处阅读此。

2.5 SQL

通常，SQL 问题是基于案例的，这意味着雇主会要求您解决 SQL 问题，以便从实际角度测试您的技能。例如，您可以获得一个表，要求您提取相关数据，然后根据需要筛选和排序数据，最后报告您的发现。如果您不想在面试环境中执行此操作，Mode Analytics 会通过交互式 SQL 环境来教您这些命令。对此，模式分析有一个令人愉快的使用 SQL 的介绍。

SQL 中的组函数的用途是什么？给出组函数的一些示例。
- 组函数是获取数据集的摘要统计信息所必需的。COUNT、MAX、最小值、AVG、SUM 和 DISTINCT 都是组函数。
告诉我内部联接、左联接/右联接和联合之间的区别。
- 在 Venn 图中，内部联接是当两个表都有匹配项时，左联接是左表中有匹配项且右表为 null，右联接与左联接相反，完整联接是所有数据组合

springboard.com/blog/joining-data-tables/”rel=”nofollow”目标=”_blank”\”\{}。

UNION 是做什么的？UNION 和 UNION ALL 之间的区别是什么？
- UNION 删除重复的记录（结果中的所有列都相同），UNION ALL 不会删除。在此处阅读更多内容。
SQL 和 MySQL 或 SQL 服务器之间的区别是什么？
- “SQL 代表结构化查询语言。它是访问和操作数据库的标准语言。MySQL 是一个数据库管理系统，如 SQL 服务器、Oracle、Informix、Postgres 等。在此处阅读更多内容。
如果表包含重复的行，则默认情况下查询结果是否显示重复值？如何从查询结果中消除重复的行？
- 是的。使用 DISTINCT 子句消除重复行的一种方法。在此处阅读更多内容。

有关侧重于查看特定代码段的其他 SQL 问题，请查看Toptal 创建的这个有用资源。

在 Glassdoor 上找到的类似数据科学访谈问题的示例：

Data science interview question

glassdoor programming 2

建模

数据建模是数据科学家为公司提供价值的地方。将数据转化为预测性和可操作性的信息是很困难的，向潜在雇主谈论它更是如此。练习描述您过去构建模型的经验 – 在此过程中使用的技术、克服的挑战和取得的成功是什么？

以下一组问题旨在揭示该信息，以及您对不同建模技术的正规教育。如果您无法描述与您使用的模型相关的理论和假设，它不会留下良好的印象。

请看下面的问题来练习。并非所有问题都与您的面试相关，您不应精通所有技术。这些问题的最佳用途是重新熟悉您过去学到的建模技术。

请跟我讲讲您是如何为过去的雇主或客户设计模型的。
你最喜欢的数据可视化技术是什么？
您如何有效地表示具有 5 个维度的数据？
k-NN 与 k- 表示类聚群有什么不同？
- k-NN 或 k 最近邻是一种分类算法，其中 k 是描述影响给定观测值分类的相邻数据点数的整数。K means 是一种聚类算法，其中 k 是一个整数，用于描述从给定数据创建的聚类数。
如何创建逻辑回归模型？
您是否使用了时间序列模型？您是否了解与时滞的交叉关联？
解释 80/20 规则，并告诉我它在模型验证中的重要性。
- “人们通常倾向于从 80-20% 拆分（80% 训练集 = 20% 的测试集）开始，然后再次将训练集拆分为 80-20% 的比率以创建验证集

beyondthelines.net/machine-learning/how-to-split-a-dataset/”rel=”nofollow”目标=”_blank”\”\在这里。

解释什么是精度和召回。它们与 ROC 曲线有何关系？
- 回顾描述模型将真阳性的百分比描述为正值。精度描述预测正确百分比。ROC 曲线显示了模型召回和特异性之间的关系 – 特异性是模型描述为负数的量度。召回、精度和 ROC 是用于确定给定分类模型的有用性度量。在此处阅读更多内容。
解释 L1 和 L2 正则化方法之间的区别。
- 使用 L1 正则化技术的回归模型称为套索回归，使用 L2 的模型称为”脊回归”。这两者之间的关键区别是惩罚术语。在此处阅读更多内容。
根本原因分析是什么？
- “我们都害怕那个会议，老板会问，’为什么收入下降？唯一比那个问题更糟的就是没有任何答案！您的业务每天都在发生许多变化，而且，您经常想要确切了解推动特定变革的原因，尤其是在意外变化的情况下。了解变化的根本原因称为根本原因分析。在此处阅读更多内容。
什么是哈希表冲突？
- 如果键值的范围大于哈希表的大小（通常总是如此，则我们必须说明两个不同键的不同记录可以哈希到同一表索引的可能性）。有几种不同的方法可以解决此问题。在哈希表白话表中，实现此解决方案称为冲突解决。在此处阅读更多内容。
什么是精确的测试？
- 在统计中，精确（显著性）检验是一种检验，其中满足测试统计分布推导所依据的所有假设，而不是近似检验（通过使样本大小足够大，可以按预期接近近似值）。这将导致显著性检验，该检验的假拒绝率始终等于测试的显著性水平。例如，从长期来看，显著性水平为 5% 的精确检验将完全否定 5% 的时间的真实零假设。在此处阅读更多内容。
在您看来，在设计机器学习模型时，哪个更重要：模型性能或模型精度？
- 这里有一个方法可以解决这个问题。
处理用于预测的不平衡数据集（即，负类多于正类）的一种方法是什么？
如何验证为使用多重回归生成定量结果变量的预测模型而创建的模型？
我有两个可比的精度和计算性能模型。我应该选择哪一个进行生产，为什么？
你如何处理稀疏？
最好花五天时间开发 90% 的准确解决方案，还是花 10 天开发 100% 的准确率？
一般线性模型失败的情况有哪些？
- 阅读此在此处阅读此。
修改算法时，您如何知道您的更改比不执行任何操作需要改进？
假阳性或误报太多是否更好？
- 这取决于几个因素。在此处阅读此。

在 Glassdoor 上找到的类似数据科学访谈问题的示例：
data science interview questions

glassdoor modelling 3

过去的行为

雇主喜欢行为问题。他们透露了有关被采访者工作经验的信息，以及他们的举止，以及这些信息如何影响团队的其他成员。从这些问题中，面试官希望了解应聘者对过去的情况有何反应，他们如何清楚地阐明自己的角色，以及他们从经验中学到了什么。

系统会询问以下几类行为问题：

团队合作。
领导。
冲突管理。
解决问题。
失败。

面试前，写下与这些主题相关的工作经验示例，以刷新您的记忆 — 您需要回忆具体示例才能很好地回答问题。当被问到之前的经历时，一定要讲一个故事。能够简明和逻辑地制作一个故事来详述你的经历是很重要的。例如：”我被问到X。我做了A，B和C，并决定答案是Y。

当然，如果您能够突出与数据科学有关的经验，那么这些问题是展示作为数据科学家的独特成就的绝佳机会，而您以前从未讨论过这一点。

以下是此类问题/提示的示例：

告诉我你采取主动的时间。
告诉我一个你必须克服困境的时候。
告诉我你解决冲突的时间。
告诉我你失败的时候，你从中学到了什么。
告诉我（你的简历上的工作）。你为什么选择这样做，你最喜欢它做什么？
告诉我你在进行团队项目时克服了一个挑战。
当你遇到一个乏味的，枯燥的任务，你会如何处理它，并激励自己完成它？
你过去做过什么来使客户满意/快乐？
在你以前的工作里，你做了什么，你真正引以为豪？
当你的个人生活进入你的工作生活时，你做什么？

在 Glassdoor 上找到的类似数据科学访谈问题的示例：
data science interview questions

5. 文化适合

如果雇主问你一个名单上的问题，他们试图了解你是谁，以及你将如何适应公司。他们试图衡量您对数据科学和招聘公司的兴趣来自何处。看看这些例子，想想你最好的答案是什么，但请记住，诚实地回答这些答案是很重要的。没有理由不做你自己。这些问题没有正确的答案，但最好的答案是自信地传达的。

你最欣赏哪些数据科学家？哪些初创公司？
- 有很多惊人的数据科学家可供选择 – 看看这篇文章的顶级数据科学影响者有关一些世界顶级数据科学家的有趣信息。
你认为什么造就了一个好的数据科学家？
您是如何对数据科学产生兴趣的？
举几个数据科学中的”最佳实践”示例。
您阅读的最新数据科学书籍/文章是什么？您参加的最新数据挖掘会议/网络研讨会/课堂/研讨会/培训是什么？
- 如果你最近没有读过一本好的数据科学书籍，Springboard编制了一份最好的数据科学书籍清单！
你想在我们公司工作什么项目？
你认为你会给团队带来什么独特的技能？
如果没有限制，您愿意获取哪些数据？
你有没有想过创建自己的初创公司？围绕哪个想法/概念？
你的爱好能告诉我你的简历不能吗？
你对未来20年的五大预测是什么？
今天你做什么了？还是你这星期/上周做了什么？
如果你中了一百万美元的彩票，你会用这笔钱做什么？
你相信大多数人不会的一件事是什么？
你用什么个性特征来面对？
您热衷于什么（数据科学之外）？

在 Glassdoor 上找到的类似数据科学访谈问题的示例：
data science interview questions
glassdoor culture 2

6. 解决问题

面试官在面试过程中的某个时候会希望通过数据科学面试问题来测试你的解决问题的能力。通常，这些测试将作为一个开放式问题提出：您将如何执行 X？通常，X 将是特定于您申请的公司的任务或问题。例如，Yelp 的面试官可能会询问应聘者如何创建一个系统来检测假 Yelp 评论。

一些快速提示：不要害怕问问题。雇主希望测试你的批判性思维能力，并提出澄清不确定性点的问题，这是任何数据科学家都应该具备的特质。

它显示了技术技能，并有助于通过不同的沟通方式传达您的思维过程。总是分享你的思维过程——过程往往比面试官的结果本身更重要。

您如何想出一个解决方案来识别剽窃？
Yelp 评论将收到多少”有用”选票？
如何检测多个用户共享的个人付费帐户？
你即将发送一百万封电子邮件。如何优化交付？如何优化响应？
您有一个包含 100，000 行和 100 列的数据集，其中一列是我们要解决的问题的因变量。我们如何快速确定哪些列有助于预测因变量？找出两种技巧，并解释给我，好像我5岁。
您如何检测用于恶意目的的虚假评论或虚假 Facebook 帐户？
- 这是一个展示您机器学习算法知识的机会;具体来说，情绪分析和文本分析算法。展示您对欺诈行为的了解 – 通常从欺诈账户中可以看到哪些异常行为？
假设有 1000 万个数据点（每个数据点由两个关键字组成），以及一个衡量这两个关键字相似性的指标，您将如何对一百万个唯一关键字进行聚类？您首先如何创建这 1000 万个数据点表？
如何优化 Web 爬网程序以更快地运行、提取更好的信息以及更好地汇总数据以生成更简洁的数据库？

在 Glassdoor 上找到的类似数据科学访谈问题的示例：
data science interview questions
glassdoor problem 2
glassdoor problem 3

结论

没有一种”最佳”的方法来准备数据科学面试，但希望通过为数据科学家复习这些常见的面试问题，您将能够在实践和自信中走进您的面试。如果您有任何问题，请告诉我们！祝你好运。

来源

玻璃门 – 数据科学家访谈问题。
KDnuggets.
德日雷.
乌达城.
数据科学中心 = 66 回答数据科学家的问题。
分析Vidhya – 在机器学习/数据科学初创公司提出的40个面试问题。
代码导师 = 15 个基本 Python 面试问题。
MaxNoy – 编码面试.
DeZyre = 100 个哈多普面试问题和答案。
教程点 + Python 面试问题.
教程点 + SQL 面试问题。

统计面试问题

编程

建 模

过去的行为

5. 文化适合

6. 解决问题

结论

来源

进一步阅读

建模