对于初学者数据科学家来说,解决机器学习问题可能是一件令人生畏的事情。有这么多算法可供选择!只需转到 scikit-learn的页面,您就已经被所有选项所淹没了!主要挑战之一是,如果得到糟糕的性能结果,则无法确定是您的错还是数据集不够好。

通过多年的实践,我开发了一个流程,用于快速确定数据是否质量良好。

在机器学习中,算法可以放在一个连续的“权力”上,从最不强大的到最强大的。例如, 朴素贝叶斯是一个非常简单的分类器。另一方面, 深度神经网络随机森林是非常强大的模型。就回归而言,线性回归可能是现存最简单的 回归 算法。

现在,让我们看看如何使用它来快速确定数据集是否有问题或我们的方法有问题。

scikit learn data science cheatsheet

机器学习问题的快速流程

因此,诀窍很简单:

  1. 使用1-2个非常简单的模型。记录结果。
  2. 使用1-2个非常复杂的模型。记录结果。

如果结果非常相似,那么这意味着更强大的模型很难从数据集中提取比简单模型更多的信息。因此,这意味着数据集中很可能没有足够的有用信息。

因此,例如,假设您使用了RMSE 表示)类似于 2.34,则意味着随机森林发现很难提取比简单线性模型更多的信息。

machine learning black box

如何将此过程用于机器学习问题

简约法则指出,您希望使用适用于给定问题的最简单的模型。所以,你要做的是,你要确保你没有使用比需要的更复杂的模型。

通过我概述的这个简单过程,您可以确保完全做到这一点。

  1. 重新检查数据的质量。
  2. 了解是否可以收集更多数据。
  3. 考虑可以从 数据集 中提取的潜在特征,以进一步提高性能。

话虽如此,但是,如果您不断看到简单模型与复杂模型具有非常相似的性能,那么您可以确定简单地在组合中添加更多复杂性不太可能使您受益匪浅。使用平均算法的好数据通常会超过使用优秀算法的坏数据。因此,如果您是数据科学的初学者,请确保专注于全面解决问题,而不是简单地尝试模型,直到找到有用的东西。

Comments are closed.