根据要进行的计算机学习类型,有许多指标可以衡量机器学习模型的性能。在本文中,我们将介绍分类和回归模型的性能度量,并讨论哪些是更好的优化。有时,要查看的指标会因最初要解决的问题而异。
您可能还喜欢:
机器学习模型:部署活动
分类问题的优化
1. 真正的积极(召回)
真实正率(也称为召回)是二进制/非二进制分类问题中的去性能度量。大多数时候——如果不是所有的时间——我们只对正确预测一个类感兴趣。例如,如果您预测糖尿病,您将更关心预测此人是否患有糖尿病,而不是预测此人没有糖尿病。在这种情况下,阳性类是”这个人有糖尿病”,消极类是”这个人没有糖尿病”。它只是预测正类的准确性
这不是准确性性能指标。有关详细信息,请参阅下面的数字 4。
2. ROC 曲线(接收器操作特性曲线)
ROC 曲线显示分类模型在不同阈值(分类到某个类的概率)下的性能。它绘制了互为结果的正正率和误报率。降低阈值会增加您的真实阳性率,但牺牲您的误报率,反之亦然。
3. AUC(曲线下的面积)
AUC 也称为”ROC 曲线下的区域”。简而言之,AUC 将告诉您正确分类类的概率。较高的 AUC 表示更好的模型。
4. 精度
默认情况下,准确性是首先要考虑的问题。然而,一个真正的数据科学家知道准确性太误导
就像我用”真实正率”提到的一样,它是优化的最理想指标。精度取自真正负和正负的平均值。大多数时候,在不平衡的分类问题中,负类比”正”类更代表,所以你更有可能有一个非常高的真负率。然后,准确性将偏向于”负”类的准确预测,这可能对任何人都不感兴趣。
机器学习中的回归优化
5. 错误
在 R2旁边经常忽略,该错误告诉我们更多有关拟合值对回归线的精度(即拟合值与最佳拟合线之间的平均距离)。在计算模型的置信度和预测间隔时,这一点更为重要。由于使用响应变量的自然单位,它更容易解释,而 R2没有单位,并且仅在 0 和 1 之间。
有不同类型的错误,如平均绝对误差和根平均平方误差。每种模型都有其优点和缺点,必须独立处理以评估模型。
6. R2
现在,尽管标准误差很重要,但 R2已成为良好回归模型的实际度量。它告诉我们模型解释了因变量和独立变量之间的变异程度。较高的 R2提供了更好的模型,但是,如果过高,接近 99%,它有时可能会导致过度拟合的风险。R2可能会误导,因为相关性与因果关系的辩论,可以给予一个不合逻辑的高R2。
用户的目标将影响模型的性能 – 因此请谨慎选择
在分类问题中,准确性并不总是最佳度量,R2可能不是回归的最佳度量。它们绝对是最容易理解的,尤其是非技术利益相关者(这可能是首先构建模型的最大原因)。最好的方法可能是考虑各种性能指标,并考虑您的初始目标。模型的性能始终取决于用户的目标。从一个人的角度来看,表现不佳的情况可能并非如此。