随着越来越多的企业开始采用机器学习技术以实现流程的自动化,人们也逐渐开始质疑计算机决策中的伦理含义。我们如何处理计算机系统中潜在的偏见?相对较少被提及但同样重要的,是人类本身的偏见,它与分析和商业决策有很大关系。

人类的偏见可能会渗入到分析过程的每一步。当商业决策者开始拥抱机器学习进行预测分析,以获得下一步行动的具体建议时,尽可能客观地利用数据和方法是很重要的。监测这一分析过程中可能存在的人类偏见是一项伟大的职责,而这一切都始于从头开始构建模型的人:数据科学家。

在这篇文章中,我们主要关注以下三个方面,来管理整个流程中可能产生的偏见——从评估初始请求和收集信息到构建模型和挖掘见解。

Pexels 上的 rawpixel.com 拍摄的照片

评估请求:业务决策者需要什么?

在某些情况下,偏见会从一开始就进入分析项目流程中,这种偏见直接来自于提出请求的业务用户。例如,一个模型可能会被带着偏见进行请求和评估,因为提出分析请求的这个人可能潜意识里只是想验证自己的想法。例如,如果一个CMO认为他们的公司应该在PR上投资,那么让他们的分析团队构建一个展示PR需求的模型就是有问题的。

像任何人一样,数据科学家也会想要取悦老板——我们总是想要提供能够满足商业决策者所请求的信息。重要的是,不要根据商业决策者的需求来寻找和评估结果。为了在最后达到最公正的结果,需要避免一开始就设定期望。这个过程应该是一个协作的过程——您可能需要告诉业务决策者,要以最道德和最准确的方式来回答他们的业务问题。这是一个棘手的问题,但是一旦解决了这个问题,就可以同时避免受到业务决策者的需求的影响。

仔细选择评估为模型提供的数据

人类偏见可能会在选择数据的过程中产生影响。思考一下您拥有哪些必需的可用数据,以及您将从何处收集这些数据。在选择数据时,应考虑这样的问题:与总体相关人群相比,我有多少数据?如何创建数据样本?

在处理质量问题时,应该寻找信息的一致性,并评估它是否捕获了足够的变量。同时需要确保没有遗漏任何重要内容,如果遗漏了,一定要高度重视,并确定其可能对模型产生什么样的影响。

Pexels 上的 rawpixel.com 拍摄的照片

客观地选择最好的分析方法

每种方法和模型都有其假设——知道哪种方法和模型最适合您的问题是非常重要的。不同的建模选择有时会带来非常不同的结果。请求的复杂性、性质和数据的可用性是帮助你选择适当方法的主要因素。注意结果、测试结果稳定性,并将模型结果与您的先验预期进行比较。效果的方向合乎逻辑吗?效果的大小合乎逻辑吗?效果的作用合乎逻辑吗?合适吗?所有这些问题都应该解决,才能对模型更有信心。

如果要用各种算法测试数据,请注意不要选择特定的算法,因为它会输出所需的输出。我们应该注意模型给出的所有洞察。

最终,避免数据分析中带有偏见的最好方法是实现一个包括检查和平衡的过程,所有的假设都应该经过同行评审和检查。在整个分析过程中,人员、视角和信息的多样性越大,获得平衡、公正结果的机会就越大。

原文作者:Kalina Angelova

Comments are closed.