Image title

机器学习技术和工具

为了了解软件开发中机器学习 (ML) 的当前和未来状态,我们从 16 个解决方案提供商的 IT 专业人员那里收集了见解。我们问,”哪些机器学习技术和工具对 SDLC 最有效?以下是我们学到的:

您可能还喜欢:
ML模型开发与传统企业软件开发的基本区别

工具

  • MLFlow、虫点、氦气和应用是一些非常强大的工具。我特别喜欢 MLFlow,因为它的易用性和版本控制 ML 模型的能力。
  • 我们采用MLFlow作为数据平台+ML数据平台管理系统。实时操作数据库,事务性地用于数据库内 ML,以跟踪数据科学家的工作流程。如果你采用一种实验文化,每天创建50个实验,每个实验运行并产生不同的结果,你需要跟踪每个实验。您需要能够标记参数和指标,以便可以返回并了解为什么一个模型比另一个模型执行得更好。
  • 我们正在构建这些工具,作为我们平台的一部分。开源工具,如 SciLearn、Pytorch、TensorFlow,并构建我们自己的工具。
  • 许多新的现代测试自动化工具允许您进行自愈测试、自动测试和自动爬网程序来查找 Bug。记录系统以查找安全警报的异常。大部分焦点都集中在维护上。
  • 工具简化了开发人员的基础架构和数据工程。随着ML,事情需要爆炸发生。轻松集成到应用程序中。调试更加困难,因为 ML 模式是活动实体,并且随着数据和学习的变化而发生漂移。最大的挑战是代码和应用程序的可调试性。确保您具有模型决策的可追溯性。一段时间内对绩效进行建模评估。

反馈

  • 最有效的技术是尽可能清楚地定义手头的任务,并立即提出一个自动评估方法。按照此步骤,您应该针对问题收集和标记一个小型数据集,使用任何方法与该数据集过度配合,并尝试关闭整个生产循环:数据集集合 – 培训 – 评估 – 部署
  • 所有问题的答案都是 DevOps,但更好的答案是从提供有用的反馈循环的角度来思考。我们倾向于专注于仪式和机械,而不以开发人员从指标中找到价值的方式检测操作。为了防止分析瘫痪,包括操作级别的 ML,为开发人员提供他们需要的信息。希望异常率偏离预测。基于代码构建异常检测模型。运营部门正在为开发人员创建更好的反馈数据。
  • 默认情况下,Python 是编写框架脚本的语言。有很多模型可以使用,或者你可以建立你自己的模型。强化学习(深层对抗性、Q性)、半监督式和使用闭环ML技术已证明在SDLC的不同阶段是有益的。当组织构建模型时,基本前提是模型的准确性和效率基于某些假设,并依赖于它所熟悉的训练数据集。如果数据模式或意外情况发生变化,模型的准确性和效率可能会随着时间的推移而降低。例如,在制造工厂中,可以部署模型来检测装配线上制造和装配的零件的缺陷。随着时间的推移,模型准确识别错误的能力可能会降低。如果软件仅使用传统分析,则会导致严峻的挑战。然而,当配备闭环功能时,智能代理可以自动检测并触发重新学习和重新训练过程,从而自动提高模型的准确性和性能,从而提高生产率、效率和节约成本。SDLC 的闭环 ML 技术可以使用增强算法或无监督算法来训练、测试和验证 ML 模型以提高准确性。发布初始部署后,根据需要,模型可以自行学习、自我调整和检测自身准确性和性能的变化。简而言之,它将调整自身,使输出达到最佳。
  • 其他

    • ML 正在整个 SDLC 中实现标准化 – 人们正在学习如何使用它,了解事物的发展,并变得更加分散。
    • 我们看到更多有关深度学习和特定 ML 方法。
    • 这取决于业务案例。需要经典数据科学来理解正确的算法并确保数据管理。您可能需要选择一个几乎一样好但计算成本较低的模型。包含一个可取性函数,以考虑规划和部署的成本。
    • 我所看到的技术包括学习技术,如概念学习、决策树、神经网络(和卷积神经网络)、if/then 规则、强化学习、归纳逻辑编程等。
    • 以下是主要元素:
      • 1)确保从一开始就设定业务需求和期望。这有助于定义项目的 ROI 以及您要解决的问题(例如,提高客户参与度、减少客户流失等)。
      • 2) 将业务问题转换为技术问题

    以便设置解决方案的范围。您考虑提高客户满意度或获得市场份额的业务问题,并将其转化为数据科学问题:客户转化/客户流失预测、用户细分、产品推荐等,您可以求解使用数据和模型。3)确定实际可用于解决问题的数据。这可能是在 SDLC 中应用 ML 的最大限制因素之一。需要有足够的相关数据来解决问题,并且需要有一个基本级别的规范化。考虑到技术问题,您需要确定哪些实体可以是要插入模型的相关功能。4)设计旋转过程。给定工具包,从最简单的方法开始,看看它如何执行。根据这些结果,您可以了解去哪里以及如何增加复杂性。5) 实验和质量:设计实验,以便您可以测试性能,进行修改,重新评估,然后冲洗和重复。确保选择正确的指标,以便衡量真正重要的指标。

    以下是我们从中听到的消息:

    Comments are closed.