这些年,ML 的使用率越来越高。ML 为他们带来一系列机会,给企业留下深刻印象。但是,由于流程的持续时间长且复杂,他们仍在努力部署 ML 模型。
当企业必须预测特定数据集时,传统方法包括执行以下操作:
- 处理数据
- 定义技术特征
- 选择模型
- 优化超参数
- 对这些参数的培训
没有适用于所有任务的算法,数据分析人员必须为每个特定任务选择和配置算法。
此外,为了准备数据,需要:
- 确定列的类型、语义内容
- 检测群集分配及其排名
一般来说,对于企业来说,花费时间和金钱的过程似乎从来不是一个优势。
在这里,自动ML框架即将生效。
自动机器学习框架
这些框架将实现所有或几乎所有步骤的自动化,并因此为企业提供准确的预测。
Auto ML 的最大好处是有可能将业务和数据分析人员从上述长期任务中解脱出来,并为他们提供更多的时间用于项目的创意方面。
Gartner报告的数据表明,到2020年,40%的数据专家将被AutoML所取代。 machine learning applications这就产生了我们深入学习机器学习框架的需求,以选择最佳模型并配置所需的参数。
ML 盒
ML Box 是基于 Python 的数据库,提供以下功能:
- 读取、预处理、清理和格式化数据
- 选择特定功能并检测泄漏的可能性
- 优化超参数
- 对预测最先进的模型进行分类和回归
- 进行预测和模型解释
从缺点来看,它更适合Linux操作系统,而Windows和Mac用户在安装时可能会遇到一些困难。
自动学习
Auto Sklearn 是一个基于贝叶斯优化、元学习和整体构造的自动机器学习框架,用于查找类似的数据片段98. Auto Sklean 非常适合中小型数据集,但是,它无法为大型数据集提供足够的可扩展性。
TPOT
2018年8月,TPOT被列入GitHub上最受欢迎的自动机器学习框架。此框架使用遗传编程来搜索特定任务实现的模型。它可以分析数千个管道,并提供 Python 代码的最佳选项。
与自动 Sklearn 相比,TPOT 提供了自己的回归和分类算法。但是,由于它是一个基于基因编程的构建,模型可以为您提供不同的结果,每次你运行它相同的任务。
H2O 自动ML
H2O AutoML 框架是那些寻找深度学习机制的用户的最佳选择。它可以执行许多需要同时执行多行代码的任务。
H2O 使用统计和 ML 算法,带有梯度提升机器和复杂的学习系统。
自动喀斯
它是一个基于网络形态的开源深度学习框架,以推动贝叶斯优化。该框架可以自动搜索复杂模型的体系结构和超参数。它通过神经架构搜索 (NAS) 算法进行搜索,同时无需深度学习工程师。
谷歌云自动ML
谷歌自动ML是一个基于谷歌的框架与神经网络架构。图形用户界面 (GUI) 易于用于处理模型,使 Google 云自动 ML 完全适用于具有有限 ML 知识的开发人员,以处理业务需求所需的模型。
但是,Google 云自动 ML 不像其他框架那样是开源库,因此需要为使用付费。成本取决于训练模型所花费的时间以及要发送来预测的图像数量。研究是免费的。
跨莫吉里法伊
它是基于 Apache Spark 框架的 Salesforce 的库,用于使用 Scala 编写的结构化数据。
它有助于实现深度学习模型的准确预测,同时将过程缩短 100 倍。该框架支持处理数据集,数据集由数百万行组成,能够处理 Scala 上的群集虚拟机。
结论
它让我们毫不怀疑,自动 ML 是企业努力提高性能和更快地预测模型 x 倍的重要工具。
现在,了解了前 7 个自动机器学习框架后,可以根据业务需求和操作规模选择框架,并自动执行重复性任务。