Your smooth workflow after reading this article

阅读本文后流畅的工作流程

数据科学家的日常工作不仅仅是构建具有 99% 准确性的机器学习模型。在许多方面,伟大的数据科学就像伟大的艺术。我们知道,创作伟大的艺术需要的不仅仅是灵感,因为艺术家们会花时间去探索、学习和掌握他们的工具。数据科学也不例外。

与艺术过程一样,数据科学家遵循数据科学工作流程,努力创作出自己原创且引人注目的作品。Watson Studio Cloud (WSC) 在此工作流程的每一步都为数据科学家提供支持,使其成为数据科学家的宝贵工具,就像绘画对艺术家一样重要。

您可能还喜欢使用 OpenCV 和 Python 的计算机视觉简介。

几乎每个数据科学家都希望遵循相同的过程:

Data processing, analysis, and classification

数据处理、分析和分类

让我们使用德国信用风险数据示例来遵循此工作流,了解 Watson Studio Cloud 如何帮助从头到尾将数据科学项目整合在一起。

第一部分:连接和访问数据

创建帐户后,我们将在IBM Cloud登录页上看到我们为帐户预配的资源。首先,预配云对象存储 (COS) 以与我们的帐户关联。

接下来,返回 IBM Watson Studio 主页,选择创建一个空项目。

Creating an empty project in IBM Watson Studio
在 IBM Watson 工作室中创建一个空项目

在此示例中,我们将创建一个项目来包含我们所有的资产(数据、笔记本、模型等)。请务必命名和描述我们的项目,并将其与我们预配的 COS 相关联。

创建项目后,我们可以向其添加数据。当我们单击 “添加到项目”按钮时,我们将看到类似内容的内容:

Choosing an asset type 选择资产类型”

我们可以选择添加数据,让我们直接从设备上传数据,或者我们可以选择通过选择连接从远程存储添加数据。任务有几个可用的选项。

Creating new connection to database
创建新数据库连接

在此示例中,我们将使用在本地上传的数据集。

但首先,让我们查看一个 Db2 仓库连接设置作为另一个示例。请确保具有要添加的数据连接的访问凭据。

New connection to the Db2 Warehouse
与 Db2 仓库的新连接

我们可以选择”发现数据资产”,以自动将存储中的数据集添加到我们选择的项目。

我们还可以将合作者添加到我们的项目中,以将我们的工作与团队成员的工作整合在一起:

Adding team members to collaborate on the project
添加团队成员以协作处理项目

第二部分:搜索和查找相关数据

一旦我们建立了数据资产,我们就可以开始对对我们重要的数据集进行编目。为此,我们将回到 IBM Watson Studio 主屏幕,然后选择”创建目录”。

在那里,我们可以选择在我们的数据集上强制实施某些数据策略。对于此示例,我选择强制实施所有数据策略。稍后,我们将了解这些政策是如何发挥作用的。

Cloud object storage in IBM Watson Studio
IBM Watson 工作室中的云对象存储

让我们通过登录页查看我的目录:

Example catalog 示例目录

请注意,此目录中的所有资产都有标记、评级和相关的评论。当我们构建目录时,这些功能变得越来越有用,因为我们可以通过特定类别的评级高资产进行快速筛选,并在项目中使用它们。在”访问控制”下,我们可以将协作者添加到目录中。

现在,我们已经进入此目录,让我们来探索一些资产,从结构化数据集德国信用数据.csv .

German Credit Data csv
德国信用数据 csv

概述”选项卡提供了数据集的快速描述。”访问”选项卡显示谁有权访问数据。”审阅”选项卡允许我们对数据集进行速率和注释;例如,我们/公司会对数据集进行评估。”配置文件”选项卡显示数据集的统计信息。”配置文件”选项卡如下所示:

Profile tab example
配置文件选项卡示例

最后,”上一页”选项卡显示数据集的生命周期:

Lineage tab example
线系选项卡示例

在这里,第一个黄色”+”显示当我们将资产添加到目录。我们还可以看到谁添加了它和其他元数据。”铅笔”标记描述资产更新,例如,为资产创建标记时。联接的节点将告知何时、何地以及由谁将资产添加到项目中。

现在,让我们回顾一下这些功能对于非结构化数据的工作原理。我将打开文件傲慢与偏见.pdf。概述”选项卡与我们的信用数据非常类似,但有趣的事情发生在”配置文件”选项卡下。沃森工作室可以运行沃森自然语言理解的数据,并显示有关它的具体信息:

Natural Language Understanding in Watson Studio 沃森工作室的自然语言理解

同样,除了类别之外,我们还可以看到概念、情感或情感。

我提到,我们将回到执行政策的概念。每当我们将数据集添加到目录时,这些政策都会发挥作用。我们将可以选择将其分类为受特定策略控制的数据集类型。

Defining the type of data set governed by a certain policy
定义受特定策略控制的数据集类型

当我们将数据集分类为属于这些类别中的任何一个时,我们将能够在”概述”选项卡下看到其分类。

现在我们知道我们可以将数据集从项目添加到目录,以及从目录到项目;让我们看看在项目中我们还能做些什么。

第三部分:准备分析数据

在数据科学工作流的这一部分,数据精炼变得有用。炼油厂是数据科学家和分析人员的自助服务数据准备工具。当我们在项目中打开数据资产时,在右上角,我们将看到优化该数据的选项。

Refining data
精炼数据

选择”优化”将带我们到数据精炼服务,在那里我们可以先选择列并从下拉菜单中选择要应用的转换来执行操作。

Selecting desired column for data transformation
选择所需的数据转换列

然后,我们可以应用更多的自定义转换,通过在框中输入R代码,其中显示代码操作来清理和塑造您的数据。

Entering R code to cleanse and reshape data
输入 R 代码以清理和重塑数据

一旦我们将所有转换步骤添加到我们的炼油厂,我们可以保存和运行流csv _ flow 和作为德国信用数据 . csv _ c _ c _ csv 的资产的输出(我们的精炼数据)。

数据探索的另一个重要元素是创建数据的可视化表示形式。为此,我们可以创建各种分析仪表板来快速分析数据。在我们的项目中,我们可以选择添加仪表板、为新仪表板命名并保存它。然后,Watson Studio 将我们重定向到一个窗口,我们可以根据我们可能要添加的图形数为仪表板选择模板。

一旦我们选择了我们想要的,就会看到以下窗口:

Choosing a template for the dashboard
为仪表板选择模板

我们可以单击”选定源”旁边的”+”,将所需的数据集添加到仪表板。本示例使用德国信用数据.csv。然后,我们可以选择要添加到仪表板中的图表类型。

下面,我为第一个框添加条形图。例如,我可以拖动”条形”和”长度”元素前面的”性别”列,以获取数据集中的男性和女性计数。

Getting count of individuals by sex
按性别计算个人

然后,此可视化效果将成为下面仪表板中的左上角元素。继续,我可以添加其他可视化效果并创建以下信用数据仪表板。

Adding visualizations to the credit card dashboard
将可视化效果添加到信用卡仪表板

现在,我们可以开始构建对数据集的深入分析。例如,我们可以看到,42岁的男性在总金额方面接受高贷款。因此,我们可以筛选出该子集,并从动态变化的其他图形中查找见解。

Filtering out the subset and looking for insights
筛选出子集并寻找见解

我们可以使用第一个选项卡旁边的”+”图标向同一仪表板添加多个选项卡正如我们所看到的,沃森工作室中的工具使该过程变得简单明了,并确保准确性。

第四部分:构建、培训和部署机器学习/深度学习模型

Watson Studio Cloud 提供了多种方法来构建、训练和部署模型。

  1. 编码(在 Python、Spark、Scala 或 R 环境中的 Jupyter 笔记本或 R Studio 中)。

  2. 在建模器流中使用拖放方法。

  3. 将自动机器学习与 AutoAI 结合使用。

使用编码方法建模

笔记本是一种简洁的方式来分解我们的代码块,使其更具交互性,以便讲述有关我们数据科学项目的故事。沃森工作室云中的社区贡献有一些巨大的资源可以开始。

让我们回到我们的德国信用风险模型。经过一些数据预处理后,我构建了一个学法逻辑回归模型,将我的人口分为”风险”和”无风险”类别。训练模型后,我们可以将其保存在 Watson 机器学习 (WML) 中并创建模型部署:

Creating a model deployment
创建模型部署

添加凭据后,我们将实例化 WML 对象:

Instantiating a WML object然后,我们将模型保存在 WML 中。

实例化 WML 对象

要创建部署,我们需要获取模型 UID:

Fetching the model UID
正在获取模型 UID

现在,我们已准备好使用此部署来评分模型。首先,我们将获取评分终结点,然后将有效负载发送到此终结点进行评分。

这是如何使用 Python 在笔记本中执行模型训练 [测试 + 部署 + 评分周期。》我们还可以使用 R 复制此内容。

Creating a scoring endpoint in Python
在 Python 中创建评分终结点

使用拖放方法建模

拖放方法可用于机器学习和深度学习模型。为了了解服务,让我们从信用风险评分用例中走一小路,查看图像分类模型的深入学习流程

Creating a neural net for classification
创建用于分类的神经网络

在右侧,我们可以为每个单元格设置参数 – 在这种情况下,一个 Conv 2D 图层。

Creating a Conv 2D layer
创建 Conv 2D 图层

在左侧,我们可以看到调色板,您可以在其中选择画布上所需的元素。创建所需流后,我们可以导入此流作为 TensorFlow/Keras/PyTorch/Caffe 代码。

Importing the desired flow
导入所需的流

我们还可以将其保存为使用 Watson Studio 上的实验生成器运行实验的训练定义。我们可以使用实验生成器来测试我们构建的深入学习模型。我们首先向项目添加”实验”。

在 “添加培训定义” 下,我们可以选择”添加现有培训定义”,并从建模器中选择保存的定义。

Adding existing training definition
添加现有培训定义

在上面,我们看到一个实验运行的输出。

我们还可以使用实验生成器使用 Keras 或 TensorFlow 等框架在 Python 中构建的深度学习模型。

使用自动 AI 建模

在 Watson Studio 中构建 AutoAI 实验非常简单。我们只需上传要为其运行 AutoAI 的数据集,然后选择预测列和要优化的指标。

Choosing prediction column and desired metric-optimization
选择预测列和所需的指标优化

然后,点击运行实验media.com/max/1024/1_Uiv2V1xBHlwjVLo-NdK2FA.png”数据预源=”是”数据源=”是”数据-src=”https://cdn-images-1.medium.com/max/1024/1_Uiv2 V1xBHlwjVLo-NdK2FA.png”id=”图像35″src=”https://cdn-images-1.media.com/max/1024/1_Uiv2V1xBHlwjVLo-NdK2FA.png”标题=”实验管道”/*

实验管道

我们可以看到模型排行榜,并检查所有我们想要考虑的模型。让我们来看看顶级模型的一些结果:

Results from model (one)
模型 (一)
Results from model (two)
模型的结果 (二)

一旦我们满意了我们拥有的模型,我们就可以节省它用于下游生产。

第五部分:监控、分析和管理

现在,终于是时候将沃森OpenScale纳入沃森工作室,使这个完整的数据科学杰作。

创建模型部署后,我们可以将它们与 Watson OpenScale 集成,以便进行连续模型监视。创建并配置了 Watson OpenScale 实例后,我们可以选择要监视的部署。在此处的文档中查找有关设置的详细信息。

在设置配置时,我们可以定义阈值,以确定在看到警报之前我们希望模型具有的公平性和准确性。设置配置后,我们的着陆页将如下所示:

Insights Dashboard
见解仪表板

要查看任何特定模型,我们可以单击其磁贴:

Further examining chosen model
进一步检查所选模型

通过这些指标,我们深入了解我们的模型的准确性和公平性。在任何时候,我们可以通过点击点击查看详细信息来决定更深入地分析:

Credit Scoring model details 信用评分模型详细信息

我们还可以看到所有交易记录以及有偏见的交易记录的列表。

Examining transactions with the credit scoring
使用信用评分检查交易

“解释”选项通过让我们了解模型如何得出其结论,提供了模型可解释性:

Explaining how model reached predictions
解释模型如何达到预测

然后,我们还可以选择在 OpenScale 中使用模型消除偏置选项。在IBM Watson OpenScale 中查找有关偏置检测中的 OpenScale 和IBM Watson OpenScale 中的消除偏置的详细信息。

这就是它 – 我们现在在我们的”端到端”旅程的终点。我希望本文可以帮助您更好地使用 IBM Watson Studio 创建您自己的数据科学杰作来简化工作流程。我希望阅读(和实施)你的项目将像构建演示和写文章一样令人兴奋。

相关文章

Comments are closed.