回归问题的梯度下降与法线方程 | 上海软件外包公司-知力科技

Gradient Descent v/s Normal Equation

梯度下降 v/s 法线方程

在这篇文章中，我们将在实际方法中看到梯度下降和正常方程之间的实际差异。大多数新手机器学习爱好者在线性回归期间了解梯度下降，甚至不了解最被低估的法线方程，该方程远不复杂，为中小型数据集提供了非常好的结果。

如果你是机器学习的不熟悉者，或者不熟悉正常的方程或梯度下降，不要担心我会尽力用外行的术语来解释这些。因此，我首先要解释一下回归问题。

什么是线性回归？

它是入门级监督（给定功能和目标变量）机器学习算法。假设，我们在空间中绘制所有这些变量，然后这里的主要任务是拟合行，以最大限度地减少成本函数或损失（别担心，我也会解释这minimizes一点）。有各种类型的线性回归，如简单（一个特征）、多重和逻辑（用于分类）。本文考虑了多种线性回归。实际回归公式为：-

其中₀和₁是我们必须找到的参数，以最大限度地减少损失。在多重回归中，公式扩展为 α₀ =₁X₁ =2X2。成本函数发现算法实际值与预测值之间的误差相同的公式是：-

其中 m= 数据集中的示例或行数，xɪ ith 示例的要素值，yɪ ith 示例的实际结果。

梯度下降

它是一种优化技术，用于查找将成本函数降至最低的参数的最佳组合。在此，我们从参数的随机值（在大多数情况下为零）开始，然后不断更改参数以减少J（+₀，1₁）或成本函数，直到最终达到最小值。相同的公式是：-

其中j表示否。参数的+ 表示学习速率。我不会深入讨论。你可以在这里找到这些手写笔记。

法线方程

在这种方法中，我们可以直接找到参数的最佳值，而无需使用梯度下降。当您使用较小的数据集时，它是一种非常有效的算法或不良的说oneline公式（因为它只包含一行）。

正常方程的唯一问题是，在大型数据集中查找矩阵的反比计算非常昂贵。

这是很多理论，我知道，但这是需要了解以下代码片段。而我只划伤了表面，所以请谷歌以上主题深入知识。

先决条件

我想你熟悉 python，已经在系统中安装了python 3您可以使用你喜欢的IDE。所有必需的图书馆都内置于阿纳康达套件中。

让我们的代码

我使用的数据集由3列组成，其中两列被视为要素，另一列被视为目标变量。数据集在GithHub 中可用。

首先，我们需要导入我们将在本研究中使用的库。在这里， numpy 用于创建用于训练和测试数据的NumPy数组， pandas 用于创建数据集的数据框并轻松检索值。用于绘制总体股票价格和预测 matplotlib.pyplot 价格等数据， mpl_toolkits 用于绘制3D数据， sklearn 用于拆分数据集和计算准确性。我们还导入 time 以计算每种算法所用的时间。

Python

导入数字作为as np

从mpl_toolkitsimportmplot3d

导入matplotlib.pyplot作为plt

从sklearn。指标导入mean_squared_error

从sklearn。model_selection导入train_test_split

导入时间

我们已将数据集加载到 pandas 数据框中，数据集的形状为（1000，3），然后只需打印前 5行，head()

Python

dfpd.read_csv（"学生.csv"）

打印（df.形状）

头（）

Preview of the dataset used

使用的数据集的预览

在这里，功能值即数学和读取保存在变量 X1 和 X2 中作为 NumPy 数组，而写入列被视为目标变量，其值保存在Y变量中。然后，我们绘制了此 3D 数据。

Python

[X1] df="数学"= 。值

X2df="阅读"= 。值

Ydf="写入"= 。值 pltplt.轴 （投影="3d"）

斧头.散射（ X1X2Yc=Ycmap="viridis"线擦 =0.5）;

Visualization of data in 3D

3D 数据可视化

现在，X₀初始化为由 numpy 与其他要素具有相同尺寸的数组组成（它的行为就像偏置）。之后，我们将所有要素分组到单个变量中，并将它们转换为正确的格式。然后，数据在t的帮助下拆分为训练和测试 rain_test_split ，测试大小为5%，即50行进行测试。形状在下面的屏幕截图中给出。

Python

一个（len（X1））

Xnp.数组（+X0，X1，X2+）。T

x_train，x_test，y_trainy_testtrain_test_split（X，Y，test_size=0.05）

打印（"X_train形状"，x_train。x_train形状，"\nY_train形状"，y_train。y_train形状）

形状，"\nY_test形状"，y_test。y_test形状）

Shapes of training, testin

培训形状、测试集

梯度下降

在这里，Q表示参数列表，在我们的例中为 3（X₀、X₁、X2），它们初始化为（0，0，0）。n只是一个整数，其值等于训练示例的数量。然后，我们定义了我们的成本函数，将用于梯度下降函数，以计算每个参数组合的成本。

Python

Q\ np.零（3）

nlen（X1）

defcost_function（X，Y，Q）：

返回np。总和 （（（X.点（Q）-Y）**2）/（2\n）

这是梯度下降函数，它以特征、目标变量variable、参数、纪元（迭代次数）和alpha（学习速率）作为参数之后，我们开始了一个循环来重复查找参数的过程。然后，我们计算损耗和梯度术语，并更新了参数集。在这里，您看不到部分派生项，因为此处的公式是在计算部分派生后使用的（作为参考，请参阅上述公式中的平方项在分母中取消 2）。最后，我们调用成本函数来计算成本，并附加在中 cost_history 。

Python

cost_history\ np.零（纪元）

ii在范围range（纪元）：

predX.点（Q）

损失预-Y

T.点（丢失）/n

QQ-渐变*阿尔法

cost_history[icost_function（X，Y，Q）

返回cost_history，Q

在这里，我们已经开始调用 timer 上述函数之前，并设置纪元 =1000 和alpha =0因此，我们的梯度下降大约需要 82毫秒的执行（1000 个纪元）。

Python

开始时间。时间（）

平展（），Q，1000，0.0001）

结束时间。时间（）

打印（结束-开始）

在这里，我们为绘制了图形 cost_history 。正如我们所看到的，图形收敛在大约400个纪元，所以我运行梯度下降函数与纪元=400，这一次它需要大约25.3毫秒。您可以使用我的 GitHub 上的笔记本自己测试这个。

Python

[x] [i 表示 i in范围（1，1001）]

plt.绘图（x，cost_his）

Iteration V/S Cost

迭代 V/S 成本

现在是测试的时候。mean squared error出来是3.86 左右，这是非常可以接受的。

Python

y_predx_testx_test.点（参数）
np.sqrt（mean_squared_error（y_pred，y_test）

使用梯度下降的精度

法线方程

法线方程非常简单，您可以在代码本身（只有一行）中看到这一点。如上所述，我们测量了公式计算参数所用的时间。不要担心不可反转矩阵，请在这里 NumPy 覆盖所有这些矩阵。大约需要3毫秒（平均）。很棒吧！

Python

X

开始时间。时间（）
Q1np.利纳尔格.INV（x_train.T.点（x_train）） 。点（x_train

点（y_train）

结束时间。时间（）

打印（结束-开始）

最后，我们计算 mean squared error 了正态Equation，结果为3.68

Python

pred_y] x_test。点（Q1）

np.sqrt（mean_squared_error（pred_y，y_test）

使用法线方程的精度

Dwayne the Rock Johnson gif: "Yeah, it's time to change the game"

在梯度下降前考虑法线方程

结论

事实证明，法Normal线方程计算参数的时间更少，在精度方面给出的结果几乎相似，而且使用起来也相当容易由于当今现代系统计算能力良好，法线方程是回归时第一个考虑的算法。

源代码在GitHub 上可用。请随时进行改进。

谢谢你的宝贵时间。我希望你喜欢本教程。

Tags: span, strong

Comments are closed.