波浪和曲线
数据科学、人工智能 (AI) 和机器学习 (ML) 自过去五到六年以来,这些短语在 Gartner 的炒作周期曲线中已经处于领先地位。渐渐地,他们越过了顶峰,向高原移动。该曲线也很少有相关的术语,如深度神经网络,认知自动ML等。这表明,围绕AI/ML的新兴技术趋势将在未来几年内在软件行业盛行。他们的前辈,如商业智能,数据挖掘和数据仓库,甚至在这些年之前就在那里。
在丛林中寻找水晶球
预测和预测是我最喜欢的话题,我早在2019年初就开始寻找一种进入数据和算法世界的方法。学习人工智能/ML 的另一个驱动力是我对神经网络的迷恋,自从我开始学习计算机科学以来,神经网络一直困扰着我。我收集了几本书,学会了一些蛇的技巧,潜入水晶球。
当我浏览在线文章、视频和书籍时,我发现许多现成的工具、库和 AI/ML API。这就像有人试图学习骑自行车,并给了一辆车开车。由于我对神经网络的兴趣,我被大多数最有趣的AI/ML子集,深度学习所吸引,它处理深度神经网络。我不能阻止自己直接进入谷歌Tensorflow(一个免费的谷歌ML工具),并不堪重负的API的巨大集合。我可以按照文档,编写代码,甚至使其工作。但有一个问题,我不明白为什么我做我正在做的事情。我完全淹没了诸如生物、方差、参数、功能选择、特征缩放、退出等术语。那时我休息了一下,倒带并了解了 AI/ML 的内部,而不仅仅是盲目使用 API 和 Libs。所以,我走的很努力。
文章中正确地指出了原因。
然而,有些非常有用,例如麻省理工学院OpenCourseWare的格里姆森教授的机器学习导论。虽然它有点长,但有帮助。
学习AI的四大支柱
逐渐认识到学习AI/ML的四大支柱。
- 数据:人工智能一直是计算机科学研究的一部分。但是,由于无法对模型进行培训的数据,人们将其搁置一边。然而,在过去5至6年中,许多组织,包括政府组织,都分享了用于人工智能和机器学习实验的数据。这里很少。
1)卡格尔数据集
2)微软研究开放数据
3) 美国政府的公开数据
4)欧洲数据门户
5)英国开放数据
6 )五
7)索克拉塔开放数据
8) AWS 公共数据集
9) UCI 机器学习存储库
10)昆德尔
11)世界银行
12) /r/数据集
13)14)开放政府数据平台印度
15)沃尔夫拉姆数据存储库
16)真棒公共数据集
- 数学和算法:我进入人工智能根部的旅程把我拖到了一些关于矩阵、线性代数、数值分析、微积分和统计学等的教材。数学的一些领域在理解算法、微调算法或根据需要修改算法方面非常方便。它们如下。
机器学习算法的海洋。流行的可以在
对于那些谁想要回到算法的基础知识可以找到下面的。
- 编码平台:AI/ML 代码通常需要相当大的内存大小和 CPU 速度,在个人计算机上不可能安排类似的资源。然而,有一些公司提供他们的在线编码平台支持的资源以低廉的价格或根本没有成本,例如。
- 谷歌实验室
- 卡格尔内核
- Azure 笔记本
- IBM 数据平台笔记本
- 朱皮特笔记本
- 教育:虽然现在一天有很多课程,包括像著名大学提供的课程
- 吴教授深度学习专业
- 来自哈佛、麻省理工学院和更多世界领先大学的几门真正的大学课程由 EDX提供,作为机器学习课程的集合
- Udacity 对人工智能的介绍
- 由 UpGrad 获得数据科学的 PG 文凭,获得班加罗尔 IIIT 认证
- 数字:用于数值计算
- 熊猫:用于数据处理、操作和处理
- Matplotlib:这是一个用于数据可视化的库
- Scikit-学习:这是一个图书馆,它提供了一系列监督和无监督的学习算法,主要侧重于模型构建。也称为 Sklearn。在“监督学习”中,模型使用标记为(其中输入和输出都已知)数据集进行训练。虽然无监督学习依赖于使用未标记数据集(其中已知输入但不知道输出)对模型进行训练。
- NLTK:它是一个用于处理人类语言数据的热门库,在自然语言处理中高度用于分类、标记、词干、标记、分析和语义推理
- 的 Scikit-Learn 库的机器学习算法的一些实际操作实践经验非常有益,可以快速检查到目前为止获得的技能,并赢得后续步骤的信心。
里程碑 7:机器学习课程
一旦我们对我们的编程技巧和数学知识在机器学习中的应用充满信心,机器学习的正式课程有助于按顺序将部分组合在一起。Andrew Ng 教授是人工智能的先驱,在他的流行的机器学习课程中,引导我们学习机器学习的概念及其在现实世界中的应用。本课程还提供免费认证。本课程的视频也可在 YouTube 上提供。由于这是一个面向概念的课程,GNU八度语言已经用于演示过程中通过构建一些带有八度验证的原型来演示 ML 概念。八度与Matlab(一种由 MathWorks 开发的多范式数值计算环境和专有编程语言)兼容。
为了进一步参考,谷歌提供了机器学习速成课程。谷歌的AI教育网站提供了最新的更新,谷歌的AI进展与大量的资源。Kaggle 还提供很少的数据科学微课程,以便快速入门。
里程碑 8:使用 Python 回归
回归和分类是机器学习应用程序的两种主要类型。回归有助于预测给定数据样本的最佳输出,同时分类隔离或对给定类别中的数据进行分组。在学习机器学习课程并理解概念后,我们应该尝试在 python 中制作我们自己的回归程序。使用梯度下降算法使用单个变量和多个变量(以尽量减少错误或成本)。
Andrew Ng 教授在下面的视频中用单个变量介绍了线性回归的主题。
- 讲座 2.6 = 一个变量的线性回归 |梯度下降直觉
- 讲座 2.7 = 一个变量的线性回归 |线性回归的梯度下降
- 讲座 4.1 = 具有多个变量的线性回归 – (多个功能)
- 讲座 4.2 = 具有多个变量的线性回归 – (多个变量的梯度下降)
- 讲座 4.3 = 具有多个变量的线性回归 |实际特征缩放中的渐变
- 讲座 4.5 = 具有多个变量的线性回归 |特征和多边形回归
- 讲座 4.6 = 具有多个变量的线性回归 |法线方程
- 由谷歌(最受欢迎)
- 亚马逊的阿帕奇MXNet
- 数学工厂
- 咖啡由NVIDIA
- 链条
- 基于 Java 的深度学习4j
- 微软认知工具包(CNTK)
- Facebook 和微软的ONNX
具有多个变量的线性回归将在以下会话中描述。
里程碑 9:使用 Python 分类
回归完成后,我们应该尝试在 python 中制作我们自己的分类程序。在下面的这些课程中,吴教授介绍了这些课程。
下面快速了解数据可视化的需求和用途。AI/ML 冒险
里程碑 10:数据可视化
如果不对数据进行可视化并分析其模式,选择机器学习算法几乎是不可能的
Kaggle的数据可视化微课程面向 ML 学员,也面向编码器到编码器。IBM 还通过 Coursera 平台提供了数据可视化课程。
里程碑11:深度学习和神经网络
在这一点上,我在我的最喜爱的主题 – 神经网络的门。虽然 Python 的 Scikit-Learn 具有神经网络子包(即 sklearn.neural_network),但这次让我们在神经网络及其所涉及的算法领域更加深入。Andrew Ng 教授在 Coursera 上提供的关于深度学习专业化的课程系列是所有课程中最受欢迎的课程。本课程也可在deeplearning.ai网站上找到。本课程中有五个模块。本课程的视频也可在 YouTube 上提供。
这是有偿课程,象征性收费。课程完成后提供证书。
里程碑12:深度学习框架
在其他类型的机器学习技术中,深度学习已成为大多数 AI/ML 应用的实际标准。 今天有这么多的深度学习框架,例如。
下面是一个快速视频到列表。YouTube 上的这些框架中有许多视频和教程,但直接从其网站上的资源中学习这些视频和教程是一个不错的选择。以下是CaffeTensorFlow、PyTorch、MXNet、CNTK、链家和卡夫的视频资源。 TensorFlow PyTorch MXNet CNTK对于任何有兴趣在机器学习和 AI 领域建立职业生涯的人来说,这些工具的技能可能是当今世界的真实资产。有了这些技能,很容易获得水晶球的控制
自动ML
使用机器学习有其自己的痛点,例如清理数据、选择相关功能、为给定数据集选择适当的算法或模型、选择正确的配置和调整超级参数以获得最佳结果。这些步骤可能会消耗很长时间,因为它涉及大量的试验和猜测。下面给出了典型的 ML 工作流。
典型的 ML 工作流
自动 ML (AutoML) 的目的是自动执行这些步骤,以得出正确的配置,从而在最短的时间内实现最佳结果。AutoML 旨在帮助数据科学家摆脱重复性任务,并专注于数据分析,并根据其业务领域知识选择算法。有很多的自动ML工具和框架,这些天,如,自动SK学习,MLBox,TPOT,BigML,H2O,TPOTH2OMLBoxBigML自动Keras,TransmogrifAI,数据机器人,FastAI,谷歌的自动ML,亚马逊圣人自动驾驶仪等。 Auto-Keras TransmogrifAI
与 AI 持续练习
最重要的部分是继续学习和练习 AI / ML 技术、模型、工具和框架,并将这些技术应用于您的应用程序,用于业务和生活。由于大多数 AI/ ML 应用程序需要大量内存和处理资源,因此可能无法在我们的个人计算机上试用它们。然而,很少有平台让我们在他们的平台上免费练习我们的ML技能。其中一些还提供数据集,并安排竞赛,以促进工作。这里有他们很少 –谷歌实验室,卡格尔,机器哈克和OpenML。
清爽能量助推器
在走向水晶球的旅程中,当它感觉太累的时候,这里几乎没有快速的助推器视频和资源来刷新和重新激励。YouTube 上还有更多。
除上述许多服务外,许多是由在线教育组织提供的,例如:
通往 AI 的路线图
在花了两到三个月的时间寻找水晶球的正确路径后,我可以在核心术语(如人工智能 (AI)、机器学习 (ML)、数据科学 (DS)、深度学习 (DL) 等)之间绘制出一张地图。我发现了关于这些条款的快速说明。
“在外行的语言, 当我们有一个目标系统(不是软件系统)或环境,例如一个社区的人,天气,健康,客户,公民,企业,动物任何我们想要监测,服务,影响或控制(作为个人利益,国家利益或商业利益),我们收集(或继续收集)数据,以捕获事件,事实和数字定期,并存储在一个位置,最终需要大量的或空间(数据湖,数据仓库或大数据))并通过应用一些算法(机器学习算法)来查找企业(国家、个人或团体等)感兴趣的具体事实、数字、趋势或模式(机器学习模型)。一旦学习和事实调查结束,并生成机器学习模型,模型就用于预测事件的结果(预测过程)。根据这些预测决定采取进一步行动。操作可用于使用软件(例如自动通知、安全检查等)、设备(例如 IoT 或机器人)控制目标(系统或环境),以及人员(例如促销或向客户提供的产品)。整个过程从数据收集开始,以决定的操作结束,可以称为人工智能。然而,美国计算机科学家约翰·麦卡锡早在1956年就将人工智能一词称为“制造智能机器,特别是智能计算机程序的科学和工程”。另一方面,数据科学拥有与数据相关的所有所有内容,这意味着它与 AI、ML 或 DL 具有横切区域。数据科学解决了所有这些问题,即如何以及应该收集、存储、读取、传输和处理所有数据。用于自动化生产和交付产品和服务的重复和日常任务的操作类别是自动化的一部分。除了从机器学习或深度学习知识中获得的决策和行动外,自动化还有其他几个领域,如机器人、机械和电气设备等。
加快
现在,我有地图,我加速与一个目标在我的脑海 – 建立自己的神经网络。
在路上,我找到了一个很受欢迎的人,一个快速学习新事物和制作酷视频的专家。他是西拉杰·拉瓦尔他的视频真的令人耳目一新,并缓解了咬硬螺母的努力。他提出了一些激进的课程,以更快地学习AI,ML和DS,对于那些真正着急的人。如
根据我从学习中可以得出的概念图,课程可以得出14个主要里程碑,指向水晶球。完成整个旅程所需的时间(最后一个里程碑除外,即持续练习),我可以估计,对于重新开始的人来说,时间大约是一年。拥有数学和编码前等技能的人肯定能提前完成png” 数据-新=”false”数据大小=”98107″数据大小格式化=”98.1 kB”数据类型=”临时”数据 url=”/存储/临时/13435123-15892929844423 1.png”src=”http://www.cheeli.com.cn/wp-内容/上传/2020/05/13435123-158929844231.png”样式=”宽度:500px;”/>
十四个里程碑在十四个里程碑中,四个里程碑属于数学,三个属于纯编码,七个属于与编码实践一起学习课程,最后一个是连续实践,没有它,数据和算法的世界可能很快就会从实践者那里消失。对于每个里程碑,我们可以单独进行在线正式培训。然而,它似乎更容易,我通过视频和练习的基础上,我自己的速度和时间的可用性。
里程碑1:线性代数
汗学院提供的线性代数课程视频通过短片覆盖所有主题。吉尔伯特·斯特朗教授从麻省理工学院的线性代数课程带我们到更详细的部分,视频和解释相对较长。
里程碑2:统计:
汗学院提供的统计学课程通过简洁的视频讲座帮助很大。麻省理工学院还有关于统计基础知识的另一门课程。
里程碑3:概率理论:
我喜欢西拉杰·拉瓦尔对概率理论提出的小乐趣填充方法。在YouTube上,还有哈佛大学关于概率理论的详细课程。
里程碑4:数值计算
伊恩·古德费洛(IanGoodfellow)的数值计算讲座简明扼要,《深度学习书》的合著者之一,可以在YouTube上找到。
除了上面列出的课程外,麻省理工学院还开设一门以机器学习为重点的数学简明课程,称为机器学习数学。本课程涵盖机器学习的大部分重要数学概念youtube.com/watch?v=YzfdL58virc”rel=”不跟随”目标=”_blank”,视频激发了很多灵感。
里程碑5:Python
虽然R 语言是为统计计算和数据图形表示而构建的,但它缺乏从成熟的多用途编程语言预期的其他功能,这就是Python 语言接管竞争的原因。此外,Python 为机器学习和数据处理提供了一系列预构建的库,这有助于它成为机器学习和 AI 最受欢迎的编程语言选项。然而,学习R有助于理解数学和统计概念。特别是当需要快速原型或验证机器学习算法时,R 非常方便。与Python并行学习 R是最佳主意。最后,Julia 语言是块中的新孩子,它比 Python具有更强的功能,并且它是 Python 的潜在挑战者。
Kaggle 提供以机器学习为重点的学习 Python课程。很少有 Python 包是要开始的基本包,例如