在本期”最佳 DZone”中,我们汇编了有关数据处理的最流行的分析引擎之一 Apache Spark 的最佳教程和文章。无论您是初学者还是长期用户,但遇到了不可避免的瓶颈,我们都有您的支持!
在开始之前,我们需要感谢那些参与本文的人。DZone 已经并将继续是一个由像您这样的贡献者提供支持的社区,他们渴望并热情地与世界其他地区分享他们所知道的知识。
让我们开始吧!
开始
安装
-
Kuldeep Singh在Windows 上的 Apache Spark – 如果您对 Spark 的快速入门指南感到困惑,本文将包含对开发人员遇到的更常见错误的解决方案。
-
由 Bill Ward提供的 Apache Spark教程(快速数据体系结构系列)–在本文中,数据科学家和开发人员提供了一个 Apache Spark 教程,演示如何安装 Apache Spark。
理论
-
Frank Evans的 Apache Spark 生态系统概述– 使 Spark 的底下元素不那么神秘,并将现有的编程知识和方法转化为 Spark 引擎的强大功能。
-
Lambda 架构与阿帕奇火花由塔拉斯·马季绍夫斯基– 此博客文章将向您介绍 Lambda 体系结构,旨在利用批处理和流处理方法。
-
火花如何使用地图减少?由阿努布哈夫·塔拉尔– 阿帕奇火花确实使用MapReduce,但只是它的想法,而不是确切的实现。困惑?让我们来谈谈一个例子。
-
Anil Afrawal 介绍 Apache Spark 的核心 API(第一部分和第二部分)–快速了解如何使用 Python 使用 Spark 核心 API 中包含的函数和方法。
com.cn/wp-content/uploads/2019/12/3361824-pipeline-2.png”标题=”增强管道”宽度=”666″/*
火花 vs 卡夫卡 vs 弗林克
-
火花流与卡夫卡流由马赫什·昌德·坎帕尔– 如果事件时间是非常相关的,在几秒钟内的延迟是完全不能接受的,卡夫卡应该是你的第一选择。否则,Spark 工作正常。
-
石万吉·古普塔在 Spark、Flink 和 Kafka 中流式传输– 在何时使用 Spark、何时使用 Flink 和何时使用卡夫卡之间,有很多嗡嗡声。在本文中,将一切直接介绍。
-
阿帕奇Flink vs. 阿帕奇火花由伊万·穆什凯特克– 你应该切换到阿帕奇Flink?你应该坚持一段时间与阿帕奇火花?获得这些和其他问题的答案。
-
Hadoop vs Spark – Sunil Goyal选择合适的大数据框架 – 找到适合您大数据需求的框架。
流式处理和结构化流式处理
-
什么是结构化流?Himanshu Gupta – 结构化流是一种快速、可扩展、容错、端到端、一次性的流处理 API,可帮助用户构建流式处理应用程序。
-
Anuj Saxena的Spark 流与结构化流— 看看这两个开源数据流平台以及每种平台的最佳效果。
火花簇
-
Apache Spark:由 Jay Sridhar在AWS 上设置群集– 您可以使用 Amazon EC2 的计算资源增强和增强 Apache Spark 群集
数据库、RDD 和数据框架
-
什么是火花中的 RDD,为什么我们需要它?由Saurabh Chhajed – 您需要了解弹性分布式数据集 (RDD) 在 Spark 中如何发挥作用。
-
什么是 Spark SQL?由托德·麦克格拉斯– Spark SQL 允许您在 Python、Java 和 Scala 中使用数据框;以各种结构化格式读取和写入数据;以及使用 SQL 查询大数据。
-
通过Mark Needham 将 RDD 转换为具有火花的数据帧– 了解如何在 Databricks Spark CSV 库中将 RDD 转换为 DataFrame。
-
使用Emrah Mete 的 Apache Spark 从 Oracle 数据库中读取数据– 了解如何将 Apache Spark 连接到 Oracle 数据库,直接读取数据,并将其写入 DataFrame 中。
-
数据帧上的 Spark 检查点是什么?由 Jean Georges Perrin – 检查点在执行其他操作之前冻结数据帧的内容。它们对于有效管理 DataFrame 至关重要。
-
使用Spark和JDBC的正确方法由Avi Yehuda – ApacheSpark是一个美妙的工具,但有时它需要一些调整。我们来看看一个用例,它涉及从 JDBC 源读取数据。
性能优化
-
理解Rishitesh Mishra的Apache Spark 故障和瓶颈– 当一切按计划进行时,很容易在 Apache Spark 中编写和理解应用程序。但是,有时,由于数据更改或数据布局更改(或到目前为止运行良好的应用程序)可能会由于资源不足而开始表现不佳,因此,调整良好的应用程序可能会失败。
-
通过 Haim Cohen的Spark 动态分配实现智能资源利用— 明智地配置 Spark 应用程序将为您提供智能分配和性能之间的良好平衡
com/文章/apache-spark-性能调谐-并行程度”样式=”背景颜色:rgb(255,255,255);”[Apache Spark 性能调优 – Rathnadevi Manivannan的并行性程度 – 了解如何通过在 YARN 上运行的 Spark 应用程序中的分区调优来提高性能和提高速度。
为什么 Spark 应用程序速度慢或失败,第 1 部分:内存管理和第 2 部分:Rishitesh Mishra 的数据扭曲和垃圾回收– 了解常见的内存管理问题、数据偏斜和垃圾回收如何对 Spark 应用程序的性能产生重大影响。
使Tachyon的不可能成为可能:由亨利·鲍威尔和吉安马里奥·斯帕卡尼亚(Gianmario Spacagna)将火花作业从数小时加速到几秒钟——巴克莱数据科学家吉安马里奥·斯帕卡尼亚和高级分析主管哈里·鲍威尔描述了他们如何迭代地将来自中央数据仓库的原始数据直接处理到Spark,以及Tachyon如何成为他们的关键技术。
PySpark 教程
-
Spark 与 Python 简介:Kislay Keshari 的初学者 PySpark – 了解如何将 Apache Spark 与 Python (PySpark) 一起使用,以便对可靠的数据集执行分析。
-
PySpark 教程:使用 Kislay Keshari的 Python 学习 Apache Spark – 了解如何开始使用最佳框架之一实时处理大数据并在 Spark 中执行分析。
-
PySpark DataFrame 教程:Kislay Keshari的 DataFrame 简介 – 探索 DataFrame 的概念,以及它们如何帮助数据分析师在与 PySpark 配对时理解大型数据集。
-
如何使用Neha Priya 使用 PySpark 执行分布式火花流– 了解如何使用 PySpark 快速分析传入数据流以提供实时指标
com/文章/pyspark-join-解释-示例”样式=”背景颜色:rgb(255,255,255);”[PySpark 联接由莫妮卡·拉托尔解释 – 了解如何使用 PySpark 联接,以便更好地在 Python 中的 DataFrame 中操作数据框架中的数据。
斯卡拉和火花
-
通过Mahesh Chand 学习 Scala – 通常,当涉及到大量数据时,仅靠处理是不够的。数据必须快速、实时、连续和同时处理。
-
由Emmanouil Gkatziouras 的”使用 Spark 和 Scala”字计数– 了解如何将 Scala 与 Spark 一起使用,以解决经常出现与字数有关的问题。
-
Tim Spann的Scala vs. Apache Spark的 Python – 当使用 Apache Spark 进行群集计算时,您需要选择您的语言。Scala有它的优点,但看看为什么Python正在迅速赶上。
-
Abhishek Baranwal 介绍 SparkSession – 我们将介绍如何使用 Apache Spark 2.0 的这项新功能,涵盖入门所需的所有 Scala 和 SQL。
-
清理帧:阿帕奇火花的数据清理库!由Dawid Rutowicz – 一位开发人员讨论如何使用基于Scala的开源库,该库可以帮助从数据清理中获取一些样板代码。
火花和机器学习
html”itemprop=”作者”样式=”背景颜色:rgb(255,255,255);”标题\””大卫·莫耶斯——无论您是在大型群集上运行 Spark 还是在单个节点应用中嵌入式,Spark 都可以轻松创建预测分析,只需几行代码即可。
使用科努尔·乌耶利奥格鲁的Apache Spark进行数据聚类– 本文使用K-means和高斯混合算法研究癌症生存情况。
奥利弗·怀特的《深入学习》和《库伯内特斯》对Apache Spark 3.0的未来进行一瞥——了解 Spark 3.0、Kubernetes 和深度学习是如何走到一起的。
没有人把婴儿放在容器里
-
由Arseniy Tashoyan 在 Docker 容器中运行 Apache Spark 应用程序– 即使 Spark 群集配置并准备就绪,您仍有很多工作要做,然后才能在 Docker 容器中运行它。但是这些提示可以帮助它更容易!
杂项
-
快速开始与Apache Livy由古格利尔莫Iozzia – 了解如何开始与ApacheLivy,一个项目正在孵化过程中由Apache,通过REST接口与ApacheSpark交互。
-
ETL 应用程序使用 Apache Spark 和 Hive的Emrah Mete – 在本文中,我们将阅读 HDFS 上使用 Spark(Hadoop 文件系统)的示例数据集,执行简单的分析操作,然后写入我们将在 Hive 中制作表。
-
游戏理论与Apache火花第1部分,第2部分,第3部分,和第4部分由科努尔Unyelioglu – 深入到博弈论与ApacheSpark在这个四部分系列。
成为对话的一部分!
你觉得我们错过了什么?想贡献吗?请让我们知道下面的评论.或者,加入对话,成为我们社区中成千上万的开发人员的一员,他们渴望与他人分享他们的知识和编程热情。