man-looking-at-sparkler.

在本期”最佳 DZone”中,我们汇编了有关数据处理的最流行的分析引擎之一 Apache Spark 的最佳教程和文章。无论您是初学者还是长期用户,但遇到了不可避免的瓶颈,我们都有您的支持!

在开始之前,我们需要感谢那些参与本文的人。DZone 已经并将继续是一个由像您这样的贡献者提供支持的社区,他们渴望并热情地与世界其他地区分享他们所知道的知识。

让我们开始吧!

开始

安装

理论

Enhanced Pipeline 火花 vs 卡夫卡 vs 弗林克

流式处理和结构化流式处理

Streaming in Apache Spark

火花簇

数据库、RDD 和数据框架

性能优化

  • 理解Rishitesh MishraApache Spark 故障和瓶颈– 当一切按计划进行时,很容易在 Apache Spark 中编写和理解应用程序。但是,有时,由于数据更改或数据布局更改(或到目前为止运行良好的应用程序)可能会由于资源不足而开始表现不佳,因此,调整良好的应用程序可能会失败。

  • Spark 动态分配实现智能资源利用— 明智地配置 Spark 应用程序将为您提供智能分配和性能之间的良好平衡

com/文章/apache-spark-性能调谐-并行程度”样式=”背景颜色:rgb(255,255,255);”[Apache Spark 性能调优 – 的并行性程度 – 了解如何通过在 YARN 上运行的 Spark 应用程序中的分区调优来提高性能和提高速度。

  • 为什么 Spark 应用程序速度慢或失败,第 1 部分:内存管理和第 2 部分:Rishitesh 的数据扭曲和垃圾回收– 了解常见的内存管理问题、数据偏斜和垃圾回收如何对 Spark 应用程序的性能产生重大影响。

  • 使Tachyon的不可能成为可能:吉安马里奥·斯帕卡尼亚(Gianmario Spacagna)将火花作业从数小时加速到几秒钟——巴克莱数据科学家吉安马里奥·斯帕卡尼亚和高级分析主管哈里·鲍威尔描述了他们如何迭代地将来自中央数据仓库的原始数据直接处理到Spark,以及Tachyon如何成为他们的关键技术。

  • PySpark 教程

    com/文章/pyspark-join-解释-示例”样式=”背景颜色:rgb(255,255,255);”[PySpark 联接由解释 – 了解如何使用 PySpark 联接,以便更好地在 Python 中的 DataFrame 中操作数据框架中的数据。

    斯卡拉和火花

    Machine learning workflow with Spark火花和机器学习

    Comments are closed.