files-in-cubby

大数据分析可以定义为用于处理复杂数据集以发现市场趋势、相关性和隐藏数据模式的技术和流程的集合。它使组织能够做出明智的业务决策,并帮助研究人员验证其科学模型。

无论是财务分析、零售、广告还是医疗保健,大数据分析已成为任何业务的重要组成部分。全球数据量呈指数级增长,估计从今年的33ZB跃升至2025年的175ZB。这不仅创造了巨大的机遇,而且对基础设施运行大数据分析提出了巨大的需求,也给数据工程师带来了新的挑战。

您可能还喜欢:
开放斯塔克斯坦:库伯内特斯和裸机。

分析工作负载的独特之处是什么?

首先,让我们就分析工作负载的定义达成一致。根据Curt Monash的说法,”分析是交易的反义词。虽然事务处理 (OLTP)的特点是一组短的离散操作,每秒事务量大,数据完整性严格,但分析工作负载通常以对数据源进行更复杂的和资源密集型查询的用户较少来区分。

窗帘后面正在进行大规模的并行性,通过使计算尽可能接近数据,尽可能降低数据移动。数据量大,模型复杂,计算由分布式系统完成,所有这些都给执行这些任务的基础结构带来了实际负担。Data to the cloud

考虑过渡到云?

建立和维护大数据分析堆栈并不开玩笑,因此公司通常选择将其分析工作负载迁移到云,以降低复杂性并提高运营效率。根据经验,在准备向云过渡时,需要考虑两个主要事项 – 数据存储和数据处理。

要存储的数据群

它是分布式数据存储,您需要首先考虑大数据项目。参考Brewer定理,分布式数据存储不可能同时提供两个以上保证:一致性、可用性还是分区容差。所以,挑两个,你很好去。与往常一样,选择取决于您的应用程序。

为了保持大数据轮式旋转,需要高度可扩展、高效且经济高效的存储。几乎总是它是某种类型的 NoSQL 数据库 – 现在您有超过225个 NoSQL 数据库可供选择。

还记得布鲁尔的定理吗?这是当你开始做出牺牲的时候。如果某些数据变得不可用的风险是可以容忍的(牺牲可用性),那么一个高度灵活且易于扩展的文档数据库(如 MongoDB)可能具有直接查询功能。无论您的客户读取不一致的数据(牺牲一致性)是否没什么大不了的,您可能需要选择像 Cassandra 这样的容错和线性可扩展的数据库com/refcardz/基本后格列sql?章节#1″rel=”nofollow”\PostgreSQL和牺牲分区容差。尽管这可能会验证您的时髦身份,但它可能涉及数据库分片,并使处理非结构化数据几乎是不可能的。让我们离开 SQL 查询数据仓库,好吗?

无论您选择哪种数据库,大多数数据库在商品硬件上运行得非常好。尽管目前所有超大规模云提供商都在提供托管数据库服务,而且其中一些提供商并不羞于将开源作为中指,但当存在卓越的开源产品时,没有必要将其锁定在生态系统中。

例如,您可以在具有 HDD、SSD 或 NVMe 直接连接的存储的裸机云上运行 MongoDB 群集,以使每个节点上的 I/O 操作飞速增长。如果你是一个真正的速度风扇,设置一个内存数据库,如点火或Redis可能是你的事情。

让我们处理数据!等等,但怎么?

数据是新的石油,并非没有原因。我们喜欢数据;它帮助我们更好地理解事物,并揭示可操作的见解。为此,我们必须以这样或那样的方式处理数据。

首先,有Hadoop,其批处理计算框架基于MapReduce计算范例。生活是美好的,歌曲被唱,而工程师水平扩展他们的大数据集群,并采用大规模并行。每个节点在已分配的映射数据上执行给定的缩减函数 – 这样,巨大的数据块被轻而易举地处理。

这也是谷歌启动搜索引擎的方式。随着时间的推移,Hadoop 生态系统迅速扩展,并引入了额外的抽象层来解决新问题,因为大数据行业变得更加成熟。它仍然是当今数据行业中最突出和最常用的工具,您可以在简单的商品服务器上平稳运行。只要确保您的节点上具有快速、直接连接的存储,因为 Hadoop MapReduce 是磁盘绑定的。

虽然批处理是一个非常强大的概念,但我们首先需要存储数据以进行处理。当您想要开始使用连续数据流进行实时预测时,这会产生困难。要达到算法股票交易或野火监控等功能,您的数据必须一瞥就处理。显然,我们需要一个不同的范例,而Apache Spark在流处理方面处于创新的前沿。

该项目最初旨在解决 Hadoop 在流分析方面的弱点。Spark 没有文件管理系统,因此它依赖于 HDFS 或任何其他存储群集。它从群集读取数据,在单个步骤中执行其操作,然后将数据写回群集。这可能比 Hadoop 快 100 倍,因为默认情况下 Spark 在内存中运行。在为 Spark 群集选择合适的基础结构时,请查找一些功能强大的 RAM。

与大多数伟大的技术一样,Spark 已经发展了很多,也发生了很大变化。它现在是一个统一的分析引擎,具有强大的交互式查询、图形处理和迭代算法。例如,您可以轻松地构建机器学习工作流,并在 Spark 上使用一些最流行的算法来迭代数据集并构建机器学习模型。它甚至可以处理批处理作业这些天。火花最棒的地方是什么?完全免费。

到云还是不到云

好吧,你口袋里有我们刚才讨论过的这些强大的开源工具如果您购买了裸机服务器并在本地托管它们,您将能够挤出原始基础架构的大部分优势,但需要巨大的前期资本投资和进一步的维护成本。

尽管这一选项对于大型企业来说仍然相当可观,但中小型企业必须更加灵活。另一方面,租用基础设施是一个更方便的选择,因为您按使用量付费,无需投资硬件。假设您最终决定迁移到云。但是选择哪一个呢?

大男孩

每个超大规模提供商(无论是 AWS、Azure 还是GCP)都拥有广泛的托管服务组合,可为大数据社区提供从托管数据库到集成机器学习框架。这似乎是一个一刀切的解决方案,但它们的大多数托管服务具有与免费的开源服务大致相同的功能。如果您仍希望从基础架构中完全抽象出来,并且被锁定在单个提供商中,可以准备好接收不断增加的发票并使用复杂的定价计算器。有趣的是,云经济学家甚至可以帮助您解决 AWS 发票。

好的,所以您希望完全控制云堆栈,并始终可以自由选择云堆栈所在的位置。如前所述,像 Hadoop 和 Spark 这样的开源技术在商用硬件上非常出色,因此主要问题是选择哪种基础架构作为服务提供商。从历史上看,典型的云产品包括具有超额预订硬件资源的虚拟机,这些硬件资源通常会导致工作负载波动和安全风险增加。尽管云服务生态系统大大扩展,但底层基础结构服务仍然严重依赖虚拟机管理程序。

块上的裸金属云

裸金属云是不同的。您仍然具有完全自动化的基础架构配置,只是没有底层虚拟化层。这是伟大的几个原因。首先,所有服务器都是严格的单租户,您是整个计算机的唯一所有者。单身在生活中并不有趣,但在云中却很棒:您没有嘈杂的邻居,没有硬件超额预订,没有虚拟机管理程序开销,安全风险更少。简而言之,裸机云是托管资源密集型应用程序的更简洁的方法。对于需要强大基础架构和增强安全性的数据分析工作负载,裸机云是无可匹敌的。

裸金属的原始马力

在裸机上运行大数据群集为您提供了额外的优势。通过 RESTful API,服务器可在几分钟内轻松向上和向下扩展,这在运行分布式系统时至关重要。没有虚拟化和硬件超额预订,您可以以最大容量运行应用程序,并且仍然具有平稳稳定的工作负载。如果这还不够,您可以根据需要自定义服务器硬件。只需在构建机器学习模型时添加 GPU 加速器,增加 RAM 以扩展内存中数据库,或将 NVMe 存储放入服务器,使 Hadoop 群集暴涨。您还能在哪里获得如此简单的专用硬件?通过消除虚拟机管理程序开销和引入自定义硬件裸机云,您可以按需提供最高效的基础架构。原始和简单。

增强的隐私和安全性

在大数据领域,安全性受到非常严肃的处理,您需要相应地选择基础结构是可以理解的。处理敏感数据通常意味着您必须存储和处理个人身份信息 (PII),并遵守法律法规。确保您的供应商符合 GDPR 标准,或获得 ISO 27001 等行业认可的认证始终是一个好主意裸金属云本质上是单租户的,您不需要为此支付一分钱。

法律合规性很重要,但系统安全性同样重要。在大数据上,分布式计算群集数据应在节点之间私下移动。要做到这一点,您通常需要一个专用网络子网。在裸机云上,为每个服务器自动分配专用网络接口。这样,您可以在具有 10G 带宽的快速安全 LAN 上内部处理数据。

100 倍更便宜的数据传输

当然,您尝试使计算尽可能接近数据所在的位置。当数据集庞大时尤其如此,因为移动计算比移动数据便宜。但是,您仍然需要将数据移入和移出群集。虽然超大规模提供商吹嘘其低数据传输价格,可能从 50 美元到超过 100 美元每 TB,但在裸机云上,您可以传输数据到互联网,低至每 TB 1 美元。完全不同,对吧?

现在由你决定

市场上仍然只有少数裸机云提供商,甚至更少,这些提供商可以提供完全自动化且易于自定义的基础架构。 因此,如果您即将用下一件大事征服世界,请考虑选择更灵活、更高效、更经济的云平台来整合大数据应用程序。

进一步阅读

Comments are closed.