violinists-in-orchestra

今年早些时候,我在旧金山湾区的一次技术会议上首次听到”数据编排”一词。演示者是 Alluxio 开源项目的创始工程师和 PMC 维护者。

Bin 解释说,数据编排是一个相对较新的术语。他说,数据编排平台”使数据更接近于跨群集、区域、云和国家/地区的计算。

他将其描述为类似于容器编排,它是管理或安排单个容器(如 Kubernetes 或 Docker)工作(适用于多个群集中基于微服务的应用程序)的自动过程。

我想了解更多,所以我安排了一个Skype采访Bin前几天。谈话是…

您可能还喜欢:创意数据自动化和编排提供令人惊叹的最终结果。

汤姆:你能简单地向不熟悉数据编排的人解释数据编排的概念吗?

箱:绝对。数据编排是一个相对较新的概念,用于描述一组技术,这些技术可抽象跨存储系统的数据访问,虚拟化所有数据,并通过标准化 API 将数据呈现给数据驱动的应用程序。由于新框架、云采用/迁移以及数据驱动应用程序的兴起,数据生态系统日益复杂,因此显然需要数据编排。以下是我们的一位联合创始人的博客文章,详细介绍了这个概念。

Bin Fan of Alluxio

阿卢西奥的本·范

汤姆:从数据工程师那里听到的数据编排可以帮助的最大痛点是什么?

箱:在”旧时代”(也许只是两三年前),大多数数据工程师都在内部数据仓库的环境中工作。他们有自己的自我管理的群集运行 Hive 和Spark,用于ELT、分析或其他工作负载。维持如此庞大而复杂的生态系统面临许多挑战。对于系统部署、维护、升级、性能调优或故障排除,工程师必须深入了解整个堆栈的每个部分。

在”新世界”中,越来越多的企业和用户转向公共云,如 AWS、Google 云或微软 Azure。这些云提供商在简化任务方面做得非常出色,例如启动群集或一键启动查询。现在,使用 Alluxio、Presto、Spark、Hive 等时,您通常只需要一个命令。 云提供商正在提供自己的对象存储作为数据湖。

对于数据工程师来说,这些开发意味着更快的加速升级时间、简化的安装和更快的洞察速度因此,直接在云上运行现有或旧数据管道可能会存在许多效率低下的问题。堆栈不是为此目的而设计的。这是 Alluxio 可以帮助简化在云中工作的数据工程师生活的另一个领域。

Tom:您提到云采用率的增加是推动数据编排需求的趋势之一。你看到什么了?

箱:我们将讨论行业趋势,并预测行业的长期发展方向。 对我来说,一个明显的趋势是,人们正在向云移动,并告别他们自我维护的本地数据仓库。他们将越来越多的工作负载和数据迁移到云中。Alluxio 的数据编排平台旨在帮助用户更快、更流畅地接受此类趋势。

我们将分享的另一个趋势是使用 Kubernetes 作为抽象层。结合迁移到云,这意味着许多服务变得越来越有弹性和短暂性。运行服务变得如此简单,以至于当您不需要该服务或请求流量较低时,可以将其缩小或关闭。这在本地数据仓库之前通常比较困难。

在云中,你”出租”一切可以这么说。这意味着事情变得越来越短暂和动态,并且您需要在调优方面提供帮助,以使一切更加高效。此时,计算存储变得更有弹性。如何接受这种弹性的问题就变得充满挑战了。这是数据编排可以提供帮助的另一个领域。

汤姆:几年来,我们一直在听到很多关于在行业基础上迁移到云的趋势。但现在它正在发生,只是谈论这样的行动。为了最终激励公司现在向云迈进,发生了哪些变化?

箱:三、四年前,许多人认为初创公司是使用云的组织,因为他们不需要预先构建任何东西。但是,一旦他们发展到某个阶段,他们将离开云,建立自己的数据仓库以降低成本。不管怎样,这是假设。

事实上,我们所看到的是相反的。新公司正在使用公共云,但老牌或老牌公司也是如此。是什么推动着这一趋势?在我看来,这是因为当今在公共云中运行的成本比本地数据仓库便宜。此外,工作负载通常是突发的。在云中,只需支付任何费用。今天,这更有意义。我相信迁移到云是未来。

* * *

11月7日,在加州山景城计算机历史博物馆举行的首届数据编排峰会上,Bin将分享更多内容。

进一步阅读

Comments are closed.