大数据分析的重要性持续增长,但处理海量数据集带来了挑战。反复移动 PB 级数据进行分析会给网络和预算带来压力。即使如此,不相关的数据也可能淹没分析平台,在没有额外洞察力的情况下产生更多费用。

我们在第 53 届会议期间与 AirMettle 会面IT 新闻导览。它提供了一种新方法,将分析集成到数据湖本身中。他们的软件在商用硬件上运行,可以更快地提供见解,而无需传统数据仓库的开销。主要功能可帮助开发人员简化大数据分析:

加速 SQL 查询

AirMettle 直接在数据湖存储上加速 SQL,消除不必要的数据传输。内置并行性可提供比本机 S3 分析快 100 倍的 SELECT 性能。这支持数据仓库难以处理的临时分析。

关注相关数据

AirMettle 不是分析整个对象,而是在离开存储之前汇总并提取相关子集。这大大减少了开发人员必须为给定查询管理的数据量,从而可以使用更多历史数据。

软件定义的灵活性

作为软件定义的存储,AirMettle 可以在任何配备 SSD 的 x86 服务器上运行。它可以轻松集成到本地和云中的现有基础设施中,仅取代高性能存储层。这使得寻求优化大数据分析的团队可以轻松使用它。

处理不同的数据类型

AirMettle 处理各种数据类型,从视频到复杂的科学数据,自动检测最佳方法构建每个以进行快速就地处理。对 S3 和 Arrow 等开放 API 的支持使分析结果易于使用。

协作到部署

该平台通过共享工作区、版本控制、代码审查和 CI/CD 集成跨越了开发生命周期。基于角色的访问控制和安全功能有助于管理访问,而广泛的可扩展性支持自定义工作流程。

2024 年发布

经过四年的开发,在 400 万美元的投资者资金的推动下,AirMettle 将于 2024 年中期推出。洛斯阿拉莫斯国家实验室等早期客户验证了商业和研究应用。即将在金融、安全、娱乐和气候科学等垂直领域进行的参考部署展示了用例。

它是如何工作的

对于努力从快速增长的数据存储中获取价值的工程团队来说,AirMettle 承诺提供令人欢迎的简单性。通过将分析移近数据湖,他们的目标是提供更深入的见解,而不会给企业带来当今的开销。早期结果表明,仅使用商用基础设施,他们就可以将 SQL 查询加速高达 100 倍。

有什么不同

AirMettle 凭借其纯软件方法,在计算存储领域(例如 Coho Data)中脱颖而出。作为软件定义的存储,它不依赖于专有硬件,并且有望更轻松地采用和基础设施集成。这与公共云提供商的分析平台更加一致,但 AirMettle 的不同之处在于直接在本地存储基础设施中运行。

它还超越了云分析产品,支持更灵活、更精细的就地处理,而不是仅限 EMDR 的查询加速。 AirMettle 能够处理本机格式的非结构化数据,有助于解决依赖于严格模式的分析仓库留下的空白。其雄心勃勃的性能声称其分析速度提高了 100 倍,这使其与现有的分析选项区分开来,难以跟上快速增长的数据量的步伐。早期客户的成功证明了 AirMettle 的集成架构可能会打破当今常见的存储和洞察分离的局面。

客户反馈

“我们的科学大规模模拟可以生成数百 PB 的高维浮点数据。然而,与感兴趣的科学特征相关的数据可能比写入的数据小几个数量级,因此一个关键挑战是“快速有效地找到海量数据中的相关内容。为了优化这一过程,我们倾向于计算存储——就地和近存储处理数据——以消除不必要的数据移动,同时保持并行性和充分的数据保护。” — Gary Grider,洛斯阿拉莫斯国家实验室高性能计算部门负责人。

“我们是一家领先的 SIEM 公司,每年在数据仓库上花费数千万美元用于安全分析。随着攻击变得更加复杂,并且客户需要更多证据来证明他们的数据受到保护,我们的成本不断上升。通过移动分析通过 AirMettle 直接将数据处理到我们的数据湖中,我们预计每年可以在我们最大的应用程序上节省超过 1000 万美元,同时通过利用我们的所有日志数据实现更高级的分析。” — 匿名,上市 SIEM 公司。

“随着我们的治疗模拟产生呈指数级增长的数据,AirMettle 将使我们能够以以前不可能的速度提取见解。通过对已有数据进行并行计算,我们现在可以挖掘多年的档案,寻找可能带来医疗保健突破的线索。 ” — 生物技术初创公司首席数据官。

如果改进的性能、节省的成本以及轻松访问其本机格式的各种数据的结合产生共鸣,AirMettle 可能会为组织导航大数据开辟新的可能性。寻求摆脱仓库和专有锁定的分析自由的工程师应该密切关注其 2024 年中期的发布。

Comments are closed.