人工智能(AI)现在是定量研究等领域软件开发的基石。量化对冲基金在工作量激增期间经常遇到资源浪费和计算资源不足等挑战。
为了解决这些问题,基于云的弹性计算提供了一个有效的解决方案。它缩短了上市时间,灵活分配资源,并促进了最新硬件技术的采用。
JuiceFS是云原生的高性能分布式文件系统,赋能量化对冲基金,增强AI训练,实现云上弹性吞吐量。它提供经济高效的存储解决方案,具有加速缓存功能,可将本地资产与云部署无缝集成,并优化计算资源。
在这篇文章中,我们将讨论 AI 定量研究面临的挑战、弹性计算的好处、弹性环境中的存储痛点,以及 JuiceFS 如何用创新技术应对这些挑战。我们的目标是为开发基于云的机器学习平台的企业提供见解,帮助他们解决关键数据吞吐量不足的挑战。
量化对冲基金面临的挑战:固定的IT资源和波动的工作负载
定量研究使用数学模型分析市场数据,为投资决策提供信息。这是金融领域的一个突出领域,应用机器学习等人工智能技术。下图显示了量化公司的日常任务量,黄线表示波动。任务量在工作时间明显增加,在正常工作时间后下降。

大多数量化对冲基金依赖于数据中心的固定IT资源,包括CPU、内存和存储。但是,此设置带来了工作负载波动的挑战:
- 当数据中心提供固定计算能力时,就会发生资源浪费和效率降低,导致资源过剩,而研究人员在高峰时段则会遇到排队和延误的情况。
弹性计算为这些挑战提供了简单有效的解决方案。
弹性计算在量化对冲基金中的优势
近年来,基于云的解决方案的采用在量化对冲基金中获得了巨大的动力。通过在云中(例如在AWS)上建立研究平台,这些公司可以从无缝部署和优化的资源利用率中受益。
本节探讨弹性计算在量化对冲基金中的优势,重点是最大限度地缩短上市时间,促进灵活的资源分配,并实现最新硬件技术的快速采用。
最大限度缩短上市时间
基于云的研究平台使量化对冲基金能够快速部署其系统,消除与硬件选择和采购相关的延迟。这种简化的流程可以加快对计算资源的访问,从而加快研发周期。
灵活的资源分配
弹性计算赋能量化对冲基金,根据需求动态分配计算资源。研究人员可以轻松调整资源以满足其特定的计算需求,无论他们是需要强大的计算能力还是面临低需求时期。这种灵活性确保了最佳的资源利用率,消除了传统数据中心中与固定计算能力相关的低效率。
面向成熟公司的混合云方法
拥有现有IDC设施的成熟量化对冲基金公司可以有效地利用混合云战略。通过在平均或低需求时期利用其IDC资产作为固定计算能力,这些公司可以优化资源分配。同时,他们可以通过利用云资源来扩展其计算能力。这种混合方法可最大限度地利用现有资产,同时利用云提供的可扩展性和成本效益。
快速采用最新硬件
弹性计算使量化对冲基金能够通过快速采用最新的硬件进步来保持领先地位 这种敏捷性使对冲基金能够利用最先进的技术和算法,增强其在市场上的竞争优势。
弹性环境中的存储痛点
在弹性环境中,与计算相比,存储带来的挑战更为复杂。虽然计算任务很简单,但存储数据需要仔细考虑弹性计算过程中的数据保留。此外,在扩展计算资源时,存储系统必须能够处理增加的需求,同时确保高可用性和可扩展性,以防止数据丢失或性能下降。
痛点 #1:平衡性能、成本和效率
当企业选择存储解决方案时,他们通常会考虑三个相互关联的因素:性能、成本和效率。评估不同的选项对于找到最适合特定企业要求的解决方案至关重要。

在模型训练阶段,高性能存储解决方案是首选。例如,本地环境可以使用全闪存阵列或高级硬件(如 AWS FSx for Lustre)来实现卓越的吞吐量性能。
但是,这些高性能选项的成本更高,因此探索了用于完整数据归档的低成本存储解决方案。本地环境可以从高密度存储解决方案中受益以降低成本,而云环境可以利用 Amazon S3 等对象存储服务。
为了在成本和性能之间取得平衡,企业通常会创建两组异构存储环境:
- 用于完整数据归档的低成本存储系统
- 用于模型训练的高性能存储系统
在此类多存储环境中,管理数据迁移和数据生命周期变得更加复杂,尤其是在处理多个区域或云环境时。因此,需要一个有效的解决方案来有效地管理存储,同时确保速度和成本效益 但是,在分布式存储系统中,扩展变得更加复杂。它涉及数据重新平衡,以有效地管理存储系统中的所有数据。此过程可确保跨多个存储设备高效分发和利用数据。
例如,考虑这样一种情况:大型存储集群减少到只有三台计算机,每台计算机配备两个硬盘驱动器,存储多个数据副本。在分布式系统中,为了数据安全,通常会多次复制数据。在此方案中,圆形、三角形和菱形表示单个文件,每个形状在分布式体系结构中具有三个副本。
当存储容量不足时,需要添加新机器以扩展存储空间。然而, 这不仅仅是新数据驻留在新机器上的问题;现有数据必须重新平衡以确保有效的数据管理。 特定算法用于将数据从旧位置移动到新位置。此外,硬盘驱动器提供的容量是有限的。如果为数据迁移保留了一部分,则无法有效地为联机应用程序操作提供服务。

存储可扩展性带来了挑战,而定时数据迁移可能与确定股票市场时机一样不可预测
除了增加容量外,如果群集内发生磁盘故障,还必须将数据传输到新磁盘,同时维护每个数据片段的三个副本。因此,即使没有扩容,大规模存储集群也需要每天进行数据迁移。
在存储系统扩展的这种具有挑战性的条件下,存储限制通常会阻碍新算法、研究人员或灵感的实施。
痛点 #3:尽管容量可用,但性能不足
量化对冲基金通常需要扩展,因为吞吐量性能不足,而不是存储容量不足。
硬盘驱动器有性能限制。当现有驱动器达到其性能限制时,必须获得新驱动器以满足更高的性能要求。即使存储容量充足,许多量化基金仍然需要扩展其系统以满足新的性能需求。
例如,考虑一个场景,其中需要读取的数据存储在图中圆圈表示的范围内。访问此数据所需的性能非常高。但是,对应于圆圈的硬盘驱动器已经达到了其性能极限。现在,另一位研究人员需要读取存储在同一个硬盘驱动器上的三角形,但该硬盘驱动器的性能也达到了极限。因此,访问三角形数据的速度会慢得多。

为了提高性能,三角形中的数据需要迁移到新的硬盘驱动器。这由图中未突出显示的硬盘驱动器表示。
量化对冲基金行业由于依赖市场来源的原始数据而面临这一挑战。尽管与现代硬盘容量相比,处理的原始数据量很小,但它在多个研究人员之间共享。 正是这一特点,促使量化基金寻求像 JuiceFS 这样的解决方案,以克服其业绩限制。
为了在整体性能和成本之间取得更好的平衡,必须将存储与可扩展的性能相匹配,尤其是在需要热数据生成和极端计算弹性的情况下。
JuiceFS 如何扩展性能并实现成本效益
当我们在 2017 年开始开发 JuiceFS 时,我们的目标是专门为云环境设计一个文件存储系统。我们注意到市场上现有的文件存储产品已经过时,有些甚至可以追溯到 1990 年代。这些产品仍然广泛用于量化对冲基金等行业。然而,考虑到我们基础设施和资源环境的变化,JuiceFS 的发展与当前环境不断变化的趋势保持一致对我们来说至关重要。

JuiceFS 架构由三个组件组成:
- 元数据引擎
- 数据存储
- 客户
元数据引擎
文件系统是一种用于组织、管理和访问文件和目录的技术。在我们的计算机上,文件系统允许我们通过文件和目录与存储在硬盘等物理介质上的数据进行交互。
例如,在Linux中,将硬件设备格式化为文件系统后,我们可以将其挂载到目录中。这将创建一个包含目录、文件夹和文件的目录树。每个文件都可以分配权限,并包含元数据,例如创建和修改时间戳。 Juicedata 开发了一个专门的 元数据引擎 来存储这些信息。文件系统的性能在很大程度上取决于此引擎的功能。
数据存储
这 客户
JuiceFS 客户端提供标准的 POSIX 接口,支持 HDFS 等多种 API,让开发者能够选择最合适的接口。我们还提供性能可扩展性功能,以满足更高的性能要求。 为了克服 S3 在模型训练或定量分析等任务的性能和语义方面的限制,JuiceFS 充当了一个中间解决方案。 数据存储在S3中,并提供POSIX等API,满足多样化的应用需求。通过内部优化,JuiceFS 实现了最佳性能。 JuiceFS 采用 缓存 来解决量化公司热数据吞吐量限制的问题。当用户的 GPU 计算节点访问数据时,它会从 S3 获取数据并将其存储在 JuiceFS 缓存中。后续访问从缓存中提供,提供类似于全闪存文件存储的性能。 JuiceFS 缓存是动态可扩展的,提供弹性和可扩展的吞吐量。 它可以与计算节点上的高性能存储结合使用,以创建多级缓存,从而进一步提高性能。果汁FS 企业版缓存 借助 JuiceFS,数据可以经济高效地存储在 S3 中,同时提供动态扩展吞吐量性能的加速缓存层。 为了解决由存储热数据的有限NVMe驱动器引起的数据热点问题,采用了缓存分组。用户可以创建多个缓存组来存储和管理热数据,从而可以根据自己的需求轻松配置。该解决方案有效解决了数据热点问题。缓存
用户可以定义自己的缓存组或为每个组分配缓存组。这提高了热数据性能,并实现了系统的近线性可扩展性。此外,在下班后关闭这些缓存组有助于避免不必要的成本。
混合云部署
对于拥有本地资产的量化对冲基金,混合云部署选项允许将数据存储在 S3 中,同时使用本地数据中心的缓存组进行加速计算。

JuiceFS 支持云和本地环境中两个 JuiceFS 实例之间的数据复制,对用户透明,无需任何额外的步骤。通过将热数据存储在高性能缓存层,无论任务是在数据中心还是云端执行,JuiceFS 都能确保对热数据的快速访问。此方法有效地解决了将现有本地资产与灵活的云部署集成的挑战。
结论
JuiceFS 为人工智能定量研究提供了一个改变游戏规则的解决方案。通过优化资源利用率、加快上市时间、促进无缝扩展以及快速采用尖端技术,JuiceFS 使企业能够释放其全部潜力,并在人工智能定量研究的动态环境中蓬勃发展。