Amazon SageMaker HyperPod

在数千个 AI 加速器上扩展和加速生成式人工智能模型的开发

什么是 SageMaker HyperPod?

Amazon SageMaker HyperPod 可省去构建生成式人工智能模型所涉及的千篇一律的繁重工作。它有助于快速扩展模型开发任务,例如在数百个或数千个人工智能加速器的集群中训练、微调或推理。SageMaker HyperPod 支持对所有模型开发任务进行集中治理,让您可以全面了解和控制不同任务的优先级以及如何为每项任务分配计算资源,从而帮助您最大限度地提高集群的 GPU 和 AWS Trainium 利用率,并加速创新。

专为构建以进行大规模分布式训练

借助 SageMaker HyperPod,您可以高效地在所有加速器上分配和并行执行您的训练工作负载。SageMaker HyperPod 会自动为常用的公开模型应用最佳训练配置,以助您快速实现最佳性能。它还会持续监控您的集群中是否存在任何基础设施故障、自动修复问题,并且无需人工干预即可恢复工作负载,所有这些都可助您节省多达 40% 的训练时间。

SageMaker HyperPod 的优势

借助 SageMaker HyperPod 任务治理创新,您可以全面了解和控制生成式人工智能模型开发任务(例如训练和推理)中的计算资源分配。SageMaker HyperPod 可自动管理任务队列,确保最关键的任务得到优先处理并在预算内按时完成,同时可以更有效地使用计算资源,将模型开发成本降低高达 40%。
借助 SageMaker HyperPod 配方,各种技能水平的数据科学家和开发人员都能从最先进的性能中获益,同时可以在几分钟内开始训练并微调公开可用的生成式人工智能模型。此外,您可以根据具体业务使用案例定制 Amazon Nova 基础模型(包括 Nova Micro、Nova Lite 和 Nova Pro),通过专属方案提升生成式人工智能应用的准确性,同时保持 Nova 模型业界领先的性价比与低延迟优势。SageMaker HyperPod 还提供了内置的实验和可观测性工具,帮助您增强模型性能。
借助 SageMaker HyperPod,您可以在 AWS 集群实例之间自动拆分模型和训练数据集,从而帮助您高效地扩展训练工作负载。其可帮助您优化 AWS 网络基础设施和集群拓扑的训练任务。该服务还优化了储存检查点的频率,以便通过配方来简化模型检查点,从而确保训练期间的开销最小。
SageMaker HyperPod 可自动检测、诊断和恢复基础设施故障,从而为模型开发提供弹性环境,使您能够连续运行模型开发工作负载数月而不会中断。
SageMaker HyperPod 可帮助加速来自 SageMaker JumpStart 的开源权重模型部署,以及来自 S3 和 FSx 的经过微调的模型部署。您可以借助自动预置功能、任务治理实现的计算资源管理、实时性能监控以及增强的可观测性,来简化模型部署任务。

在 SageMaker HyperPod 中推出任务治理

最大限度地提高利用率并全面了解计算资源,与此同时还能降低成本。

了解详情