Amazon SageMaker HyperPod 客户

各种规模的顶级人工智能初创企业和组织都在 SageMaker HyperPod 上大规模训练和部署基础模型

Hugging Face

Hugging Face 利用 SageMaker HyperPod 创建了诸如 StarCoder、IDEFICS 和 Zephyr 等新的开放基础模型。HyperPod 专门构建的韧性和性能功能使他们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。

Perplexity AI

Perplexity 构建并微调了为其对话式回答引擎提供支持的大型语言模型,该引擎在回答问题时会附上以引用形式提供的参考资料。借助 SageMaker HyperPod,它们能够将模型训练速度提高 40%,并且实验运行速度也提升了一倍。阅读案例研究

Articul8 AI

Articul8 使用 SageMaker HyperPod 后,生成效率最高提高了 35%。阅读案例研究

Coastal Carbon

Coastal Carbon 正借助人工智能和云计算技术,推动环境保护事业实现革新。借助 SageMaker HyperPod,他们处理了数千 PB 的历史卫星数据,从而创建一个关于自然界的数字孪生体和基础模型。

EvolutionaryScale

EvolutionaryScale 是一家开创性的人工智能初创企业,它能让科学家们更好地理解、构想并生成蛋白质。借助 SageMaker HyperPod,他们对超过 20 亿个蛋白质序列进行了训练,从而突破了蛋白质工程和药物发现的极限。

Writer

Writer 正在开创大型语言模型发展的新纪元。他们利用 HyperPod 对其行业领先的模型进行了训练,从而实现了更快的模型训练速度、更低的延迟以及更优化的人工智能性能。

Noetik

Noetik 是一家基于人工智能的生物技术公司,它利用 SageMaker HyperPod 来发现和开发癌症治疗方法。阅读案例研究

  • Hugging Face

    Hugging Face 利用 SageMaker HyperPod 创建了诸如 StarCoder、IDEFICS 和 Zephyr 等新的开放基础模型。HyperPod 专门构建的韧性和性能功能使他们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。

    观看视频

    Hugging Face 一直在使用 SageMaker HyperPod 创建重要的新型开放基础模型,例如 StarCoder、IDEFICS 和 Zephyr,这些模型的下载量已达数百万次。SageMaker HyperPod 专门构建的弹性和性能功能使我们的开放科学团队能够专注于创新和发布对基础模型构建方式的重要改进,而不是管理基础设施。我们特别喜欢 SageMaker HyperPod 的一点是,它能够检测 ML 硬件故障,并不中断正在进行的模型训练的情况下快速更换有故障的硬件。由于我们的团队需要快速创新,因此自动化作业恢复功能帮助我们最大限度地减少了基础模型训练过程中的中断,让我们在短短一年内节省了数百小时的训练时间。

    Hugging Face 的产品主管 Jeff Boudier
  • Perplexity AI

    Perplexity 构建并微调了为其对话式回答引擎提供支持的大型语言模型,该引擎在回答问题时会附上以引用形式提供的参考资料。借助 SageMaker HyperPod,它们能够将模型训练速度提高 40%,并且实验运行速度也提升了一倍。

    查看案例分析

    我们一直在寻找合适的机器学习基础设施来提高生产力和降低成本,以便构建高性能的大型语言模型。在进行了几次成功的实验后,我们从其他云提供商转向 AWS,以便使用 Amazon SageMaker HyperPod。在过去的四个月里,我们一直在使用 HyperPod 构建和微调 LLM,为 Perplexity 对话式问答引擎 — 一个可以回答问题并以引文形式提供参考文献的引擎提供支持。由于 SageMaker HyperPod 会自动监控集群运行状况并修复 GPU 故障,因此我们的开发人员能够专注于模型构建,而不需要花时间管理和优化底层基础设施。SageMaker HyperPod 内置的数据和模型并行库帮助我们优化了 GPU 训练时间,并将训练吞吐量提高了一倍。因此,我们的训练实验现在可以以两倍的速度运行,这意味着我们的开发人员可以更快地进行迭代,从而加速为客户开发新的生成式人工智能体验。

    Perplexity AI 的联合创始人兼首席执行官 Aravind Srinivas
  • Articul8 AI

    阅读案例研究

    Articul8 使公司能够构建复杂的企业级生成式人工智能应用程序。 作为一家快速成长的生成式人工智能初创企业,Articul8 AI 不断优化自己的计算环境,尽力高效地分配加速计算资源。借助 SageMaker HyperPod 中的自动任务优先级划分和资源分配功能,该公司显著提高了 GPU 利用率,更通过优化训练、微调和推理等任务,减少了空闲时间,加速了模型开发过程。自动将资源转移到高优先级任务的能力提高了该公司团队的生产力,让他们能够更快地将新的生成式人工智能创新技术推向市场,速度远超以往。Articul8 的技术主管 Renato Nascimento 表示:“借助 SageMaker HyperPod 的可观测性功能,我们现在只需一键即可部署我们的指标收集和可视化系统,这为我们的团队节省了原本需要花费数天进行的手动设置工作,并提升我们的集群可观测性工作流程及洞察力。”“我们的数据科学家能够迅速监控任务的性能指标(如延迟情况),并能够识别硬件故障,而无需进行手动配置。SageMaker HyperPod 的可观测性功能将有助于简化我们的基础模型开发流程,使我们能够集中精力推进我们的使命,即为我们的客户提供便捷且可靠的基于人工智能的创新服务。

    Amazon SageMaker HyperPod 为我们提供了极大的帮助,让我们能够更高效地管理和运营计算资源,同时尽可能地减少停机时间。我们是基于 Slurm 的 HyperPod 服务的早期采用者,并受益于其易用性和弹性特性,使生产力提高了 35%,并快速扩大了我们的 GenAI 运营规模。作为一家以 Kubernetes 为核心的公司,我们很高兴地宣布,Amazon EKS 现已支持 SageMaker HyperPod。这对我们来说是一项颠覆性的技术,因为它与我们现有的训练流程无缝集成,使我们更容易管理和操作我们的大规模 Kubernetes 集群。此外,这也对我们的最终客户有帮助,因为我们现在能够将此功能打包并产品化到我们的 GenAI 平台中,使我们的客户能够以更简化的方式运行自己的训练和微调工作负载。

    Arun Subramaniyan,Articul8 AI 创始人兼首席执行官
  • Thomson Reuters

    阅读博客

    Thomson Reuters 是全球人工智能和内容驱动型技术公司。该公司一直在测试 Amazon SageMaker HyperPod 中的任务治理能力,旨在解决有关工作负载优先级方面的关键挑战。通过任务治理功能,他们可以在兼顾自己正在进行的模型开发项目的同时管理推理请求等客户工作负载,确保在不中断内部研究的情况下优先处理客户的紧急请求,从而提高资源利用率和客户满意度。“我们能够使用 Amazon SageMaker HyperPod 满足大型语言模型的训练要求”,Thomson Reuters Labs 杰出工程师 John Duprey 说,“通过在 SageMaker HyperPod 上使用 Amazon EKS,我们能够扩展容量并轻松运行训练作业,从而在法律摘要和分类等领域发挥 LLM 的优势。”

    30 多年来,Thomson Reuters 一直站在人工智能开发的最前沿,我们致力于提供有意义的解决方案,帮助我们的客户更快地交付结果,更好地获取可信信息。为了加速我们在生成式人工智能方面的创新,除了与 LLM 提供商合作外,我们还在探索如何利用我们独特的专有内容和人类专业知识来更有效地训练定制模型。SageMaker HyperPod 的分布式训练库能帮助我们提高大规模模型训练的性能,而且它的弹性功能可以帮助我们节省在基础设施监控和管理上花费的时间。在 SageMaker HyperPod 上训练我们的基础模型将加快我们的上市速度,并帮助我们快速为客户提供优质的解决方案。

    Thomson Reuters 人工智能和实验室负责人 Joel Hron 和 Thomson Reuters Labs 杰出工程师 John Duprey
  • Stability AI

    作为领先的开源生成式人工智能公司,我们的目标是最大限度地提高现代人工智能的可访问性。我们正在构建具有数百亿个参数的基础模型,而这需要能够扩展优化训练性能的基础设施。借助 SageMaker HyperPod 的托管基础设施和优化库,我们可以将训练时间和成本减少 50% 以上。它使我们的模型训练更具弹性和性能,可以更快地构建最先进的模型。

    Stability AI 的创始人兼首席执行官 Emad Mostaque
  • Recursal AI

    整个过程得到了简化。通过使用 SageMaker HyperPod,我们可以利用集群弹性功能,在硬件出现故障时识别问题并自动从上次保存的检查点恢复训练作业。我们以 Kubernetes 为共同主线运行非常多样化的工作负载,包括应用程序、推理和训练。对于我们来说,带有 SageMaker HyperPod 的 Amazon EKS 非常有效:节点会进入我们的集群。

    Recursal 的基础设施/数据主管 Nathan Wilce
  • Hippocratic AI

    Hippocratic AI 是一家人工智能公司,开发了医疗保健行业首个以安全为重点的大型语言模型(LLM)。为了训练主要的 LLM 和监管模型,Hippocratic AI 需要强大的计算资源。然而,这种资源的需求量本就很大,难以获得。Amazon SageMaker HyperPod 灵活的训练计划让该公司能够更轻松地访问 Amazon Elastic Compute Cloud(Amazon EC2)P5 实例。Hippocratic AI 还利用 Grafana 等 AWS 服务来跟踪重要的 GPU 利用率指标。使用 Amazon EC2 P5 实例后,Hippocratic AI 将模型训练速度提高了四倍,也将解决方案继续了扩展,足以顾及数百个用例。该实例帮助他们获得所需的计算资源并快速训练模型。

  • NinjaTech

     

    NinjaTech AI 是一家生成式人工智能公司,提供一体化的 SuperAgent 来实现无限的生产力。SuperAgent 使用 Amazon SageMaker HyperPod 灵活的训练计划来加速包括 Llama 3.1 405B 模型在内的多种内部模型的微调工作,降低了模型训练成本,也实现了流程自动化。该公司旨在为想要使用由其 SuperAgent 技术支持的各种人工智能座席的用户提供无缝体验。为了实现这一目标,他们需要一个能够自动预测用户意图并判断最适合意图的人工智能座席的模型。这种机制需要通过反复整合客户反馈和新功能来频繁更新模型,每轮 LoRA 微调时都涉及 1000 万至 1 亿个口令。对于一家初创企业来说,获取和运营高性能计算资源具有挑战性,因为它面临高昂的成本和严峻的带宽问题。在涉及快速网络和快速存储以及加速计算的多节点集群中,这种情况更加严重。此外,训练过程非常耗时,涉及了模型下载、分布式训练、检查点、监控、自动修复、合并和量化等步骤。HyperPod 灵活的训练计划在训练开展之前为该公司提供了可靠且实惠的计算资源,既满足了公司具体的计算和时间要求,又保障了高效的模型训练。

  • OpenBabylon

    OpenBabylon 是一家为代表性不足的语言自定义大型语言模型的人工智能公司。该公司的开发人员和数据科学家数月来一直在使用 SageMaker HyperPod 灵活的训练计划,简化了他们对 GPU 资源的访问,便于开展大规模实验。他们使用多节点 SageMaker HyperPod 的分布式训练功能,进行了 100 次大型模型训练实验,在英语到乌克兰语的翻译方面取得了领先结果。该公司按时且经济高效地实现了此项突破性成果,证明了 SageMaker HyperPod 能够按时、按预算成功交付复杂项目。

  • Salesforce

    Salesforce 的研究人员当时正在寻找无需担心基础设施,也不必耗费数周时间针对每个新模型优化训练堆栈,就能快速开始基础模型训练和微调的方法。借助 Amazon SageMaker HyperPod 配方,Salesforce 的研究人员可以在自定义基础模型时快速进行原型设计。现在,Salesforce 的人工智能研究团队能够在几分钟内通过各种预训练和微调配方开始工作,也能够以高性能运行前沿模型。

  • H.AI

    借助 Amazon SageMaker HyperPod,我们利用相同的高性能计算构建并部署了我们的代理式人工智能平台背后的基础模型。这种从训练到推理的无缝过渡简化了我们的工作流程,缩短了生产周期,并确保了在实际运行环境中性能稳定一致。HyperPod 帮助我们以更快、更高效的方式从试验阶段直接过渡到实际应用阶段。

    H.AI 联合创始人兼首席技术官 Laurent Sifre
  • Datology AI

    我们非常高兴能够使用 Amazon SageMaker HyperPod 的一键式可观测性解决方案。我们的高级管理人员需要了解我们是如何有效利用这些昂贵的 GPU 资源的。预构建的 Grafana 控制面板将完全满足我们的需求,让我们能够即时了解关键指标——从任务特定的 GPU 利用率到文件系统(FSx for Lustre)的性能指标——而无需我们维护任何监控基础设施。作为一个深知 Prometheus 查询语言强大之处的人,我十分欣赏这样一个事实:我可以自行编写查询语句,并对自定义指标进行分析,而无需担心基础设施方面的问题。

    Datology AI 技术部门成员 Josh Wills

Amazon SageMaker HyperPod 合作伙伴

 

与拥有深厚技术知识和成熟客户成功经验的 AWS 合作伙伴一起推动创新并释放更大的商业价值

  • Accenture

    我们将扩大与 AWS 的合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。我们与 AWS 的合作将使我们能够引导客户实现最新的技术突破,同时帮助降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与我们在生成式人工智能项目中的经验相结合,我们可以帮助企业更快地实现生成式人工智能的价值,改善客户体验,并提高投资回报率。

    Accenture AWS Business Group 全球负责人兼高级董事总经理 Jennifer Jackson
  • Slalom

    我们很高兴能与 AWS 合作,成为 Amazon SageMaker HyperPod 任务治理的启动合作伙伴。通过与 AWS 合作,我们现在可以帮助客户快速采用最新的技术进步,并降低生成式人工智能应用的成本。通过将 SageMaker HyperPod 中的集中治理功能与 Slalom 广泛的人工智能和云体验相结合,我们可以提供卓越的客户体验,同时提高投资回报率。

    Slalom Amazon 卓越中心(CoE)董事总经理 Jeff Kempiners
  • Rackspace Technology

    我们很高兴能与 AWS 合作,成为 SageMaker HyperPod 任务治理的启动合作伙伴。通过合作,我们可以帮助客户降低生成式人工智能应用的成本,同时紧跟最新的技术进步。通过将 SageMaker HyperPod 的集中治理功能与 Rackspace 深厚的人工智能和云专业知识相结合,我们可以改变客户体验,同时提高客户的投资回报率。

    Rackspace Technology 人工智能、技术和可持续性总裁 Srini Koushik