您现在的位置是:首页 > 动态 > 正文

AWS EC2 Trn1实例现已推出

发布时间:2022-11-15 16:40:18编辑:来源:

导读 Amazon Web Services (AWS) 已宣布全面推出 AWS EC2 Trn1 实例。Trn1 实例由 AWS 设计的 Trainium 芯片提供支持,专为机器学

Amazon Web Services (AWS) 已宣布全面推出 AWS EC2 Trn1 实例。Trn1 实例由 AWS 设计的 Trainium 芯片提供支持,专为机器学习模型(在云中)的高性能训练而设计,与类似的 GPU 相比,“训练成本”节省减少了 50%基于实例。

AWS EC2 Trn1 实例提供了在 AWS 上训练流行机器学习模型的最快时间。这使他们的客户能够减少训练时间,快速迭代模型以提高准确性,并提高自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等工作负载的整体生产力。

就定价而言,Trn1 实例非常灵活,因为没有最低承诺或预付费用。客户还只需为他们使用的计算量付费。

以前,即使组织利用可用的最快加速实例,训练更复杂的机器学习模型仍然过于昂贵和耗时。借助新的 AWS EC2 Trn1 实例,亚马逊表示它们拥有最好的性价比和在 AWS 上进行最快的机器学习模型训练。

客户可以在 Amazon EC2 UltraClusters(由数万个 Trainium 加速器组成)中部署 Trn1 实例,以快速训练最复杂的深度学习模型,即使是具有数万亿参数的模型。借助 EC2 UltraClusters,组织能够使用多达 30,000 个与 EFA PB 级网络互连的 Trainium 加速器来扩展机器学习模型的训练。亚马逊表示,这些组织将因此可以按需访问超级计算级性能,这可以显着缩短通常需要几个月到几天的培训时间。

每个 AWS EC2 Trn1 实例支持高达 8TB 的快速本地 NVMe SSD 存储,而 AWS Trainium 支持多种数据类型(FP32、TF32、BF16、FP16 和可配置的 FP8)。它还支持随机舍入,一种基于概率的方法,以实现高性能和更高的准确性。此外,AWS Trainium 支持动态张量形状和自定义运算符,这促进了旨在根据客户培训需求进行调整的灵活基础设施。

AWS Nitro 系统

Trn1 实例基于 AWS Nitro 系统构建,该系统是 AWS 设计的硬件和软件创新的集合,可简化隔离多租户、私有网络和快速本地存储的交付。为了提供必要的性能,Nitro 系统将 CPU 虚拟化、存储和网络功能卸载到专用硬件和软件上。

标签:

上一篇
下一篇