Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理-世界信息
深度学习(DL)的创新,特别是大语言模型(LLM)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。
亚马逊云科技在2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片Amazon Inferentia2为基础,发布了Amazon EC2 Inf2系列实例的预览版。Amazon EC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在EC2上的生成式AI应用提供最佳性价比,其中包含 GPT-J或开放式预训练Transformer(OPT)语言模型。
【资料图】
现在,亚马逊云科技宣布Amazon EC2 Inf2实例正式可用。
Inf2实例是Amazon EC2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。
新Inf2实例的亮点
Inf2实例目前有四种可用实例类型,最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下,它们能够提供2.3 petaFLOPS的综合计算能力,并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。
每个Inferentia2芯片内有32 GB的高带宽内存(HBM),最高配置的 Inf2 实例可提供高达384 GB的共享加速器内存,总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。
基于专门为深度学习工作负载而构建的 Amazon Inferentia2芯片的 Amazon EC2 Inf2,相比同类实例,单位功率性能高出了50%。
Amazon Inferentia2的创新之处
与亚马逊自研机器学习训练芯片 Amazon Trainium类似,每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。
每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。
以下是Amazon Inferentia2芯片和服务器硬件其他创新总结:
数据类型——Amazon Inferentia2 支持多种数据类型,包括 FP32、TF32、BF16、FP16 和 UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 FP8(cFP8) 数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和 I/O 要求。
动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器 (DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。
自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的 PyTorch自定义运算符编程接口将 CPU 自定义运算符迁移到 Neuron 并实现新的实验运算符,所有这些都无需对 NeuronCore 硬件有任何深入了解。
NeuronLink v2——Inf2实例是Amazon EC2类型中首个将 NeuronLink V2 用于推理优化的实例,NeuronLink v2 为Inferentia2芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。
新Inf2实例现已可用
用户可在亚马逊云科技美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动Inf2实例,以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息,请访问Amazon EC2定价网站。
Inf2实例可使用亚马逊云科技深度学习镜像进行部署,并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon ParallelCluster等托管服务调用。
如需了解更多信息,请访问Amazon EC2 Inf2实例页面,并将相关反馈发送给Amazon re:Post for EC2;或垂询您的Amazon Support联系人。
关键词:
您可能也感兴趣:
为您推荐
机票里面包含保险吗?飞机保险有必要买吗?
辽宁扩大缓缴社保费政策实施范围 补缴期间免收滞纳金
近十年财险业务快速发展 财产保险业风险保障水平不提升
排行
最近更新
- Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式...
- 贸泽电子扩充智慧农业资源中心助力相关应用设计 全球通讯
- 宏杉G3新品发布会|忆联助力宏杉存储安全可靠 全球观焦点
- 【全球热闻】华为面向商业市场发布新一代绿色楼宇网络解决方案
- 温州发布通知:做好口腔种植医疗服务收费和耗材价格落地执行
- 什么是年薪制?年薪制和月薪制的根本区别是什么?
- 俘获亿万青年味蕾,铭果屋铜锣烧以品质实现口碑破圈
- 潮流与文化的碰撞,周大生推出两大系列新品再掀时尚浪潮
- 全球高奢百货“龙头”SKP与抗衰巅峰的3LAB合作了!
- 网贷申请记录太多怎么办?申请太多网贷秒拒多久恢复?
- 银行贷款需要担保吗?银行授信是否需要担保?
- 讯息:红酒度数一般多少度是好酒
- 焦点速讯:南极人电动冲牙器正确使用方法?
- sonicare冲牙器怎么使用?
- 冲牙器可以一家人用吗?
- 中老年人适不适合用冲牙器?|天天看点
- 环球报道:FTX Digital的临时清算程序独立于正在进行的美国第...
- 在体内叶酸水平偏低的人群,每日补充0.8mg叶酸或可降低“压力...
- 环球微速讯:“名人与卒中”——罗斯福
- 世界今日报丨4月19日巴南区电信网络诈骗案件警情通报
- 【警界先锋】扎根派出所三十年 为民服务一辈子 今亮点
- 这个春天,有速度、有温度!
- 《关键信息基础设施安全保护要求》国家标准宣贯会在京举办 ...
- 我区全民阅读调查报告出炉!年人均阅读4.65本,你“拖后腿”...
- 第二届中国抗衰老化妆品产业发展论坛暨国粹国妆品牌与文化交...
- 申请信用贷款查征信吗?征信花了还能贷款吗?
- 信用贷款怎么查询还款信息?信用贷款办理条件有哪些?
- 云徙数盈助力Seesaw Coffee打造数字化心法,精品增长势在必行
- 倍思用“实用而美”打造品牌护城河
- 不仅仅是分离小三,北京护情婚恋服务有限公司帮助客户解决更...