一个人站在一排服务器的尽头,看着远处墙上投射的亮蓝色数据点

英特尔® Advanced Matrix Extensions(英特尔® AMX)是什么?

在最新几代英特尔® 至强® 可扩展处理器上借助这款集成加速器扩展、简化并加速您的 AI 功能,满足深度学习工作负载的计算需求。1

要点

  • 英特尔® AMX 是最新几代英特尔® 至强® 可扩展处理器采用的英特尔® AI Engines 的一部分。

  • 英特尔® AMX 可加速深度学习训练和推理工作负载,并最大限度地减少对额外专用硬件的需求。

  • 英特尔® 开发人员工具和支持资源有助于更轻松地利用英特尔® AMX。

author-image

作者

英特尔® 至强® 可扩展处理器和英特尔® Advanced Matrix Extensions

深度学习工作负载(例如那些依赖于生成式 AI、大型语言模型 (LLM) 和计算机视觉的工作负载)可能非常耗费计算资源,需要高水平的性能,并且经常需要额外的专用硬件来确保成功部署 AI。这些要求的相关成本可能会迅速攀升,而且增加独立的硬件解决方案可能会带来不必要的复杂性和兼容性问题。

为了使您的深度学习工作负载更高效、更具成本效益、更易于训练和部署,英特尔® 至强® 可扩展处理器上的英特尔® AMX 提供针对推理和训练的加速,同时最大限度地减少对专用硬件的需求。

英特尔® AMX 是集成到英特尔® 至强® 可扩展处理器中的两个英特尔® AI Engines 之一,可帮助您充分利用 CPU,为大规模 AI 训练和推理工作负载提供支持,从而实现各种优势,包括提高效率,降低推理、训练和部署成本以及降低总拥有成本 (TCO)。作为驻留在每个 CPU 内核上并靠近系统内存的内置加速器,英特尔® AMX 通常比独立加速器更易于使用,因而可以更快地实现价值。

虽然组织可以通过多种方式为高级 AI 工作负载提供支持,但以集成了强大 AI 加速器的英特尔® 至强® 可扩展处理器为基础,有助于您实现训练和推理性能目标,同时降低系统复杂性、部署和运营成本,获得更大的业务回报。

英特尔® AMX 的工作原理

英特尔® AMX 是英特尔® 至强® 可扩展处理器内核上的专用硬件模块,有助于优化和加速依赖矩阵数学的深度学习训练和推理工作负载。

英特尔® AMX 使 AI 工作负载能够在 CPU 上运行,而不必将它们分载到独立加速器,从而显著提升性能。2其架构支持 BF16(训练/推理)和 int8(推理)数据类型,并包括两个主要组件:

  • Tile:由 8 个二维寄存器组成,每个寄存器大小为 1 KB,用于存储大数据块。
  • Tile Matrix Multiplication (TMUL):TMUL 是连接到 Tile 上的加速器引擎,为 AI 执行矩阵乘法计算。

这些组件配合使用,使英特尔® AMX 能够在每个内核中存储更多数据,并在一次运算中计算更大的矩阵。此外,英特尔® AMX 的结构设计具有充分的可扩展性和可伸缩性。

英特尔® AMX 在提升业务成果方面的优势

英特尔® AMX 通过平衡推理(AI 应用中最重要的 CPU 用例)和提供更多训练功能,使英特尔® 至强® 可扩展处理器能够提高深度学习训练和推理工作负载的性能。

英特尔的许多客户正利用英特尔® AMX 为其组织实现更好的成果。借助第五代英特尔® 至强® 处理器,相较于第三代英特尔® 至强® 处理器,客户可实现高达 14 倍的训练和推理速度提升。3

英特尔® AMX 的主要优势包括:

  • 提升的性能
    基于 CPU 的加速可以提高电源和资源利用效率,从而在相同的价格下提供更好的性能。
    例如,与采用 FP32 的第三代英特尔® 至强® 处理器相比,采用英特尔® AMX BF16 的第五代英特尔® 至强® Platinum 8592+ 实现了高达 10.7 倍的实时语音识别推理性能提升和 7.9 倍的性能功耗比提升。4
  • 总体拥有成本 (TCO) 降低
    集成了英特尔® AMX 的英特尔® 至强® 可扩展处理器实现了一系列效率提升,有助于减少成本,降低总拥有成本并推进可持续发展目标。
    作为您可能已有的英特尔® 至强® 可扩展处理器上的集成加速器,英特尔® AMX 可以让您最大限度地利用已做出的投资,让您的 CPU 发挥更大作用,从而消除增加独立加速器通常会带来的成本和复杂性。
    与市场上的其他选择相比,集成了英特尔® AMX 的英特尔® 至强®可扩展处理器还提供更具成本效益的服务器架构,实现节能减排的优势。
    与 AMD Genoa 9654 服务器相比,采用英特尔® AMX 的第五代英特尔® 至强® Platinum 处理器的批量自然语言处理推理 (BERT-Large) 性能提升高达 2.69 倍,性能功耗比提升 2.96 倍。5
  • 缩短开发时间
    为了简化深度学习应用的开发过程,我们与开源社区(包括 TensorFlow 和 PyTorch 项目)密切合作,针对英特尔® 硬件优化框架,为上游提供我们最新的优化和功能,以便开发人员可以立即使用。这样,您只需添加几行代码即可利用英特尔® AMX 的性能优势,从而缩短整体开发时间。
    我们还提供免费的英特尔® 开发工具、库和资源。

英特尔® AMX 深度学习用例

英特尔® AMX 可以在各种深度学习用例中部署,显著提升性能,从而实现更大的最终用户和业务价值。

  • 推荐系统:将英特尔® AMX 用作更具成本效益的 AI 推荐系统模型解决方案,从而提升电子商务、社交媒体、流媒体娱乐和个性化银行业务等用例的产品、内容和服务推荐的响应能力。例如,内容提供商经常使用英特尔® AMX 来加速投放有针对性的电影或书籍推荐和广告,或提供基于深度学习的推荐系统,该系统可近乎实时地考虑实时用户行为信号以及时间和地点等上下文特征。与采用 FP32 的第三代英特尔® 至强® 处理器相比,第五代英特尔® 至强® 处理器将批量推荐系统推理性能 (DLRM) 提升高达 8.7 倍,性能功耗比提升 6.2 倍。6
  • 自然语言处理 (NLP):加速基于文本的用例,为 NLP 应用提供支持并对其进行扩展,例如在医疗保健和生命科学领域中用于从临床笔记中提取见解或处理大量医疗数据,帮助及早发现健康问题并改善护理服务。在金融服务中,英特尔® AMX 可用于提高在线聊天机器人的响应能力,帮助客户更快地获取所需信息,同时释放有限的人员资源来处理更复杂的请求。
    与推荐系统的成本节约优势类似,英特尔® AMX 是更具成本效益的 NLP 解决方案。例如,当用于部署 BERT-Large AI 自然语言模型时,与 AMD Genoa 9354 相比,第四代英特尔® 至强® 处理器上的英特尔® AMX 节省了高达 79% 的成本。7
  • 生成式 AI: 利用英特尔® AMX 提升生成式 AI 用例(例如图像、视频和音频等内容的生成、语言翻译、数据扩充和汇总)的深度学习训练和推理工作负载的性能。例如,与面向 FP32 数据类型的英特尔® 至强® Platinum 8380 处理器相比,对英特尔® 至强® Platinum 8480+ 处理器(采用面向 BF16 数据类型的英特尔® AMX)所做的性能评估表明,Stable Diffusion 文本生成图像的时间缩短至不到 5 秒,Stable Diffusion 模型的微调时间缩短至不到 5 分钟。8
  • 计算机视觉:缩短从视频和图像捕获到洞察和行动的时间,提供卓越的客户体验,并帮助企业提高效率和降低运营成本。例如,在零售店中,英特尔® AMX 可以使用支持计算机视觉的顺畅结账,最大限度地缩短客户的交易时间,并支持通过近乎实时的货架监控来跟踪库存数据,在商品缺货时立即通知员工。在制造过程中,加速对机械臂上计算机视觉摄像头的视频分析,有助于通过自动缺陷检测功能节省时间和成本。

要查找英特尔® 客户如何使用英特尔® AMX 实现更好的业务成果的更多示例,请访问我们的客户聚焦库

英特尔® AMX 入门

我们提供各种开发资源,帮助您充分利用英特尔® 至强® 可扩展处理器中集成的英特尔® AMX 加速器。

要开始入门,请查看以下指南中使用英特尔® AMX 提升性能的分步说明:

有关更深入的技术信息、教程、代码示例和测试模块,请访问:

您可以在我们的开发人员软件工具目录中访问所有针对英特尔® 至强® 可扩展处理器的调优指南。

为了帮助您简化 AI 开发工作,我们提供了英特尔® oneAPI 工具套件、组件和优化,包括:

立即试用英特尔® AMX

除了查阅我们的参考材料之外,您还可以通过英特尔® Developer Cloud 试用英特尔® 硬件、英特尔® AMX 和其他集成加速功能。

这个免费的在线平台可用于学习、测试和运行工作负载并对其进行原型设计,还包括对大量英特尔® 软件开发工具套件、工具和库的支持。

使用英特尔® AMX 扩展和增强 CPU 上的 AI 功能

当您的组织寻找解决方案来满足不断增长的计算需求,为深度学习训练和推理工作负载提供支持时,英特尔® AMX 可以使用您可能已有的英特尔® 硬件来帮助提高性能,而不会产生额外的专用硬件带来的成本和复杂性,在常用开源框架中使用英特尔® 优化并使用免费的英特尔® 开发工具和资源,开发时间也相对较短。