英特尔®发布首款经过 AI 优化的 FPGA – 英特尔® Stratix®10 NX FPGA,以应对 AI 模型复杂性的快速增长。
FPGA 在硬件定制领域已使用了数十年。硬件定制功能充分利用了 FPGA 的价值定位,例如针对需要小批尺寸(batch size)、低延迟、灵活架构和I/O可扩展功能的应用。英特尔芯片和软件产品组合(包括 FPGA)支持从云端到边缘的各种智能服务。许多英特尔® FPGA 客户已经开始使用英特尔 FPGA 技术提供的硬件定制功能,实现 AI 加速器。
 :
这一切始于英特尔的愿景:追求独立于器件的 AI 开发。这一愿景支持开发人员专注于构建解决方案,而非将重心放在特定器件上。英特尔将 FPGA 纳入这一愿景已有一段时间。英特尔正着力改进加速功能,特别是密切关注 AI 模型尺寸和复杂性不断增加的趋势。AI 模型的复杂性每 3.5 个月翻番,相当于每年提高 10 倍。AI 模型用于自然语言处理 (NLP)、欺诈检测和监控等应用领域。
应对复杂性快速攀升的AI模型杀手锏
英特尔刚刚发布了其首款经过 AI 优化的 FPGA – 英特尔® Stratix® 10 NX FPGA,以应对 AI 模型复杂性的快速增长。英特尔 Stratix 10 NX FPGA 嵌入了一种新型 AI 优化块,即 AI 张量块;相比当前的 Stratix 10 MX,它可提供高出 15 倍的 INT8 计算性能。AI 推理算法通常使用 INT8 数据类型。AI 张量块针对 AI 算法使用的通用矩阵-矩阵或矢量-矩阵乘法进行了调整,其功能旨在高效支持大小矩阵。
David Moore(英特尔可编程解决方案事业部副总裁兼总经理)与公司第一款AI优化的FPGA——英特尔®Stratix® 10 NX FPGA
英特尔与 Microsoft 合作开发了 AI 张量块,以帮助加速数据中心中的 AI 工作负载。
“随着 Microsoft 为我们设计实时多节点 AI 解决方案,我们需要灵活的处理器件,以实现 ASIC 级张量性能、高内存和连接带宽以及极低的延迟。英特尔® Stratix® 10 NX FPGA 满足了 Microsoft 的严苛要求,我们正与英特尔合作开发下一代解决方案,以满足我们对超大规模 AI 的需求。”
– Doug Burger,Microsoft Azure 硬件技术研究员
英特尔 Stratix 10 NX FPGA 用作英特尔® 至强® 处理器的多功能 AI 加速器,专为需要硬件定制、低延迟和实时功能的应用而打造。与其他英特尔 Stratix 10 器件中的 DSP 模块相比,英特尔 Stratix 10 NX FPGA 中的 AI 张量块通过实现更多的乘法器和累加器提高了计算吞吐量。AI 张量块包含 30 个乘法器和 30 个累加器,而非 DSP 模块中的 2 个乘法器和 2 个累加器。AI 张量块中的乘法器针对较低精度的数字格式进行了调整,例如 INT4、INT8、块浮点 12 和块浮点 16。这些特定的精度通常用于 AI 推理工作负载。
英特尔 Stratix 10 NX FPGA 可解决当今的 AI 挑战。例如,NLP 通常使用大型 AI 模型,并且这些模型正变得越来越大。语言翻译应用是一种 NLP 工作负载,日益用于检测、识别和理解各种语言的上下文,然后将其翻译为目标语言。扩展的工作负载要求推高了模型复杂性,导致需要增加计算周期、内存和网络带宽。
英特尔 Stratix 10 NX FPGA 的封装 HBM2 内存允许在芯片上存储大型 AI 模型。估计表明,相比 NVIDIA V100,以批次大小 1 运行 BERT 等大型 AI 模型的 Stratix 10 NX FPGA 可将计算性能提高 2.3 倍。
此外,在欺诈检测应用中,英特尔 FPGA 也可为微秒级实时数据处理应用提供全面支持。英特尔 FPGA 可通过其收发器直接获取数据以创建定制硬件解决方案,结合确定性低延迟计算元件可帮助实现微秒级实时性能。通常,欺诈检测采用批次大小为 1 的 LSTM(长短期内存)AI 模型。估计表明,相比 NVIDIA T4 GPU,英特尔 Stratix 10 NX FPGA 可为批次大小为 1 的 LSTM 模型提供 34 倍的计算性能提升。
最后,让我们来看一下视频监控应用。凭借硬件定制能力,英特尔 FPGA 在视频监控应用中表现出色,可实现定制处理和定制 I/O 协议以支持直接获取数据。例如,估计表明,相比 NVIDIA T4 GPU,英特尔 Stratix 10 NX FPGA 通过使用批次大小为 1 的 ResNet50 模型,可为视频监控提供 3.8 倍的计算性能提升。
英特尔 Stratix 10 NX 通过引入 AI 张量块,扩展了基于 FPGA 的高性能硬件定制的优势,能够为 AI 推理提供更强大支持。英特尔 Stratix 10 NX FPGA 可为 AI 推理提供多达 15 倍的计算性能。这款 FPGA 是英特尔首款经过 AI 优化的 FPGA,将于今年晚些时候上市。
英特尔芯片和软件产品组合支持从云端到边缘的各种智能服务。
声明和免责声明
相比当今的 Stratix 10 MX,可为 AI 工作负载提供高出 15 倍的 INT8 计算性能: 当使用标准 Stratix 10 DSP 模块实现 INT8 计算时,使用 2 个乘法器和 2 个累加器。另一方面,使用 AI 张量块时,30 个乘法器和 30 个累加器可供您使用。因此,通过将 AI 张量块与标准 Stratix 10 DSP 模块进行比较,我们发现 60/4 可以提供多达 15 倍的 INT8 计算性能。
BERT 速度提高 2.3 倍,LSTM 速度提高 10 倍,ResNet50 速度提高 3.8 倍:相比 Nvidia V100,BERT 批次 1 性能提高 2.3 倍(DGX-1 服务器,具有 1x NVIDIA V100-SXM2-16GB | TensorRT 7.0 | 批次大小 = 1 | 20.03-py3 | 精度:混合 | 数据集:示例文本);相比 Nvidia V100,LSTM 批次 1 性能提高 9.5 倍(内部服务器,具有英特尔® 至强® CPU E5-2683 v3 和 1x NVIDIA V100-PCIE-16GB | TensorRT 7.0 | 批次大小 = 1 | 20.01-py3 | 精度:FP16 | 数据集:: 合成);相比 Nvidia V100,ResNet50 批次 1 性能提高 3.8 倍(DGX-1 服务器,具有 1x NVIDIA V100-SXM2-16GB | TensorRT 7.0 | 批次大小 = 1 | 20.03-py3 | 精度:INT8 | 数据集:合成)。 估计基于 Stratix 10 NX FPGA,使用 -1 速度等级,于 2020 年 5 月测试。
每个端到端的 AI 模型包括截至 2020 年 5 月 Nvidia 所发布声明中描述的所有层和计算。结果与 Nvidia 发布的声明进行了比较。 Nvidia 链接:https://developer.nvidia.com/deep-learning-performance-training-inference。结果基于英特尔内部分析、架构模拟和建模评估或模拟得出,仅供参考。您的系统硬件、软件或配置的任何不同均可能会影响实际性能。英特尔技术的特性和优势取决于系统配置,并需要兼容的硬件、软件或需要激活服务。实际性能可能因系统配置的不同而有所差异。
没有任何产品或组件能够保证绝对安全。
在特定系统中通过特殊测试对组件的文档性能进行测试。硬件、软件或配置的差异将影响实际性能。有关性能和基准测试结果的更完整信息,请访问 https://www.intel.cn/content/www/cn/zh/benchmarks/benchmark.html
在性能测试过程中使用的软件及工作负载可能仅针对英特尔® 微处理器进行了性能优化。性能测试(如 SYSmark 和 MobileMark)使用特定的计算机系统、组件、软件、操作和功能进行测量。上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。 如欲了解更完整的信息,请访问 https://www.intel.cn/content/www/cn/zh/benchmarks/benchmark.html。
英特尔高级矢量扩展指令集(英特尔 AVX)可为某些处理器操作提供更高的吞吐量。由于各处理器功率特征各有不同,利用英特尔® AVX 指令可能会造成:a) 某些部分将会以低于标称频率运行;b) 某些应用英特尔® 睿频加速技术 2.0 的部分无法达到任何或最大睿频频率。性能表现会因硬件、软件及系统配置而有不同,更多详情请访问 http://www.intel.cn/content/www/cn/zh/architecture-and-technology/turbo-boost/turbo-boost-technology.html。
英特尔的编译器针对非英特尔微处理器的优化程度可能与英特尔® 微处理器相同(或不同)。这些优化包括 SSE2,SSE3 和 SSSE3 指令集以及其它优化。对于在非英特尔制造的微处理器上进行的优化,英特尔不对相应的可用性、功能或有效性提供担保。此产品中依赖于处理器的优化仅适用于英特尔® 微处理器。某些不是专门面向英特尔微体系结构的优化保留专供英特尔® 微处理器使用。请参阅相应的产品用户和参考指南,以了解关于本通知涉及的特定指令集的更多信息。
所描述的降低成本方案仅用作示例,表明某些基于英特尔的产品在特定环境和配置下会如何影响未来的成本,并节约成本。 环境各不相同。 英特尔不保证任何成本和成本的节约。
英特尔并不控制或审核本文档引用的第三方基准数据或网站。您应访问引用的网站,确认参考资料准确无误。
© 2020 英特尔公司版权所有。英特尔、英特尔标识和其他英特尔标志是英特尔公司在美国和/或其他国家的商标。* 其他的名称和品牌可能是其他所有者的资产。