新闻资讯

针对性可定制架构大幅提升AI推理性能

英特尔 Stratix 10 NX FPGA 用作英特尔® 至强® 处理器的多功能 AI 加速器，专为需要硬件定制、低延迟和实时功能的应用而打造。与其他英特尔 Stratix 10 器件中的 DSP 模块相比，英特尔 Stratix 10 NX FPGA 中的 AI 张量块通过实现更多的乘法器和累加器提高了计算吞吐量。AI 张量块包含 30 个乘法器和 30 个累加器，而非 DSP 模块中的 2 个乘法器和 2 个累加器。AI 张量块中的乘法器针对较低精度的数字格式进行了调整，例如 INT4、INT8、块浮点 12 和块浮点 16。这些特定的精度通常用于 AI 推理工作负载。

英特尔 Stratix 10 NX FPGA 可解决当今的 AI 挑战。例如，NLP 通常使用大型 AI 模型，并且这些模型正变得越来越大。语言翻译应用是一种 NLP 工作负载，日益用于检测、识别和理解各种语言的上下文，然后将其翻译为目标语言。扩展的工作负载要求推高了模型复杂性，导致需要增加计算周期、内存和网络带宽。

英特尔 Stratix 10 NX FPGA 的封装 HBM2 内存允许在芯片上存储大型 AI 模型。估计表明，相比 NVIDIA V100，以批次大小 1 运行 BERT 等大型 AI 模型的 Stratix 10 NX FPGA 可将计算性能提高 2.3 倍。

此外，在欺诈检测应用中，英特尔 FPGA 也可为微秒级实时数据处理应用提供全面支持。英特尔 FPGA 可通过其收发器直接获取数据以创建定制硬件解决方案，结合确定性低延迟计算元件可帮助实现微秒级实时性能。通常，欺诈检测采用批次大小为 1 的 LSTM（长短期内存）AI 模型。估计表明，相比 NVIDIA T4 GPU，英特尔 Stratix 10 NX FPGA 可为批次大小为 1 的 LSTM 模型提供 34 倍的计算性能提升。

最后，让我们来看一下视频监控应用。凭借硬件定制能力，英特尔 FPGA 在视频监控应用中表现出色，可实现定制处理和定制 I/O 协议以支持直接获取数据。例如，估计表明，相比 NVIDIA T4 GPU，英特尔 Stratix 10 NX FPGA 通过使用批次大小为 1 的 ResNet50 模型，可为视频监控提供 3.8 倍的计算性能提升。

英特尔 Stratix 10 NX 通过引入 AI 张量块，扩展了基于 FPGA 的高性能硬件定制的优势，能够为 AI 推理提供更强大支持。英特尔 Stratix 10 NX FPGA 可为 AI 推理提供多达 15 倍的计算性能。这款 FPGA 是英特尔首款经过 AI 优化的 FPGA，将于今年晚些时候上市。

英特尔芯片和软件产品组合支持从云端到边缘的各种智能服务。

声明和免责声明

相比当今的 Stratix 10 MX，可为 AI 工作负载提供高出 15 倍的 INT8 计算性能：当使用标准 Stratix 10 DSP 模块实现 INT8 计算时，使用 2 个乘法器和 2 个累加器。另一方面，使用 AI 张量块时，30 个乘法器和 30 个累加器可供您使用。因此，通过将 AI 张量块与标准 Stratix 10 DSP 模块进行比较，我们发现 60/4 可以提供多达 15 倍的 INT8 计算性能。

每个端到端的 AI 模型包括截至 2020 年 5 月 Nvidia 所发布声明中描述的所有层和计算。结果与 Nvidia 发布的声明进行了比较。 Nvidia 链接：https://developer.nvidia.com/deep-learning-performance-training-inference。结果基于英特尔内部分析、架构模拟和建模评估或模拟得出，仅供参考。您的系统硬件、软件或配置的任何不同均可能会影响实际性能。英特尔技术的特性和优势取决于系统配置，并需要兼容的硬件、软件或需要激活服务。实际性能可能因系统配置的不同而有所差异。

没有任何产品或组件能够保证绝对安全。

在特定系统中通过特殊测试对组件的文档性能进行测试。硬件、软件或配置的差异将影响实际性能。有关性能和基准测试结果的更完整信息，请访问 https://www.intel.cn/content/www/cn/zh/benchmarks/benchmark.html
在性能测试过程中使用的软件及工作负载可能仅针对英特尔® 微处理器进行了性能优化。性能测试（如 SYSmark 和 MobileMark）使用特定的计算机系统、组件、软件、操作和功能进行测量。上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试（包括结合其他产品使用时的运行性能）以对目标产品进行全面评估。如欲了解更完整的信息，请访问 https://www.intel.cn/content/www/cn/zh/benchmarks/benchmark.html。

英特尔高级矢量扩展指令集（英特尔 AVX）可为某些处理器操作提供更高的吞吐量。由于各处理器功率特征各有不同，利用英特尔® AVX 指令可能会造成：a) 某些部分将会以低于标称频率运行；b) 某些应用英特尔® 睿频加速技术 2.0 的部分无法达到任何或最大睿频频率。性能表现会因硬件、软件及系统配置而有不同，更多详情请访问 http://www.intel.cn/content/www/cn/zh/architecture-and-technology/turbo-boost/turbo-boost-technology.html。

英特尔的编译器针对非英特尔微处理器的优化程度可能与英特尔® 微处理器相同（或不同）。这些优化包括 SSE2，SSE3 和 SSSE3 指令集以及其它优化。对于在非英特尔制造的微处理器上进行的优化，英特尔不对相应的可用性、功能或有效性提供担保。此产品中依赖于处理器的优化仅适用于英特尔® 微处理器。某些不是专门面向英特尔微体系结构的优化保留专供英特尔® 微处理器使用。请参阅相应的产品用户和参考指南，以了解关于本通知涉及的特定指令集的更多信息。

所描述的降低成本方案仅用作示例，表明某些基于英特尔的产品在特定环境和配置下会如何影响未来的成本，并节约成本。环境各不相同。英特尔不保证任何成本和成本的节约。

英特尔并不控制或审核本文档引用的第三方基准数据或网站。您应访问引用的网站，确认参考资料准确无误。