文章转载自纳米材料实验室506,作者海涛,有删改。
摩尔定律
英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出了著名的摩尔定律,他预测,当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。
人工智能的硬件加速,如果想要做得好的话,需要具备三个条件:运算能力很强,数据传输高效,存储器带宽高。业界衡量性能的指标包括性能功耗比和性能价格比。
硬件加速应用六大应用场景包括
1.云的加速
涉及压缩解压缩、区块链和安全等,需要很高的运算能力和功耗成本比。
2.边缘计算
很多应用由于需要低延迟,不允许将数据传到数据中心处理,而需要在边缘处理,并且需要低功耗。
3.存储
有些应用需要高效率,因而要求在存储器里进行数据处理。
4.5G基础设施
5G网络中的BBU(基带处理单元)和RRU(射频拉远单元),其协议处理有很大不确定性,需要用FPGA来编程。
5.网络加速
传统的网络加速需要用FPGA,而现在网络中出现了新的智能网卡,要求在发给服务器之前进行加解密、压缩解压缩等各种处理。
6.自动驾驶
涉及人工智能、数据运算和传感器融合等,需要具有可编程性。
人工智能/机器学习应用为何要用FPGA?
FPGA在人工智能/机器学习(AI/ML)上扮演重要角色。AI涵盖各种应用和层面,工业、教育、政府、农业等各行各业都可以运用。过去,个人电脑在1980年到2000年增长很快。而自2000年开始(包括智能手机的出现),无线互联网增长更快。
而在未来,据估计,随着5G的到来,AI的增长又将会更快。据估计,在半导体业务方面,到2024年,AI将占有约500亿美元市场。
硬件加速从实现上看可以有几种不同选择:传统处理器、FPGA和ASIC。传统处理器最有灵活性,能够覆盖各种不同应用,但它的能力(效率)最弱。ASIC的成本、性能和功耗最好,但它不能改变。目前AI算法层出不穷,ASIC不能满足各种要求。
若要同时具有可编程性和效率,则可以采用显示芯片和FPGA。在功耗和效率上,FPGA比显示芯片更强。尤其是在AI推理上,对于低精度场景,FPGA的性能功耗比比显示芯片大16倍。显示芯片更适合用在服务器侧,而FPGA则更适合用在边缘侧。FPGA适合做推理,显示芯片适合做训练。
英特尔® FPGA PAC)D5005
英特尔® FPGA 可编程加速卡(英特尔® FPGA PAC)D5005(以前称为采用英特尔® Stratix® 10 SX FPGA 的英特尔® PAC)是一种基于高性能 PCI Express* (PCIe*) 的数据中心 FPGA 加速卡,支持内联和旁路加速。
它在英特尔® FPGA 可编程加速卡(英特尔® FPGA PAC)产品组合上扩展,可提供高达 100 Gbps 的内联高速接口。它能提供 FPGA 加速的卓越性能和多功能性,而且支持面向英特尔® 至强® 处理器的加速堆栈(搭载 FPGA)。该加速堆栈为应用和加速器函数开发人员提供了一个通用接口,并且包括驱动程序、应用编程接口 (API) 和一个 FPGA 接口管理器。加速堆栈与加速库和开发工具共同协作,节省了开发人员的时间,支持他们在多个英特尔 FPGA 平台上重复使用代码。多功能英特尔® FPGA PAC D5005 可在众多细分市场中实施,如流分析、视频转码、金融、人工智能和基因组。
优 势
英特尔® FPGA PAC D5005是一款采用英特尔® Stratix® 10 SX FPGA的英特尔可编程加速卡,英特尔® Stratix® 10 设备解决了下一代高性能系统的设计挑战,涵盖有线和无线通信、计算、存储、军事、广播、医疗和测试与测量终端市场。该芯片内建300亿颗晶体管,采用英特尔® 14nm工艺,比上一代产品性能提升3倍。
不仅如此,它还拥有如下优势:
性能最高的 FPGA 和 SoC
● 开拓性的英特尔® Hyperflex™ FPGA 架构可实现 2 倍的内核性能提升。
● 高达 10 万亿次的单精度浮点 DSP 性能。
● 四核 64 位 ARM* Cortex-A53 硬核处理器子系统,主频高达 1.5 GHz。
降低运营成本>
英特尔® Stratix® 10 设备利用英特尔的领先制程技术,可为您提供最节能的技术:
● 相比上一代高端 FPGA 和 SoC,功耗降低了高达 70%。
● 高达每秒 80 千兆次浮点运算 (GFLOPS) /瓦的单精度浮点能效。
● 四核 ARM* Cortex-A53 处理器,针对每瓦性能进行了优化。
打破带宽障碍
收发器 (L、H 和 E-tile) 的数据速率高达 56 Gbps,相比前代 FPGA,带宽提升了 6 倍。
● 双模收发器 (E-tile) 支持高达 56 Gbps PAM-4 和 30 Gbps NRZ。
● 单个封装中最多 144 个全双工收发器。
● 在串行内存中可实现超过 2.5 Tbps 的带宽,支持 Hybrid Memory Cube。
● 在并行内存接口中可实现超过 2.3 Tbps 的带宽,支持速率为 2,666 Mbps 的 DDR4。
实现最高的系统集成水平>
● 最大的单片 FPGA 设备,配有 550 万个 LE。
● 异构 3D SiP 解决方案,包括收发器和其他高级组件。
● 64 位四核 ARM* Cortex-A53,支持硬件虚拟化、系统管理和监控功能以及加速预处理等。