新闻资讯

最新资讯

同学们请注意！最后一个月，FPGA菁英挑战赛即将报名截止！

PDF下载 | 这个白皮书把工业自动化TSN讲透了

英特尔®5G解决方案组合再添硬核成员，新一代eASIC™器件Diamond Mesa发布

灵活才是关键！看英特尔® Agilex™ FPGA如何助力大数据时代应用全面提速

看了这款《愤怒的麋鹿》，你有没有萌生自己在家做一款游戏的想法

FPGA 在深度神经网络当中的应用（三）

2020-03-31

本文我们将使用 OpenCL 作为工具，介绍 FPGA 如何进行深度学习神经网络的计算（推理）加速。

本章节的内容，假定阅读者已经具备如下的基本能力：

1. 基本的 OpenCL 编程，基本的 C 语言，以及基本的 Linux 使用能力

2. 了解 Python 语言以及 Tensorflow 深度学习框架，并能看懂深度学习神经网络的简单算法实现

本章节，将使用 Tensorflow 作为深度学习框架搭建一个简单的全连接神经网络，使用 Mnist 手写体数字图片数据集进行模型训练，最后使用 OpenCL 调用FPGA，对训练的结果进行推理加速。本章节内容基于 Linux（CentOS7.4）操作环境。

01环境搭建

深度学习神经网络的训练需要使用 Python 和 Tensorflow，推荐使用 Python3 和 VirtualEnv 作为标准配置，防止对操作系统造成污染。下面简要展示 Python3 和 Tensorflow 环境的搭建。

1. 登录 Linux 服务器或者虚拟机，右键选择“Open Terminal”

2. 切换至 root 用户，然后输入如下指令，安装 Python3 和 Virtualenv

yum install python36 python36-virtualenv kernel-devel-$(uname -r) -y

3. 设置 Python3 的虚拟环境

virtualenv-3 py3

4. 启用 Python3 虚拟环境，并安装 Tensorflow 等必须的依赖库

source py3/bin/activate

pip install tensorflow==1.15.0

接下来，我们需要安装 OpenCL 的开发环境。由于我们使用的是 Intel® Arria® 10 FPGA 作为 OpenCL 的设备，因此，需要安装 Intel 提供的对应的SDK。

点击“资料”，下载SDK并按照安装包提供的信息进行安装即可。

02算法描述

本示例使用 Mnist 数据集作为训练和测试，并利用 Tensorflow 作为框架，实现一个简单的全连接神经网络，最终实现神经网络的训练和推理。该全连接神经网络的算法描述基本如下：

1.Mnist 数据集每张图片为 28×28 像素，将每张图片的像素点作为输入

2.第一个隐藏层设置 500 个神经元，与输入图像的 784 个像素点做计算（矩阵乘法）

3.将得到的结果使用 relu 函数进行结果，只保留数值 >0 的结果，其他的设置为 0

4.第二个隐藏层设置 10 个神经元，与第一个隐藏层的输出进行计算（矩阵乘法），最终得到 10 个结果作为输出

从上述的算法描述当中，我们可以看到实际上就是几次矩阵的计算过程：一个 [1,784] 和 [784, 500] 的矩阵乘法，得到一个 [1,500] 的中间矩阵；然后这个 [1,500] 的中间矩阵与 [500, 10] 的矩阵进行计算，最终得到一个 [1,10] 的矩阵，这个就是我们的最终结果。

根据以上的算法描述，我们使用 OpenCL 进行神经网络的算法的实现。

03 基于 OpenCL 算法实现

全连接神经网络的实现，首先要通过 Tensorflow 搭建神经网络，并对其进行训练，训练之后会得到模型文件。随后再通过一定的方式，对这些模型文件进行操作，将模型参数提取出来，当作输入的参数，送入到 FPGA 当中进行加速计算，实现推理过程。

上述神经网络算法的 OpenCL 实现，大致如下：

神经网络算法的OpenCL实现

图 2-1 神经网络算法的OpenCL实现

随后对该算法进行编译，生成必要的aocx二进制文件，才可放到 FPGA 上进行执行。

04 验证 OpenCL 算法实现

完成 OpenCL 算法实现后，需要使用C/C++编写CPU程序，与 FPGA 进行交互，来验证 OpenCL 算法实现的正确性。

编写 CPU 程序，并将上面提出的参数信息输入 CPU，以下是 CPU 程序（也称为主机程序）的部分代码。

图 2-2 CPU 程序的部分代码

该代码将要实现的是对一张手写体数字的识别，我们所使用的图片如下：

生成 CPU 程序后，即可执行该程序，如果一切正常，其输出结果应当类似下图 OpenCL 执行结果所示：

图 2-3 OpenCL 执行结果

可以看到，推测的结果是数字 2，我们成功的使用 OpenCL 在 Intel FPGA上实现了一个简单的神经网络的推理加速。

海云捷迅架构师张家龙

张家龙，海云捷迅资深架构师，10余年开发和架构经验，对Linux、云计算、虚拟化、人工智能与深度学习，及人工智能算法有深入研究和见解，并在云计算和人工智能方面具备丰富的开发和实战经验。