如何用FPGA加速卷积神经网络(CNN)？

雷锋网 • 7年前扫码分享

雷锋网 (公众号：雷锋网) AI科技评论按，本文来源于王天祺在知乎问题【如何用FPGA加速卷积神经网络(CNN)？】下的回答，雷锋网 AI科技评论获其授权转发。

以下主要引用自西安邮电大学李涛老师关于连接智能和符号智能的报告，以及fpl2016上ASU的 Yufei Ma的文章和slide

Scalable and Modularized RTL Compilation of Convolutional Neural Network onto FPGA

地址： http://fpl2016.org/slides/S5b_1.pdf

推荐去读下原文

我做过一些计算加速的工作，个人感觉要入手先要想好几个问题: 要加速的是什么应用，应用的瓶颈是什么，再针对这个瓶颈，参考前人工作选择合适的方案。

过早地执着于fpga的技术细节(用hdl还是hls，用啥芯片，用啥接口)容易只见树木不见森林。现在software define network/flash/xxx，已然大势所趋。之前开组会时跟同志们聊过，算法是纲，纲举目张；软件是妈，软件是爹，软件比基金委都亲。所以推荐先把cnn的算法看一下，拿一些开源代码跑一下经典的例子(lenet, alexnet, etc)看好输入输出，摸清算法。

如何用FPGA加速卷积神经网络(CNN)？

比如以下是一个lenet的cpp和opencl的实现

nachiket/papaa-opencl

地址：https://github.com/nachiket/papaa-opencl

以下图片源自Yufei Ma的Slide

如何用FPGA加速卷积神经网络(CNN)？

可以看到cnn算法主要由conv ，pooling，norm等几个部分组成。工作时将image跟weight灌进去，最终得到预测结果。

接下来拿profiler(比如perf)去分析下软件算法，找找热点和性能瓶颈。在cnn里面主要耗时的就是conv二维卷积了。性能瓶颈也主要在于卷积时需要大量乘加运算，参与计算的大量weight参数会带来的很多访存请求。

接下来考察下前人的工作和当前的灌水热点。按理说这种大量的乘加运算用dsp应该不错，但是在cnn中大家并不需要这么大的位宽，有时候8位就够了。dsp动辄32/64位的乘加器实在是浪费。于是乎大家就开始减位宽，多堆几个运算单元。面对大量的访存请求，大家就开始设计各种tricky的缓存了。

以下是大家的一些灌水方向

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

于是就有了以下各路硬件设计

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

有人照着dsp风格去设计加速器

如何用FPGA加速卷积神经网络(CNN)？

ceva也出了一系列面向CNN的IP

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

有人用了脉动阵列或者Dataflow的风格

如何用FPGA加速卷积神经网络(CNN)？

有人设计了专用的芯片比如计算所的Cambricon

如何用FPGA加速卷积神经网络(CNN)？

还有的就是你提到的fpga

所有的事情到了硬件层面实际上能用的手段也就有限了。不外乎堆资源和切流水两招。再不然就是做一些bit level的小技巧，比如乘法器变查表之类的，这些技巧在很多二十年前的dsp教材里面都描述得很细致了，拿来用就好。比如这本书亲测有效。

VLSI Digital Signal Processing System--Design and Implementation by Keshab

典型的fpga实现可以参考Yufei Ma的文章，不论是conv，还是pooling，依葫芦画瓢设计data path，切好流水，再想好状态机加上控制信号。这些就看大家撸rtl的基本功了。

比如Conv模块如下图，主要拿一堆乘法器以及加法器树搭好data path，切好流水，接着加上控制信号。

如何用FPGA加速卷积神经网络(CNN)？

Pooling也是大同小异

如何用FPGA加速卷积神经网络(CNN)？

还有Norm

如何用FPGA加速卷积神经网络(CNN)？

最后把这些模块通过router连接，外面再套一层控制模块，封成ip就好了。

如何用FPGA加速卷积神经网络(CNN)？

剩下的就是集成进你的系统(microblaze, nios还是arm，配好dma，写好灌数据的驱动，这些就是各有各的道儿了)。推荐动手码rtl前先写好文档，约定好端口，寄存器和软件api，否则边写边改容易乱。

整体来说，cnn这种应用流水线控制相对cpu简单，没有写cpu的那一堆hazard让人烦心，也不用写汇编器啥的。太大的cnn放在fpga里挺费劲，做出创新很难，但是fpga上写个能用的lenet这种级别的cnn还是挺容易的。最后还可以依照惯例跟cpu比性能，跟gpu比功耗。

雷锋网版权文章，未经授权禁止转载。详情见。

随意打赏

深度卷积神经网络

新加坡国立大学赖载兴教授专访：用混沌边缘改善神经网络，与上帝掷骰子

雷锋网 • 7月前

2021年，诺贝尓奖委员会决定将物理奖颁发给复杂系统研究领域、以乔治·帕里西（George Parisi）为首三位科学家。当时不仅物理学界，许多计算神经科学家或理论机器学习学者表达了对帕里西的祝贺和感激，认为他的理论成果极大地推动了神经网络理论研究这一跨学科领域的蓬勃发展。在新加坡国立大学，Choy
车路云一体化建设：三旺通信TSN方案构建智能交通神经网络

砍柴网 • 8月前

前言一个多雾的早晨，高速公路上能见度极低，智能感知设备检测到这一情况后，立即通过V2I通信向所有车辆发送警报，车载系统自动调整至智能引导模式，确保安全行驶。同一时间，一辆故障车停在应急车道，通过V2I模块自动向监控中心求助，救援车辆迅速响应，并通过V2V通信向周边车辆发出预警，有效预防次生事故。与此同时，一辆超速车辆触
用扩散模型生成神经网络？NUS 尤洋团队：这不是开玩笑

雷锋网 • 1年前

作者：赖文昕编辑：郭思、陈彩娴说起扩散模型生成的东西，你会立刻想到什么？是OpenAI的经典牛油果椅子？是英伟达Magic3D生成的蓝色箭毒蛙？还是斯坦福大学和微软Folding Diffusion生成的蛋白质结构？这些都是扩散模型的魔法展示，而近期，关于扩散模型的研究又进行了一次全新的升级。由新加坡国立大学尤洋团队、
微美全息研究基于混合循环神经网络架构的人机协作意图识别

砍柴网 • 1年前

在当今科技发展迅速的时代，人机协作已经成为一个重要的研究话题。随着人工智能技术的不断进步，人机协作的应用范围也越来越广泛，其在智能交通、智能家居和智能机器人等领域已经得到了广泛的应用。在实际应用中，人机协作的意图识别是一个关键问题。要实现高效的人机协作，机器需要准确地理解人类用户的意图，以
微美全息创新突破利用群体智能算法优化人工神经网络

砍柴网 • 1年前

人工神经网络（Artificial Neural Network，ANN）已成为机器学习领域的核心算法之一，推动了自然语言处理、计算机视觉、无人驾驶、语音识别、医疗诊断和推荐系统等多个领域的技术进步。近年来，人工神经网络在众多领域得到了广泛应用。在应用人工神经网络之前，需要确定网络结构并对其进行训练。网络结构的选择通常
华为等靠激光雷达推自动驾驶！特斯拉不屑全力抛弃：开始依赖神经网络

砍柴网 • 1年前

11月29日消息，据国内媒体报道称，当其他车企还在依赖激光雷达等类型的传感器为用户推出辅助/自动驾驶功能时，特斯拉已经开始依赖神经网络和人工智能进行所谓的完全自动驾驶。从目前的情况看，特斯拉的完全自动驾驶（FSD）V12版本放弃代码（30多万代码降至2000行），使用神经网络进行车
纽约大学团队开发用于基因组学的神经网络，并解释了它如何实现准确的预测 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 萝卜皮机器学习方法，特别是在大型数据集上训练的神经网络，正在改变科学家进行科学发现和实验设计的方式。然而，当前最先进的神经网络因其不可解释性而受到限制：尽管他们具有出色的准确性，但他们无法描述他们是如何得出
使用卷积神经网络从相关 Moiré 超晶格的STM数据中学习有效的理论模型 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 萝卜皮现代扫描探针技术，例如扫描隧道显微镜，可以获取编码量子物质基础物理的大量数据。斯图加特大学（Universität Stuttgart）的研究人员展示了如何使用卷
一种新型神经网络正在帮助物理学家应对数据分析的艰巨挑战 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 绿萝假设你有一本一千页的书，但每一页只有一行文字。你使用扫描仪提取书中包含的信息，这个特定的扫描仪系统地扫描每一页，一次扫描一平方英寸，要花很长时间才能读完整本书，而且大部分时间会浪费在扫描空白处。这就是许多
微美全息开发基于仿生模式识别（BPR）的卷积神经网络（CNN）图像分类技术方案

砍柴网 • 1年前

近年来，随着人工智能技术的不断发展和应用，图像分类技术在多个领域得到了广泛应用。并且伴随着深度学习的兴起，卷积神经网络（CNN）已经成为了处理图像分类任务的主流模型。CNN通过自动从图像中提取特征来识别图像，并使用softmax函数进行分类。然而，由于softmax函数的限制，传统CNN模型在图像分类方面存在一些不足。

评论