中国人工智慧企业100强 -深鉴科技（89/100）

2016年OpenPOWER峰会上，世界最大的FPGA制造厂商Xilinx介绍了他们眼中深度学习处理器的新方法。有趣的是，这项标准中技术的部分大多来自一家中国公司——深鉴科技。这家成立于2016年3月的初创公司，正在打造深度学习的通用硬件解决方案，并已获得金沙江创投与高榕资本的天使轮融资。

深鉴科技最早做研究时，这还是一个“冷门”的方向，国内学界也仅有中科院的陈云霁博士在做类似的研究。但时至今日，深度学习专属芯片已经成为一种逐渐被认可的方向。前百度IDL创始人余凯博士2015年创立了地平线机器人，现已经完成多轮融资，带动了资本对这个新方向的关注；国内中科院背景的寒武纪科技已经做出深度学习芯片，年内可实现产业化，并已经获得科大讯飞战略投资；硅谷团队Kneron 已经与腾讯等建立了合作。大厂方面，NVIDIA 、 Intel 、高通均已发力机器学习， Google今年I/O大会上也推出了自己的TPU芯片，利用专有硬件实现深度学习及其相关应用，已是大势所趋。

大趋势背后是大家共同看中的新市场——万物智能时代的NVIDIA。诞生于2006年的深度学习算法已经在工业界发挥作用，未来还将会大规模应用在安防、机器人、无人机、自动驾驶等领域，市场前景巨大。但现有的GPU采用“读—算—写 ”这样的处理流程，只适用于深度学习算法的训练，在应用层面性能低下且功耗很高。利用专有硬件实现深度学习及其相关应用，则能高性价比解决性能与功耗的问题。

早在2016年1月，深鉴科技就已经设计出一套基于DPU的一整套深度学习硬件解决方案，包括DPU的芯片架构、DPU编译器、硬件模块（订制的PCB板）三部分。直接呈现的产品就是硬件模块，共有嵌入式端和服务器端两款，在性能超过同类产品的同时，功耗、售价都大幅下降。

从官方提供的数据来看，嵌入式端的产品在性能超过Nvidia TK1􏰀 的同时，功耗、售价仅为后者的1/4左右。服务器端的产品，性能接近Nvidia K40 GPU ，但功耗只有35瓦左右，售价300美元以下，不足后者的1/10。

产品功耗的降低和性能的提升主要依赖于算法上的创新和芯片结构的创新。深鉴科技的首席科学家韩松一直在研究“深度压缩”（Deep Compression）技术，可以将神经网络压缩数十倍而不影响准确度，可以使用片上存储来存储深度学习算法模型，减少内存读取，从而大幅度减少功耗。这一研究也得到了学界的认可，已经被选为2016年ICLR两篇最佳论文之一（另一篇来自AlphaGo开发者谷DeepMind）。

在芯片结构上，深鉴科技重新设计了产品的架构（见下图）。针对深度学习计算中的大规模频繁复用，设计了专门的DPU架构及编译器。用户可以正常通过GPU训练深度学习模型，并直接将模型编译到DPU指令集，指令直接下载到DPU上，使得深度学习算法的运行效率提高。

这个刚刚兴起的赛道上已经有不少有影响力的选手，但在CEO姚颂看来，深鉴科技与不少竞品公司思路上并不相同，后者的产品大都是针对人工智能的泛通用芯片公司，深鉴科技在着力于打造基于DPU的端到端的深度学习硬件解决方案，除了承载在硬件模块（订制的PCB板）上的DPU的芯片架构外，还打造了针对该架构的DPU压缩编译工具链SDK，而工具链里面的软硬件协同优化则是深鉴科技的一大优势。也正是这样，深鉴科技不会只做“一家卖芯片的公司”。

现阶段，深鉴科技正在打造云加端的深度学习应用生态，选择的应用领域都是大体量市场里具有提升空间的重要玩家，以此快速扩大市场占有率。其中嵌入式端的产品将主要应用在无人机、安防监控、机器人、AR等领域，目前公司已经与一家知名无人机厂商建立了合作，推出搭载嵌入式端产品的无人机将会在今年推出。服务器端的产品将主要面向大型互联网公司的语音处理、图像处理等。目前也已经与国内知名互联网公司展开合作，在兼容对方现有机房的情况下，功耗降低80%，语音识别的准确率提升了5%-7%。

深鉴科技的创始人汪玉博士是清华大学电子工程系副教授，是清华大学的首批终身教职，是ACM FPGA技术委员会亚太地区唯一成员。CEO姚颂曾发表多篇国际顶级论文。团队大多数成员来自清华、斯坦福等著名高校。目前，已经完成Demo开发、原型制造，也在与芯片大厂接触。

出处：http://36kr.com/p/5049102.html