如何破解两把“剪刀差”加速AI落地?Xilinx给出了答案
2019-04-24 17:31 来源:DX
“深化大数据、人工智能等研发应用,培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群,壮大数字经济。”,“打造工业互联网平台,拓展“智能+”,为制造业转型升级赋能。”……刚闭幕不久的中国两会上,人工智能(AI)连续第三年被写入政府工作报告中,并首次将人工智能衍生为“智能+”的概念。作为国家战略的人工智能将加速与产业融合,为经济结构优化升级发挥重要作用。
在近日举办的第八届EEVIA年度中国ICT媒体论坛暨2019产业和技术展望研讨会上,人工智能也是其中的一个重要主题。自适应和智能计算的全球领先企业赛灵思公司人工智能市场总监刘竞秀在“FPGA—人工智能计算的加速引擎”的主题演讲中开场就对“智能+”概念作出了通俗的诠释:“AI的本质就是高性能计算,就像电力一样是一项通用能力,是能对所有行业进行产业升级以及产品迭代起促进作用的存在。”
破解两把“剪刀差”的掣肘,关键“方法论”是FPGA
对人工智能落地速度的表现刘竞秀似乎并不满意,他认为当前顶多应该算是“智能服务”的时代,而不是真正人工智能的时代。他将当前的语音人机对话、智能视频应用等落地项目认为是比较初期的智能应用,“例如,人机对话可以用于最基本的生活服务,但很难真正对话超过20句,后面基本上是尬聊。”与产业和媒体关注热度相比,人工智能这几年真正落地的速度有点慢,刘竞秀给出了两个剪刀差阻碍发展的关键判断。
首先是海量的数据和计算芯片所能够提供的处理能力之间的“剪刀差”,主要表现在受限于摩尔定律,传统芯片算力的进步已经远远跟不上爆炸性增长的数据对算力的需求;其次是芯片开发的长周期和快速迭代的市场和技术发展之间的“剪刀差”,传统芯片开发的完整的流程通常长达18~24个月,然而当前的AI项目经常需要几个月就提出解决方案,从而抢占市场。按照过去的芯片漫长的研发流片流程,当芯片出货时市场需求可能已经发生了根本的改变。
另外一个不争的事实是,目前AI芯片已经发展到需要采用28纳米甚至16纳米制造工艺,倘若AI算力的需求全靠工艺的迭代,所需的资金投入和风险都是一般中小企业或创新创业企业难以承受的,而且鉴于时间窗口问题,几乎没有企业愿意或有实力在这块市场进行尝试。“因此具备可编程性且灵活多变的FPGA便成了最好的选择。人工智能创新企业可以将其核心研发资源聚焦在特定领域(算法和框架方面)和应用上,从这些层面来创造更多的价值。”刘竞秀指出。
常见的AI落地应用场景。
ACAP让AI“飞起来”,首个自适应计算平台再加速
在赛灵思发明FPGA以来的35年中,这种可编程逻辑器件凭借性能、上市时间、成本、稳定性和长期维护方面的优势,在通信、医疗、工控和安防等领域均拥有了无法取代的一席之地。然而,也是需要和传统处理器“分庭抗礼”的一席之地。但最近几年,由于云计算、高性能计算和人工智能的兴起,拥有先天优势的FPGA有望开始“独领风骚”的时代。
按赛灵思财报显示的数据,FPGA在人工智能领域强大的优势和发展前景,以及赛灵思为此历经数年推动的公司转型,让赛灵思在过去三年内股价增长近三倍。从单纯的FPGA到集成DSP、内存,到28nm集成Arm以及RFSoC的推出,赛灵思一直都是在用创新技术驱动应用创新,显然赛灵思的前瞻性战略布局并不会满足于收割在人工智能时代FPGA的优势“老本”,特别是总裁兼CEO Victor Peng上任以来更是在人工智能领域动作频频,以数据中心优先、加速主流市场的增长和驱动灵活应变的计算三大战略更加清晰化市场布局,其ACAP(自适应计算加速平台)的全新品类的推出为扩大人工智能产业优势奠定了关键伏笔。
作为高度集成的多核异构计算平台,ACAP被媒体称为赛灵思面向下一点计算“蝶变”的利器,是赛灵思器件家族的新物种。为打造ACAP,赛灵思投入上千工程师,历经五年研发,投资逾10亿美元。其核心是新一代FPGA架构,能根据各种应用与工作负载的需求从硬件层对其进行灵活修改。ACAP的灵活应变能力可在工作过程中进行动态调节,它的功能将远超FPGA的极限。在本次论坛上,刘竞秀也对ACAP第一款产品Versal做了阐释:“顾名思义,Versal等于various(各种不同的、各种各样的)+Universal(通用的,万能的),可以支持所有的开发者的各种应用。这是一款完全支持软件编程的异构计算平台,可将标量引擎、自适应引擎和智能引擎相结合,实现显著的性能提升,其速度超过当前最高速的FPGA 20倍、比当今最快的CPU实现快100倍。”
Versal ACAP自适应计算加速平台
Versal系列产品均基于台积电最新的7nm FinFET工艺,是第一个将软件可编程性与特定领域硬件加速和灵活应变能力完美结合的平台。该平台独特的架构针对云端、网络、无线通信乃至边缘计算和端计算等不同市场的众多应用,提供了独特的可扩展性和AI推断功能,将为所有开发者开发新应用开启一个最新且最快速的创新时代。赛灵思已经发布了Versal基础系列和Versal AI核心系列,Versal旗舰系列、AI Edge以及Versal HBM系列将在未来陆续发布。
从硬件平台到算法模型,完整工具链让AI轻松落地
人工智能的爆热与庞大的市场前景为全球半导体市场注入了“兴奋剂”,也为几乎所有的半导体公司所觊觎。目前,市场上已不断有各种新的处理器产品方案发布。“把芯片本身做出来不难,但如果没有足够高性能的软件、生态环境、工具链以及各种参考应用,应用落地将需要花费更长的时间。”刘竞秀表示。对于赛灵思,丰富的FPGA传统芯片组合以及创新的ACAP平台为AI落地提供了众多选择。“对于客户AI开发而言,传统的解决方案提供的支持还远远不够,赛灵思为客户提供了更多的不同层次的支持,除了底层硬件、各种IP以及软件,还提供了应用层各种神经网络模型。”刘竞秀指出。赛灵思公司拥有非常丰富的神经网络模型库。据悉,仅视觉相关的神经网络模型就超过70种。随着在AI市场的快速崛起,赛灵思正在从传统的芯片提供商向平台方案提供商转变。
赛灵思在人工智能/边缘/嵌入式和云端/数据中心总体解决方案。
据刘竞秀透露,在收购深鉴科技后,深鉴科技上百人的研发团队继续专注在赛灵思DNNDK(深度神经网络开发套件)的研发上。DNNDK面向AI异构计算平台深度学习处理器DPU(深度学习处理器单元),可支持神经网络推理阶段模型压缩、编译优化和高效运行时支持的不同功能需求,为DPU平台各种深度学习应用开发和部署提供一套高效全栈式解决方案,实现从深度学习算法到DPU硬件平台的高效映射,为DPU从移动端到数据中心端各类应用提供统一的开发工具包和编程接口。
DNNDK在极大降低DPU平台深度学习应用开发门槛和部署难度的同时,还能够显著加速AI产品从开发到面市的进程。“赛灵思在方案底层定义了高效的指令集和IP,结合成套的工具和SDK为客户提供的接口,客户甚至不需要写任何一行代码,只需要把我们IP资源调用起来,就可以支持不同行业不同场景的应用。”刘竞秀表示。赛灵思通过打造通用的处理器平台和完善的工具集,努力为客户提供卓越的高效率开发体验。
赛灵思边缘计算人工智能解决方案
人工智能在具体应用场景的落地是一个复杂的开发过程。据悉,传统处理器开发周期可以达到三至六个月,甚至一年都是常见的。“用我们现有的方案,最快几个小时就可以把新的网络部署在硬件上,快速地将系统运行起来。”刘竞秀强调。速度对当前的人工智能创业公司和合作伙伴而言是最重要的考虑要素之一,通过快速实现原型机,从而尽早去实现真正的场景性能、功能迭代和数据收集,才能将产品比别人更快地推向市场。
赛灵思人工智能视频分析模型库