對于AI芯片可以理解為面向 AI應(yīng)用的處理器芯片,它屬于AI和處理器芯片兩大領(lǐng)域的結(jié)合。當(dāng)前隨著人工智能的蓬勃發(fā)展,AI芯片已經(jīng)成為了炙手可熱的投資領(lǐng)域,除了Intel、Nvidia、ARM這些老牌的芯片廠商外,Google、Facebook、微軟這樣的互聯(lián)網(wǎng)公司也進軍AI芯片市場。
AI應(yīng)用中通常包括基于深度神經(jīng)網(wǎng)絡(luò)的各類算法,以及圖像識別、視頻檢索、語音識別、聲紋檢測、搜索引擎優(yōu)化、自動駕駛等任務(wù),其中關(guān)鍵的能力是“訓(xùn)練”和“推理”,而“訓(xùn)練”是從海量的數(shù)據(jù)中完成特征的學(xué)習(xí),這需要極高的計算性能和較高的精度。為了支持AI的計算性能和精度,理想的AI芯片需要具備高度并行的處理能力,支持各種數(shù)據(jù)類型的浮點計算,以及用于存儲海量數(shù)據(jù)的存儲器帶寬。
目前適合AI的處理器有GPU(graphics processing unit)、FPGA(field-programmable gate array)、DSP(digital signal processing)和ASIC(application specific integrated circuits)等,業(yè)界各大廠商他們結(jié)合自身的特點推出了不同的方案,目前主要有兩種設(shè)計思路:利用已有的GPU、FPGA、DSP、多核處理器等芯片實現(xiàn);設(shè)計專用的ASIC芯片實現(xiàn)。這也成為了爭論的焦點——哪個AI芯片方案是佳的選擇?
GPU是圖形處理器,它的核數(shù)遠(yuǎn)超過CPU,由多核組成的大規(guī)模并行計算架構(gòu)專用于同時處理多重任務(wù)。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中計算量極大,而且數(shù)據(jù)和運算是高度并行的,GPU具備進行海量數(shù)據(jù)并行運算的能力并且為浮點矢量運算配備了大量計算資源,與深度學(xué)習(xí)的需求不謀而合,因此先被引入運行深度學(xué)習(xí)算法,成為高性能計算領(lǐng)域的主力芯片之一。Intel雖然也有GPU,但主要為集成顯卡使用。Nvidia一直在獨立顯卡領(lǐng)域具有優(yōu)勢,因此Nvidia的GPU是目前應(yīng)用廣的通用AI硬件計算平臺,在人工智能領(lǐng)域無疑已占據(jù)足夠的優(yōu)勢。
Nvidia依靠自己在AI領(lǐng)域建立的優(yōu)勢,開發(fā)出CUDA平臺,提供了cuDNN、NCCL、cuBLAS等諸多SDK為合作伙伴提供開發(fā)工具,逐步讓眾多合作伙伴熟悉這種生態(tài),進一步鞏固它在AI領(lǐng)域的領(lǐng)導(dǎo)地位。Nvidia的芯片應(yīng)用十分普遍,現(xiàn)在所有的AI軟件庫都支持使用CUDA加速,包括谷歌的Tensorflow,F(xiàn)acebook的Caffe,亞馬遜的MXNet等。當(dāng)然Nvidia的GPU在復(fù)雜程序邏輯控制上仍然存在劣勢,需要使用高性能CPU配合來構(gòu)成完整的AI系統(tǒng)。為了彌補自己在CPU方面的弱勢,在2019年宣布其用于超級計算機的加速平臺將對ARM架構(gòu)CPU支持,計劃利用其芯片與使用ARM架構(gòu)的CPU協(xié)作打造應(yīng)用人工智能的超級計算機。
ASIC是一種為專用目的而定制設(shè)計的芯片,在大規(guī)模量產(chǎn)的情況下相比于FPGA性能更強、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點。近年來越來越多的公司開始采用ASIC芯片進行深度學(xué)習(xí)算法加速,其中為突出的是 Google為機器學(xué)習(xí)定制的專用處理器芯片TPU(Tensor Processor Unit),它支持256×256個矩陣乘法單元、非線性神經(jīng)元計算單元等模塊,專為Google的深度學(xué)習(xí)框架TensorFlow而設(shè)計。
TPU受到業(yè)界的關(guān)注是從Google的AlphaGo大顯神威后開始,新一代 AlphaGo Zero已經(jīng)將CPU結(jié)合GPU搭建方案升級為了TPU。在2018年Google I/O開發(fā)者大會上正式發(fā)布了TPU3.0,其性能宣稱比去年的TUP2.0提升8倍之多,達(dá)到每秒1000萬億次浮點計算,比同時期的GPU或CPU平均提速15~30倍,能效比提升30~80倍。
FPGA其實也是一種定制芯片,在靈活度方面,它介于CPU、GPU等通用處理器和專用集成電路ASIC之間,它不像專用集成電路ASIC那樣由芯片廠商固化編程,而是在硬件固定的前提下,允許設(shè)計者靈活使用軟件進行編程,因此它的開發(fā)周期比ASIC短,不過相對于批量出貨ASIC,單個FPGA的成本會更高。在性能方面,F(xiàn)PGA與 GPU相比,具備更強的計算能力和更低的功耗。以FPGA方案為代表的廠商主要有Intel和Xilinx。
Intel已經(jīng)錯失了移動設(shè)備的崛起,不想再錯過對AI芯片領(lǐng)域的布局。為了增強在AI芯片領(lǐng)域的競爭力,2015年12月Intel斥資167億美元收購了Altera公司,這是Intel有史以來金額大的一次收購,意味著Intel希望實現(xiàn)CPU和FPGA深層次結(jié)合來布局AI芯片市場。2017年Intel又收購Mobileye,希望通過整合AI算法以獲得關(guān)鍵的優(yōu)勢。2018年,Intel宣布收購芯片制造商eASIC,提高FPGA速度,降低FPGA成本和能耗需求。Intel通過霸氣的購買將自己提升到AI芯片“玩家”的前列。當(dāng)前Intel有兩套FPGA的戰(zhàn)略:打造CPU+FPGA混合器件,讓FPGA與處理器協(xié)同工作;基于Arria FPGA或Stratix FPGA打造可編程加速卡。微軟在2018年的Build大會上公布的Project Brainwave深度學(xué)習(xí)加速平臺,就是基于Intel Arria FPGA和Stratix FPGA芯片所打造的。
Xilinx是FPGA芯片技術(shù)的開創(chuàng)者,從2011年起,Xilinx提出全編程的理念,作為FPGA行業(yè)長期的霸主,Xilinx擁有超過2萬家下游客戶,其中亞馬遜AWS、以及的BAT云服務(wù)巨頭都推出了專門的云端 FPGA 實例來支持 AI 應(yīng)用。2018年Xilinx重磅推出全新一代AI芯片架構(gòu)ACAP,重磅推出全新一代AI芯片架構(gòu)ACAP,以及采用ACAP架構(gòu)的首款代號為Everest的AI芯片,將正面 “宣戰(zhàn)”Intel和Nvidia。同年Xilinx收購國內(nèi)三大AI芯片獨角獸之一的北京深鑒科技有限公司,該公司主攻終端人工智能,所采用基于FPGA來設(shè)計深度學(xué)習(xí)的加速器架構(gòu),可以靈活擴展用于服務(wù)器端和嵌入式端。
另外DSP芯片主要用于處理視覺系統(tǒng)如圖像、視頻等方面的任務(wù),在自動駕駛、安防監(jiān)控、無人機和移動終端等領(lǐng)域為常見。眾核處理器采用將多個處理核心整合在一起的處理器架構(gòu),主要面向高性能計算領(lǐng)域,作為CPU的協(xié)處理器存在,比如IBM CELL、Kalray MPPA和Intel Xeon Phi都是典型的眾核處理器。
AI智能芯片未來的發(fā)展勢不可擋,從芯片的歷史來看,目前AI智能芯片仍然處于初期階段,未來在架構(gòu)和設(shè)計理念上仍然有巨大的突破空間,這也提供給了我國“彎道超車”的機會,在國家“2025智造”的指引下,國內(nèi)的科技巨頭阿里巴巴、騰訊、百度和華為都參與進來,在全力發(fā)展自己AI智能芯片以突破“重圍”,深圳市銀聯(lián)寶電子陪同大家一起拭目以待。