現(xiàn)在,人類越來(lái)越想讓“馮·諾依曼架構(gòu)”退休了。因?yàn)榇鎯?chǔ)墻和功耗墻問(wèn)題,馮·諾依曼架構(gòu)愈發(fā)觸碰瓶頸。
類腦芯片就是突破“馮·諾依曼架構(gòu)”的路線之一,它一種高度模擬人腦計(jì)算原理的芯片。如果把類腦芯片做得更像人腦,就會(huì)被賦予一個(gè)新的名字——神經(jīng)擬態(tài)計(jì)算/神經(jīng)形態(tài)計(jì)算(Neuromorphic Computing),它是數(shù)字芯片和AI計(jì)算的一條重要發(fā)展路線。
神經(jīng)擬態(tài)計(jì)算被視為顛覆邊緣AI行業(yè)的存在,因?yàn)樗墓膶?shí)在是太低了。完美的神經(jīng)擬態(tài)芯片可以用比傳統(tǒng)解決方案低1000倍的能耗來(lái)解決問(wèn)題,這意味著我們可以在固定的功耗預(yù)算下,打包更多的芯片來(lái)解決更大規(guī)模的問(wèn)題。
當(dāng)然,現(xiàn)在的神經(jīng)擬態(tài)計(jì)算還達(dá)不到這樣的程度,但給現(xiàn)有芯片降低幾倍或者幾十倍功耗的能力還是有的。比如,IBM此前推出的類腦芯片“北極”(NorthPole),對(duì)比4nm節(jié)點(diǎn)實(shí)現(xiàn)的Nvidia H100 GPU相比,NorthPole的能效提高了五倍。
現(xiàn)在,神經(jīng)擬態(tài)也開始滲入了邊緣AI領(lǐng)域,甚至是改變MCU。
Innatera推出首款商用類腦MCU
最近,初創(chuàng)公司Innatera宣布推出一款名為Pulsar的新型脈沖神經(jīng)處理器(SNP)。Pulsar 是一種神經(jīng)形態(tài)信號(hào)處理器,旨在以高能效執(zhí)行邊緣AI推理,與傳統(tǒng)的AI處理器相比,新處理器的延遲降低了100倍。
此外,從功耗角度來(lái)看,該系統(tǒng)使用內(nèi)部低功耗PLL和軟件控制的電壓域來(lái)降低動(dòng)態(tài)和待機(jī)功耗。多種睡眠模式進(jìn)一步優(yōu)化了空閑期間的能量消耗。Innatera聲稱該處理器的能耗比傳統(tǒng)的AI處理器低500倍。
Pulsar的底層架構(gòu)集成了完全可編程的脈沖神經(jīng)網(wǎng)絡(luò)(SNN)結(jié)構(gòu),針對(duì)異步、稀疏數(shù)據(jù)計(jì)算進(jìn)行了優(yōu)化。為此,Pulsar提供了異構(gòu)計(jì)算架構(gòu),將SNN、CNN和傳統(tǒng)CPU任務(wù)分開,以優(yōu)化工作負(fù)載分區(qū)。
Innatera將處理器設(shè)計(jì)為靈活的,支持跨不同網(wǎng)絡(luò)拓?fù)涞纳窠?jīng)元和突觸級(jí)參數(shù)化,以專門滿足音頻和振動(dòng)傳感等時(shí)空工作負(fù)載的需求。為了支持混合工作負(fù)載,SNN結(jié)構(gòu)與支持浮點(diǎn)的32位RISC-V CPU和32-MAC CNN加速器一起運(yùn)行。FFT/IFFT引擎為時(shí)頻域應(yīng)用提供了額外的計(jì)算能力。
該處理器的內(nèi)存子系統(tǒng)包括384 KB通用SRAM、128 KB專用于CNN計(jì)算和32 KB保留 SRAM,以通過(guò)低功耗轉(zhuǎn)換保持應(yīng)用程序狀態(tài)。集成的外設(shè)支持包括I2C、UART、SPI、JTAG、ADC、攝像頭接口和GPIO,由分散收集DMA引擎提供支持,以促進(jìn)尖峰數(shù)據(jù)處理。供電電壓為1.6V,系統(tǒng)頻率為160MHz,封裝尺寸為2.8mm x 2.6mm/36pin WLCSP,工作溫度-40℃~125℃。
軟件端,Pulsar由Talamo SDK提供支持,它將基于PyTorch的模型訓(xùn)練與直接硬件映射集成在一起。開發(fā)人員可以使用Python原生編譯器或RISC-V的標(biāo)準(zhǔn)GCC工具鏈來(lái)部署模型。
Polyn首款神經(jīng)擬態(tài)模擬信號(hào)處理芯片流片
最近,Polyn Technology宣布其首款基于專有神經(jīng)擬態(tài)模擬信號(hào)處理平臺(tái)(Neuromorphic Analog Signal Processing, NASP)模擬芯片正式流片成功,同時(shí)NASP芯片進(jìn)入認(rèn)證階段,并預(yù)計(jì)于2025年第二季度正式投放市場(chǎng)。
這款芯片實(shí)現(xiàn)了超低功耗和實(shí)時(shí)信號(hào)處理能力,在執(zhí)行信號(hào)推理時(shí)的功耗低于100μW,某些應(yīng)用場(chǎng)景如 NeuroVoice VAD模型甚至可降至30μW。如此低的能耗使其非常適合應(yīng)用于耳機(jī)、可穿戴設(shè)備、智能輪胎以及預(yù)測(cè)性維護(hù)傳感器節(jié)點(diǎn)等功耗受限的環(huán)境中。此外,NASP可將原始數(shù)據(jù)量縮減高達(dá)1000倍,顯著提升隱私保護(hù)水平,減少對(duì)云服務(wù)的依賴,尤其適合醫(yī)療健康等對(duì)數(shù)據(jù)安全要求極高的領(lǐng)域。在技術(shù)資料中,NASP放出了在推理MobileNet V.2時(shí)候?qū)Ρ葮漭?B+和JETSON TX1的結(jié)果。
NASP是Polyn技術(shù)創(chuàng)新的核心。它是一種混合模擬-數(shù)字架構(gòu),通過(guò)模擬電路模仿生物神經(jīng)元的分布式、超并行操作。該系統(tǒng)由運(yùn)算放大器和可編程電阻組成,能夠在不依賴中央處理器或?qū)π盘?hào)進(jìn)行數(shù)字化預(yù)處理的前提下,直接對(duì)傳感器數(shù)據(jù)進(jìn)行原生推理。
與傳統(tǒng)傳感器數(shù)據(jù)處理方式不同,NASP前端可在原始音頻輸入階段就進(jìn)行過(guò)濾與壓縮,僅輸出用于后續(xù)處理的關(guān)鍵特征向量。這種方式不僅提升了效率,更實(shí)現(xiàn)了對(duì)信號(hào)的“理解”,從而顯著降低帶寬需求和云端依賴。
當(dāng)它充當(dāng)邊緣信號(hào)傳感器,能夠使用神經(jīng)擬態(tài)計(jì)算處理原始傳感器數(shù)據(jù),而無(wú)需對(duì)模擬信號(hào)進(jìn)行任何數(shù)字化。出于這個(gè)原因,該公司將其稱為第一款無(wú)需模數(shù)轉(zhuǎn)換器(ADC)即可直接在傳感器旁邊使用的神經(jīng)擬態(tài)模擬TinyML芯片。
NASP 平臺(tái)采用“固定 + 靈活”的雙模塊結(jié)構(gòu):
固定部分:通過(guò)硬連線模擬電路實(shí)現(xiàn),負(fù)責(zé)從原始傳感器數(shù)據(jù)中提取關(guān)鍵特征;
靈活部分:采用標(biāo)準(zhǔn)數(shù)字邏輯或低功耗微控制器實(shí)現(xiàn),負(fù)責(zé)分類與解釋。
這一混合架構(gòu)將遷移學(xué)習(xí)引入硬件層面。開發(fā)人員只需重新訓(xùn)練靈活部分,即可快速適配新任務(wù),例如將原本用于步態(tài)識(shí)別的加速度計(jì)數(shù)據(jù)用于跌倒檢測(cè),從而大幅縮短產(chǎn)品迭代周期并降低整體復(fù)雜度。
Polyn不僅為NASP自主研發(fā)了編譯器工具鏈,同時(shí)在設(shè)計(jì)流程上,Polyn利用Cadence的Virtuoso和Innovus工具,整合模擬與數(shù)字電路設(shè)計(jì),并在55納米CMOS工藝上實(shí)現(xiàn)流片。
目前,Polyn正與SkyWater、普利司通、英飛凌、TDK等行業(yè)領(lǐng)先企業(yè)展開深度合作。雖然其首款芯片專注于語(yǔ)音處理,但未來(lái)的潛在應(yīng)用場(chǎng)景包括振動(dòng)分析、生物信號(hào)解讀、人機(jī)交互等多個(gè)領(lǐng)域。
2023年12月,英飛凌曾披露與Polyn的合作,雙方正在合作開發(fā)高級(jí)輪胎監(jiān)測(cè)產(chǎn)品,英飛凌將提供具有輪胎振動(dòng)信號(hào)檢測(cè)功能的新一代TPMS傳感器,并利用Polyn的NFE 對(duì)傳感器的振動(dòng)數(shù)據(jù)進(jìn)行預(yù)處理。
弗勞恩霍夫開發(fā)出邊緣AI加速器
今年3月,弗勞恩霍夫集成電路研究所 IIS 開發(fā)了一種用于處理脈沖神經(jīng)網(wǎng)絡(luò)(SNN)的AI 芯片。脈沖神經(jīng)網(wǎng)絡(luò)SENNA的推理加速器受到大腦功能的啟發(fā),由人工神經(jīng)元組成,可以直接處理電脈沖(尖峰)。其速度、能效和緊湊的設(shè)計(jì)使得直接在生成數(shù)據(jù)的地方(即邊緣設(shè)備)中使用SNN成為可能。
SENNA是一種神經(jīng)擬態(tài)芯片,用于在AI應(yīng)用中快速處理低維時(shí)間序列數(shù)據(jù)。其當(dāng)前版本由1024個(gè)人工神經(jīng)元組成,芯片面積小于11 mm2。該芯片的響應(yīng)時(shí)間短至 20納秒,可確保精確計(jì)時(shí),尤其是在邊緣時(shí)間關(guān)鍵型應(yīng)用中。
因此,它的優(yōu)勢(shì)在基于事件的傳感器數(shù)據(jù)的實(shí)時(shí)評(píng)估和閉環(huán)控制系統(tǒng)中真正顯現(xiàn)出來(lái);例如,在使用AI控制小型電動(dòng)機(jī)時(shí)。SENNA還可用于在通信系統(tǒng)中實(shí)現(xiàn)AI優(yōu)化的數(shù)據(jù)傳輸。在那里,AI處理器可以分析信號(hào)流并根據(jù)需要調(diào)整傳輸和接收程序,以提高傳輸?shù)男屎托阅堋?/p>
SNN如此節(jié)能的原因之一是神經(jīng)元僅被少量激活,并且響應(yīng)特定事件。通過(guò)其尖峰神經(jīng)元,SENNA 充分利用了這一節(jié)能優(yōu)勢(shì)。由于其完全并行的處理架構(gòu),人工神經(jīng)元可以精確地映射SNN的時(shí)間行為。SENNA還可以通過(guò)其集成的尖峰接口直接處理基于尖峰的輸入和輸出信號(hào)。通過(guò)這種方式,它可以無(wú)縫地適應(yīng)基于事件的數(shù)據(jù)流?!皯{借其新穎的架構(gòu),SENNA 解決了能效、處理速度和多功能性之間的權(quán)衡,這是其他邊緣 AI 處理器所無(wú)法比擬的。這使得它非常適合資源受限的應(yīng)用,這些應(yīng)用需要在納秒范圍內(nèi)具有極快的響應(yīng)時(shí)間,“Fraunhofer IIS嵌入式AI集團(tuán)經(jīng)理 Michael Rothe解釋道。
當(dāng)前的SENNA參考設(shè)計(jì)專為22nm制造工藝而設(shè)計(jì)。這意味著SNN處理器可以用作各種應(yīng)用中的芯片,并且可以經(jīng)濟(jì)高效地實(shí)現(xiàn)。它的設(shè)計(jì)是可擴(kuò)展的,可以在芯片生產(chǎn)之前適應(yīng)特定應(yīng)用、性能要求和目標(biāo)硬件的特殊功能。但即使在芯片制造完成后,SENNA仍保留了最大的靈活性,因?yàn)樗峭耆删幊痰?。使用的SNN模型可以一次又一次地更改并重新傳輸?shù)?SENNA。為了讓開發(fā)人員盡可能輕松地實(shí)現(xiàn)他們的AI模型,F(xiàn)raunhofer IIS 還為 SENNA提供了一個(gè)全面的軟件開發(fā)工具包。
神經(jīng)擬態(tài)到底是啥
目前全世界的神經(jīng)擬態(tài)芯片結(jié)構(gòu)基本都一致,都是由神經(jīng)元計(jì)算、突觸權(quán)重存儲(chǔ)、路由通信三部分構(gòu)成。不過(guò),比較關(guān)鍵的點(diǎn)在于亮點(diǎn)——一是模型,二是器件。
首先,在模型方面,目前神經(jīng)擬態(tài)芯片普遍采用SNN(脈沖神經(jīng)網(wǎng)絡(luò))。相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),脈沖神經(jīng)網(wǎng)絡(luò)(SNN)的結(jié)構(gòu)更具“神經(jīng)”特性。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)依賴矩陣卷積或矩陣乘法實(shí)現(xiàn)信號(hào)傳播,而SNN在傳播過(guò)程中采用了更貼近人類大腦的神經(jīng)突觸結(jié)構(gòu)。在SNN 網(wǎng)絡(luò)中,當(dāng)脈沖信號(hào)積累至特定水平時(shí),神經(jīng)元會(huì)向下一個(gè)神經(jīng)元發(fā)送代表“1”的信號(hào),隨后自身膜電位恢復(fù)至較低水平,并在一段時(shí)間內(nèi)進(jìn)入不應(yīng)期,無(wú)法再次發(fā)送信號(hào)。
對(duì)于SNN來(lái)說(shuō),時(shí)空動(dòng)態(tài)性是一個(gè)重要的特性。通過(guò)引入時(shí)間維度,SNN能實(shí)現(xiàn)異步計(jì)算。SNN擅長(zhǎng)處理時(shí)空動(dòng)態(tài)信息,尤其適合與事件驅(qū)動(dòng)型傳感器(如動(dòng)態(tài)視覺傳感器DVS)結(jié)合。目前來(lái)看,大多數(shù)廠商都選擇SNN+CNN的異構(gòu)方案,應(yīng)對(duì)不同場(chǎng)景。
其次,在器件實(shí)現(xiàn),依據(jù)材料、器件、電路,分為模擬電路主導(dǎo)的神經(jīng)形態(tài)系統(tǒng)(數(shù)模混合CMOS型)、全數(shù)字電路神經(jīng)系統(tǒng)(數(shù)字CMOS型)、基于新型器件的數(shù)模混合神經(jīng)形態(tài)系統(tǒng)(憶阻器是候選技術(shù))三種流派。
數(shù)字CMOS是目前最易產(chǎn)業(yè)化的形式,一方面,技術(shù)和制造成熟度高,另一方面,不存在模擬電路的一些顧慮和限制,不過(guò)數(shù)字CMOS型還只是最初階的類腦芯片,還算不上完全模擬人腦的神經(jīng)形態(tài)器件。
數(shù)?;旌螩MOS是Polyn的實(shí)現(xiàn)方式,通過(guò)對(duì)比來(lái)看,這種方式能夠直接省略掉ADC,可以通過(guò)可編程電阻直接對(duì)傳感器的原生數(shù)據(jù)進(jìn)行處理。
憶阻器(Memristor)則是目前科學(xué)界也在研究的技術(shù),憶阻器的魅力在于,它不僅是一個(gè)存儲(chǔ)單元,同時(shí)還能進(jìn)行計(jì)算!想象一下,如果你的硬盤不僅能存儲(chǔ)數(shù)據(jù),還能直接進(jìn)行深度學(xué)習(xí)計(jì)算,那么 AI 訓(xùn)練的速度將大幅提升。憶阻器的這一特性,使其成為存算一體架構(gòu)的核心組件。憶阻器存算一體架構(gòu)正在快速發(fā)展,預(yù)計(jì)在未來(lái)5~10年內(nèi)將進(jìn)入商業(yè)化應(yīng)用。
類腦芯片主要類型和研發(fā)進(jìn)度,制表丨電子工程世界
目前,國(guó)內(nèi)也有很多企業(yè)在研究神經(jīng)擬態(tài)計(jì)算芯片,他們的主要目標(biāo)也是邊緣AI。
國(guó)內(nèi)研究則包括清華大學(xué)、浙江大學(xué)、復(fù)旦大學(xué)、中科院等頂級(jí)學(xué)府和機(jī)構(gòu),同時(shí)近兩年不斷涌現(xiàn)初創(chuàng)公司,如靈汐科技、時(shí)識(shí)科技、中科神經(jīng)形態(tài)等。其中以清華大學(xué)的天機(jī)芯和浙江大學(xué)的達(dá)爾文芯片最具代表性。
邊緣AI正在被顛覆
總之,受人腦啟發(fā)的神經(jīng)擬態(tài)計(jì)算正在顛覆邊緣AI場(chǎng)景。
與傳統(tǒng)的馮·諾依曼架構(gòu)不同,神經(jīng)形態(tài)芯片模擬人腦的神經(jīng)元和突觸結(jié)構(gòu),具有超低功耗和并行處理能力,特別適合邊緣設(shè)備上的AI應(yīng)用。
畢竟,動(dòng)不動(dòng)就上百倍能效提升,可太香了,誰(shuí)不想要。
目前,英特爾的Loihi、IBM的TrueNorth等神經(jīng)形態(tài)芯片已展示出在邊緣AI場(chǎng)景下的巨大潛力。
而上文介紹的廠商也已經(jīng)開始正式在商業(yè)化場(chǎng)景中嘗試使用神經(jīng)擬態(tài)芯片,雖然出于成本、開發(fā)難度等考量,可能他們并不會(huì)完全取代現(xiàn)有的MCU或嵌入式芯片,但在特定場(chǎng)景一定能夠得到很強(qiáng)的應(yīng)用。一場(chǎng)邊緣新革命即將到來(lái)。