【
儀表網(wǎng) 研發(fā)快訊】近日,第70屆國際電子器件會(huì)議(IEDM)會(huì)議在美國舊金山召開。該會(huì)議是全球最具影響力的半導(dǎo)體器件領(lǐng)域?qū)W術(shù)會(huì)議,議題涉及半導(dǎo)體材料與器件、器件制造工藝、集成電路技術(shù)與應(yīng)用等領(lǐng)域。華中科技大學(xué)集成電路學(xué)院繆向水、李祎團(tuán)隊(duì)在會(huì)議上報(bào)告了團(tuán)隊(duì)在存算一體技術(shù)方面的最新研究成果“Demonstration of a Floating-point Deep Neural Matrix Equation Solver using 3D Vertical ReRAM with High Energy- and Area-Efficiency”。
華中科技大學(xué)這一成果實(shí)現(xiàn)了國際上首個(gè)基于三維集成阻變存儲(chǔ)器陣列的浮點(diǎn)精度存算一體系統(tǒng),為實(shí)現(xiàn)高能效、高精度的AI-for-Science計(jì)算應(yīng)用提供了重要方案。華中科技大學(xué)集成電路學(xué)院2019級(jí)博士生李健聰(已畢業(yè)入站從事博士后研究)和2020級(jí)博士生任升廣為論文共同第一作者,李祎教授、何毓輝教授和繆向水教授為論文共同通訊作者。華中科技大學(xué)是論文唯一完成單位。
求解矩陣方程Ax=b是科學(xué)計(jì)算和具身智能等領(lǐng)域的基礎(chǔ)數(shù)學(xué)問題,核心在于對(duì)方程系數(shù)矩陣A進(jìn)行求逆運(yùn)算。近年來,AI-for-Science相關(guān)研究表明神經(jīng)網(wǎng)絡(luò)方法能夠突破傳統(tǒng)矩陣分解方法在時(shí)間復(fù)雜度上的瓶頸,實(shí)現(xiàn)高效的矩陣求逆計(jì)算。但是,傳統(tǒng)馮·諾依曼架構(gòu)的計(jì)算機(jī)系統(tǒng)在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理過程中,面臨算力不足和硬件資源消耗過大的挑戰(zhàn)(圖1)。基于阻變存儲(chǔ)器的存算一體技術(shù)被視為高效加速神經(jīng)網(wǎng)絡(luò)計(jì)算的潛力方案。然而,求解矩陣方程通常需要浮點(diǎn)計(jì)算以滿足精度需求,而憶阻器陣列的擦寫開銷及低精度模擬計(jì)算機(jī)制成為制約存算一體技術(shù)實(shí)現(xiàn)浮點(diǎn)神經(jīng)網(wǎng)絡(luò)訓(xùn)推性能的關(guān)鍵瓶頸。此外,如何突破當(dāng)前平面集成陣列的算力與能效極限是另一重要難題。
圖1. 研究思路:基于神經(jīng)網(wǎng)絡(luò)逆運(yùn)算的矩陣方程求解器
針對(duì)上述問題,華中科技大學(xué)團(tuán)隊(duì)構(gòu)建了一套基于三維垂直堆疊的阻變存儲(chǔ)器陣列(3D-V ReRAM)的存算一體神經(jīng)網(wǎng)絡(luò)訓(xùn)推軟硬件系統(tǒng),可以高效執(zhí)行系數(shù)矩陣A的浮點(diǎn)精度逆運(yùn)算及方程的浮點(diǎn)精度求解,并取得了系列進(jìn)展。
在三維集成層面,團(tuán)隊(duì)設(shè)計(jì)并制備了4Kb規(guī)模、4層堆疊的高一致性高可靠性3D-V ReRAM陣列。陣列在操作功耗(16.4fJ)、擦寫延時(shí) (100ns) 、單片可擴(kuò)展性(>493Mb)和多值編程特性(2-bit)等多方面指標(biāo)均達(dá)到了國際先進(jìn)水平,為實(shí)現(xiàn)高能效存算一體系統(tǒng)提供了硬件基礎(chǔ)(圖2)。
圖2. 4 Kb三維集成阻變存儲(chǔ)器陣列
在計(jì)算架構(gòu)及電路層面,針對(duì)網(wǎng)絡(luò)高精度低開銷訓(xùn)推這一關(guān)鍵挑戰(zhàn),團(tuán)隊(duì)提出了阻變器件本征隨機(jī)性驅(qū)動(dòng)的混合精度訓(xùn)練架構(gòu),實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)求解器的高效求逆。同時(shí),為支持方程的高精度求解,將3D-V ReRAM陣列與任意精度存算一體技術(shù)(Arbitrary-Precision Computing-in-Memory, ArPCIM)結(jié)合,構(gòu)建了支持原位單精度浮點(diǎn)計(jì)算的存算一體單元,突破了低精度器件實(shí)現(xiàn)浮點(diǎn)精度計(jì)算的難題(圖3)。
圖3. 神經(jīng)網(wǎng)絡(luò)求解器的混合精度訓(xùn)練框架及原位浮點(diǎn)計(jì)算架構(gòu)
團(tuán)隊(duì)所構(gòu)建的存算一體原型系統(tǒng)實(shí)驗(yàn)演示了陣列中的原位FP32精度矩陣乘法計(jì)算,一維對(duì)流擴(kuò)散方程的高精度求解計(jì)算誤差低于10-13,相當(dāng)于雙精度浮點(diǎn)求解系統(tǒng)。性能評(píng)估結(jié)果表明,在22nm節(jié)點(diǎn)工藝下,上述系統(tǒng)預(yù)期可實(shí)現(xiàn)11.5 TFLOPS/W的 FP32精度計(jì)算能效和大于0.63 TFLOPS/mm2的單位面積算力,相對(duì)當(dāng)前最先進(jìn)的NIVIDA H100 GPU可實(shí)現(xiàn)132倍的能效提升和7.6倍的面積效率提升(圖4)。
圖4.存算一體系統(tǒng)及浮點(diǎn)計(jì)算任務(wù)評(píng)估
本論文是繼憶阻稀疏矩陣方程求解器(Sci. Adv. 2023)、快速欠定矩陣方程求解器(IEDM 2023)、任意精度存算一體加速器(IEEE TCASI 2024)之后,華中科技大學(xué)團(tuán)隊(duì)在存算一體技術(shù)方向取得的又一新突破。上述研究工作得到了國家科技創(chuàng)新2030重大研究計(jì)劃、國家重點(diǎn)研發(fā)計(jì)劃、華中科技大學(xué)基礎(chǔ)研究支持計(jì)劃等項(xiàng)目的資助,以及國家集成電路產(chǎn)教融合創(chuàng)新平臺(tái)、先進(jìn)存儲(chǔ)器湖北省重點(diǎn)實(shí)驗(yàn)室等平臺(tái)的支持。
所有評(píng)論僅代表網(wǎng)友意見,與本站立場無關(guān)。