0已點贊

華中科技大學集成電路學院繆向水李祎團隊在浮點精度存算一體系統(tǒng)研究方面取得新成果

研發(fā)快訊 2024年12月26日 13:01:55來源：華中科技大學 14419

摘要華中科技大學這一成果實現(xiàn)了國際上首個基于三維集成阻變存儲器陣列的浮點精度存算一體系統(tǒng)，為實現(xiàn)高能效、高精度的AI-for-Science計算應(yīng)用提供了重要方案。

　　【儀表網(wǎng) 研發(fā)快訊】近日，第70屆國際電子器件會議(IEDM)會議在美國舊金山召開。該會議是全球最具影響力的半導體器件領(lǐng)域?qū)W術(shù)會議，議題涉及半導體材料與器件、器件制造工藝、集成電路技術(shù)與應(yīng)用等領(lǐng)域。華中科技大學集成電路學院繆向水、李祎團隊在會議上報告了團隊在存算一體技術(shù)方面的最新研究成果“Demonstration of a Floating-point Deep Neural Matrix Equation Solver using 3D Vertical ReRAM with High Energy- and Area-Efficiency”。

　　華中科技大學這一成果實現(xiàn)了國際上首個基于三維集成阻變存儲器陣列的浮點精度存算一體系統(tǒng)，為實現(xiàn)高能效、高精度的AI-for-Science計算應(yīng)用提供了重要方案。華中科技大學集成電路學院2019級博士生李健聰(已畢業(yè)入站從事博士后研究)和2020級博士生任升廣為論文共同第一作者，李祎教授、何毓輝教授和繆向水教授為論文共同通訊作者。華中科技大學是論文唯一完成單位。

　　求解矩陣方程Ax=b是科學計算和具身智能等領(lǐng)域的基礎(chǔ)數(shù)學問題，核心在于對方程系數(shù)矩陣A進行求逆運算。近年來，AI-for-Science相關(guān)研究表明神經(jīng)網(wǎng)絡(luò)方法能夠突破傳統(tǒng)矩陣分解方法在時間復雜度上的瓶頸，實現(xiàn)高效的矩陣求逆計算。但是，傳統(tǒng)馮·諾依曼架構(gòu)的計算機系統(tǒng)在神經(jīng)網(wǎng)絡(luò)的訓練和推理過程中，面臨算力不足和硬件資源消耗過大的挑戰(zhàn)(圖1)?；谧枳兇鎯ζ鞯拇嫠阋惑w技術(shù)被視為高效加速神經(jīng)網(wǎng)絡(luò)計算的潛力方案。然而，求解矩陣方程通常需要浮點計算以滿足精度需求，而憶阻器陣列的擦寫開銷及低精度模擬計算機制成為制約存算一體技術(shù)實現(xiàn)浮點神經(jīng)網(wǎng)絡(luò)訓推性能的關(guān)鍵瓶頸。此外，如何突破當前平面集成陣列的算力與能效極限是另一重要難題。

圖1. 研究思路：基于神經(jīng)網(wǎng)絡(luò)逆運算的矩陣方程求解器

　　針對上述問題，華中科技大學團隊構(gòu)建了一套基于三維垂直堆疊的阻變存儲器陣列(3D-V ReRAM)的存算一體神經(jīng)網(wǎng)絡(luò)訓推軟硬件系統(tǒng)，可以高效執(zhí)行系數(shù)矩陣A的浮點精度逆運算及方程的浮點精度求解，并取得了系列進展。

　　在三維集成層面，團隊設(shè)計并制備了4Kb規(guī)模、4層堆疊的高一致性高可靠性3D-V ReRAM陣列。陣列在操作功耗(16.4fJ)、擦寫延時 (100ns) 、單片可擴展性(>493Mb)和多值編程特性(2-bit)等多方面指標均達到了國際先進水平，為實現(xiàn)高能效存算一體系統(tǒng)提供了硬件基礎(chǔ)(圖2)。

圖2. 4 Kb三維集成阻變存儲器陣列

　　在計算架構(gòu)及電路層面，針對網(wǎng)絡(luò)高精度低開銷訓推這一關(guān)鍵挑戰(zhàn)，團隊提出了阻變器件本征隨機性驅(qū)動的混合精度訓練架構(gòu)，實現(xiàn)了神經(jīng)網(wǎng)絡(luò)求解器的高效求逆。同時，為支持方程的高精度求解，將3D-V ReRAM陣列與任意精度存算一體技術(shù)(Arbitrary-Precision Computing-in-Memory, ArPCIM)結(jié)合，構(gòu)建了支持原位單精度浮點計算的存算一體單元，突破了低精度器件實現(xiàn)浮點精度計算的難題(圖3)。

圖3. 神經(jīng)網(wǎng)絡(luò)求解器的混合精度訓練框架及原位浮點計算架構(gòu)

　　團隊所構(gòu)建的存算一體原型系統(tǒng)實驗演示了陣列中的原位FP32精度矩陣乘法計算，一維對流擴散方程的高精度求解計算誤差低于10-13，相當于雙精度浮點求解系統(tǒng)。性能評估結(jié)果表明，在22nm節(jié)點工藝下，上述系統(tǒng)預(yù)期可實現(xiàn)11.5 TFLOPS/W的 FP32精度計算能效和大于0.63 TFLOPS/mm2的單位面積算力，相對當前最先進的NIVIDA H100 GPU可實現(xiàn)132倍的能效提升和7.6倍的面積效率提升(圖4)。

圖4.存算一體系統(tǒng)及浮點計算任務(wù)評估

　　本論文是繼憶阻稀疏矩陣方程求解器(Sci. Adv. 2023)、快速欠定矩陣方程求解器(IEDM 2023)、任意精度存算一體加速器(IEEE TCASI 2024)之后，華中科技大學團隊在存算一體技術(shù)方向取得的又一新突破。上述研究工作得到了國家科技創(chuàng)新2030重大研究計劃、國家重點研發(fā)計劃、華中科技大學基礎(chǔ)研究支持計劃等項目的資助，以及國家集成電路產(chǎn)教融合創(chuàng)新平臺、先進存儲器湖北省重點實驗室等平臺的支持。

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關(guān)。

儀表網(wǎng)首頁資訊首頁

延伸閱讀

版權(quán)與免責聲明

凡本網(wǎng)注明"來源：儀表網(wǎng)"的所有作品，版權(quán)均屬于儀表網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：儀表網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責任。
本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品來源，并自負版權(quán)等法律責任。
如涉及作品內(nèi)容、版權(quán)等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。
合作、投稿、轉(zhuǎn)載授權(quán)等相關(guān)事宜，請聯(lián)系本網(wǎng)。聯(lián)系電話：0571-87759945，QQ：1103027433。