9月5日,在2025重慶世界智能產(chǎn)業(yè)博覽會(huì)上,中科曙光(603019)(603019.SH)發(fā)布了國內(nèi)首個(gè)基于AI計(jì)算開放架構(gòu)設(shè)計(jì)的產(chǎn)品——曙光AI超集群系統(tǒng)。該系統(tǒng)以GPU為核心,實(shí)現(xiàn)了“算、存、網(wǎng)、電、冷、管、軟”一體化緊耦合設(shè)計(jì),具備“超高性能、超高效率、超高可靠、全面開放”四大特點(diǎn),可為萬億參數(shù)大模型訓(xùn)練推理、行業(yè)大模型微調(diào)、多模態(tài)大模型開發(fā)、AI4S等場景提供高效算力底座。
曙光AI超集群系統(tǒng)具有如下技術(shù)特點(diǎn):
超高性能:單機(jī)柜可搭載96張GPU卡、算力規(guī)模達(dá)百P級(jí)、訪存總帶寬超180TB/s;支持多精度、混合精度運(yùn)算;支持百萬卡超大集群擴(kuò)展。
超高效率:千卡集群大模型訓(xùn)練推理性能達(dá)到業(yè)界主流水平2.3倍、開發(fā)效率提升4倍、人天投入減少70%;存算傳協(xié)同,提升GPU計(jì)算效率55%;先進(jìn)冷板液冷,394項(xiàng)節(jié)能設(shè)計(jì)PUE低于1.12。
超高可靠:121項(xiàng)設(shè)備和鏈路RAS可靠性設(shè)計(jì);平均無故障時(shí)間(MTBF)提高2.1倍;平均故障修復(fù)時(shí)間(MTTR)降低47%;超30天長穩(wěn)運(yùn)行集群可靠性測試;實(shí)現(xiàn)百萬級(jí)部件故障自動(dòng)分析與秒級(jí)隔離。
全面開放:基于AI計(jì)算開放架構(gòu)設(shè)計(jì);硬件適配多品牌AI加速卡;軟件兼容主流AI計(jì)算生態(tài);多項(xiàng)技術(shù)能力開放與共享。



127409/05








