5月21日,GIIC——2024 GPU Infrastructure Innovation Conference暨第四屆中國IDC行業(yè)DISCOVERY大會(huì)在北京圓滿成功舉辦。該大會(huì)由中關(guān)村超互聯(lián)新基建產(chǎn)業(yè)創(chuàng)新聯(lián)盟主辦,互聯(lián)科技實(shí)驗(yàn)室NEOLINK LABS承辦,世紀(jì)互聯(lián)、矩陣起源聯(lián)合承辦,北京市科學(xué)技術(shù)委員會(huì),中關(guān)村科技園區(qū)管理委員會(huì)支持舉辦。
本次大會(huì)圍繞AI大模型時(shí)代下的超大規(guī)模智算集群發(fā)展、高效能算力芯片發(fā)展趨勢(shì)、確定性網(wǎng)絡(luò)重要支撐作用、算力+能源協(xié)同發(fā)展等話題展開討論,院士、專家、學(xué)者、行業(yè)領(lǐng)軍者等數(shù)位重量級(jí)嘉賓發(fā)表主旨演講,匯聚行業(yè)智慧、共探算力行業(yè)發(fā)展未來。
面向大模型時(shí)代,計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、系統(tǒng)需協(xié)同發(fā)展
大模型的橫空出世加速推動(dòng)人工智能時(shí)代的到來,尤其是大模型的高歌猛進(jìn),對(duì)GPU智算、網(wǎng)絡(luò)、存儲(chǔ)等算力產(chǎn)業(yè)的每一環(huán)的都提出了新需求與與新挑戰(zhàn)。
中國工程院院士、紫金山實(shí)驗(yàn)室榮譽(yù)主任兼首席科學(xué)家劉韻潔院士表示,面向AI大模型時(shí)代,需要計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、系統(tǒng)協(xié)同,構(gòu)建高性能算力底座,實(shí)現(xiàn)超大規(guī)模集群萬卡協(xié)同。在此背景下,確定性網(wǎng)絡(luò)有望解決傳統(tǒng)互聯(lián)網(wǎng)擁塞無序的問題,推動(dòng)互聯(lián)網(wǎng)從“盡力而為”到“確保所需”技術(shù)體系變革,能夠滿足工業(yè)互聯(lián)網(wǎng)、東數(shù)西算、人工智能大模型等典型場景的網(wǎng)絡(luò)需求。
在人工智能飛速發(fā)展的背后,能源消耗問題也日益凸顯。原國務(wù)院參事、國家能源專家咨詢委員會(huì)副主任徐錠明表示,超級(jí)AI的發(fā)展將成為電力需求的“無底洞”。AI正在賦能能源轉(zhuǎn)型,同時(shí)AI必將推動(dòng)能源革命。能源革命必須面向“雙碳”目標(biāo),構(gòu)建以新能源為主體的新型電力系統(tǒng),一靠氫能、二靠儲(chǔ)能、三靠智能。
在巨大的AI能耗驅(qū)動(dòng)下,高效能算力芯片顯得愈發(fā)重要。清華大學(xué)集成電路學(xué)院助理研究員朱建峰博士指出,通用計(jì)算芯片的主流架構(gòu),計(jì)算資源利用率低,占比低,難并行。在后摩爾時(shí)代,聯(lián)合封裝、工藝、架構(gòu)創(chuàng)新,發(fā)展新型計(jì)算芯片架構(gòu)已成為主流共識(shí)。
作為承載算力底座的數(shù)據(jù)中心,在AGI時(shí)代也面臨向智算中心迭代的挑戰(zhàn)。世紀(jì)互聯(lián)創(chuàng)始人、中關(guān)村超互聯(lián)新基建產(chǎn)業(yè)創(chuàng)新聯(lián)盟理事長陳升表示,AI的終極目標(biāo)是打造一個(gè)超越互聯(lián)網(wǎng)的下一個(gè)全新網(wǎng)絡(luò)信息空間(CyberNext)。通用計(jì)算為主的傳統(tǒng)IDC已走到盡頭,必須加速演進(jìn)到面向大模型的AIDC,對(duì)GPU硬件(供應(yīng)鏈)和軟件生態(tài)做到“兩手抓”。世紀(jì)互聯(lián)的烏蘭察布基地,就是一個(gè)面向大模型時(shí)代的綠色吉瓦級(jí)AIDC算力超級(jí)工廠。該基地實(shí)現(xiàn)了AIDC“三化”:建筑標(biāo)準(zhǔn)化、機(jī)電模塊化、電力總線化。
全面鏈接算力、數(shù)據(jù)、模型,AI-Native應(yīng)用時(shí)代加速到來
面對(duì)算力、電力、算法等瓶頸,矩陣起源創(chuàng)始人兼CEO王龍表示,打造全新的AI-Native服務(wù)平臺(tái)勢(shì)在必行。世紀(jì)互聯(lián)與矩陣起源聯(lián)合運(yùn)營Neolink.AI,就可全面鏈接算力、數(shù)據(jù)、知識(shí)、模型與企業(yè)應(yīng)用,為新一代AI-Native應(yīng)用構(gòu)建提供高性價(jià)比的GPU算力資源和一站式數(shù)據(jù)&AI平臺(tái)產(chǎn)品服務(wù)。
不僅僅是底層基礎(chǔ)設(shè)施,AI Infra架構(gòu)在大模型時(shí)代也面臨融合創(chuàng)新。互聯(lián)科技實(shí)驗(yàn)室AI Platform研發(fā)負(fù)責(zé)人張先國先生指出,面向AGI時(shí)代,在更多算力節(jié)點(diǎn)和更多異構(gòu)資源的場景下,基于新的經(jīng)濟(jì)和激勵(lì)形態(tài)下的Scale-Out分布式架構(gòu)體系,世紀(jì)互聯(lián)正式啟動(dòng)了超互聯(lián)未來(CyberNext)實(shí)驗(yàn)局(0.1版)的研發(fā)和部署,從不同方面驗(yàn)證了城域范圍內(nèi)多節(jié)點(diǎn)分布式訓(xùn)練、跨區(qū)域模型和數(shù)據(jù)集高速分發(fā)、集群算力動(dòng)態(tài)調(diào)度、數(shù)據(jù)和模型安全等的可行性。
在超大規(guī)模智算集群設(shè)計(jì)與實(shí)踐方面,基流科技創(chuàng)始人兼CEO胡效赫先生認(rèn)為,超大規(guī)模智算集群核心面臨幾大痛點(diǎn):可靠性降低、復(fù)雜性提高,問題難定位、解決時(shí)間長。基于此,在考量GPU集群設(shè)計(jì)時(shí)要做到三個(gè)“互聯(lián)”:機(jī)架內(nèi)互聯(lián) 、數(shù)據(jù)中心互聯(lián)、跨數(shù)據(jù)中心互聯(lián)。
AI技術(shù)的迅猛發(fā)展離不開開源技術(shù)的助力,從產(chǎn)業(yè)落地到開發(fā)應(yīng)用,更好的開源生態(tài)能加速AI技術(shù)的創(chuàng)新和迭代速度。開源中國董事長馬越認(rèn)為,通過開源模型可以降低AI門檻,普惠千行百業(yè)。
編輯:孫冰