來(lái)源:環(huán)球時(shí)報(bào)
【環(huán)球時(shí)報(bào)報(bào)道 記者 馬俊】美國(guó)依靠軟硬件優(yōu)勢(shì),在用規(guī)模“堆”出全球最強(qiáng)人工智能(AI)的這條道路上狂奔不已。美國(guó)富豪馬斯克近日在社交媒體上宣布,旗下AI初創(chuàng)公司xAI已開(kāi)始用10萬(wàn)塊H100 GPU組成的“孟菲斯超級(jí)集群”進(jìn)行AI訓(xùn)練,號(hào)稱(chēng)是“全球最強(qiáng)大的AI訓(xùn)練集群”。中國(guó)是否應(yīng)該跟隨美國(guó)引領(lǐng)的這條技術(shù)路線(xiàn)?近日在由中國(guó)智能計(jì)算產(chǎn)業(yè)聯(lián)盟與全國(guó)信標(biāo)委算力標(biāo)準(zhǔn)工作組共同主辦的2024中國(guó)算力發(fā)展專(zhuān)家研討會(huì)上,多名院士專(zhuān)家給出了各自的觀(guān)點(diǎn)。
未來(lái)超智融合將分為三個(gè)階段
中國(guó)科學(xué)院院士陳潤(rùn)生在研討會(huì)上表示,“人工智能大模型是新質(zhì)生產(chǎn)力的代表,大模型和超級(jí)計(jì)算的融合發(fā)展十分重要,我國(guó)需要認(rèn)真地去布局、去考慮。”中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫岬剑竽P偷难该桶l(fā)展彰顯出新質(zhì)生產(chǎn)力的特質(zhì),但目前也遇到了算力瓶頸。鑒于中國(guó)在超算領(lǐng)域擁有深厚技術(shù)積累,希望超智融合(超級(jí)計(jì)算與以大模型為代表的智能計(jì)算進(jìn)行融合)能有效化解這一挑戰(zhàn)。國(guó)家信息中心信息化和產(chǎn)業(yè)發(fā)展部主任單志廣解釋說(shuō),“超智融合是隨著當(dāng)前基礎(chǔ)算力、智算算力、超算算力等的應(yīng)用多元化發(fā)展而誕生的,即能否用混合型算力資源或者融合型算力體系,來(lái)解決同時(shí)滿(mǎn)足多種不同算力的應(yīng)用需求。”
在預(yù)測(cè)未來(lái)超智融合的進(jìn)程時(shí),中國(guó)科學(xué)院院士錢(qián)德沛認(rèn)為,將沿著for AI、by AI和being AI三個(gè)階段清晰演進(jìn),從硬件到軟件全方位地進(jìn)化,以適應(yīng)和推動(dòng)人工智能技術(shù)的發(fā)展。在第一階段for AI,將著重于對(duì)現(xiàn)有計(jì)算機(jī)系統(tǒng)的改造與升級(jí),發(fā)展專(zhuān)用硬件,確保可高效地支持和執(zhí)行AI任務(wù),為人工智能研究提供堅(jiān)實(shí)的基礎(chǔ)設(shè)施。在第二階段by AI,將要用AI改造傳統(tǒng)的計(jì)算,一方面用AI的方法來(lái)求解傳統(tǒng)超算問(wèn)題,另一方面AI也在影響傳統(tǒng)計(jì)算機(jī)的結(jié)構(gòu),這個(gè)趨勢(shì)也會(huì)逐漸明顯。在最終的being AI階段,計(jì)算機(jī)系統(tǒng)將呈現(xiàn)內(nèi)在的智能特性,人工智能不再是一種外加的能力,而成為計(jì)算機(jī)的核心屬性和基本組成,可能計(jì)算的能力或者智能化的水平,會(huì)遠(yuǎn)遠(yuǎn)超過(guò)我們今天的超算或智算。
陳潤(rùn)生注意到,目前科學(xué)界和產(chǎn)業(yè)界一直在企圖解決超算和智算融合的問(wèn)題。例如英偉達(dá)最新推出的GB200架構(gòu),其實(shí)是兩塊GPU加上一塊CPU,某種意義上就可以算是把智算和超算的優(yōu)勢(shì)都用上了,在兩塊GPU執(zhí)行機(jī)器學(xué)習(xí)的布局中,加上CPU提供的數(shù)據(jù)高速傳輸。但他認(rèn)為,這種架構(gòu)并沒(méi)有從根本上解決效率問(wèn)題。“超算與智算的結(jié)合是必然的,將會(huì)有機(jī)融合,而不是簡(jiǎn)單地把它們湊在一起”。
中國(guó)工程院院士鄭緯民也表示,大模型的開(kāi)發(fā)、訓(xùn)練、微調(diào)及推理各個(gè)環(huán)節(jié)均離不開(kāi)算力,且算力成本占據(jù)著整體開(kāi)銷(xiāo)的大頭,特別是在訓(xùn)練階段,其占比高達(dá)70%,而在推理階段更是高達(dá)95%。鑒于此,算力成為支撐大模型發(fā)展的關(guān)鍵因素。
智能計(jì)算應(yīng)該參考“人類(lèi)智能”
對(duì)于中國(guó)當(dāng)前的大模型熱潮以及跟隨美國(guó)“堆規(guī)模”的技術(shù)路徑,中國(guó)院士專(zhuān)家們提出了各自觀(guān)點(diǎn)。錢(qián)德沛表示,中國(guó)現(xiàn)在搞出的大模型數(shù)量和種類(lèi)比美國(guó)還多,也都在搞通用人工智能,但我們不但在硬件上受到美國(guó)的嚴(yán)格限制,而且用于大模型訓(xùn)練的數(shù)據(jù)的質(zhì)量和數(shù)量也都偏少,“這樣做出來(lái)的大模型能比美國(guó)好嗎?我想我們還是要符合中國(guó)國(guó)情,不能夠完全跟著美國(guó)人走”。
陳潤(rùn)生也認(rèn)為,中國(guó)現(xiàn)在出現(xiàn)的大模型基本上是在美國(guó)提出的大模型和算法上進(jìn)行改進(jìn),但是對(duì)于整個(gè)大模型的基礎(chǔ)理論考慮甚少。他在研討會(huì)上提出,對(duì)比傳統(tǒng)超算采用的局域式記憶模式,智能計(jì)算展現(xiàn)出了根本性的差異——信息的分布式存儲(chǔ)。這種存儲(chǔ)方式模仿了人腦神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu),通過(guò)大規(guī)模、密集互聯(lián)的芯片網(wǎng)絡(luò)來(lái)承載日益龐大的模型。但是如何有效地將人類(lèi)知識(shí)嵌入這些復(fù)雜系統(tǒng),以及信息具體如何在系統(tǒng)中分布存儲(chǔ),其背后的算法與技術(shù)理論仍未充分探索。“隨著模型規(guī)模的無(wú)節(jié)制擴(kuò)張,導(dǎo)致一個(gè)不可克服的問(wèn)題是能源耗竭,因此一味地增加芯片,依靠增加系統(tǒng)的復(fù)雜度來(lái)解決大模型的存儲(chǔ)問(wèn)題是不完全可取的”。
由此陳潤(rùn)生認(rèn)為,未來(lái)智能計(jì)算還是應(yīng)該參考“人類(lèi)智能”,也就是模擬人腦的運(yùn)行機(jī)制。人腦的體積非常小,能耗只有幾十瓦,但它所產(chǎn)生的智能,超過(guò)了現(xiàn)在最先進(jìn)的、能耗相當(dāng)于一整座城市的AI。“大模型與智算的發(fā)展,不只是應(yīng)用層面的模型和算法上改進(jìn),還需要從基礎(chǔ)理論角度去有所突破。現(xiàn)在大模型只是發(fā)展了前10%,還有90%的工作沒(méi)做,我也相信大模型絕對(duì)不是靠著越堆芯片越多實(shí)現(xiàn)的,一定像人類(lèi)的大腦一樣學(xué)習(xí),把空間復(fù)雜度、時(shí)間復(fù)雜度壓縮得更小,能耗降得更低。所以我覺(jué)得最基本的問(wèn)題,是要研究目前空間復(fù)雜度來(lái)完成智算的基礎(chǔ)理論。如果我們能在基礎(chǔ)理論上有所發(fā)展,我們就能完成根本和原始創(chuàng)新。”
北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所研究員袁國(guó)興認(rèn)為,不可能指望一種通用大模型在各行各業(yè)都能夠解決問(wèn)題。從實(shí)際情況看,不同的應(yīng)用有不同的技術(shù),要求用不同的算法,對(duì)計(jì)算能力也有不同的要求。例如在科學(xué)計(jì)算方面,對(duì)計(jì)算精度的要求越來(lái)越高,而隨著計(jì)算機(jī)的規(guī)模擴(kuò)大,數(shù)據(jù)越來(lái)越多,可信度在不斷地下降。美國(guó)國(guó)家航空航天局(NASA)也提出類(lèi)似的觀(guān)點(diǎn),他們對(duì)計(jì)算精度提出很高的要求。因此未來(lái)不同的應(yīng)用會(huì)有不同的大模型、不同的計(jì)算,解決不同的問(wèn)題。現(xiàn)在的大模型對(duì)計(jì)算精度和算法的要求完全不一樣。
中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏補(bǔ)充說(shuō):“計(jì)算和訓(xùn)練對(duì)底層基礎(chǔ)設(shè)施要求并不一樣,也需要判斷在什么場(chǎng)景下要屏蔽差異性,在什么場(chǎng)景要體現(xiàn)差異性。”
需要發(fā)展主權(quán)級(jí)大模型
張?jiān)迫硎荆绹?guó)最近通過(guò)一系列舉動(dòng)試圖在發(fā)展人工智能方面對(duì)我國(guó)“卡脖子”,包括禁售高端GPU、終止共享大模型的源代碼以及中斷生態(tài)方面的合作等。同時(shí)現(xiàn)在大模型的運(yùn)算規(guī)模達(dá)到1萬(wàn)塊GPU,甚至10萬(wàn)塊時(shí),就需要通過(guò)發(fā)展大模型專(zhuān)用超算來(lái)突破能耗墻、可靠性墻、并行墻等技術(shù)瓶頸。在此背景下,想要在短期內(nèi)突破大模型算力瓶頸,中國(guó)有一條路可走:利用過(guò)去二十多年積累的先進(jìn)超算技術(shù),研發(fā)大模型專(zhuān)用超算,克服大模型算力瓶頸問(wèn)題,使我國(guó)可以緊緊咬住全球大模型最先進(jìn)水平,不至于掉隊(duì)。
張?jiān)迫诮榻B超智融合體系下的“主權(quán)大模型”計(jì)劃時(shí)表示,我國(guó)在超算領(lǐng)域擁有深厚技術(shù)積累,近年又投入巨量資金發(fā)展智能算力,聚焦建立以超智融合算力體系為中心的體系工程響應(yīng)大模型的算力需求,希望能最大化利用超算技術(shù)優(yōu)勢(shì)破解算力挑戰(zhàn)。按照“主權(quán)級(jí)大模型”計(jì)劃的部署,“主權(quán)級(jí)大模型”創(chuàng)新聯(lián)合體將依托國(guó)家超算、中科院和全國(guó)重點(diǎn)院校的知名教授團(tuán)隊(duì)、智能芯片企業(yè)、大模型解決方案企業(yè)等共同打造類(lèi)似OpenAI的開(kāi)放組織,由非營(yíng)利性部門(mén)組織“主權(quán)級(jí)大模型”研發(fā),由營(yíng)利性部門(mén)組織“主權(quán)級(jí)大模型”落地。他建議說(shuō),超算是“國(guó)之重器”,需要用來(lái)攻克最大、最難的挑戰(zhàn)。主權(quán)級(jí)大模型是一個(gè)能支撐國(guó)家發(fā)展的根模型,不是一般的大模型。類(lèi)似的國(guó)家級(jí)超級(jí)大模型也受到其他國(guó)家的高度重視,例如美國(guó)微軟公司攜手 OpenAI發(fā)布了計(jì)劃投入1000億美元全新人工智能超級(jí)計(jì)算機(jī)的計(jì)劃,日本最近也宣布要投入巨資發(fā)展國(guó)家級(jí)大模型。
陳潤(rùn)生認(rèn)為,根據(jù)中國(guó)目前的基礎(chǔ)條件以及大模型必然要發(fā)展的趨勢(shì),我們完全跟隨西方的做法是不現(xiàn)實(shí)的,也是很難在短期內(nèi)趕上的。所以找到一條發(fā)展主權(quán)級(jí)大模型的路,更為重要。