有統(tǒng)計(jì)顯示,算力規(guī)模排名前20的國家,有17個是全球排名前20的經(jīng)濟(jì)體?梢,數(shù)字經(jīng)濟(jì)發(fā)展水平與算力規(guī)模密切相關(guān)。有人說“得算力者得未來”,這話雖有些絕對,但不可否認(rèn),我們已進(jìn)入算力時(shí)代。
當(dāng)前科學(xué)發(fā)現(xiàn)的四個范式——實(shí)驗(yàn)驗(yàn)證、理論研究、計(jì)算科學(xué)、大數(shù)據(jù)分析和人工智能(AI)計(jì)算處理中,第三和第四范式都與算力密切相關(guān)。但是,這兩種范式背后的算力卻不盡相同。
一般認(rèn)為,算力可分為三大類:高性能計(jì)算的算力(HPC算力或超算)、人工智能計(jì)算的算力(AI算力或智算)、數(shù)據(jù)中心的算力(通用算力)。在回答“哪類算力更適合建在西部”這個問題之前,需要了解這些算力的特點(diǎn)以及發(fā)展中面臨的難題。
國內(nèi)超算“花樣”多
超算是“國之重器”,它們被制造出來應(yīng)對世界上最富有挑戰(zhàn)性的計(jì)算問題。我國超算發(fā)展很快,曾經(jīng)有3臺超級計(jì)算機(jī)占據(jù)世界最快超算500強(qiáng)榜單榜首?梢哉f,過去十年,我國在頂尖超算系統(tǒng)的研制和部署數(shù)量方面都處于國際領(lǐng)先行列。
我國超算應(yīng)用也有很大進(jìn)步。過去十年,我國科學(xué)家依托國內(nèi)頂尖超算系統(tǒng),多次入圍高性能計(jì)算應(yīng)用領(lǐng)域的國際最高獎——戈登貝爾獎,并在2016年首次摘獎。此后,2017年、2021年再次獲得該獎(2020年戈登貝爾獎由中美科學(xué)家聯(lián)合團(tuán)隊(duì)摘得,8人團(tuán)隊(duì)中有7張中國面孔)。
但超算的問題在哪里?如何高效地將世界領(lǐng)先的計(jì)算能力轉(zhuǎn)化為解決尖端科學(xué)與工程難題的能力,依然是一個挑戰(zhàn)——這不是中國超算特有的問題,而是全球面臨的共同問題,目前許多大型超算的建構(gòu)選擇異構(gòu)路線更加大了這一鴻溝。
怎么辦?超算基礎(chǔ)軟件是提升轉(zhuǎn)換能力的關(guān)鍵之一。然而,超算軟件所面臨的環(huán)境并不好。
目前,我國超算平臺架構(gòu)多樣,應(yīng)用移植和調(diào)優(yōu)工作量大。國產(chǎn)超算的三類機(jī)器——神威、天河、曙光都做得很好,但它們分屬不同架構(gòu)。一個超算軟件要從一臺機(jī)器移植到其它機(jī)器上非常難,移植成本也很高。
比如,社區(qū)大氣模式CAM5在神威•太湖之光上的移植和優(yōu)化成本在10人年以上,中國科學(xué)院大氣物理研究所高分辨率海洋模式LICOM3在某超算上的移植和優(yōu)化成本也要6~10人年。
這背后的問題在于我國超算“花樣”太多、種類太多。美國超算發(fā)展之初也是百花齊放,但現(xiàn)在基本上是CPU+GPU的異構(gòu)高性能計(jì)算機(jī)。
我們也要想辦法,比如建立一個編譯優(yōu)化平臺,提供統(tǒng)一并行編程模型,程序員可以在這個模型和平臺上編程、優(yōu)化,在降低開發(fā)復(fù)雜度的同時(shí)還可以跨平臺高效運(yùn)行。此外,國產(chǎn)超算平臺支持復(fù)雜應(yīng)用全流程計(jì)算的能力也亟待提高。
智算:面臨“卡脖子”風(fēng)險(xiǎn)
2020年4月,國家發(fā)改委明確將AI納入“新基建”范圍,此后AI算力成為熱門。AI計(jì)算機(jī)發(fā)展很快,國內(nèi)也在建設(shè)很多智算中心。
智算大概有三類應(yīng)用:圖像檢測和視頻檢索、博弈決策及自然語言處理。其中前兩類應(yīng)用在國民經(jīng)濟(jì)和信息安全保障等方面發(fā)揮巨大作用,但我認(rèn)為它們都不需要太大的計(jì)算機(jī)。
不過,現(xiàn)在國內(nèi)已有20個城市投建了AI計(jì)算中心,規(guī)模很大且價(jià)格不菲。它們?nèi)绻挥脕碜鲎匀徽Z言處理還可以,但前兩類應(yīng)用并不需要。
自然語言處理類應(yīng)用有四種:基于模型的語言翻譯、人機(jī)交互、文本生成摘要及關(guān)鍵詞創(chuàng)作。目前,AI正快速向大模型方向發(fā)展,因?yàn)閰?shù)數(shù)量增長很快,大概每3~4月就需要機(jī)器算力翻倍。
我國AI產(chǎn)業(yè)快速發(fā)展,預(yù)計(jì)2025年AI產(chǎn)業(yè)規(guī)模將超過4500億元,帶動產(chǎn)業(yè)規(guī)模超1.6萬億。但要注意的是,我國AI企業(yè)面臨巨大的“卡脖子”風(fēng)險(xiǎn)。
2021年,我國AI服務(wù)器芯片總出貨量為100萬片,但國產(chǎn)芯片出貨量只有5萬片,95%依賴進(jìn)口。此外,AI算法和深度學(xué)習(xí)框架幾乎90%以上由他國開發(fā)。中國99.5%的在校理工科大學(xué)生學(xué)習(xí)的是國外的AI技術(shù),學(xué)習(xí)自主AI技術(shù)的僅占0.5%。
目前,三類算力——HPC、智能計(jì)算機(jī)、數(shù)據(jù)中心是分開的,我希望“HPC+AI+大數(shù)據(jù)”能夠融合。過去,HPC程序從頭到尾基本上是解方程這類“普通玩法”,但如今HPC面臨的應(yīng)用問題中間可能會有AI計(jì)算需求。預(yù)計(jì)未來三五年后,計(jì)算機(jī)會把HPC、AI、大數(shù)據(jù)計(jì)算融合在一起。
短臨天氣預(yù)報(bào)就是一個融合AI、大數(shù)據(jù)和科學(xué)計(jì)算的場景案例。它既需要大數(shù)據(jù)處理,又需要將HPC、AI融合在一起。目前的處理相對麻煩:預(yù)處理需要一臺機(jī)器,做高性能計(jì)算需要一臺機(jī)器,后處理還需要一臺機(jī)器,因此融合是未來方向。
“東數(shù)西算”:并網(wǎng)和調(diào)度是兩大難題
“東數(shù)西算”的出發(fā)點(diǎn)是把東部的數(shù)據(jù)流動到西部存儲和計(jì)算。東部產(chǎn)生的數(shù)據(jù)比較多,但計(jì)算機(jī)不能全在東部,這不利于“碳達(dá)峰”“碳中和”。西部有土地資源和清潔能源,所以要把存儲器建在西部。
那么哪些數(shù)據(jù)適合在東部計(jì)算、哪些適合在西部?一般來說,對實(shí)時(shí)性要求高的數(shù)據(jù)放在東部計(jì)算,對實(shí)時(shí)性要求不高的可以放到西部。
在三大算力類型中,HPC和AI算力建在西部是合適的。HPC做天氣預(yù)報(bào)的計(jì)算,一算幾個鐘頭,中間也不必進(jìn)行數(shù)據(jù)交換;AI模型的訓(xùn)練一連幾天,這些都可以放在西部。
但數(shù)據(jù)中心搬到西部則不可行,比如短視頻、電子游戲、網(wǎng)絡(luò)即時(shí)通信等應(yīng)用對實(shí)時(shí)性要求很高,無法忍受遠(yuǎn)距離網(wǎng)絡(luò)傳輸帶來的時(shí)延。我們調(diào)查過幾個數(shù)據(jù)中心,它們80%~90%的機(jī)器都在為這三類計(jì)算服務(wù)。
“東數(shù)西算”工程之下,算力網(wǎng)絡(luò)建設(shè)是應(yīng)有之義。算力網(wǎng)絡(luò)就是把很多機(jī)器連在一起做事,但這件事做起來很費(fèi)勁,主要面臨兩大困難——并網(wǎng)和調(diào)度。
并網(wǎng)需要把算力連接起來,這不是簡單的網(wǎng),而是需要帶寬高、時(shí)延低。如果能做到,在北京打電子游戲的客戶,機(jī)器放在西部照樣能玩。但我認(rèn)為這還很難。
做調(diào)度同樣很難,調(diào)度不是房屋租賃中介,只需要對接供需信息就可以。打個比方,有個計(jì)算需求想用神威•太湖之光,但現(xiàn)在機(jī)器很忙,恰好中山大學(xué)的機(jī)器閑置。把問題調(diào)度到中山大學(xué)的超算上行不行?有時(shí)候不行,因?yàn)檫@臺機(jī)器可能運(yùn)行不了專門針對神威•太湖之光寫的軟件。
要想把并網(wǎng)和調(diào)度這兩件事同時(shí)做好非常難,建議成立一個類似“鏈家”的公司專門做調(diào)度。這家公司可以沒有計(jì)算機(jī),就像“鏈家”沒有房子一樣。
綜上所述,我國算力發(fā)展面臨三大問題。第一,國產(chǎn)超算平臺架構(gòu)多樣,應(yīng)用移植和調(diào)優(yōu)工作難度大;第二,國產(chǎn)算力平臺支持復(fù)雜應(yīng)用全流程計(jì)算的能力亟待提高;第三,AI企業(yè)面臨巨大的“卡脖子”風(fēng)險(xiǎn)。
筆者建議,第一,加強(qiáng)跨平臺編譯優(yōu)化研究建設(shè);第二,加強(qiáng)國產(chǎn)超算HPDA系統(tǒng)的軟件研發(fā);第三,定義自主AI產(chǎn)品(如國產(chǎn)AI芯片和學(xué)習(xí)框架),出臺措施鼓勵行業(yè)加速使用;第四,加強(qiáng)HPC、AI和大數(shù)據(jù)三類計(jì)算系統(tǒng)的融合研究!
(作者系中國工程院院士、清華大學(xué)計(jì)算機(jī)系教授,記者趙廣立根據(jù)其在信息化百人會第八屆信息戰(zhàn)略論壇上的發(fā)言整理)