"銀河""天河":讓五星紅旗插上世界超算之巔

2019年08月09日08:58  來源:湖南日報
 

  天河二號超級計算機機房。(資料圖片)何書遠 攝

  老一輩銀河人攻堅克難。(資料圖片)

  8月盛夏,位於湘江之濱的國家超級計算長沙中心,由國防科技大學研發的“天河”系列超級計算機運算正酣。2000萬億次每秒的峰值計算能力,相當於5萬台個人計算機同時計算,為科學研究、信息服務、裝備制造等領域發展提供強大支撐,產生了重要的應用效益。

  超級計算機是一個國家科技水平和戰略能力的重要標志。從“銀河”實現我國巨型機“零”的突破,到“天河”超級計算機多次問鼎世界超算之巔,41年來,國防科大的科研人員胸懷祖國,不畏艱難,自主創新,勇攀高峰,在中國科技發展之路上書寫了一個又一個的輝煌。

  “銀河”誕生:中國巨型機研制實現“零”的突破

  今天的輝煌,源於昨天的屈辱。

  上世紀70年代,高性能計算成為推動科技創新和經濟社會發展的戰略高技術。然而,由於沒有自己的巨型計算機,中國在經濟社會發展當中常常受制於人。勘探出來的礦藏、石油數據資料,得送到國外去處理,不但花費昂貴,而且數據首先要被外國專家掌握。

  “中國要搞四個現代化,不能沒有巨型機!”1978年,在中央召開的一次重要會議上,鄧小平同志的話擲地有聲。就是在這次會議上,我國決定自主研制巨型機,以解決現代化建設中的大型科學計算問題。鄧小平同志鄭重地將這一重任交給了國防科大。

  當時,國防科大雖是國內最早研制計算機的單位,但此前研制的“151”計算機,運算速度隻有每秒100萬次,如今要研制每秒運算1億次的機器,意味著運算速度要提高100倍,技術難度可想而知。

  “為中華民族爭光!”面對前所未有的困難,科研人員們憋足了一股勁:豁出命也要搞出巨型機來,不讓外國人卡我們的脖子。

  “那真是一段耐著性子卻激情燃燒的歲月。”回憶當時的情景,今年78歲的國防科大計算機學院教授李思昆感慨道。研制工作展開之后,各種復雜技術問題隨之冒了出來。走什麼樣的技術路線?採取什麼樣的體系結構?如何實現每秒一億次的運算速度……問題像一個個“攔路虎”。科研人員們迎難而上,把實驗室當戰場,夜以繼日地進行著這場沒有硝煙的戰斗。

  改革開放之初,我國工業基礎薄弱,加工設備簡陋,元器件落后,在這樣的條件下,設計巨型機的艱難程度可見一斑。

  李思昆回憶說,比如做計算機硬件的電路設計,當時純靠一個一個在紙上畫出來,畫錯了又得重新再來。一個小規模的集成電路設計,光畫圖就得半個月。

  為了趕進度,大家吃在工廠,睡在機房,晚上至少工作到12點。當時,加班費一個晚上兩毛錢,卻沒一個人願意領。大家心裡想的是省下每一分錢,盡快造出中國的巨型機。

  天道酬勤!5年沒日沒夜的頑強拼搏,以慈雲桂教授為代表的科研人員,闖過了一個個理論、技術和工藝難關,創造性地提出了“雙向量陣列”結構,大大提高機器的運算速度,提前1年完成了研制任務,且經費隻用了原計劃的五分之一。

  1983年11月26日,我國首台每秒運算1億次的巨型計算機順利通過了國家技術鑒定,標志著中國在巨型機研制領域實現了“零”的突破,成為當時繼美、日之后,能獨立設計和制造巨型機的國家。

  時任國防科委主任的張愛萍將軍為巨型機揮筆命名為“銀河”,並賦詩一首:“億萬星辰匯銀河,世人難知有幾多。神機妙算巧安排,笑向繁星任高歌。”

  此后,他們又依靠自主創新,相繼研制出“銀河-Ⅱ”“銀河-III”等一系列巨型機,一步步將我國高性能計算機研制技術推向國際前沿,經濟社會發展中一系列迫在眉睫的問題也逐漸解決。

  1997年6月,當運算速度為每秒130億次的“銀河-III”研制成功后,國家氣象局以此來做中長期數值預報系統,對於天氣的預報由以前提前兩三天推進到提前7天左右。

  “天河”問世:中國超算研制水平躋身世界前列

  進入新世紀后,我國各項事業進入高速發展時期,對高性能計算機的運算速度和容量都有了更迫切的需求。但與發達國家相比,我國不僅在計算能力上相差一個量級,裝機數量也相去甚遠。

  國防科大再次受命擔負重任,吹響了攀登世界科技高峰的沖鋒號——早日研制出我國的千萬億次超級計算機系統。

  世界超級計算機的發展表明,計算能力每提高一個量級,都需要體系結構的創新和一系列關鍵技術的新突破。彼時,國防科大雖然具有較為雄厚的技術積累和豐富的工程實踐經驗,但要實現從百萬億次到千萬億次的技術跨越,同樣困難重重。

  面對多方面的技術難題與嚴峻挑戰,科研人員群策群力,自主創新,努力攻克核心關鍵技術,推動我國高性能計算事業向前發展。

  “天河”超級計算機之所以擁有全球最快的運算性能,其奧秘就在於它獨創的CPU+GPU異構體系結構。然而,這一全新的異構體系在創建過程中,遇到了一系列重大技術瓶頸。

  “天河”超級計算機副總設計師楊燦群教授回憶說,GPU的特點是進行圖形和視頻處理,要將它和擅長運算的CPU組合在一起進行計算,不僅編程很難,計算效率也很低,國際上公認的計算效率最高隻有20%。

  創新的關鍵,就在於怎樣把“不可能”變為“可能”,在沒有路的地方走出一條路。

  “早上一起床就開始干,一干就是一整天,晚上睡覺一閉上眼睛,屏幕上的數據還在腦海裡滾動。”楊燦群和課題組成員開始了長達4個月的攻關,在經過了8萬多次實驗與性能優化后,終於找到突破口,使GPU的計算效率達到了70%,創造了一個世界奇跡。

  超級計算機系統要實現每秒運算千萬億次,還必須有一個快捷通暢的網絡系統,讓各種信息“跑得快”。他們為此設計了一種新型交換機的方案,但美國的芯片制造商不肯支持,要求按照美國人的方案設計。可如此一來,成功雖有把握,卻沒有了創新和優勢。

  國防科大的研究團隊不信邪。他們堅持走自己的設計路線,從頭探索,努力攻關。僅用10個月時間,一款新型交換機研制完成,實測技術指標大大超過同類系統,而成本僅是同類同規模產品的80%。

  隨著一系列關鍵技術的突破與工程實現,2009年10月29日,我國首台千萬億次超級計算機“天河一號”研制成功,實現了我國自主研制超級計算機能力從百萬億次到千萬億次的跨越,成為繼美國之后世界上第二個能夠研制千萬億次超級計算機系統的國家。

  面對超算領域的激烈競爭,國防科大的科研人員並沒有陶醉在成功的喜悅之中,而是迅速組織開展技術升級與綜合優化,著手擴建二期系統。

  2010年11月17日,“天河一號A”超級計算機,以峰值速度4700萬億次、持續2566萬億次浮點運算每秒的優異性能,榮登第36屆世界超級計算機500強排行榜榜首。

  中國人首次將五星紅旗插上了超級計算的世界之巔,標志著中國自主研制超級計算機綜合技術水平進入世界領先行列。

  2013年6月17日,他們研制的“天河二號”又以每秒5.49億億次的峰值計算速度和每秒3.39億億次實測計算速度,再次登上全球超算500強榜首。此后,“天河二號”連續6次位居世界超算榜首。

  去年7月下旬,國防科大再傳喜訊,由該校牽頭研制的“E級原型機系統”完成研制部署並通過驗收,標志著我國向新一代百億億次(E級)超級計算機發起了沖鋒。

  “銀河精神”:鑄就中國科技輝煌的“根”和“魂”

  “胸懷祖國、團結協作、志在高峰、奮勇拼搏”,在國防科大計算機學院院史館醒目位置的16個大字,濃縮了國防科大一代代“銀河人”的艱苦探索,揭示了從“銀河”到“天河”的成功真諦。在他們心中,“銀河精神”,是他們堅守的精神高地,更是他們的“根”和“魂”。

  幾十年來,國防科大的科研團隊犧牲了假日的悠閑,舍棄了家庭的溫馨,推遲了婚期,耽誤了治病,放棄了出國深造,許多人把青春甚至生命無怨無悔地獻給了祖國的超算研制事業。

  “天河一號”有一位副總設計師,患有糖尿病等多種疾病。在“天河一號”二期系統安裝調試期間,他在機房裡整整堅守了半年時間。生活、飲食不規律導致他的病情不斷加重,但他堅持不離開崗位。直至從美國傳來“天河一號”首次登上世界超算排名榜首的消息,他才走出機房,住進醫院。

  為設計出高水平的計算機運算控制系統,青年講師俞午龍連續5天5夜沒合眼。第六天深夜,從夢中醒來的妻子發現他還在著魔似的伏案工作,一把搶過書桌上的圖紙說:“你再這樣拼下去,我就把這些圖紙剪碎了!”第二天一早,俞午龍又出差去了黃山。誰也沒想到,他病倒在黃山腳下,再也沒能回來。

  還有43歲的蹇賢福、40歲的張樹生、41歲的王育民……在國防科大,僅為“銀河”系列巨型機事業而獻出年輕生命的科研人員就有20多人。他們以事業丈量生命,化作一塊塊基石,托舉起中國科技騰飛的夢想。

  艱難困苦,玉汝於成!

  通信光纖鋪設,是“天河一號”二期系統進駐國家超算天津中心的首期工程,時間緊迫、任務艱巨。時值盛夏,由於溝槽溫度高達40多攝氏度,水泥表層太粗糙,剛鋪下的光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出線芯。這個問題不解決,輕則信號中斷、通信短路,重則導致系統紊亂。

  面對這種境況,指揮員把衣褲一脫,跳進悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條“人肉地毯”,一根根光纖順著官兵的身軀通暢地向前延伸。

  幾十個人在溝槽裡赤身裸背趴了數十天,被堅硬的水泥地和光纖刮擦得遍體鱗傷,使15000根光纖毫發無損。系統試機那天,打開機器的一瞬,全部通信線路暢通無阻……

  “正是這種在披荊斬棘、攻堅克難中形成的‘銀河’精神,書寫出了中國特色自主創新之路的輝煌。”年逾六旬的國防科大計算機研究所胡慶豐教授欣慰地對記者說。(記者 施泉江 劉文韜 通訊員 韓雪)

  鏈接

  目前,天河超級計算機系統在國家超級計算天津中心、國家超級計算廣州中心和國家超級計算長沙中心使用。

  其中,長沙中心是我國中西部地區唯一的國家級超級計算中心,擁有“天河一號”超級計算機,以及“天河·天馬”人工智能計算集群,“天河三號”也將於2020年落戶該中心。依托天河超級計算機系統,目前中心已形成集“科技研發、技術創新、公共服務、人才培養”於一體的產學研用的融合創新應用服務平台:支撐國家和湖南科技創新,共為1205家用戶提供高性能計算、大數據、雲計算及人工智能等服務,支撐國家級科研項目142項,其他省部級科研項目及企業合作項目430余項﹔創新服務模式,成立了多個超算分中心、行業聯合實驗室、產業園區超算服務站等﹔構建了企業大數據、金融風控、中小企業超算社區、仿真模擬服務、視頻文創等各類創新平台,服務全行業發展﹔緊盯國際、國家科技前沿,建設科普基地、“超算之星”眾創空間,助力湖南及中西部地區的科技創新和人才培養。

  親歷者說

  超前布局 自主創新

  口述者:“銀河”/“天河”新一代高性能計算機互連系統副主任設計師 董德尊

  我從2010年博士畢業留校開始,一直在國防科大計算機學院計算機研究所604研究室工作。

  604研究室是一個有著悠久輝煌歷史和光榮傳統的研究集體,一直是“銀河”“天河”高性能計算機系統研制的關鍵技術團隊。我有幸伴隨集體,經歷了“天河二號”研制周期的全過程。

  “銀河”“天河”團隊在高性能計算系統研發上一直是緊跟國際前沿,超前謀劃,利用技術進步推動應用的發展。實際上,2010年底“天河一號”首次獲得世界超算排名第一之際,“天河”總師組就已經開始謀劃“天河二號”的工作。

  在“天河二號”項目初期,我就參與了項目論証工作,同時作為高速互連系統的參研人員,經歷了數不清的互連分系統的項目討論、集中封閉開發、全系統調試等工作。特別是2013年上半年,我們為了趕進度,24小時倒班進行全系統調試,大家晚上經常在機房和調試間打地鋪睡覺。當時是五六月份,長沙已經開始熱起來,國防科大的供電系統由於重點保障“天河”調機,全校的辦公室空調都停掉了,但我們所在的調試機房卻極其涼快,這也算是調機帶來的一個“福利”吧。

  在參與“天河”互連系統論証和研制過程中,我體會到“天河”團隊對基礎研究的重視,以及勇於自主創新的精神。高性能計算機系統的研制,特別強調硬件、軟件協同設計方法學,而協同設計方法學的有效性,依賴於對硬件—軟件—應用的改變具有持續的性能評估能力。在“天河一號”項目后期,我們互連團隊就開始布局開發針對“天河”系統自主的協同設計工具。

  到目前為止,經過8年多的持續自主開發,我們已經突破了應用驅動的大規模高性能互連網絡性能評測等關鍵技術,研制出支持真實應用負載、網絡功能模型精確、可擴展性好的大規模高性能互連網絡模擬仿真軟件,填補了“天河”團隊乃至我國在該領域的長期空白,為“天河”高性能互連通信網絡持續保持國際領先,提供了有力的自主設計工具。(施泉江 整理)

(責編:唐李晗、邢佳)