听沈立教授讲“天河人”如何在实战中突破自我、创造奇迹

来源:解放军报 作者:沈立 责任编辑:叶梦圆 2023-03-28 09:36:26

“‘银河-Ⅰ’又被称为‘争气机’,它是中国第一台每秒运算达1亿次以上的巨型计算机,填补了我国巨型计算机的空白,标志着中国进入世界巨型计算机的研制行列。”走进国防科技大学计算机学院院史馆,一堂特殊的公开课正在进行……

每个学期,在沈立教授主讲的《高级计算机体系结构》这门课的课堂上,类似的教学场景都会出现。

“把‘沉浸式体验’与真实场景相衔接,让学员在‘线下’交流中得到真切感受,更能激发他们的求知欲和情感共鸣。”从教20年,作为一名与“天河”共同成长的科研人,沈立将思政元素融入课程讲授。

从“银河”实现我国巨型机“零”的突破,到“天河”超级计算机多次问鼎世界之巅,这些振奋人心的消息穿越时空,激励着新一代“天河人”披荆斩棘,为中国科技事业发展不懈奋斗。

“天河人”眼中的星辰大海

■沈 立

1175604da8c0faf95a3d2a19af1d8b78.jpg

国防科技大学计算机学院教授沈立(右)在院史馆进行情境教学。    罗雅岚摄

【主讲人名片】

沈立,男,国防科技大学计算机学院某系教授。执教20年,长期从事计算机体系结构方向的教学和科研工作,曾获军队院校育才奖银奖。教学科研成果获得首届全国优秀教材一等奖、国家教学成果二等奖、军队教学成果一等奖。

用身躯铺设“台阶”

1993年,作为一名大一新生,我第一次走进院史馆,看到了被安放在醒目位置的“银河-I”。

对当时的我来说,这个年代感十足的“大柜子”,是如此神秘且具有吸引力。看着它密密麻麻、整整齐齐的排线,以及机身上那一个个依然闪着亮光的焊接点,一瞬间,我的“超算”梦被点燃了。

然而,追梦的道路从来不会是坦途。

每日坐在电脑前,长时间对着键盘敲击,我的耐心快要被重复性的机械操作消磨殆尽。第N次编写代码“颗粒无收”后,一丝放弃的念头在心中闪过。

我垂头丧气的样子,被导师王志英看在眼里。他走过来拍了拍我的肩膀,跟我讲起他的导师——“银河”巨型计算机事业开拓者慈云桂教授和团队成员的故事。

1978年,中国吹响了每秒亿次巨型计算机攻坚战的冲锋号。

要求高、起点低、条件差,面对技术封锁,年过花甲的慈云桂教授立下军令状:“就是豁出这条老命,也要把我国的巨型机搞出来!六年时间,一天也不能多!亿次速度,一次也不能少!”

为确保机器质量,慈云桂层层把关,带着成员们全身心投入。今天我们看到,“银河-I”全机拥有4万多根直径0.5毫米的绕机线,12万个绕接点和200多万个手工焊点。由于当时工艺水平落后,这些全都依靠人工一条一条接、一个一个绕。只要一个点的信号线绕接出错,就会导致整台机器瘫痪。

一名刚刚大学毕业的同志,在堆得几寸高的信号线团中,一根根小心仔细排查,与设计图纸逐一比对。每当眼前画面变得模糊,他就用湿毛巾敷在眼睛上缓解酸痛,生生把双眼熬成了两个“大红杏”。

慈云桂和许许多多默默奉献的同志,用自己的身躯铺设“台阶”,推动着巨型机研制快速发展。1983年 12 月 22日,“银河-I”研制成功了!中国成为世界上第三个能够独立设计和制造亿次巨型机的国家。

至今,我仍记得听到这段故事时心中的震撼。是前辈们日复一日、年复一年的坚持,给予我敢啃硬骨头的底气和信心。

2011年5月,我参与的某个国家重点基础研究发展计划课题即将验收。对原型系统进行测试时,我发现系统性能距离预期指标有一定差距,存储模块中的一个bug,可能导致整个系统运行失败。

“立刻返工,哪怕有一个模块不合格都不行!”为了快速找出问题,我和同事们决定把设计方案推倒重来。

那两个月里,我们进行了上百次参数调试。每当遇到想不通的地方,我就会去操场跑几圈。人在操场不停跑,代码在脑袋里不停转,有时跑着跑着,问题就“跑”通了。

从在院史馆看到“银河-I”的“真容”,到成为“天河”团队中的一员,每每目睹大家团结协作、攻坚克难的一幕幕,内心总会盈满奋进的力量。

志之所趋,无远弗届。在科技自主创新的路上,一代又一代的“银河人”和“天河人”,始终以攀登的姿态奋力前行。

把“不可能”变成“可能”

黑色机柜整齐排列,指示灯不断闪烁。院史馆一处摆台上,荣登世界超级计算机500强排行榜榜首的“天河一号”等比例模型赫然而立。

“天河一号”拥有超强运算性能的奥秘,就在于它独创的CPU(中央处理器)+GPU(图形处理器)异构融合体系结构。当时,国际上还没有将异构结构应用于超级计算机的先例,但“天河人”硬是把“不可能”变成了“可能”。

CPU+GPU异构融合体系结构,形象地说,就是把众多 CPU、GPU有机地连成一枚“捆绑式火箭”,通过协同计算,最大限度提高计算效能。

在进行可行性验证时,科研人员发现GPU只能发挥20%左右的计算效能,如果想做超算,效能至少要到70%以上。

为了实现这50%的性能跨越,“天河一号”副总设计师杨灿群带领他的团队开始了一场惊心动魄的大决战。

长沙北郊,湘江之畔。群山环抱处,山上草木郁郁葱葱,山下坐落一栋三层小楼。由于人迹稀少,周遭格外幽静,这里便成了攻坚的主战场。

杨灿群和他的突击队队员,整日待在小楼里。他们时刻紧盯着显示屏,试图从眼前不停滚动的浩瀚数据中,抓取那一个个稍纵即逝的灵感。

一天夜里,尽管精疲力尽,杨灿群却怎么也睡不着。他的脑海中,闪过一行行代码参数。隐约间,他感觉一些数据低于设计目标,于是一骨碌从床上爬起来。

打开笔记本电脑,进入试验数据库,杨灿群果然发现GPU一部分计算资源没有用起来。难以抑制兴奋的他,立刻着手程序优化。当杨灿群改完程序,打开房门时,天已经大亮。

这样的夜晚,对杨灿群来说,并非那段日子里的偶然。连续奋战4个月、先后改进优化8万余次,杨灿群和队员们将GPU计算效能提升至70%以上,达到世界最高水平。

今天,勇敢无畏的新一代“天河人”,也在一次次实战中突破自我、创造奇迹。

2013年11月,丹佛国际会议中心,气氛紧张又热烈。我带领本科学员参加世界大学生超级计算机大赛,来不及调整时差,我们一到赛场就开始装机和调试。

由于比赛所用机器的参数和场地环境都跟预估不同,几道题目的结果都低于预期。临时出现的状况,让大家有些措手不及。

“更换备用CPU,减少基础功耗,提高GPU效能!”我立即组织学员进行调整。焦灼时刻,我们还移动了机柜位置,避免空调和其他机柜热风产生的影响。

时间“滴答滴答”地走,大家脑门上也渗出了一层汗。终于,经过半个小时的努力,机群开始正常运行。

“恭喜中国国防科技大学代表队!”宣告结果的一瞬间,大家悬着的心终于落了地,并在下一秒迸发出巨大的幸福感。那一次,我们赢得了最高性能奖,并打破世界纪录。

从“银河”到“天河”,从历史到未来,所谓“跨越”,就是把一个个“不可能”变成“可能”。

走别人没有走过的路

“天河”的应用成果,就像展示柜里主板上密密麻麻的焊接点一样,数不胜数。

2022年4月,依托“天河”新一代超级计算机完成的“城市污染物大规模数值模拟”,实现了深圳市两千平方公里范围内、包含超过15万栋建筑的三维高精度风环境和污染物扩散仿真。

这是世界上模拟范围最大、网格量最大、精度最高水平的微尺度风场模拟,对提升城市污染物预测和防治研究起到了重要促进作用。

从追随到领跑,“天河人”在别人尚未涉足的领域闯出了一条新路。

大规模计算机系统通常采用电互联技术,信息传输速率慢且易受干扰,影响系统稳定性。这是我国千万亿次级超级计算机研制路上的一块“绊脚石”。

搬开这块“绊脚石”的最优方案,是用光互联替代电互联,承担这一重任的就是“天河二号”副总设计师肖立权。

“走别人没有走过的路很难,但我喜欢挑战!”接下任务后,肖立权立即着手解决这项技术难题,但按照他的思路做出来的系统根本“跑不起来”。

“哪里出了问题?”肖立权辗转难眠,干脆来到实验室。他架起示波器、逻辑分析仪,全神贯注地盯着屏幕,生怕错过关键数据。

尽管解决方案被一次次提出,又被一次次推翻,肖立权也从没想过放弃,总是不断提出新的想法。

有一天,肖立权脑海中突然冒出一个想法:是不是数据传输有问题?就是这下灵光突现,让他抓到了解决问题的“钥匙”。由此,我国光电混合传输技术在大规模计算机系统中得到有效验证。

科研攻关就像战场,想要立于不败之地,就要时刻保持冲锋的斗志。

有一年,我参与的国家某重点课题准备进行最后的完全测试。

测试程序启动后,大家的目光都聚焦在屏幕上。突然,那些欢快奔腾的数据慢了下来,系统的运行速度降低了。

大家心里一沉。为了找到问题的症结,我们熬了一个又一个通宵。

那几个月,我们不停统计计算、混洗指令、分析结果。封闭的机房里,灯一直亮着。有时对着电脑坐久了,也不管外面是白天还是黑夜,我们只在困了累了时,打开行军床躺一会儿。

最终,经过多次迭代,我们创新性提出了一种隐式数据重组技术。当年跟我一起“熬油点灯”的学员,如今有的已成长为某重点工程主任设计师。

我想,我大概永远也忘不了那一个个墨色的夜晚。

遥远深幽的夜空中,一条光带若隐若现,是天上的银河。大地上的楼宇内灯火通明,一个个行色匆匆的忙碌身影,似机柜上不停闪烁的指示灯,汇聚起了一道“天河”……

那一刻,星辰大海与我如此接近。心怀梦想,我们看向更宏阔的未来,也必将站得更高、行得更远。

(解放军报特约记者许鑫、通讯员高莉华整理)

轻触这里,加载下一页

分享到


分享到微信朋友圈×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。