[天津电建]新兴高性能计算行业应用及发展战略
发布日期:2019年7月9日 阅读次数:724 
ba46bcc2f97347db8badf8be468ad5d9.png

?

?

1 新兴高性能计算应用快速发展

新兴高性能计算行业应用主要为数据驱动型应用,应用领域从智慧城市到生物信息处理,乃至基本粒子物理学、天文学和宇宙学等众多领域。数据密集型计算为其最主要的计算行为特征。

1.1 高性能计算在智慧城市领域获得广泛应用

2008 年,IBM 提出智慧地球愿景,智慧城市的概念也随之出现。交通拥堵、环境污染、气候变化、犯罪率上升等一系列问题降低了城市的宜居、宜产程度。智慧城市利用各类传感器采集的数据,汇聚到高性能计算平台,在集成处理的基础上,服务城市决策、社会生产和居民生活。 遍布城市的各类传感器及物联网设备采集的数据,呈现爆炸式增长。2018 年,中国的数据总量约为 7.6 ZB(1 ZB=10^21 字节),占全球总量的 23.4%。预计到 2025 年,中国的数据总量将增长至 48.6 ZB,占全球数据总量的 27.8%,中国将成为全球最大的数据圈。

大规模数据的产生,对数据管理和处理技术提出了严峻的挑战。

如何从各种各样类型的大量非结构化视频数据中精准提取目标信息,包括人、车、物以及各种行为信息,仍是视频信息处理的难点。

未来的 5G 通信技术能够提供极快的传输速度,支持更多的终端接入,缩短延时时间。通信时间大幅缩短之后,“请求-响应”时间的长短对实时计算的要求更高,作为支撑智慧城市深入发展和广泛应用的核心技术,高性能计算也面临着机遇和挑战。



当前主流型号服务器,支持 10—100 通道视频实时处理,大城市监控视频达到 10—100 万个摄像头,后台处理就可能需要 1 万节点规模。

1.2 高性能计算在生命信息领域应用不断拓展



生物计算,包括 DNA 数据处理、蛋白质结构预测、脑模拟等,近 20 年来,呈现快速发展态势。这些计算大部分也是数据密集型的。



(1)在基因数据处理应用方面,高通量测序技术的进步,推动了基因数据爆炸性增长。然而,DNA 包含信息的复杂性,仍对数据分析算法提出新挑战。机器学习在基因组分析与预测的多个方面获得研究与应用,如识别转录起始位点/剪切位点/TF 结合位点、预测基因功能/疾病表型等。深度学习应用的最新突破已经在预测性能方面超过了许多传统的统计推断算法,并且机器学习在基因组学中的癌症诊断、临床遗传、作物改良、流行病、公共卫生、人口遗传、进化、功能基因组等均具有明显发展潜力。当前,大多数问题的预测能力都没有达到实际应用的预期,对这些抽象模型的解释也没有阐明深刻的认识。如何有效利用机器学习获取更强大、更智能的基因组解释能力,还需要探索依赖于特定任务的机器学习模型。

(2)在蛋白质结构预测应用方面,蛋白质结构预测与设计对深入理解蛋白质结构和功能具有重要意义。蛋白质是一切生命系统的物质基础,但其生物功能的发挥,需要蛋白质正确折叠为特定的 3D 结构,蛋白质折叠研究也是药物设计的基础。实验学的方法如 X 射线(X-ray)、核磁共振(NMR)和冷冻电镜解析蛋白质 3D 结构普遍存在设备昂贵、时间和人力成本过高等问题。开发能够自动、快速、准确地将未知蛋白序列分类为特定折叠类别的计算预测方法成为计算生物学家长期努力的方向。使用深度卷积神经网络和残存网络高精度的预测蛋白中的氨基酸-氨基酸接触作用,并将预测结果直接用于蛋白质 3D 结构重建是近期的一个热点。

谷歌 DeepMind 将 AlphaGo 转型,开发了可预测蛋白质折叠的程序 AlphaFold,并以该项目参加了全球蛋白质结构预测竞赛 CASP13,取得了优异的成绩。

麻省理工学院(MIT)的 Belpler 和 Berger利用人工智能(AI)技术,直接通过氨基酸序列预测蛋白质分子的生物学功能。