国家健康医疗大数据研究院主要采用分布式集群方式搭建了自己的高性能计算集群CHESS平台,通过Slurm任务调度完成超大规模数据的模拟计算。SLURM 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,具有高度可移植、可伸缩至大型节点集群、容错好,开源的优点。分布式计算(MPI)是一个跨语言的通讯协议,用于编写并行计算机并支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。研究院现有计算服务包括山东大学兴隆山校区R服务器、浪潮计算服务器、分布式计算MPI和山大趵突泉校区老服务器。
序号 | 节点角色 | 配置 | 数量 | 品牌型号 |
---|---|---|---|---|
1 | 管理、IO节点 | CPU:32 vCPU 内存:64GB vMemory 硬盘:500GB vHDD 200TB vHDD Pass through OceanStor5500 网络:1000Mb虚拟以太网络 10Gb虚拟以太网络 NFS导出:/home /data_200t |
1 | 华为FusionSphere虚拟机 |
2 | IO节点 | CPU:2 * Intel Xeon E5-2630 v3 内存:64GB 硬盘:200GB SSD RAID 1 12 * 8TB NL-SAS 7.2K 3.5 Inch RAID 50 网络:1000Mb以太网络 NFS导出:/data_50t |
1 | DELL 730xd |
3 | GPU计算节点 | CPU:2 * Xeon Gold 5118 内存:256GB DDR3 硬盘:2 * 600GB 10K SAS 2.5 Inch RAID 1 加速卡:2 * NVIDIA Tesla V100 网络:1000Mb以太网络 10Gb 光口以太网络 |
4 | 华为RH2288H V5 |
4 | GPU计算节点 | CPU:2 * Xeon E5-2697 v3 内存:128GB DDR3 硬盘:200GB SSD 网络:1000Mb以太网络 10Gb 光口以太网络 |
2 | DELL R730 |
5 | 登陆节点 | CPU:1 * Xeon E5-2620v3 内存:32GB 硬盘:3 * 4TB SATA JBOD 显卡:1 * NVIDIA Quadro K2200 网络:1000Mb以太网络 |
1 | DELL T7910 |
6 | 管理网络 | 1000Mb以太网络 | 1 | |
7 | 计算/存储网络 | 10G光口以太网络 | 1 |
研究院计算平台现有硬件环境
序号 | 软件类型 | 名称及版本 |
---|---|---|
1 | 操作系统 | CentOS 7.5 x86_64 |
2 | 集群管理软件 | CHESS 5.3 for CentOS 7 x86_64 |
3 | 编译器 | gcc、gfortran、gcc-c++、parallel_studio_xe_2018_update4、cuda |
4 | 数学库 | MKL、BLAS |
5 | 并行消息传递库 | OpenMPI、Intel MPI |
6 | 客户应用软件 | MATLAB、Anaconda3、R、Tensorflow、Caffe2、Pytorch |
7 | 驱动更新信息 | NVIDIA-Linux-x86_64-418.40.04.run cuda_10.1.105_418.39_linux.run |
研究院计算平台现有软件环境
采用10Gb(红色)以太互联高速网络,用于存储NFS IO及计算数据互联,1000Mb网络(黑色),用于管理数据、任务调度数据、监控数据的传输,同时管理节点引出网口上联校园网方便用户登录集群。
研究院数据流图