English

数据储存&运算平台

数据运算平台

数据运算平台

Data computing platform

国家健康医疗大数据研究院主要采用分布式集群方式搭建了自己的高性能计算集群CHESS平台,通过Slurm任务调度完成超大规模数据的模拟计算。SLURM 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,具有高度可移植、可伸缩至大型节点集群、容错好,开源的优点。分布式计算(MPI)是一个跨语言的通讯协议,用于编写并行计算机并支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。研究院现有计算服务包括山东大学兴隆山校区R服务器、浪潮计算服务器、分布式计算MPI和山大趵突泉校区老服务器。


序号 节点角色 配置 数量 品牌型号
1 管理、IO节点

CPU:32 vCPU

内存:64GB vMemory

硬盘:500GB vHDD

200TB vHDD Pass through OceanStor5500

网络:1000Mb虚拟以太网络   10Gb虚拟以太网络

NFS导出:/home   /data_200t

1 华为FusionSphere虚拟机
2 IO节点

CPU:2 * Intel Xeon E5-2630 v3

内存:64GB

硬盘:200GB SSD RAID 1

12 * 8TB NL-SAS 7.2K 3.5 Inch RAID 50

网络:1000Mb以太网络

NFS导出:/data_50t

1 DELL 730xd
3 GPU计算节点

CPU:2 * Xeon Gold 5118

内存:256GB DDR3

硬盘:2 * 600GB 10K SAS 2.5 Inch RAID 1

加速卡:2 * NVIDIA Tesla V100

网络:1000Mb以太网络

10Gb 光口以太网络

4 华为RH2288H V5
4 GPU计算节点

CPU:2 * Xeon E5-2697 v3

内存:128GB DDR3

硬盘:200GB SSD

网络:1000Mb以太网络

10Gb 光口以太网络

2 DELL R730
5 登陆节点

CPU:1 * Xeon E5-2620v3

内存:32GB

硬盘:3 * 4TB SATA JBOD

显卡:1 * NVIDIA Quadro K2200

网络:1000Mb以太网络

1 DELL T7910
6 管理网络 1000Mb以太网络 1
7 计算/存储网络 10G光口以太网络 1

研究院计算平台现有硬件环境


序号 软件类型 名称及版本
1 操作系统 CentOS 7.5 x86_64
2 集群管理软件 CHESS 5.3 for CentOS 7 x86_64
3 编译器 gcc、gfortran、gcc-c++、parallel_studio_xe_2018_update4、cuda
4 数学库 MKL、BLAS
5 并行消息传递库 OpenMPI、Intel MPI
6 客户应用软件 MATLAB、Anaconda3、R、Tensorflow、Caffe2、Pytorch
7 驱动更新信息

NVIDIA-Linux-x86_64-418.40.04.run

cuda_10.1.105_418.39_linux.run

研究院计算平台现有软件环境


采用10Gb(红色)以太互联高速网络,用于存储NFS IO及计算数据互联,1000Mb网络(黑色),用于管理数据、任务调度数据、监控数据的传输,同时管理节点引出网口上联校园网方便用户登录集群。


研究院数据流图