CE集群

该集群采用高性能计算集群管理软件管理软硬件资源,并根据集群中的资源使用情况来合理地调度用户提交的作业,从而达到提高资源的利用率和作业的执行效率的作用。目前CE集群有25个计算节点,CPU合计968核,GPU合计38张。

AI集群

AI集群采用K8S+Docker构建,为每一个AI计算提供完全独立的环境。集群可以帮助用户轻松上传私有镜像或从外部docker社区容器库导入镜像进行开发和训练。集群通过友好的图形化界面帮助用户大幅降低学习成本,快速完成计算环境的部署并展开自己的科研计算。目前AI集群有14个计算节点,CPU合计688核,GPU合计79张。

OD集群

OD集群在架构和使用方法上和CE集群类似,但其计算节点拥有图形化界面,同时该集群的所有计算节点可以直接连接外网,在功能上是对CE集群很好的补充。目前OD集群有30个计算节点,CPU合计930核,GPU合计34张。

存储

并行文件系统使集群里所有计算节点都可通过单一文件目录读写存储系统里的文件,并且满足大规模随机 IO、频繁的读写操作、通信密集的要求。高性能计算平台采用稳定性良好的商业版BeeGFS并行存储,裸存储容量1PB。

计算网络

平台采用IB HDR 200G网络架构,现阶段为100G带宽,后续根据实际计算需求可顺利扩容到200G带宽,最大限度的降低计算中网络瓶颈的影响。