硬件资源
AI集群(智算)
AI集群采用K8S+Docker构建,为每一个AI计算提供完全独立的环境。集群可以帮助用户轻松上传私有镜像或从外部docker社区容器库导入镜像进行开发和训练。集群通过友好的图形化界面帮助用户大幅降低学习成本,快速完成计算环境的部署并展开自己的科研计算。目前AI集群有25个计算节点,CPU合计1584核,GPU合计146张。
CE集群(超算)
该集群采用高性能计算集群管理软件管理软硬件资源,并根据集群中的资源使用情况来合理地调度用户提交的作业,从而达到提高资源的利用率和作业的执行效率的作用。目前CE集群有29个计算节点,CPU合计1344核,GPU合计38张,DCU合计8张。
OD集群(超算)
OD集群在架构和使用方法上和CE集群类似,但其计算节点拥有图形化界面,同时该集群的所有计算节点可以直接连接外网,在功能上是对CE集群很好的补充。目前OD集群有27个计算节点,CPU合计782核,GPU合计18张。
存储
并行文件系统使集群里所有计算节点都可通过单一文件目录读写存储系统里的文件,并且满足大规模随机 IO、频繁的读写操作、通信密集的要求。高性能计算平台采用稳定性良好的商业版并行存储,裸存储容量2PB。
计算网络
平台采用IB HDR 200G网络架构,现阶段为100G带宽。