Skip to content

Commit

Permalink
refactor: document structure
Browse files Browse the repository at this point in the history
fix: remove deperacted info
  • Loading branch information
Cloudac7 committed Oct 31, 2024
1 parent 5f8a7c4 commit 3e220a8
Show file tree
Hide file tree
Showing 18 changed files with 226 additions and 128 deletions.
3 changes: 2 additions & 1 deletion .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -2,4 +2,5 @@
.DS_Store
_build/
site/
*.sw*
*.sw*
.vscode/
5 changes: 5 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,3 +13,8 @@
*/10 * * * * flock -n /tmp/hpc-manual.lock /opt/hpc-manual/update.sh
```

## 变更

每次更新后请在 `index.md` 修改文档更新时间。

对于每次集群面向用户发布的公告请归档在 `introduction/changelog.md` 中。
22 changes: 12 additions & 10 deletions docs/index.md
Original file line number Diff line number Diff line change
@@ -1,7 +1,7 @@
# 嘉庚创新实验室智算中心用户使用手册

!!! info
本文档内容更新于 2024-10-21
本文档内容更新于 2024-10-30

该文档为高性能计算平台使用文档,内容包括如何登录集群、如何运行作业和如何使用软件等。

Expand All @@ -11,14 +11,16 @@

本使用文档包含以下主要内容:

1. [平台简介](introduction/platform.md):介绍平台资源
2. [开户流程](introduction/usage.md): 介绍开户流程
3. [SCOW](scow/scow.md):SCOW系统的使用说明。
4. [用户登录与文件传输](login-ftp/login-ftp.md):如何登录集群和进行文件传输。
5. [分区(队列)管理](partition/partition.md):分区和队列的管理方法。
6. [Slurm作业调度系统](./slurm/slurm.md):详细介绍Slurm的各项功能和使用方法。
7. [应用软件及脚本](./app/app.md):如何使用平台上的应用软件和编写脚本。
8. [注意事项](./notes/notes.md):使用平台时需要注意的事项。
9. [故障排查](./notes/troubleshooting.md):对可能遇到的故障进行排查。
1. [平台简介](introduction/index.md):介绍平台资源
2. [重大更新](introduction/updates.md): 汇总智算中心重大更新相关公告信息
3. [开户流程](introduction/register.md): 介绍开户流程
4. [用户登录与文件传输](usage/login.md):如何登录集群和进行文件传输
5. [分区(队列)管理](usage/partition.md):分区和队列的设置和收费标准
6. [SCOW算力平台](usage/scow.md):SCOW平台的使用说明
7. [Slurm作业调度系统](slurm/index.md):详细介绍Slurm的各项功能和使用方法
8. [应用软件及脚本](./usage/app.md):如何使用平台上的应用软件和编写脚本
9. [注意事项](./information/notes.md):使用平台时需要注意的事项
10. [故障排查](./information/troubleshooting.md):用户对可能遇到的故障进行排查的流程
11. [常见问题](./information/faq.md): 用户经常遇到的问题汇总

希望本目录能帮助您快速找到所需信息,提升使用体验。
30 changes: 30 additions & 0 deletions docs/information/faq.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
# 常见问题

1. 收费标准
平台集群总费用为CPU,GPU和存储三者的费用之和。CPU 资源按核时收费,GPU 资源按卡时收费。具体费率标准请参考[分区规则和收费标准](../usage/partition.md),或请发送邮件至[[email protected]](mailto:[email protected])咨询。
2. 单个作业最长运行时间是多长
具体时间限制可以通过 `sacctmgr show qos format=Name,MaxWall,Priority` 命令查看 `MaxWall` 参量
3. 为什么我的作业运行结果是作业运行结果是`node_fail`,该怎么处理?
`node_fail` 是提示由于计算节点故障导致作业运行失败
4. 为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?
登录节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,在登录节点设置了任务检测服务,查杀不正常占用登录节点资源的任务。
5. 如何在集群上安装软件?
集群上软件安装,请依次判断适用哪种情况:若为商业软件,请自行获取软件使用权并安装;若为常用开源软件,请先根据应用软件文档及用户手册,确定集群是否已有安装。
1. 若未安装,请先考虑是否能用conda方法安装;
2. 再考虑在自己家目录下使用源码安装,遇到问题,请将可复现的步骤,发至hpc 邮箱获取帮助;
3. 软件也可利用 Singularity 容器部署或使用;
4. 我们也将对常用开源软件进行评估,以便全局部署。欢迎邮件联系我们。
6. 集群上是否提供商业软件?
暂时仅提供 VASP、Gaussian,用户如需使用,须联系管理员并提供软件使用权证明以开通权限。
7. 普通用户如何使用 `sudo` 安装软件?
有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用 `sudo` 特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用 `sudo`。通常普通用户无需 `sudo` 就能在家目录中安装和使用软件,且使用 `sudo` 安装的软件会被错误安装在本地文件系统上而不能在计算节点上运行。请参考当前集群提供的软件模块或通过[[email protected]](mailto:[email protected])邮箱告诉我们需要安装的软件。普通用户也可以使用容器的方式安装,容器内用户拥有“模拟root权限”。
8. 如何在论文中致谢嘉庚智算中心?
致谢模版如下。欢迎大家将已接收的高质量成果邮件分享给我们。
- (中文)本论文的计算结果得到了嘉庚创新实验室智算中心的支持和帮助;
- (英文)The calculation results of this paper have been supported and helped by ikkem Intelligent Computing Center
9. 有没有机时奖励政策?
暂无
10. 忘记密码或密钥丢失怎么办?
如用户忘记密码,或者密钥丢失可利用用户申请时的联系邮箱发送密码重置需求到[email protected]邮箱或是在微信服务群内联系管理员进行重置。

使用过程中发现的其他问题请查阅本用户手册或通过邮件联系我们。
4 changes: 3 additions & 1 deletion docs/notes/notes.md → docs/information/notes.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,8 +19,10 @@
错误原因:通常是因为没有指定正确的账户,可通过以下指令获取可用账户。

```sh
sacctmgr show ass user=`whoami` format=account%15 | uniq
sacctmgr show ass user=`whoami` format=account%20 | uniq
```

如果已经指定了正确的账户,则可能是由于账户欠费等原因被临时封禁,请联系智算管理人员进行确认。

5. `(QOSMaxWallDurationPerJobLimit)`

Expand Down
File renamed without changes.
81 changes: 81 additions & 0 deletions docs/introduction/index.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,81 @@
# 平台概况

嘉庚创新实验室智能计算中心(简称“嘉庚智算中心”)于 2022 年建成投用,不但配置先进液冷技术,实现绿色节能,更是配备了先进的计算硬件(390 个 CPU 计算节点、6 个 GPU 计算节点和 2 个胖节点),能支持模型训练、模拟仿真、大规模科学计算。

## 硬件资源

- 390个双路CPU计算节点(2\*Intel 6338 Xeon CPU ,共64 CPU核心, 256 GB内存,240GB SSD硬盘
- 6个8卡GPU计算节点(2\*Intel 8358 Xeon CPU,共64 CPU核心,1536 GB内存,8\*Tesla A100 GPU)
- 2个FAT胖节点(2\*Intel_8358_Xeon CPU, 共64 CPU核心,1024 GB内存,2\*240GB SSD硬盘,2\*2TB SSD硬盘)
- 4个管理节点(2\*Intel 6338 Xeon CPU,共64 CPU核心, 512 GB内存,2\*240GB SSD硬盘)
- 1个登录节点
- 1个监视节点

## 专业智算服务

人工智能应用电化学实验室(AI4EC Lab)团队面向能源化学材料方向,基于嘉庚创新实验室智算中心发展出特色异构化(CPU/GPU/非冯架构)软硬件一体化智算平台。该平台支持:

- 开箱即用的电化学智能科学计算软件
- 定制化的计算环境与支撑算法部署
- 数据的高通量生产、存储、调用和管理
- 专用科学智能模型的训练及应用

## 使用

智算中心算力需要,请联系[[email protected]](mailto:[email protected]),相关申请流程可参见[开户流程](register.md)
电化学专业智算服务,请联系[[email protected]](mailto:[email protected])

## 更新日志

集群公告详见[重大更新公告](updates.md)

## 软硬件资源详情

### 管理节点(3个)

用于系统管理

| 节点名 | CPU | 内存 | 硬盘 | 高速网络 | 型号 |
|--------|-----|------|------|----------|------|
| `mu010-mu012` | 2*Intel 6338 Xeon CPU,共64 CPU核心 | 512 GB | 2*240GB SSD硬盘 | HDR 100Gbps InfiniBand | 浪潮NF5280M6 |

### 登录节点(1个)

- 用于用户登录、编译与通过作业调度系统提交管理作业等。
- 禁止在此节点上不通过作业调度系统直接运行作业。

| 节点名 | CPU | 内存 | 硬盘 | 高速网络 | 型号 |
|--------|-----|------|------|----------|------|
| `mu012` | 2*Intel 6338 Xeon CPU,共64 CPU核心 | 512 GB | 2*240GB SSD硬盘 | HDR 100Gbps InfiniBand | 浪潮NF5280M6 |

### GPU计算节点(6个)

适合GPU应用,加速性能:<https://developer.nvidia.com/hpc-application-performance>

| 节点名 | CPU | 内存 | GPU | 硬盘 | 高速网络 | 型号 |
|--------|-----|------|-----|------|----------|------|
| `gpu001-gpu006` | 2*Intel 8358 Xeon CPU | 536 GB | 8*Tesla A100 | 2*2TB SSD硬盘 | HDR 200Gbps InfiniBand | 浪潮NF5688LM6 |

### 双路CPU计算节点(390个)

| 节点名 | CPU | 内存 | 硬盘 | 高速网络 | 型号 |
|--------|-----|------|------|----------|------|
| `cu001-cu390` | 2*Intel 6338 Xeon CPU | 256GB DDR4-3200MHz | 240GB固态硬盘 | HDR 100Gbps InfiniBand | 浪潮NF5160LM6 |

### 双路CPU大内存计算节点(2个)

适合大共享内存应用。

| 节点名 | CPU | 内存 | 硬盘 | 高速网络 | 型号 |
|--------|-----|------|------|----------|------|
| `fat001-fat002` | 2*Intel 6338 Xeon CPU | 2TB DDR4 3200MHz | 2*2TB NVMe | HDR 100Gbps InfiniBand | 浪潮NF8260LM6 |

### 存储系统及软件环境

- 容量: 配置裸容量4.57PB,单盘容量 14TB,可用容量 3.15PB,采用 RAID6保护模式,采用 7200RPMNL-SAS 硬盘
- 网络:通过 Infiniband 高速计算网络接入系统,配置4个200Gbps HDR Infiniband接口,单口速率 200Gbps,Infiniband 网络所有端口总速率 800Gbps
- 单流读性能 6GB/s; 单流写性能 5GB/s; 并行文件系统总写性能 40GB/s,并行文件系统总读性能 50GB/s。
- 编译器:Intel、NVIDIA HPC SDK和GNU等C/C++ Fortran、GPU编译器
- 运算处理器: 存储控制器的 CPU 运算处理器为 8 架构,每节点配置2颗运算处理器
- 并行环境:HPC-X、Intel MPI和Open MPI等,支持MPI并行程序;各节点内的CPU共享内存,节点内既支持分布式内存的MPI并行方式,也支持共享内存的OpenMP并行方式;同时支持在节点内部共享内存,节点间分布式内存的混合并行模式。
- 资源管理和作业调度:[Slurm](https://slurm.schedmd.com/)
52 changes: 0 additions & 52 deletions docs/introduction/platform.md

This file was deleted.

16 changes: 11 additions & 5 deletions docs/introduction/usage.md → docs/introduction/register.md
Original file line number Diff line number Diff line change
Expand Up @@ -20,22 +20,26 @@

### 欠费

“用户组”账户余额不足,会导致用户无法提交任务,请用户及时关注账户的余额。以下是提交任务失败时显示的欠费提示:
账户余额不足,会导致用户无法提交任务,请用户及时关注账户的余额。
当账户欠费时,SCOW 系统会对相关账户进行封禁,此时即使指定了正确的账户和QOS在提交任务时也出现如下提示:

```bash
$ sbatch lammps.sbatch
sbatch: error: QOSGrpSubmitJobsLimit
sbatch: error: job submission failed: Job violates accouting/QOS policy (job submit limit, user's size and/or time limits)
sbatch: error: Job submit/allocate failed: Invalid account or account/partition combination specified
```

用户可在 SCOW 管理平台主页账户信息的仪表盘中查看当前用户可使用账户的余额情况。

![余额情况](../_images/scow/image17.png)

### 续费

有续费需求的用户可发送邮箱至 [[email protected]](mailto:[email protected]) 邮箱或在微信服务群内告知,智算中心会主动联系,配合办理续费业务。

## 初始密码与重置

- 第一次开立账户时,随机初始密码和密钥会随账户开通邮件告知用户。
- 修改密码: 如需修改密码,请联系管理员
- 修改密码: 如需修改密码,请联系管理员

## 账单查询

Expand All @@ -44,4 +48,6 @@ sbatch: error: job submission failed: Job violates accouting/QOS policy (job sub
## 销户

用户可用申请时的邮箱向 [[email protected]](mailto:[email protected]) 提出用户账户注销申请。注销申请发出前建议用户做好数据备份,避免因账户注销造成损失。
特别提醒,为提高资源的利用效率,嘉庚智算中心会对一年以内未使用的账户进行销户处理。

!!! warning 特别提醒
为提高资源的利用效率,嘉庚智算中心会对一年以内未使用的账户进行销户处理。
58 changes: 58 additions & 0 deletions docs/introduction/updates.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,58 @@
# 重大更新

## 2024-10-31

新用户手册文档 <https://ai4ec.ikkem.com/ikkem-hpc/doc> 现已上线。

同时,为避免登录节点资源被滥用导致集群的正常功能受影响,
我们在登录节点对每位用户可使用的资源进行了限制,
目前该限制为允许每位用户最多可使用 8 核 CPU、 16G 内存。

登录节点的功能是让大家提交作业和执行基本操作,
例如文件编辑、复制、移动等,
对于资源使用量大的作业,
如并行编译大型软件、数据处理、科学计算等任务,
需要提交到相应的计算节点执行。

对于需要长时间运行的作业,建议编写脚本并使用 `sbatch` 作业提交
或使用 `salloc` 申请节点并登录,
简短的任务则可使用 `srun` 执行。

希望以上信息对大家有所帮助,
感谢您的理解和支持。

## 2024-10-12

嘉庚创新实验室智能计算中心系统升级工作已进入最后阶段。
为您后续更好的使用新系统,
我们将现在起至 2024 年 10 月 15 日 24 时设置为过渡期,
完成最后的用户和作业迁移工作,
现将该时期的相关工作公告如下:

1. 即日起,您可以通过如下新的登录节点登录集群提交作业:

```sh
ssh [email protected]
```

或通过 SCOW 算力管理平台访问

<http://10.26.14.63:8080>

SCOW 的使用文档请参考:
<https://pkuhpc.github.io/OpenSCOW/docs/info>

2. 为方便您进行相应的作业调整和测试,
在过渡期您通过新登录节点提交的作业将不进行计费。
您在原登录节点提交的作业将继续按原有方式计费。

3. 我们将以 15 日 24 时原系统中的账户余额作为您新系统的账户初始额度。
16 日零时起,系统将对进行的任务和新提交的任务正常计费,
计费标准不变。

4. 特别提醒,15 日 24 时,我们将终止您通过旧登录节点提交且还在进行中的作业,请您提前做好安排。

5. 请留意,升级后的集群需要使用分区和 qos 指定作业提交队列,
您可按登录后的提示信息对您的脚本进行修改。

使用过程如遇到问题,请及时向管理员提供反馈。
File renamed without changes.
39 changes: 0 additions & 39 deletions docs/slurm/speek.md

This file was deleted.

2 changes: 1 addition & 1 deletion docs/app/app.md → docs/usage/app.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# 应用软件及脚本
# 应用软件使用及作业提交

## module基本使用

Expand Down
File renamed without changes.
2 changes: 2 additions & 0 deletions docs/login-ftp/login-ftp.md → docs/usage/login.md
Original file line number Diff line number Diff line change
Expand Up @@ -22,6 +22,8 @@

#### 通过CMD(命令提示符)直接登录

> 本方法也适用于使用 Powershell 的情况。我们推荐使用 Windows Terminal 作为终端,Windows 11 用户无须额外下载,Windows 10 用户可以在 Microsoft Store 中下载。
将获取到的密钥文件(id_rsa)拷贝到C:\\Users\\user1\\.ssh目录下

![useeight](../_images/useeight.png)
Expand Down
File renamed without changes.
Loading

0 comments on commit 3e220a8

Please sign in to comment.