基于ABHPC研发的适用于Slurm调度系统的超算用户与管理集成系统
收藏数: 1
下载次数: 2729
类型:

xyliucd/ascow本项目开发和运维团队为中国工程物理研究院成都科学技术发展中心第四研究室,是基于OpenSCOW和ABHPC单层RDMA网络无盘超算集群开发的用户与管理门户系统,同时也适配于采用Slurm调度系统的集群,旨在将该框架广泛应用于科研、教育和工程行业。
按照木兰宽松协议v2要求,本项目更名为ASCOW且不开源,以保障OpenSCOW的商标权,但发布的公共镜像允许任意用户下载并免费使用,本项目的基础配置文件和OpenSCOW完全兼容(可参考OpenSCOW的安装与配置),增加的部分字段可参考更新日志说明。
本系统完全沿用OpenSCOW框架,感谢北京大学OpenSCOW开发团队的无私贡献,向他们致敬!
本系统推荐使用ASCOW-slurm适配器,可避免交互式作业中文乱码和GPU资源分配等问题,还可实现基于
Environment Module的模块调用统计。
本项目欢迎任意形式的技术合作和研讨,可联系四室主任刘晓毅(邮件:)和计算组组长徐云飞博士(邮件:)。
20250901版本起,ND和SAND功能均在通用版本中实现,因此这两个版本不再更新,后续只更新通用版本。
latest-ND:禁用下载版本(已合并到通用版本)
latest-SAND: 单点登录且禁用下载版本(已合并到通用版本)
首先拉取镜像:
bashdocker pull xyliucd/ascow:latest
使用scow-cli生成docker-compose.yml文件:
bash./cli generate
替换为ascow镜像:
bashsed -i s "@mirrors.pku.edu.cn/pkuhpc-icode/scow:v1.6.4@xyliucd/ascow:latest@g" docker-compose.yml
启动容器:
bashdocker compose up -d
作业->提交作业页面布局,新增保存为模板前的命名:作业—>提交作业页面的布局。文件目录选择框中新增上传文件和新文件按钮:用户列表显示账户列表显示auth.yml中添加单位信息:ymlldap: attrs: uid: uid name: cn mail: mail affiliation: description #新加的
修正了修改文件时,改变文件权限的Bug
userID的问题,正常应显示为LDAP中的中文名。redis缓存机制。portal-web的并发度,实现基于pm2的Nginx负载均衡。portal-web和portal-server的并发度,全部采用pm2 cluster来实现高并发度。slm.*、*.slm、*.sh、*.bash、*.slurm、slurm.*六种文件可提交,其他文件不可提交。Environment Module记录,便于后期做软件使用分析。如用户主节点未配置Environment Module记录器,则记录值为unknown。需要配合最新的abhpc-scow-slurm-adapter使用,参见效果图:auth.yml文件中新增以下字段实现单点登录:ymlsingleSession: on # on为开通单点登录,off为关闭单点登录
通过在portal.yml文件中增加以下字段实现文件下载权限控制:
yml# 是否允许文件下载 file: download: enable: false #enableAccounts: account1,account2,account3 #enableUsers: user1,user2,user3 # enable为true的情况下,禁止哪些账户或用户下载 #disableAccounts: account1,account2,account3 #disableUsers: user1,user2
config/apps/*.yml的错误配置,避免某个交互式应用配置出错时,整个集群报500错误。新增交互式应用的图标大小调整。yml文件(config/apps/*.yml)中增加visible字段,使交互式应用可设置为公开或部分账户、用户可见。ymlvisible: public: no # 如果public值为yes,则所有用户可见 allow_accounts: caep,mechx # 如果public为no,allow_accounts中账户下的所有用户可见APP allow_users: user1,uesr2 # 如果public为no,allow_users中的用户可见APP
ymlattributes: - type: file name: input label: 输入文件 required: true placeholder: "比如:/home/user/fds/test.fds"
新增目录链接识别,可在交互式应用中直接链接到用户算例目录。优化资源选择,默认CPU和GPU核数独立设置,以方便用户选择资源。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务