第34页·谢先斌的博客
-
Slurm 使用教程
SLURM(Simple Linux Utility for Resource Management)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。如天河二号上便使用了SLURM资源管理系统。 -
环境管理模块:Lmod
Lmod是一个基于Lua的Module系统,允许在Unix系统下动态修改用户环境,和Environment Modules功能类似。 -
环境管理模块:Environment Modules
Environment Modules是一种管理Unix或Linux shell环境的工具,它允许动态地设置或删除相关的环境变量。2021-08-07 hpc hpcenvenvironmentmodule -
pdsh 使用介绍
psdh (Parallel Distributed Shell)是一个高性能、并行的远程shell实用程序
-
clusterit 介绍
clusterit是工具集合,主要是用来批量 处理其他机器上的命令,文件等。目前该工具已经过时。 -
Clustershell 使用介绍
ClusterShell 是一个事件驱动的开源 Python 库,旨在在服务器场或大型 Linux 集群上并行运行本地或远程命令。
2021-07-31 hpc clustershell -
HPC 超算介绍
高性能计算 (
HPC, High-Performance Computing) 是指高速处理数据并执行复杂计算的能力。一个 HPC 集群由数百或数千个通过网络连接的计算服务器组成。每个服务器都称为一个节点。每个集群中的节点彼此并行工作,提高处理速度,从而实现高性能计算。HPC 解决方案包括三个主要组件:计算、网络、存储、编排 -
munge 使用介绍
本文介绍 munge 的工作作用、原理、安装和演示。
munge是一个用于创建和验证凭据的身份验证服务,为了在HPC集群环境中使用,它被设计为高度可伸缩的。 -
NIS 使用介绍
NIS(Network Information Services) 前身是Sun Yellow Pages(YP),主要目的是向网络上的机器提供集中身份管理。 -
Vue3 Vite 配置别名问题
Vue3 Vite 配置别名问题报错,导致报无法找到对应模块错误的处理解决方式
-
Django App 改名步骤
Django app命令后总会因为各种原因需要改名,代码改名比较容易,但生产环境的修改就比较繁琐了,本文重点介绍Django app改名的方法。 -
使用阿里云CDN部署博客404 Page优化
在使用阿里云CDN部署博客后,因页面重构导致URL地址变动,进而搜索引擎经常跳转到 404 Page,损失大量流量,本文提供一种获取跳转到404的原始页面。
-
lldp 网络链路发现工具简介
链路层发现协议(Link Layer Discovery Protocol,LLDP)是一种数据链路层协议,网络设备可以通过在本地网络中发送LLDPDU(Link Layer Discovery Protocol Data Unit)来通告其他设备自身的状态。
-
Telegraf 介绍
Telegraf 介绍
-
监控采集器
监控采集器专题
-
process_exporter: 收集进程资源使用情况
process-exporter是一个用于 Prometheus 生态的监控工具,专门用来收集和暴露 Linux 系统中特定进程的资源使用情况(如 CPU、内存、磁盘 I/O、线程数等)。2021-06-06 monitor linuxprometheusexporterprocess_exporter -
使用 Telegraf、InfluxDB、Grafana 搭建简单监控步骤
使用 Telegraf(采集数据)、InfluxDB(存储数据)、Grafana(Grafana) 搭建简单监控步骤
-
监控示例
-
alertmanager 介绍
Prometheus 是一个开源的监控工具,能够收集并存储时间序列数据,其中 Alertmanager 用于处理 Prometheus 生成的告警,支持告警的抑制和分组等功能。
2021-05-29 monitor linuxalertmanager -
alertmanager 安装
alertmanager 安装,它监听在 9093/9094 端口
2021-05-29 monitor linuxalertmanageramtoolprometheus