0
راهنمایی در مورد راه اندازی کلاستر slurm
سلام وقت بخیر.
دوستان کسی در خصوص راه اندازی کلاستر slurm در سیستم عامل لینوکس برای پردازش محاسباتی HPC تجربه ای داره؟
ما چهار سرور فیزیکی داریم، یه سرور اصلی و 3 تای دیگر نود هستن که برای کارهای محاسباتی استفاده می شود
1 پاسخ
0
سلام دوست عزیز،
برای راهاندازی کلاستر SLURM روی لینوکس جهت پردازشهای HPC، شما نیاز به یک نود مدیریتی (Controller/Head Node) و چند نود محاسباتی (Compute Nodes) دارید. روند کلی به این صورته:
۱. نصب و پیکربندی SLURM روی سرور مدیریتی
- سیستمعامل پیشنهادی: CentOS 7/8، Ubuntu 20.04+ یا Rocky Linux
- نصب بستههای موردنیاز:
یا برای RHEL:sudo apt update && sudo apt install -y slurm-wlm
sudo yum install -y slurm slurm-munge slurm-torque
- تنظیمات SLURM در فایل slurm.conf و تعیین سرور اصلی بهعنوان کنترلر.
۲. نصب SLURM روی نودهای محاسباتی
- روی هر نود باید سرویس MUNGE و SLURM نصب و پیکربندی شود.
- تنظیمات همگامسازی شوند و slurmd.conf روی همه نودها قرار بگیرد.
- سرویسهای SLURM و MUNGE در نودهای محاسباتی فعال شوند:
systemctl start munge systemctl start slurmd
۳. تنظیم ارتباط بین نودها
- SSH بدون رمز عبور بین نود مدیریتی و نودهای محاسباتی تنظیم شود.
- NFS یا BeeGFS برای اشتراک فایلها بین نودها راهاندازی شود.
۴. تست عملکرد کلاستر
- بررسی ارتباط بین نودها:
sinfo
- اجرای تست:
srun -N 2 hostname
اگر مشکلی داشتی، لاگهای SLURM رو بررسی کن:
journalctl -u slurmd -f