50٪ تخفیف روی تمام دوره‌ها!
پایان تخفیف تا:
مشاهده دوره‌ها
0

راهنمایی در مورد راه اندازی کلاستر slurm

سلام وقت بخیر. 

دوستان کسی در خصوص راه اندازی کلاستر slurm در سیستم عامل لینوکس برای پردازش محاسباتی HPC تجربه ای داره؟

ما چهار سرور فیزیکی داریم، یه سرور اصلی و 3 تای دیگر نود هستن که برای کارهای محاسباتی استفاده می شود

پرسیده شده در 1403/11/14 توسط

1 پاسخ

0

سلام دوست عزیز،

برای راه‌اندازی کلاستر SLURM روی لینوکس جهت پردازش‌های HPC، شما نیاز به یک نود مدیریتی (Controller/Head Node) و چند نود محاسباتی (Compute Nodes) دارید. روند کلی به این صورته:

۱. نصب و پیکربندی SLURM روی سرور مدیریتی

  • سیستم‌عامل پیشنهادی: CentOS 7/8، Ubuntu 20.04+ یا Rocky Linux
  • نصب بسته‌های موردنیاز:
    sudo apt update && sudo apt install -y slurm-wlm
    
    یا برای RHEL:
    sudo yum install -y slurm slurm-munge slurm-torque
    
  • تنظیمات SLURM در فایل slurm.conf و تعیین سرور اصلی به‌عنوان کنترلر.

۲. نصب SLURM روی نودهای محاسباتی

  • روی هر نود باید سرویس MUNGE و SLURM نصب و پیکربندی شود.
  • تنظیمات همگام‌سازی شوند و slurmd.conf روی همه نودها قرار بگیرد.
  • سرویس‌های SLURM و MUNGE در نودهای محاسباتی فعال شوند:
    systemctl start munge
    systemctl start slurmd
    

۳. تنظیم ارتباط بین نودها

  • SSH بدون رمز عبور بین نود مدیریتی و نودهای محاسباتی تنظیم شود.
  • NFS یا BeeGFS برای اشتراک فایل‌ها بین نودها راه‌اندازی شود.

۴. تست عملکرد کلاستر

  • بررسی ارتباط بین نودها:
    sinfo
    
  • اجرای تست:
    srun -N 2 hostname
    

اگر مشکلی داشتی، لاگ‌های SLURM رو بررسی کن:

journalctl -u slurmd -f

پاسخ در 1403/12/07 توسط

پاسخ شما