כוח המחשוב של NegevHPC 2022
בעולם ה-HPC הכל נמדד, בסופו של דבר, בכמות פעולות החישוב במשתני נקודה צפה שניתן לבצע בכל שניה. באופן תיאורטי, מחשב המכיל n# שרתים - כך שכל שרת מכיל cores# ליבות, ובכל ליבה קצב השעון הוא freq# ג'יגה-הרץ, ובכל פעימה של השעון הוא מסוגל לבצע ops# חישובים - יהיה מסוגל לבצע n x core x freq x ops חישובים. הערך התיאורטי הזה נקרא Rpeak. בפועל, הביצועים של מחשבים נמוכים יותר בשל אילוצי מערכת הפעלה, זכרון, תקשורת ועוד. הערך האמיתי שנמדד במכונה, עבור חישוב אמת (לרוב לפי benchmark שנקרא HPL) מכונה Rmax.
במקביל לביצועי המחשב עצמו, ישנם סוגים שונים של חישובים מקביליים המתאימים לארכיטקטורות מחשב שונות. כאשר באים לעמוד על ההבחנה בין גריד לבין קלאסטר, עיקר הדיון נחלק להבדל שבין חישובים שאינם נדרשים כמעט לתקשורת מחוץ לרמת השרת הבודד, הנקראים Embarrassingly Parallel, ובין חישובים הנדרשים לתקשורת מרובה בין כל הקודקודים. מבנה החישוב, בתורו, קובע גם האם הפלטפורמה עליה החישוב רץ מתאימה לו. לדוגמה, מחשב הבנוי בתצורת גריד יוכל להתמודד בקלות עם חישובי Embarrassingly Parallel אך יאבד כוח חישוב רב עבור תקשורת אם ינסה לבצע חישוב מרובה-תקשורת ללא פלטפורמת תקשורת מתאימה (לדוגמה חיבור מסוג Infiniband). לחילופין, יהיה זה בזבוז לבנות קלאסטר חישוב מהיר - ויקר - המיועד לחישובים מרובי-תקשורת כאשר רוב החישובים המורצים עליו אינם כאלה.
מעבדת NegevHPC התחילה ככזו המספקת מחשב גריד. עם זאת, ברור היה כי עבור חישובים מדעיים לרוב יש צורך דווקא בחישובים מרובי-ביצועים, ולפיכך במחשב קלאסטר. בהמשך הפוסט נתאר את המצב הנוכחי בו נמצאת המעבדה.
כאשר החישוב משתמש במספר שרתים, נכנסת לתמונה תשתית התקשורת. נכון לתחילת 2020 היתה ב-NegevHPC תשתית תקשורת Ethernet במהירות 10Gb/s (שתמכה רק בחלק מהשרתים). המשמעות המעשית הייתה שהביצועים המעשיים בשימוש ב-2 שרתי חישוב צנחו ל-67% יחסית ל-Rpeak ובשימוש ב-10 שרתים במקביל, הביצועים צנחו לכ-42% יחסית ל-Rpeak.
לכן על מנת לאפשר צמצום למינימום האפשרי של תקורות התקשורת במהלך ריצות אז התבצע שדרוג בתשתית התקשורת לתווך Mellanox Infiniband FDR מדגם sx6025 שמספק תקשורת במהירות 56Gb/s בטכנולוגית RDMA המספקת Latency אפסי. תווך זה מצמצם את תקורת התקשורת לכ-90% ביחס ל-Rmax הצפוי.
לרוב, התוכנה שרצה על הגריד מבצעת קריאה או כתיבה לשרת אחסון רשתי. כלל הכתיבות והקריאות בוצעו מול שרת NetApp דרך ערוץ תקשורת Ethernet יחיד, דבר שגרם להאטה נוספת במהירות החישוב.
לכן התווספו לגריד שרתי אחסון Lightbits LightOS המכילים אחסון NVMe SSD ואשר חוברו בתצורה של Distributed File System כך שיספקו אחסון מהיר לתוכנות מקביליות ויצמצמו את התקורה הכרוכה בכתיבה לדיסק הקשיח.
בין השנים 2020 עד 2022, NegevHPC הכיל שרתים השונים בניהם מבחינת החומרות המשולבות בהם. הטבלה שלהלן מתארת את היכולות התיאורטיות (Rpeak) והיכולת המדודה (Rmax) עבור מכונה בודדת של השרתים השונים הקיימים בגריד:
על מנת לתמוך בדרישות ושימושים חדשים העולים עם שיפורים טכנולוגיים התווספו השרתים הבאים:
* התוכנות שמוצעות כיום באתר הם:
בסך-הכל, ביצועי הגריד המעשיים עומדים על כ-71.5Tflop/s !
Comments