כח החישוב של NegevHPC
בעולם ה-HPC הכל נמדד, בסופו של דבר, בכמות פעולות החישוב במשתני נקודה צפה שניתן לבצע בכל שניה. באופן תיאורטי, מחשב המכיל n# שרתים, כך שכל שרת מכיל cores# ליבות, כך שבכל ליבה קצב השעון הוא freq# ג'יגה-הרץ ובכל פעימה של השעון הוא מסוגל לבצע ops# חישובים - יהיה מסוגל לבצע n x core x freq x ops חישובים. הערך התיאורטי הזה נקרא Rpeak. בפועל, הביצועים של מחשבים נמוכים יותר בשל אילוצי מערכת הפעלה, זכרון, תקשורת ועוד. הערך האמיתי שנמדד במכונה, עבור חישוב אמת (לרוב לפי benchmark שנקרא HPL) מכונה Rmax.
במקביל לביצועי המחשב עצמו, ישנם סוגים שונים של חישובים מקביליים המתאימים לארכיטקטורות מחשב שונות. כאשר באים לעמוד על ההבחנה בין גריד ובין קלאסטר, עיקר הדיון נחלק להבדל שבין חישובים שאינם נדרשים כמעט לתקשורת מחוץ לרמת השרת הבודד, הנקראים Embarrassingly Parallel, ובין חישובים הנדרשים לתקשורת מרובה בין כל הקודקודים. מבנה החישוב, בתורו, קובע גם האם הפלטפורמה עליה החישוב רץ מתאימה לו. לדוגמה, מחשב הבנוי בתצורת גריד יוכל להתמודד בקלות עם חישובי Embarrassingly Parallel אך יאבד כוח חישוב רב על תקשורת אם ינסה לבצע חישוב מרובה-תקשורת ללא פלטפורמת תקשורת מתאימה (לדוגמה חיבור מסוג Infiniband). לחילופין, יהיה זה בזבוז לבנות קלאסטר חישוב מהיר - ויקר - המיועד לחישובים מרובי-תקשורת כאשר רוב החישובים המורצים עליו אינם כאלה.
מעבדת NegevHPC התחילה ככזו המספקת מחשב גריד. עם זאת, ברור היה כי עבור חישובים מדעיים לרוב יש צורך דווקא בחישובים מרובי-ביצועים, ולפיכך במחשב קלאסטר. בהמשך הפוסט נתאר את המצב הנוכחי בו נמצאת המעבדה (כגריד), ואלו שיפורים צפויים למחשב כבר בתחילת השנה הבאה (מעבר לקלאסטר והוספת מאיצים).
NegevHPC כיום
ב-NegevHPC ישנם כיום 17 שרתי חישוב שמישים ו-2 מאיצים. שרתי החישוב שונים זה מזה. הטבלה להלן מתארת את היכולות התיאורטיות (Rpeak) והיכולת המדודה (Rmax) עבור מכונה בודדת של השרתים השונים:
להלן פירוט היכולת התיאורטית של המאיץ:
כל עוד משתמשים בשרת בודד, היכולת המעשית היא כ-80% מהיכולת התיאורטית של השרת, אך לעתים החישוב גדול ודורש יותר משרת אחד. המדד המעשי הקובע מתי שרת אחד לא מספיק לחישוב, הוא כמות זיכרון ה-RAM במחשב. להלן פירוט הזיכרון במכונות השונות:
כאשר החישוב משתמש בכמה שרתים, נכנסת לתמונה תשתית התקשורת. כיום יש ב-NegevHPC תשתית תקשורת Ethernet במהירות 10Gb/s. המשמעות המעשית היא שהביצועים המעשיים בשימוש ב-2 שרתי חישוב צונחים ל-67% יחסית ל-Rpeak ובשימוש ב-10 שרתים במקביל, הביצועים צונחים לכ-42% יחסית ל-Rpeak.
לרוב, התוכנה שרצה על הגריד מבצעת קריאה או כתיבה לדיסק הקשיח. כיום כלל הכתיבות והקריאות מבוצעות מול שרת NetApp דרך ערוץ תקשורת Ethernet יחיד, דבר הגורם להאטה נוספת במהירות החישוב.
שיפורים צפויים ב-2019
במהלך 2019 צפוי רכש של עוד 15 שרתים:
בנוסף, לראשונה, יתבצע רכש של מאיצי GPU מסוג Tesla P100 אשר מספקים ביצועים תיאורטיים של 5.3TFlop/s כל אחד. בסך-הכל, ביצועי הגריד התיאורטיים יעלו מ-12.9Tflop/s ל-55.8Tflop/s.
בנוסף מתוכנן שדרוג בתשתית התקשורת לתווך Mellanox Infiniband FDR מדגם sx6025 שיספק תקשורת במהירות 56Gb/s ויצמצם את תקורת התקשורת לכ-90% ביחס ל-Rmax הצפוי.
נוסף על כך, יתווספו לגריד שרתי אחסון אשר יחוברו בתצורה של Distributed File System כך שיספקו אחסון מהיר לתוכנות מקביליות ויצמצמו את התקורה הכרוכה בכתיבה לדיסק הקשיח.