מאמר מאת עמיר אסולין, Sales Executive, Unstructured Data Solutions at Dell Technologies
בודקים פתרונות בינה מלאכותית: Dell PowerEdge, PowerScale ו-NVIDIA בפעולה
בואו ללמוד כיצד Dell ו-NVIDIA מספקות ביצועים לאימון GenAI עם ביצועים וגמישות ללא תחרות.
ככל ש-GenAI מחולל מהפכה בפעילות העסקית, ההסתמכות על כוח מחשוב עצום ומעבדי GPU להתאמה אישית, הדרכה והסקת מסקנות גוברת. התיאבון של ימינו ל-AI דורש אחסון חזק וארכיטקטורה ניתנת להרחבה על מנת לאפשר מספר הולך וגדל של חיבורים במקביל.
Dell Technologies ו-NVIDIA משתפות פעולה במטרה לספק פתרון אינטגרטיבי, המשלב פלטפורמות בינה מלאכותית מובילות, מערכות קבצים מורחבות ושרתים עטורי פרסים על מנת לספק מענה לזרמי העבודה AI התובעניים ביותר.
בואו נבחן כיצד GenAI מרוויחה מפתרון המשלב אחסון PowerScale, שרתי PowerEdge ורשת PowerSwitch, יחד עם NVIDIA AI Enterprise ו-NEMO.
ארכיטקטורה אופטימלית לביצועים, מקביליות וקנה מידה
ארכיטקטורת PowerScale היא פלטפורמת scale-out NAS מובילה, המאגדת עד 252 צמתים למערכת אחסון אחת, שנועדה להאיץ אימון והסקת מודלי AI על פני סביבות מקומיות, קצה וענן. פלטפורמת ה-all-Flash שלה משתמשת בדיסקים של OneFS ו-NVMe, המאפשרים קיבולת אשכול וביצועים מלאים באמצעות מרחב שמות אחד, ותמיכה בהעברות נתונים קיצוניות בו-זמנית ובזמן אחזור נמוך.
באמצעות הצעת אחסון הניתנת להרחבה, PowerScale מאפשר לעסקים להתרחב לפי דרישה. אשכולות יכולים לגדול ל-186PB קיבולת ולמעלה מ-2.5TB תפוקת קריאה/כתיבה בתוך מרחב שמות יחיד. מה שמבטיח תמיכה חזקה בזרמי עבודה AI.
PowerScale, אופטימלי ל-IO בו-זמני גבוה במהלך אימון AI, תומך ב-NFSoRDMA וב-GPU Direct Storage GDS של NVIDIA להעברות נתונים באחזור נמוך. PowerScale OneFS תומך גם ב-RDMA על Ethernet מתכנס (RoCEv2), עוקף את המעבד ומערכת ההפעלה על מנת לשפר את יעילות העברת הנתונים, בשילוב עם MagnumIO להעברת נתונים יעילה בין זיכרון NVIDIA GPU ואחסון PowerScale במטרה להניע חידושי AI מהר יותר.
שרת PowerEdge XE9680, המצויד בשמונה NVIDIA H100 GPUs ותוכנת NVIDIA AI, מיועד לתפוקה גבוהה ומדרגיות. כולל ביצועים משופרים וחיבור לרשת באמצעות NVIDIA ConnectX-7 SmartNICs, התומכים ביישומים מתקדמים כמו NLP. ה-NVIDIA H100 GPU, עם מערכת מתג NVLink, להאצת עומסי העבודה AI עם מנוע שנאי ייעודי, ומספק LLMs מהיר פי 30.
בוחנים את ה-PowerEdge עבור עומסי עבודה לאימון AI
על מנת להעריך את ביצועי ה-GPU ומדרגיות אחסון הארכיטקטורה, הכשרנו LLM פופולרי - תוך שימוש בשתי תצורות שונות בארכיטקטורת מודל LLAMA 2: דגם פרמטר אחד של 7B עם שרת PowerEdge XE9680 יחיד המצויד ב-8 מעבדי NVIDIA H100, ופרמטר של 70B דגם עם שישה שרתי PowerEdge XE9680 מצוידים ב-48 NVIDIA H100.
שימוש בגדלי מודל LLAMA 2 הזמינים לצריכה, הערכה זו מסייעת לנו להבין טוב יותר את השימוש במשאבי התשתית והדרישות לעומסי עבודה שונים לאימון.
שתי התצורות כללו NVIDIA AI Enterprise. שכבת התוכנה של פלטפורמת NVIDIA AI מהווה מרכיב מרכזי בתכנון הפתרון, מאיצה את זרימת מדעי הנתונים ומייעלת פיתוח ופריסת AI. פלטפורמה מאובטחת, מקורית בענן, כוללת למעלה מ-100 מסגרות, מודלים וכלים שהוכשרו מראש לעיבוד נתונים, אימון מודלים, אופטימיזציה ופריסה.
לעומס הנתונים הראשוניים בשתי דוגמאות המודלים הייתה השפעה מינימלית על ביצועי האחסון, שכן למודלים מבוססי שפה וטקסט יש מערכי נתונים קטנים יותר. הדבר גורם לפעילות קריאה נמוכה במערכת הקבצים. עם זאת, נתוני ה-Checkpoint משפיעים יותר. מודל פרמטר 70B דרש תפוקת כתיבה גדולה יותר ממודל פרמטר 7B במהלך פעולות ביקורת, מה שהשפיע על מערכת הקבצים OneFS.
תוצאות ההשוואה תלויות בעומס העבודה, בדרישות היישום ובתכנון המערכת. הביצועים היחסיים ישתנו, ולכן עומס עבודה זה לא אמור להחליף מדדים ספציפיים של יישומי לקוח בתכנון קיבולת קריטית או הערכת מוצר. למדדי שרת PowerEdge של Dell, לחצו כאן למעבר ל- MLPerf.
בודקים את PowerScale לאימון מודל תמונה
אימות זה נועד להבנת השינויים בביצועי האחסון בעת אימון מערך נתוני תמונה. נבדקו שתי תצורות: אחת עם שני שרתים 8-כיוונים המופעלים על-ידי 16xH100 GPUs באשכול PowerScale F600P בעל ארבעה צמתים, ואחרת עם אותה הגדרת שרת באשכול PowerScale F600P בעל שמונה צמתים. השתמשנו בארכיטקטורת מודל ResNet-50, אמת מידה סטנדרטית לסיווג תמונות בפלטפורמות אחסון ו-GPU.
הגדרת האימות תוכננה למדידת השפעת מערכת הקבצים Dell PowerScale במהלך פעולות האימון ובחינת השינוי בביצועי מערכת הקבצים ובביצועי האימון, לאחר הוספת צמתי PowerScale.
כאשר ה-PowerScale מורחב מ-4 ל-8 צמתים, יש הפחתה של 41% במחזורי ה-CPU והפחתה של 50% ב-NFS על פני צמתי האשכול. ביצועי האימון נותרו עקביים הן עבור תמונות/שנייה לכל GPU (כ-5,370) והן עבור ניצול GPU 99%.
ביצועים ומדרגיות מוכחים לעומסי עבודה GenAI
ה-Dell Reference Design לאימון מודלי GenAI עם PowerScale מציע ארכיטקטורה ניתנת להרחבה עם ביצועים גבוהים לאימון LLMs. ממנף את NVIDIA AI Enterprise ו-NVIDIA NeMo לייעול הפיתוח וההדרכה של מודלי GenAI - נתמך על ידי תשתית עצמתית של Dell.
אימות עם ארכיטקטורת מודל LLAMA 2 מספק פתרונות אמינים וגמישים לאימון GenAI, מתייחס לארכיטקטורת רשת, תוכנה וביצועי אחסון. עיצוב זה משמש כמדריך להבנת דרישות האחסון והשפעות הביצועים, בהתבסס על הבדלי מודל וערכות נתונים במהלך שלבי ההדרכה, מה שהופך אותו לאדפטיבי למגוון מקרי שימוש בארגון.
למידע נוסף, היכנסו לקרוא עוד על תצורת המערכת והתוצאות כאן, ועל תכנון לאימון מודל GenAI.