מידעהצהרת נגישות
תצוגת צבעים באתר(* פועל בדפדפנים מתקדמים מסוג Chrome ו- Firefox)תצוגה רגילהמותאם לעיוורי צבעיםמותאם לכבדי ראייה
סגירה
sponsored by 

Dell APEX AIOps

03/07/2024

APEX AIOps: מהפכה בעולם הניטור, עכשיו גם בענן

מאמר מאת יובל רוטקאי, Advisory Account system Engineer ב-Dell Technologies

מתקדמים לניטור הוליסטי וניהול תקלות חכם- בואו לקרוא על פתרון SaaS מקיף לניטור תשתיות ואפליקציות לשיפור ביצועי האחסון

מערך אחסון מרכזי תמיד היה ונשאר המערך החשוב בארגון ה-IT. התפקוד של מערך האחסון בעל השפעה קריטית על תהליכים עסקיים בארגון. זה מאד דומה להשפעה של מטבח בבית שלנו.

מתקופה לתקופה, כמות הסביבות שמערך אחסון יודע לשרת גדל מאד. על כן, היכולת לנהל ולנטר אותו בצורה פשוטה ומכל מקום, היא כבר מעבר ל-Good Enough אלא בעלת משמעות גדולה מאד בקידום תהליכים יום יומיים, באוטומציה ובזיהוי/פתרון תקלות.

CloudIQ הינו כלי ניטור הוליסטי לניטור פתרונות אחסון, Compute ותשתית SAN. זהו פתרון SaaS ללא עלות המאפשר ללקוחות לנטר את פעילות הפתרונות השונים מכל Device.

כחלק מההיצע של Dell לספק פתרונות בתצורה של as-a-service, החלטנו להרחיב את יכולות הניטור הענני ,CloudIQ (חינם!!!) ולהוסיף עוד שני מודולים המרחיבים את יכולות הניטור ומקצרים דרמטית את יכולת הזיהוי והטיפול בתקלה.

יכולת ניטור העננית כיום נקראת APEX AIOps. CloudIQ ...הינו השם החדש לשירות ניטור הפתרונות של Dell מהענן. CloudIQ או בשמו החדש Infrastructure Observation הינו שירות אחד מתוך שלושת השירותים ש Dell מציעה. שני השרותים הנוספים (Subscription base) הם: ניטור אפליקציות (Application Observation) ו - incident management.

  1. Infrastructure Observation CloudIQ – חינם. עבור system administrators נותן מבט על המצב הבריאותי של תשתיות מבוססות Dell. מאפשר ל-Sys admin לדעת מה הסטטוס של תשתיות Dell  מכל מקום ובכל זמן, כולל אינפורמציה על מה יכול לקרות ומה לעשות לגבי זה.
  2. Application Observation – עבור system Admin ועבור DBA Admin. יכולת המשלימה את ניטור סביבת האחסון ומספקת הסתכלות על התלות בין האפליקציה לשאר מרכיבי התשתית. היא תומכת גם באפליקציות העובדות מול שרתי Dell וגם מול שרתי יצרנים צד שלישי.
  3. Incident Management – מוצר חדש שהגיע בעקבות רכישת חברת MugSoft על ידי Dell בשנה שעברה, חברה חלוצה ומתמחה ב-AI Ops. יכולת זו אינגרטיבית עם פתרונות Dell ועם כלי ניטור צד שלישי (דוגמא: Splunk, AppDynamics, Nagios וכל כלי שעובד עם Rest-API ועוד...)
    -שימוש ב Incident Management מבטיח Uptime באמצעות למידת מכונה לזיהוי תקריות לפני שהן מתרחשות. כחלוצים בשימוש ב-AI לאבטחת שירות, לקחנו את המומחיות הזו לענן, תוך התמקדות באתגרים החדשים שנוצרים בשימוש של Micro-services וארכיטקטורה ארעית.
    -Application Observation ו Incident Management יכולות ניטור חדשות בחבילת ה APEX AIOps שעד היום הייתה מפוקסת בניטור תשתיות ו-Cyber-security.

    דוגמא: ללקוח יש סביבת billing המורכבת ממספר Tiers. תשתיות, אפליקציה, DB וכו. ה-DB נמצא בשני אתרים מרוחקים גיאוגרפית. במקרה של תקלה של אחד המתגים באחד האתרים, תתחיל לקפוץ התראה ל-Network Admin אבל בד בבד גם יהיו התראות על הקו בין האתרים וגם על מסד הנתונים וגם בתשתית. כל admin משתמש בכלי ניטור משלו ובנוסף אף אחד לא יכול לראות את כלי הניטור שהשני משתמש בו.

ההשפעה המיידית היא שלא ניתן לבצע אנאליזה ודיאגנוסטיקה מהירה ומדוייקת על מנת להתחיל בטיפול במקור הבעיה, מצב שיכול להביא להשפעה מיידית על רכישות, הוצאת חשבונית ותהליך קנייה/רכש.

שלושת הכלים האלו יחד באים כדי לתת מבט אחוד על הסביבות הקריטיות ולהוריד את זמן זיהוי התקלה והטיפול בה.

APEX AIOps מזהה את כל ה alerts, מקבץ אותם ומציג התראות רלוונטיות יחד עם מידע מדוייק על כל אחת מהתקריות במטרה לזהות את מקור הבעיה.

לחילופין, כאשר מתקבלת הודעה על תקרית קריטית בסביבת ה-IT המורכבת של היום, יום העבודה יכול להשתנות בקלות על ידי כך שיהיה צורך להקדיש שעות של troubleshooting לפני זיהוי הבעיה ולפני שבכלל יהיה אפשר לפתור אותה. המודול של incident Management המונע באמצעות בינה מלאכותית וזרימת עבודה חכמה מוביל לגורם הבעיה. ב-Metrics המוצגים, ניתן לראות בקלות האם המדדים חזרו לתווך הנורמאלי/רגיל שלהם.

ניתן ב Click אחד לראות את כל פרטי ה-Alert שהוצג במערכת הניטור וגם לראות את ה metrics בצורה גרפית.

 

דבר נוסף מאד חשוב ובעל השפעה ברורה על החלק העסקי, הוא הפיתוח (Dev). רמת הפיתוח, מהירות הפיתוח הם מרכיבים חשובים מאד ביכולת של הארגון לדלוור שירותים חדשים ללקוחות ולקבל יתרון תחרותי (Competitive Advantage). הפעילות העסקית בארגון מתבססת על פיתוח עקבי ורציף תוך יכולת לבצע עדכוני תוכנה בקלות ובמהירות לאותם סביבות/תוכנות האחראיות על תקשורת ומכירת שירותים ללקוחות. נשאלת השאלה איך אנשי ה-Dev/Ops יכולים להגיב בצורה מהירה ומדוייקת למקרה שעדכון גרם להאטה בשירות או חלילה להשבתת שירות כזה או אחר.

APEX AIOps incident Management מאפשר לתאם את פריסת הקוד ולהתריע על פגיעה בשירות.

 

לסיכום, Dell הרחיבה משמעותית את יכולות הניטור הענני ונותנת דגש גם על הצד התשתיתי, גם על הצד האפליקטיבי ועל הקשרים והתהליכים ביניהם וזאת במטרה לנטר בצורה מדוייקת ולקצר משמעותית את הזמן לזיהוי ופתרון תקלות.