DTop-p MoE: ניתוב Top-p דינמי לשליטה בספרסות ב-MoE
מחקר

DTop-p MoE: ניתוב Top-p דינמי לשליטה בספרסות ב-MoE

חוקרים מציגים שיטה חדשה שמשפרת את יעילות אימון מודלי שפה גדולים ומבקרי תמונות, עם שליטה מדויקת במשאבים

AI
אוטומציות AI
2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • DTop-p משלב ניתוב Top-p דינמי עם בקר PI לשליטה מדויקת בספרסות מומחים

  • מאפשר התאמה אדפטיבית לטוקנים קשים יותר ומשפר ביצועים על LLMs ו-Diffusion Transformers

  • מציג סקיילינג חזק לגודל מודל, מומחים ונתונים – אידיאלי לאימון בקנה מידה גדול

בעידן שבו מודלי AI ענקיים דורשים כוח חישוב עצום, ארכיטקטורות MoE ספרסיות מאפשרות הרחבת קיבולת המודל על ידי הפעלת מומחים ספציפיים לכל טוקן בלבד. אולם, אסטרטגיית הניתוב Top-k הסטנדרטית כופה דפוס ספרסות אחיד שמתעלם מרמת הקושי המשתנה של הטוקנים. מאמר חדש ב-arXiv מציג את DTop-p MoE – מנגנון ניתוב Top-p דינמי עם שליטה בספרסות, שמתמודד עם הבעיות הללו ומשפר ביצועים משמעותיים. השיטה החדשה, DTop-p MoE, פותרת את האתגר של סף הסתברות לא-מבדיל על ידי שימוש בבקר PI (Proportional-Integral) שמתאים באופן דינמי את סף ההסתברות כדי להתאים את הספרסות של המומחים המופעלים למטרה מוגדרת. בנוסף, היא כוללת מנגנון נורמליזציה דינמי של לוגיטי הניתוב לפי שכבות, שמאפשר לכל שכבה ללמוד דפוסי בחירת מומחים שונים תוך שימוש בסף הסתברות גלובלי אחד. כך, DTop-p מאפשר הקצאה גמישה של משאבים בהתאם לקושי הטוקנים. ניסויים מקיפים על מודלי שפה גדולים (LLMs) ומבקרי תמונות מבוססי Diffusion Transformers מראים כי DTop-p עולה על ניתוב Top-k ועל Top-p עם סף קבוע. השיטה שומרת על שליטה מדויקת במספר המומחים המופעלים, תוך התאמה אדפטיבית בין טוקנים ושכבות שונות. לפי החוקרים, DTop-p מציג תכונות סקיילינג חזקות ביחס לגרגרנות המומחים, קיבולתם, גודל המודל וגודל הנתונים. המשמעות העסקית של DTop-p בולטת באימון מודלים בסיסיים בקנה מידה גדול, שם יעילות חישוב היא מפתח להצלחה. לעומת שיטות קודמות, DTop-p מפחית רגישות להיפר-פרמטרים ומבטיח עלויות חישוב צפויות, מה שחיוני לחברות ישראליות המפתחות AI כמו Mobileye או Wix שמחפשות להרחיב מודלים ללא פיצוץ בעלויות. השיטה מציעה מסגרת חזקה לאימון MoE בקנה מידה גדול. לסיכום, DTop-p MoE מסמן קפיצה קדימה בהרחבת מודלי AI יעילים. מנהלי טכנולוגיה בישראל צריכים לשקול אינטגרציה של מנגנונים כאלה בפרויקטי AI הבאים – האם השיטה הזו תהפוך לסטנדרט חדש?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות