ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים
מחקר

ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים

חוקרים מגוגל מציגים ATLAS – כלי חדשני לקביעת גודל מודל, נפח נתונים ותערובת שפות אופטימלית למודלים רב-לשוניים

4 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • ATLAS מבוסס על 774 ריצות אימון ב-400+ שפות ומספק חיזויים מדויקים לביצועים.

  • מטריצת העברה חושפת שפות משלימות כמו עברית לערבית או סוודית לנורווגית.

  • להכפלת שפות: הגדילו מודל ב-1.18 ונתונים ב-1.66.

  • כוונון עדין עדיף עד 144B-283B טוקנים; אחר כך אימון מחדש.

  • כלי פרקטי למפתחים לבניית מודלים גלובליים יעילים.

ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים

  • ATLAS מבוסס על 774 ריצות אימון ב-400+ שפות ומספק חיזויים מדויקים לביצועים.
  • מטריצת העברה חושפת שפות משלימות כמו עברית לערבית או סוודית לנורווגית.
  • להכפלת שפות: הגדילו מודל ב-1.18 ונתונים ב-1.66.
  • כוונון עדין עדיף עד 144B-283B טוקנים; אחר כך אימון מחדש.
  • כלי פרקטי למפתחים לבניית מודלים גלובליים יעילים.
בעולם שבו יותר מ-50% ממשתמשי מודלי AI מדברים שפות שאינן אנגלית, חסר כלי מדעי שמנחה בניית מודלים יעילים לשפות אלה. חוקרים מגוגל קלאוד וגוגל דיפמאיינד מציגים את ATLAS: חוקי קנה מידה רב-לשוניים מעשיים שמספקים הדרכה מדויקת להחלטות מפתח על גודל מודל, נפח נתונים ותערובת שפות. המחקר, שיוצג בכנס ICLR 2026, מבוסס על המחקר הציבורי הגדול ביותר עד כה – 774 ריצות אימון על מודלים מ-10 מיליון עד 8 מיליארד פרמטרים, כולל נתונים מ-400+ שפות והערכות ב-48 שפות. ATLAS בוחן סינרגיות בין 1,400 זוגות שפות ומציע חוקי קנה מידה אדפטיביים להעברה בין-לשונית. בניגוד לחוקי קנה מידה מסורתיים שמתמקדים באנגלית, ATLAS מתאים לסביבות רב-לשוניות מורכבות וממזער את 'קללת הרב-לשוניות' – ירידה בביצועים עם כל שפה נוספת עקב מגבלות קיבולת. החוק כולל שלושה מרכיבים מרכזיים: מטריצת העברה בין-לשונית שמזהה שפות משלימות, חוק קנה מידה להרחבת גודל מודל ונתונים עם מספר שפות גובר, וכללים לבחירה בין אימון מחדש לבין כוונון עדין מנקודת בדיקה רב-לשונית. המחקר השתמש במאגר MADLAD-400 לאימון מאות ניסויים רב-לשוניים, תוך חלוקת הנתונים לשלושה מקורות: שפת היעד, שפות העברה דומות (כגון ספרדית, פורטוגזית ואיטלקית לקטלאנית) ושאר השפות. ATLAS חוזה ביצועים על גודלי מודלים חדשים, נפחי נתונים משתנים ותערובות שפות חדשות, ומנצח על עבודות קודמות. בשש שפות לדוגמה – אנגלית, צרפתית, רוסית, סינית, הינדית וסווהילי – נצפו מסלולי קנה מידה דומים, אך עם 'מס קיבולת' לאימון רב-לשוני, במיוחד באנגלית. מטריצת ההעברה מגלה תובנות אינטואיטיביות: נורווגית מועילה מסוודית וגרמנית, מלאית מאינדונזית, ערבית מעברית. אנגלית, צרפתית וספרדית הן השפות המועילות ביותר בשל איכות וריבוי טקסטים באינטרנט. הגורם החזק ביותר להעברה חיובית הוא שיתוף סקריפט ומשפחת שפה (p < 0.001). העברה אינה תמיד סימטרית, והנתונים הופכים השערות להחלטות מבוססות נתונים. 'קללת הרב-לשוניות' מפורמלת בחוק שמתחשב במספר שפות K, לצד גודל מודל N ונפח נתונים D. הוספת שפות גורמת למס קיבולת קל, אך עם העברה חיובית גבוהה. כדי לתמוך בפעמיים מספר שפות (2K), יש להגדיל גודל מודל ב-1.18 ונתונים ב-1.66, עם 83% נתונים בכל שפה. כך, הסינרגיות מפצות על פחות נתונים לכל שפה. בנוגע לבחירה בין אימון מחדש לכוונון עדין, ATLAS קובע נקודת חיתוך: כוונון עדין מנקודת 'Unimax' רב-לשונית עדיף בתחילה, אך אימון מחדש עולה עליו לאחר 144B-283B טוקנים (תלוי שפה) במודלים של 2B פרמטרים. ככל שגודל המודל גדל, נקודת החיתוך עולה, ומספקת כלל אצבע מבוסס תקציב. ATLAS מספק מפת דרכים למפתחים גלובליים לבניית מודלים רב-לשוניים יעילים יותר, תוך התאמה לנתונים זמינים ולשפות ספציפיות. זה מאפשר איזון אופטימלי בין יעילות, איכות ועלות, ומקדם מודלים המשרתים מיליארדי דוברי שפות שאינן אנגלית. כיצד תיישמו זאת בפרויקט הבא שלכם? האם ATLAS ישנה את אסטרטגיית האימון שלכם?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד