חוקי קנה מידה אדפטיביים למודלים רב-לשוניים, מבוססי 774 ריצות אימון ב-400+ שפות.

מתי כדאי לכוונן עדין לעומת אימון מחדש?

כוונון עדין עדיף עד 144B-283B טוקנים; אימון מחדש טוב יותר לאחר מכן.

אילו שפות משלימות זו את זו?

שפות משפחתיות וסקריפט משותף, כמו עברית לערבית או סוודית לנורווגית.

חוקי קנה מידה אדפטיביים למודלים רב-לשוניים, מבוססי 774 ריצות אימון ב-400+ שפות.

מתי כדאי לכוונן עדין לעומת אימון מחדש?

כוונון עדין עדיף עד 144B-283B טוקנים; אימון מחדש טוב יותר לאחר מכן.

אילו שפות משלימות זו את זו?

שפות משפחתיות וסקריפט משותף, כמו עברית לערבית או סוודית לנורווגית.

ATLAS: חוקי קנה מידה רב-לשוניים

בעולם שבו יותר מ-50% ממשתמשי מודלי AI מדברים שפות שאינן אנגלית, חסר כלי מדעי שמנחה בניית מודלים יעילים לשפות אלה. חוקרים מגוגל קלאוד וגוגל דיפמאיינד מציגים את ATLAS: חוקי קנה מידה רב-לשוניים מעשיים שמספקים הדרכה מדויקת להחלטות מפתח על גודל מודל, נפח נתונים ותערובת שפות. המחקר, שיוצג בכנס ICLR 2026, מבוסס על המחקר הציבורי הגדול ביותר עד כה – 774 ריצות אימון על מודלים מ-10 מיליון עד 8 מיליארד פרמטרים, כולל נתונים מ-400+ שפות והערכות ב-48 שפות. ATLAS בוחן סינרגיות בין 1,400 זוגות שפות ומציע חוקי קנה מידה אדפטיביים להעברה בין-לשונית. בניגוד לחוקי קנה מידה מסורתיים שמתמקדים באנגלית, ATLAS מתאים לסביבות רב-לשוניות מורכבות וממזער את 'קללת הרב-לשוניות' – ירידה בביצועים עם כל שפה נוספת עקב מגבלות קיבולת. החוק כולל שלושה מרכיבים מרכזיים: מטריצת העברה בין-לשונית שמזהה שפות משלימות, חוק קנה מידה להרחבת גודל מודל ונתונים עם מספר שפות גובר, וכללים לבחירה בין אימון מחדש לבין כוונון עדין מנקודת בדיקה רב-לשונית. המחקר השתמש במאגר MADLAD-400 לאימון מאות ניסויים רב-לשוניים, תוך חלוקת הנתונים לשלושה מקורות: שפת היעד, שפות העברה דומות (כגון ספרדית, פורטוגזית ואיטלקית לקטלאנית) ושאר השפות. ATLAS חוזה ביצועים על גודלי מודלים חדשים, נפחי נתונים משתנים ותערובות שפות חדשות, ומנצח על עבודות קודמות. בשש שפות לדוגמה – אנגלית, צרפתית, רוסית, סינית, הינדית וסווהילי – נצפו מסלולי קנה מידה דומים, אך עם 'מס קיבולת' לאימון רב-לשוני, במיוחד באנגלית. מטריצת ההעברה מגלה תובנות אינטואיטיביות: נורווגית מועילה מסוודית וגרמנית, מלאית מאינדונזית, ערבית מעברית. אנגלית, צרפתית וספרדית הן השפות המועילות ביותר בשל איכות וריבוי טקסטים באינטרנט. הגורם החזק ביותר להעברה חיובית הוא שיתוף סקריפט ומשפחת שפה (p < 0.001). העברה אינה תמיד סימטרית, והנתונים הופכים השערות להחלטות מבוססות נתונים. 'קללת הרב-לשוניות' מפורמלת בחוק שמתחשב במספר שפות K, לצד גודל מודל N ונפח נתונים D. הוספת שפות גורמת למס קיבולת קל, אך עם העברה חיובית גבוהה. כדי לתמוך בפעמיים מספר שפות (2K), יש להגדיל גודל מודל ב-1.18 ונתונים ב-1.66, עם 83% נתונים בכל שפה. כך, הסינרגיות מפצות על פחות נתונים לכל שפה. בנוגע לבחירה בין אימון מחדש לכוונון עדין, ATLAS קובע נקודת חיתוך: כוונון עדין מנקודת 'Unimax' רב-לשונית עדיף בתחילה, אך אימון מחדש עולה עליו לאחר 144B-283B טוקנים (תלוי שפה) במודלים של 2B פרמטרים. ככל שגודל המודל גדל, נקודת החיתוך עולה, ומספקת כלל אצבע מבוסס תקציב. ATLAS מספק מפת דרכים למפתחים גלובליים לבניית מודלים רב-לשוניים יעילים יותר, תוך התאמה לנתונים זמינים ולשפות ספציפיות. זה מאפשר איזון אופטימלי בין יעילות, איכות ועלות, ומקדם מודלים המשרתים מיליארדי דוברי שפות שאינן אנגלית. כיצד תיישמו זאת בפרויקט הבא שלכם? האם ATLAS ישנה את אסטרטגיית האימון שלכם?

ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים

✨תקציר מנהלים

נקודות עיקריות

ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

עוד כתבות שיעניינו אותך

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

פעול סוד הדיון הרב-סוכנים ב-AI: ביטחון וגיוון

מודל שפת Arrow: חלופה לוגית לטרנספורמרים

ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים

✨תקציר מנהלים

נקודות עיקריות

ATLAS: חוקי קנה מידה מעשיים למודלים רב-לשוניים

שאלות ותשובות

שאלות נפוצות

מהו ATLAS?

מתי כדאי לכוונן עדין לעומת אימון מחדש?

אילו שפות משלימות זו את זו?

אהבתם את הכתבה?

עוד כתבות שיעניינו אותך

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

פעול סוד הדיון הרב-סוכנים ב-AI: ביטחון וגיוון

מודל שפת Arrow: חלופה לוגית לטרנספורמרים