כל פרומפט חשוב: למידה מחוזקת בקנה מידה מאה מיליארד ל-MoE
מחקר

כל פרומפט חשוב: למידה מחוזקת בקנה מידה מאה מיליארד ל-MoE

חוקרים מציגים את CompassMax-V3-Thinking, מודל תערובת מומחים ענק שמתגבר על בעיות יעילות באימון RL ומשפר ביצועים משמעותיים

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • CompassMax-V3-Thinking: מודל MoE ענק מאומן ב-RL מתקדם

  • חידושים: סינון פרומפטים חסרי שונות, ESPO לאופטימיזציה יציבה ו-Router Replay

  • מערכת RL יעילה עם FP8 ותזמון חכם

  • ביצועים גבוהים בבחינות, פוטנציאל לשוק ה-AI הישראלי

כל פרומפט חשוב: למידה מחוזקת בקנה מידה מאה מיליארד ל-MoE

  • CompassMax-V3-Thinking: מודל MoE ענק מאומן ב-RL מתקדם
  • חידושים: סינון פרומפטים חסרי שונות, ESPO לאופטימיזציה יציבה ו-Router Replay
  • מערכת RL יעילה עם FP8 ותזמון חכם
  • ביצועים גבוהים בבחינות, פוטנציאל לשוק ה-AI הישראלי
בעידן שבו מודלי AI ענקיים דורשים משאבים אדירים, חוקרים מפרסמים את CompassMax-V3-Thinking – מודל תערובת מומחים (MoE) בקנה מידה של מאה מיליארד פרמטרים, מאומן במסגרת RL חדשנית. העיקרון המרכזי: כל פרומפט חייב להיות משמעותי. שיטות קודמות סבלו מבזבוז זמן על פרומפטים חסרי שונות, דגימה לא יציבה והפרשי אימון-הסקה. הפתרון החדש מציג חידושים מאוחדים שמאפשרים אימון יציב ויעיל. החידוש הראשון הוא Multi-Stage Zero-Variance Elimination, שמסנן פרומפטים לא אינפורמטיביים ומקטין בזבוז רולאאוטים. זה מייצב אופטימיזציה מבוססת קבוצות כמו GRPO. בנוסף, ESPO – שיטת אופטימיזציה מותאמת אנטרופיה – מאזנת דגימה ברמת טוקנים ורצפים, ומבטיחה דינמיקת למידה יציבה לאורך אופקים ארוכים. שתי החידושים הללו פותרים בעיות מרכזיות בהגדלת קנה המידה של RL. השיפורים נמשכים עם Router Replay, אסטרטגיה שמיישרת החלטות הנתב של MoE באימון עם התנהגות ההסקה, ומתקנת מודל תגמול כדי למנוע היפוך יתרונות. המערכת כוללת גם עיבוד RL בעל תפוקה גבוהה: רולאאאוטים בדיוק FP8, חישוב תגמולים מקבילי ותזמון מותאם אורך. כל אלה יוצרים צינור עבודה כולל שמאפשר אימון יציב למודלים בקנה מידה עצום. בהקשר שוק ה-AI, חידושים אלה רלוונטיים במיוחד לחברות ישראליות המפתחות פתרונות AI. הם מפחיתים עלויות אימון ומשפרים יעילות, מה שמאפשר תחרות מול ענקיות כמו OpenAI או Google. המודל מציג ביצועים חזקים בבחינות פנימיות וציבוריות, ומדגים פוטנציאל לשיפור משמעותי ביכולות חשיבה של מודלי שפה. למנהלי עסקים בישראל, ההודעה הזו מצביעה על הצורך להשקיע בכלים מתקדמים לאימון מודלים. האם חברתכם מוכנה לנצל את היתרונות של RL יעיל? קראו את המאמר המלא ב-arXiv כדי להעריך את ההשלכות על פרויקטי האוטומציה שלכם.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד