DaGRPO: שיטה חדשה משפרת חשיבה ארוכת טווח במודלי שפה
מחקר

DaGRPO: שיטה חדשה משפרת חשיבה ארוכת טווח במודלי שפה

חוקרים זיהו בעיות באימון GRPO ומציעים פתרון כפול שמגביר יציבות ויעילות, עם שיאים חדשים במבחני מתמטיקה

AI
אוטומציות AI
2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • DaGRPO מתקנת חוסר ייחודיות בדגימות GRPO עם הסתרה דינמית של זוגות דומים.

  • הוספת עוגנים off-policy משפרת אימון למשימות קשות.

  • שיאים חדשים ב-9 מבחני מתמטיקה ו-OOD, +4.7% בממוצע.

  • מפחיתה פיצוצי גרדיאנט ומאיצה חשיבה ארוכת שרשרת.

בעידן שבו מודלי שפה גדולים (LLMs) צריכים להתמודד עם משימות חשיבה מורכבות ארוכות טווח, שיטת GRPO הבטיחה התקדמות משמעותית, אך סבלה מחוסר יציבות באימון ויעילות נמוכה. חוקרים חדשים מציגים את DaGRPO – גרסה מתקדמת שמתמודדת ישירות עם שורש הבעיה: חוסר ייחודיות בדגימות האימון. השיטה משלבת שני מנגנונים מרכזיים שמבטיחים אימון יעיל יותר ומשפרים ביצועים דרמטית. GRPO, שיטת אופטימיזציית מדיניות יחסית קבוצתית, הצטיינה בהפעלת יכולות חשיבה מתקדמות במודלי שפה לאחר אימון ראשוני. עם זאת, היא נתקלה בקשיים: בשאלות שגרתיות, דגימות דומות מאוד גרמו להתנגשויות גרדיאנט הרסניות; ובשאלות קשות, מחסור בדגימות חיוביות תקפות מנע אופטימיזציה אפקטיבית. המחקר מזהה תיאורטית את חוסר הייחודיות בדגימות on-policy כגורם השורשי, ומציע פתרון ישיר. DaGRPO כוללת תיקון גרדיאנט ברמת הרצף, שמשתמש בציונים מפורטים כדי להסתיר זוגות דגימות בעלות ייחודיות נמוכה, ובכך מבטלת התנגשויות גרדיאנט במקור. בנוסף, היא מוסיפה הגברת נתונים off-policy באמצעות עוגנים איכותיים גבוהים, שמספקים אותות אימון למשימות מאתגרות. שילוב זה מאפשר אימון יציב יותר ומאיץ את התפתחות יכולות חשיבה ארוכות שרשרת. בניסויים מקיפים על 9 מבחנים של חשיבה מתמטית והכללה מחוץ להפצה (OOD), DaGRPO עלתה על שיטות SFT, GRPO והיברידיות קיימות, והשיגה שיאים חדשים – כולל שיפור ממוצע של 4.7% בדיוק במבחני מתמטיקה. הניתוח העמוק מאשר כי השיטה מפחיתה פיצוצי גרדיאנט ומקדמת יכולות חשיבה מתקדמות במהירות גבוהה יותר, מה שהופך אותה לכלי חיוני לפיתוח מודלים עסקיים. למנהלי עסקים ישראלים בתחום הטכנולוגיה, DaGRPO פותחת אפשרויות לשדרוג כלי AI פנימיים, במיוחד בתחומי ניתוח נתונים מורכבים וקבלת החלטות אוטומטית. השיטה מדגישה את החשיבות של אופטימיזציה מדויקת באימון, ומזמינה אימוץ מהיר של טכניקות דומות. האם חברתכם מוכנה לשלב חשיבה ארוכת טווח במודלי ה-AI שלה?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות
מחקר
2 דקות

מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות

ידיים ביוניות מתקדמות נזנחות על ידי חצי מהמשתמשים בגלל קושי בשליטה. חוקרים מאוניברסיטת יוטה פיתחו עוזר AI שמקל על התהליך ומחקה רפלקסים טבעיים. קראו את המאמר המלא כדי להבין את ההשלכות העסקיות.

Jake GeorgeUniversity of Utah
קרא עוד