קריסת הקשר: למידה בהקשר וקריסת מודלים ב-LLMs
מחקר

קריסת הקשר: למידה בהקשר וקריסת מודלים ב-LLMs

תזה חדשה חושפת מנגנונים מתמטיים מאחורי שתי תופעות מרכזיות במודלי שפה גדולים ומזהירה מקריסת הקשר

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • למידה בהקשר גורמת למעבר פאזה עם רכיב skew-symmetric מעל אורך קריטי.

  • קריסת מודל מוכחת כמעט בוודאות אלא אם נתונים גדלים או נשמרים.

  • קריסת הקשר: הידרדרות בהקשר ביצירות ארוכות, רלוונטי לשרשראות מחשבה.

  • חשיבות לניהול נתונים ואימון יציב במודלים גנרטיביים.

קריסת הקשר: למידה בהקשר וקריסת מודלים ב-LLMs

  • למידה בהקשר גורמת למעבר פאזה עם רכיב skew-symmetric מעל אורך קריטי.
  • קריסת מודל מוכחת כמעט בוודאות אלא אם נתונים גדלים או נשמרים.
  • קריסת הקשר: הידרדרות בהקשר ביצירות ארוכות, רלוונטי לשרשראות מחשבה.
  • חשיבות לניהול נתונים ואימון יציב במודלים גנרטיביים.
בעידן מודלי השפה הגדולים שמשנים את עולם העסקים, שתי תופעות מסקרנות מאיימות על הביצועים: למידה בהקשר (ICL) וקריסת מודל. תזה חדשה שפורסמה ב-arXiv חוקרת לעומק את שתי התופעות הללו ומציגה הוכחות מתמטיות מוצקות. המחקר בוחן כיצד למידה בהקשר מובילה למעבר פאזה בפרמטרים של המודל, ומזהיר מפני 'קריסת הקשר' – הידרדרות בביצועים במהלך יצירות ארוכות. עבור מנהלי טכנולוגיה ומפתחי AI בישראל, ההבנה הזו חיונית לפיתוח יישומים יציבים. החלק הראשון של התזה מתמקד בלמידה בהקשר בטרנספורמר ליניארי עם משקלים קשורים, שאומן על משימות רגרסיה ליניארית. החוקרים מראים כי מזעור הפונקציית אובדן בהקשר מוביל למעבר פאזה בפרמטרים הנלמדים. מעל אורך הקשר קריטי, הפתרון מפתח רכיב נגטיבי-סימטרי (skew-symmetric). הם מוכיחים זאת על ידי הפחתת המעבר קדימה של הטרנספורמר הליניארי תחת קשירת משקלים לירידת גרדיאנט מוקדמת (preconditioned gradient descent), ואז מנתחים את המוקדם האופטימלי. מוקדם זה כולל רכיב נגטיבי-סימטרי שגורם לסיבוב בכיוון הגרדיאנט. בחלק השני, התזה בוחנת קריסת מודל באמצעות תורת מרטינגל וטיול אקראי בהגדרות מפושטות – רגרסיה ליניארית והתאמה גאוסיאנית – תחת משטרי נתונים מחליפים ומצטברים. המחקר מחזק תוצאות קיימות בכך שהוא מוכיח התכנסות כמעט בוודאות, ומראה כי קריסה מתרחשת אלא אם כן הנתונים גדלים בקצב מהיר מספיק או נשמרים לאורך זמן. זה מדגיש את החשיבות של ניהול נתונים איכותיים באימון מודלים. המשמעות העסקית של הממצאים אדירה: במודלים גנרטיביים, בעיות כמו קריסת מודל עלולות לפגוע בדיוק וביציבות, במיוחד ביישומים ארוכי טווח כמו שרשראות מחשבה (chain-of-thought). בישראל, שבה חברות כמו Mobileye ו-Wiz משקיעות ב-AI, הבנת המנגנונים הללו יכולה למנוע כשלים יקרים. המחקר מדגיש את הצורך באסטרטגיות אימון מתקדמות שמתמודדות עם אורכי הקשר הגדלים. התזה מציגה את 'קריסת הקשר' כמושג חדשני: הידרדרות ההקשר במהלך יצירות ארוכות, במיוחד בשיטות שרשראות מחשבה. זה מקשר בין הדינמיקה של למידה בהקשר לבין אתגרי יציבות ארוכי טווח. עבור עסקים, המסר ברור: יש לבחון מחדש פרוטוקולי אימון כדי להבטיח ביצועים עקביים. מה תעשו כדי למנוע קריסה במודלים שלכם?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות