האם כוונון עדין מזיק עלול לבטל את כל מנגנוני הבטיחות של מודלי שפה גדולים? חוקרים מפרסמים מאמר חדש ב-arXiv המציג את Surgery – שיטת הגנה בשלב הכוונון שמגינה מפני סיכונים כאלה. השיטה משתמשת במנגנון שקיעת תשומת לב (attention sink) כדי לזהות ולנטרל ראשי תשומת לב הלומדים דפוסים מזיקים. זהו פיתוח קריטי לעסקים המשתמשים ב-AI, שכן כוונון מזיק עלול להפוך מודלים בטוחים למסוכנים במהירות. (68 מילים)
במאמר, החוקרים מגדירים סטטיסטיקה בשם 'פער שקיעה' (sink divergence) לכל ראש תשומת לב. הם גילו כי ראשי תשומת לב מציגים שני סימנים שונים לפער זה. בניסויים, נמצא כי מספר ראשי התשומת לב עם פער שקיעה חיובי גדל ככל שהמודל הופך מזיק יותר במהלך כוונון מזיק. תופעה זו מאפשרת הפרדה בין ראשי תשומת לב 'טובים' ל'רעים'. (85 מילים)
על בסיס התצפית, מוצעת היפותזה נפרדת לפי סימן הפער: ראשי תשומת לב הלומדים דפוסים מזיקים ניתנים להפרדה. מכאן נובעת שיטת Surgery – הגנה בשלב הכוונון באמצעות רגולטור שמדכא את פער השקיעה ומכוון את ראשי התשומת לב לקבוצת הפער השלילי. כך מופחת הנטייה ללמוד ולהגביר דפוסים מזיקים. (82 מילים)
בניסויים מקיפים, Surgery שיפרה את ביצועי ההגנה ב-5.90% בבנצ'מרק BeaverTails, 11.25% ב-HarmBench ו-9.55% ב-SorryBench, לפי הדיווח. קוד המקור זמין בגיטהאב. השיטה מדגימה כיצד הבנה עמוקה של מנגנוני תשומת לב יכולה לשפר בטיחות AI ללא פגיעה בביצועים. (78 מילים)
למנהלי עסקים ישראליים המפתחים AI, Surgery מציעה כלי פרקטי להתמודדות עם סיכוני כוונון. בעידן שבו רגולציה על AI מתגברת, שיטות כאלה חיוניות לשמירה על אמון לקוחות ולציות. החוקרים מדגישים כי ההפרדה הזו פשוטה ליישום ומשפרת הגנות קיימות. מה תהיה ההשפעה על מודלים עתידיים? (67 מילים)