בעידן שבו דגמי ויז'ן-שפה (VLMs) מבטיחים מהפכה בתחומים רגישי פרטיות כמו רפואה ופיננסים, מגבלות שיתוף נתונים מונעות אימון מרכזי. למידה פדרטיבית (FL) מאפשרת אימון מבוזר, אך אתגרי הטרוגניות במשאבים, דרישות וארכיטקטורות מקשים על יישום מעשי. חוקרים מציעים גישה חדשנית: החלפת פרמטרי דגם בהעדפות, דרך מסגרת MoR המבוססת על GRPO עם תערובת תגמולים. גישה זו מבטיחה מדרגיות ופרטיות גבוהה יותר.
מסגרת MoR מתחילה במודל בסיסי ויזואלי כהתייחסות מוּלָה KL, כאשר כל לקוח מאמן מקומית מודל תגמול מהערות העדפה מקומיות. כך נלכדים אותות הערכה ספציפיים ללא חשיפת נתונים גולמיים. מנגנון מיזוג מבוסס ניתוב מאגד באופן אדפטיבי אותות תגמול הטרוגניים מלקוחות שונים. לבסוף, השרת מבצע GRPO עם תגמול מעורב זה לאופטימיזציה של דגם ה-VLM הבסיסי.
ניסויים בשלושה בנצ'מרקים ציבוריים של VQA מראים כי MoR עולה על baselines של יישור פדרטיבי בהכללה, עמידות והסתגלות בין-לקוחות. הגישה מספקת פתרון מדרגי ליישור משמר פרטיות של דגמי VLMs הטרוגניים בסביבות פדרטיביות, ומתמודדת עם אתגרי הנוכחיים ב-FL.
בהקשר רחב יותר, MoR משנה את פרדיגמת ה-FL על ידי מעבר מפרמטרים להעדפות, מה שמפחית חיכוך בהטרוגניות ומשפר פרטיות. לעומת גישות מסורתיות, היא מאפשרת התאמה מותאמת אישית ללא שיתוף נתונים, רלוונטי במיוחד לעסקים ישראליים בתחומי בריאות ופיננסים שמתמודדים עם תקנות GDPR ודומות.
למנהלי עסקים, MoR פותחת אפשרויות לשילוב דגמי AI מתקדמים בסביבות מבוזרות, תוך שמירה על פרטיות. בעתיד, גישה זו עשויה להפוך לסטנדרט באימון דגמים רב-לקוחותי. כיצד תשלבו העדפות עסקיות באימון AI שלכם?