האם ניתן להכות את דגמי השפה הגדולים המתקדמים ביותר בעולם באמצעות שיתוף כוחות של מודלים פתוחים? מחקר חדש שפורסם ב-arXiv מציג את מסגרת JiSi, שמאפשרת לדגמי שפה גדולים (LLMs) פתוחים לשתף פעולה ולהשיא את ביצועי ג'מיני 3 פרו, תוך חיסכון של 53% בעלויות. במקום להשקיע בהגדלת מודלים בודדים, החוקרים מדגישים את כוחה של אינטליגנציה קולקטיבית כדרך חדשה ל-AGI.
המחקר מזהה שלושה צווארי בקבוק מרכזיים בשיטות קיימות לשיתוף LLMs: ראשית, נתבים ללא אימון מסתמכים רק על דמיון טקסטואלי, ומתעלמים מקושיית הבעיה. שנית, שיטות אגרגציה סטטיות אינן בוחרות את המתאגרג הטוב ביותר לכל משימה. שלישית, אין ניצול מלא של המשלימות בין ניתוב לאגרגציה. JiSi פותרת זאת באמצעות חידושים חדשניים שמשפרים את שיתוף הפעולה.
החידוש הראשון הוא Query-Response Mixed Routing, שמשלב מידע סמנטי עם הערכת קושי. השני – Support-Set-based Aggregator Selection, שבוחרת מתאגרגים על סמך יכולת אגרגציה וידע תחומי. השלישי – Adaptive Routing-Aggregation Switch, שמחליף דינמית בין ניתוב לאגרגציה לפי הצורך. שילוב אלה משחרר את הפוטנציאל המלא של שיתוף LLMs.
בניסויים מקיפים על תשעה בנצ'מרקים, JiSi עם עשרה LLMs פתוחים עלתה על ג'מיני 3 פרו בעלויות של 47% בלבד. זהו שיפור משמעותי על פני שיטות קיימות, ומצביע על כך שאינטליגנציה קולקטיבית יכולה להיות אלטרנטיבה יעילה להגדלה מונוליטית. עבור עסקים ישראליים, זה פותח אפשרויות לשילוב מודלים פתוחים במערכות AI מקומיות.
המחקר מציע נתיב חדש ל-AGI דרך שיתוף פעולה של מודלים קיימים, במקום פיתוח עלותי של מודלים חדשים. מנהלי טכנולוגיה צריכים לשקול אסטרטגיות כאלה להוזלת עלויות AI. מה תהיה ההשפעה על שוק ה-AI?