PRISMA: למידה מחוזקת חדשנית לשאלות רב-קפיצות ב-RAG
מחקר

PRISMA: למידה מחוזקת חדשנית לשאלות רב-קפיצות ב-RAG

מסגרת רב-סוכנים מבטלת קריסת חיפוש ומשפרת יציבות ב-QA פתוחה – תוצאות SOTA ב-10 בנצ'מרקים

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • PRISMA פותרת קריסת חיפוש וחוסר יציבות בלמידה מחוזקת עבור RAG

  • ארכיטקטורה Plan-Retrieve-Inspect-Solve-Memoize עם שיתוף סוכנים

  • אופטימיזציה בשני שלבים: GRPO ו-OARPO

  • SOTA ב-10 בנצ'מרקים ופריסה יעילה בסביבות אמיתיות

PRISMA: למידה מחוזקת חדשנית לשאלות רב-קפיצות ב-RAG

  • PRISMA פותרת קריסת חיפוש וחוסר יציבות בלמידה מחוזקת עבור RAG
  • ארכיטקטורה Plan-Retrieve-Inspect-Solve-Memoize עם שיתוף סוכנים
  • אופטימיזציה בשני שלבים: GRPO ו-OARPO
  • SOTA ב-10 בנצ'מרקים ופריסה יעילה בסביבות אמיתיות
בעידן שבו מערכות AI מתמודדות עם שאלות מורכבות רב-קפיצות על פני מאגרי נתונים ענקיים, אתגר מרכזי הוא שיפור יצירת תשובות מוגברת חיפוש (RAG). מחקר חדש מציג את PRISMA, מסגרת למידה מחוזקת (RL) שמבטיחה פתרון מקיף. ללא תכנון מונחה חשיבה, החיפוש החוזר נכשל באיתור ראיות ביניים, מה שגורם לקריסת ההיגיון. בנוסף, אימון מקצה לקצה סובל מחוסר ייחוס זכויות חלש ומקשה על העברה לבנצ'מרקים אחרים. PRISMA פותרת זאת בארכיטקטורה Plan-Retrieve-Inspect-Solve-Memoize. האתגרים העיקריים ב-RAG לשאלות רב-קפיצות פתוחות הם שניים: קריסת חיפוש, שבה חיפוש איטרטיבי על מאגרים גדולים לא מוצא ראיות גשר ללא תכנון מונחה חשיבה, וחוסר יציבות בלמידה, הנובע מחוסר ייחוס זכויות ברצפי חשיבה ומקושי בזיהוי שגיאות בין מודולים. זה מוביל להתאמה יתר להיוריסטיקות ספציפיות לבנצ'מרקים, ומגביל העברה ויציבות. PRISMA, מסגרת מנותקת מונחית RL, משלבת שיתוף פעולה מונחה חשיבה: ה-Inspector מספק משוב מבוסס חשיבה לשיפור פירוק התכנון וחיפוש מדויק, ומחייב חשיבה מבוססת ראיות ב-Solver. PRISMA מבוססת על ארכיטקטורה רב-סוכנים: Planner מפרק את השאלה, Retriever מחפש ראיות, Inspector בודק ומספק משוב, Solver פותר ומסיק, ו-Memoizer שומר זיכרון. החוזק טמון בשיתוף מונחה חשיבה בין הסוכנים. האופטימיזציה מתבצעת בשני שלבים באמצעות Group Relative Policy Optimization (GRPO). בשלב ראשון, מכיילים את ה-Planner וה-Solver כמומחים בתכנון וחשיבה. בשלב שני, משתמשים ב-Observation-Aware Residual Policy Optimization (OARPO) לשיפור יכולת ה-Inspector לאמת הקשרים ולפעול לשחזור ממוקד. המשמעות העסקית של PRISMA בולטת בעולם הישראלי של AI, שבו חברות כמו וויקס ומובילאיי משלבות RAG במערכות חיפוש מתקדמות. המסגרת מאפשרת פריסה יעילה בסביבות אמיתיות, ומשפרת את היכולת להתמודד עם שאילתות מורכבות ללא קריסה. בהשוואה לשיטות קודמות, PRISMA מציעה יציבות גבוהה יותר והעברה טובה לבנצ'מרקים שונים, מה שמקל על אימון מודלים גדולים. ניסויים מראים כי PRISMA משיגה ביצועים ברמת SOTA ב-10 בנצ'מרקים, ומאפשרת פריסה יעילה. עבור מנהלי עסקים ישראלים, זה אומר שדרוג מערכות QA להיות אמינות יותר. האם PRISMA תשנה את כללי המשחק ב-RAG? כדאי לבדוק את המחקר המלא.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
זיהוי עמימות הוראות 3D: פריצת דרך בבטיחות AI
מחקר
2 דקות

זיהוי עמימות הוראות 3D: פריצת דרך בבטיחות AI

החוקרים בנו את Ambi3D, מאגר הנתונים הגדול ביותר למשימה זו עם למעלה מ-700 סצנות 3D מגוונות וכ-22 אלף הוראות. ניתוח מראה שמודלי שפה גדולים 3D מתקדמים נכשלים בזיהוי אמין של עמימות. כדי להתמודד עם האתגר, הם מציעים את AmbiVer – מסגרת דו-שלבית שאוספת ראיות חזותיות ממספר זוויות ומנחה מודל שפה-ראייה לשיפוט העמימות. ניסויים מקיפים מוכיחים את יעילות AmbiVer ומדגישים את קושי המשימה.

Ambi3DAmbiVerarXiv
קרא עוד