ועדות LLM רב-סוכניות: 89.5% הצלחה בבדיקות בטא
מסגרת חדשה משלבת סוכנים מגוונים עם הצבעה בשלושה סיבובים – שיפור משמעותי על פני סוכן יחיד ומבחנים מוכרים
✨תקציר מנהלים
נקודות עיקריות
89.5% הצלחה כוללת ב-84 ניסויים עם 2-4 סוכנים
שיפור 13-22% על סוכן יחיד, זמן פעולה 0.71 שניות
74.7% ב-WebShop ו-82% ב-OWASP Juice Shop
F1=0.91 לזיהוי באגים, קוד פתוח זמין
ועדות LLM רב-סוכניות: 89.5% הצלחה בבדיקות בטא
- 89.5% הצלחה כוללת ב-84 ניסויים עם 2-4 סוכנים
- שיפור 13-22% על סוכן יחיד, זמן פעולה 0.71 שניות
- 74.7% ב-WebShop ו-82% ב-OWASP Juice Shop
- F1=0.91 לזיהוי באגים, קוד פתוח זמין
שאלות ותשובות
שאלות נפוצות
אהבתם את הכתבה?
הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל
עוד כתבות שיעניינו אותך
לכל הכתבותהגדרה מאוחדת להזיות ב-AI: הבעיה בדגימת העולם
בעידן שבו מודלי שפה גדולים מניעים חדשנות עסקית, הבעיית ההזיות נותרת אתגר מרכזי אפילו במודלים המובילים בעולם. מאמר חדש מציע הגדרה מאוחדת ומציע בנצ'מרקים חדשים. קראו עכשיו כדי להבין איך לשפר את המודלים שלכם.
LAid: זיקוק VLMs עם חלונות ארוכים פי 3.2
בעולם שבו מודלי שפה-ראייה גדולים מצטיינים בהבנת הקשרים ארוכים, LAid משפרת גרסאות קטנות פי 3.2. קראו עכשיו על השיטה החדשה.
כוונון מודע להיררכיה למודלי ראייה-שפה
בעידן המודלים הרב-מודליים, מודלי ראייה-שפה (VLMs) מצטיינים בלמידה ממאגרי תמונות וטקסט ענקיים, אך התאמתם לסיווג היררכי נותרה תחום לא מנוצל מספיק. קראו על כוונון מודע להיררכיה שמשפר עקביות ביעילות.
רגולריזציה LLM סלקטיבית משדרגת מערכות המלצה
בעולם ההמלצות הדיגיטליות, שבו כל שגיאה עלולה להרחיק לקוחות, חוקרים מציגים רגולריזציה מונחית LLM סלקטיבית. קראו עכשיו על השיטה שמשפרת דיוק במיוחד בהתחלה קרה.