בעידן שבו סוכנים אינטליגנטיים מבוססי מודלי שפה גדולים (LLM) כובשים את רשתות החברתיות ומשנים את האקולוגיה הדיגיטלית, עולה השאלה: האם הם באמת מסוגלים להבין תוכן מדיה, להתנהגויות משתמשים ולקבל החלטות מורכבות? חוקרים מציגים את SoMe – בנצ'מרק פורץ דרך שמאפשר הערכה מקיפה של סוכני LLM בסביבת רשתות חברתיות אמיתית. הבנצ'מרק כולל 8 משימות מגוונות, יותר מ-9 מיליון פוסטים, אלפי פרופילי משתמשים ודוחות מפלטפורמות שונות.
SoMe בנוי על אוסף עצום של נתונים: 9,164,284 פוסטים, 6,591 פרופילי משתמשים ו-25,686 דוחות ממקורות חברתיים ואתרים חיצוניים. הוא כולל 17,869 שאילתות משימה מסומנות בקפידה. הבנצ'מרק מאפשר לסוכנים להשתמש בכלים שונים לגישה ולניתוח נתוני מדיה חברתית. לפי החוקרים, זהו הפלטפורמה הראשונה והגמישה ביותר לבדיקת סוכני LLM במשימות חברתיות מגוונות, בניגוד למערכי נתונים קיימים שמתמקדים במשימות ספציפיות.
הערכה מקיפה שנערכה על SoMe חושפת תמונה מאכזבת: גם מודלי LLM סגורים וגם פתוחים מקור אינם מצליחים להתמודד באופן מספק עם משימות סוכני רשתות חברתיות. הניתוח הכמותי והאיכותי מספק הצצה ראשונה לביצועי מודלים מובילים בסביבה ריאליסטית, ומזהה מגבלות מרכזיות כמו קושי בהבנת הקשרים חברתיים מורכבים. SoMe מדגים את הפער הקיים ומציע בסיס לבדיקות עתידיות.
בהשוואה לבנצ'מרקים קיימים, SoMe בולט במגוון המשימות והנתונים האמיתיים, מה שהופך אותו לכלי חיוני לפיתוח סוכנים מתקדמים. עבור עסקים ישראליים הפועלים ברשתות חברתיות, הבנצ'מרק מדגיש את הצורך בשיפור יכולות AI להתמודדות עם נתונים דינמיים. הוא פותח דלתות לאפליקציות כמו ניתוח סנטימנט מתקדם או זיהוי טרנדים בזמן אמת.
SoMe מספק testbed מאתגר אך משמעותי לסוכני מדיה חברתית עתידיים. החוקרים מפרסמים את הקוד והנתונים בגיטהאב, ומזמינים קהילת המפתחים לשפר את הביצועים. מה זה אומר לעסקים? הגיע הזמן להשקיע בסוכנים מותאמים אישית שיבינו את רשתות החברתיות כמו בני אדם.