בעידן שבו דגמי שפה גדולים כמו GPT משוחחים באופן טבעי עם משתמשים, מתגלה חולשה מפתיעה: הם מתקשים לחזות את ההתבטאות הבאה של דובר אנושי. חוקרים מציגים את SayNext-Bench, בנצ'מרק חדש לבדיקת יכולת זו אצל LLM ו-MLLM, תוך שימוש ברמזים רב-מודליים כמו מחוות, מבטים וטון רגשי. המחקר מדגיש כי בני אדם מצליחים בכך בקלות, ומציע דרך לשפר את ה-AI.
SayNext-Bench בוחן דגמים על חיזוי תגובות מותאמות להקשר ממגוון תרחישים אמיתיים. לצורך הבנצ'מרק, נבנה SayNext-PC – מאגר נתונים גדול של דיאלוגים עשירים ברמזים רב-מודליים. החוקרים פיתחו SayNext-Chat, מודל MLLM עם עיצוב בהשראת קוגניציה הכולל נתיב כפול לחיזוי, המדמה עיבוד חיזויי בשיחה. לפי התוצאות, המודל עולה על דגמי MLLM המובילים.
בבדיקות, SayNext-Chat השיג ביצועים גבוהים יותר בהתאמה לקסיקלית, דמיון סמנטי ועקביות רגשית. המחקר מוכיח כי חיזוי התבטאות הבאה אפשרי עם LLM מרמזים רב-מודליים, ומדגיש שני גורמים מרכזיים: תפקידם הבלתי נמנע של רמזים רב-מודליים ועיבוד חיזויי אקטיבי, החסרים ב-MLLM הנוכחיים.
המשמעות של SayNext-Bench היא בהדגשת הצורך בשילוב רמזים ויזואליים וקוליים בדגמי שיחה. בעוד LLM מצטיינים בשיחה רטרואקטיבית, הם נכשלים בחיזוי פרואקטיבי כמו בני אדם. זה רלוונטי במיוחד לעסקים ישראליים המפתחים צ'טבוטים, שם חיזוי מדויק יכול לשפר חוויית משתמש ומכירות.
המחקר פותח כיוון חדש לפיתוח AI רגיש להקשר יותר, אנושי יותר. מנהלי טכנולוגיה צריכים לשקול אימוץ מודלים כמו SayNext-Chat כדי לשדרג אינטראקציות. האם דגמי AI הבאים יצליחו לחזות אתכם? הבנצ'מרק והמודל זמינים באתר https://saynext.github.io/.