FIFE: בנצ'מרק חדש בודק עמידה בהוראות AI בפיננסים
מחקר

FIFE: בנצ'מרק חדש בודק עמידה בהוראות AI בפיננסים

מודלי שפה מתקשים במשימות מורכבות – מחקר חושף היררכיה ברורה בין דגמים פתוחים לסגורים

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • FIFE כולל 88 פרומפטים פיננסיים מאתגרים עם אימות מדויק.

  • דגם פתוח מוביל: 76% הצלחה, מעל מודלים מסחריים.

  • מודלי קוד פתוח מפגרים ב-45% בלבד.

  • משאבים פתוחים לשיפור AI בפיננסים זמינים כעת.

FIFE: בנצ'מרק חדש בודק עמידה בהוראות AI בפיננסים

  • FIFE כולל 88 פרומפטים פיננסיים מאתגרים עם אימות מדויק.
  • דגם פתוח מוביל: 76% הצלחה, מעל מודלים מסחריים.
  • מודלי קוד פתוח מפגרים ב-45% בלבד.
  • משאבים פתוחים לשיפור AI בפיננסים זמינים כעת.
בעולם הפיננסי שבו דיוק הוא שם המשחק, מודלי שפה גדולים (LLMs) נתקלים בקשיים רציניים בעמידה בהוראות מורכבות ומקושרות. חוקרים מפרסמים את FIFE – בנצ'מרק חדש ומאתגר במיוחד שמעריך את יכולותיהם בתחום ניתוח פיננסי. הבנצ'מרק כולל 88 פרומפטים שנכתבו על ידי בני אדם, ומשלב מערכת אימות עם אילוצים ניתנים לשילוב שמאפשרים אותות תגמול מדויקים. המחקר בדק 53 מודלים – מסחריים, פתוחי משקל וקוד פתוח – בהגדרת zero-shot, ללא אימון מוקדם. תוצאות הבדיקה חושפות היררכיה ברורה: הדגם הפתוח הטוב ביותר השיג 76.1% בעמידה מחמירה ו-79.5% בעמידה גמישה, ומעביר את המערכת המסחרית המובילה (65.9% מחמיר / 70.5% גמיש). לעומת זאת, מודלי קוד פתוח הטובים ביותר נשארו מאחור עם 45.5% מחמיר ו-48.9% גמיש. אפילו הדגמים המובילים נכשלו בעמידה מושלמת בדרישות המורכבות של FIFE, מה שמדגיש אתגרים מתמשכים. FIFE נועד להתמודד עם חולשות ידועות של מודלי שפה במשימות פיננסיות בעלות סיכון גבוה, שבהן שגיאות עלולות להיות יקרות. הבנצ'מרק משתמש באילוצים ניתנים לבדיקה כדי לספק משוב מפורט, מה שמאפשר שיפור באמצעות למידת חיזוק (RL). המחקר מדגיש את הצורך במשאבים כאלה לקידום מחקר בתחום הפיננסי. למנהלי עסקים ישראלים בפיננסים ובטק, התוצאות מצביעות על העדיפות לדגמים פתוחי משקל על פני סגורים במשימות מורכבות. בישראל, שבה תעשיית הפיננסים משלבת AI במהירות, כלי כמו FIFE יכול לסייע בבחירת מודלים אמינים יותר. השקעה בשיפור עמידה בהוראות עשויה להפחית סיכונים ולהגביר יעילות. המאמר משחרר את הנתונים והקוד כמשאב פתוח, ומזמין חוקרים להשתמש בו. מה תעשו כדי לוודא שמודלי ה-AI שלכם עומדים באתגר הפיננסי?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד