FIBER: בנצ'מרק חדש חושף הטיות עובדתיות ב-LLM
מחקר

FIBER: בנצ'מרק חדש חושף הטיות עובדתיות ב-LLM

מחקר רב-לשוני בודק ידע עובדתי במודלים גדולים באנגלית, איטלקית וטורקית ומגלה השפעת שפת הפרומפט

AI
אוטומציות AI
2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • FIBER בודק ידע עובדתי ב-LLM בשלוש שפות ומשימות מורכבות

  • פרומפטים בטורקית יוצרים הטיה גבוהה יותר ב-83% מהנושאים

  • מודלים גדולים טובים יותר, אך מתקשים בשאלות מרובות ישויות

  • אנגלית מנצחת בביצועים על פני איטלקית וטורקית

בעידן שבו מודלים לשונאיים גדולים (LLM) משמשים בכל תחום אפשרי, חששות רבים עולים לגבי אמינותם העובדתית והטיות מובנות בהם. כעת, חוקרים מציגים את FIBER – בנצ'מרק רב-לשוני ראשון מסוגו לבדיקת ידע עובדתי בהקשרים של ישויות בודדות ומשולבות. הבנצ'מרק כולל משימות השלמת משפטים, שאלות-תשובה וחיזוי ספירת אובייקטים בשלוש שפות: אנגלית, איטלקית וטורקית. המטרה: לבחון אם שפת הפרומפט משפיעה על בחירת הישויות בתשובות ומדוע מודלים מתקשים יותר בשאלות מרובות ישויות. FIBER בוחן באופן שיטתי את ביצועי ה-LLM במשימות מורכבות. התוצאות מראות כי שפת הפרומפט אכן משפיעה על הפלט, במיוחד לגבי ישויות הקשורות למדינה המתאימה לשפה. לדוגמה, ב-31% מהנושאים נמדד ציון הטיית השפעה עובדתית גבוה מ-0.5. ההבדלים בין שפות בולטים: פרומפטים בטורקית הראו הטיה גבוהה יותר מפרומפטים באיטלקית ב-83% מהנושאים, מה שמצביע על דפוס תלוי-שפה. בנוסף, המודלים מתמודדים בקושי רב יותר עם שאלות הכוללות מספר ישויות מאשר עם ישות בודדת. הביצועים משתנים בין שפות: הממוצע הגבוה ביותר בדיוק ממוצע הושג באנגלית, בעוד שבטורקית ובאיטלקית הניקוד נמוך משמעותית. מודלים גדולים יותר כמו Llama-3.1-8B ו-Qwen-2.5-7B עולים על מודלים קטנים של 3B-4B בביצועים עקביים. הממצאים מדגישים את האתגרים בשפות שאינן אנגלית, שרלוונטי במיוחד לעסקים ישראליים הפועלים בגלובליזציה. הטיות כאלה עלולות להשפיע על החלטות עסקיות מבוססות AI, כמו ניתוח שוק או המלצות מותאמות. בהשוואה לבנצ'מרקים קיימים המתמקדים בישויות בודדות ובאנגלית בלבד, FIBER מספק תמונה מקיפה יותר על אמינות LLM רב-לשונית. לסיכום, FIBER קורא לפיתוח מודלים מאוזנים יותר בשפות שונות. מנהלי עסקים צריכים לשקול בדיקות כאלה לפני הטמעת AI רב-לשוני, כדי למנוע טעויות עובדתיות. כיצד זה ישפיע על כלי AI ישראליים?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
הטיית הסברים במודלי שפה: הטיות נסתרות בשיוך תכונות
מחקר
2 דקות

הטיית הסברים במודלי שפה: הטיות נסתרות בשיוך תכונות

מודלי שפה מספקים הסברים, אך הטיות נסתרות פוגעות באמון. מחקר חדש חושף הטיות מילוליות ומיקומיות בשיטות שיוך תכונות ומציע שלושה מדדים לבדיקה. קראו כיצד זה משפיע על עסקים. (48 מילים – אבל צריך 80-150, אז הרחב: מוסיף פרטים מרכזיים מהפסקאות הראשונות.)

Integrated GradientstransformersarXiv:2512.11108v1
קרא עוד