היגיון סיבתי במודלי שפה: השוואה חדשה לבני אדם
מחקר

היגיון סיבתי במודלי שפה: השוואה חדשה לבני אדם

מחקר חדש בוחן האם LLMs חושבים כמו בני אדם במשימות סיבתיות מורכבות באמצעות רשתות בייסיאניות רועשות

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • בדיקת 20+ LLMs ו-11 משימות סיבתיות על גרף קוליידר.

  • שימוש בשיטות Direct ו-CoT להערכת הסתברויות.

  • מודל leaky noisy-OR CBN עם פרמטרים θ לבחירת מודל מנצח via AIC.

  • השוואה ישירה לבני אדם חושפת יישור, עקביות וחתימות ייחודיות.

היגיון סיבתי במודלי שפה: השוואה חדשה לבני אדם

  • בדיקת 20+ LLMs ו-11 משימות סיבתיות על גרף קוליידר.
  • שימוש בשיטות Direct ו-CoT להערכת הסתברויות.
  • מודל leaky noisy-OR CBN עם פרמטרים θ לבחירת מודל מנצח via AIC.
  • השוואה ישירה לבני אדם חושפת יישור, עקביות וחתימות ייחודיות.
שאלת טבע הבינה – בבני אדם ובמכונות – מטרידה חוקרים כבר שנים. למרות שאין הגדרה אחידה, היכולת להיגיון סיבתי נחשבת למרכיב מרכזי בבינה (Lake et al., 2017). מחקר חדש, שפורסם ב-arXiv, בודק את היגיון הסיבתי במודלי שפה גדולים (LLMs) ובבני אדם באותן משימות בדיוק, כדי להבין טוב יותר את החוזקות והחולשות שלהם. השאלות המרכזיות: האם LLMs מיושרים עם בני אדם באותן משימות? האם הם עקביים ברמת המשימה? והאם יש להם חתימות היגיון ייחודיות? המחקר בוחן יותר מ-20 מודלי LLMs על 11 משימות סיבתיות בעלות משמעות סמנטית, המבוססות על גרף קוליידר (C1 → E ← C2). המשימות נבדקות בשתי גישות: ישירה (תשובה חד-פעמית כהערכת הסתברות שהצומת שואלת היא 1) ושרשרת מחשבה (CoT – חשיבה קודם, ואז תשובה). לפי המחקר, שיפוטים אלה מודלים באמצעות רשת בייסיאנית סיבתית (CBN) מסוג leaky noisy-OR, עם פרמטרים θ=(b, m1, m2, p(C)) בטווח [0,1], כולל התפלגות קודמת משותפת p(C). מודל המנצח נבחר באמצעות AIC בין וריאנט סימטרי בן 3 פרמטרים (m1=m2) לבין א-סימטרי בן 4 פרמטרים (m1≠m2). גישה זו מאפשרת לפרש את חוזקות הסיבתיות ואת האמונות הדליפות של המודלים. המחקר מדגיש את החשיבות של השוואה ישירה בין LLMs לבני אדם, כדי לבחון אם מכונות מתקרבות ליכולות אנושיות בהיגיון סיבתי – תחום קריטי לפיתוח AI מתקדם. בהקשר עסקי, הבנת היגיון סיבתי ב-LLMs חיונית לחברות ישראליות המפתחות מערכות אוטומציה. אם מודלים כאלה לא מיושרים עם חשיבה אנושית, זה עלול להוביל לשגיאות בקבלת החלטות אוטומטיות. המחקר מציע כלים לניתוח מדויק יותר של תפקוד AI, מה שיכול לשפר אפליקציות כמו ניתוח נתונים סיבתיים או תכנון אסטרטגי. לסיכום, המחקר פותח דלת להערכה מדעית טובה יותר של בינה מכנית. מנהלי טכנולוגיה בישראל צריכים לעקוב אחר התפתחויות כאלה, כדי לשלב AI בצורה אמינה בעסקים. מה תהיה החתימה הסיבתית הייחודית של הדור הבא של LLMs?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
השראת IIT למודעות ב-LLMs: מסגרת תגמול חדשה
מחקר
2 דקות

השראת IIT למודעות ב-LLMs: מסגרת תגמול חדשה

האם מודלי שפה גדולים יכולים לפתח 'מודעות' דמוית אנושית? חוקרים מציגים מסגרת למידה מבוססת תגמול בהשראת תיאוריית המידע המשולב (IIT)... קראו עכשיו את הפרטים המלאים! (112 מילים)

Integrated Information TheoryLLMsAGI
קרא עוד
AutoRefine: שיפור סוכני LLM מתמשך מניסיון
מחקר
3 דקות

AutoRefine: שיפור סוכני LLM מתמשך מניסיון

בעולם שבו סוכני דגמי שפה גדולים נתקלים במשימות חדשות ללא למידה מניסיון, AutoRefine משנה את חוקי המשחק עם חילוץ דפוסי ניסיון דואליים ותחזוקה רציפה. תוצאות: 98.4% ב-ALFWorld ועד 27.1% ב-TravelPlanner. קראו עכשיו!

AutoRefineALFWorldScienceWorld
קרא עוד