CausalReasoningBenchmark: מבחן חדש לבדיקת הסקה סיבתית ב-AI

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

CausalReasoningBenchmark: מבחן חדש לבדיקת הסקה סיבתית ב-AI

**CausalReasoningBenchmark הוא מדד חדש שבודק אם מערכת AI יודעת לא רק לחשב תוצאה סיבתית, אלא גם להגדיר נכון את תכנון המחקר.** לפי המאמר, מודל שפה מתקדם זיהה את האסטרטגיה הכללית ב-84% מהמקרים, אך הגיע לנכונות מלאה של מפרט הזיהוי רק ב-30%. עבור עסקים בישראל, המשמעות ברורה: כלי AI לניתוח קמפיינים, שירות ומכירות עלול להישמע משכנע גם כשהוא מפספס את משתני הבקרה או קבוצת הביקורת. לכן, לפני שמחברים AI ל-Zoho CRM, ל-WhatsApp Business API או ל-N8N, צריך לבדוק לא רק דשבורד ותוצאה — אלא גם איך המערכת מגדירה טיפול, תוצאה ושגיאת תקן.

CausalReasoningBenchmark Hugging Face Average Treatment Effect

קרא עוד