בעידן שבו מודלי שפה גדולים (LLM) עוברים למכשירי קצה מוגבלים במשאבים, עולה השאלה: האם כיווץ הדיוק פוגע ביכולות ההיגיון הסיבתי הקריטיות לקבלת החלטות? מחקר חדש שפורסם ב-arXiv (2512.13725v1) בוחן זאת בפעם הראשונה באופן שיטתי על כל שלוש רמות סולם הסיבתיות של ג'ודעון פרל – אסוציאציה, התערבות ונגדי-עובדתי – במודל Llama 3 8B. החוקרים מצאו כי ההיגיון הסיבתי נותר יציב ברובו תחת קוונטיזציה ל-INT8 ו-NF4, מה שמאפשר פריסה יעילה יותר בסביבות מאתגרות.
המחקר השתמש במבחן CLadder בעל 3,000 דוגמאות מייצגות כדי לבחון את ההשפעה על כל רמת סולם פרל בנפרד. בתוצאות, דיוק הרמה הכולל ב-Llama 3 8B נשמר כמעט ללא שינוי, כאשר NF4 הראה ירידה של פחות מאחוז אחד בלבד. עם זאת, שאילתות התערבות ברמה 2 היו הרגישות ביותר לאובדן דיוק, בעוד ההיגיון הנגדי-עובדתי ברמה 3 הוכח יציב יותר, אך חשף חולשות הטרוגניות בסוגי שאלות כמו הטיית קוליידר והתאמת דלת אחורית.
במבחן CRASS לבדיקת היגיון נגדי-עובדתי שכללי, הביצועים היו כמעט זהים בין רמות הדיוק השונות, מה שמעיד כי בנצ'מרקים קיימים אינם מספיק רגישים כדי לחשוף סטיות הנגרמות מכיווץ. זאת לעומת זאת, בשימוש ב-Graph Retrieval Augmented Generation (GraphRAG) עם גרפים סיבתיים אמיתיים, נצפתה שיפור עקבי של 1.7% בדיוק התערבותי ב-NF4, מה שמפצה חלקית על ההשפעות השליליות של הקיצור.
ממצאים אלה מדגישים עמידות מפתיעה של היגיון סיבתי לכיווץ לארבעה ביטים, ומצביעים על כך ששדרוג מבוסס גרפים יכול לחזק באופן סלקטיבי את ההיגיון ההתערבותי. עם זאת, בנצ'מרקים נגדיים-עובדתיים קיימים אינם מצליחים ללכוד שבירות עמוקות יותר, מה שמצריך פיתוח כלים מתקדמים יותר. עבור עסקים ישראלים המפתחים מערכות AI קצה, זו הזדמנות לפרוס מודלים יעילים מבלי לוותר על יכולות סיבתיות מתקדמות.
בקיצור, המחקר מספק מפת אמפירית ראשונית של היגיון סיבתי מכווץ ומדריך מעשי לפריסת מערכות AI סיבתיות יעילות. מנהלי טכנולוגיה צריכים לשקול GraphRAG כדי למקסם ביצועים – האם הגיע הזמן לבדוק את המודלים המכווצים שלכם?