ניתוח
6 דקות
מ־arXiv cs.AI
LemmaBench: מדד חי למודלי שפה במתמטיקה מחקרית
**LemmaBench הוא מדד חי שבודק מודלי שפה על מתמטיקה מחקרית עדכנית, ולא על אוסף שאלות ישן. לפי התקציר ב-arXiv, המודלים המובילים מגיעים כיום לדיוק של 10%-15% בלבד בהוכחת משפטים בניסיון ראשון.** עבור עסקים בישראל, זהו תמרור אזהרה חשוב: מודלי שפה מצוינים בניסוח, סיכום וסיווג, אך לא תמיד בהסקה אמינה בתהליכים מורכבים. לכן, כאשר מחברים AI ל-WhatsApp, Zoho CRM או N8N, צריך לבנות בקרות, להגדיר אדם מאשר לכל פעולה רגישה, ולהתחיל בפיילוט מדוד. המסר המרכזי: לא לאמץ AI כ"קופסה שחורה", אלא כמרכיב בתוך תהליך מבוקר עם מדדי שגיאה ברורים.
קרא עוד