LemmaBench: מדד חי למודלי שפה במתמטיקה מחקרית

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

LemmaBench: מדד חי למודלי שפה במתמטיקה מחקרית

**LemmaBench הוא מדד חי שבודק מודלי שפה על מתמטיקה מחקרית עדכנית, ולא על אוסף שאלות ישן. לפי התקציר ב-arXiv, המודלים המובילים מגיעים כיום לדיוק של 10%-15% בלבד בהוכחת משפטים בניסיון ראשון.** עבור עסקים בישראל, זהו תמרור אזהרה חשוב: מודלי שפה מצוינים בניסוח, סיכום וסיווג, אך לא תמיד בהסקה אמינה בתהליכים מורכבים. לכן, כאשר מחברים AI ל-WhatsApp, ‏Zoho CRM או N8N, צריך לבנות בקרות, להגדיר אדם מאשר לכל פעולה רגישה, ולהתחיל בפיילוט מדוד. המסר המרכזי: לא לאמץ AI כ"קופסה שחורה", אלא כמרכיב בתוך תהליך מבוקר עם מדדי שגיאה ברורים.

LemmaBench OpenAI Anthropic

קרא עוד