בנצ'מרק חדש: Gemini ו-Claude מצטיינים בהוכחות מתמטיות ברמת דוקטורט
מחקר

בנצ'מרק חדש: Gemini ו-Claude מצטיינים בהוכחות מתמטיות ברמת דוקטורט

מחקר בודק ארבעה מודלי LLM מתקדמים על ספר לימוד קלאסי באלגוריתמים רנדומליים ומגלה פער משמעותי בביצועים

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • Gemini-3-Pro ו-Claude-Sonnet-4.5 מצטיינים עם 66% דיוק בהוכחות LaTeX

  • מודלים אחרים נשארים ב-40% בלבד, עם בעיות בהזיות ולוגיקה

  • מתאים לעזרה פדגוגית, אך לא להסקות קפדניות מלאות

  • קוד ותגובות זמינים בגיטהאב

בנצ'מרק חדש: Gemini ו-Claude מצטיינים בהוכחות מתמטיות ברמת דוקטורט

  • Gemini-3-Pro ו-Claude-Sonnet-4.5 מצטיינים עם 66% דיוק בהוכחות LaTeX
  • מודלים אחרים נשארים ב-40% בלבד, עם בעיות בהזיות ולוגיקה
  • מתאים לעזרה פדגוגית, אך לא להסקות קפדניות מלאות
  • קוד ותגובות זמינים בגיטהאב
האם בינה מלאכותית יכולה להתחרות במתמטיקאים ברמת דוקטורט? מחקר חדש שפורסם ב-arXiv בודק זאת באופן ישיר. החוקרים ביצעו בנצ'מרק מקיף על ארבעה מודלי שפה גדולים מתקדמים: GPT-5-Thinking, Gemini-3-Pro, Claude-Sonnet-4.5-Thinking ו-Grok-4. המשימה הייתה לייצר הוכחות פורמליות בפורמט LaTeX עבור סדרת למות ותרגילים מספר הלימוד הקלאסי 'אלגוריתמים רנדומליים' של מוטוואני ורגהאוון. התוצאות חושפות יכולות מרשימות אך לא שוות. המודלים המובילים, Gemini-3-Pro ו-Claude-Sonnet-4.5-Thinking, השיגו שיעור דיוק גבוה של כ-66%. הם הפגינו הבנה עמוקה של שיטת ההסתברות והלוגיקה הפורמלית, וייצרו הוכחות תקינות ברוב המקרים. לעומת זאת, המודלים האחרים, כולל GPT-5-Thinking ו-Grok-4, נותרו מאחור עם שיעור הצלחה של כ-40% בלבד. הניתוח האיכותי של ההוכחות שנוצרו מדגיש הבדלים במבנה הלוגי, בקיצוריות ובשיעור ההזיות (hallucinations). למרות ההתקדמות המהירה במודלי שפה גדולים (LLMs), נדרשת בדיקה קפדנית על תוכנית לימודים קלאסית ברמת גרדואט כדי להעריך את יכולות ההיגיון הבסיסיות שלהם. המחקר מציין דוגמאות קודמות כמו עבודתם של גאורגייב, גומז-סרנו, טאו וואגנר, שבהן AI חוקר בניות חדשות ומשפר גבולות קיימים, וכן תרומת GPT-5 לזרימות עבודה מדעיות. הממצאים מרמזים כי מודלים מתקדמים הגיעו לסף שמתאים לעזרה פדגוגית ברמת גרדואט ופורמליזציה, אך קיים פער משמעותי באמינות להסקת מסקנות מתמטיות קפדניות. עבור מנהלי עסקים ישראלים בתחום ההייטק, זה אומר ש-AI יכול לשמש ככלי עזר בלמידה ובפיתוח אלגוריתמים, אך דורש פיקוח אנושי. הקוד והתגובות המלאות זמינים בגיטהאב. מה המשמעות לעתיד? ככל שהמודלים ישתפרו, הם עשויים להאיץ גילויים מתמטיים, אך הבדיקות צריכות להמשיך כדי להבטיח אמינות. האם זה הצעד הראשון לבינה מלאכותית שתפרוץ גבולות המתמטיקה? קראו את המחקר המלא והחליטו בעצמכם.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
השראת IIT למודעות ב-LLMs: מסגרת תגמול חדשה
מחקר
2 דקות

השראת IIT למודעות ב-LLMs: מסגרת תגמול חדשה

האם מודלי שפה גדולים יכולים לפתח 'מודעות' דמוית אנושית? חוקרים מציגים מסגרת למידה מבוססת תגמול בהשראת תיאוריית המידע המשולב (IIT)... קראו עכשיו את הפרטים המלאים! (112 מילים)

Integrated Information TheoryLLMsAGI
קרא עוד
AutoRefine: שיפור סוכני LLM מתמשך מניסיון
מחקר
3 דקות

AutoRefine: שיפור סוכני LLM מתמשך מניסיון

בעולם שבו סוכני דגמי שפה גדולים נתקלים במשימות חדשות ללא למידה מניסיון, AutoRefine משנה את חוקי המשחק עם חילוץ דפוסי ניסיון דואליים ותחזוקה רציפה. תוצאות: 98.4% ב-ALFWorld ועד 27.1% ב-TravelPlanner. קראו עכשיו!

AutoRefineALFWorldScienceWorld
קרא עוד