בעולם הבינה המלאכותית, כל השקת מודל שפה גדול חדש מחברות כמו OpenAI, גוגל או Anthropic מעוררת מתח רב. כולם ממתינים לעדכון הגרף האיקוני של METR, ארגון מחקר ללא מטרות רווח ששמו מייצג Model Evaluation & Threat Research. הגרף הזה, שפורסם לראשונה במרץ האחרון, מציג התקדמות אקספוננציאלית ביכולות AI, והדגמים החדשים עוקפים אפילו את המגמה הזו. לדוגמה, Claude Opus 4.5 של Anthropic, שהושק בנובמבר, הוכיח יכולת לבצע משימות שדורשות מבני אדם כחמש שעות – שיפור עצום מעבר לתחזיות.
בדצמבר פרסמה METR כי Opus 4.5 מסוגל לבצע באופן עצמאי משימה שתופסת אדם חמש שעות, מה שגרם לחוקרי בטיחות באנטרופיק לשנות כיווני מחקר ואף להביע חשש ציבורי. אולם, ההערכות מגיעות עם רצועות שגיאה גדולות: ייתכן שהמודל מצליח רק במשימות של שעתיים, או עד 20 שעות. "יש דרכים רבות שבהן אנשים קוראים יותר מדי לתוך הגרף", אומרת סידני וון ארקס, חברת צוות טכני ב-METR. הגרף אינו מודד יכולות AI כלליות, אלא בעיקר משימות קידוד, כאשר קושי נמדד בזמן שמפתחים אנושיים לוקחים.
כדי לבנות את הגרף, אספה METR מאגר משימות מקודדות, החל משאלות רב-ברירה ועד אתגרים מורכבים. בני אדם ביצעו אותן כדי לקבוע זמן בסיס אנושי – משניות עד שעות. כשהודרכו מודלי שפה גדולים על המשימות, חושב "אופק הזמן" שלהם: הנקודה שבה הם מצליחים ב-50% מהמשימות המקבילות לזמן אנושי מסוים. כך, מודלים מתקדמים מגיעים לאופק של שעות, והמגמה מראה הכפלה כל שבעה חודשים בערך: 9 שניות ב-2020, 4 דקות ב-2023, 40 דקות בסוף 2024.
הגרף הפך לסמל, אך סובל מפרשנויות שגויות נפוצות. רבים חושבים שהמספרים מייצגים זמן פעולה עצמאי של המודל, אך הם מודדים זמן אנושי למשימות שהמודל מצליח בהן. תומאס קווה, אחד ממחברי המאמר המקורי, נאלץ לתקן זאת שוב ושוב. מומחים כמו איניולובה דבורה ראג'י שואלים אם זמן הוא מדד אמין לקושי, שכן משימות ארוכות לא תמיד קשות יותר. וון ארקס הודתה כי גם היא ספקנית בהתחלה, אך הנתונים שכנעו אותה במגמה.
הגרף זכה לתהודה רבה, כולל בסיפור מדע בדיוני ויראלי AI 2027 שחזה סופר-אינטליגנציה עד 2030, ובפוסט של Sequoia Capital שטען כי AGI יגיע ב-2026. אולם, הוא מתמקד במשימות קידוד "מסודרות", לא בעולם האמיתי המלא בבלגן. מחקרים של METR מראים כי AI מקודד עלול להאט מהנדסים, והמגמה קיימת גם בתחומים אחרים אך פחות פורמלית.
למרות מגבלותיו, הגרף מספק כלי מדעי חשוב להבנת התקדמות AI. מומחים כמו דניאל קאנג וגארי מרקוס משבחים את העבודה המדוקדקת. עבור מנהלי עסקים ישראלים, זה אומר לשקול כיצד AI ישנה תהליכי פיתוח תוכנה: האם להשקיע בכלי קידוד מתקדמים שמקצרים זמני עבודה? המגמה מצביעה על פוטנציאל אוטומציה גבוה, אך עם סיכונים ש-METR בודקת.
METR נוסדה להערכת סיכוני AI מתקדם, ועובדת עם חברות על בדיקות מפורטות. הצוות מודה בפגמים – הגרף אינו מושלם – אך מאמין שהמגמה תימשך. מה זה אומר לעתיד? מנהלים צריכים להתכונן לשינוי מהיר, לבחון כלים חדשים ולשלב בדיקות בטיחות. האם הגרף הזה ישנה את חוקי המשחק בעסקים שלכם?