מחקר
6 דקות
מ־arXiv cs.AI
The Token Games: דירוג מודלי שפה עם דו-קרבות פאזלים בסגנון Python
**The Token Games (TTG) היא מסגרת הערכה למודלי שפה שבה מודלים יוצרים חידות זה לזה בפורמט פאזלי Python שניתן לאימות אוטומטי (True/False), ואת תוצאות הדו-קרבות מסכמים לדירוג Elo.** לפי המאמר arXiv:2602.17831v1, החוקרים בחנו 10 מודלים וקיבלו דירוג שמתאים מקרוב לבנצ’מרקים כמו Humanity’s Last Exam—בלי אוצרות אנושית של שאלות. לעסקים בישראל זה רלוונטי כי אפשר להפוך בחירת מודל להחלטה מדידה: להריץ “ליגה” בין מודלים לפני פריסה ב-WhatsApp Business API ולוודא שהמודל לא רק עונה יפה, אלא גם עומד בבדיקות תקינות לפני כתיבה ל-Zoho CRM דרך N8N.
קרא עוד