בעידן שבו דגמי שפה גדולים (LLM) הופכים לבסיס לסוכני AI מתקדמים, היכולת לתכנון ארוך טווח וקבלת החלטות בזמן אמת היא המפתח להצלחה במשימות מורכבות. משחקי אסטרטגיה בזמן אמת (RTS) מהווים שדה ניסוי אידיאלי לבדיקת יכולות אלה, שכן הם דורשים אסטרטגיה מקרו וטקטיקה מיקרו. אולם, סביבות קיימות סובלות מדרישות חישוב גבוהות או חוסר תמיכה בתצפיות טקסטואליות. כאן נכנסת TowerMind – סביבת משחק חדשה מסוג הגנת מגדלים (Tower Defense), שמשמרת את חוזקות הבדיקה של RTS תוך דרישות חישוב נמוכות ותמיכה רב-מודלית: פיקסלים, טקסט ומצב משחק מובנה. (72 מילים)
TowerMind, שפותחה על בסיס תת-ז'אנר TD של RTS, מאפשרת הערכת סוכני LLM בצורה יעילה. היא כוללת תצפיות מולטי-מודליות, תמיכה בבדיקת הזיות (hallucination) ורמת התאמה אישית גבוהה. החוקרים עיצבו חמישה רמות בנצ'מרק לבדיקת דגמי LLM פופולריים תחת הגדרות קלט שונות. התוצאות חושפות פער ביצועים משמעותי בין LLM למומחי אנוש בשני מישורים: יכולות והזיות. בנוסף, נבדקו שני אלגוריתמים קלאסיים של למידת חיזוק: Ape-X DQN ו-PPO. (98 מילים)
הניסויים מדגישים מגבלות מרכזיות בהתנהגות LLM: אימות תכנון לקוי, חוסר רב-סופיות בקבלת החלטות (multifinality) ושימוש לא יעיל בפעולות. לדוגמה, LLM נוטים לתכנן ללא בדיקה מספקת, מה שמוביל להחלטות חלקיות. TowerMind משלימה את הנוף הקיים של סביבות RTS על ידי עיצוב קל משקל ורב-מודלי, ומציגה בנצ'מרק חדש לתחום סוכני AI. הקוד זמין בגיטהאב, מה שמאפשר למפתחים לבדוק ולשפר דגמים משלהם. (92 מילים)
TowerMind בולטת בהשוואה לסביבות RTS אחרות, שדורשות משאבים כבדים או חסרות תמיכה בטקסט – חיוני ל-LLM. היא מאפשרת בדיקה מהירה של יכולות תכנון אסטרטגי והתאמה טקטית, רלוונטי במיוחד לפיתוח סוכנים עסקיים כמו אוטומציה תעשייתית או ניהול משברים. בישראל, שבה חברות כמו Mobileye ו-Wiz משקיעות בסוכני AI, סביבה כזו יכולה להאיץ פיתוח מקומי. (85 מילים)
למנהלי עסקים ומהנדסי AI, TowerMind מצביעה על הצורך בשיפור תכנון וגמישות ב-LLM. היא מזמינה ניסויים חדשים להפחתת הזיות ושיפור יעילות. האם סוכני LLM יוכלו להתחרות באנשים במשחקים מורכבים? קוד פתוח זמין עכשיו – הגיע הזמן לבדוק בעצמכם. (68 מילים)