האם סוכני שפה גדולים (LLM) מסוגלים להתמודד עם אתגרי תכנון ארוך טווח בסביבות אינטראקטיביות? מחקר חדש מ-arXiv מציג את ProAct, מסגרת חדשנית שמאפשרת לסוכנים לפתח חשיבה צופה מדויקת ללא עלויות מחשוב כבדות. הבעיה העיקרית: שגיאות מצטברות בסימולציות עתידיות. ProAct פותרת זאת בשני שלבים אימון, ומשיגה תוצאות מרשימות גם במודל בגודל 4 מיליארד פרמטרים. (72 מילים)
ProAct מבוססת על זיקוק מבט קדימה מבוסס סביבה (GLAD). בשלב הראשון, הסוכן עובר אימון מפוקח על מסלולים הנגזרים מחיפוש מבוסס סביבה. במקום חיפוש יקר בזמן אי-אימון, GLAD דוחסת עצי חיפוש מורכבים לשרשראות תהייה סיבתיות תמציתיות. כך לומד הסוכן את הלוגיקה של חשיבה צופה, תוך חיסכון משמעותי במשאבים. החוקרים מדווחים על שיפור ניכר בדיוק התכנון. (85 מילים)
בשלב השני, ProAct מציגה את מבקר מונטה-קרלו (MC-Critic), מעריך ערך עזר פשוט לשילוב באלגוריתמי גרדיאנט מדיניות כמו PPO ו-GRPO. המבקר משתמש בהרצות סביבה קלות כדי לכייל הערכות ערך, ומספק אות נמוך רעש לשיפור יציב. זה מאפשר אופטימיזציה יציבה ללא צורך בהערכות ערך מבוססות מודל יקרות. השילוב בין GLAD ל-MC-Critic יוצר סוכן חזק יותר. (82 מילים)
ניסויים בסביבות סטוכסטיות כמו 2048 ובדטרמיניסטיות כמו Sokoban הוכיחו עליונות. מודל ProAct בגודל 4B עלה על כל הבסיסים הפתוחים וקרב למודלים סגורים מתקדמים. הסוכן מפגין הכללה חזקה לסביבות חדשות. זו התקדמות משמעותית בתחום סוכני LLM אוטונומיים. (68 מילים)
למנהלי עסקים בישראל, ProAct פותחת אפשרויות חדשות לאוטומציה מתקדמת: מרובוטיקה תעשייתית ועד משחקי אסטרטגיה עסקיים. הקוד והמודלים זמינים ב-GitHub, מה שמאפשר ניסויים מיידיים. כיצד תשלבו חשיבה צופה במערכות ה-AI שלכם? (43 מילים)