בעולם שבו סוכני AI מבוססי מודלי שפה גדולים (LLM) פועלים בסביבות תצפית חלקית, אתגר מרכזי הוא שיפור ההסקה ללא אימון נוסף. מאמר חדש מ-arXiv מציג סוכן אדפטיבי בזמן מבחן שמבצע הסקה חקרנית באמצעות שיפור אמונה מונחה פוסטריורי. השיטה אינה מסתמכת על עדכוני גרדיאנט או אימון נוסף, ומבטיחה התאמה טובה יותר למצבי סביבה נסתרים. לפי המחקר, הגישה הזו משנה את חוקי המשחק בפעולת סוכנים גופניים מעוגנים בעולם.
הסוכן שומר על אמונה מובנית חיצונית לגבי מצב הסביבה, ומעדכן אותה באופן איטרטיבי באמצעות תצפיות מותנות בפעולות. הוא בוחר פעולות על ידי מקסום רווח מידע צפוי בחלל האמונות. הערכת רווח המידע נעשית באמצעות תחליף קל משקל המבוסס LLM, ללא צורך בחישובים כבדים. השיטה כוללת גם תגמול חדשני שמודד התאמה בין האמונה הפוסטריורית לתצורת הסביבה האמיתית, ומאפשר הערכת הצלחת ההתאמה.
בניסויים, השיטה עלתה על שיטות בסיסיות כמו שיפורי פרומפט או שילוב גישה למידע, בהתאמה למצבי עולם נסתרים. היא מציגה עלויות שילוב נמוכות בהרבה, מה שהופך אותה לפרקטית ליישום מיידי. החוקרים מדגישים כי הגישה מאפשרת פעולה יעילה בסביבות חלקיות מבלי להסתמך על משאבים חישוביים כבדים.
המשמעות של ההסקה החקרנית המונחית אמונה היא בהרחבת יכולות סוכני LLM לגופניים, כמו רובוטים או סוכנים וירטואליים בסביבות מורכבות. בהשוואה לשיטות מסורתיות, היא מציעה דרך חסכונית להתמודד עם אי ודאות, רלוונטית לפיתוח מערכות אוטונומיות. בישראל, שבה מחקר AI מתקדם, שיטה זו עשויה לשמש בסטארט-אפים בתחום הרובוטיקה.
סיכום: השיטה החדשה פותחת דלתות לשיפור סוכנים מבלי להזדקק לאימון מחדש. מנהלי טכנולוגיה צריכים לשקול אינטגרציה של גישות כאלה בפרויקטים עתידיים. מה תהיה ההשפעה על תעשיית ה-AI?